产品评测 22小时前 130 阅读 0 评论

模型即 Agent 的含金量:Kimi深度研究功能详评

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

大家好,我是歸藏(guizang),今天给大家带来 Kimi 的深度研究能力体验和介绍。


上周五 Kimi 更新了他们的深度研究能力,收到测试资格之后昨天深度使用了一天。


发现 Kimi 深度研究在内容丰富度、准确性和逻辑严谨性上都非常能打。


与其他近期类似产品不同,月之暗面这个深度研究是他们自己训练的基于端到端自主强化学习技术训练的Agent 模型。


而且他们会开源基础的预训练模型和后面经过强化学习的模型,这个太值得期待了。


HLE (Humanity’s Last Exam)红杉的 Agent 测试上 kimi 深度研究模型都取得了不错的成绩。




我最近一直在思考这类产出深度研究报告的产品或者模型,他的核心考核指标是什么?


感觉大家关注的主要是其信源的质量、信息的覆盖度以及逻辑的严谨性,刚好 Kimi 深度研究在两个方面的优化上保证了这几个指标。



  • 首先 Kimi 深度研究对于信息有自主甄别能力,他会自己规划几十个搜索关键词和阅读上百个网页,然后找出可信度靠前的内容进行引用。
  • 然后在信息覆盖度上,基本上每篇生成的研究报告都会超过一万字,我有个测试有 2.2 万字,当然 LLM 不可能完全避免幻觉,他们也通过文中内嵌、高亮跳转、原文溯源这几个方式让用户自己进行判断。


测试1:Labubu 爆火原因分析



最近 Labubu 真的太火了,当然这几天热度有点下降。


我不太了解泡泡玛特这个企业和 Labubu 这个 IP,对于这个为什么会爆火完全没概念。


帮我分析泡泡玛特个旗下IP labubu的发展历程和最近的爆火原因


他会先进行简单的搜索询问需要分析的细节是什么,我这里选了都需要。




开始搜索后看他的搜索逻辑也很有意思。


先会整体大致搜索所有的内容,然后得出一个笼统的结论之后会开始分别搜索每个部分的内容。


先搜了粉丝经济,然后是爆火的原因,之后他发现进一轮爆火的原因可能跟在海外的传播有关系,然后就开始搜索海外的推广路径。


然后他从一篇内容发现 labubu 早期没有那么受欢迎,所以对早期的发展开始感兴趣,从而搜索 IP 的发展历程。


最后还发现最近的 Labubu 开始暴跌了,所以非常自然的开始检索暴跌的原因。






之后经过漫长的内容整理,他给出了完整的报告,我看了一下字数居然有接近 1.9 万字。


而且从目录看就能看到整个报告逻辑链条非常完整,涵盖了 IP 设计、产品演变、运营推广策略、粉丝经济等多个方面。



先描述了 Labubu 这个 IP 的设计理念,然后是产品的迭代和演变,说完 IP 设计之后才说基于 IP 的运营策略,这个时候有了前面的背景信息之后阅读者才能更好的理解为什么这样运营这个 IP。






在说完营销推广之后,作为有一定金融属性的产品,自然而然的就会延伸到粉丝经济和二手市场上。




这里的分析和内容检索非常强,从泡泡玛特自己的运营和启动,到最后粉丝自发的生产 UGC 内容都有提及,特别是最重要的娃衣。




然后在所有的信息都说完之后他终于开始总结爆火的原因,包含了上面说的所有的内容,IP、设计师、市场营销和二手市场炒作共同促成了 Labubu 的爆火。






经过上面的内容结果可以看到 kimi 深度研究不只是信息的堆砌,而是通过逻辑链条把信息都放在了该放的地方,说明他能自主形成分析框架。


测试2:小米26号发布会内容检索及分析




上面这个案例主要看的是 kimi 深度研究在逻辑分析和行文结构上的能力。


接下来我们看一下他的搜索准确性和他的数据处理能力。


由于我是个 mi boy 并且小米马上会在 26 号开可能是他们今年最重要的一次发布会,基本上很多信息都看到过了,于是就用这个主题进行检索,这样可以减小我自己核实信息的压力。


整理并搜索小米 2025 年 6 月 26 日发布会内容,为不同产品打标签,并为每条传闻打出 可信度百分比,把即将发布的产品预估规格与竞品对比,输出雷达图或热力表,结合往年同期销量、宏观消费指数、渠道备货传闻,给出保守 / 基准 / 激进三种销量区间,并解释关键假设,列出最可能受益的 10 家 A-股或港股供应链公司(附业务关联理由、过去 30 日股价表现),并按高-中-低敏感度分级。


我这个问题已经相当离谱了,Kimi 深度研究除了要找到对应信息以外还要找到竞品信息,还要找到往年同类产品的信息,还得基于这些数据和信息进行合理的预测,最后还得检索相关的供应链上市公司。


报告总字数依然达到了近 1.7 万字。


同时通过目录我们可以看到基本上我们提到的要求他都已经输出了对应内容。


没有行业上类似产品常见的在复杂问题和长上下文上偷懒的问题。




他先是罗列了一下即将发布的主要产品信息,还按可信度做了区分。




有个很好的设计点是,点击引用来源的时候,被引用的数据会直接高亮显示,方便用户核对,这个非常贴心。




然后在竞品对比这里非常详细,基本上手机和电脑主要的购买考虑点都提到了。



这里座舱系统小米 YU 7 使用骁龙 8 Gen3 这个数据很关键,因为很少有目前没有汽车在车机上使用手机芯片,而且这个信息是这几天才发布的,可以看到 Kimi 在内容检索上的准确性和时效性非常高。


而且对对比结果都进行了分析,优劣势说的非常清晰。




接下来销量预测这里除了给出每一个预测级别的原因外,还给出了对应的销量的关键假设因素,帮助阅读者进行判断。






在最后受益上市公司这里搜索的信息也非常详细,除了跟小米对应的关系以外,还给出了当前股价帮助投资者进行判断,也提供了他对于高中低敏感度的公司进行分类的指标。







复杂数据检索的全面性、准确性和数据分析上 Kimi 这个深度研究真的很厉害。


注入美学,让专业报告“活”起来


再强大的功能,如果不能被轻松理解和使用,价值也将大打折扣。Kimi的交付物在“好用”和“好看”上做到了统一。


除了生成文档之外,kimi 也会同步生成一份研究报告的可视化网页。


Kimi 的这个可视化网页不是其他同类产品那种信息和报告完全不成比例的玩具,他们的内容非常详细,基本上大纲里面有的网页都有。


而且左侧还有对应的大纲方便切换到具体的内容。




而且整个网页排版清晰,符合当代用户的审美习惯。思维导图、结构化列表等形式,让复杂信息一目了然。


图表这里每个都可以自由拖动和放大缩小,解决了通过图表组件生成的图表内容不适合预览的问题。




他们也不是一套模板吃到底,每个网页AI 都会根据自己检索到的信息生成符合对应品牌的主题色和设计风格,比如小米这里的橙色。




在素材的嵌入上,也不会随便找图,基本上都跟当前描述的内容相关,甚至我在调研 Plaud ai 这个硬件产品的时候他在头图位置放了一个硬件的展示视频!




在内容展现形式上,Kimi 这个模型也表现出了很强的智能。


比如小米这个网页竞品对比这里的高亮色和右边卡片里面通过黄色和绿色背景色和图表两个层面来表现优劣势,非常直观,极大提升了信息获取效率



你可以在这里浏览我生成的三个网页:


https://www.kimi.com/preview/d1co3df37oq0og7kv0bg?blockId=108

https://www.kimi.com/preview/d1coajrlmiues17ub29g?blockId=34

https://www.kimi.com/preview/d1coefmmu6salp01rdn0?blockId=72


测试和介绍到这里就结束了。虽然都是深度研究,Kimi 这个基于强化学习的模型还是展现出了跟使用常见模型通过提示词和工具使用上非常不同的结果倾向,让我们看到了复杂检索任务不依赖大 Prompt 工程的的强大之处。


期待 Kimi 即将开源的预训练与 RL 权重,应该能造福非常多有类似功能的产品。


文章来自公众号“歸藏的AI工具箱

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!