全网最懂图文调研的智能体模型震撼上线，看完我直接卸了浏览器

机器之心报道

编辑：杜伟、杨文

疯狂的七月已经落下了帷幕，如果用一个词来形容国产大模型，「开源」无疑是当之无愧的高频词汇。

各大厂商你方唱罢我登场，昆仑万维、阿里、智谱、月之暗面、腾讯、阶跃星辰等众多玩家们先后开源了数十款大模型。根据 Hugging Face 发布的中国 AI 社区七月开放成果，短短一个月开源模型总数达到了惊人的 33 款。

进入到八月，国产大模型「上新」的势头丝毫不减，重量级成果发布的热度继续升温。其中，上个月接连开源第二代奖励模型 Skywork-Reward-V2、多模态理解模型 Skywork-R1V3 以及多模态统一预训练模型 Skywork UniPic 的昆仑万维，又官宣了一波技术大放送！

从本周一开始，昆仑万维正式启动 Skywork AI 技术发布周！连续五天，每天都有新模型亮相，从视频生成模型 SkyReels-A3、世界模型 Matrix-Game 2.0、生图一体化模型 Skywork UniPic 2.0 到深度研究 Agent 模型等，多模态 AI 的核心赛道几乎全囊括了，干货满满。

8 月 14 日，在技术发布周的第四天，昆仑万维重磅发布了最新 Agent 成果，为其在智能体领域的探索与布局开启更多可能。不久之前，昆仑万维才带来了全球首款 Office 智能体 —— 天工超级智能体（Skywork Super Agents），登顶多个榜单，在文档、PPT、Excel、网页、播客等多任务执行中秀了把一站式生成能力。

此次，昆仑万维将天工超级智能体的核心引擎 Skywork Deep Research Agent 升级到了 V2 版本。新版本不仅将深度调研体验推升至新高度，还在多模态信息检索与生成、浏览器智能体任务中利用独立的 Agent 模块，促成性能、稳定性与智能化水平的均衡跃升。

性能究竟有多强，先上跑分成绩。首先在权威搜索评测榜单 BrowseComp 中，Skywork Deep Research 在常规推理模式下正确率已达到 27.8%，超越了 GLM-4.5、StepFun Deep Research、Claude-4-Opus 等国内外大多数主流同类产品；而在启用自主研发的「并行思考」模式后，准确率更是跃升至 38.7%，一举刷新行业 SOTA 记录，将 Grok-4 在内所有竞品甩在身后。

此外，在全球最具挑战性、覆盖最广的智能体基准测试集 GAIA 中，Skywork Deep Research Agent 同样刷新 SOTA 成绩，超越所有竞品，复杂任务中的硬核表现不言而喻，也为其技术含金量做出有力背书。

赶快来天工超级智能体（Skywork Super Agents）体验！

全球官网：https://skywork.ai
国内官网：https://tiangong.cn

这位 Agent 新面孔在实操上能不能达到预期呢？一手实测给了我们很大惊喜。

Agent 深度研究的全感知时代

始于多模态信息检索

去年 12 月，谷歌推出了 Gemini Deep Research 功能，标志着全球首个 AI 研究助手的诞生。该功能可以自动浏览网页、整合关键信息，并生成结构化的研究报告。这意味着，传统研究员吭哧吭哧干几天的活儿，它仅需要几分钟就能完成。该功能一经发布就迅速引发业界关注，OpenAI、xAI、Perplexity AI 等其他大模型厂商也紧随其后，纷纷推出自家的 Deep Research。

尽管这些 Deep Research 功能在提取和整理文字信息时有着较高的效率，但它们过于依赖纯文本的检索和分析，往往忽视图片、图表等视觉内容。而如今互联网上超过一半的关键信息都以图文混排的形式呈现，比如财报中的曲线、科研论文里的实验图、社交媒体上的对比照、业务方案中的流程图等，如果这些图片信息被忽视，研究报告的完整性和准确性将大大降低。

为解决这一痛点，昆仑万维推出了业界首个「多模态深度调研」Agent 。通过创新性地整合多模态检索理解和跨模态生成能力，它不仅能够识别并处理图片、图表等信息，还能将图片中的关键信息融入报告中，并生成图注和综合性图表，为研究人员提供更加全面、准确的报告。

比如，我们输入提示词：请配合丰富的图表，详细揭示 2025 年特斯拉在中国的销售情况，并分析销量变化的核心原因。

领到任务后，它首先跳出一个表单让我们勾选任务需求，包括写作语言、写作篇幅、分析维度、图表类型偏好、核心原因分析角度等。如此一来，我们就能够根据自己的具体需求，定制报告的内容、深度和呈现方式。

确认完需求，它会生成一个待办清单，继而调用各种工具搜索浏览网页、整合信息，尤其是涉及图片部分，它会自动调用 MCP 工具进行图片分析以及图表制作。

在浏览了 180 个网页、使用 54 个信源后，最终输出一份详细的特斯拉中国销量分析报告。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

报告中包含丰富的图表展示，比如特斯拉中国月度销量趋势折线图、主要城市销量柱状图、中国新能源汽车市场份额饼图等。更重要的是，它把图片中表达的信息融入到报告文字当中，提供更全面的文字解读。

为了防止胡说八道，每个重要数据都标注了来源，鼠标一点即可跳转。

它还会根据文字内容，在合适的位置插入对应图片，并自动生成简洁图注。对于图表较多的报告，它甚至会专门拿出一节来对图表进行辅助说明。

这番实测意味着谷歌 Gemini Deep Research 搞定不了的图文盲区，被昆仑万维的 Agent 轻松拿捏。让 AI 真正具备专业研究人员的感知与表达能力，离不开多模态爬取、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构和多模态结果呈现四大核心技术突破：

首先，利用 MM-Crawler 工具进行结构化文本、二进制图片和元数据的并行爬取，通过「视觉噪声剪枝」技术以毫秒级剔除低信息密度图片，平均减少 65% 的冗余图片流量。
其次，利用大规模「文字 - 图片 - 推理链」合成数据训练，实现长距离（几十步数万字）上下文感知与图片信息增益判断能力，将真正需要深入推理的图片数量压缩至一半，有效节省计算资源。
第三，利用异步并行 Multi-Agent 架构，将不同任务智能调度给不同的 Agent 并行执行，并结合「多轨执行 + 流水整合」的设计，提升包括文本和图片在内的多模态检索与理解效率。
最后，在结果生成阶段，支持信息「转写 — 插图 — 重绘」三位一体的自动生成方式，既可将图片信息融入文字解读，也可插入原图并在融合多图、多模态信息后重绘综合性图表，输出信息完整、视觉友好的深度报告。

目前，该功能已在 skywork.ai 官网上线，人人都可体验。

突破传统浏览器 Agent 瓶颈

深入挖掘社交平台内容

接下来，我们再看看 Skywork Deep Research Agent V2 的另一大功能模块 —— 多模态深度浏览器智能体（Skywork Browser Agent）。

在实际应用中，传统浏览器智能体存在诸多瓶颈问题，比如执行效率差、成功率低，特别是在处理文字密集内容时表现迟缓；由于平台壁垒（如登录和验证问题）还可能导致任务中断；以及在复杂边缘场景中适应能力较弱，常常出现卡顿、死循环等失效情况。

昆仑万维此次推出的 Skywork Browser Agent 巧妙化解了这些痛点。借助深度多模态内容理解能力，不仅能够高效分析社交媒体上的文本信息，还能精准筛选与提取图片、视频以及评论区的情感与观点，提供更加全面的信息洞察。在网页浏览的全过程中，它都能做到有条不紊、规划周密，而这一切都依托于自研模型非凡的推理能力。

此外还能自动进行线上社区内容的高效数据分析，将枯燥的调研工作转化为直观且易懂的可视化报告。同时支持一键式网站部署，将抓取的关键图片与分析内容生成独立网站，方便展示和分享。针对部分社交平台登录墙的难点，配备了智能化接管机制；为每个执行步骤设置了自适应超时控制，有效防止整套工作流阻塞，从而大大提升浏览器智能体的执行效率。

举个例子。最近，喜剧大师陈佩斯带着自编自导自演的《戏台》回归大荧幕，公映 4 天就斩获近 2 亿元票房。不过，对于这部打磨 13 年的影片，网友给出了两极分化的评价。

我们让 Skywork Browser Agent 基于用户反馈，生成一个关于电影《戏台》上映后网友评价的分析报告网页。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

此处的工作流程与前文所述相似：勾选补充信息、生成待办清单，然后调用 MCP 工具执行任务。比如旁边会弹出一个 Skywork 虚拟机来显示浏览器 agent 的操作轨迹：它可以自动打开豆瓣电影首页，输入「戏台」进行搜索，进入电影链接详情页后收集更完整的信息和用户评论。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

搜完信息，它就开始搭建网页，开发 HTML 页面框架，并按照各分析维度划分内容区块；设计 CSS 样式，确保页面美观易读；使用 JavaScript 实现数据可视化和交互功能，同时下载并配置相关图片资源。如果觉得生成网页不符合预期，我们还可以和浏览器 Agent 进行多轮交互，根据当前生成好的网页进行二次编辑，Skywork Browser Agent 强大的指令跟随能力可以完美支持这一操作。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

可以看到，最后生成的网页不仅结构清晰，设计精美，且内容涵盖了电影的基本信息、票房表现、豆瓣和猫眼的评分对比等关键数据。网页内的观众评分分布、情感倾向分析和热点话题图云等可视化图表，极大提升了信息的可读性和直观性。我们还可以通过简单的点击与交互，深入了解影片的各项数据和网友评论，进一步剖析影片的正负面评价及争议点。

为测试稳定性，我们还进行了一个有趣的实验 —— 浏览周杰伦的 Instagram，并打造一款粉丝应援网站。结果显示，制作的网页不仅功能完整，还具备独特的视觉风格，效果出色。

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

如此高效稳定网页浏览能力的实现，要归功于以下多项自研的关键技术方案：

集成强大的多模态推理模型与优化的 DOM（文档对象模型）解析能力，为 Skywork Browser Agent 提供了卓越性能的核心支撑。
主流平台动作适配与并行搜索 / 多动作规划机制，显著提升执行效率。
内置智能筛选系统以自动过滤低质或涉隐图片和文字内容。
人机交互场景下支持智能提示与接管，而且能通过加密与前端保护机制保障用户隐私安全。

Skywork Browser Agent，通过模拟人类浏览与交互方式，革新传统的数据采集与分析模式，精准高效地完成智能搜索、多模态信息分析与社区内容洞察，在长周期的 VLA（视觉 - 语言 - 动作）任务中展现巨大的潜力。

不过，这一功能尚处于内测和邀测阶段，预计将于下周向全部用户开放。

全栈式演进

构建从数据、算法到多智能体系统的智能基座

从一系列实测看下来，昆仑万维此次的 Agent 产品在自主性、交互性、任务完成度等方面已经今时不同往日，称得上是一个「独立思考、深度执行的智能工作伙伴」。特别是在信息检索、整理、总结以及复杂任务的执行中表现出了惊人的效率与准确性，背后依托的是 Skywork Deep Research Agent V2 引入的多项关键提升机制，包括高质量数据合成、端到端强化学习、高效并行推理以及多智能体演进系统。

作为 AI 三大核心要素之一，在数据层面下功夫任何时候都是必要的。为了增强 Agent 模型对复杂及深度信息搜索场景的理解，昆仑万维自研了一套端到端深度信息问题合成流程，使系统生成高质量搜索查询数据集成为可能。

首要一点是制定数据质量标准。昆仑万维在初期设计阶段明确了高质量搜索问题以及答案的五大核心标准，包括多样性、正确性、唯一性、可验证性和挑战性，确保每一个生成的查询都能覆盖广泛的主题和难度层次，同时答案也要准确、唯一可靠并可验证。然后进入到数据准备阶段，通过多渠道收集互联网数据，构建初步的种子池，并利用自动化筛选系统评估、挑选出最具潜力的信息，为后续问题构造提供优质素材。

接下来处理复杂且具有挑战性的问题，一方面利用深度信息收集技术系统性地从多个信息源中提取线索，将具体信息抽象为高难度的搜索查询；另一方面采用迭代式增强策略，将简单搜索转化为多步推理的复杂问题。过程中引入了层次化推理链和信息混淆技术，以进一步提升问题复杂度和模型推理能力。

一番流程跑下来，每个环节的数据质量和任务难度都得到严格控制，尤其是覆盖五大标准的高难度问题体系，为接下来大规模、端到端的强化学习提供了数据基础。

想要提升 Agent 模型的学习效率和推理能力，需要克服传统 RLHF 奖励模型主观性强和易受攻击的难题，为此昆仑万维提出了非对称验证驱动的强化学习方法。具体到训练框架上，采用了 GRPO 算法和动态课程学习机制，确保训练过程中数据维持在最佳难度区间，避免简单和过难问题的干扰；同时动态更新数据集并补入新的数据，使模型始终处于有效「学习区」内。

为了进一步提升验证精度和奖励的有效性，昆仑万维创新性地引入了基于线索的生成式密集奖励机制，并利用生成式奖励模型为 Agent 模型提供更细致的反馈。若输出最终答案则给予满额奖励，若未能输出最终答案则进一步分析问题构造阶段保存的线索以进行过程评估，并在判定当前输出中正确线索比例的基础上赋予模型连续、高区分度的部分奖励。奖励信号贯穿整个解题过程，提升学习效率和推理能力的目标得以实现。

性能得到保障的同时，效率也必须提升，这时昆仑万维自研的并行推理框架发挥了用武之地。此前谷歌 DeepMind 在其最新 Gemini 2.5 Deep Think 推理模型中通过生成多个 Agent 来并行处理任务，并摘得 IMO 2025 竞赛金牌，有力验证了并行推理机制在提升复杂任务处理效率方面的有效性。而基于以下三项创新，昆仑万维在显著提升推理效率的同时大大节省了计算资源。

一是并行思考模式，在每一步生成多个候选推理路径并从中筛选最优候选路径以备后续使用，避免因推理链断裂、前后逻辑冲突导致的卡壳等失效行为。同时通过多节点异步推理架构，有效缩短推理时间并提升计算资源使用效率；二是在多步推理规划中引入生成式评估方案，对多个候选推理路径进行打分和筛选，结合锦标赛排序机制确定最优推理轨迹，并利用异步推理机制降低这一过程所带来的计算负担和时间开销；三是在并行推理过程中引入熵自适应剪枝技术，动态调整路径选择，减少冗余计算，降低资源开销。环环相扣，保证系统面对复杂动态任务依然稳定高效。

并行思考模式下，Skywork Deep Research 的正确率随思考时间延长持续攀升，验证了其自研系统架构在推理深度与扩展性上的巨大潜力。

在数据、算法、算力优化之外，Skywork Deep Research Agent v2 能力的跃升与多智能体演进系统的持续进化息息相关。随着 Agent 应用场景日益丰富，MCP（模型上下文协议）外接工具的作用越来越大，不过随着此类工具数量和复杂度的增加，需要更高效的自动化管理工具。针对此，MCP 工具自动创建技术应用而生，通过对工具定义的标准化管理和实时同步，大幅减少人为错误，提升系统响应速度和工具链的灵活性。

在这一 MCP Manager Agent 的基础上，一个将模型能力与工具能力结合起来的协同多智能体框架形成，不仅能高效组织多个 Agent 协作，还通过动态创建 MCP 工具来强化任务应对能力和环境适应能力。下图整体架构中一一显示出了规划 Agent、深度调研 Agent、浏览器使用 Agent、数据分析 Agent 和 MCP Manager Agent。

这一套系统性的升级，无疑让 Skywork Deep Research Agent V2 具备了强通用性、强适应性和强自主性，从而构筑起 Agent 模型强大的智能基座，在实操中释放出更强的稳定性、泛化性与创造性。

写在最后

2025 年已经过半，我们明显感受到的一点是：伴随 Scaling Laws 逐渐放缓的影响，国内外 AI 玩家们追求单一最强通用大模型的热度有所降温，就连 OpenAI 迄今最强的旗舰模型 GPT-5 都被吐槽缺乏突破性体验。相反，成果开源与应用落地成为了业界普遍关注的焦点。

可以说，AI 行业重心的转移正在重新定义下一阶段的竞争格局。谁能在开源之上更快更好地打造贯通上下游的工具链与应用生态，同时率先将 AI 能力转化为可规模化部署的商业生产力，谁就更能在新一轮 AI 竞赛中抢占战略高地。

昆仑万维为期一周的模型发布，既是其 AI 技术成果的集中亮相，也是其在多模态 AI 领域加速落地、引领行业趋势的重要信号。

无论是赋能创作者进行高质量图片与视频生成、构建虚拟世界智能交互，还是 Agent 驱动的自动化任务执行、音乐创作灵感激发，昆仑万维从基座模型到多模态交互系统的全栈式布局又一次展现在大众面前。这也彰显出这家 AI 公司坚定践行其「All in AGI 与 AIGC」发展战略的决心与魄力，通过打造全方位的产品矩阵，以期在全球 AI 竞争格局中稳固并扩大自身领先优势。

其中，作为当前加速大模型落地的核心途径，Agent 的重要性已经在业界达成共识。我们可以期待，此次的深度研究 Agent 势必会在深度任务执行、多模态协作和跨场景应用中继续拓宽昆仑万维大模型的落地边界，也有望为整个 AI 行业带来更高效、更智能的解决方案。