开源项目 1周前 122 阅读 0 评论

从京东内部走出的开源 Agent,能成为标准定义者吗?

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

在 7 月 26 日召开的 WAIC 世界人工智能大会上,AI Agent、具身智能被推上了 C 位:从行业论坛到展台,几乎所有头部玩家都在回答同一个问题——当大模型走上工作岗位、长出“身体”之后,产业到底会变成什么样?


在展区,机器人接管了让人意想不到的诸多工作,如:货物装卸、电池分拣、吸尘清扫、桌面游戏、翻越障碍、打拳击……曾经的不可能,在今天已成为常规操作,引爆了现场气氛,掀翻了会场天花板,有参会者惊呼:我们不会被机器人替代吧?!


对 AI Agent 的演示和探讨,则横跨严肃场景、娱乐场景,从社交软件到企服软件,智能体几乎成了参展的必备要素。多个 AI Agent、AI Agent 基础设施、Agent OS 发布,场景覆盖从营销到智能座舱。其中京东展台尤其人满为患,JoyAgent 作为一个完全开源的 AI Agent 构建平台,是与会者上手体验的焦点之一。


其实,JoyAgent 能够成为现场 C 位,完全可以理解——京东选择将一个 SOTA 级别 Agent 平台端到端完全开源,这是给行业的最大惊喜。


<!---->

彻底开源,不存在侥幸


开源正成为 AI Agent 落地生产级环境的重要推动力,也是促进技术普惠、形成行业统一标准的核心力量。站在企业的角度看,一个行业形成之初,也恰恰是开源战略收益最大的时期。


SOTA、免费、100% 本地复现,足以掀翻一切闭源软件,形成事实上的行业标准,快速拔高准入门槛,避免重复造轮子。但大部分软件公司并未做到完整开源,在开源战略的实施上,多少有些“心存侥幸”。


比如声名在外的 MetaGPT、CrewAI,基本上只是开源 Python 核心库、框架以及一些示例和 CLI。至于调度器、沙箱、监控部分的代码,很少有 AI Agent 平台会将其开源。


由之而来的问题是,直接依赖这些开源代码,是无法在本地 100% 复现的,这对企业完成 GenAI 时代的智能化转型是极大的障碍。举个例子,国内有许多非技术驱动的传统企业,缺乏研发资源,软件栈基本来自外包,全职开发者还不到 50 人,很难完成 AI Agent 平台的本地化部署。


落地困难,行业标准就无法形成。


在这方面,京东云 JoyAgent 真正实现了“开箱即用”,不同于其他企业仅仅开源框架和 SDK,JoyAgent 开源了前端、后端、引擎与核心子智能体等部分的代码,可以在本地 100% 复现。


<!---->


同时,受 AI Coding 的影响,创业公司的启动门槛降低,行业出现许多团队不足十人,但已初步打开市场的天使轮公司,他们没有足够的采购预算,难以负担动辄数百万的 Agent 平台采购成本。而 JoyAgent 孵化自京东内部场景,历经复杂商业场景验证,等于直接将行业 Know-How 一并开源,也解决了这些创业公司的问题。


另外,生产环境对模型幻觉的忍耐度低,对 AI Agent 的任务成功率要求高,相对来说技术门槛更高,涉及许多工程问题。所以在实际选型来看,通常要和 To C、To D 级的 AI Agent 平台区别看待。京东云 JoyAgent 作为企业级智能体,表现也非常不错,尤其是在 GAIA 榜单上,取得了亮眼成绩。

搞定 GAIA 测试,JoyAgent 的技术秘密


2024 年由 Meta、Hugging Face 与法国国立计算机及自动化研究院(INRIA)联合推出的公开基准:GAIA 榜单(General AI Assistant Benchmark),几乎已成社区公认的“Agent 高考”,专门用来衡量 AI Agent 在真实世界任务中的工具调用、推理与长程规划能力。


GAIA 共有 450 道英文题目,覆盖网页浏览、文件操作、API 调用、数学推理、多模态理解等场景,共分为 Level 1-3 三级难度:


  • Level 1:≤5 步、单一工具即可解决;

  • Level 2:5-10 步、需组合 2-3 种工具;

  • Level 3:任意步数、任意工具,接近“通用 Agent”。


答案必须精确匹配(F1 ≥ 0.8)才算通过。


而 JoyAgent 智能体在 GAIA 榜单准确率达到  75.15%,这比 LRC-Huawei、xManus、AutoAgent 等产品的成绩都要好。其中,JoyAgent 在 Level 1 级任务的通过率达到了 86.79%,在 Level 3 级任务的通过率达到了 42.30% ,表现超出此前些许多媒体的预期。


<!---->


要达成这一成绩,技术难度不小,对于 JoyAgent 而言可以大致归类为以下五种挑战:


  • 对多智能体设计模式的支持

  • 多智能体上下文管理的设计

  • 如何做好能力分离与协同

  • 如何提升执行效率

  • 预置工具是否足够丰富,是否支持自动工具生成和多文件格式交付


在多智能体设计模式支持的问题上, JoyAgent 覆盖了 ReAct、Plan & Execute、Reflection 等主流模式。


ReAct 模式,可以理解为 Reasoning + Acting,要求智能体一边观察、一边想、一边干,适合做网页检索等类型的工作,输出研究报告;Plan & Execute 是先做完整计划,再一次性执行完,执行路径短,适配工具调用成本较高的场景,对企业级任务的兼容度好;Reflection 模式的核心在于自省,自己执行、自己检查和修订,适合代码、文章生成类任务。


几种模式各有所长,但企业级环境为了解决实际问题,要求对主流模式都能支持,像 OpenManus 只支持 ReAct 模式就不满足要求。


能干的活儿足够多,这是 JoyAgent 进入生产及环境的基础。


同时,生产环境的业务上下文也比较复杂,大型语言模型(LLM)的上下文窗口有一定限制(通常在 16K 到 100K token),这成为智能体处理复杂任务的主要瓶颈。在实际应用中,网页内容、代码文件和搜索结果等常常超过这些限制,简单的截断或摘要可能导致重要信息丢失。


为了解决这个问题,京东云 JoyAgent 智能体采用了一种创新策略:根据任务结果将文件归档,LLM 则根据文件描述按需加载。这种方法不仅突破了上下文限制,还保留了信息的完整性,解决了上下文信息传递的问题,大大降低了运行成本并提升了框架的稳定性。


有资深开发者对 JoyAgent 的文件系统上下文设计思路进行了总结,可以分为五点来看:


  • 分离存储:对话历史用内存,文件工作空间用文件系统

  • 引用管理:AgentContext 只存文件元数据,不存实际内容

  • 自动注入:文件信息自动格式化注入到 LLM 提示中

  • 生命周期管理:区分全局文件 (productFiles) 和任务文件 (taskProductFiles)

  • 会话隔离:使用 sessionId 确保不同会话的文件隔离


其服务场景和触发时机大致如下:


<!---->


将过长的上下文转为外部存储,这种技术方案实际并不罕见,但 JoyAgent 的独到之处在于可以做到更细颗粒度的存储和检索,实现方案足够“精致”,因此效能也更好。


行业期待 Muti-Agent 互相协作,犹如一个机器人团队,完成所有复杂工作。但实际情况是,必须有相当的技术能力,才能做好能力的分离与协同,支持多 Agent 之间的高效协作。


JoyAgent 将规划、执行、搜索、编码和报告等任务分配给不同的智能体独立负责。这样可以避免单个智能体负责多个任务,从而降低提示词管理和调试成本。它同时采用了 Multi-level and Multi-pattern Thinking 双层级架构,确保宏观规划和微观执行的最优结合。这与 Gemini-CLI、Cusor 等产品的做法类似——通过粗粒度的 Task 来管控目标,通过 Reason Act 模式来操作 Task, 协同完成整体目标。


以上三项技术攻坚,使 JoyAgent 基本迈过了“落地生产环境”的门槛,但对企服市场而言,进做到这一步是不够的。中国企服市场最大的特征是定制需求多,不够标准化,因此 AI Agent 平台必须足够灵活。


这是为什么 JoyAgent 在提供丰富的工具、支持多类型输出等方面下了大功夫。


JoyAgent 平台预置了多种子智能体和工具,智能体主要包括 SearchAgent、ReportAgent、CodeAgent 等,工具包含多种文档处理工具、不同报告生成工具如 html、ppt、markdown 生成工具。


以 PPT 样式为例,技术路线大致分为三种:直接生成 PPT、PPT 模版 + 内容填充、中间样式 + 转 PPT,直接生成 PPT 目前没办法生成复杂的样式、模板 + 内容填充则相对容易但缺点是缺少灵活性,因此 JoyAgent 采用的是中间样式(html) + 转 PPT 的方案。


另一项有点“匪夷所思”的能力,在于 JoyAgent 调用的工具是可以自动进化的,可以基于现有工具自动组合成新的工具能力,让大模型进行剖析场景后生成对应的工具组合,以数字员工方式进行工具化服务。 有开发者将其称之为“数字员工 As Tool ”能力。


开发者也自发对 JoyAgent 的源码进行了解读,罗列了这种工具进化能力,与传统 Agent 框架的区别:


<!---->


最后,性能表现也十分关键,虽说从推理模型开始,用时间换空间,已成为 AGI 技术演进的默认路线之一,但落地到实际业务中时,通常也无法容忍 Agent 的效率过于低下。


JoyAgent 尝试通过全流式输出、并行执行任务、并行调用工具、工具内部并行处理,来优化多智能体的执行性能,提升用户体验。平台支持四个引擎同时并发进行检索、最多五个线程的并发搜索,并配有智能内容截断机制,通过截断可以保证文档和结果的可用性。


JoyAgent 同时做了一些搜索任务的精细化去重,动态决定是否需要更多搜索,从而规避当下智能体常见“顽症”:“死循环”一般无穷无尽且过于复杂的检索和分析流程。


以上五项技术任务完成后,JoyAgent 能在 GAIA 测试中取得好成绩,自然也不难理解。笔者更多的震撼在于:作为一家以 C 端业务为主要营收的企业,京东并非没有 To B 基因—— JoyAgent 的一大“立身之本”在于面向实际业务场景足够灵活,有点像“瑞士军刀”,官方数据称京东内部基于 JoyAgent 构建了超 1.4 万个智能体,由之而来的实际产品体验,确实要胜过部分创业公司开发的 AI Agent 平台。

上手体验:“数字员工”真的来了


当然,抛开基本的技术概念,当下的 Agent 平台仍处于早期形态,实际的任务执行情况,以及指令遵循情况,都会对使用体验造成影响。好在 JoyAgent 目前也提供了网页版测试 Demo,InfoQ 同时也对 JoyAgent 进行了试用。


今年 AI 应用出现井喷,因此笔者要求 JoyAgent 调研 AI 应用市场的整体情况,Prompt 如下:请围绕当下中国 AI 应用市场做个调研,研究范围包括:AI 应用的市场空间、主流赛道、增长情况、创业团队情况、资本投入情况、技术采用情况。


生成结果如下:


<!---->


<!---->

以上为 JoyAgent 生成结果的部分截图


可以看到结果非常模块化,会自动配置图表,且数据源可信度较高,图表符合阅读逻辑与桌面研究习惯。下一步,笔者希望测试下 JoyAgent 的指令遵循能力,因此给出如下 Prompt,希望 JoyAgent 优化部分研究结果:


技术采用部分的研究太过宽泛,请结合最近一个季度主流论文情况,对技术趋势进行研判,预测未来将成为主流的技术方案或方向,并配合图表做解读。


<!---->

以上为 JoyAgent 生成结果的部分截图


JoyAgent 对单一章节也能实现深度研究,并进一步丰富图表,但在排版上可能会出现一些遮挡的问题。接下来,笔者测试了 JoyAgent 对任务上下文的记忆和理解,希望 JoyAgent 能基于过往研究结果生成创业指导建议,Prompt 如下:


根据以上报告研究结论,我需要为新型创业公司总结未来的创业机会,为其业务发展方向作指引,给予更好地创业孵化帮助,请帮我总结该部分内容


<!---->

以上为 JoyAgent 生成结果的部分截图


能看到 JoyAgent 输出的结果并非泛泛而谈,虽然不是非常明确的业务建议,但也足够支撑对外交流和讨论,同时,这些研究结果,JoyAgent 都会给出阶段性的 md 文档,方便用户整理采用:


<!---->

以上为 JoyAgent 提供的部分文档下载截图


如果不希望以网页格式或者 md 格式输出,完全可以直接输出为 PPT 或者 Excel 表格,方便直接做汇报或对外分享:


<!---->

以上为 JoyAgent 生成结果的部分截图


从 Demo 效果来看,JoyAgent 的体验已经非常接近可以“上岗”的数字员工,任务的完成质量非常不错——类似的研究任务几乎可以直接使用结论,而不必担心存在太多的幻觉或者流程阻塞。


在易用性方面,目前也有许多开发者对 JoyAgent 进行了测试,部署还是比较简单的,启动成本很低,大部分开发者对 JoyAgent 持正面评价,InfoQ 筛选了部分开发者的体验结论供读者参考:


“对于想快速搭建和验证 Agent 应用,又不想从头造轮子的同学来说,可以了解一下,毕竟完全开源”


“总的来说,JoyAgent-JDGenie 更适合那些需要快速搭建多智能体应用、又不想被生态绑定的团队或个人。感兴趣的话可以去 GitHub 看看文档,根据自己的需求判断是否合用~”


“轻量化是另一个优势。不像有些工具依赖特定云平台,它不绑生态,自己就能跑起来,部署和使用的灵活度更高,小团队或个人开发者不用为了用它额外搭一套生态环境。”


也有业务人员在使用 JoyAgent,给出如下评价:


“上次我用 JoyAgent-JDGenie 做了份旅游攻略报告直接生成 PPT 格式,比找外包省了 800 块不过做股票分析时数据更新有点慢像老电视换台要等几秒”


当然,也有开发者表示,JoyAgent 的文档还需要进一步完善,降低新手学习成本。此外,目前添加自定义子智能体需要懂接口开发和代码配置,对纯小白来说不算友好。


但考虑到企业部署 AI Agent 平台的实际情境,这些问题倒也影响不大。


综合来看,在定义 AI Agent 行业标准这一目标上,京东云发布 JoyAgent 动作和决心都不小,且效果非常不错。其核心仍在于:技术实现出色、产品设计灵活,以及完全彻底的开源,方便业内大批公司,完全摆脱平台依赖,在研发资源不足的情况下, 100% 实现本地化部署。


京东自己也给出了来自内部的实际应用案例:


每年 618 全民消费狂欢节,是零售采销最忙碌的时刻。在京东 618 大促中,京东采销经理王明(化名)面临某商品品类的精准预测与库存调配难题。传统方式难以应对区域需求波动,手动流程更是耗时费力。通过 JoyAgentoy,他洞察到华南需求激增,同时实时透视全国八大仓库存,预警华南主力型号库存仅剩 50%。基于此,JoyAgent 自动生成供应链优化报告,明确分仓补货策略(如紧急补货广州仓),并打通采购系统,实现“一键生成采购单”,将采购流程从数天缩短至几分钟。


如果更多的智能制造企业、新零售企业也独立部署了类似的 AI Agent 平台,相信也能在类似的场景中,实现效率和决策上的突破。届时,AI Agent 将正式成为企业级 IT 基础设施的必备模块。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!