AI热点 3小时前 87 阅读 0 评论

狂奔三年,AI智能体祛魅

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

如果说,去年关于智能体的故事,还带着“颠覆想象” 的性感滤镜。今年这个故事的注脚,就变成了 “解决实际问题” 的务实底色。

从2023年至今,智能体的发展正从概念走向实践。在今年的世界人工智能大会上,我们看到各大厂商继续推出自己新一代的智能体产品。它们在更垂直细分的领域比如金融、教育、文娱等领域落地。

有不少人把2025年称为“智能体元年”。实际上,智能体的概念最早可以追溯到2023年以前。

蚂蚁数科CTO王维在接受「商业秀」等媒体的采访时指出,2024年11月就被大家称作“智能体元年”,来到今年7月,元年的高峰已近尾声。

王维的言外之意是,技术的迭代速度,如此之快,尤其是基于大模型的智能体。以ChatGPT为例,其获得10亿用户、达成365亿次查询量的速度,比Google快了14倍。

在更具体的行业赛道,譬如智能体在金融行业的变革,也在加速。不过,智能体要迎来真正的爆发,仍面临很多挑战。至少,它还需要跨越“技术可靠、数据可控和生态协同” 的三重门槛。

01、智能体狂奔三年:从概念到产业渗透

从2023年到2025年,智能体的进化轨迹,几乎是划出了一个陡峭曲线。在2023年之前,智能体的发展还停留在概念萌芽阶段。这个时期,智能体经历了从 “工具化” 到初步智能。

中国信息通信研究院副总工程师王爱华认为,2023年之前的智能体还停留在 "代理型工具" 阶段,就那些连客服机器人,也只能机械地给出一些标准化回应,彼时的智能体连最简单的跨场景对话都难以完成,更谈不上自主决策。

2024年,成为智能体发展的关键转折点。大模型技术的渗透,让智能体突然具备了"推理-记忆-行动" 的基础能力。比如2024年推出的一些初代金融智能体,已经能在金融场景中完成"客户咨询-需求匹配-业务办理" 的半自动化流程。

不过,核心风控环节上仍然需要人工来 "把关",其可靠性和场景适配性还需要进一步提升。

进入2025年,智能体则呈现出了完全不同的气质,它们开始进入产业渗透阶段,垂直深耕和实现规模化落地。

这个阶段的智能体主要呈现了三大核心特征。

一是从“通用化” 转向 “行业专用化”。比如金融、能源、工业等领域出现了很多深度定制的智能体。比如蚂蚁数科推出了Agentar全栈企业级智能体平台。该平台通过知识工程、评测、安全风控、MCP、金融大模型等能力,联合行业开发了100余种金融智能体应用方案,在智能风控、营销、财富管理等核心场景落地。

业内认为,行业场景对智能体的“专业性”“可靠性” 要求远高于通用能力,比如金融领域需严格规避 “模型幻觉”,工业领域需适配高温、高压等极端环境。

二是多智能体协同成为主流模式。通过多智能体协同,解决单智能体的“能力边界” 问题,适配复杂产业场景的多元需求,比如金融领域的 “营销智能体+风控智能体+合规智能体” 协同,这样一来,就可以覆盖到业务全链条。

三是从“辅助工具”升级为“生产力引擎”。据悉,一些银已部署超1000个智能体,其中信用风险识别智能体,能将中小客户授信效率提升10倍,数据动态智能体实现 “一句话调用全行数据”,推动业务模式从 “人找服务” 转向 “服务找人”。

也就是说,这个阶段的智能体不再局限于“降本增效”,而是通过数据洞察和流程重构,正在创造更多新的价值。

02、金融与能源:智能体落地的必争之地

在今年WAIC的产业图谱中,金融和能源领域的智能体应用最为突出。

背后的核心逻辑是什么?

王维认为,因为这两个行业数字化程度最高、数据密度最大,且对效率提升的需求最迫切。

以金融为例,日均千万级的交易数据和多层级风控规则,传统人工处理的误差率超3%,而智能体可将这一数字压缩到0.5%以内。

但落地过程并非坦途。比如80%的金融机构仅在客服等非核心场景测试智能体,清算、风控等核心环节依然依赖人工。

这种谨慎源于双重焦虑——它们既担心错失AI红利,又害怕技术不成熟引发安全风险。

也就是说,很多机构之所以焦虑,并非源于排斥AI,而是发愁如何将这项新技术安全、有效地应用到自己的业务场景中,真正解决问题。与此同时,他们看到同行用AI对业务有效果,内心也期待能通过智能体来实现“弯道超车”。

但无论金融机构和银行等金融客户做哪种选择,都绕不开金融场景的复杂性。

对此,蚂蚁数科是如何应对的呢?它的策略是3个“E”。

一是Expertise(专业)。不沿用通用大模型路径,基于长期金融经验制定覆盖银行、证券等全场景的6大类66小类金融任务体系,以此为框架从千亿级数据中构建专业训练数据集,加入原则类合成数据保障合规,使模型 “出厂即专家”。

二是Efficiency(效率)。训练中动态分配资源,提升复杂金融任务性能与学习效率,实现 “浅调高能”,保障通用能力不退化,减少后续业务应用的二次微调数据与算力消耗,降低企业落地门槛。

三是Evolution(进化)。建立高频敏捷迭代机制,持续吸收金融政策、市场动态等信息,快速修复模型问题,确保知识、能力与合规性紧跟行业变化,在真实业务中不断进化。

能源领域的突破,也同样依赖场景适配。据中控技术工业AI技术管理总经理王宽心介绍,其工业智能体通过"时序大模型+边缘控制" 组合,已实现炼化装置的无人值守:九个智能体分工协作,能支撑装置自主运行一周以上,这在高温高压的工业环境中是一大突破。

据悉,目前蚂蚁数科已联合金融行业伙伴推出超百个金融智能体解决方案,覆盖银行、证券、保险、通用金融等四大领域,金融机构可以“即插即用”,提升一线员工工作效率超80%。

03、三重门槛:技术、数据与生态的硬仗

尽管发展势头迅猛,但如今智能体的规模化落地,仍需跨越三道硬门槛。

算力仍是悬在行业头上的一把“利剑”。清华大学计算机科学与技术系教授郑纬民直指“痛点”——大模型推理依赖GPU集群,目前大模型的推理算力成本还是很高。

他解释到,“不管是推理也好,训练也好,算力成本还是很贵。推理成本里头,人力占3%,数据占2%,算力占95%,钱主要是花在算力上面了。ChatGPT的推理开销是每天70万美元。DeepSeek V3推理开销大概每天8.7万美元。

业内认为,大模型本身成本较高,虽然相关硬件和技术在发展,但相比过去的软件售卖,成本仍然是金融机构需要考量的重要因素。

一张卡的推理效率可能很慢,但调用多次对底层算力要求极高,如何平衡技术投入成本与商业价值,成为金融机构和技术提供方需要解决的问题。

模型的"幻觉" 问题更让金融机构头疼。尤其是在一些信贷审批等场景,智能体偶尔会给出错误信息,而客户一般要求"每个决策,你都要说清理由",这种可解释性需求,单靠Prompt技术难以满足。

蚂蚁数科AI算法技术部总经理章鹏解释道,客户需要知道大模型回答的思考过程,要求可解释性,这就需要推理模型来解决,而在此之前,只能通过Prompt强制模型思考,但效果并不理想。

这也是蚂蚁数科联合中国工商银行、宁波银行、北京前沿金融监管科技研究院、上海人工智能行业协会等机构,联合推出Finova大模型金融应用评测基准的原因。

也就是,用更严苛的测试倒逼模型的可靠性提升。“客户的需求在倒逼技术进化,从最初的‘你们为什么没有推理模型’,到现在的‘我凭什么相信你的回答’,市场的要求越来越具体,也越来越严苛。”章鹏说。

数据层面的挑战同样棘手。格创东智副总裁李楠吐槽道,"制造业的数据标准,乱得像一锅粥,同个产品的合格率计算,A工厂和B 工厂能差出三个版本。" 这种混乱导致70%的精力都耗在数据治理上,严重拖慢了智能体的落地节奏。

最后是产业落地层面,也面临着信任建立与生态协同难题。

一是行业观望情绪浓厚,金融机构仅在非核心场景(如客服)测试智能体,核心业务(如清算、风控)仍依赖人工。一些机构担忧, “技术成熟度不足”“责任界定模糊”,如智能体决策失误导致损失时,责任归属难以明确。

生态协同的碎片化,则是另一重阻碍。因为智能体产业链涉及硬件、模型、应用等多环节,单一企业难以覆盖全链条能力。例如,银行部署智能体需协调模型提供商、系统集成商、监管机构等多方,协同成本高企。

为了降低成本,蚂蚁数科推出了全尺寸模型家族,也给客户提供了不同规格的模型,比如32B和8B版本的金融推理大模型Agentar-Fin-R1,以及基于百灵大模型的MOE架构模型,让客户可以根据自身算力和场景需求选择,平衡成本与效果。

结语

目前智能体仍处于快速发展阶段,但要实现真正的爆发,还需要在技术完善、成本控制、满足差异化需求等方面突破。

中信智库发布的研究报告指出,2025年AI大模型向更强、更高效、更可靠方向发展,呈现推理模型深化、智能体模型爆发的格局。

今年也是AI应用加速落地之年,但今年以来的智能体故事,少了些“性感”,多了些“硬仗”。这或许正是技术改变世界的必经之路。

正如上海新金融研究院理事长、上海市原常务副市长屠光绍在2025年世界人工智能大会的论坛上所言——“智能体的真正价值,不在于概念多吸引人,而在于能否成为推动产业变革的‘可行生产力’。”

当行业不再热衷于讨论“智能体能做什么”,而是聚焦“智能体该如何解决场景问题”时,智能体的产业价值,才真正开始释放。、

本文来自微信公众号“商业秀”,作者:杨肖若,编辑:张弘一,36氪经授权发布。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!