趋势洞察 1天前 115 阅读 0 评论

高阶程序,让AI从技术可行到商业可信的最后一公里

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

机器之心报道

编辑:Panda

很多人相信,我们已经进入了所谓的「AI 下半场」,一个模型能力足够强大、应用理应爆发的时代。然而,对于这个时代真正缺少的东西,不同的人有不同的侧重,比如(前)OpenAI 研究者姚顺雨强调了评估的重要性,著名数学家陶哲轩则指出必须降低成本才能实现规模化应用。

而蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬则强调了数据的价值:「数据决定了 AI 应用能力的上限。」

然而,一个严峻的现实摆在面前:数据本身并不会自动创造价值。如果加工和应用数据的「引擎」本身充满不确定性,那么再高质量的数据也可能产出灾难性的结果。

因此,要实现 AI 广泛应用,还有一大关键不可忽视:可靠性

可靠性涉及到多个细分指标,除了基本的准确度和速度,还包括近日 Thinking Machines Lab 公布的首份研究成果中提到的「确定性」以及 AI 最臭名昭著的 bug 或 feature ——「幻觉」。

因此可以说:向 AI 下半场的过渡本质上是一场从「模型竞赛」到「工程竞赛」的转折,其中的核心命题也正从「AI 能做什么」转变为「如何让 AI 做得对、做得好、不出错」。

在此背景下,业界涌现出多种探索路径:以 LangChain 为代表的「编排框架」,像一套灵活的瑞士军刀,想要将 AI 能力「粘合」起来;以斯坦福大学 DSPy 为代表的「编译框架」,则致力于优化「如何更聪明地向 AI 提问」。然而,这些方案或缺乏内生的可靠性保障,或侧重于优化输入端,对 AI 输出的「不确定性」仍缺乏强有力的约束。Thinking Machines Lab 近日的技术博客则指出可以从算子层面来解决 LLM 的可复现性问题,似乎颇具潜力,但这个方法却无法解决 LLM 的幻觉问题。

那么,究竟该如何让 AI 更加可靠呢?答案或许并非寄望于一个永远不会犯错的「完美模型」,而是需要引入一种全新的外部保障体系。

事实上,在实现 AI 应用可靠性方面,现在企业常用的落地工具箱主要有:RAG(检索增强生成)、智能体 / 调度器框架(如 LangChain 等)与神经-符号(neuro-symbolic)混合方案。

  • RAG 在很多场景能显著降低幻觉(通过把回答锚定到外部事实库),但也带来向量库集中化、权限与陈旧数据风险,在合规 / 敏感数据场景需谨慎设计。
  • 智能体编排方便、灵活,但若缺乏内部细粒度核验,会把错误放大到链路中。
  • 神经-符号方法则是把符号逻辑 / 知识图谱与神经模型互补,能同时提升可解释性与判定性。这个方向的研究成果正快速积累。

而我们今天的主角便是一种与神经-符号方向高度契合的方法:高阶程序(HOP/High-Order Program)—— 一套旨在为 AI 这颗强大「智力引擎」装上工程「安全带」的框架。它不只是又一个工具,而是从一个更根本的「工程化」视角,为驯服 AI 幻觉、构建商业可信的 AI 应用提供了一种全新的应用范式。

AI 工程化前夜

我们为何需要一个新的应用范式?

要理解为何我们需要一个新的应用范式,首先要厘清「幻觉」的本质。简单来说,幻觉是指模型会自信地编造事实,让人真假难辨。这个根本性挑战是阻碍我们完全信任 AI 的关键障碍。

就在前不久,OpenAI 罕见地发表技术论文,系统性地为「幻觉」的根源盖棺定论:标准的训练和评估程序更倾向于奖励模型进行猜测,而不是奖励它在不确定时勇于承认「我不知道」。这篇论文揭示了一个残酷的真相:幻觉并非简单的技术瑕疵,而是当前 AI 范式下的固有系统性问题。当评估体系鼓励模型为了更高的准确度得分而去猜测答案时,即便模型变得更强,幻觉依然会发生

更进一步,可以认为幻觉并非简单的程序错误,而是「智力的必然代价」。韦韬指出,AI 的智力依赖于模式识别和预测性编码,当信息不完整时,它会通过「逻辑补全」来生成看似合理的解释,这便是幻觉。若要彻底消除幻觉,大模型将退化为一台冰冷的检索机器。

然而,这种「智力的代价」在专业领域是极其昂贵的。当任务复杂度超出模型的规模极限时,其可靠性便会断崖式崩塌。测试显示,即便是最先进的大模型,在处理越来越高位数乘法时,准确度会迅速趋近于零;在执行代码修改、文件管理等任务时,也频频出现「删库跑路」事件。

图源:X 用户 @jasonlk

这些事实揭示了 AI「智力引擎」的阿喀琉斯之踵。「大家熟知的幻觉问题反而在其次,」韦韬在一次采访中坦言,「大模型它是一个通用智力引擎,但是这智力引擎远远不是很多人所认为的十全十美,也不是一个许愿池 —— 什么事让给它做,它就能做好。」

这些局限性让当前的大模型 AI 在常见任务中只能达到 70%-85% 的可靠性,但这并不够用 —— 与金融、医疗等领域 99% 以上的「及格线」之间,存在着一条巨大的鸿沟。

对普通用户而言,这可能只是得到一个错误的生日信息;但对于正在投身 AI 转型的企业来说,这种不可靠性却很致命。试问,当 AI 助手毫无征兆地删库跑路,当风控模型信誓旦旦地引用不存在的监管条例,谁敢将核心生产环节托付于它?

为了跨越这条鸿沟,行业一直在探索,比如前文提到的 LangChain、DSPy 以及 Thinking Machines Lab 的新研究成果;但也正如前文所说,它们都存在各自的局限。而这些局限又指向了一个更深层次的方向:行业需要的是一种能将「不确定的智能」与「确定的工程逻辑」进行深度融合的新范式

实际上,正如前文所述,这并非一个全新的概念,而是 AI 领域经典思想「神经-符号主义(Neuro-Symbolic AI)」的回归。其核心主张,正是要将以大模型为代表的、擅长处理模糊语义的「神经网络」,与以传统代码、规则为代表的、擅长处理精确逻辑的「符号系统」相结合。

图源:AllegroGraph

高阶程序(HOP)正是这一思想在企业 AI 应用领域,迄今为止最彻底、最系统的一次工程实践。

蚂蚁密算的解法

将工程智慧编译为高阶程序

如果说 AI 幻觉是天性,那么人类数百年文明史早已给出了驯服「天性」的答案:工程化

从阿图・葛文德在《清单革命》中倡导的、将手术感染率从 11% 降至 0 的检查清单,到科学管理之父弗雷德里克・温斯洛・泰勒提出的、构成现代航空安全基石的标准作业程序(SOP),其核心思想一脉相承:用外部的、确定性的工程体系,来驾驭和约束内部的、充满不确定性的个体(无论是人还是 AI)。

高阶程序(HOP)正是将这一古老智慧编译到了 AI 的应用流程中。韦韬用了一个生动的比喻给出了解释:AI 应用很像新能源车,有三大核心:电池、电机、电控。大家之前觉得光有大模型(电池)就够了,但实际上远远不够,它后面需要一个完整的工程化体系保障,需要一套『电控系统』才能把它发挥好。而 HOP 就可以充当这个「电控系统。」

事实上,HOP 并非一门全新的编程语言,而是一种创新的编程思想与框架,旨在为大模型这颗强大的「智力引擎」构建一套可靠的控制系统。其内核,是对「神经-符号主义」思想的一次深度实践。

符号主义的骨架:程序化业务逻辑

HOP 首先要求将专业领域的 SOP(标准作业程序),用精确的编程语言(如 Python)进行逻辑的显式表达。这可确保核心业务流程的确定性、可维护性和可扩展性,彻底避免了自然语言的歧义和模糊,为整个系统构建了刚性的「符号」骨架。

神经网络的血肉:领域知识与大模型

在这副骨架的关键节点,HOP 会通过自然语言描述的「伪代码」来调用大模型,让其处理需要模糊匹配、语义理解和专业知识推导的「神经」任务。例如,判断「关节镜下膝关节清理术」与「膝关节滑膜切除术」是否重复收费。此时,大模型就像一个被精确调用的「超级函数」,为骨架填充智能的血肉。

核心机制:HopLogic 执行框架与核验复杂性塌缩

HOP 的灵魂在于其内置的 HopLogic 执行框架。它基于一个关键原理 —— 核验复杂性塌缩:求解一个复杂任务可能很难,但验证一个解是否正确,其复杂度往往会大幅下降(如著名的 NP 问题)。

HopLogic 正是利用这一点:将复杂任务拆解为一系列可被自动化核验的细颗粒度步骤,并在全流程中贯穿逆向核验、交叉核验等复合策略,确保大模型的每一步输出都得到交叉验证,从而实现专业应用所需的 99%+ 可靠性。下图展示了一个验证邮件的 HOP 工作流程示例。

HopLogic 项目地址:https://github.com/hoplogic/hoplogic

更重要的是,HOP 通过引入两个关键指标为 AI 应用建立了「度量衡」,让其能力边界和可靠性摆脱玄学,变得可度量、可管理:

  • 完成率:大模型能够成功通过所有核验并输出结果的比率。它显性化了 AI 处理此类任务的能力边界。
  • 正确率:通过核验的样例中,真正正确的比率。这是基于 HopBench(场景打标样本集)实测的「压舱石」,是业务可靠性的最终体现。

这两个指标的建立意义非凡。它清晰地告诉我们,大模型专业应用只有通过真实场景打标样板集评测,实现正确率达标后,才能真正进入商用;当正确率达标后,完成率的提升将带来指数级的商业价值 —— 完成率从 90% 提升到 99%,意味着需要人工介入的成本骤降 10 倍。 这正是 HOP 开启规模化专业生产力的关键所在。

从金融到更多行业

HOP 开启的「规模化专业生产力」

理论的先进性最终需要实践的检验。HOP 的真正价值,在于它已经在金融、医疗等零容忍行业中,展现出开启「规模化专业生产力」的潜力。

以金融风控建模为例,这曾是一项高度依赖专家经验的「手工作坊式」劳动。一位风控专家需要花费 3 到 15 天的时间,经历样本对齐、特征预处理、模型训练与评估等漫长流程,其成本高昂且难以规模化复制。

行业也曾尝试引入 AI 智能体来自动化这一过程,但结果往往是「聪明时帮小忙,笨时捅大篓子」,可靠性不足 10%,无法投入生产。HOP 则彻底改变了游戏规则 —— 能将金融风控的全链路 SOP 转化为一套可执行、可核验的高阶程序。

结果堪称颠覆:可靠性可从不足 10% 跃升至 99% 以上,开发时长可从数天缩短至 1 天以内。

HOP 之所以能实现如此效果,关键在于其「工程化」特质弥补了传统 AI 应用框架的短板。

类似 LangChain 的框架,或许可以轻松地将数据分析、模型训练等步骤「编排」起来,但它无法深入到每个步骤的业务逻辑内部,进行细颗粒度的核验。例如,它无法程序化地验证「WOE 分组(Weight of Evidence 分箱处理)是否合法合规」。

而 HOP 通过其「符号」骨架,恰恰能将这类精确的业务规则内置于流程之中,从而确保了 AI 在每一个关键节点上的行为是受控的,最终实现质变。

这恰恰反映了「编排」与「工程」的区别:编排关心的是流程通不通,而工程关心的是结果对不对

「今天的大模型和智能体,用的方式依然像手工作坊,」 韦韬一针见血地指出,「就像一个铁匠,从铁坯到打出刀来,全是一个人完成。而现代化的应用模式是生产流水线,把相关任务做分拆、做核验,才能保障生产上的可靠性。我们的高阶程序就来做这样的事情。」

事实上,这种工程化的思想正迅速从企业实践上升为行业共识,尤其是在金融这一「零容忍」行业。一个有力的佐证是,在外滩大会的见解论坛上,由蚂蚁集团牵头,联合公安部网络安全等级保护评估中心、浙江网商银行、国投证券等十余家权威机构共同起草的《大模型金融领域可信应用参考框架》(征求意见稿)也正式亮相。

2025 Inclusion・外滩大会见解论坛上发布《大模型金融领域可信应用参考框架》(征求意见稿)

该标准的核心思想与 HOP 如出一辙:借鉴标准作业流程(SOP)和检查清单(Checklist)等人类工程智慧,为大模型构建一个外部的、确定性的控制与保障体系,从而确保 AI 应用在金融场景的专业性、可控性与安全性。

这标志着以 HOP 为代表的工程化范式,正从蚂蚁集团自身的最佳实践,演变为引领整个金融行业构建可信 AI 的重要基石。

HOP 的价值还不止于此,其还提供了一种远比 SFT(模型微调)更敏捷、更经济的迭代方式

当应用可靠性不达标时,传统路径是耗费大量数据和算力对模型进行再训练,成本高昂且可能引发灾难性遗忘。而 HOP 则允许专家通过优化程序逻辑、补充知识图谱或强化核验规则等轻量级方式,快速提升应用表现。

这种与大模型底座解耦的敏捷迭代能力,极大地降低了企业应用和维护 AI 的门槛,是其能够成为「规模化专业生产力」的工程基础。

AI 下半场

将始于数据,成于工程

回顾 AI 发展的历程,我们正处在一个关键的转折点。正如 9 月 12 日在 2025 Inclusion・外滩大会上,由上海交通大学安泰经济与管理学院、中银科技金融学院联合中国太平洋保险集团、欧莱雅中国、乐刻运动、兴业银行和蚂蚁集团等多家行业头部企业共同发布的《中国企业应用 AI 成熟度 AIM² 模型报告》所揭示的:AI 的上半场拼的是模型参数,下半场拼的是数据质量

如何将这些宝贵的数据资产,通过 AI 进行可靠的加工、分析和应用,最终转化为可持续的商业价值,才是决定胜负的关键。

以高阶程序(HOP)为代表的工程化框架清晰地回应了 AI 下半场的核心命题:我们需要的不仅是更聪明的 AI 模型,更是更可靠、更可信、更可控的 AI 应用

这与 AIM² 报告不谋而合。AIM² 为深陷转型迷雾的企业描绘了一张从 L1 (探索试验)到 L5 (认知引领)的进阶蓝图,而 HOP 正是企业在这张蓝图上从 L3(体系优化)迈向 L4(生态重构)的关键引擎。因为只有当 AI 应用具备了工程化的可靠性,才能真正从优化内部流程(+AI)跃迁为重构行业生态(AI+)。

图源:《中国企业应用 AI 成熟度 AIM² 模型报告》

感兴趣的读者可访问以下小程序下载阅读:

一个新范式的诞生,往往始于一个开放的生态。随着 HOP 框架的正式开源,以及未来 HopCorpus 场景语料集的构建,一扇通往「规模化专业生产力」的大门正在被推开。这清晰地指明了 AI 工程化的两大核心:可靠的框架高质量的数据

HOP 框架解决了可靠性的问题,而 HopCorpus 则致力于提升其能力的上限。当越来越多的行业专家、开发者加入共建,AI 将有望摆脱「助手」的定位,真正进化为驱动千行百业变革的核心生产力。

AI 下半场,将始于数据,成于工程。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!