AI热点 5小时前 135 阅读 0 评论

GPT-5亮相,“博士专家”是不是真的Agent?

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

文 | 极新,作者 | 王娴

“ 不是巨人迈步,也是一脚稳落的新台阶。”

OpenAI CEO Sam Altman 在发布会上将GPT-5 形容为“一位随时待命的博士级专家”,并提出“按需生成软件”将成为这一代模型的核心能力。

或许GPT-5 不再只是更强的语言模型,而是迈向通用Agent的关键节点。

技术新亮点

尽管 GPT-5 的微调能力尚未达到外界对其“通用智能”层面的高期待,但在性能稳定性、推理深度以及工具调用等方面,仍展现出值得肯定的进步。

  • 关键词一:模型矩阵

OpenAI不再只提供单一模型,而是推出了GPT-5 Standard、GPT-5 Mini和GPT-5 Nano等多个版本,针对不同用户场景分别优化 。

在架构上,GPT-5采用了统一的多模型系统:高效基础模型 + 深度推理模块 + 实时路由。实时路由器会根据用户查询的复杂度,自动判定调用快速响应的模型。这种动态调度意味着用户不必手动在不同模型之间切换,GPT-5能自动选择简洁回答或深入推理,提供解答 。一位OpenAI负责人指出,目标是在简化用户体验的同时保证一致性,过去GPT-4与DALL-E、Whisper等模型分立的局面将被一个“一站式”的GPT-5所取代 。

且其价格穿透力,被誉为“价格屠夫”,据统计仅相当于Anthropic最新Claude Opus 4.1模型的十五分之一 。新一轮普惠化竞赛或将由此开始。

  • 关键词二:上下文窗口的巨幅提升

GPT-5支持高达400,000个token的上下文长度,其中输入272,000个、输出128,000个token 。这远超此前GPT-4默认的8K-32K窗口,甚至超过Gemini据传的100万token上下文 。超长上下文让GPT-5可处理超长文档和多轮复杂对话,执行跨文件、跨会话的推理任务而游刃有余。

同时GPT-5具备完整的多模态能力:文字、图像、语音甚至可能包括视频,都能在同一接口下被理解和生成 。用户不再需要在不同AI服务之间来回切换,一个GPT-5即可“通吃”视觉与听觉信息。

  • 关键词三:更智能的推理策略

除了“看得见”的能力提升,GPT-5在隐性的推理策略上也更智能。

OpenAI介绍GPT-5能根据需求调整推理强度:简单任务快速出结果,遇到复杂问题则自主进入“深思考”模式,提高思考深度 。例如在代码调试场景下,GPT-5可以先尝试快速修复,如不奏效再逐步加深分析,避免每次都全功率运行浪费算力。这种自适应的智能调度归功于内置的路由模块和链式推理优化,让模型懂得权衡速度与精度。再结合OpenAI宣称的幻觉率降低(错误生成降低45% )以及对指令的更高忠实度,GPT-5无疑将AI助手的可靠性推上了新的台阶。

距真正的AI Agent还有多远?

发布会上,Altman虽然淡化了AGI概念,但行业共识是:GPT-5已比肩初级Agent雏形——它具备了链式思考、多步执行和工具调用等Agent关键要素。

然而,要判断GPT-5是否真正成为智能Agent,我们需要审视其能力边界和短板。

从能力上看,GPT-5较前代在自主性和持续推理方面有明显进步。OpenAI专门针对模型的自主决策、协作沟通和测试能力进行了微调训练,使GPT-5在执行复杂任务时更加主动。以编码助手为例,GPT-5可以连续工作数分钟,调用多种工具来完成一个复杂编程指令,期间会主动输出计划、步骤和状态更新,“一GPT一人一公司”,指日可待。

过去模型往往一问一答,被动等待指令,而GPT-5在工具调用间隙会提出下一步建议,无需用户事无巨细地确认每一步 。这种近似Agent的链式思维和自主执行,使其在复杂场景下的表现大幅提升。据测试,GPT-5的深度推理模块(GPT-5-thinking)可用更少的tokens完成复杂问题,比前代模型减少50%-80%的步骤开销。这表明GPT-5已经初步具备了长链任务规划和优化执行的能力。

更重要的是工具使用能力的飞跃。OpenAI报告称,GPT-5在严格评测的多工具使用基准τ^2-bench上得分高达97%,而此前所有模型均未超过49%。GPT-5能可靠地串联多个操作步骤完成真实世界任务。例如在客户服务场景,GPT-5可以一边与用户对话,一边调用数据库查询,再根据实时状态采取后续行动,其对工具指令的遵循度和出错处理能力均创下纪录。这些结果证明,GPT-5已掌握了相当程度的Agent式工具调度与环境交互本领,朝着通用智能体又迈进一步。

然而,GPT-5离真正的自主智能Agent仍有关键差距。

OpenAI自己也承认,GPT-5在持久记忆、自主性和跨任务适应性上依然存在明显限制 。它无法像人一样持续积累长期记忆——一旦超出400K上下文,它对更久远交互的“记忆”依然会丢失,需要借助外部数据库或记忆模块。

在自主性上,虽然GPT-5更主动,但终究还是遵循人类提示触发,尚不能自主产生新目标或自行启动任务。它执行多步流程时虽更流畅,但对未明确指示的新情景,缺乏真正的创造性应对,这在模拟真人智能方面仍有差距。这从一些测试可以看出端倪:在被誉为AGI终极挑战的Arc Prize测试中,GPT-5表现远不及对手Grok-4,甚至“被人类专家轻松甄别”。OpenAI发言人也强调,GPT-5的新功能主要是现有功能改进,并未彻底解决自主性难题

不过,可以确定的是:Agent时代,GPT-5也许只差临门一脚。

OpenAI的下一战

OpenAI 此次五模齐发的背后,已经折射出其构建“AI 操作系统”式平台架构的野心。

GPT-5 不再是单一模型,而是一个由多种规格协同组成的“模型矩阵”,可根据任务复杂度动态调用“深度思考”或高效轻量模型。“GPT-5 大赌注在于合一。”Sam Altman指出,GPT-5 实现了从 GPT-4 手动切换到系统自动路由的架构升级,真正做到“合一”。同时推出的 GPT-5-mini 和 GPT-5-nano 以更低成本提供 400K 上下文和多模态能力,OpenAI 试图通过高低搭配,覆盖全场景智能需求。

如果说多型号矩阵是“AI 操作系统”的内核,那么 OpenAI 正在搭建的周边生态则是操作系统的“框架和接口”。其 Assistants API(助理接口)让开发者能够构建定制的 GPT 助手,将模型变成可嵌入任意应用的智能Agent;ChatGPT 插件充当扩展工具,为 GPT 提供调用外部服务和实时数据的能力,如同AI世界的应用商店;而定制模型接口则意味着开发者可以接入自有模型或定制版本,与OpenAI平台打通。

Sam Altman的愿景更加直白。他曾表示OpenAI的目标不是成为某个应用上的赢家,而是要“成为其他一切构建其上的那一层” 。换言之,OpenAI 希望充当AI时代的底层平台,让别的应用都建立在自己的“AI操作系统”之上

为此,OpenAI 正不断丰富平台组件:从最新的 GPT-5 模型矩阵,到插件体系、助理API,再到开放模型发布。

一方面,ChatGPT 已从最初的对话机器人跃升为集成搜索引擎、插件工具等于一身的“AI万能应用” ;另一方面,OpenAI 开始松动封闭策略,首度开源高性能模型,发布了自 GPT-2 以来首批开放权重的大模型gpt-oss 系列,允许开发者免费下载、定制和离线运行 。

这被视为OpenAI 向构建生态迈出的关键一步:通过 Apache 2.0 开源许可证将自家模型“交到更多人手中” ,以吸引开发者深度参与,夯实其平台地基。

历史的回响:封闭崛起还是碎片开放

各家大模型之争,让人不由想起科技史上的多次“宿命对决”。

智能手机时代,苹果凭借封闭的软硬件一体化为用户带来极佳体验和高粘性生态,建立起牢固的盈利壁垒;而谷歌主导的Android开放授权给众多厂商,赢得了市场占有率但也付出碎片化和生态良莠不齐的代价。

类似的剧情正投射到AI领域:OpenAI模式颇似当年的苹果,通过性能拔尖的GPT-5模型和自有平台把关用户体验,以封闭换取质量和商业回报;Anthropic、Meta等提倡的开源开放更像Android阵营,意图联合多数、快速铺开,让“AI大国民”遍地开花,但同时如何治理众多版本和标准成为挑战。

过往多次经验显示,封闭生态往往在早期凭借卓越体验迅速崛起,而开放生态则凭借规模和低门槛后来居上。AI操作系统之争会重演这一幕吗?抑或会走出第三条道路?这是大家十分关心的问题。

云计算领域,亚马逊AWS以IaaS起家,但真正让其难以撼动的是一系列PaaS产品:开发者一旦使用了AWS提供的数据库、消息队列、函数计算等托管服务,就被牢牢绑定在AWS生态中。对照来看,OpenAI 显然也在从“提供模型算力”向“提供完整平台服务”演进。

当年有人将AWS称为“新操作系统”,因为应用直接基于其API构建而不感知底层服务器;今天,OpenAI 何尝不是在打造AI时代的新操作系统?开发者调用的是OpenAI的接口,背后用的模型、算力甚至插件生态都由OpenAI打包提供。如果说AWS垄断了云端基础设施接口,那么OpenAI正尝试垄断AI智能层接口。

值得注意的是,AWS生态的壮大并非依靠开源,而是靠易用性与先发优势形成事实标准。OpenAI的策略与此有异曲同工之妙:抢先占领市场心智,让GPT API和插件成为开发者默认选项,即便后来的竞争对手开放源码或降价,已难以扳动其生态地位。

当然,历史类比并非预言。移动生态最终是双雄并立,云计算领域后来者微软Azure、谷歌云也各有一席之地。

当下AI平台大战格局更为复杂:巨头结盟与竞争交织,开放与封闭界限日趋模糊。或许未来的AI世界,不会简单复制某一过往战役的结局,但商业与技术演进的底层逻辑却惊人相似:用户体验、开发者生态、标准控制,这三大要素始终决定着平台战争的走向。

OpenAI 究竟是在打造一个人工智能的“操作系统”,还是野心勃勃地想要定义整个AI技术栈、云服务乃至应用范式的未来?这场“模型即平台,接口即边界”的群雄逐鹿才刚刚开始,答案有待时间去揭晓,悬念也留给我们所有人去思考 。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!