9 月 15 日,OpenAI 正式推出一款新模型 GPT-5-Codex ,这是一个经过微调的 GPT-5 变体,专门为其各种 AI 辅助编程工具而设计。该公司表示,新模型 GPT-5-Codex 的“思考”时间比之前的模型更加动态,完成一项编码任务所需的时间从几秒到七个小时不等。因此,它在代理编码基准测试中表现更佳。
OpenA 推出“最卷”,编码智能体 GPT-5-Codex
GPT-5-Codex 的一大亮点是其增强的代码审查功能,能够在产品发布前发现潜在的关键错误,帮助开发者提前规避风险。
具体是怎么做到的?
与静态分析工具不同,Codex 将 PR 的声明意图与实际差异进行匹配,对整个代码库及其依赖项进行推理,并执行代码和测试以验证行为。只有最细致的人工审查人员才能在审查的每个 PR 中投入如此多的努力,因此 Codex 填补了这一空白——帮助团队更早地发现问题,减轻审查人员的负担,并更自信地交付。
一旦在 GitHub 代码库中启用 Codex,它就会自动审核 PR,直到 PR 从草稿状态变为就绪状态,并在 PR 上发布其分析。如果它建议修改,用户可以留在同一个线程中,并请求 Codex 实施这些修改。当然用户也可以通过在 PR 中提及“@codex 审核”来明确请求审核,并提供额外的指导,例如“@codex 审核安全漏洞”或“@codex 审核过时的依赖项”。
目前,GPT-5-Codex 已成为 Codex 云任务和代码审查的默认设置,同时开发者也可通过 Codex CLI 和 IDE 扩展程序将其应用于本地开发环境。
在 OpenAI,Codex 现在负责审核公司内部绝大多数的 PR,每天发现数百个问题——通常比人工审核开始还要早。这对于 Codex 团队快速、自信地推进项目至关重要。
此外,GPT-5-Codex 的另一个技术突破在于能够根据任务复杂度,动态调整思考时间。模型结合了两种核心技能:一方面,它能在交互式会话中与开发者进行敏捷配对;另一方面,它也能在大型任务中持续独立执行,直到交付完整成果。
在内部测试中,GPT-5-Codex 展现了处理复杂工程任务的强大能力:它能够连续独立工作超过 7 小时,完成大型重构,不断迭代、修复测试错误,并最终交付成功实现。这意味着,无论是小型、定义明确的请求,还是需要长期迭代的大规模项目,GPT-5-Codex 都能胜任。
自今年 4 月推出 Codex CLI、5 月上线 Codex 网页版以来,Codex 已逐步发展为更高效的协作型编码工具。两周前,OpenAI 又将 Codex 整合为一个基于 ChatGPT 账号的统一产品体验,使开发者能够在本地环境与云端之间无缝迁移任务,保持完整的上下文衔接。
如今,Codex 已可在多种平台运行,包括终端、IDE、网页、GitHub 以及 ChatGPT iOS 应用。它也被纳入 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 等套餐,为不同层级的用户提供一致的体验。
OpenAI 表示,计划未来将该模型提供给 API 客户。
多项基准测试中击败 GPT-5
那么,这款模型在各项基准测试中表现如何?
OpenAI 表示,GPT-5-Codex 在 SWE-bench Verified 上的表现优于 GPT-5 ,SWE-bench Verified 是衡量代理编码能力的基准,也是衡量来自大型成熟存储库的代码重构任务性能的基准。
值得一提的是,在 OpenAI 推出 GPT-5 时,OpenAI 只在 477 个 SWE-bench Verified 任务上报告结果,在被 Anthropic 指出这一问题后,OpenAI 迅速做出了调整,如今任务数量达到了 500 个。详细结果如下:
根据 OpenAI 的使用数据,在按生成 token(包含隐藏推理和最终输出)排序的用户轮次中:
对于后 10% 的低负载任务,GPT-5-Codex 使用的 token 数量比 GPT-5 减少了 93.7%,显著提升了效率。
而在前 10% 的高复杂度任务中,GPT-5-Codex 的 推理、编辑、测试和迭代时间是 GPT-5 的两倍,显示其在复杂工程上的深度投入。
这种灵活性让模型在不同任务场景下都能实现资源利用最优。
据 OpenAI 介绍,GPT‑5-Codex 是前端任务的可靠伙伴。除了创建美观的桌面应用外,GPT‑5-Codex 在创建移动网站时,在人类偏好评估方面也表现出显著的进步。在云端工作时,它可以查看用户输入的图像或屏幕截图,直观地检查其进度,并向用户展示其工作的屏幕截图。
OpenAI Codex 产品负责人 Alexander Embiricos 在一次简报会上表示,性能提升很大程度上得益于 GPT-5-Codex 的动态“思考能力”。用户可能熟悉 ChatGPT 中 GPT-5 的路由器,它会根据任务的复杂性将查询定向到不同的模型。Embiricos 表示,GPT-5-Codex 的工作原理类似,但没有内置路由器,可以实时调整任务的处理时长。
Embiricos 表示,与路由器相比,这是一个优势,因为路由器一开始就决定了要用多少计算能力和时间来解决一个问题。而 GPT-5-Codex 可以在问题开始五分钟后就决定需要再花一个小时。Embiricos 表示,他见过该模型在某些情况下耗时长达七个小时。
网友怎么看?
GPT‑5-Codex 的发布在网络上引发热议。
知名博主 Dan Shipper 称已经体验过 GPT-5-Codex,并对其效果感到震撼。
“它会根据任务动态选择“思考”时间——难题上能长时间工作,简单问题则能即时给出答案。
在我们的生产代码库测试中,它可以自主运行长达 35 分钟——相比之下,GPT-5 往往过于谨慎,这是一次明显的升级。
它支持本地与网页开发环境的无缝切换。你可以在 VS Code 中启动一个任务,然后在去购物时把它交给 Codex Web 继续完成。
它配备了代码审查智能体,会真正运行你的代码,因此能发现更多 bug。
以下是我们经过大量内部测试后的整体感受:
这是一次非常出色的升级,让 Codex CLI 成为了 Claude Code 的有力替代品。
不过,它需要合理的提示才能表现出最佳效果。比如 @kieranklaassen 最多只能让它运行 5 分钟,而 @DannyAziz97 找到了诀窍。
有时候它会“偷懒”——在某些任务上可能思考不足,或者如果认为任务过大就会直接拒绝。
我整个周末都在用 Codex CLI 为 @CoraComputer 提交一个新的 PR,体验下来发现它非常好用、易于引导——这是一个很棒的模型。”
在 Reddit 上,有用户尝试过 GPT-5-Codex 后也认为它正在改写游戏规则。
“今天,我遇到了一些关于 Electron 渲染和 JSON 生成的简单 bug,这些 bug 在三周前 Codex 都无法解决(我之前已经分别咨询了它 10 次)。今天我试用了新版本,它一次性解决了这些问题,并且真的按照我的指示解决了问题。
我看到了一篇关于 Anthropic CEO 所说的 90% 代码将由 AI 生成的帖子,我认为他是对的——但 Anthropic 并没有做到这一点。从我 2 小时的使用体验来看,我认为 Codex 最终会编写我近 75% 的代码,另外 15% 是我自己编写的,10% 是 Claude 编写的,至少在上下文可控的情况下是这样。”
甚至有人因为 GPT-5-Codex 能持续高效工作 7 小时感到了就业危机:
“当这种服务能够在夜间和周末稳定运行时,游戏规则就会彻底改变。初级开发人员根本无法与之竞争。毕竟,这项服务的费用仅在 20 到 200 美元之间,而雇佣一名初级开发人员每月则需要公司支付 5000 到 10000 美元。再把病假、节假日、周末加班费、保险等成本计算进去,这项服务为公司节省的开支可能是雇佣初级开发人员的 500 到 1000 倍。
可以预见,这个行业即将迎来巨大的转变。如果让我回到大学重新选择专业,我大概不会再考虑主修计算机科学。”
有人感慨,在 AI 编程工具层出不穷的当下,编程工作不再像原来那样传统地编写代码,而是更多转向架构设计。该网友表示:
“编程的重心将更多地转向架构设计,而不是单纯编写原始代码。过去那种仅仅为了实现架构师或高级工程师设想的某些功能而雇佣初级工程师的模式,将逐渐失去意义。
对我来说,即使未来由人工智能来开发软件,编程依然充满趣味。因为我觉得真正的乐趣在于:当我的想法被实现时,它们似乎在某种意义上‘活’了过来。而让所有代码顺利协同运行,本身就包含许多挑战与问题解决,这些始终是缺乏通用智能的人工智能所难以克服的。
因此,我认为在我们真正达到 AGI(通用人工智能)之前,编程这一职业基本不会完全消亡。”
大笔资金流向 AI 编码工具
此次更新是 OpenAI 努力提升 Codex 与其他 AI 编码产品(例如 Claude Code、Anysphere 的 Cursor 或微软的 GitHub Copilot)的竞争力的一部分。
由于用户需求旺盛,AI 编码工具市场在去年变得更加拥挤。
Cursor 的制造商 Anysphere 于 6 月刚刚完成了 9 亿美元融资,估值达 99 亿美元。本轮融资由回归投资者 Thrive Capital 领投,Andreessen Horowitz、Accel 和 DST Global 参投。
这轮大规模融资是 Anysphere 不到一年内的第三次融资。据 TechCrunch 率先报道,这家成立三年的初创公司去年年底 以 25 亿美元的估值获得了 1 亿美元的融资。
一位知情人士告诉 TechCrunch,Anysphere 的年化收入 (ARR) 大约每两个月翻一番。消息人士告诉彭博社,该公司的 ARR 已超过 5 亿美元,较 4 月中旬报道的 3 亿美元增长了 60%。
本月初,Claude 制造商 Anthropic 宣布已完成新一轮融资,筹集了 130 亿美元,使其成为全球最具价值的初创公司之一,估值几乎增长三倍,达到约 1830 亿美元。该人工智能公司最初计划融资 50 亿美元,但由于投资者需求强劲,多次上调目标。
Anthropic 成立于 2021 年,自那以来实现了爆发式增长,仅在今年 1 月至 8 月之间,其经常性收入就增长了五倍。不过,它也面临来自 OpenAI 和 Meta 等其他快速成长的人工智能公司的激烈竞争。
同样是本月,增长最快的 Agentic AI 软件创建平台 Replit 宣布完成 2.5 亿美元融资,估值达 30 亿美元,较 2023 年上一轮融资增长近三倍。此次融资正值 Replit 年化收入在不到一年的时间里从 280 万美元增长至 1.5 亿美元,增幅超过 50 倍,这得益于其超过 4000 万全球用户的社区。Prysm Capital 领投此轮融资,战略投资者包括 Amex Ventures 和谷歌 AI Futures Fund。YC、Craft、a16z、Coatue、Paul Graham 等公司正在加大投资力度。
而类似的代码编辑器 Windsurf 则遭遇了一场混乱的收购,导致其团队被谷歌和 Cognition 两家公司瓜分。
在巨额融资与激烈竞争的交织下,AI 编码赛道正在进入前所未有的高光时刻:巨头加码、初创狂奔、资本追逐。但在资本狂热背后,市场能否真正沉淀出具有持续生命力的产品,仍有待时间验证。无论是 OpenAI、Anthropic 这样的明星企业,还是 Replit、Anysphere 等新锐公司,都必须面对一个共同的考题——如何让 AI 编码工具真正融入开发流程、提升生产力,而不是仅仅停留在“估值的游戏”上。
参考链接:
https://openai.com/index/introducing-upgrades-to-codex/
https://www.reddit.com/r/OpenAI/comments/1nhuoxw/sam_altman_just_announced_gpt5_codex_better_at/
https://www.swebench.com/
本文来自微信公众号“AI前线”,整理:冬梅,36氪经授权发布。