Every 也是我的常读博客之一。
OpenAI 刚刚推出了新的编程模型 GPT-5 Codex,见前文:刚刚,OpenAI 发布 GPT‑5-Codex 新模型,专为编程而生
Every 团队已经测试了几天,这个模型的表现相当狂野。
它能动态选择「思考」时间:对于困难的问题会花更长时间思考,而对于简单问题则能立即返回答案。
在测试中,它在生产代码库上自主运行了长达 35 分钟,这相比之前过于谨慎的 GPT-5 是一个明显的升级。
更厉害的是,它支持本地和网页开发环境之间的无缝切换。
你可以在 VS Code 中开始一个任务,然后在去买菜的时候把它交给 Codex Web 继续处理。它还有一个代码审查 Agent,能实际运行你的代码,因此能捕获更多 bug。
主要更新
- GPT-5 Codex 模型带来了专门为编程优化的版本。这个模型会选择自己的「思考时间」:对于琐碎的查询会立即回答,而对于需要多步重构的复杂任务则会花更长时间。
- VS Code、网页和命令行界面之间的切换变得异常顺畅。你可以在 VS Code 中开始编程,然后在关闭笔记本电脑之前把任务交给 Codex Cloud。因为任务现在运行在 OpenAI 的服务器上而不是你的机器上,所以即使你离线,它也会继续工作——这是本地执行无法做到的。虽然最终这个功能也会支持 Codex CLI,但目前只在 VS Code 中可用。
- 代码审查功能也得到了改进。OpenAI 发布了一个代码审查机器人,它能在自己的空间中运行你的代码库,执行检查,并能在 GitHub 上应用修复——比只读代码的机器人能捕获更深层的问题。
- 在可用性和成本方面,GPT-5 Codex 将驱动基于网页的 Codex 版本,并可在 CLI 和 VS Code 扩展中选择,定价与 GPT-5 保持一致。
实际表现
智能的思考时间分配是最大亮点。
Cora 总经理 Kieran Klaassen 的实验显示,GPT-5 Codex 真正理解了什么时候该快速响应,什么时候该深思熟虑。当他要求它「快速」解释一个项目时,它在 30 秒内返回了答案,没有规划阶段。告诉它「超级努力思考」并「花一个小时」,它就会切换到深度分析模式,进行详细的规划。
更令人印象深刻的是,即使没有任何具体指示,模型也会做出明智的选择。
问它「我运行的是什么版本的 Ruby?」它会快速执行。问它「解释这个代码库」,它会自动花更多时间提供全面的分析。
不过这个新的模型特性需要一点时间来适应。
GPT-5 的优势之一是能够为代码库更改创建极其详细、经过深思熟虑的计划。但 GPT-5 Codex 有时会在研究和规划任务上思考不足,所以计划的质量比以前低。
持久运行能力有了巨大提升。
虽然 Codex 仍然不会无限期运行,但它比之前的版本有了显著改进。之前通常在 30 秒到一分钟后就会停止,而 GPT-5 Codex 可以维持更长的会话——如果你知道如何正确提问的话。Spiral 总经理 Danny Aziz 通过将任务分解成里程碑,成功让它连续工作了 35 分钟。
运行时间是自主性的代理指标。
运行时间的每一次跃升都让我们更接近这样一个阈值:重新启动 AI 的认知成本超过关闭它的好处。
Danny 对这次 35 分钟马拉松运行输出的评价是「总体上非常好」。模型甚至超出了他的要求,添加了不在原始计划中的生产就绪功能,比如功能标志。
你的实际效果可能会因提示词的结构和任务类型而有所不同。
Kieran 观察到一个清晰的模式:编码任务可以运行 25 分钟,但研究和规划任务从未超过五分钟。模型会完成一个任务,宣布下一步行动,然后等待继续的许可——特别是当被要求协调多个审查 Agent 时。
Danny 发现这个模型「非常可控——你使用的每个词都很重要」。
告诉它「不要重复自己」,它就会重构现有代码的大块内容。将任务分解成有明确完成标准的里程碑,它就能运行超过半小时。
但如果要求它在准备好的计划中「实现所有内容」,它就会冻结成项目经理模式——设置所有功能和组件,然后暂停询问你想让它构建哪个特定的子系统。
视觉能力真正派上了用场。
模型处理截图的能力出人意料地有用。Kieran 用它创建了一个三维游戏,它能够看到游戏的截图,正确识别问题(比如光照和色彩平衡),并纯粹基于视觉输入修复它们。
在观察它基于截图迭代图形后,他指出「视觉方面工作得相当好」。因此,UI 工作的反馈循环更加紧密——你可以向它展示什么地方出了问题,而不是试图描述它。
确实,OpenAI 模型的视觉能力可以说是独一档的存在,相比之下,Claude Code 对截图的理解能力则明显要差许多。
参考:AI 识别谁是狗,Grok亮了……(Claude 完败)
更尊重你的环境。
与 GPT-5 不同,后者在被要求修复一个按钮时经常会试图重建你的整个架构,GPT-5 Codex 表现出更多的克制。
在 Kieran 的测试中,它始终产生最小的、专注的更改,尊重现有的代码库结构。该模型还更优雅地处理环境设置。它正确地继承你的本地环境,并在不同命令之间保持上下文,让它感觉更像是一个适合你工作流程的工具,而不是要求你适应它的工具。
仍需改进的地方
对任务的挑剔依然存在。
虽然 GPT-5 Codex 在正确的提示下可以运行很长时间,但它对什么构成合理的工作有自己的看法。当 Danny 要求它在一个会话中编写一个复杂功能(Spiral 的类似 Claude 项目功能)时,它直接拒绝了:
这基本上是一个多冲刺项目。我无法在一个 CLI 会话中编写所有这些代码而不破坏任何东西。
通过一些创造性的提示,Danny 能够绕过这个障碍,但这种交互表明 Codex 倾向于对范围施加保护措施。
环境设置的麻烦。
设置 Codex 暴露了一个恼人的限制:它对你的开发环境做出的假设可能与现实不符。Codex 假设 Kieran 使用一种类型的命令行 shell,而他实际使用的是另一种。就像一个新助手假设你使用 Windows 而你实际上在 Mac 上一样。
由于这种不匹配,他的 Ruby 编程语言在他的计算机和云端显示为不同的版本,破坏了依赖于这些版本匹配的 Ruby 功能。
修复需要手动重新配置系统文件和环境设置,只是为了让 Codex 识别他机器上已经安装的工具——在编写一行代码之前需要大约 30 分钟的繁琐设置工作。
相比之下,Claude Code 会自动检测并尊重你已经使用的任何设置,让你可以立即开始编码。
多 Agent 工作流仍然有问题。
当复合工程专家 Kieran 试图按顺序运行多个审查 Agent 时,暴露了 Codex 最重要的限制。
即使给出了明确的指令,要求运行 10 个不同的 Agent 各 10 分钟,它会完成一个 Agent 的任务,宣布下一步,然后等待继续的许可。
该模型理解多个 Agent 的概念(它可以读取指令、起草计划并按顺序执行),但它还没有真正的子 Agent,并拒绝自行继续。即使你按顺序设置多个任务,它也会在每一步后停止,而不是像 Claude Code 在长期研究任务中那样继续前进。
有进步,但仍需耐心
Dan Shipper(@danshipper) 表示:
我一直在为 Cora 构建一个功能,GPT-5 Codex 在 CLI 中一直是我的首选工具。它很适合在我不熟悉的生产代码库中编写代码。它感觉精确而像手术刀一样,这帮助我避免推送令人尴尬的代码。
Noam Tenne(@NoamTenne) 期待更多的 Claude Code 相关功能:
Codex 已经感觉像是超越 Claude Code 的飞跃,迫不及待想获得访问权限。也希望看到 Codex SDK,类似于 Claude Code SDK
网友 Bret Jutras(@BretJutras) 分享了他的使用经验:
我喜欢现在正在发生的代码竞赛。试试将它与 Spec Kit 结合。我正在使用 Spec Kit 和 Claude Code,它可以编码超过一个小时,并且有非常好的结果。在我的经验中,任务分解功能让模型保持在正轨上非常好
Michael Wall(@sound4movement) 分享了准确性的提升:
对我来说,最让我印象深刻的是 gpt-5-codex 在逐轮生成编码期间不会「撒谎」。我与其他编码模型最大的挣扎是它们经常会误导我。我会要求它们删除某些东西,它们会声称已经做了,然后坚持这个「谎言/信念」
Laksh(@laksh_officiall) 则对动态思考时间印象深刻:
「动态思考时间」感觉像是真正的突破——终于在需要时平衡了即时回复和更深层的推理
GPT-5 Codex 是向 Agent 化编程迈出的又一步。
由于其不同的思考级别,它在编程生命周期的更多部分更加可用,其本地到网页的切换功能也很有前途。
话虽如此,它仍然过于谨慎。
在 CLI 中,它还没有达到与 Claude Code 的功能平等。
例如,它没有子 Agent。但这是朝着正确方向迈出的真正一步,正在成为复合工程工具包中有价值的一部分。
[1] 完整测评文章: https://every.to/vibe-check/gpt-5-codex-knows-when-to-think-hard-and-when-not-to
[2] Codex CLI 文档: https://developers.openai.com/codex/cli/
文章来自于“AGl Hunt”,作者“J0hn”。