GPT-5-Codex 一手实测

Every 也是我的常读博客之一。

OpenAI 刚刚推出了新的编程模型 GPT-5 Codex，见前文：刚刚，OpenAI 发布 GPT‑5-Codex 新模型，专为编程而生

Every 团队已经测试了几天，这个模型的表现相当狂野。

它能动态选择「思考」时间：对于困难的问题会花更长时间思考，而对于简单问题则能立即返回答案。

在测试中，它在生产代码库上自主运行了长达 35 分钟，这相比之前过于谨慎的 GPT-5 是一个明显的升级。

更厉害的是，它支持本地和网页开发环境之间的无缝切换。

你可以在 VS Code 中开始一个任务，然后在去买菜的时候把它交给 Codex Web 继续处理。它还有一个代码审查 Agent，能实际运行你的代码，因此能捕获更多 bug。

主要更新

GPT-5 Codex 模型带来了专门为编程优化的版本。这个模型会选择自己的「思考时间」：对于琐碎的查询会立即回答，而对于需要多步重构的复杂任务则会花更长时间。

VS Code、网页和命令行界面之间的切换变得异常顺畅。你可以在 VS Code 中开始编程，然后在关闭笔记本电脑之前把任务交给 Codex Cloud。因为任务现在运行在 OpenAI 的服务器上而不是你的机器上，所以即使你离线，它也会继续工作——这是本地执行无法做到的。虽然最终这个功能也会支持 Codex CLI，但目前只在 VS Code 中可用。

代码审查功能也得到了改进。OpenAI 发布了一个代码审查机器人，它能在自己的空间中运行你的代码库，执行检查，并能在 GitHub 上应用修复——比只读代码的机器人能捕获更深层的问题。

在可用性和成本方面，GPT-5 Codex 将驱动基于网页的 Codex 版本，并可在 CLI 和 VS Code 扩展中选择，定价与 GPT-5 保持一致。

实际表现

智能的思考时间分配是最大亮点。

Cora 总经理 Kieran Klaassen 的实验显示，GPT-5 Codex 真正理解了什么时候该快速响应，什么时候该深思熟虑。当他要求它「快速」解释一个项目时，它在 30 秒内返回了答案，没有规划阶段。告诉它「超级努力思考」并「花一个小时」，它就会切换到深度分析模式，进行详细的规划。

更令人印象深刻的是，即使没有任何具体指示，模型也会做出明智的选择。

问它「我运行的是什么版本的 Ruby？」它会快速执行。问它「解释这个代码库」，它会自动花更多时间提供全面的分析。

不过这个新的模型特性需要一点时间来适应。

GPT-5 的优势之一是能够为代码库更改创建极其详细、经过深思熟虑的计划。但 GPT-5 Codex 有时会在研究和规划任务上思考不足，所以计划的质量比以前低。

持久运行能力有了巨大提升。

虽然 Codex 仍然不会无限期运行，但它比之前的版本有了显著改进。之前通常在 30 秒到一分钟后就会停止，而 GPT-5 Codex 可以维持更长的会话——如果你知道如何正确提问的话。Spiral 总经理 Danny Aziz 通过将任务分解成里程碑，成功让它连续工作了 35 分钟。

运行时间是自主性的代理指标。

运行时间的每一次跃升都让我们更接近这样一个阈值：重新启动 AI 的认知成本超过关闭它的好处。

Danny 对这次 35 分钟马拉松运行输出的评价是「总体上非常好」。模型甚至超出了他的要求，添加了不在原始计划中的生产就绪功能，比如功能标志。

你的实际效果可能会因提示词的结构和任务类型而有所不同。

Kieran 观察到一个清晰的模式：编码任务可以运行 25 分钟，但研究和规划任务从未超过五分钟。模型会完成一个任务，宣布下一步行动，然后等待继续的许可——特别是当被要求协调多个审查 Agent 时。

Danny 发现这个模型「非常可控——你使用的每个词都很重要」。

告诉它「不要重复自己」，它就会重构现有代码的大块内容。将任务分解成有明确完成标准的里程碑，它就能运行超过半小时。

但如果要求它在准备好的计划中「实现所有内容」，它就会冻结成项目经理模式——设置所有功能和组件，然后暂停询问你想让它构建哪个特定的子系统。

视觉能力真正派上了用场。

模型处理截图的能力出人意料地有用。Kieran 用它创建了一个三维游戏，它能够看到游戏的截图，正确识别问题（比如光照和色彩平衡），并纯粹基于视觉输入修复它们。

在观察它基于截图迭代图形后，他指出「视觉方面工作得相当好」。因此，UI 工作的反馈循环更加紧密——你可以向它展示什么地方出了问题，而不是试图描述它。

确实，OpenAI 模型的视觉能力可以说是独一档的存在，相比之下，Claude Code 对截图的理解能力则明显要差许多。

参考：AI 识别谁是狗，Grok亮了……（Claude 完败）

更尊重你的环境。

与 GPT-5 不同，后者在被要求修复一个按钮时经常会试图重建你的整个架构，GPT-5 Codex 表现出更多的克制。

在 Kieran 的测试中，它始终产生最小的、专注的更改，尊重现有的代码库结构。该模型还更优雅地处理环境设置。它正确地继承你的本地环境，并在不同命令之间保持上下文，让它感觉更像是一个适合你工作流程的工具，而不是要求你适应它的工具。

仍需改进的地方

对任务的挑剔依然存在。

虽然 GPT-5 Codex 在正确的提示下可以运行很长时间，但它对什么构成合理的工作有自己的看法。当 Danny 要求它在一个会话中编写一个复杂功能（Spiral 的类似 Claude 项目功能）时，它直接拒绝了：

这基本上是一个多冲刺项目。我无法在一个 CLI 会话中编写所有这些代码而不破坏任何东西。

通过一些创造性的提示，Danny 能够绕过这个障碍，但这种交互表明 Codex 倾向于对范围施加保护措施。

环境设置的麻烦。

设置 Codex 暴露了一个恼人的限制：它对你的开发环境做出的假设可能与现实不符。Codex 假设 Kieran 使用一种类型的命令行 shell，而他实际使用的是另一种。就像一个新助手假设你使用 Windows 而你实际上在 Mac 上一样。

由于这种不匹配，他的 Ruby 编程语言在他的计算机和云端显示为不同的版本，破坏了依赖于这些版本匹配的 Ruby 功能。

修复需要手动重新配置系统文件和环境设置，只是为了让 Codex 识别他机器上已经安装的工具——在编写一行代码之前需要大约 30 分钟的繁琐设置工作。

相比之下，Claude Code 会自动检测并尊重你已经使用的任何设置，让你可以立即开始编码。

多 Agent 工作流仍然有问题。

当复合工程专家 Kieran 试图按顺序运行多个审查 Agent 时，暴露了 Codex 最重要的限制。

即使给出了明确的指令，要求运行 10 个不同的 Agent 各 10 分钟，它会完成一个 Agent 的任务，宣布下一步，然后等待继续的许可。

该模型理解多个 Agent 的概念（它可以读取指令、起草计划并按顺序执行），但它还没有真正的子 Agent，并拒绝自行继续。即使你按顺序设置多个任务，它也会在每一步后停止，而不是像 Claude Code 在长期研究任务中那样继续前进。

有进步，但仍需耐心

Dan Shipper(@danshipper) 表示：

我一直在为 Cora 构建一个功能，GPT-5 Codex 在 CLI 中一直是我的首选工具。它很适合在我不熟悉的生产代码库中编写代码。它感觉精确而像手术刀一样，这帮助我避免推送令人尴尬的代码。

Noam Tenne(@NoamTenne) 期待更多的 Claude Code 相关功能：

Codex 已经感觉像是超越 Claude Code 的飞跃，迫不及待想获得访问权限。也希望看到 Codex SDK，类似于 Claude Code SDK

网友 Bret Jutras(@BretJutras) 分享了他的使用经验：

我喜欢现在正在发生的代码竞赛。试试将它与 Spec Kit 结合。我正在使用 Spec Kit 和 Claude Code，它可以编码超过一个小时，并且有非常好的结果。在我的经验中，任务分解功能让模型保持在正轨上非常好

Michael Wall(@sound4movement) 分享了准确性的提升：

对我来说，最让我印象深刻的是 gpt-5-codex 在逐轮生成编码期间不会「撒谎」。我与其他编码模型最大的挣扎是它们经常会误导我。我会要求它们删除某些东西，它们会声称已经做了，然后坚持这个「谎言/信念」

Laksh(@laksh_officiall) 则对动态思考时间印象深刻：

「动态思考时间」感觉像是真正的突破——终于在需要时平衡了即时回复和更深层的推理

GPT-5 Codex 是向 Agent 化编程迈出的又一步。

由于其不同的思考级别，它在编程生命周期的更多部分更加可用，其本地到网页的切换功能也很有前途。

话虽如此，它仍然过于谨慎。

在 CLI 中，它还没有达到与 Claude Code 的功能平等。

例如，它没有子 Agent。但这是朝着正确方向迈出的真正一步，正在成为复合工程工具包中有价值的一部分。

[1] 完整测评文章: https://every.to/vibe-check/gpt-5-codex-knows-when-to-think-hard-and-when-not-to

[2] Codex CLI 文档: https://developers.openai.com/codex/cli/

文章来自于“AGl Hunt”，作者“J0hn”。

登录账号

GPT-5-Codex 一手实测

主要更新

实际表现

仍需改进的地方

有进步，但仍需耐心

AI前线

评论 (128)

AI爱好者

开发者小明

AI前线作者

科技观察家

推荐文章

“消费动机MVP模型”仅用42元就能锁定“价值主张PMF”

体验了一周 ChatGPT 浏览器，我还是把 Chrome 装了回来

速抢（2核2G）77元/年香港免备案服务器

开发者生产力“平替”？MiniMax M2全面测评：代码、速度与迁移成本

价格屠夫AMD，刺伤Intel却打不过英伟达

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

小米第三款车YU9多张实车谍照曝光；微软开售WinXP限量版拖鞋，约570元；配备M5芯片的苹果新品或本月发布 | 极客头条

Figure三代机器人发布：洗衣洗碗家务全包！网友：非人形没有出路

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

登录账号

GPT-5-Codex 一手实测

主要更新

实际表现

仍需改进的地方

有进步，但仍需耐心

AI前线

评论 (128)

AI爱好者

开发者小明

AI前线 作者

科技观察家

推荐文章

“消费动机MVP模型”仅用42元就能锁定“价值主张PMF”

体验了一周 ChatGPT 浏览器，我还是把 Chrome 装了回来

速抢（2核2G）77元/年香港免备案服务器

开发者生产力“平替”？MiniMax M2全面测评：代码、速度与迁移成本

价格屠夫AMD，刺伤Intel却打不过英伟达

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

小米第三款车YU9多张实车谍照曝光；微软开售WinXP限量版拖鞋，约570元；配备M5芯片的苹果新品或本月发布 | 极客头条

Figure三代机器人发布：洗衣洗碗家务全包！网友：非人形没有出路

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

AI前线作者