最强人才接连被挖，创业大佬离开 OpenAI后说了实话：7周硬扛出Codex，无统一路线、全靠小团队猛冲

近日，据《连线》援引多位知情人消息，OpenAI 研究员 Jason Wei 即将加盟 Meta 新成立的超级智能实验室。

据 Jason Wei 个人网站信息，他曾参与 OpenAI 的 o3 模型及深度研究模型开发。2023 年加入 OpenAI 前，他曾在谷歌任职，期间专注于思维链研究 —— 这种研究的核心是逐步训练 AI 模型处理复杂查询。在 OpenAI 工作期间，Wei 曾坦言自己是强化学习的 “忠实拥趸”。强化学习是通过正反馈或负反馈来训练、优化 AI 模型的技术，如今已成为 AI 研究的热门领域，而 Meta 超级智能团队此前聘请的多位研究员，恰好都深耕这一方向。

另有消息人士向《连线》杂志透露，OpenAI 的另一位研究员 Hyung Won Chung 也将一同加入 Meta。多位消息人士证实，两人在 OpenAI 内部的 Slack 账户现已停用。目前，OpenAI、Meta 以及 Wei 和 Chung 本人都未回应《连线》杂志的置评请求。

这些核心研究员的流动，无形中让外界对 OpenAI 的团队运作与文化底色愈发好奇：是什么样的环境，既孕育了顶尖人才，又让他们在职业选择上呈现不同走向？而近期另一位离职者的亲身分享，恰好为我们提供了一个观察这家公司内部生态的独特视角。

曝光人 Calvin French-Owen 曾是客户数据初创公司 Segment 的联合创始人，该公司于 2020 年被 Twilio 以 32 亿美元收购。

Owen 于 2024 年 5 月加入 OpenAI，曾参与了 Codex 的开发，三周前选择离开。促使他写下这篇文章的，并非要披露商业机密，而是希望趁着记忆清晰，像纳比尔・库雷希反思 Palantir 那样，分享自己在 OpenAI 感受到的实际文化，为这个充满魅力的组织留下一份个人视角的记录，以回应外界围绕其的诸多流言。

他坦言，离开 OpenAI 并非因个人恩怨，内心实则充满矛盾。从创业者到大型公司员工的转变本就不易，如今的他更渴望新的开始。同时，他也由衷认可 OpenAI 的工作价值 —— 能参与到通用人工智能（AGI）、大语言模型这类重大技术创新中，亲眼见证进展并参与 Codex 发布，是他视为幸运的经历。

在外界眼中，OpenAI 仿佛是一个高度集权、成员间协作无间且能攻克艰难任务的顶尖团队。可真实的 OpenAI，更像是由众多小团队并行运作构成的集群体系。这里没有统一的行动路线图，各团队的节奏也很少同步，执行的重要性远胜过流程。研究方向并非由上层向下强行指派，而是通过激发研究员的兴趣和挑战欲，让他们主动投身于问题的解决中。

就像 Codex 的发布，仅用 7 周时间便完成，全凭一小群人奋力推动才得以上线。在他看来，OpenAI 身上留存着一种传统的技术理想主义：以实现 AGI 为目标，即便出现错误也无妨，修正后继续前进 —— 绝不会等到所有人都认同才启动项目。

需要说明的是，文中观点仅为作者的个人观察，不代表这就是 OpenAI 的全貌，毕竟 OpenAI 规模庞大，这只是他所了解到的冰山一角。

Calvin French-Owen

从创始人到独角兽里的“螺丝钉”

我 2024 年 5 月加入 OpenAI，并在三周之前正式离开。

外界对于 OpenAI 的运作方式一直有很多流言蜚语，但很少提到跟真实工作文化相关的第一手资料。所以，这里我想跟大家分享一点经历回顾。

Nabeel Quereshi 写过一篇题为《回顾 Palantir》（https://nabeelqu.substack.com/p/reflections-on-palantir）的精彩文章，其中回顾了 Palantir 的独特之处。趁着自己对 OpenAI 的记忆还算清晰，我也想聊聊自己的体悟。放心，这里不会涉及任何商业机密，有的只是对 OpenAI 这家人类历史上最具魅力的组织之一的感受，以及它如何在一个充满不确定性的时期发展和演变。

坦白讲，我的离开并不掺杂任何个人因素——更准确地讲，我其实非常纠结。从一位自主创业者转变成公司内 3000 名员工中的一位，我经历了很多挣扎。而现在，我渴望一个全新的开始。

首先想到的当然是我们做出的成果。哪怕不聊通用人工智能（AGI）这样可能颠覆一切的潜在成果，大语言模型也绝对是近十年来最伟大的技术创新。我很荣幸能亲眼见证一切的发展，并参与到 Codex 的发布中来。

再次重申，这些并不是 OpenAI 公司的官方看法，只是我个人管中窥豹的一点体会。这是一家规模庞大的组织，我能够看到的永远只是有限的切片。

OpenAI 企业文化

要聊 OpenAI，肯定离不开它发展得有多快。我刚加入时，公司只有 1000 多人。但短短一年后，员工数量就超过了 3000 人，而我按任职年限排名位列前 30%。跟两、三年前相比，几乎所有领导层的工作内容都发生了翻天覆地的变化。

当然，快速扩张总会带来新的挑战：公司内部的沟通方式、汇报结构、产品交付思路、人员的管理和组织形式、招聘流程等等。不同团队间的文化差异也很大：有些团队一直在全力冲刺，有些则专注于踢好临门一脚，还有些会以更稳定的节奏持续推进。OpenAI 就像一只大锅，把研究、应用和产品上市等诸多差异巨大的“食材”搅拌在一起。

OpenAI 最不同寻常之处，在于这里的一切都运行在 Slack 之上。没错，我们不怎么用电子邮件。在整个工作期间，我大概只收到过 10 封邮件。对于不善组织的人来说，这种沟通形式很容易造成混乱。但如果能管理好自己的频道和通知，那一切也可以井井有条。

OpenAI 有着非常明确的自下而上特征，在研究领域体现尤甚。刚刚入职时，我急着询问下个季度的路线图，而得到的答案是“没有路线图”（虽然现在有了）。好主意可能来自任何一个人，而且我们往往很难预先判断哪些主意最有成效。OpenAI 并不会制定宏大的“总体规划”，而是不断迭代，且随时匹配最新研究成果。

得益于这种自下而上的文化，OpenAI 也特别推崇任人唯贤。从历史上看，企业领导者的晋升一直由他们提出好问题并付诸实践的能力来决定。不少能力超群的领导者往往不擅长在全体会议上说服大家，或者展现巧妙的政治手腕。而在 OpenAI，这一切都不太重要、至少不像在其他公司那么重要，最终胜出的就是最有质量的点子。

员工们更倾向于直接行动，职能相近但本不相关的各个团队会在各个点子上汇聚又散开。我最终从事的是涉及 ChatGPT Connectors 的内部并行项目。在决定发布项目之前，公司里至少已经有 3、4 个不同的 Codex 原型在推进。很多工作往往由少数员工在未经许可的情况下就开始，在展现出潜力后再迅速围绕他们组建完备的团队。

Codex 项目负责人 Andrey 曾告诉我，我应该把研究人员视为一个个“迷你主管”。大家会倾向于专注自己认可的方向，再看看最终结果如何。由此可以推论：大多数研究都是由研究人员以学术方式探索特定问题的形式完成的。如果某个问题被认定为“意义不大”或者“已经解决”，那就到此为止、不再投入更多资源。

好的研究经理是决定成败的关键，但能力仍非常有限。最优秀的研究经理能够将多项不同研究工作联系起来，并整合出更大规模的模型训练方案。优秀的产品经理同样如此，我合作过的 ChatGPT 项目经理（Akshay、Rizzo、Sulamn）等是我接触过的最酷的客户。他们似乎无所不通、无所不晓，而且工作风格非常困难。他们关注的是吸纳优秀的人才，确保为项目的成功做好充分准备。

OpenAI 也有非常敏捷的变向能力。这一点非常重要，毕竟现代组织的一大特征，就是要根据新信息快速转向、而非僵化地依据原有计划坚持旧路线。像 OpenAI 这样体量庞大的企业居然还能保持这种精神，简直令人惊叹——谷歌显然失去了这种能力。OpenAI 决策迅速，而且在确定了方向之后就会全力以赴。

OpenAI 面对着巨大的审查压力。对于拥有 B2B 从业背景的我来说，这其实相当难以理解。我常在媒体上看到一些内部都没发布过的神秘消息。而在告诉别人我在 OpenAI 工作时，得到的反馈也往往是大家对这家公司先入为主的印象。不少 Twitter 用户甚至会使用爬虫程序，希望了解 OpenAI 有哪些新功能即将推出。

总之，OpenAI 是个外人眼中极其神秘的地方。恕我不能透露更多工作内容细节，但这里有好几个 Slack 工作区，对应的权限也各不相同。至于公司收入和烧钱的具体数字，更是受到严格保密。

OpenAI 的运营态度也要比大家想象中严肃得多，部分原因在于这份业务风险很高。一方面，OpenAI 的目标是构建通用人工智能（AGI），就是说很多事情必须得做好。另外，我们还得打造一款产品，确保数亿用户在无数场景和需求下都能正常使用。第三，这家公司站在全球最残酷的竞技场上，我们需要密切关注 Meta、谷歌和 Anthropic 的动向——相信他们也是一样。而且不光是企业，全球各主要国家的政府也一刻都没有放松对我们的审视。

OpenAI 最大的成本是 GPU 算力

尽管 OpenAI 常常在媒体上被黑，但就个人体会来讲，这里的每个人都在努力做正确的事情。只是 OpenAI 专注于消费者群体，也是大型研究机构中知名度的顶点，所以毁谤之词总是如影随行。

但千万别误会，OpenAI 可不是那种臃肿笨拙的大厂。在我眼中，OpenAI 更像是洛斯阿拉斯莫国家实验室——最初由一群科学家和探索前沿科学的工程师组成。他们偶然间开发出了史上最火爆的消费者应用，之后又萌生了把产品推向政府和企业的雄心。这里不同职位和不同部门的目标和观点往往大相径庭。在 OpenAI 待的时间越长，我们就越习惯从“研究实验室”或者“公益性非营利组织”的视角看待问题。

最让我欣赏的，是这家公司在推广 AI 优势方面的“言行一致”。前沿模型并不专属于某些签订了年度协议的企业客户。相反，世界上的任何人都可以访问 ChatGPT 并获取答案，哪怕不登录也行。ChatGPT 还提供 API，可供大家注册并使用，且大多数模型（哪怕是最先进的模型或者专有模型）也会被很快收录其中。可以想象，这是种与我们此前熟悉的商业逻辑完全不同的新形态，而且时至今日仍深深刻在 OpenAI 的 DNA 当中。

OpenAI 内部对于安全的重视程度远超大家的想象。目前公司调排大量人员以开发安全系统。鉴于 OpenAI 的普适性质，公司也更关注实际风险（例如仇恨言论、虐待、操纵政治偏见、制造生物武器、自残、提示词注入等），而非理论风险（智力爆炸、权力垄断等）。这并不是说没人关注理论风险，只是优先级相对低些。从个人角度讲，我觉得很多安全努力没有对外公开真的很遗憾，OpenAI 应该认真介绍自己到底为安全做了多少。

跟其他在每次招聘会上慷慨赠送礼包的公司不同，OpenAI 并不会搞太多实物福利。倒是有些“drops”活动允许员工优惠订购库存商品。第一届 drops 活动就把 Shopify 给搞瘫痪了，因为需求量太大。当时有篇内部帖子还分享了经验，介绍如何 POST 正确的 json 负载来规避这个问题。

OpenAI 最大的成本来源就是 GPU 算力，其他一切基本可以归入误差范畴。举例来说，Codex 产品构建中涉及一项小众功能，单是它的 GPU 成本就跟我们整个 Segment 基础设施相当（规模虽然不如 ChatGPT，但占用的互联网流量非常夸张）。

OpenAI 也是我见过的最雄心勃勃、甚至令人感到敬畏的组织。很多人会觉得做出全球顶级消费者应用就够了，但 OpenAI 渴望在数十个领域参与竞争：API 产品、深度研究、硬件、编程智能体、图像生成乃至更多尚未公布的领域。这是一片孕育创意并鼓励付诸实践的沃土。

公司还特别关注 Twitter。如果有人发了篇跟 OpenAI 的热门帖，就会有专人跟进并认真对待。有个朋友开玩笑说，OpenAI 其实是靠网络舆论运转的。作为一家消费者应用开发商，这话肯定有道理。虽然使用量、用户增长和留存率分析也很重要，但 OpenAI 确实很关注社交平台上的意见。

OpenAI 团队成员的流动性也更大。在发布 Codex 时，我们需要借调几位经验丰富的 ChatGPT 工程师来保证按时上线。我们跟好几位项目经理沟通，并提出了这个请求。第二天，就有两名经验丰富的工程师前来支援。我们用不着等什么季度换岗计划或者人员调整通知，整个过程进展得非常迅速。

领导层也非常活跃，并且积极参与。在像 OpenAI 这样的公司，各个响亮的名号都会在 Slack 上定期交流，从无一人缺席。

项目代码

OpenAI 使用的是一个巨大的单体 monorepo，其中大部分是 Python 代码（但 Rust 服务的数量也在增加，网络代理用的则是 Golang）。因为 Python 的写法很丰富，所以不少代码看起来奇奇怪怪的。比如为了规模化而设计的库，包括谷歌十年老开发设计的库，还有新晋博士生提交的一次性 Jupyter notebook。一切几乎都围绕着 FastAPI 来创建，并使用 Pydantic 进行验证。在 OpenAI，并没有任何强制性的风格要求。

OpenAI 的所有服务都运行在 Azure 上。但就个人体会，我觉得真正值得信赖的服务只有三项：Azure Kubernetes、CosmosDB（Azure 的文档存储方案）和 BlobStore。目前我们还没有大规模使用到 Dynamo、Spanner、Bigtable、Bigquery Kinesis 或者 Aurora。在自动伸缩单元中运行大量思考的情况相对少见，毕竟 IAM 的实现往往比 AWS 的限制要多得多。而且，内部实施往往也有很强的倾向性。

在工程人员方面，从 Meta 身上学习经验非常重要。OpenAI 在很多方面都跟早期的 Meta 相似：推出了一款爆红的消费级应用、采用新兴基础设施，也有着快速发展的愿景。从 Meta 和 Instagram 那边过来的多数基础设施人才都非常优秀。

综合考虑这些因素，会发现 OpenAI 的底层运作模式很大程度上沿袭了 Meta。比如在内部对 TAO 进行重新实施，借此整合边缘身份验证。而且公司里肯定还有我不了解的其他尝试。

聊天这个形式成为很多工作的前提。自从 ChatGPT 出圈以来，很多代码库都是围绕聊天消息和对话的概念构建出来的。这些原语目前已经非常成熟，但暂时忽略了其可能带来的风险。我们在 Codex 中确实略微偏离了这个方向（更多借鉴了 responese API 的经验），但也借鉴了不少现有技术。

代码至上。 决策通常由愿意完成这项计划的团队提出，而非设立专门的中央架构或者规划委员会。因此我们更倾向于直接行动，也导致代码中经常出现重复的部分。比如用于队列管理或者智能体循环的库，我就见过至少五、六个。

但在某些领域，由于工具数量跟不上工程团队的规模扩张，我们也遇到了新问题。sa-server（后端单体程序）几乎成了垃圾场。主服务器上 CI 中断的频率比大家想象中高得多，哪怕是并行运行的测试用例再加上一部分依赖项，在 GPU 上运行起来也需要差不多半个小时。这些问题虽然肯定有办法解决，但也在随时提醒我们，这类问题无处不在，而且随着业务规模的快速提升只会变得愈发严重。但值得称道的是，内部团队投入了大量精力来改进这个问题。

大模型是怎么训练出来的

有影响力的消费品牌是怎么做出来的？直到参与 Codex 的开发，我才真正理解这一点。一切都要以“付费订阅”来衡量。哪怕是像 Codex 这样的产品，针对个人的用户引导也要比说服团队决策者更重要。这让我有点伤脑筋，因为我之前做的都是 B2B/ 企业业务，只需要说服一个人，那项目从起步阶段就能获得流量。

大模型是怎么训练出来的（宏观描述）。这是个从实验到工程的过程，大多数想法先是用小规模实验进行验证。如果结果看起来有点希望，就会被纳入更大规模的运行。实验的范围不仅包括调整核心算法，还包括调整数据组合并认真研究结果。从宏观角度来看，大规模运行本身就是一项庞大的分布式系统工程。肯定会出现一些奇怪的极端情况和意外问题，而调试工作则完全落在我们自己身上。

怎么用好 GPU 资源。在 Codex 发布期间，我们先得预测负载能力需求，这也是我第一次真正投入时间对 GPU 进行性能测试。重要的是，应当从延迟要求（总体延迟、token 数量、首 token 时间）入手，而非自下而上地分析 GPU 承载能力。另外，每次模型迭代都会大大改变负载模式。

如何接手大型 Python 代码库。Segment 是两种微服务的结合，主要用到 Golang 和 TypeScript。我们的代码广度肯定远不及 OpenAI，因此在这里学到了很多如何根据代码贡献者数量来扩展代码库的知识。简单来讲，必须要为“默认能跑”、“保持主代码库清洁”和“不易滥用”等要求设置更多防护措施。

发布 Codex 仅用了 7 周

在 OpenAI 供职的最后三个月里，我把很大一部分时间都花在了发布 Codex 上。而这也成为我职业生涯中的最大亮点之一。

为了夯实基础，OpenAI 早在 2024 年 11 月就明确提出，要在未来一年内发布一款编程智能体。到 2025 年 2 月，我们已经有一些内部工具开始运行，发掘大模型的编程潜力。但打造编程专用智能体还是给我们带来了巨大压力，特别是如何保证其能够真正为日常编程提供帮助（在此期间，市面上的氛围编程工具迎来了爆发式增长）。

我提前结束了陪产假，赶回来参与 Codex 的发布。一周之后，两支内部团队正式合并，开始了疯狂冲刺。从编写第一行代码到项目完成，整款产品仅用 7 周时间就成功落地。

Codex 冲刺可能是我最近十年来最辛苦的一段经历。大多数情况下，我都得熬夜到夜里 11 点甚至凌晨，而每天早上 5：30 就被小宝宝吵醒，7 点又要去办公室。大多数周末得加班，团队中的每个人都拼尽全力，因为每分每秒都至关重要。这让我又想起了当初在 YC 打拼的时光。

实际进度也快得令人惊叹。我从未见过 OpenAI 这等规模的组织能够在这么短的时间内，把一个想法开发成一款全面上线且免费交付的产品。项目本身的体量也很可观：我们构建了一个容器运行时、优化了代码库下载、微调了一个处理代码编辑的自定义模型、处理了大量 Git 操作、引入了全新接口、实现了联网查询，最终打造出一款总体来说使用体验极佳的产品。

无论外界怎么评价，OpenAI 确实始终秉承着勇于创新的精神。

我们这支团队有大约 8 名工程师、4 名研究员、2 名设计师、2 名产品上市专员和 1 名产品经理组成。如果没有这样的阵容，我想项目根本就不可能成功落地。对我们来说指导不重要，真正重要的是如何高效协同。我可以负责任地讲，Codex 团队的每位成员都非常出色。

发布前一晚，我们五个人熬夜到凌晨 4 点，努力部署主 monolith（耗费好几个小时）。之后我们回到办公室，参加早上 8 点的发布公告和直播。我们打开 flag，看到流量开始涌入。我从未见过一款产品仅仅是显示在左侧边栏里就能获得这等恐怖的流量增长，而这就是 ChatGPT 的魅力所在。

在产品形态方面，我们最终选择了纯异步方案。与当时的 Cursor 和 Claude Code 等工具不同，我们的目标是允许用户启动任务，并让智能体在自己的环境中运行。我们希望最终用户能像对待同事那样对待编程智能体：可以向智能体发送消息，由智能体花点时间完成工作，之后再返回 PR。

但整个过程有点像赌博：模型虽然表现不错，但远非完美。它们可以连着好几分钟不出错，但却坚持不了几个小时。另外用户对模型功能的信任度也参差不齐，我们甚至不清楚这些模型到底能实现哪些功能。

从长远来看，我认为大多数编程工具都会朝 Codex 的形态发展，我也会对这类产品的后续推进保持关注。

Codex 还特别擅长处理大型代码库，知道如何驾驭体量可观的资产。跟其他同类工具相比，Codex 最大的亮点在于能够同时启动多个任务，并比较它们的输出结果。

最近我看到一组公开数据，比较了不同大模型智能体提交的 PR。单从结果上看，Codex 生成了 63 万条 PR。就是说从发布以来的 53 天内，每位参与开发的工程师对应约 7.8 万条公开 PR。可以说，我这辈子从没做过这么有影响力的事情。