AI热点 4小时前 61 阅读 0 评论

OpenAI史上最大失误:放走这位MIT学霸!美国AI「三朝元老」,现实韦小宝

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

AI时代的基建狂潮来了!Anthropic联合创始人Tom Brown直言:人类正踏上一场规模超越阿波罗登月、曼哈顿计划的算力竞赛。他,曾经线代只考70多,6月自学成才,加入OpenAI打造GPT-3,创立Anthropic……一路开挂堪比韦小宝,他正是AI时代最燃的注脚!


AI算力竞赛,比阿波罗更庞大,比曼哈顿更疯狂!


Anthropic联合创始人Tom Brown直言,AI基础设施的规模超越阿波罗与曼哈顿计划。


AGI算力投入正疯狂膨胀,每年增速高达3倍。



明年,这个增长势头确定无疑;但到了2027到2028年,不确定性稍高。


Tom Brown,或许并不如奥特曼、马斯克那样家喻户晓,但在AI圈,他是被低估的传奇。


特别的是,他自学成才——从线性代数只考了B-的学生,硬是成长为推动通用人工智能突破的核心人物。


在OpenAI协助打造了GPT-3之后,他和OpenAI志同道合的同事,另立山头,共同创立了Anthropic。



当刚起步时,他们完全看不出会成功:


OpenAI拥有十亿美元的资金,还有一群明星科学家;


而Anthropic只有七个联合创始人(见下图),硬着头皮起步,连能否做出产品、产品会是什么样都没谱。



如今,Anthropic的Claude,已经成为全球开发者的首选。


在Anthropic,他主导着他称之为「人类史上最大规模的基础设施建设」——一场比阿波罗登月、曼哈顿计划更庞大的算力竞赛。


在硅谷的「黄埔军校」YC的Lightcone Podcast「光锥播客」节目中,Tom Brown首次全面讲述了自己的非典型人生历程。他还分享了对年轻工程师的肺腑之言。



这场访谈完整回顾了Tom Brown的创业与研究历程:


  • 毕业即创业,体会「狼性」文化;


  • 在Grouper遭遇失败,转向AI自学;


  • 厚脸皮联系Greg Brockman,进入OpenAI;


  • 参与GPT-3训练基础设施,见证scaling law的力量;


  • 与OpenAI团队决裂,创立Anthropic;


  • 推出Claude,并在Claude 3.5/3.7迎来市场转折;


  • 打磨Claude Code,意外成为爆款应用;


  • 负责超大规模的算力与硬件基础设施;


  • 最后强调:年轻人要勇敢冒险,追随内心使命,而不是追名逐利(chasing credentials)


MIT学霸创业踩坑录


主持人问:21岁从MIT毕业,Tom进入科技行业,从2009年到今天,怎么一路走到联合创办Anthropic这样重要的公司?



他追忆了他的来时路。


21岁从MIT的计算机专业毕业后,放弃巨头offer,他加入朋友初创公司Linked Language,首次体验「狼性」创业文化。


毕业即创业,他直言这段经历改变了他的心态:


在学校里,别人给我布置任务,我就完成任务,就像一只等着被喂食的狗。


但在创业公司,我们更像狼——必须自己去猎食,不然孩子会饿死。


这种转变给了他勇气直面更大更难的事。


之后,Tom去了移动广告平台Mopub,是第一号工程师。虽然想当「狼」,但那时编程水平其实很差,他常常觉得自己跟不上。但这段经历让他学到了如何把东西拓展。


之后,他却连续踩坑:


  • 第一次当CEO:做「比Heroku更灵活」的DevOps平台,结果连自己都说不清要做什么。


  • 第二次做约会App:YC之父Paul Graham把他介绍给Grouper,被Tinder直接降维打击,边烧光钱边靠「每周带团队去相亲」续命。



对Tom来说,Grouper的吸引力在于:本来,他非常笨拙、害羞,特别希望有个平台能让他在朋友陪伴下去认识女生,这样会更安全。


唯一比他还常去Grouper约会的人是Greg Brockman。他一度几乎每周都在社交软件上发「这周谁去Grouper?」。



Greg Brockman:OpenAI联创、现任OpenAI主席


他们也成了好朋友,这也成为他之后进入OpenAI的重要人脉。


在Grouper,他被搞得身心俱疲:创业的高潮让人兴奋,但低谷也极度痛苦。


回头看,Tinder的方案比他们好得多,Grouper的使命被超越了。


业务下滑、收入减少,但Tom仍在招工程师,不断推销一个连自己都不再相信的梦想——那种感觉简直像「死亡行军」。


所以那段时间,他并没有立刻投入研究,而是先「晃荡」了一阵子。


比如,去做瑜伽、CrossFit,甚至花三个月造了一辆「艺术车」开去Burning Man艺术节,洗去一身「班味」。



六月自学AI

「走后门」加入OpenAI


他犹豫了很久是否要转型去做AI研究:


也许,我们这辈人就会遇到颠覆性人工智能(Transformative AI)的出现,如果真发生,那是人类最重大的事件。


或许我能帮上点忙。但我大学线性代数才考了B-(差点是C+),这种水平能行吗?


2015年,Tom离开了Grouper,但一直到一年后才加入了OpenAI。


那时,想要搞AI研究,大家觉得你必须是顶尖学霸才有资格。所以,他不确定能否胜任,加上之前创业有所成就,他一度想干脆再去做个新创业项目算了。


他的朋友们听说他要去做AI研究,都觉得很怪,甚至有点糟糕。他们说:「AI安全?听起来就像火星人口过剩一样荒谬!」


他们都怀疑Tom不一定适合干这事。所以他足足犹豫了半年,才慢慢鼓起勇气去尝试。


玩了三个月后,他逼自己进入「隐身学习模式」六个月,好让自己有机会进到顶尖实验室。


当时只有三个选择:DeepMind、谷歌Brain、MIRI(机器智能研究院)。但他完全没技术积累,只能靠自学。


那是2015年,深度学习刚火起来,他的主要计划是:


  • 在Coursera上自学机器学习课程;


  • 做一些Kaggle项目;


  • 读《Linear Algebra Done Right》;


  • 翻一本统计学教材;


  • 甚至用YC校友点数买了一块GPU,SSH远程上去跑实验。


为了进入OpenAI,他一开始就厚着脸皮去找Greg Brockman,毕竟那时OpenAI团队里大多是研究员,阵容强大。



OpenAI宣布成立的当天,Tom就给Brockman发消息:「我线性代数才B-,但会一点工程,懂一些分布式系统。要是能帮上忙,哪怕扫地拖地我都愿意。


Greg觉得懂机器学习又懂分布式系统的人太少了,Tom是个鬼才。


于是把Tom介绍给Pieter Abbeel,帮他整理学习计划。



Pieter Abbeel是加州大学伯克利分校的教授,专攻机器人学习领域。2016年4月26日,他从伯克利休假,全职加入了OpenAI


后来,Tom每个月都去跟进学习,终于等到一个机会:OpenAI想做游戏环境,需要人帮忙搭建星际争霸(StarCraft)环境。于是他加入项目。


当时,OpenAI落脚在旧金山的Dandelion 巧克力工厂楼上,还有马斯克承诺的十亿美元资金,创业氛围十足。



之后的一个关键节点是:他开始负责训练GPT模型的工程系统。


GPT-2还在TPU上训练,而GPT-3的重大突破是切换到GPU并使用更多算力


在OpenAI干了一年,他中间离开去Google Brain待了一年,后来又回到OpenAI。



他恰好碰上GPT-3的训练期(2018–2019)。


那时大家已经意识到Scaling Law的力量:只要用对方法,算力越多,智能就越强。


  • Dario Amodei发表了著名的Scaling Law论文,证明了这一趋势。


  • Danny Hernandez的研究显示,算法效率提升也在持续降低成本。


这两股力量叠加,让OpenAI看清未来几年智能水平会爆炸式提升。


当时他最震撼的是:那条直线跨越了12个数量级——从小模型到超级大模型,全都稳定对齐在同一条线。


这么长的数量级跨度,在其他科学领域都没见过。于是Tom完全转向做scaling相关工作。


当然,当时学界很多人还在批评OpenAI,说「你们只是在堆GPU,太粗暴,没技术含量」。有人甚至形容这就是「愚蠢但有效」的办法。


如今看来,正是这条「笨办法」推动了智能的飞跃。


分道扬镳,自立门户


Tom待过OpenAI、谷歌DeepMind和Anthropic,可谓美国AI界的「三朝元老」。


Tom原本是从GPT-3团队的一员,到底为何与OpenAI决裂?


这与与Amodei兄妹难脱关系。



当时,OpenAI负责safety和scaling的团队向Daniela、Dario Amodei兄妹报告。


两支团队合作默契,而且都坚信:


Scaling Law必然会带来颠覆,最终人类将不得不把某种控制权移交给通用人工智能(AGI)。如果运气好,它会与人类目标保持一致,带来顺利的过渡;如果运气不好,后果可能极为严重。


因此我们必须建立一个能够承担这种重任的机构。


这就是他们自立门户核心原因。


Tom坦承当时并不确定这是对世界最好的选择。回头看,结果证明这是明智的。


早期加入Anthropic的人都是抱着「使命」来的。他们本可以去更体面、更赚钱的地方,但选择了Anthropic,因为他们相信这件事值得做。


这也成为公司文化的基石:前100名员工几乎都是因使命而来



Anthropic的Linkedin主页介绍


正因如此,直到今天Anthropic已有2000多人,政治斗争依旧没能渗入。如果有人觉得某个行为偏离使命,他们会直接站出来指出来。


Claude拿下开发者,ChatGPT干瞪眼


大概在ChatGPT推出前9个月,Anthropic推出了第一个产品Slack机器人Claude 1


初期,Anthropic还犹豫是否发布产品,专注于研究和基础设施。ChatGPT的发布是一个催化剂,促使Anthropic推出API和Claude AI。


Claude 3.5 Sonnet特别是Claude Code是其关键转折点,获得了巨大的市场认可。


2023年,几乎所有创业者都在用OpenAI。


但到2024年,Claude 3.5尤其是Sonnet版本开始迅速抢占市场份额。


尤其在编程场景里,从个位数一路升到20%、30%,甚至现在可能80%、90%的创始人更偏好Claude。



国外某投行LLM报告:https://menlovc.com/perspective/2025-mid-year-llm-market-update/


就像OpenAI当初没准备好ChatGPT的爆红一样,Claude 3.7 Sonnet同样让Anthropic惊讶——它意外解锁了「智能体式编程」的能力。


每一次迭代,Claude的新能力惊艳众人。


Claude Code的诞生

「心智切换」理论


YC的创业者调研显示,大家在编程上更喜欢用Anthropic的模型,这种偏好远超基准测试结果能解释的范围。为什么会这样?是有意为之,还是自然涌现?

Tom觉得主要原因是——不「刷榜」


其他大实验室都有专门团队,盯着基准测试题库做针对性优化,目标就是让分数更好看。但我们没有这样的团队,所以反而避免了训练集和测试集的过拟合。


Anthropic内部当然也有自己的评测指标,但不会对外公布。团队主要盯着内部benchmark去优化,同时大量「dogfooding」(内部自用)——比如让Claude来加速自己的工程师工作,这是最高优先级。


最近,Claude Code特别成功。主持人问起了它的起源,没想到Claude Code最初只是个无心之作。


工程师Boris Cherny为了帮团队写代码,临时拼凑出来的内部小工具


一开始,Anthropic的战略是:只做API,不碰应用。因为他们觉得,外部创业公司有无数点子,肯定更懂产品。所以他们全力把API打磨到最好,让开发者去构建应用。


结果Claude Code出乎意料地跑了出来,作为一个产品,它居然比市面上的替代品更好用。


对此,Tom有个「心智切换」理论——把Claude本身当成「用户」来对待


  • 在Linked Language,用户是老师;在Grouper,用户是纽约的单身青年;在Claude Code,用户既是开发者,也是Claude自身。

所以团队的思路是:给Claude配备最合适的工具和上下文,让它更高效地帮助人类完成任务。


这是一种「以模型为中心」的思维方式,对Anthropic而言却格外自然。


人生忠告


如果今天有一个「年轻版的你」——20多岁,正想进入AI领域,想搭上这班快车,你会给他什么建议?


Tom会说——要敢于冒更多风险


选择那些即使失败,朋友们也会觉得你很酷、很钦佩的项目。或者,你理想中的那个更好的自己,会为之骄傲的事情。去做这样的事,而不是一味追逐所谓的「安全路径」。


主持人最后问了大学生常见的困惑:到底要不要继续上学?未来还有没有工作?世界会怎么变?


Tom的建议是:


不要太在意外部的标签(比如学位、证书、去大厂)。


内在驱动比外在驱动更重要。


如果只是为了拿一个文凭,或者去FAANG公司(Facebook、Apple、Amazon、Netflix、Google)混一份工作,那已经没什么意义了。


现在的世界变化太快,靠「传统路径」已经不再是优势。真正的价值,是你能不能在朋友心中、在自己心里,都觉得「我做了一件了不起的事情」。


参考资料:


https://x.com/slow_developer/status/1957925542663184817


https://x.com/ycombinator/status/1957815586744070653


https://www.youtube.com/watch?v=JdT78t1Offo


https://www.linkedin.com/in/nottombrown/


文章来自于微信公众号“新智元”。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!