AI热点 3小时前 96 阅读 0 评论

内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌!

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

OpenAI在短短两个月内,让AI从挣扎于小学数学题跃升至国际数学奥林匹克(IMO)金牌水平,背后是通用AI技术的突破。


OpenAI的ChatGPT真能拿到国际奥数IMO金牌?还是OpenAI的自嗨?背后到底有何隐情?


OpenAI的IMO金牌核心团队Alexander Wei、Noam Brown与Sheryl Hsu做客红杉Training Data播客,分享了如何在两月内让AI斩获IMO金牌🥇。


比如说,OpenAI内部并非所有人都持乐观态度。某位研究员甚至打赌模型不会赢,赔率高达2:1,不过最终因为「不想影响士气」而放弃了赌局。


比赛当天凌晨1-5点,Noam Brown忙里偷闲,小憩了一番,而Alexander Wei疯狂检查模型生成的证明🙈。


他们这次还解释了是如何决定AI是不是拿到了金牌。为了评分,他们雇用了外部的IMO奖牌获得者。每份证明都由三名奖牌获得者进行评分,他们对正确性达成了一致意见 。就这样,他们认为AI的确有能力拿到IMO金牌。


他们还透露证明像「外星语言」般独特,可读性不高。虽有有能力优化,但为了透明,他们选择发布了原始输出。



如果你只想快速了解精华,先看下方要点;想读幕后故事,请继续往下。


要点速读


在短短两个月内,这支OpenAI仅三人的精锐团队就实现了整个AI领域多年未竟的目标——在国际数学奥林匹克竞赛难题上达到金牌级水平。



这是通往ASI道路上最重要的里程碑之一。


这次突破之所以特别引人注目,不仅仅是因为AI的数学能力,更在于其背后的架构。这是一种通用技术,用于扩展测试时间计算,并处理那些远远超出竞赛数学范畴的难以验证的任务。


就在一年前,AI还只能进行短暂的数学推理,仅仅持续十分之一分钟。而现在,已有AI系统能够持续推理长达100分钟。


而超级智能的期望是,随着我们将推理时间扩展到数千甚至数十万小时,我们或许能够开始解决人类在数学、科学等众多领域中那些最伟大的未解难题。


团队还介绍了他们的独特方法:在难以验证的任务上,不用形式化验证工具,而使用通用强化学习技术。


新模型展现出惊人的自省能力——主动承认无法解答第六题,同时揭示了解决竞赛题与取得真正数学研究突破之间的悬殊差距。



IMO 2025第六题是本次竞赛难度最大的题目,大意如下:


考虑一个2025x2025的单位正方形网格。马蒂尔达希望在这个网格上放置一些矩形瓷砖,这些瓷砖的大小可能各不相同,但每块瓷砖的每一边都必须与网格线对齐,并且每个单位正方形最多被一块瓷砖覆盖。


确定马蒂尔达需要放置的最小瓷砖数量,以确保网格的每一行和每一列都有且仅有一个单位正方形没有被任何瓷砖覆盖。


关键亮点如下:


(1)通用技术胜过专用方案。


(2)小团队也能创造大成果:核心团队仅由3名研究人员组成,在最后2个月冲刺完成工作。


(3)自我意识提升AI可靠性:面对最难的题目时,模型能承认自己无法解决,而不是输出看似合理但错误的答案。


(4)测试时计算扩展助力深入推理:突破的关键在于将推理计算时间从几秒延长到几小时,使模型能更深入思考复杂问题。


(5)竞赛是进步的起点,而非终点。



Sheryl Hsu(第一排中间女子)分享的OpenAI合照


两个月的奇迹


国际数学奥林匹克(IMO)是全球高中生数学顶尖赛事,难题之难让人类选手也要苦练多年。


即便是天才数学家陶哲轩,10岁时第一次参加IMO,获得了铜牌。约两年后,第二次参加IMO,他才获得了金牌。


可OpenAI的这支小队却只用了两个月!


他们的秘密武器是什么?


在红杉资本的播客《Training Data》中,主持人Sonya Huang揭秘了真相:


他们用了一种叫做「多智能体系统」的技术。


简单说,就是让多个AI「助手」同时工作,像一个超级团队分工协作。


这种方法让他们的模型能在短时间内解决复杂问题。



AI在数学上真令人叹为观止!


就在几年前,AI模型还在为解决小学数学问题而挣扎。


在2024年,GSM8K还被当作评估模型的标准。



GSM8K,即小学数学8K,是一个包含8,500个高质量、语言多样的小学数学应用题的数据集。目前,此数据集的成绩已经饱和:Claude 3 准确率已达95%

但在数学领域,这只是短暂现象。随后,AI数学基准测试出现了美国数学邀请赛AIME,接着美国奥数USAMO。



去年的开源模型数学排行榜


现在,国际数学奥林匹克竞赛金牌也被AI拿下。


AI以惊人的速度突破了所有的数学基准。


AI或觉醒自我意识

敢说自己「没答案」


有时,AI会「胡思乱想」,编造错误答案,同时「理直气壮」,自信过头。



这属于推理模型的「幻觉」问题。


但OpenAI的模型很特别——它能在解不出题时果断说「我不知道」。


比如在IMO第6题上,模型选择不冒险,而是承认自己的局限。


新模型显著减少了「幻觉」问题。


OpenAI研究员Noam Brown认为AI开始向自我意识推理转变:


过去,数学家们需要仔细检查模型的解题过程,因为早期系统常常会悄无声息地弄错不等式或插入错误步骤,导致「幻觉」答案。


在缺乏有效证明时,新更新的IMO模型倾向于说「我不确定」,这大大减少了隐藏错误



这一点让笃信AGI的网友Causal Coder激动地评论:「这比拿金牌还重要!」


为什么?因为这避免了「幻觉」(hallucination),让AI更可靠。



《自然》杂志的研究也支持这一观点:减少错误输出是AI进步的关键。



这不仅在数学竞赛中闪耀,还可能帮我们在未来科学计算中少走弯路。


数学让人谦卑,AI任重道远


尽管这次的进步令人兴奋,但距离千禧难题还很远。


若按IMO题需要1.5小时思考估算,千禧级别需将思考时间放大上千倍,仍任重道远。


GSM8K是小学数学,好学生几秒钟搞定。现在AI从几秒钟进步到IMO级别——天才学生平均每题1.5小时(IMO三题4.5小时)。而研究数学需要这些奥赛天才长大后花1500小时。所以,从1.5小时到数千小时,还有千倍差距。


在千禧问题上,整个领域的专家毕生努力,还没多少进展。数学的深度让人谦卑:从1.5小时到数十万小时的人类思考,还有很长的路。



目前,7大千禧难题只有庞加莱猜想得到了解决


不止是数学

通向通用智能


这次的突破是为了开发通用的推理技术,而不是局限于数学。


他们在短短一年多的时间里,将推理时间从O(0.1分钟)扩展到了O(100分钟)。


除了让长推理以及在难以验证的任务上取得进步之外,这还涉及到扩展并行计算,涉及到多智能体。



在多智能体强化学习(MARL)实验中,两个对立的智能体团队展开对抗


他们通过巧妙设计「奖励函数」,让AI能处理难以验证的难题,相同方法也适用于物理奥林匹克竞赛,不过模型还无法进行实验部分的操作。


在扩展思考时间、处理难以验证的任务以及并行计算上,他们所采用的技术都是通用技术。他们计划在其他系统中使用,或者已经在使用了。


从基础设施的角度来说,这次基本上使用的是和其他项目相同的基础设施。


并没有什么专门为IMO定制。


他们称此次方法接下来会整合进更多OpenAI模型,全面提升推理能力,从而构建更强大的模型,不断改进Agent、ChatGPT以及其他一切。


但全球部署仍需时间。


挑战与梦想:路还长


千年难题如黎曼猜想,人类中的天才一生都难解,AI还需更多突破。


但团队不气馁,他们甚至想让AI学会自己提出新问题——这比解题更酷!


Noam Brown表示,语言模型现在正迅速地一个个克服障碍:


接下来的挑战将是生成新问题,比如创作IMO级别的数学难题「需要专业的数学家...但我看不到任何根本性的障碍。」



红杉的Sonya笑称:「从0.1分钟到100分钟的推理扩展,已经是巨大进步,未来可期!」


这对我们意味着什么?


这个故事不仅炫酷,还很实用。想象一下,未来AI能帮你解决家庭预算、设计新游戏,甚至提出科学新想法! 对于普通人,这意味着更智能的生活助手正在路上。对AI开发者来说,这是个启发:合作和创意能带来意想不到的成果。


参考资料:


https://www.youtube.com/watch?v=EEIPtofVe2Q


https://x.com/Hangsiin/status/1950505990660731084


https://x.com/slow_developer/status/1950504142990139571


https://x.com/chatgpt21/status/1950606890758476264


https://www.sequoiacap.com/podcast/training-data-openai-imo/


https://x.com/sonyatweetybird/status/1950607065380163742


https://github.com/aw31/openai-imo-2025-proofs/


https://klu.ai/glossary/math-eval


文章来自于微信公众号“新智元”。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!