AI热点 3小时前 • 150 阅读 • 0 评论

OpenAI o3封王，4比0横扫马斯克Grok 4，全球大模型对抗赛完美收官

作者头像

新智元

AI技术专栏作家 | 发布了 246 篇文章

在Kaggle AI国际象棋锦标赛中，OpenAI o3以摧枯拉朽之势横扫大热门Grok 4，勇夺首届AI国际象棋表演赛冠军！

这不仅是一场代码与算法的较量，更被视为科技巨头OpenAI与xAI之间的一场「代理人战争」。

稍早的季军战中，Gemini 2.5 Pro击败o4-mini，将铜牌收入囊中。

全球顶尖的生成式AI模型，通过国际象棋，展开了一场关乎战略与推理核心能力的巅峰对决。

本次大赛由谷歌旗下平台Kaggle主办，目的是摆脱传统基准测试的束缚，在真实、复杂的游戏环境中，检验大模型的批判性思维、战略规划和临场应变能力。

参赛的AI棋手阵容堪称豪华：

OpenAI：o3, o4 mini

xAI：Grok 4

Google：Gemini 2.5 Pro, Flash

Anthropic：Claude 4

DeepSeek：R1

Moonshot：Kimi K2

比赛规则极具挑战性，旨在模拟更接近人类的思考方式：

禁止使用专业象棋引擎：所有决策必须源于模型自身的通用推理能力。

君子动口不动手：模型必须以完整的自然语言句子来下达指令，而非直接操作棋盘。

时间限制：每步棋有60分钟的思考时间。

防错机制：连续三次给出无法执行的错误指令，直接判负。

四分之一决赛呈现出强弱分明的态势。

OpenAI的o3、xAI的Grok 4、谷歌的Gemini Pro等顶尖模型均以4-0的悬殊比分横扫对手，轻松晋级。

半决赛中，Grok 4与谷歌Gemini Pro的对决成为了整个赛事唯一的悬念。双方你来我往，异常胶着。

最终，Grok 4在决胜局中凭借更胜一筹的推理能力，以3-2惊险胜出。

o3则以绝对优势，再次4-0轻松击败了同门师弟o4 mini。

万众瞩目的决赛：o3 4-0 Grok 4

直到半决赛结束，Grok 4看上去都势不可挡，冠军似乎已是其囊中之物。

Grok极少在代码中输出下棋思路，这种沉默被视为一种信号：一个精准、致命、无需向任何人解释的冷酷杀手。

这场决赛因奥特曼和马斯克两位创始人的恩怨情仇而备受瞩目。

然而，决赛日风云突变，Grok的强者光环轰然破碎。

OpenAI的o3从开局就展现出系统、稳定的策略，棋路清晰，步步为营。

最终，o3以4-0的压倒性比分干净利落地击败Grok 4，从开赛到夺冠未失一局，成就了真正的不败王者。

Grok的失误来得又早又频繁，而o3则毫不手软，招招致命。

第一局：刚一开局，Grok 就毫无征兆地送了一个关键的象。在子力处于劣势的情况下，Grok还主动找对手兑子——这完全违背了落后不兑子的象棋常识。几个回合的低级失误后，o3轻松将杀，先下一城。

第二局：双方进入了著名的西西里防御毒兵变例。如果说b2兵对人类棋手是毒药，那a2兵对AI来说简直是致命病毒。Grok走出了一步惊天大漏，吃掉了一个有白方骑士守护的兵。送上如此大礼，o3自然轻松笑纳胜局。

第三局：Grok 执白首次在比赛中摆出马洛奇结构，局面一度非常理想，让人以为那个强大的Grok又回来了——难道它前两局是在演戏吗？然而，一步直接送掉了自己的骑士，让所有幻想化为泡影。随后，Grok接连送掉了皇后、一个车，最终输掉了比赛。

第四局：这是最富戏剧性的一局。开局不久，轮到o3犯下大错，白送了皇后，局面岌岌可危。但正如解说嘉宾、特级大师Hikaru Nakamura所说，棋盘上依然暗藏杀机。

o3展现了惊人的韧性，通过一个精彩的战术组合技，奇迹般地夺回了皇后。

比赛拖入残局，尽管o3仅多一个兵，本是和棋局面。但Grok再次暴露了它在残局计算上的致命弱点，o3对残局的理解显然更深，步步紧逼，最终将兵升变为皇后，完成了绝杀。

凭借这场标志性的胜利，o3成为了首届Kaggle AI象棋赛的王者，Grok 4则遗憾地与冠军失之交臂。

季军战：o4-mini 1.5-2.5 Gemini 2.5 Pro

谷歌自家的Gemini 2.5 Pro与o4-mini的季军争夺战，虽然不像决赛那样一边倒，但也但也远非势均力敌。

最终，Gemini 以三胜一和的战绩，稳稳地站上了领奖台。

尽管比分悬殊，但Gemini的对局堪称一团糟，棋局质量远不及冠军o3。

Gemini的表现时好时坏，第一局的进攻还算有模有样，但第三局的和棋则更像是整场比赛的缩影：双方都下得稀里糊涂，失误不断，即使手握巨大优势也迟迟无法转化为胜势，局面如过山车般起伏。

不过，瑕不掩瑜，凭借更强的综合实力，Gemini为东道主谷歌赢得了一枚宝贵的铜牌。

谷歌将如何通过这次比赛来改进其AI，令人期待。

赛后声音与反思

世界棋王Magnus Carlsen一针见血：「o3的棋力大约相当于国际等级分1200分，Grok 4只有800分左右。」

1200分是业余俱乐部棋手的平均水准，而800分基本是刚入门的初学者。

这与世界顶尖人类棋手超过2700分的水平相去甚远。

Carlsen认为，这次比赛让我们得以一窥AI真实的思考过程。

面对Grok 4的惨败，马斯克迅速在X上挽尊：「xAI基本没在象棋上花功夫，下棋对Grok来说只是个附加功能。」

Kaggle的雄心不止于此。

AI象棋锦标赛将作为一个持续性的评估标准，未来还将扩展到围棋、狼人杀、模拟经营等更复杂的游戏。

游戏正在成为衡量和驱动下一代AI发展的最佳试验场。

参考资料：

https://www.youtube.com/watch?v=WSiu1et3P7M

https://x.com/kaggle/status/1953542585412153369

https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-3

本文来自微信公众号“新智元”，作者：新智元，编辑：英智，36氪经授权发布。

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

GPT-5没有追求AGI，它代表的是OpenAI的商业化野心

GPT-5没有追求AGI，它代表的是OpenAI的商业化野心

1小时前 • AI热点

GPT-5“创新乏力”？你可能错过了今年最重要的投资信号

GPT-5“创新乏力”？你可能错过了今年最重要的投资信号

1小时前 • AI热点

大厂盯上AI玩具，你的下一个LABUBU可能出自阿里

大厂盯上AI玩具，你的下一个LABUBU可能出自阿里

1小时前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

奥特曼万字访谈：揭秘GPT-5幕后艰辛，宣告超级智能前夜已至

奥特曼万字访谈：揭秘GPT-5幕后艰辛，宣告超级智能前夜已至

1小时前 • AI热点

上半年狂赚47亿韩元，“AI+中式玄学”让韩国人疯狂上头？

上半年狂赚47亿韩元，“AI+中式玄学”让韩国人疯狂上头？

1小时前 • AI热点

职场父母的自述：我把育儿的心累，交给了ChatGPT

职场父母的自述：我把育儿的心累，交给了ChatGPT

1小时前 • AI热点

全球首个世界人形机器人运动会竞赛日程公布，含足球、搏击等

全球首个世界人形机器人运动会竞赛日程公布，含足球、搏击等

1小时前 • AI热点

热门标签

安全运营强化学习(RL) 高带宽内存(HBM) 代码编辑器 Kimina-Prover 家庭维修办公人工智能芯片 AI+SaaS 系统 AI办公神器

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝