最强开源120b模型！OpenAI/国产终极二选一，速来看实测～

大家好，我是袋鼠帝

AI圈的朋友们，这周过得还好吗？

反正我是感觉有点信息过载，一晚上不看手机，第二天起来就又跟不上了。

前天晚上早早的睡了，想着要早睡早起身体好，但是昨天早上起来又被OpenAI的开源模型轰炸了

一直被称为"CloseAI"的OpenAI，终于舍得发布了他们继GPT-2之后的第一个开源模型：GPT-OSS

消息一出，各种群里又炸了。

这次OpenAI一口气开源了120B和20B两个尺寸，还带了最宽松的Apache 2.0许可，可以说是诚意满满了。

我第一时间脑子里面就冒出一个想法，拿OpenAI这次开源的模型跟我们国内的开源模型对比测试一下。

要比，就得找个最新的、并且参数各方面旗鼓相当的才行。

我立马想到了上周刚发布，让我惊艳了一把的智谱GLM-4.5系列模型。

GLM-4.5（全球最强开源模型）

袋鼠帝，公众号：袋鼠帝AI客栈

最强开源模型深夜爆火！GLM-4.5接入Claude Code直接起飞～

我想拿咱们国产的GLM-4.5-Air和GPT-OSS120B对比横测一下，因为的它俩参数量级差不多。

而且都是MoE架构，GLM-4.5-Air也是目前妥妥的国产开源第一梯队。

这次我们就一起来测试一下国内外两位开源新王的对碰。

看下到底该选GPT-OSS120B还是GLM-4.5-Air

一、先看看双方喊出的实力

在实测之前，我们还是按惯例，先看看双方的跑分，了解下基本情况。

GPT-OSS120B的总参数量略高于GLM-4.5-Air，激活参数量低于GLM-4.5-Air。

但OpenAI官方给出的数据非常亮眼，号称GPT-OSS120B能对标甚至超越o4-mini，在一些竞赛数学和健康知识评测上表现更好。但是OpenAI有点🐶，它放出的跑分只跟自家模型做了对比...

我的好友@洛小山整合了同尺寸模型的跑分对比，结果显示GPT-OSS几乎是傲视群雄。

AIME代表数学能力，GPQA代表专业推理能力，MMLU (综合知识能力)

看起来很猛，对吧？

再来看看GLM-4.5-Air的评分

GLM-4.5-Air的综合评分其实是排在了o4-mini（high）后面一位的，但是也非常接近。

但测试了那么多次模型，我越来越不相信这些各家放出来的跑分了，实测才是检验模型的唯一标准。

两个开源模型官方都提供了网页访问

GPT-OSS：

https://gpt-oss.com

GLM-4.5-Air：

https://z.ai

二、GPT-OSS VS GLM-4.5-Air

我把测试分成了几个维度：推理能力、代码能力、指令遵循，以及创作能力。

>/ Case 1. 数字母

一上来先给选手热热身，先来一道简单的题

strawberrrry有几个r

然而，我没想到第一个简单问题GPT-OSS就翻车了...

下图左边GPT-OSS120B，右边GLM-4.5-Air

GPT-OSS只推理了5秒。GLM-4.5-Air推理速度很快，但推理过程更长，总耗时也更长，回答正确。

而且我测试了多次，GPT-OSS对于这种问题，基本上是0正确率

>/ Case 2. 物理知识推理

如果我把一瓶水带到月球上，然后拧开瓶盖，水会怎么样？为什么？

跨领域知识（物理、天文）非标准情境下的推理

下图左边是GPT-OSS120B的回答，右边是GLM-4.5-Air的

这轮它们回答的都对。

但是，GPT-OSS120B确实有东西，这一轮GPT-OSS120B回答的非常详尽，还画了表格和图帮助理解，而且还会替人着想。

>/ Case 3. 写古诗

请以"数字故宫"为主题，写一首七言律诗，要求体现科技与历史的融合，且符合格律要求。

这题GLM-4.5-Air不出意外的完胜了，看来这位外国模型对诗词是一窍不通。

>/ Case 4. 逻辑问答

数一数你的回答中说了几个字

这个看似简单的问题，其实很考验模型的逻辑推理和精确计数能力。

这题我跑了好几次，两边都能回答正确

>/ Case 5.高难度约束写作(看谁更听话)

写一篇300字的3段文字，不带文字"飞"，解释飞机是如何工作的。

这个任务难度也挺高的，既要控制字数，又要规避飞字，而且是讲述飞机工作原理。

这个任务GPT-OSS120B有点🐂🍺，它完美完成任务

没有出现飞字，而且把所有文字复制到飞书文档，查看信息，刚刚好300字符。然后GLM-4.5-Air这边是328字符，也出现了飞字...

>/ Case 6.交互式的力导向图

请使用 D3.js (v7) 创建一个交互式的力导向图 (Force-Directed Graph)。

数据: 无需从外部加载，请在代码中直接定义一个包含至少7个节点 (nodes) 和10条边 (links) 的图数据结构。节点应有 id 和 group 属性，边应有 source, target, 和 value 属性。

可视化: 节点渲染为圆形，边为直线。不同 group 的节点使用不同的颜色。边的 value 越大，边的“笔画宽度”(stroke-width) 越粗。

交互:

节点可以被鼠标拖拽。
当鼠标悬停 (hover) 在一个节点上时，该节点及其所有直接相连的节点和边高亮（例如，增加不透明度或改变颜色），同时在节点旁边显示其 id。鼠标移开后恢复原状。

GLM-4.5-Air生成代码的速度飞快(大概只花了10多秒)，比GPT-OSS快了十多倍...

生成效果如下

然而这个任务GPT-OSS120B跑了半天，最后并没有跑出来..

>/ Case 7.小球碰撞

三个小球，在一个正在自旋的六边形里滚动，考虑碰撞，摩擦，重力，可以调节自旋速度，生成一个HTML给我

GLM-4.5-Air生成效果如下：

挺不错的，完美get到任务要求，完成得也很好

但我用GPT-OSS120B吭哧吭哧跑了半天，终于生成好了代码，打开之后就是下面这样，中间一片空白，啥都没有，妥妥的有BUG..

真的要吐槽一下，GPT-OSS120B代码生成太慢了，跑的我打哈欠，GLM-4.5-Air都完成5个Case了，GPT-OSS120B一个都还没跑完。

>/ Case 8.双人游戏森林冰火人

写一个森林冰火人，双人游戏

GLM-4.5-Air生成效果如下：

还挺不错，功能正常，而且页面也很符合那种小游戏风格。

而GPT-OSS120B生成效果是这样的：

功能大致正常，但是页面也太抽象了点，简陋的我完全分不清出口在哪里..

太糙了

>/ Case 9.万花尺游戏

做一个万花尺游戏，给我一个HTML代码（小时候文具店买的万花尺）

这个万花尺大家小时候应该都玩过吧，没玩过应该也见过，哈哈

下面是GLM-4.5-Air生成效果：

它再一次get到了我的需求，可玩性还挺高，找回了小时候的那种快感。

就是你懂吗，这玩意儿转一圈之后连在一起的那种爽感，强迫症福音～

然后下面是GPT-OSS120B生成的：

emmm..它并没有get到我要啥，跳过了过程，直达了结果，而且这个界面也太简陋了点。

在代码这个环节，结果有点出乎我的意料。

GPT-OSS120B的表现可以说是相当拉胯，和我之前测试过的很多开源模型相比都差了一截，更不用说和GLM-4.5-Air比了。

而GLM-4.5-Air不仅完成了，效果还可圈可点。

GLM-4.5-Air在编程上面基本上是碾压了。

「最后」

我们来简单复盘一下：在高难度的协作约束和物理推理上，gpt-oss-120b确实展现了OpenAI深厚的积累，表现优于GLM-4.5-Air。

但在代码能力上，gpt-oss-120b却输得一败涂地，不仅跑的慢，而且还会出现BUG，就算跑通了，效果也差强人意。

而GLM-4.5-Air表现稳健，实用性更强，而且代码生成速度应该是目前最快。

虽然这次OpenAI开源的GPT-OSS，还是有一些惊喜在。

但要说它傲视群雄，那完全不可信，至少在代码这个领域，它还是个弟弟。

回过头看国内的智谱，从诞生之初，就一直在坚定地走开源路线。从ChatGLM到最新的旗舰模型GLM-4.5系列也毫不吝啬的开源。

这次的GLM-4.5-Air也确实给了我太多惊喜，即便OpenAI是后发，也讨不到什么便宜。

而且智谱给出的GLM-4.5系列跑分也是非常诚实的。

所以，最终我还是会选GLM-4.5-Air

不仅因为模型能力强，还因为他们真诚对待用户

欢迎在评论区聊聊你的看法～

文章来自于微信公众号“袋鼠帝AI客栈”，作者是“袋鼠帝”。

登录账号

最强开源120b模型！OpenAI/国产终极二选一，速来看实测～

一、先看看双方喊出的实力

二、GPT-OSS VS GLM-4.5-Air

「最后」

AI前线

评论 (128)

AI爱好者

开发者小明

AI前线作者

科技观察家

推荐文章

“消费动机MVP模型”仅用42元就能锁定“价值主张PMF”

体验了一周 ChatGPT 浏览器，我还是把 Chrome 装了回来

一手实测Qwen-3 Max Thinking, 我觉得一般

开发者生产力“平替”？MiniMax M2全面测评：代码、速度与迁移成本

价格屠夫AMD，刺伤Intel却打不过英伟达

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

速抢（2核2G）77元/年香港免备案服务器

Figure三代机器人发布：洗衣洗碗家务全包！网友：非人形没有出路

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

登录账号

最强开源120b模型！OpenAI/国产 终极二选一，速来看实测～

一、先看看双方喊出的实力

二、GPT-OSS VS GLM-4.5-Air

「最后」

AI前线

评论 (128)

AI爱好者

开发者小明

AI前线 作者

科技观察家

推荐文章

“消费动机MVP模型”仅用42元就能锁定“价值主张PMF”

体验了一周 ChatGPT 浏览器，我还是把 Chrome 装了回来

一手实测Qwen-3 Max Thinking, 我觉得一般

开发者生产力“平替”？MiniMax M2全面测评：代码、速度与迁移成本

价格屠夫AMD，刺伤Intel却打不过英伟达

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

速抢（2核2G）77元/年香港免备案服务器

Figure三代机器人发布：洗衣洗碗家务全包！网友：非人形没有出路

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

最强开源120b模型！OpenAI/国产终极二选一，速来看实测～

AI前线作者