大家好,我是袋鼠帝
AI圈的朋友们,这周过得还好吗?
反正我是感觉有点信息过载,一晚上不看手机,第二天起来就又跟不上了。
前天晚上早早的睡了,想着要早睡早起身体好,但是昨天早上起来又被OpenAI的开源模型轰炸了
一直被称为"CloseAI"的OpenAI,终于舍得发布了他们继GPT-2之后的第一个开源模型:GPT-OSS
消息一出,各种群里又炸了。
这次OpenAI一口气开源了120B和20B两个尺寸,还带了最宽松的Apache 2.0许可,可以说是诚意满满了。
我第一时间脑子里面就冒出一个想法,拿OpenAI这次开源的模型跟我们国内的开源模型对比测试一下。
要比,就得找个最新的、并且参数各方面旗鼓相当的才行。
我立马想到了上周刚发布,让我惊艳了一把的智谱GLM-4.5系列模型。
GLM-4.5(全球最强开源模型)
袋鼠帝,公众号:袋鼠帝AI客栈
最强开源模型深夜爆火!GLM-4.5接入Claude Code直接起飞~
我想拿咱们国产的GLM-4.5-Air和GPT-OSS120B对比横测一下,因为的它俩参数量级差不多。
而且都是MoE架构,GLM-4.5-Air也是目前妥妥的国产开源第一梯队。
这次我们就一起来测试一下国内外两位开源新王的对碰。
看下到底该选GPT-OSS120B还是GLM-4.5-Air
一、先看看双方喊出的实力
在实测之前,我们还是按惯例,先看看双方的跑分,了解下基本情况。
GPT-OSS120B的总参数量略高于GLM-4.5-Air,激活参数量低于GLM-4.5-Air。
但OpenAI官方给出的数据非常亮眼,号称GPT-OSS120B能对标甚至超越o4-mini,在一些竞赛数学和健康知识评测上表现更好。但是OpenAI有点🐶,它放出的跑分只跟自家模型做了对比...
我的好友@洛小山 整合了同尺寸模型的跑分对比,结果显示GPT-OSS几乎是傲视群雄。
AIME代表数学能力,GPQA代表专业推理能力,MMLU (综合知识能力)
看起来很猛,对吧?
再来看看GLM-4.5-Air的评分
GLM-4.5-Air的综合评分其实是排在了o4-mini(high)后面一位的,但是也非常接近。
但测试了那么多次模型,我越来越不相信这些各家放出来的跑分了,实测才是检验模型的唯一标准。
两个开源模型官方都提供了网页访问
GPT-OSS:
https://gpt-oss.com
GLM-4.5-Air:
https://z.ai
二、GPT-OSS VS GLM-4.5-Air
我把测试分成了几个维度:推理能力、代码能力、指令遵循,以及创作能力。
>/ Case 1. 数字母
一上来先给选手热热身,先来一道简单的题
strawberrrry有几个r
然而,我没想到第一个简单问题GPT-OSS就翻车了...
下图左边GPT-OSS120B,右边GLM-4.5-Air
GPT-OSS只推理了5秒。GLM-4.5-Air推理速度很快,但推理过程更长,总耗时也更长,回答正确。
而且我测试了多次,GPT-OSS对于这种问题,基本上是0正确率
>/ Case 2. 物理知识推理
如果我把一瓶水带到月球上,然后拧开瓶盖,水会怎么样?为什么?
跨领域知识(物理、天文)非标准情境下的推理
下图左边是GPT-OSS120B的回答,右边是GLM-4.5-Air的
这轮它们回答的都对。
但是,GPT-OSS120B确实有东西,这一轮GPT-OSS120B回答的非常详尽,还画了表格和图帮助理解,而且还会替人着想。
>/ Case 3. 写古诗
请以"数字故宫"为主题,写一首七言律诗,要求体现科技与历史的融合,且符合格律要求。
这题GLM-4.5-Air不出意外的完胜了,看来这位外国模型对诗词是一窍不通。
>/ Case 4. 逻辑问答
数一数你的回答中说了几个字
这个看似简单的问题,其实很考验模型的逻辑推理和精确计数能力。
这题我跑了好几次,两边都能回答正确
>/ Case 5.高难度约束写作(看谁更听话)
写一篇300字的3段文字,不带文字"飞",解释飞机是如何工作的。
这个任务难度也挺高的,既要控制字数,又要规避飞字,而且是讲述飞机工作原理。
这个任务GPT-OSS120B有点🐂🍺,它完美完成任务
没有出现飞字,而且把所有文字复制到飞书文档,查看信息,刚刚好300字符。然后GLM-4.5-Air这边是328字符,也出现了飞字...
>/ Case 6.交互式的力导向图
请使用 D3.js (v7) 创建一个交互式的力导向图 (Force-Directed Graph)。
数据: 无需从外部加载,请在代码中直接定义一个包含至少7个节点 (nodes) 和10条边 (links) 的图数据结构。节点应有 id 和 group 属性,边应有 source, target, 和 value 属性。
可视化: 节点渲染为圆形,边为直线。不同 group 的节点使用不同的颜色。边的 value 越大,边的“笔画宽度”(stroke-width) 越粗。
交互:
节点可以被鼠标拖拽。
当鼠标悬停 (hover) 在一个节点上时,该节点及其所有直接相连的节点和边高亮(例如,增加不透明度或改变颜色),同时在节点旁边显示其 id。鼠标移开后恢复原状。
GLM-4.5-Air生成代码的速度飞快(大概只花了10多秒),比GPT-OSS快了十多倍...
生成效果如下
然而这个任务GPT-OSS120B跑了半天,最后并没有跑出来..
>/ Case 7.小球碰撞
三个小球,在一个正在自旋的六边形里滚动,考虑碰撞,摩擦,重力,可以调节自旋速度,生成一个HTML给我
GLM-4.5-Air生成效果如下:
挺不错的,完美get到任务要求,完成得也很好
但我用GPT-OSS120B吭哧吭哧跑了半天,终于生成好了代码,打开之后就是下面这样,中间一片空白,啥都没有,妥妥的有BUG..
真的要吐槽一下,GPT-OSS120B代码生成太慢了,跑的我打哈欠,GLM-4.5-Air都完成5个Case了,GPT-OSS120B一个都还没跑完。
>/ Case 8.双人游戏森林冰火人
写一个森林冰火人,双人游戏
GLM-4.5-Air生成效果如下:
还挺不错,功能正常,而且页面也很符合那种小游戏风格。
而GPT-OSS120B生成效果是这样的:
功能大致正常,但是页面也太抽象了点,简陋的我完全分不清出口在哪里..
太糙了
>/ Case 9.万花尺游戏
做一个万花尺游戏,给我一个HTML代码(小时候文具店买的万花尺)
这个万花尺大家小时候应该都玩过吧,没玩过应该也见过,哈哈
下面是GLM-4.5-Air生成效果:
它再一次get到了我的需求,可玩性还挺高,找回了小时候的那种快感。
就是你懂吗,这玩意儿转一圈之后连在一起的那种爽感,强迫症福音~
然后下面是GPT-OSS120B生成的:
emmm..它并没有get到我要啥,跳过了过程,直达了结果,而且这个界面也太简陋了点。
在代码这个环节,结果有点出乎我的意料。
GPT-OSS120B的表现可以说是相当拉胯,和我之前测试过的很多开源模型相比都差了一截,更不用说和GLM-4.5-Air比了。
而GLM-4.5-Air不仅完成了,效果还可圈可点。
GLM-4.5-Air在编程上面基本上是碾压了。
「最后」
我们来简单复盘一下:在高难度的协作约束和物理推理上,gpt-oss-120b确实展现了OpenAI深厚的积累,表现优于GLM-4.5-Air。
但在代码能力上,gpt-oss-120b却输得一败涂地,不仅跑的慢,而且还会出现BUG,就算跑通了,效果也差强人意。
而GLM-4.5-Air表现稳健,实用性更强,而且代码生成速度应该是目前最快。
虽然这次OpenAI开源的GPT-OSS,还是有一些惊喜在。
但要说它傲视群雄,那完全不可信,至少在代码这个领域,它还是个弟弟。
回过头看国内的智谱,从诞生之初,就一直在坚定地走开源路线。从ChatGLM到最新的旗舰模型GLM-4.5系列也毫不吝啬的开源。
这次的GLM-4.5-Air也确实给了我太多惊喜,即便OpenAI是后发,也讨不到什么便宜。
而且智谱给出的GLM-4.5系列跑分也是非常诚实的。
所以,最终我还是会选GLM-4.5-Air
不仅因为模型能力强,还因为他们真诚对待用户
欢迎在评论区聊聊你的看法~
文章来自于微信公众号“袋鼠帝AI客栈”,作者是“袋鼠帝”。