产品评测 5小时前 117 阅读 0 评论

最强开源120b模型!OpenAI/国产 终极二选一,速来看实测~

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

大家好,我是袋鼠帝


AI圈的朋友们,这周过得还好吗?


反正我是感觉有点信息过载,一晚上不看手机,第二天起来就又跟不上了。


前天晚上早早的睡了,想着要早睡早起身体好,但是昨天早上起来又被OpenAI的开源模型轰炸了


一直被称为"CloseAI"的OpenAI,终于舍得发布了他们继GPT-2之后的第一个开源模型GPT-OSS


消息一出,各种群里又炸了。






这次OpenAI一口气开源了120B和20B两个尺寸,还带了最宽松的Apache 2.0许可,可以说是诚意满满了。



我第一时间脑子里面就冒出一个想法,拿OpenAI这次开源的模型跟我们国内的开源模型对比测试一下。


要比,就得找个最新的、并且参数各方面旗鼓相当的才行。


我立马想到了上周刚发布,让我惊艳了一把的智谱GLM-4.5系列模型。


GLM-4.5(全球最强开源模型)


袋鼠帝,公众号:袋鼠帝AI客栈


最强开源模型深夜爆火!GLM-4.5接入Claude Code直接起飞~


我想拿咱们国产的GLM-4.5-Air和GPT-OSS120B对比横测一下,因为的它俩参数量级差不多。


而且都是MoE架构,GLM-4.5-Air也是目前妥妥的国产开源第一梯队。


这次我们就一起来测试一下国内外两位开源新王的对碰。


看下到底该选GPT-OSS120B还是GLM-4.5-Air


一、先看看双方喊出的实力


在实测之前,我们还是按惯例,先看看双方的跑分,了解下基本情况。



GPT-OSS120B的总参数量略高于GLM-4.5-Air,激活参数量低于GLM-4.5-Air。


但OpenAI官方给出的数据非常亮眼,号称GPT-OSS120B能对标甚至超越o4-mini,在一些竞赛数学和健康知识评测上表现更好。但是OpenAI有点🐶,它放出的跑分只跟自家模型做了对比...


我的好友@洛小山 整合了同尺寸模型的跑分对比,结果显示GPT-OSS几乎是傲视群雄。



AIME代表数学能力,GPQA代表专业推理能力,MMLU (综合知识能力)


看起来很猛,对吧?


再来看看GLM-4.5-Air的评分


GLM-4.5-Air的综合评分其实是排在了o4-mini(high)后面一位的,但是也非常接近。



但测试了那么多次模型,我越来越不相信这些各家放出来的跑分了,实测才是检验模型的唯一标准。


两个开源模型官方都提供了网页访问


GPT-OSS:


https://gpt-oss.com


GLM-4.5-Air:


https://z.ai


二、GPT-OSS VS GLM-4.5-Air


我把测试分成了几个维度:推理能力、代码能力、指令遵循,以及创作能力。


>/ Case 1. 数字母


一上来先给选手热热身,先来一道简单的题


strawberrrry有几个r


然而,我没想到第一个简单问题GPT-OSS就翻车了...


下图左边GPT-OSS120B,右边GLM-4.5-Air




GPT-OSS只推理了5秒。GLM-4.5-Air推理速度很快,但推理过程更长,总耗时也更长,回答正确。


而且我测试了多次,GPT-OSS对于这种问题,基本上是0正确率


>/ Case 2. 物理知识推理


如果我把一瓶水带到月球上,然后拧开瓶盖,水会怎么样?为什么?


跨领域知识(物理、天文)非标准情境下的推理


下图左边是GPT-OSS120B的回答,右边是GLM-4.5-Air的


这轮它们回答的都对。



但是,GPT-OSS120B确实有东西,这一轮GPT-OSS120B回答的非常详尽,还画了表格和图帮助理解,而且还会替人着想。


>/ Case 3. 写古诗


请以"数字故宫"为主题,写一首七言律诗,要求体现科技与历史的融合,且符合格律要求。


这题GLM-4.5-Air不出意外的完胜了,看来这位外国模型对诗词是一窍不通。




>/ Case 4. 逻辑问答


数一数你的回答中说了几个字


这个看似简单的问题,其实很考验模型的逻辑推理和精确计数能力。


这题我跑了好几次,两边都能回答正确




>/ Case 5.高难度约束写作(看谁更听话)


写一篇300字的3段文字,不带文字"飞",解释飞机是如何工作的。


这个任务难度也挺高的,既要控制字数,又要规避飞字,而且是讲述飞机工作原理。




这个任务GPT-OSS120B有点🐂🍺,它完美完成任务


没有出现飞字,而且把所有文字复制到飞书文档,查看信息,刚刚好300字符。然后GLM-4.5-Air这边是328字符,也出现了飞字...


>/ Case 6.交互式的力导向图


请使用 D3.js (v7) 创建一个交互式的力导向图 (Force-Directed Graph)。

数据: 无需从外部加载,请在代码中直接定义一个包含至少7个节点 (nodes) 和10条边 (links) 的图数据结构。节点应有 id 和 group 属性,边应有 source, target, 和 value 属性。

可视化: 节点渲染为圆形,边为直线。不同 group 的节点使用不同的颜色。边的 value 越大,边的“笔画宽度”(stroke-width) 越粗。

交互:

节点可以被鼠标拖拽。
当鼠标悬停 (hover) 在一个节点上时,该节点及其所有直接相连的节点和边高亮(例如,增加不透明度或改变颜色),同时在节点旁边显示其 id。鼠标移开后恢复原状。










GLM-4.5-Air生成代码的速度飞快(大概只花了10多秒),比GPT-OSS快了十多倍...


生成效果如下



然而这个任务GPT-OSS120B跑了半天,最后并没有跑出来..


>/ Case 7.小球碰撞


三个小球,在一个正在自旋的六边形里滚动,考虑碰撞,摩擦,重力,可以调节自旋速度,生成一个HTML给我


GLM-4.5-Air生成效果如下:


挺不错的,完美get到任务要求,完成得也很好



但我用GPT-OSS120B吭哧吭哧跑了半天,终于生成好了代码,打开之后就是下面这样,中间一片空白,啥都没有,妥妥的有BUG..



真的要吐槽一下,GPT-OSS120B代码生成太慢了,跑的我打哈欠,GLM-4.5-Air都完成5个Case了,GPT-OSS120B一个都还没跑完。


>/ Case 8.双人游戏森林冰火人


写一个森林冰火人,双人游戏


GLM-4.5-Air生成效果如下:


还挺不错,功能正常,而且页面也很符合那种小游戏风格。



而GPT-OSS120B生成效果是这样的:


功能大致正常,但是页面也太抽象了点,简陋的我完全分不清出口在哪里..


太糙了



>/ Case 9.万花尺游戏


做一个万花尺游戏,给我一个HTML代码(小时候文具店买的万花尺)


这个万花尺大家小时候应该都玩过吧,没玩过应该也见过,哈哈


下面是GLM-4.5-Air生成效果:


它再一次get到了我的需求,可玩性还挺高,找回了小时候的那种快感。


就是你懂吗,这玩意儿转一圈之后连在一起的那种爽感,强迫症福音~



然后下面是GPT-OSS120B生成的:


emmm..它并没有get到我要啥,跳过了过程,直达了结果,而且这个界面也太简陋了点。



在代码这个环节,结果有点出乎我的意料。


GPT-OSS120B的表现可以说是相当拉胯,和我之前测试过的很多开源模型相比都差了一截,更不用说和GLM-4.5-Air比了。


而GLM-4.5-Air不仅完成了,效果还可圈可点。


GLM-4.5-Air在编程上面基本上是碾压了。


「最后」


我们来简单复盘一下:在高难度的协作约束和物理推理上,gpt-oss-120b确实展现了OpenAI深厚的积累,表现优于GLM-4.5-Air。


但在代码能力上,gpt-oss-120b却输得一败涂地,不仅跑的慢,而且还会出现BUG,就算跑通了,效果也差强人意。


而GLM-4.5-Air表现稳健,实用性更强,而且代码生成速度应该是目前最快。


虽然这次OpenAI开源的GPT-OSS,还是有一些惊喜在。


但要说它傲视群雄,那完全不可信,至少在代码这个领域,它还是个弟弟。


回过头看国内的智谱,从诞生之初,就一直在坚定地走开源路线。从ChatGLM到最新的旗舰模型GLM-4.5系列也毫不吝啬的开源。


这次的GLM-4.5-Air也确实给了我太多惊喜,即便OpenAI是后发,也讨不到什么便宜。


而且智谱给出的GLM-4.5系列跑分也是非常诚实的。


所以,最终我还是会选GLM-4.5-Air


不仅因为模型能力强,还因为他们真诚对待用户


欢迎在评论区聊聊你的看法~


文章来自于微信公众号“袋鼠帝AI客栈”,作者是“袋鼠帝”。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!