开源项目 18小时前 91 阅读 0 评论

刚刚,OpenAI神秘开源模型泄露!闪现1分钟被删,配置被网友扒光

作者头像
新智元

AI技术专栏作家 | 发布了 246 篇文章

刚刚,OpenAI开源模型疑似被手滑「泄露」?!

gpt-oss-20b 和 gpt-oss-120b!

网友@apples_jimmy在这组模型上传Hugging Face后一分钟内就发现了。

99%的概率这就是OpenAI的开源模型——

gpt属于OpenAI,oss代表开源软件,20b和120b代表了两个参数版本。



幸运的是,在它被删除之前,Jimmy Apples保存了配置,在只有不到「1分钟」的时间窗口!

他分享了一段LLM的配置文件,极有可能是OpenAI即将开源模型的详细参数。

这组参数像是一个基于MoE(Mixture of Experts)混合专家架构的高容量模型,具备以下几个特点:

· 36层Transformer,每层可能有MoE路由;
· 大规模MoE设置(128个专家,每个token激活4个);
· 词表超过20万,可能支持多语种或代码混合输入;
· 上下文窗口为4096,但也有滑动窗口和扩展RoPE,表明模型可能具备处理更长上下文的能力;
· 使用RoPE的NTK插值版本,这是许多模型扩展上下文的一种方式(如GPT-4 Turbo使用的方式);


· 注意力头多达64个,但键/值头只有8个,意味着模型用的是是Multi-QueryAttention(MQA)。

另一位网友@secemp9似乎验证了这次「泄露」的真实性。

他不仅也在Hugging Face上发现这个模型,甚至还有一位OpenAI成员点赞了他的爆料推文。



上传这个模型的组织叫做「yofo-happy-panda」,共有三名成员。

其中,Dominik Kundel正是OpenAI的现任员工,目前负责开发者体验和SDK。

有网友猜测,所谓的提前泄露,或许是GPT-5发布前的预热?

如果真是这样的参数配置,你满意吗?

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!