OpenAI 开放 gpt-oss-120b 和 gpt-oss-20b 模型权重，可在本地部署

OpenAI 发布 gpt-oss-120b 和 gpt-oss-20b 两款开源权重语言模型，专为高性能推理、工具使用和高效部署而设计。这是自 GPT-2 以来 OpenAI 首次完全开放模型权重，基于宽松的 Apache 2.0 开源许可。

gpt-oss-120b 模型采用了专家混合架构，每个词元可激活 51 亿个参数。在核心推理基准测试中，它不仅与专有的 o4-mini 模型表现相当，甚至在某些方面实现了超越，同时能够在单个 80 GB GPU 上高效运行。较小的 gpt-oss-20b 模型可以激活 210 亿参数中的 36 亿个参数，能够在仅配备 16 GB 内存的消费级硬件上运行，适合在设备端进行推理或是用于无需依赖云基础设施的快速迭代场景。

这两款模型支持多种高级应用场景，包括思维链推理、工具使用和结构化输出。开发人员可以根据具体需求灵活配置模型，调整其推理力度，从而在速度和准确性之间取得平衡。

gpt-oss 模型基于 OpenAI 内部 o 系列模型改编的技术进行训练，采用了旋转位置嵌入、分组多查询注意力机制，并支持长达 128k 的上下文长度。它们在编程、健康、数学和智能体基准测试（包括 MMLU、HealthBench、Codeforces 和 TauBench）中表现出色，即使与 o4-mini 和 GPT-4o 等闭源模型相比也毫不逊色。

来源：OpenAI 博客

在发布这些模型时，OpenAI 并未对其思维链（CoT）推理进行直接监督，从而为研究人员提供了研究推理轨迹的机会，以便他们能够深入探究潜在问题，例如偏见或滥用等情况。

为了评估风险，OpenAI 采用生物学和网络安全领域的对抗性数据，对这些模型进行了最坏情况下的微调。即便经过如此高强度的微调，根据 OpenAI 的防范准备框架，这些模型仍未达到高风险能力水平。外部专家评审员的发现为模型的最终发布提供了有力依据。此外，公司还启动了一项奖金池高达 50 万美元的红队测试挑战赛，旨在进一步在现实条件下对这些模型进行全面评估。

这些模型可在 Hugging Face 和多个部署平台上使用。20B 模型可以在仅配备 16 GB 内存的本地计算机上运行。一位 Reddit 用户提出了这样的问题：