昨晚凌晨,通义千问团队宣布,已对其旗舰模型 Qwen3 进行升级,并推出非思考模式(Non-thinking)的更新版本:Qwen3-235B-A22B-Instruct-2507-FP8。此次更新旨在提升模型的综合能力
此次更新旨在提升模型的综合能力,具体体现在以下几个方面:
1. 通用能力增强
新模型在指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多个核心能力上均有显著提升。官方数据显示,在 GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent 能力)等多个评测基准中,Qwen3-235B-A22B-Instruct-2507-FP8 的表现超越了 Kimi-K2、DeepSeek-V3 等顶级开源模型,以及 Claude-Opus4-Non-thinking 等领先的闭源模型。
2. 多语言知识覆盖
模型在处理多语言的长尾知识方面取得了显著进展。
3. 用户偏好对齐
在主观和开放性任务中,模型对用户偏好的契合能力得到增强,能够提供更实用、更高质量的回复。
4. 长文本上下文能力
模型支持的长文本输入提升至 256K,进一步增强了上下文理解能力。# 通义千问发布 Qwen3 旗舰模型更新,通用能力与长文本处理显著提升
Qwen3 新模型已在魔搭社区和 Hugging Face 平台同步开源,供开发者进行体验和应用。
https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
通用能力增强:
1.新模型在指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多个核心能力上均有显著提升。
2.官方数据显示,在 GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent 能力)等多个评测基准中,Qwen3-235B-A22B-Instruct-2507-FP8 的表现超越了 Kimi-K2、DeepSeek-V3 等顶级开源模型,以及 Claude-Opus4-Non-thinking 等领先的闭源模型。
- 多语言知识覆盖:模型在处理多语言的长尾知识方面取得了显著进展。
- 用户偏好对齐:在主观和开放性任务中,模型对用户偏好的契合能力得到增强,能够提供更实用、更高质量的回复。
- 长文本上下文能力:模型支持的长文本输入提升至 256K,进一步增强了上下文理解能力。
文章来自微信公众号 “ 硅基心脏 ”