AI热点 1周前 192 阅读 0 评论

凌晨!通义千问更新Qwen3旗舰模型,通用能力与长文本处理显著提升!

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章


昨晚凌晨,通义千问团队宣布,已对其旗舰模型 Qwen3 进行升级,并推出非思考模式(Non-thinking)的更新版本:Qwen3-235B-A22B-Instruct-2507-FP8。此次更新旨在提升模型的综合能力


此次更新旨在提升模型的综合能力,具体体现在以下几个方面:


1. 通用能力增强


新模型在指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多个核心能力上均有显著提升。官方数据显示,在 GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent 能力)等多个评测基准中,Qwen3-235B-A22B-Instruct-2507-FP8 的表现超越了 Kimi-K2、DeepSeek-V3 等顶级开源模型,以及 Claude-Opus4-Non-thinking 等领先的闭源模型。



2. 多语言知识覆盖


模型在处理多语言的长尾知识方面取得了显著进展。


3. 用户偏好对齐


在主观和开放性任务中,模型对用户偏好的契合能力得到增强,能够提供更实用、更高质量的回复。


4. 长文本上下文能力


模型支持的长文本输入提升至 256K,进一步增强了上下文理解能力。# 通义千问发布 Qwen3 旗舰模型更新,通用能力与长文本处理显著提升


Qwen3 新模型已在魔搭社区和 Hugging Face 平台同步开源,供开发者进行体验和应用。


https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8



通用能力增强


1.新模型在指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多个核心能力上均有显著提升。


2.官方数据显示,在 GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent 能力)等多个评测基准中,Qwen3-235B-A22B-Instruct-2507-FP8 的表现超越了 Kimi-K2、DeepSeek-V3 等顶级开源模型,以及 Claude-Opus4-Non-thinking 等领先的闭源模型。


  •  多语言知识覆盖:模型在处理多语言的长尾知识方面取得了显著进展。


  • 用户偏好对齐:在主观和开放性任务中,模型对用户偏好的契合能力得到增强,能够提供更实用、更高质量的回复。


  • 长文本上下文能力:模型支持的长文本输入提升至 256K,进一步增强了上下文理解能力。


文章来自微信公众号 “ 硅基心脏 ”




作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!