AI热点 11月前 • 175 阅读 • 0 评论

上海 AI 实验室联合清华等大学突破强化学习算法，攻克 AI 推理熵崩溃难题

作者头像

AI技术专栏作家 | 发布了 246 篇文章

DeepSeek APP

DeepSeek APP

0秒前

IT之家 6 月 4 日消息，上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府，组建国际团队研发新方法，通过 Clip-Cov 和 KL-Cov 技术有效应对策略熵崩溃问题。

背景简介

大型语言模型（LLMs）近年来在推理能力上的突破，让强化学习（RL）的应用范围从单一任务扩展到更广泛的场景，这种进步赋予了模型更强的泛化能力和逻辑推理能力。

然而，与传统的模仿学习不同，强化学习需要更高的计算资源来支持从经验中学习，核心问题在于策略熵（反映了模型在利用已知策略和探索新策略之间的平衡）的下降。

熵值过低会导致模型过度依赖已有策略，丧失探索能力。这一探索-利用权衡（exploitation-exploration trade-off）是强化学习的基础，如何控制策略熵成为训练中的关键难题。

策略熵崩溃的理论与实践突破

为解决这一问题，研究团队提出了一个经验公式：R = −a exp H + b，其中 H 代表策略熵，R 为下游任务表现，a 和 b 为拟合系数。这一公式揭示了策略性能与熵值之间的权衡关系，指出熵耗尽是性能瓶颈。

研究进一步分析了熵动态变化，发现其受动作概率与 logits 变化协方差的驱动。为此，团队创新性地提出了 Clip-Cov 和 KL-Cov 两种技术，分别通过裁剪高协方差 token 和施加 KL 惩罚来维持熵水平。

实验基于 Qwen2.5 模型和 DAPOMATH 数据集，覆盖数学任务，结果显示新方法在 7B 和 32B 模型上分别提升了 2.0% 和 6.4% 的性能，尤其在 AIME24 和 AIME25 等高难度基准测试中，32B 模型性能提升高达 15.0%。

研究团队在包括 Qwen2.5、Mistral、LLaMA 和 DeepSeek 在内的 11 个开源模型上进行了测试，参数规模从 0.5B 到 32B 不等，涵盖数学和编程任务的 8 个公开基准测试。

训练采用 veRL 框架和零样本设置，结合 GRPO、REINFORCE++ 等算法优化策略性能。结果表明，Clip-Cov 和 KL-Cov 技术能维持更高的熵水平，例如 KL-Cov 方法在基线熵值趋于平稳时仍保持 10 倍以上的熵值。

这不仅解决了策略熵崩溃问题，也为强化学习在语言模型中的扩展提供了理论支持。研究强调，熵动态是性能提升的关键瓶颈，未来需进一步探索熵管理策略，以推动更智能语言模型的发展。

IT之家附上参考地址

The Entropy Mechanism of Reinforcement Learning for Large Language Model Reasoning
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

5月前 • AI热点

用户破8亿！GPT-5.1来了，表情包含量可自定义

用户破8亿！GPT-5.1来了，表情包含量可自定义

5月前 • AI热点

发布即开放：百度猎户座葫芦里卖的什么药？

发布即开放：百度猎户座葫芦里卖的什么药？

5月前 • AI热点

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

5月前 • AI热点

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

5月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

5月前 • AI热点

小鹏物理AI的尽头，是马斯克的现金流

小鹏物理AI的尽头，是马斯克的现金流

5月前 • AI热点

热门标签

AI实施 Stable Diffuison AI视频提示内容溯源多模态输入机器人集成 GPT4.5 Gem-2.5-Pro-Grounding GenFlow2.0 智能家居设备

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝