AI热点 5月前 • 146 阅读 • 0 评论

谷歌 DeepMind 推 QuestBench 基准，评估 AI 模型的推理“补漏”能力

作者头像

AI技术专栏作家 | 发布了 246 篇文章

Claude APP

Claude APP

0秒前

Gemini APP

Gemini APP

0秒前

IT之家 4 月 26 日消息，科技媒体 marktechpost 昨日（4 月 25 日）发布博文，报道称谷歌 DeepMind 团队推出 QuestBench 新基准，通过约束满足问题（CSPs）框架，评估模型在推理任务中识别和获取缺失信息的能力。

现实挑战与信息获取需求

大型语言模型（LLMs）在推理任务中广受关注，涵盖数学、逻辑、规划和编码等领域。然而，现实世界的应用场景常常充满不确定性。

用户在提出数学问题时常忽略重要细节，机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾，迫使 LLMs 发展主动信息获取能力。

IT之家援引博文介绍，识别信息缺口并生成针对性地澄清问题，成为模型在模糊场景中提供准确解决方案的关键。

QuestBench：评估信息缺口的新框架

为应对信息获取挑战，研究者推出了 QuestBench 基准，专门评估 LLMs 在推理任务中识别缺失信息的能力。

该基准将问题形式化为约束满足问题（CSPs），聚焦于“1-sufficient CSPs”，即只需知道一个未知变量值即可解决目标变量的问题。

QuestBench 覆盖逻辑推理（Logic-Q）、规划（Planning-Q）和小学数学（GSM-Q / GSME-Q）三个领域，按变量数量、约束数量、搜索深度和暴力搜索所需猜测次数四个难度轴分类，精准揭示模型的推理策略和性能瓶颈。

模型性能与未来改进空间

QuestBench 测试了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等领先模型，覆盖零样本、思维链和四样本设置。测试于 2024 年 6 月至 2025 年 3 月间进行，涉及 288 个 GSM-Q 和 151 个 GSME-Q 任务。

结果表明，思维链提示普遍提升了模型性能，而 Gemini 2.0 Flash Thinking Experimental 在规划任务中表现最佳。开源模型在逻辑推理上具竞争力，但在复杂数学问题上表现不佳。

研究指出，当前模型在简单代数问题上表现尚可，但随着问题复杂性增加，性能显著下降，凸显了在信息缺口识别和澄清能力上的改进空间。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

把成年人当成年人看，OpenAI 奥尔特曼宣布将为 ChatGPT 开放更多限制内容

把成年人当成年人看，OpenAI 奥尔特曼宣布将为 ChatGPT 开放更多限制内容

3小时前 • AI热点

国星宇航“星算”计划 02 组星座发布，单星算力突破 10P“天秤-10”卫星同步亮相

国星宇航“星算”计划 02 组星座发布，单星算力突破 10P“天秤-10”卫星同步亮相

7小时前 • AI热点

“世界超市”6.0 版本：义乌全球数贸中心今天正式开业运营

“世界超市”6.0 版本：义乌全球数贸中心今天正式开业运营

7小时前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

4小时喜提专属 ChatGPT、卡帕西又整活，自曝Agent帮倒忙、手搓八千行代码，网友：跑完就当上机器学习工程师

4小时喜提专属 ChatGPT、卡帕西又整活，自曝Agent帮倒忙、手搓八千行代码，网友：跑完就当上机器学习工程师

9小时前 • AI热点

Meta AI推理新论文：模型记住套路，推理token砍半

Meta AI推理新论文：模型记住套路，推理token砍半

9小时前 • AI热点

别被骗了，好莱坞抵制AI只是烟雾弹，背后金主竟是他们自己

别被骗了，好莱坞抵制AI只是烟雾弹，背后金主竟是他们自己

9小时前 • AI热点

求购DJI公司老股；求购强脑科技老股｜资情留言板第171期

求购DJI公司老股；求购强脑科技老股｜资情留言板第171期

11小时前 • AI热点

热门标签

情景喜剧 AI准确率 Products AI军备竞赛 AI立法 AI对话 AI人物一致性西北农林科技大学 ChatGPT网站 Postgres

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝