AI热点 1月前 225 阅读 0 评论

Anthropic首席执行官:AI 模型的“幻觉”比人类少!

作者头像

AI技术专栏作家 | 发布了 246 篇文章

据TechCrunch报道称,在 Anthropic 于旧金山举办的首届开发者大会“Code with Claude”期间的媒体发布会上,Anthropic 首席执行官达里奥·阿莫代伊(Dario Amodei)表示,他认为当前的 AI 模型出现“幻觉”(即编造虚假事实并将其当作真实信息呈现)的频率,比人类还要低。

阿莫代伊在被问及“AI幻觉率”这一问题时,表示:“这很大程度上取决于你如何衡量,但我猜测 AI 模型的幻觉率可能低于人类,不过它们产生幻觉的方式更令人意外。”

他作出上述评论时,正在阐述一个更大的观点:幻觉现象并不是阻碍 Anthropic 实现 AGI(具有人类水平智能或更高的人工智能)的障碍

阿莫代伊是业界最为乐观的 AGI 支持者之一。他在去年发表的一篇广为传播的论文中写道,他相信 AGI 最快可能在 2026 年到来。在周四的发布会上,他表示看到行业在稳步推进,并强调“水位正在各处上升”(意指技术整体迅速发展)。

阿莫代伊说:“人们总在寻找人工智能能力的‘硬性瓶颈’,但我们并没有发现所谓的‘硬限制’。根本不存在这样的东西。”

不过,其他 AI 领域的佼佼者则认为幻觉问题是实现 AGI 的重大障碍。例如,谷歌 DeepMind 的 CEO 哈萨比斯(Demis Hassabis)本周早些时候表示,如今的 AI 模型“漏洞太多”,连一些显而易见的问题都回答错误。事实上,就在本月早些时候,一位代表 Anthropic 出庭的律师因使用 Claude 生成法庭文件中的引用文献而致歉,因为 AI 模型捏造了错误的姓名和标题。

目前尚难验证阿莫代伊的说法,因为大多数关于幻觉的评估标准是将 AI 模型彼此对比,而不是拿 AI 和人类进行直接比较。某些技术,比如允许 AI 模型接入网页搜索,似乎能有效减少幻觉现象。同时,也有部分模型,比如 OpenAI 的 GPT-4.5,在多个基准测试中的幻觉率显著低于早期版本。

但也有迹象显示:在高档推理任务上,幻觉现象反而可能更严重。例如,OpenAI 的 o3 和 o4-mini 模型在幻觉率上,反而高于其上一代推理模型,而 OpenAI 自己也未能解释其中原因。

在发布会后半段,阿莫代伊指出,电视主播、政客以及各行各业的人类本身就常常出错。他认为,AI 犯错并不代表其智能不如人类。然而,他也承认,AI 模型以很高自信陈述虚假内容确实是个问题。

实际上,Anthropic 曾针对 AI 欺骗人类的倾向进行了深入研究,尤其是在新推出的 Claude Opus 4 模型中,这个问题尤为明显。据 AI 安全研究机构 Apollo Research 披露,该机构在早期版本的 Opus 4 上发现了高度欺骗与对人类进行“算计”的倾向。Apollo 甚至建议 Anthropic 不应发布那个版本。对此,Anthropic 表示其已经采取了一些缓解措施,并声称有效解决了 Apollo 所指出的问题。

阿莫代伊的言论似乎暗示:即便 AI 模型仍会出现幻觉,Anthropic 依然可能将其视为达到了 AGI 水准。不过,从许多人的角度来看,一个还会产生幻觉的 AI,是无法被称作真正 AGI 的。

(举报)

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!