AI热点 7小时前 57 阅读 0 评论

Anthropic承认模型降智后放任其偷懒?Claude Code用户信任崩塌中

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章


机器之心报道

编辑:冷猫

还记不记得每一次 OpenAI 发布新功能或新模型的时候,总会有一些评论声称现有模型能力下降,怀疑大模型「降智」现象的声音不绝于耳。

排除掉一些有关 OpenAI 对部分地区账户的用户分级机制导致的显著降级情况,普通用户也会感觉到大模型时不时的出现问题。

机器之心编辑部在测试 GPT-5 的时候,感觉模型能力不及预期,也会怀疑是否有「降智」现象的存在。

但无论如何,此前大模型供应商似乎从来没有正面承认过模型「降智」的问题,用户的感知也朦朦胧胧的。

OpenAI 的研究科学家 Aidan McLaughlin 前两天发推聊到了这个现象。

他的意思是,大家(包括他自己)经常会错误地认为某个 AI 模型被实验室「削弱」了,而这种错误认知的发生率远高于他的预期。他甚至觉得,这是一种普遍的心理错觉,应该被定义成一种新的心理学现象。

但他很快就被库库打脸了。

几天前,Anthropic 发布了旗下模型 Claude Opus 4.1 和 Opus 4 的质量降级事件报告。很罕见地,大模型厂商公开承认模型「降智」的现象。

从 8 月 25 日 17:30 UTC 到 8 月 28 日 02:00 UTC,Claude Opus 4.1 在部分请求中出现了质量下降的问题。用户可能会遇到智能水平降低、回答格式错误或 Claude Code 工具调用异常等情况。

这一问题的原因是 Anthropic 在推理(inference)堆栈中进行了一次更新,但目前已经对 Claude Opus 4.1 回滚了该更新。虽然 Anthropic 经常会进行一些更改来提升模型的效率和吞吐量,但目标始终是保持模型响应质量不变。此外还发现 Claude Opus 4.0 也受到了同样问题的影响,目前正在对其进行回滚

并且,Anthropic 在报告中声称该事件已经被妥善解决。但 Anthropic 很快被用户们打脸,直到 9 月 1 日,用户对于 Claude Code 的负反馈不减反增

Claude 这波自废武功的现象正持续性消耗用户过去的习惯和信任,很多用户正一点点地转向 GPT-5。

研究者 Thomas Ricouard 认为:

  • Claude Code 暂时 RIP,他不确定 Anthropic 是否真的从推理系统的问题中恢复过来,但就连 Opus 也变得很「懒」。
  • Cursor Agent CLI 搭配 GPT-5 表现真的非常棒,尤其是在精心设计的 prompt 下。

在他的推文下面,许许多多的 Claude 用户有着相同的抱怨,似乎 Anthropic 根本没有好好修正这个问题,Claude 依然不停地在「偷懒」。

还有人称,「实际运行起来更加糟糕。」

更有人直接开喷,「以前,Sonnet 4 能够直接构建一个项目,而现在 Opus 4.1 却连一个简单的脚本都生成不了,简直变成了无用的垃圾。」

Claude Code 表现为什么如此差劲?使用时间或许是一大影响因素,「它在凌晨两点用起来顺畅无比,白天高峰期被限流之后就非常糟糕。」

还有人猜测,是不是 Anthropic 正在研发一个新的或更好的模型。

众多拉踩之下,Claude Code 似乎就要跌落神坛了。当一个模型开始了「偷懒」,用户会做出他们的选择。根据我们此前的报道,在 GPT-5 发布后,相比于 Claude Code,开发者私下更喜欢用 GPT-5 写代码。

下面这位小哥表示,「我这几天一直在 Codex+GPT-5-high,完全不想念 Claude Code。每月 20 美元,性价比简直离谱。」

你在 Claude 的实际使用中遇到过哪些降智行为呢,欢迎评论区留言。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!