Anthropic 发布 Claude 4 系列 AI 模型，有啥重大突破?

在周四举行的 Anthropic 首届开发者大会“Code with Claude”上，该公司发布了两款全新 AI 模型，并表示:这两款 AI 模型在多个行业基准测试中表现出色，是目前业内最强的模型之一。

这两款属于“属于 Claude 4 家族”的新模型分别为 Claude Opus 4 和 Claude Sonnet 4。据 Anthropic 介绍，这些模型能分析大规模数据集、执行长周期任务并处理复杂操作。两款模型都针对编程任务进行了优化，适合用于编写和编辑代码。

付费用户与免费聊天应用用户都可使用 Sonnet 4，但只有付费用户才能使用 Opus 4。在 Anthropic 的 API(通过 Amazon Bedrock 平台与谷歌 Vertex AI 提供)上，Opus 4 的定价为每百万个输入/输出 token 分别为 15 美元/75 美元，Sonnet 4 为 3 美元/15 美元。

token 是 AI 模型处理数据的基本单位。100 万个 token 大约相当于 75 万个英文单词 —— 比《战争与和平》还多约 16.3 万字。

Anthropic 推出 Claude 4 系列模型正值公司大幅扩张收入之际。据报道，这家由前 OpenAI 研究人员创办的公司计划在 2027 年实现 120 亿美元营收，而今年的预计收入为 22 亿美元。为应对开发前沿模型带来的高成本，Anthropic 最近获得了 25 亿美元的信贷额度，并从亚马逊等投资方筹集了数十亿美元。

不过，竞争对手也在奋力追赶。今年早些时候，Anthropic 推出了旗舰模型 Claude Sonnet 3.7 以及其代码代理工具 Claude Code，而 OpenAI 和谷歌等竞争者也在发布更强大的模型与开发工具。

这次，Anthropic 准备凭 Claude 4 奋力一搏。

今天推出的两款模型中，Opus 4 更强大。据称，它能够在复杂工作流中保持“持续聚焦的努力”;而 Sonnet 4 是 Sonnet 3.7 的“即插即用替代品”，在编程、数学能力、以及指令理解上均有提升。

Anthropic 还称，Claude 4 系列相比 Sonnet 3.7 更不容易出现“奖励投机”(reward hacking)行为，即模型为了完成任务而钻规则漏洞、走捷径。

不过，要明确的是，这些改进并不意味着它是每项基准测试中较好的。例如，虽然 Opus 4 在衡量代码能力的 SWE-bench Verified 上超过了谷歌 Gemini 2.5 Pro、OpenAI 的 o3 与 GPT-4.1，但在多模态评估 MMMU 和博士级科学题集 GPQA Diamond 上仍不敌 o3。

为加强安全性，Anthropic 为 Opus 4 设置了更严格的防护机制，包括更强的有害内容检测器和网络安全防御系统。公司内部测试发现，Opus 4 可能“显著提升”具有 STEM 背景人员获取、制造或部署化学、生物或核武器的能力，因此被标记为符合其“ASL-3”模型安全规范。

Anthropic 表示，Opus 4 和 Sonnet 4 均为“混合模型”，既能迅速响应，也能进入“深度推理”模式，在需要时花更多时间权衡解决方案。在推理过程中，模型会显示“用户友好型”的思考摘要。至于不显示完整思考过程的原因，部分是为了保护公司的“竞争优势”，Anthropic 在提供给 TechCrunch 的草稿博文中坦承。

Claude 4 系列还可并行使用多种工具(如搜索引擎)，在推理与工具调用间切换，从而提高回答质量。它们还能提取并存储事实以构建“隐性知识”，从而提升任务完成的可靠性。

为了更好服务开发者，Anthropic 正升级其 Claude Code 工具。该工具允许开发者直接从终端运行任务，如今已集成到多种 IDE(集成开发环境)中，并提供 SDK，可将其接入第三方应用。

新发布的 Claude Code SDK 支持在多个操作系统中以子进程形式运行 Claude Code，方便开发人员打造 AI 编程助手或工具，充分发挥 Claude 模型能力。

Anthropic 还推出了适用于 Microsoft VS Code、JetBrains 与 GitHub 的 Claude Code 扩展插件。GitHub 插件支持开发者利用 Claude Code 响应审查意见，并尝试修复代码错误或进行修改。

虽说 AI 模型仍难以编写高质量软件(通常存在安全漏洞和逻辑错误)，但其在提高开发效率方面的潜力推动了业界的快速采用。

（举报）