Anthropic 发布 Claude Opus 4 和 Sonnet 4：从聊天助手到长时自主 Agent 的分水岭

AIEII

“全球最强编程模型。”

2025 年 5 月 22 日，旧金山，Anthropic 首届开发者大会 “Code with Claude” 开场，Dario Amodei 在台上就亮出这句话。

AI 行业的人听这类宣言已经练出了免疫力。但这次有点不一样，因为他们立刻搬出了数字：Claude Opus 4 在 SWE-bench Verified 拿下 72.5%，Claude Sonnet 4 更高，72.7%，两款模型均超越当时所有公开商业模型。

不过，真正让开发者圈子炸锅的不是跑分，是另一句话：可连续工作数小时，自主完成复杂工程任务。这句话背后的含义，远比一个百分比数字深刻。

Opus 4 vs Sonnet 4：定位差异与能力边界

Anthropic 选择同时发布两款旗舰，本身就是一个信号：他们不打算再用一套 “旗舰” 打天下，而是把市场切成两层。

跑分层面，两者差距出乎意料地小。Sonnet 4 的 SWE-bench Verified 72.7%，比 Opus 4 的 72.5% 还高出 0.2 个百分点。这在发布时引发了不少讨论，因为通常来说旗舰模型应该更强。官方的解释是：Opus 4 的优势在于 持续执行长任务时的稳定性和可靠性，而不是单次任务的峰值分数。

价格层面，差距非常明显。

维度	Claude Opus 4	Claude Sonnet 4
SWE-bench Verified（2025.05 发布时）	72.5%	72.7%
API 定价（输入 / 百万 token）	$15	$3
API 定价（输出 / 百万 token）	$75	$15
扩展思考模式	支持（含工具调用）	支持（含工具调用）
最适场景	复杂长时 Agent 任务	规模化生产部署

数据来源：Anthropic 官方发布、Introducing Claude 4（2025.05.22）

Sonnet 4 是 Sonnet 3.7 的重大升级，代码能力和推理质量均有提升，指令跟随精度更高，定价却维持在 $3/$15。Opus 4 的定价是 Sonnet 4 的 5 倍，专门服务于那些"任务复杂度高到值得多花 5 倍"的场景，主要是需要持续数小时、跨多个工具的复杂 Agent 工作流。

两款模型都采用混合架构：普通对话接近即时响应，需要深度推理时切换到扩展思考模式。更关键的是，扩展思考模式下可以嵌入工具调用，即 Claude 在一条推理链中可以随时调用外部工具，不需要打断思考流。这个细节，才是理解"长时 Agent"的技术入口。

“连续工作数小时"意味着什么：Agent 架构的技术支撑

以往说 AI “自主执行任务”，大多数时候指的是：给一个清晰的指令，返回一个答案，偶尔调用一两个工具。

Opus 4 描述的场景要复杂得多：接到一个开放式工程目标，自主规划步骤，在多个工具之间切换，遇到中间错误时自我诊断和修正，最终交付可用的结果。Anthropic 在大会现场展示的案例，是 Claude 独立在代码仓库里定位 bug、编写修复代码、运行测试、提交 PR，全程无人工干预，耗时数十分钟。

这背后需要几项技术基础同时到位。Anthropic 在这次大会上同步发布了四项 API 新能力：

能力	核心作用	解决的痛点
代码执行工具	沙箱内直接运行代码	避免"写完代码不知道对不对”
MCP 连接器	标准化连接外部工具和服务	每个 Agent 不再需要重写工具接口
Files API	将中间状态外化为文件	缓解长任务中上下文被撑满的问题
Prompt 缓存（最长 1 小时）	复用重复前缀，降低延迟和成本	高频复杂任务的响应速度和成本

其中 MCP 连接器的战略意义被一些开发者低估了。MCP 是 Anthropic 主导的开放协议，让 AI 模型以标准化方式对接任意外部服务。如果这套协议成为行业标准，Anthropic 就相当于在 Agent 时代占据了接口规范制定者的位置。一年后的现实是：包括部分第三方工具链和 IDE 插件，都开始原生支持 MCP，这对 Anthropic 来说是超越模型本身的护城河。

这不是聊天助手的升级，而是一个新范式的开始：AI 从"回答者"变成"执行者"。区别是，执行者要对结果负责，而不只是对答案负责。

上下文管理同样是长时 Agent 能否成立的核心。1 小时的 Prompt 缓存，加上 Files API 把中间状态写出到文件而非全堆在上下文里，是 Anthropic 给出的工程解法。这不是最优雅的方案，但它实用，可以用。

开发者生态布局：SDK + 限额翻倍 + 定价策略

发布新模型是一回事，能不能把开发者留住、让他们在 Claude 生态里继续投入，是另一回事。Anthropic 这次大会的着力点，明显不只是模型发布会。

Claude Code SDK 是当天最受关注的开发者工具。它允许开发者基于 Claude Code 内部的核心 Agent 逻辑，构建自定义的 Agent 应用和工具链。不用从头搭 Agent 框架，直接调用 Anthropic 自己内部跑通的那套，再做定制扩展。这对中小团队来说是有实质意义的加速：基础 Agent 基础设施不用自己验证了。

Claude Code 用量限额全面翻倍。Pro、Max、Team 和 Enterprise 各档订阅计划，此前每个时间窗口内对 Sonnet 和 Opus 的调用上限统一翻倍，同时 Pro 和 Max 用户的高峰时段限流取消。这解决了开发者长期吐槽的一个问题：工作日午后 Claude Code 的响应会明显变慢，直接影响编程流畅度。

定价策略的双层逻辑：$3 Sonnet 瞄准规模化生产部署，$15 Opus 服务高价值低频次的复杂任务。两款同时发布，给开发者一个清晰的决策路径。

有一个值得关注的后续：到 2026 年初，Opus 系列的价格出现了明显下调。据 Anthropic 官方定价页面，Opus 4.6 和 Opus 4.7 的输入定价降至 $5/MTok，输出 $25/MTok，相比发布时的 $15/$75 下降了 67%，同期 SWE-bench 分数则继续上升（Opus 4.7 达到 87.6%，据 2026 年 4 月数据）。Anthropic 选择把技术进步转化成价格下降，而不是靠高价维持利润空间，这对开发者是长期利好。

竞争格局重排：Opus 4 vs GPT-5 vs Gemini 2.5

2025 年 5 月是 AI 竞争格局最密集的一个时间窗口。OpenAI 的 GPT-5 和 Anthropic 的 Opus 4 几乎在同一周期内先后登场，Google 的 Gemini 2.5 Pro 已经稳住了多模态评测的高分区。

在 SWE-bench Verified 这条编程能力的核心标尺上，Opus 4 的 72.5% 在发布时排在公开商业模型第一位。SWE-bench Verified 测的是模型在真实 GitHub issue 上的修复能力，72.5% 意味着拿到一个真实的代码 bug，十次里有七次能独立修复，不需要人工介入。

GPT-5 在同期编程评测中表现接近，但在长程任务的稳定性上被认为略逊于 Opus 4。Gemini 2.5 Pro 在多模态理解和联网搜索场景有明显优势，但在纯代码 Agent 的可靠性上，当时不是首选。

一年后，格局持续演变：

模型	SWE-bench Verified	输入定价（/ 百万 token）	发布时间
Claude Opus 4	72.5%	$15	2025.05
Claude Sonnet 4	72.7%	$3	2025.05
Claude Sonnet 4.6	79.6%	$3	2026.02
Claude Opus 4.6	80.8%	$5	2026.02
Claude Opus 4.7	87.6%	$5	2026.04

数据来源：Anthropic 官方、SWE-bench Verified 排行榜、MorphLLM 基准测试（2026 年 5 月）

从 72.5% 到 87.6%，一年内跳了 15 个百分点，价格同期下降了三分之二，这是 Anthropic 在 2025-2026 年间跑出的技术和商业曲线，在 AI 行业里属于少见的"越来越便宜，越来越强"的正向飞轮。

GPT-5.5 和 Gemini 3.1 Pro 在 2026 年 Q1-Q2 先后发布，在多项评测上追近了差距，但 Claude 系列在长程代码 Agent 场景的开发者口碑，目前仍维持在第一梯队。实际上，这场竞争的焦点已经从"谁的跑分高"转向"谁的 Agent 更可靠、谁的开发者生态更完整"，而这正是 Anthropic 选择把 MCP、SDK、大会都放在一起打出去的原因。

写在最后

“全球最强编程模型"这个说法，在发布后不到半年就被自己人用更高的跑分推翻了，这是 AI 军备竞赛的正常节奏。

真正值得关注的不是这句话本身，而是 Anthropic 选择用这句话作为战略声明的时机和方式：在首届开发者大会，对着一屋子工程师，直接拿编程 benchmark 说话。

这说明他们的定位已经变了。不再是"最安全的 AI 聊天助手”，而是"要嵌入工程师工作流的 AI 生产力节点"。从产品动作来看，Claude Code SDK、MCP 标准化协议、用量限额翻倍，这三件事加在一起，是一套完整的开发者生态布局，不是一次性的发布活动。

对你来说，这意味着什么？如果你在做 Agent 相关的开发，Claude 这套技术栈和工具链，现在是值得认真评估的选项，不只是"备选方案"。

“连续工作数小时"还不是终点。这是 Anthropic 在 2025 年立的一个方向，接下来的版本会证明这个方向是否说到做到。目前看，数字在说话。

参考来源