Newsroom
AIEII

Anthropic 发布 Claude Opus 4 和 Sonnet 4:从聊天助手到长时自主 Agent 的分水岭

Anthropic 在首届开发者大会推出 Claude Opus 4 和 Sonnet 4,Opus 4 号称全球最强编程模型,可连续数小时自主执行任务,标志 AI 行业从问答范式向 Agent 范式的关键转向。

2026年05月18日

Anthropic 发布 Claude Opus 4 和 Sonnet 4:从聊天助手到长时自主 Agent 的分水岭

“全球最强编程模型。”

2025 年 5 月 22 日,旧金山,Anthropic 首届开发者大会 “Code with Claude” 开场,Dario Amodei 在台上就亮出这句话。

AI 行业的人听这类宣言已经练出了免疫力。但这次有点不一样,因为他们立刻搬出了数字:Claude Opus 4 在 SWE-bench Verified 拿下 72.5%,Claude Sonnet 4 更高,72.7%,两款模型均超越当时所有公开商业模型。

不过,真正让开发者圈子炸锅的不是跑分,是另一句话:可连续工作数小时,自主完成复杂工程任务。这句话背后的含义,远比一个百分比数字深刻。


Opus 4 vs Sonnet 4:定位差异与能力边界

Anthropic 选择同时发布两款旗舰,本身就是一个信号:他们不打算再用一套 “旗舰” 打天下,而是把市场切成两层。

跑分层面,两者差距出乎意料地小。Sonnet 4 的 SWE-bench Verified 72.7%,比 Opus 4 的 72.5% 还高出 0.2 个百分点。这在发布时引发了不少讨论,因为通常来说旗舰模型应该更强。官方的解释是:Opus 4 的优势在于 持续执行长任务时的稳定性和可靠性,而不是单次任务的峰值分数。

价格层面,差距非常明显。

维度Claude Opus 4Claude Sonnet 4
SWE-bench Verified(2025.05 发布时)72.5%72.7%
API 定价(输入 / 百万 token)$15$3
API 定价(输出 / 百万 token)$75$15
扩展思考模式支持(含工具调用)支持(含工具调用)
最适场景复杂长时 Agent 任务规模化生产部署

数据来源:Anthropic 官方发布、Introducing Claude 4(2025.05.22)

Sonnet 4 是 Sonnet 3.7 的重大升级,代码能力和推理质量均有提升,指令跟随精度更高,定价却维持在 $3/$15。Opus 4 的定价是 Sonnet 4 的 5 倍,专门服务于那些"任务复杂度高到值得多花 5 倍"的场景,主要是需要持续数小时、跨多个工具的复杂 Agent 工作流。

两款模型都采用混合架构:普通对话接近即时响应,需要深度推理时切换到扩展思考模式。更关键的是,扩展思考模式下可以嵌入工具调用,即 Claude 在一条推理链中可以随时调用外部工具,不需要打断思考流。这个细节,才是理解"长时 Agent"的技术入口。


“连续工作数小时"意味着什么:Agent 架构的技术支撑

以往说 AI “自主执行任务”,大多数时候指的是:给一个清晰的指令,返回一个答案,偶尔调用一两个工具。

Opus 4 描述的场景要复杂得多:接到一个开放式工程目标,自主规划步骤,在多个工具之间切换,遇到中间错误时自我诊断和修正,最终交付可用的结果。Anthropic 在大会现场展示的案例,是 Claude 独立在代码仓库里定位 bug、编写修复代码、运行测试、提交 PR,全程无人工干预,耗时数十分钟。

这背后需要几项技术基础同时到位。Anthropic 在这次大会上同步发布了四项 API 新能力:

能力核心作用解决的痛点
代码执行工具沙箱内直接运行代码避免"写完代码不知道对不对”
MCP 连接器标准化连接外部工具和服务每个 Agent 不再需要重写工具接口
Files API将中间状态外化为文件缓解长任务中上下文被撑满的问题
Prompt 缓存(最长 1 小时)复用重复前缀,降低延迟和成本高频复杂任务的响应速度和成本

其中 MCP 连接器的战略意义被一些开发者低估了。MCP 是 Anthropic 主导的开放协议,让 AI 模型以标准化方式对接任意外部服务。如果这套协议成为行业标准,Anthropic 就相当于在 Agent 时代占据了接口规范制定者的位置。一年后的现实是:包括部分第三方工具链和 IDE 插件,都开始原生支持 MCP,这对 Anthropic 来说是超越模型本身的护城河。

这不是聊天助手的升级,而是一个新范式的开始:AI 从"回答者"变成"执行者"。区别是,执行者要对结果负责,而不只是对答案负责。

上下文管理同样是长时 Agent 能否成立的核心。1 小时的 Prompt 缓存,加上 Files API 把中间状态写出到文件而非全堆在上下文里,是 Anthropic 给出的工程解法。这不是最优雅的方案,但它实用,可以用。


开发者生态布局:SDK + 限额翻倍 + 定价策略

发布新模型是一回事,能不能把开发者留住、让他们在 Claude 生态里继续投入,是另一回事。Anthropic 这次大会的着力点,明显不只是模型发布会。

Claude Code SDK 是当天最受关注的开发者工具。它允许开发者基于 Claude Code 内部的核心 Agent 逻辑,构建自定义的 Agent 应用和工具链。不用从头搭 Agent 框架,直接调用 Anthropic 自己内部跑通的那套,再做定制扩展。这对中小团队来说是有实质意义的加速:基础 Agent 基础设施不用自己验证了。

Claude Code 用量限额全面翻倍。Pro、Max、Team 和 Enterprise 各档订阅计划,此前每个时间窗口内对 Sonnet 和 Opus 的调用上限统一翻倍,同时 Pro 和 Max 用户的高峰时段限流取消。这解决了开发者长期吐槽的一个问题:工作日午后 Claude Code 的响应会明显变慢,直接影响编程流畅度。

定价策略的双层逻辑:$3 Sonnet 瞄准规模化生产部署,$15 Opus 服务高价值低频次的复杂任务。两款同时发布,给开发者一个清晰的决策路径。

有一个值得关注的后续:到 2026 年初,Opus 系列的价格出现了明显下调。据 Anthropic 官方定价页面,Opus 4.6 和 Opus 4.7 的输入定价降至 $5/MTok,输出 $25/MTok,相比发布时的 $15/$75 下降了 67%,同期 SWE-bench 分数则继续上升(Opus 4.7 达到 87.6%,据 2026 年 4 月数据)。Anthropic 选择把技术进步转化成价格下降,而不是靠高价维持利润空间,这对开发者是长期利好。


竞争格局重排:Opus 4 vs GPT-5 vs Gemini 2.5

2025 年 5 月是 AI 竞争格局最密集的一个时间窗口。OpenAI 的 GPT-5 和 Anthropic 的 Opus 4 几乎在同一周期内先后登场,Google 的 Gemini 2.5 Pro 已经稳住了多模态评测的高分区。

在 SWE-bench Verified 这条编程能力的核心标尺上,Opus 4 的 72.5% 在发布时排在公开商业模型第一位。SWE-bench Verified 测的是模型在真实 GitHub issue 上的修复能力,72.5% 意味着拿到一个真实的代码 bug,十次里有七次能独立修复,不需要人工介入。

GPT-5 在同期编程评测中表现接近,但在长程任务的稳定性上被认为略逊于 Opus 4。Gemini 2.5 Pro 在多模态理解和联网搜索场景有明显优势,但在纯代码 Agent 的可靠性上,当时不是首选。

一年后,格局持续演变:

模型SWE-bench Verified输入定价(/ 百万 token)发布时间
Claude Opus 472.5%$152025.05
Claude Sonnet 472.7%$32025.05
Claude Sonnet 4.679.6%$32026.02
Claude Opus 4.680.8%$52026.02
Claude Opus 4.787.6%$52026.04

数据来源:Anthropic 官方、SWE-bench Verified 排行榜MorphLLM 基准测试(2026 年 5 月)

从 72.5% 到 87.6%,一年内跳了 15 个百分点,价格同期下降了三分之二,这是 Anthropic 在 2025-2026 年间跑出的技术和商业曲线,在 AI 行业里属于少见的"越来越便宜,越来越强"的正向飞轮。

GPT-5.5 和 Gemini 3.1 Pro 在 2026 年 Q1-Q2 先后发布,在多项评测上追近了差距,但 Claude 系列在长程代码 Agent 场景的开发者口碑,目前仍维持在第一梯队。实际上,这场竞争的焦点已经从"谁的跑分高"转向"谁的 Agent 更可靠、谁的开发者生态更完整",而这正是 Anthropic 选择把 MCP、SDK、大会都放在一起打出去的原因。


写在最后

“全球最强编程模型"这个说法,在发布后不到半年就被自己人用更高的跑分推翻了,这是 AI 军备竞赛的正常节奏。

真正值得关注的不是这句话本身,而是 Anthropic 选择用这句话作为战略声明的时机和方式:在首届开发者大会,对着一屋子工程师,直接拿编程 benchmark 说话。

这说明他们的定位已经变了。不再是"最安全的 AI 聊天助手”,而是"要嵌入工程师工作流的 AI 生产力节点"。从产品动作来看,Claude Code SDK、MCP 标准化协议、用量限额翻倍,这三件事加在一起,是一套完整的开发者生态布局,不是一次性的发布活动。

对你来说,这意味着什么?如果你在做 Agent 相关的开发,Claude 这套技术栈和工具链,现在是值得认真评估的选项,不只是"备选方案"。

“连续工作数小时"还不是终点。这是 Anthropic 在 2025 年立的一个方向,接下来的版本会证明这个方向是否说到做到。目前看,数字在说话。


参考来源

广告合作联系
立即联系 →
加入会员申请
了解详情 →
← 浏览器插件已经成了恶意软件温床:我们正在失去对浏览器的控制权 AI 编程工具生态大乱斗:Anthropic 断供 … →
💬 Comments
7 min read