“全球最强编程模型。”
2025 年 5 月 22 日,旧金山,Anthropic 首届开发者大会 “Code with Claude” 开场,Dario Amodei 在台上就亮出这句话。
AI 行业的人听这类宣言已经练出了免疫力。但这次有点不一样,因为他们立刻搬出了数字:Claude Opus 4 在 SWE-bench Verified 拿下 72.5%,Claude Sonnet 4 更高,72.7%,两款模型均超越当时所有公开商业模型。
不过,真正让开发者圈子炸锅的不是跑分,是另一句话:可连续工作数小时,自主完成复杂工程任务。这句话背后的含义,远比一个百分比数字深刻。
Opus 4 vs Sonnet 4:定位差异与能力边界
Anthropic 选择同时发布两款旗舰,本身就是一个信号:他们不打算再用一套 “旗舰” 打天下,而是把市场切成两层。
跑分层面,两者差距出乎意料地小。Sonnet 4 的 SWE-bench Verified 72.7%,比 Opus 4 的 72.5% 还高出 0.2 个百分点。这在发布时引发了不少讨论,因为通常来说旗舰模型应该更强。官方的解释是:Opus 4 的优势在于 持续执行长任务时的稳定性和可靠性,而不是单次任务的峰值分数。
价格层面,差距非常明显。
| 维度 | Claude Opus 4 | Claude Sonnet 4 |
|---|---|---|
| SWE-bench Verified(2025.05 发布时) | 72.5% | 72.7% |
| API 定价(输入 / 百万 token) | $15 | $3 |
| API 定价(输出 / 百万 token) | $75 | $15 |
| 扩展思考模式 | 支持(含工具调用) | 支持(含工具调用) |
| 最适场景 | 复杂长时 Agent 任务 | 规模化生产部署 |
数据来源:Anthropic 官方发布、Introducing Claude 4(2025.05.22)
Sonnet 4 是 Sonnet 3.7 的重大升级,代码能力和推理质量均有提升,指令跟随精度更高,定价却维持在 $3/$15。Opus 4 的定价是 Sonnet 4 的 5 倍,专门服务于那些"任务复杂度高到值得多花 5 倍"的场景,主要是需要持续数小时、跨多个工具的复杂 Agent 工作流。
两款模型都采用混合架构:普通对话接近即时响应,需要深度推理时切换到扩展思考模式。更关键的是,扩展思考模式下可以嵌入工具调用,即 Claude 在一条推理链中可以随时调用外部工具,不需要打断思考流。这个细节,才是理解"长时 Agent"的技术入口。
“连续工作数小时"意味着什么:Agent 架构的技术支撑
以往说 AI “自主执行任务”,大多数时候指的是:给一个清晰的指令,返回一个答案,偶尔调用一两个工具。
Opus 4 描述的场景要复杂得多:接到一个开放式工程目标,自主规划步骤,在多个工具之间切换,遇到中间错误时自我诊断和修正,最终交付可用的结果。Anthropic 在大会现场展示的案例,是 Claude 独立在代码仓库里定位 bug、编写修复代码、运行测试、提交 PR,全程无人工干预,耗时数十分钟。
这背后需要几项技术基础同时到位。Anthropic 在这次大会上同步发布了四项 API 新能力:
| 能力 | 核心作用 | 解决的痛点 |
|---|---|---|
| 代码执行工具 | 沙箱内直接运行代码 | 避免"写完代码不知道对不对” |
| MCP 连接器 | 标准化连接外部工具和服务 | 每个 Agent 不再需要重写工具接口 |
| Files API | 将中间状态外化为文件 | 缓解长任务中上下文被撑满的问题 |
| Prompt 缓存(最长 1 小时) | 复用重复前缀,降低延迟和成本 | 高频复杂任务的响应速度和成本 |
其中 MCP 连接器的战略意义被一些开发者低估了。MCP 是 Anthropic 主导的开放协议,让 AI 模型以标准化方式对接任意外部服务。如果这套协议成为行业标准,Anthropic 就相当于在 Agent 时代占据了接口规范制定者的位置。一年后的现实是:包括部分第三方工具链和 IDE 插件,都开始原生支持 MCP,这对 Anthropic 来说是超越模型本身的护城河。
这不是聊天助手的升级,而是一个新范式的开始:AI 从"回答者"变成"执行者"。区别是,执行者要对结果负责,而不只是对答案负责。
上下文管理同样是长时 Agent 能否成立的核心。1 小时的 Prompt 缓存,加上 Files API 把中间状态写出到文件而非全堆在上下文里,是 Anthropic 给出的工程解法。这不是最优雅的方案,但它实用,可以用。
开发者生态布局:SDK + 限额翻倍 + 定价策略
发布新模型是一回事,能不能把开发者留住、让他们在 Claude 生态里继续投入,是另一回事。Anthropic 这次大会的着力点,明显不只是模型发布会。
Claude Code SDK 是当天最受关注的开发者工具。它允许开发者基于 Claude Code 内部的核心 Agent 逻辑,构建自定义的 Agent 应用和工具链。不用从头搭 Agent 框架,直接调用 Anthropic 自己内部跑通的那套,再做定制扩展。这对中小团队来说是有实质意义的加速:基础 Agent 基础设施不用自己验证了。
Claude Code 用量限额全面翻倍。Pro、Max、Team 和 Enterprise 各档订阅计划,此前每个时间窗口内对 Sonnet 和 Opus 的调用上限统一翻倍,同时 Pro 和 Max 用户的高峰时段限流取消。这解决了开发者长期吐槽的一个问题:工作日午后 Claude Code 的响应会明显变慢,直接影响编程流畅度。
定价策略的双层逻辑:$3 Sonnet 瞄准规模化生产部署,$15 Opus 服务高价值低频次的复杂任务。两款同时发布,给开发者一个清晰的决策路径。
有一个值得关注的后续:到 2026 年初,Opus 系列的价格出现了明显下调。据 Anthropic 官方定价页面,Opus 4.6 和 Opus 4.7 的输入定价降至 $5/MTok,输出 $25/MTok,相比发布时的 $15/$75 下降了 67%,同期 SWE-bench 分数则继续上升(Opus 4.7 达到 87.6%,据 2026 年 4 月数据)。Anthropic 选择把技术进步转化成价格下降,而不是靠高价维持利润空间,这对开发者是长期利好。
竞争格局重排:Opus 4 vs GPT-5 vs Gemini 2.5
2025 年 5 月是 AI 竞争格局最密集的一个时间窗口。OpenAI 的 GPT-5 和 Anthropic 的 Opus 4 几乎在同一周期内先后登场,Google 的 Gemini 2.5 Pro 已经稳住了多模态评测的高分区。
在 SWE-bench Verified 这条编程能力的核心标尺上,Opus 4 的 72.5% 在发布时排在公开商业模型第一位。SWE-bench Verified 测的是模型在真实 GitHub issue 上的修复能力,72.5% 意味着拿到一个真实的代码 bug,十次里有七次能独立修复,不需要人工介入。
GPT-5 在同期编程评测中表现接近,但在长程任务的稳定性上被认为略逊于 Opus 4。Gemini 2.5 Pro 在多模态理解和联网搜索场景有明显优势,但在纯代码 Agent 的可靠性上,当时不是首选。
一年后,格局持续演变:
| 模型 | SWE-bench Verified | 输入定价(/ 百万 token) | 发布时间 |
|---|---|---|---|
| Claude Opus 4 | 72.5% | $15 | 2025.05 |
| Claude Sonnet 4 | 72.7% | $3 | 2025.05 |
| Claude Sonnet 4.6 | 79.6% | $3 | 2026.02 |
| Claude Opus 4.6 | 80.8% | $5 | 2026.02 |
| Claude Opus 4.7 | 87.6% | $5 | 2026.04 |
数据来源:Anthropic 官方、SWE-bench Verified 排行榜、MorphLLM 基准测试(2026 年 5 月)
从 72.5% 到 87.6%,一年内跳了 15 个百分点,价格同期下降了三分之二,这是 Anthropic 在 2025-2026 年间跑出的技术和商业曲线,在 AI 行业里属于少见的"越来越便宜,越来越强"的正向飞轮。
GPT-5.5 和 Gemini 3.1 Pro 在 2026 年 Q1-Q2 先后发布,在多项评测上追近了差距,但 Claude 系列在长程代码 Agent 场景的开发者口碑,目前仍维持在第一梯队。实际上,这场竞争的焦点已经从"谁的跑分高"转向"谁的 Agent 更可靠、谁的开发者生态更完整",而这正是 Anthropic 选择把 MCP、SDK、大会都放在一起打出去的原因。
写在最后
“全球最强编程模型"这个说法,在发布后不到半年就被自己人用更高的跑分推翻了,这是 AI 军备竞赛的正常节奏。
真正值得关注的不是这句话本身,而是 Anthropic 选择用这句话作为战略声明的时机和方式:在首届开发者大会,对着一屋子工程师,直接拿编程 benchmark 说话。
这说明他们的定位已经变了。不再是"最安全的 AI 聊天助手”,而是"要嵌入工程师工作流的 AI 生产力节点"。从产品动作来看,Claude Code SDK、MCP 标准化协议、用量限额翻倍,这三件事加在一起,是一套完整的开发者生态布局,不是一次性的发布活动。
对你来说,这意味着什么?如果你在做 Agent 相关的开发,Claude 这套技术栈和工具链,现在是值得认真评估的选项,不只是"备选方案"。
“连续工作数小时"还不是终点。这是 Anthropic 在 2025 年立的一个方向,接下来的版本会证明这个方向是否说到做到。目前看,数字在说话。
参考来源
- Introducing Claude 4 — Anthropic
- Code with Claude — Anthropic’s First Developer Conference
- Anthropic’s new Claude 4 AI models can reason over many steps — TechCrunch
- Anthropic unveils Claude 4 series with claim to AI coding crown — Axios
- Live blog: Claude 4 launch at Code with Claude — Simon Willison
- SWE-bench Verified Leaderboard — Vals.ai
- Introducing Claude Opus 4.7 — Anthropic
- Claude Benchmarks 2026 — MorphLLM
- Claude API Pricing — Anthropic Platform