AI 周刊 #7：AI Agent 元年？从 Devin 到 Claude Code

每隔一段时间，AI 行业就会出现一个新的"元年"叙事。去年是"大模型元年"，前年是"生成式 AI 元年"。但 2026 年初正在酝酿的这个叙事，可能是最名副其实的一个：AI Agent 元年。

什么是 AI Agent？为什么现在？

在讨论具体产品之前，我们先厘清概念。AI Agent 不是一个新概念——“能自主行动的智能体"这个想法至少有几十年历史了。但在 2026 年之前，大多数 AI 产品的交互模式是这样的：

人类提问 → AI 回答 → 人类判断 → 人类执行

而 AI Agent 的交互模式是：

人类下达目标 → AI 规划步骤 → AI 自主执行 → AI 自我检验 → 返回结果

关键区别在于"执行"这一步。Agent 不只是告诉你怎么做，它会直接去做。

为什么是现在？三个条件同时成熟了：

Cognition Labs 本周发布了 Devin 2.0。相比去年引发巨大争议的 1.0 版本，2.0 做了几个关键改进：

实测下来，Devin 2.0 在处理明确定义的任务（“给这个 API 加上分页功能”）时表现优秀，但在面对模糊需求（“优化用户体验”）时仍然需要大量人工引导。

如果说 Devin 是一个"AI 同事"，那 Claude Code 更像是一个"AI 终端"。它直接运行在你的命令行中，可以：

我们在编辑部内部用 Claude Code 管理 AIEII 的 Hugo 博客已经两周了。说实话，它处理"重构文件结构"、“批量修改配置"这类任务的效率，确实比手动操作快 5-10 倍。

Claude Code 最让人印象深刻的不是单个操作的能力，而是它的连贯性——它能记住之前的上下文，在多步骤任务中保持一致的策略，遇到错误时会自己排查和修复。

OpenAI 的 Operator 走了一条完全不同的路。它不面向开发者，而是面向普通用户。你可以让它：

Operator 通过控制浏览器来完成这些任务。它能看到屏幕内容、移动鼠标、点击按钮、输入文字——本质上是一个"AI 电脑操作员”。

在一片繁荣景象背后，Agent 技术仍然面临三个核心挑战：

即使是最强的 Agent，在长任务链中的成功率也只有 70-80%。这意味着每 5 个任务中，至少有 1 个会出错。在某些场景下（比如写代码），错误可以被检测和修复；但在另一些场景下（比如发邮件、下单），错误的代价可能很大。

当 AI 可以直接操作你的电脑、访问你的账户、修改你的文件时，安全问题就不再是理论讨论。本周就有安全研究员演示了一种攻击方法：通过在网页中嵌入特殊的 prompt，可以让 Operator 在浏览该网页时执行恶意操作。

Agent 完成一个复杂任务可能需要调用模型数十次甚至上百次。以 GPT-4o 的定价计算，一个需要 50 步的任务可能花费 2-5 美元。对于企业级应用来说这不算什么，但对于个人用户来说，“让 AI 帮你买个耳机花了 3 美元"可能有些难以接受。

如果你是开发者，想要构建自己的 Agent 应用，以下是当前最实用的技术栈建议：

基座模型选择：

Agent 框架：

工具集成：

关键建议： 不要试图让 Agent 一步到位地完成所有事情。把复杂任务分解成小步骤，每一步都设置检查点和回退机制。可靠的 Agent 不是永远不出错的 Agent，而是出错后能自我修复的 Agent。

“自动化的终极目标不是替代人类，而是把人类从不值得做的事情中解放出来。”

我相信 AI Agent 会深刻改变我们的工作方式，但这个过程会比大多数人预期的更慢、更曲折。2026 年不会是 Agent “取代人类"的一年，但很可能是 Agent “开始有用"的一年。

这就够了。

下周见。

本文由 AIEII 编辑部撰写。如果你正在构建 Agent 应用，欢迎来信交流。