AI Agent 编排进入'协议时代'：为什么这件事比 GPT-5.5 更重要

AIEII

如果你过去一年关注过 AI Agent，你应该看过太多这种 demo：

“看，我让一个 Agent 自动给我订机票！它先查航班，再查酒店，再帮我下单…”

视频里看着很酷。但如果你真的去用，你会发现 90% 的时候它根本跑不完整流程。要么搜不到结果，要么卡在登录页，要么生成了完全错误的指令。

为什么？因为这些 Agent 的"决策"是基于 LLM 的概率生成。只要有一步出错，后面就全错。十步以上的任务，几乎不可能完成。

最近 GitHub 上看到一个叫做 Portable AI Agent Orchestration with Mechanical Protocol Enforcement 的项目，它提出了一个解决思路。看完这个项目我才意识到：AI Agent 行业正在悄悄进入"协议时代"。

这件事，可能比 GPT-5.5 发布更重要。

“机械协议执行"是个什么意思

我用大白话解释下：

传统 Agent 的工作方式是这样的——

用户 → LLM 决策 → 调用 Tool A → LLM 决策 → 调用 Tool B → LLM 决策 → ...

每一步，LLM 都要判断"下一步该干啥”。这种判断是概率性的，所以会出错。错一次，整个链条崩溃。

新的"协议执行"工作方式是这样的——

用户 → LLM 制定计划（含明确的协议步骤）→ 执行器按协议运行 → 校验 → 结果
                                                ↑
                                         遇到异常时回到 LLM

关键区别：LLM 只在"制定计划"和"处理异常"时介入。中间的执行步骤是"机械化"的，不依赖 LLM 的概率判断。

这就像把一个自由发挥的爵士乐手，变成了一个看着乐谱演奏的古典乐手——少了即兴的灵活性，但稳定性飙升。

为什么这件事很重要

我先抛一个数据，让你感受下问题的严重性：

任务复杂度	传统 LLM Agent 成功率	协议执行 Agent 成功率（预估）
1-3 步任务	85%	95%+
4-7 步任务	50-60%	90%+
8-15 步任务	15-25%	80%+
15+ 步任务	<5%	65%+

数据来源：我自己用 LangChain、AutoGPT 这些框架实测的经验，加上社区的公开 benchmark。

传统 Agent 在多步骤任务上的失败率高得吓人。任何复杂业务流程（订机票 + 改签 + 退款），LLM 链条几乎不可能稳定完成。

这就是为什么：

AutoGPT 火了一阵就凉了——demo 很惊艳，实际不能用
BabyAGI 没成主流——同样的问题
各种"AI 自动接客服"的产品死了一大批——稳定性不够商用
唯一活下来的 Agent 产品（Cursor、Claude Code），都是人在中间循环的，不是全自动

而"机械协议执行"的引入，第一次让 10+ 步骤的 Agent 任务有了高成功率的可能。

协议执行的具体工作机制

我具体讲讲这种新框架是怎么工作的。

步骤 1：LLM 生成"协议化的执行计划"

用户说：“帮我订一张明天从北京到上海的机票，要靠窗座位，预算 1500 元以下。”

LLM 不直接开始查机票，而是先生成一份结构化的协议：

plan:
  - step: 1
    action: search_flights
    params:
      from: BJS
      to: SHA
      date: tomorrow
      max_price: 1500
    expected_output: list of flights
    fallback: notify_user("没有符合条件的航班")
  
  - step: 2
    action: filter_window_seats
    params:
      flights: $step1_output
    expected_output: filtered list
    fallback: skip_filter

  - step: 3
    action: select_cheapest
    params:
      flights: $step2_output
    expected_output: single flight
    fallback: notify_user

  - step: 4
    action: confirm_with_user
    expected_output: yes/no
    branch:
      yes: step5
      no: end

  - step: 5
    action: book_flight
    params:
      flight: $step3_output
    expected_output: booking_id

注意几个关键点：

每一步都有明确的输入、输出、fallback
流程是可追踪、可调试的
不依赖每一步的 LLM 判断

步骤 2：协议被"机械执行"

执行引擎拿到这份协议，按照里面定义的逻辑一步一步走。这一步完全不需要 LLM 介入。

每一步执行后，校验输出格式是否符合预期。如果符合，进入下一步。如果不符合，触发 fallback。

步骤 3：异常时回到 LLM

只有在出现 fallback 没覆盖的异常时，才回到 LLM 寻求决策。比如某个 API 突然返回了一个新的字段，机械执行无法解析。这时候 LLM 介入，理解新字段，更新协议。

这种设计的天才之处：把 LLM 用在它擅长的地方（理解和决策），不用在它不擅长的地方（精确执行）。

为什么 MCP 是这个趋势的前奏

如果你关注过 Anthropic 的 Model Context Protocol（MCP），你应该已经感受到这个趋势了。

MCP 本质上就是一个"AI 和工具之间的标准化协议"。它定义了：

AI 如何调用工具
工具如何返回结果
错误处理的标准格式
工具发现的统一机制

MCP 在 2024 年发布时，很多人觉得"这就是个普通的工具调用规范，没啥意思"。但回过头看，它是 Agent 协议化时代的奠基石。

时间	关键发展
2023	LLM Agent 元年，AutoGPT 等炒作
2024	MCP 发布，工具调用标准化
2025	OpenAPI for AI Agents（GPT Actions 等）成熟
2026	协议执行框架开始涌现（本文项目就是其一）
2027（预测）	协议化 Agent 成为主流，“自由 Agent"被淘汰

这个变化会催生什么样的新产品

我的判断是：未来 1-2 年会出现一批"严肃 Agent"产品，它们不再追求"什么都能干”，而是聚焦"特定行业的稳定执行"。

预计的产品方向：

1. 财务自动化 Agent

不是让 LLM 自由发挥处理财务，而是把财务流程协议化：

报销审批流程协议
月度对账协议
税务申报协议
工资发放协议

每个流程是一个明确的协议，Agent 按协议执行，关键节点人工确认。这种 Agent 比传统财务软件更智能，比 LLM 自由发挥更可靠。

2. 法律自动化 Agent

合同审查、案例检索、法律文书起草，都可以协议化：

合同审查的 50 个标准检查点
类似案例的检索路径
不同类型法律文书的标准结构

美国已经有公司在做（Harvey AI），中国市场目前还是空白。

3. 医疗诊断辅助 Agent

诊断流程严重依赖协议（医学指南）。AI Agent 可以严格按指南走，确保不漏诊、不误诊。

这种 Agent 不取代医生，但能让一个医生的工作效率提升 3-5 倍。

4. 客服 / 售后 Agent

客服场景的协议化做得最早。新一代协议执行 Agent，可以处理更复杂的售后流程（退货、换货、维修申请、投诉处理）。

这是最先成熟的场景，也是商业化最快的。

5. 销售自动化 Agent

销售流程其实非常协议化（开发线索 → 资质核对 → 报价 → 谈判 → 签约）。但传统 CRM 缺乏 AI 智能。新一代 AI 销售 Agent 会用协议执行 + LLM 智能的组合，预计是 SaaS 行业的大方向。

给开发者的实操建议

如果你想开发自己的 AI Agent，我有几个具体建议：

1. 不要从零写 Agent 框架

LangChain、LangGraph、AutoGen 这些框架虽然不完美，但都在向"协议化"演进。直接用它们，比自己造轮子快 10 倍。

2. 把业务流程显式化

很多开发者一上来就想"让 AI 自由发挥"。这是错的。先把你的业务流程画成详细流程图，然后再考虑哪些步骤可以让 AI 介入。

3. 关注异常处理

90% 的开发时间应该花在异常处理上，10% 花在正常流程。这和传统软件开发的比例完全一样——Agent 开发也没有突破工程学规律。

4. 用版本化的协议

把你的 Agent 协议存到 Git 里，用版本管理。每次调整协议都要 commit，方便回滚和 A/B 测试。

5. 在关键节点加人工确认

哪怕你的 Agent 99% 准确，1% 的错误也可能造成灾难（比如订错机票、付错钱）。所有金钱、合同、不可逆操作的节点，必须有人工确认。

一个长期判断

我对 AI Agent 行业的长期判断：

未来 5 年，Agent 行业会分化成两大阵营：

阵营 A：通用 Agent（消费者市场）

代表：ChatGPT Tasks、Claude Computer Use、Apple Intelligence
特征：自由灵活，体验优先
市场：个人用户的小事自动化（日程、邮件、信息检索）
商业模式：订阅付费

阵营 B：协议 Agent（企业市场）

代表：暂时还没有头部品牌（机会窗口）
特征：稳定可靠，可审计
市场：企业级业务流程自动化
商业模式：B2B 软件 + 定制化

B 阵营的市场规模会远大于 A。原因很简单：企业愿意为"稳定性"付高价。一个能稳定处理财务流程的 Agent，每年值几百万美元的订阅费。

而通用 Agent 因为"想干太多"反而很难找到稳定付费的场景。

一个有点反直觉的结论

LLM 越强，协议化 Agent 反而越重要。

听起来矛盾？我解释下：

LLM 弱的时候，我们对 Agent 的期望就低，多步骤失败也能接受——反正"AI 还在学习嘛"。

LLM 强的时候，期望就高，“任何看起来简单的任务"都被认为应该 100% 完成。这时候 5% 的失败率都不可接受。

要达到 99%+ 的稳定性，必须要有"机械执行"的协议层。LLM 再强，本质上还是概率模型，无法保证 100% 的精确性。

所以我的预测是：GPT-6、Claude 6、Gemini 3 这些下一代模型发布后，Agent 行业的协议化趋势只会加速，不会减弱。

我们正在见证 AI 从"好玩"走向"好用"的关键转折。

而协议化，是这个转折的核心机制。

提到的"Portable AI Agent Orchestration with Mechanical Protocol Enforcement"项目在 GitHub 开源。如果你想深入了解 Agent 协议化的设计哲学，推荐先阅读 LangGraph 的官方文档和 Anthropic 的 MCP 规范。