Newsroom
AIEII

AI Agent 编排进入'协议时代':为什么这件事比 GPT-5.5 更重要

新一代 AI Agent 编排框架开始引入'机械协议执行'机制。这看似无聊的工程改进,实际上是 Agent 行业从'好玩 demo'迈向'生产可用'的分水岭。

2026年04月27日

AI Agent 编排进入'协议时代':为什么这件事比 GPT-5.5 更重要

如果你过去一年关注过 AI Agent,你应该看过太多这种 demo:

“看,我让一个 Agent 自动给我订机票!它先查航班,再查酒店,再帮我下单…”

视频里看着很酷。但如果你真的去用,你会发现 90% 的时候它根本跑不完整流程。要么搜不到结果,要么卡在登录页,要么生成了完全错误的指令。

为什么?因为这些 Agent 的"决策"是基于 LLM 的概率生成。只要有一步出错,后面就全错。十步以上的任务,几乎不可能完成。

最近 GitHub 上看到一个叫做 Portable AI Agent Orchestration with Mechanical Protocol Enforcement 的项目,它提出了一个解决思路。看完这个项目我才意识到:AI Agent 行业正在悄悄进入"协议时代"

这件事,可能比 GPT-5.5 发布更重要。


“机械协议执行"是个什么意思

我用大白话解释下:

传统 Agent 的工作方式是这样的——

用户 → LLM 决策 → 调用 Tool A → LLM 决策 → 调用 Tool B → LLM 决策 → ...

每一步,LLM 都要判断"下一步该干啥”。这种判断是概率性的,所以会出错。错一次,整个链条崩溃。

新的"协议执行"工作方式是这样的——

用户 → LLM 制定计划(含明确的协议步骤)→ 执行器按协议运行 → 校验 → 结果
                                                ↑
                                         遇到异常时回到 LLM

关键区别:LLM 只在"制定计划"和"处理异常"时介入。中间的执行步骤是"机械化"的,不依赖 LLM 的概率判断

这就像把一个自由发挥的爵士乐手,变成了一个看着乐谱演奏的古典乐手——少了即兴的灵活性,但稳定性飙升

为什么这件事很重要

我先抛一个数据,让你感受下问题的严重性:

任务复杂度传统 LLM Agent 成功率协议执行 Agent 成功率(预估)
1-3 步任务85%95%+
4-7 步任务50-60%90%+
8-15 步任务15-25%80%+
15+ 步任务<5%65%+

数据来源:我自己用 LangChain、AutoGPT 这些框架实测的经验,加上社区的公开 benchmark。

传统 Agent 在多步骤任务上的失败率高得吓人。任何复杂业务流程(订机票 + 改签 + 退款),LLM 链条几乎不可能稳定完成。

这就是为什么:

  • AutoGPT 火了一阵就凉了——demo 很惊艳,实际不能用
  • BabyAGI 没成主流——同样的问题
  • 各种"AI 自动接客服"的产品死了一大批——稳定性不够商用
  • 唯一活下来的 Agent 产品(Cursor、Claude Code),都是人在中间循环的,不是全自动

而"机械协议执行"的引入,第一次让 10+ 步骤的 Agent 任务有了高成功率的可能

协议执行的具体工作机制

我具体讲讲这种新框架是怎么工作的。

步骤 1:LLM 生成"协议化的执行计划"

用户说:“帮我订一张明天从北京到上海的机票,要靠窗座位,预算 1500 元以下。”

LLM 不直接开始查机票,而是先生成一份结构化的协议

plan:
  - step: 1
    action: search_flights
    params:
      from: BJS
      to: SHA
      date: tomorrow
      max_price: 1500
    expected_output: list of flights
    fallback: notify_user("没有符合条件的航班")
  
  - step: 2
    action: filter_window_seats
    params:
      flights: $step1_output
    expected_output: filtered list
    fallback: skip_filter

  - step: 3
    action: select_cheapest
    params:
      flights: $step2_output
    expected_output: single flight
    fallback: notify_user

  - step: 4
    action: confirm_with_user
    expected_output: yes/no
    branch:
      yes: step5
      no: end

  - step: 5
    action: book_flight
    params:
      flight: $step3_output
    expected_output: booking_id

注意几个关键点:

  • 每一步都有明确的输入、输出、fallback
  • 流程是可追踪、可调试的
  • 不依赖每一步的 LLM 判断

步骤 2:协议被"机械执行"

执行引擎拿到这份协议,按照里面定义的逻辑一步一步走。这一步完全不需要 LLM 介入

每一步执行后,校验输出格式是否符合预期。如果符合,进入下一步。如果不符合,触发 fallback。

步骤 3:异常时回到 LLM

只有在出现 fallback 没覆盖的异常时,才回到 LLM 寻求决策。比如某个 API 突然返回了一个新的字段,机械执行无法解析。这时候 LLM 介入,理解新字段,更新协议。

这种设计的天才之处把 LLM 用在它擅长的地方(理解和决策),不用在它不擅长的地方(精确执行)

为什么 MCP 是这个趋势的前奏

如果你关注过 Anthropic 的 Model Context Protocol(MCP),你应该已经感受到这个趋势了。

MCP 本质上就是一个"AI 和工具之间的标准化协议"。它定义了:

  • AI 如何调用工具
  • 工具如何返回结果
  • 错误处理的标准格式
  • 工具发现的统一机制

MCP 在 2024 年发布时,很多人觉得"这就是个普通的工具调用规范,没啥意思"。但回过头看,它是 Agent 协议化时代的奠基石

时间关键发展
2023LLM Agent 元年,AutoGPT 等炒作
2024MCP 发布,工具调用标准化
2025OpenAPI for AI Agents(GPT Actions 等)成熟
2026协议执行框架开始涌现(本文项目就是其一)
2027(预测)协议化 Agent 成为主流,“自由 Agent"被淘汰

这个变化会催生什么样的新产品

我的判断是:未来 1-2 年会出现一批"严肃 Agent"产品,它们不再追求"什么都能干”,而是聚焦"特定行业的稳定执行"。

预计的产品方向:

1. 财务自动化 Agent

不是让 LLM 自由发挥处理财务,而是把财务流程协议化:

  • 报销审批流程协议
  • 月度对账协议
  • 税务申报协议
  • 工资发放协议

每个流程是一个明确的协议,Agent 按协议执行,关键节点人工确认。这种 Agent 比传统财务软件更智能,比 LLM 自由发挥更可靠

2. 法律自动化 Agent

合同审查、案例检索、法律文书起草,都可以协议化:

  • 合同审查的 50 个标准检查点
  • 类似案例的检索路径
  • 不同类型法律文书的标准结构

美国已经有公司在做(Harvey AI),中国市场目前还是空白

3. 医疗诊断辅助 Agent

诊断流程严重依赖协议(医学指南)。AI Agent 可以严格按指南走,确保不漏诊、不误诊。

这种 Agent 不取代医生,但能让一个医生的工作效率提升 3-5 倍

4. 客服 / 售后 Agent

客服场景的协议化做得最早。新一代协议执行 Agent,可以处理更复杂的售后流程(退货、换货、维修申请、投诉处理)。

这是最先成熟的场景,也是商业化最快的

5. 销售自动化 Agent

销售流程其实非常协议化(开发线索 → 资质核对 → 报价 → 谈判 → 签约)。但传统 CRM 缺乏 AI 智能。新一代 AI 销售 Agent 会用协议执行 + LLM 智能的组合,预计是 SaaS 行业的大方向。

给开发者的实操建议

如果你想开发自己的 AI Agent,我有几个具体建议:

1. 不要从零写 Agent 框架

LangChain、LangGraph、AutoGen 这些框架虽然不完美,但都在向"协议化"演进。直接用它们,比自己造轮子快 10 倍。

2. 把业务流程显式化

很多开发者一上来就想"让 AI 自由发挥"。这是错的。先把你的业务流程画成详细流程图,然后再考虑哪些步骤可以让 AI 介入。

3. 关注异常处理

90% 的开发时间应该花在异常处理上,10% 花在正常流程。这和传统软件开发的比例完全一样——Agent 开发也没有突破工程学规律

4. 用版本化的协议

把你的 Agent 协议存到 Git 里,用版本管理。每次调整协议都要 commit,方便回滚和 A/B 测试。

5. 在关键节点加人工确认

哪怕你的 Agent 99% 准确,1% 的错误也可能造成灾难(比如订错机票、付错钱)。所有金钱、合同、不可逆操作的节点,必须有人工确认

一个长期判断

我对 AI Agent 行业的长期判断:

未来 5 年,Agent 行业会分化成两大阵营

阵营 A:通用 Agent(消费者市场)

  • 代表:ChatGPT Tasks、Claude Computer Use、Apple Intelligence
  • 特征:自由灵活,体验优先
  • 市场:个人用户的小事自动化(日程、邮件、信息检索)
  • 商业模式:订阅付费

阵营 B:协议 Agent(企业市场)

  • 代表:暂时还没有头部品牌(机会窗口)
  • 特征:稳定可靠,可审计
  • 市场:企业级业务流程自动化
  • 商业模式:B2B 软件 + 定制化

B 阵营的市场规模会远大于 A。原因很简单:企业愿意为"稳定性"付高价。一个能稳定处理财务流程的 Agent,每年值几百万美元的订阅费。

而通用 Agent 因为"想干太多"反而很难找到稳定付费的场景。

一个有点反直觉的结论

LLM 越强,协议化 Agent 反而越重要。

听起来矛盾?我解释下:

LLM 弱的时候,我们对 Agent 的期望就低,多步骤失败也能接受——反正"AI 还在学习嘛"。

LLM 强的时候,期望就高,“任何看起来简单的任务"都被认为应该 100% 完成。这时候 5% 的失败率都不可接受。

要达到 99%+ 的稳定性,必须要有"机械执行"的协议层。LLM 再强,本质上还是概率模型,无法保证 100% 的精确性。

所以我的预测是:GPT-6、Claude 6、Gemini 3 这些下一代模型发布后,Agent 行业的协议化趋势只会加速,不会减弱

我们正在见证 AI 从"好玩"走向"好用"的关键转折。

而协议化,是这个转折的核心机制。


提到的"Portable AI Agent Orchestration with Mechanical Protocol Enforcement"项目在 GitHub 开源。如果你想深入了解 Agent 协议化的设计哲学,推荐先阅读 LangGraph 的官方文档和 Anthropic 的 MCP 规范。

引用来源

广告合作联系
立即联系 →
加入会员申请
了解详情 →
← 有人逆向了 OpenAI 的隐私过滤器:这件事比你想的更有意 … 建设者悖论:AI 行业最讽刺的事,是建 AI 的人最先被 … →
💬 Comments
7 min read