如果你过去一年关注过 AI Agent,你应该看过太多这种 demo:
“看,我让一个 Agent 自动给我订机票!它先查航班,再查酒店,再帮我下单…”
视频里看着很酷。但如果你真的去用,你会发现 90% 的时候它根本跑不完整流程。要么搜不到结果,要么卡在登录页,要么生成了完全错误的指令。
为什么?因为这些 Agent 的"决策"是基于 LLM 的概率生成。只要有一步出错,后面就全错。十步以上的任务,几乎不可能完成。
最近 GitHub 上看到一个叫做 Portable AI Agent Orchestration with Mechanical Protocol Enforcement 的项目,它提出了一个解决思路。看完这个项目我才意识到:AI Agent 行业正在悄悄进入"协议时代"。
这件事,可能比 GPT-5.5 发布更重要。
“机械协议执行"是个什么意思
我用大白话解释下:
传统 Agent 的工作方式是这样的——
用户 → LLM 决策 → 调用 Tool A → LLM 决策 → 调用 Tool B → LLM 决策 → ...
每一步,LLM 都要判断"下一步该干啥”。这种判断是概率性的,所以会出错。错一次,整个链条崩溃。
新的"协议执行"工作方式是这样的——
用户 → LLM 制定计划(含明确的协议步骤)→ 执行器按协议运行 → 校验 → 结果
↑
遇到异常时回到 LLM
关键区别:LLM 只在"制定计划"和"处理异常"时介入。中间的执行步骤是"机械化"的,不依赖 LLM 的概率判断。
这就像把一个自由发挥的爵士乐手,变成了一个看着乐谱演奏的古典乐手——少了即兴的灵活性,但稳定性飙升。
为什么这件事很重要
我先抛一个数据,让你感受下问题的严重性:
| 任务复杂度 | 传统 LLM Agent 成功率 | 协议执行 Agent 成功率(预估) |
|---|---|---|
| 1-3 步任务 | 85% | 95%+ |
| 4-7 步任务 | 50-60% | 90%+ |
| 8-15 步任务 | 15-25% | 80%+ |
| 15+ 步任务 | <5% | 65%+ |
数据来源:我自己用 LangChain、AutoGPT 这些框架实测的经验,加上社区的公开 benchmark。
传统 Agent 在多步骤任务上的失败率高得吓人。任何复杂业务流程(订机票 + 改签 + 退款),LLM 链条几乎不可能稳定完成。
这就是为什么:
- AutoGPT 火了一阵就凉了——demo 很惊艳,实际不能用
- BabyAGI 没成主流——同样的问题
- 各种"AI 自动接客服"的产品死了一大批——稳定性不够商用
- 唯一活下来的 Agent 产品(Cursor、Claude Code),都是人在中间循环的,不是全自动
而"机械协议执行"的引入,第一次让 10+ 步骤的 Agent 任务有了高成功率的可能。
协议执行的具体工作机制
我具体讲讲这种新框架是怎么工作的。
步骤 1:LLM 生成"协议化的执行计划"
用户说:“帮我订一张明天从北京到上海的机票,要靠窗座位,预算 1500 元以下。”
LLM 不直接开始查机票,而是先生成一份结构化的协议:
plan:
- step: 1
action: search_flights
params:
from: BJS
to: SHA
date: tomorrow
max_price: 1500
expected_output: list of flights
fallback: notify_user("没有符合条件的航班")
- step: 2
action: filter_window_seats
params:
flights: $step1_output
expected_output: filtered list
fallback: skip_filter
- step: 3
action: select_cheapest
params:
flights: $step2_output
expected_output: single flight
fallback: notify_user
- step: 4
action: confirm_with_user
expected_output: yes/no
branch:
yes: step5
no: end
- step: 5
action: book_flight
params:
flight: $step3_output
expected_output: booking_id
注意几个关键点:
- 每一步都有明确的输入、输出、fallback
- 流程是可追踪、可调试的
- 不依赖每一步的 LLM 判断
步骤 2:协议被"机械执行"
执行引擎拿到这份协议,按照里面定义的逻辑一步一步走。这一步完全不需要 LLM 介入。
每一步执行后,校验输出格式是否符合预期。如果符合,进入下一步。如果不符合,触发 fallback。
步骤 3:异常时回到 LLM
只有在出现 fallback 没覆盖的异常时,才回到 LLM 寻求决策。比如某个 API 突然返回了一个新的字段,机械执行无法解析。这时候 LLM 介入,理解新字段,更新协议。
这种设计的天才之处:把 LLM 用在它擅长的地方(理解和决策),不用在它不擅长的地方(精确执行)。
为什么 MCP 是这个趋势的前奏
如果你关注过 Anthropic 的 Model Context Protocol(MCP),你应该已经感受到这个趋势了。
MCP 本质上就是一个"AI 和工具之间的标准化协议"。它定义了:
- AI 如何调用工具
- 工具如何返回结果
- 错误处理的标准格式
- 工具发现的统一机制
MCP 在 2024 年发布时,很多人觉得"这就是个普通的工具调用规范,没啥意思"。但回过头看,它是 Agent 协议化时代的奠基石。
| 时间 | 关键发展 |
|---|---|
| 2023 | LLM Agent 元年,AutoGPT 等炒作 |
| 2024 | MCP 发布,工具调用标准化 |
| 2025 | OpenAPI for AI Agents(GPT Actions 等)成熟 |
| 2026 | 协议执行框架开始涌现(本文项目就是其一) |
| 2027(预测) | 协议化 Agent 成为主流,“自由 Agent"被淘汰 |
这个变化会催生什么样的新产品
我的判断是:未来 1-2 年会出现一批"严肃 Agent"产品,它们不再追求"什么都能干”,而是聚焦"特定行业的稳定执行"。
预计的产品方向:
1. 财务自动化 Agent
不是让 LLM 自由发挥处理财务,而是把财务流程协议化:
- 报销审批流程协议
- 月度对账协议
- 税务申报协议
- 工资发放协议
每个流程是一个明确的协议,Agent 按协议执行,关键节点人工确认。这种 Agent 比传统财务软件更智能,比 LLM 自由发挥更可靠。
2. 法律自动化 Agent
合同审查、案例检索、法律文书起草,都可以协议化:
- 合同审查的 50 个标准检查点
- 类似案例的检索路径
- 不同类型法律文书的标准结构
美国已经有公司在做(Harvey AI),中国市场目前还是空白。
3. 医疗诊断辅助 Agent
诊断流程严重依赖协议(医学指南)。AI Agent 可以严格按指南走,确保不漏诊、不误诊。
这种 Agent 不取代医生,但能让一个医生的工作效率提升 3-5 倍。
4. 客服 / 售后 Agent
客服场景的协议化做得最早。新一代协议执行 Agent,可以处理更复杂的售后流程(退货、换货、维修申请、投诉处理)。
这是最先成熟的场景,也是商业化最快的。
5. 销售自动化 Agent
销售流程其实非常协议化(开发线索 → 资质核对 → 报价 → 谈判 → 签约)。但传统 CRM 缺乏 AI 智能。新一代 AI 销售 Agent 会用协议执行 + LLM 智能的组合,预计是 SaaS 行业的大方向。
给开发者的实操建议
如果你想开发自己的 AI Agent,我有几个具体建议:
1. 不要从零写 Agent 框架
LangChain、LangGraph、AutoGen 这些框架虽然不完美,但都在向"协议化"演进。直接用它们,比自己造轮子快 10 倍。
2. 把业务流程显式化
很多开发者一上来就想"让 AI 自由发挥"。这是错的。先把你的业务流程画成详细流程图,然后再考虑哪些步骤可以让 AI 介入。
3. 关注异常处理
90% 的开发时间应该花在异常处理上,10% 花在正常流程。这和传统软件开发的比例完全一样——Agent 开发也没有突破工程学规律。
4. 用版本化的协议
把你的 Agent 协议存到 Git 里,用版本管理。每次调整协议都要 commit,方便回滚和 A/B 测试。
5. 在关键节点加人工确认
哪怕你的 Agent 99% 准确,1% 的错误也可能造成灾难(比如订错机票、付错钱)。所有金钱、合同、不可逆操作的节点,必须有人工确认。
一个长期判断
我对 AI Agent 行业的长期判断:
未来 5 年,Agent 行业会分化成两大阵营:
阵营 A:通用 Agent(消费者市场)
- 代表:ChatGPT Tasks、Claude Computer Use、Apple Intelligence
- 特征:自由灵活,体验优先
- 市场:个人用户的小事自动化(日程、邮件、信息检索)
- 商业模式:订阅付费
阵营 B:协议 Agent(企业市场)
- 代表:暂时还没有头部品牌(机会窗口)
- 特征:稳定可靠,可审计
- 市场:企业级业务流程自动化
- 商业模式:B2B 软件 + 定制化
B 阵营的市场规模会远大于 A。原因很简单:企业愿意为"稳定性"付高价。一个能稳定处理财务流程的 Agent,每年值几百万美元的订阅费。
而通用 Agent 因为"想干太多"反而很难找到稳定付费的场景。
一个有点反直觉的结论
LLM 越强,协议化 Agent 反而越重要。
听起来矛盾?我解释下:
LLM 弱的时候,我们对 Agent 的期望就低,多步骤失败也能接受——反正"AI 还在学习嘛"。
LLM 强的时候,期望就高,“任何看起来简单的任务"都被认为应该 100% 完成。这时候 5% 的失败率都不可接受。
要达到 99%+ 的稳定性,必须要有"机械执行"的协议层。LLM 再强,本质上还是概率模型,无法保证 100% 的精确性。
所以我的预测是:GPT-6、Claude 6、Gemini 3 这些下一代模型发布后,Agent 行业的协议化趋势只会加速,不会减弱。
我们正在见证 AI 从"好玩"走向"好用"的关键转折。
而协议化,是这个转折的核心机制。
提到的"Portable AI Agent Orchestration with Mechanical Protocol Enforcement"项目在 GitHub 开源。如果你想深入了解 Agent 协议化的设计哲学,推荐先阅读 LangGraph 的官方文档和 Anthropic 的 MCP 规范。