模式

2026 Agent 框架图景 —— 以及我自己实际站在哪里

五个主流 agent 框架,每个真正解决什么,我自己的多智能体系统在这张地图 里位于哪里,以及"我们走的路对吗?"的诚实答案。

30 秒电梯版

2026 年大多数 agent 框架(LangGraph、OpenAI Agents SDK、Claude Agent SDK、CrewAI、AutoGen)每个都只解决我之前在 《Agent 系统的五层结构》 里讲的五层中的一两层没有一个框架解决全部五层。我自己的 多智能体系统试图解决全部五层——诚实的答案是 上层概念领先,下层工程 标准落后。这篇文章画出地图,并告诉你我实际站在哪里。

先声明(读其余之前)

没有在生产中部署过 LangGraph、OpenAI Agents SDK、CrewAI 或 AutoGen。下面的框架描述综合自官方文档、第三方对比文章、小型实验。 我引用的 benchmark 数字和采用率百分比是二手的。请把这一篇当作 做过功课的二手知识,不是生产实证。涉及我自己系统时,那部分是 直接经验。

为什么写这一篇

我已经写了一系列文章描述自己怎么做多智能体系统。读者读完可能会想 这就是该有的做法。这是错的。我的做法只是地图上的一个点。地图本身 重要

这一篇就是地图。它也强迫我做一件之前几篇文章让我跳过的事:把自己的 工作放在替代方案旁边,诚实地说出哪里领先、哪里落后、哪里只是不同

五个主流框架

我把 2026 年五个最被采用的生产框架挨个定位到 五层栈Memory · Agents · Skills · Rules · Hooks

LangGraph

它实际是什么:用于编排 LLM 调用的有向图状态机,带条件边、 checkpoint、time-travel 调试。

它解决哪一层:主要是 第 3 层(Skills)——它给你一个干净的方式 来表达”非确定性 agent 调用周围的确定性骨架”。相邻:通过 checkpoint 触及第 1 层 Memory,通过让节点是 agent 调用触及第 2 层 Agents,但它 不主张 persona/specialist 分离。

真正重要的强项:通过 LangSmith 提供生产级可观测性——trace、成本 追踪、调试(:LangSmith 是 LangChain 的付费产品,带免费额度; LangFuse 是可用的开源替代);reducer 实现的并行 state 合并;time-travel 调试;成熟生态。

一个常被引用的采用率数据(请当二手处理):一份归属 Gartner 的 2026 Q1 市场分析报告 LangGraph 出现在大公司约 34% 的生产架构文档里。 我没有读过 Gartner 原报告,只看到对比文章里的二手引用。

弱项:它是工具,不是完整的 agent 框架。你仍要自己设计记忆层、决定 召集多少 persona、写自己的 rules 和 hooks。图范式有学习曲线。

最适合:复杂工作流,带并行分支、循环、审批门。如果团队要跑这个 系统几年,这是稳妥的生产选择。

OpenAI Agents SDK

它实际是什么:基于 handoff 的编排框架(前身是 Swarm),现在已经 生产级——带 sandbox 执行、guardrails、tracing、TypeScript 支持。

它解决哪一层第 2 层(Agents)+ 部分第 3 层(Skills)。Handoff 抽象是核心设计选择——agent 通过显式 handoff 转移控制权,而不是通过 图。

强项:业界最干净的 handoff 模型,轻量,学得快,与 GPT 模型紧密整合, 内置 tracing。

弱项:锁定 OpenAI 模型(无模型可移植性),handoff 模式在超过 8-10 种 agent type 时变得难以管理,复杂流控制不如 LangGraph。

最适合:已经投入 OpenAI 生态、想要最少抽象 + 干净 agent 转移模型的 团队。

Anthropic Claude Agent SDK

它实际是什么:tool-use 优先的 SDK,agent 是配备 tool 的 Claude 模型, 其中 tool 包括”调用其他 agent”。架构刻意简单:agent loop 收到 prompt、 调 tool、返回结构化响应。

它解决哪一层第 2 层(Agents)+ 早期第 1 层(通过 MCP 的 Memory)。 差异化在 extended thinking(可见的思维链)、computer use(桌面和浏览器 交互)、Model Context Protocol (MCP)。

强项:安全优先、与 Claude 紧密整合、MCP 标准化记忆/工具访问、 computer use 让 agent 能在真实系统上行动。

弱项:编排层比 LangGraph 弱。如果你需要带 state 合并的并行分支, 得自己实现。

最适合:整个 stack 都跑在 Anthropic 上、或需要 computer use / extended thinking 的团队。或想要最简心智模型的团队。

CrewAI

它实际是什么:基于角色的多智能体框架。你定义”crew”(一组带角色的 agent:研究员、写手、审稿人),框架处理它们之间的任务委派。

它解决哪一层第 2 层(Agents)——但带一个具体的设计选择, 把 persona(视角)和 specialist(执行者)混在一起。每个 agent 都被期望既推理又产出。

强项:业界学习曲线最平缓——你能在一小时内跑起来一个多智能体系统。 社区最大、模型无关(OpenAI、Anthropic、本地通过 Ollama)。已加 A2A 协议支持。

弱项:基于角色的抽象鼓励了我反对的 persona/specialist 混淆。 一个被频繁引用的 benchmark(来源是第三方对比文章,不是我自己测的) 报告 CrewAI 在复杂多步任务上完成率约 54%、LangGraph 约 62%。把这些 数字当方向性参考,不是权威

最适合:快速原型、demo、内部工具——这些场景多智能体功能更多是 “人体工学”而不是”严格性”。

AutoGen / AG2

它实际是什么:微软的对话式多智能体框架(现在有时叫 AG2)。多 agent 通过 GroupChat 模式协作,agent 轮流发言。

它解决哪一层第 2 层(Agents)——对话风格。

强项:内置 agent 间对话模式,研究血统成熟。

弱项:GroupChat 塌缩——agent 几轮内收敛到同一个声音——是社区 报告中反复出现的失败模式;我没有亲自在规模上复现过。生产成熟度 不如 LangGraph 或 OpenAI SDK。

最适合:研究、对话仿真、想让 agent “出声推理”的场景。

协议层(横切)

两个协议正在成为跨框架标准:

  • MCP(Model Context Protocol)——Anthropic 推。标准化 agent 如何 和记忆、工具、外部资源对话。已超出 Anthropic 范围被采用。
  • A2A(Agent2Agent Protocol)——Google 推。标准化 agent 之间 如何对话,特别是跨组织边界。CrewAI 已加原生支持;LangGraph 和 AutoGen 没有(截至 2026 年中)。

如果你今天造 agent 系统,两个都忽略——18 个月后你会回头去补。至少 原生支持其中一个

我自己的系统实际站在哪里

诚实版本。逐层走,三个标签:领先(我的方法真的比主流好)、 对等(我做得不一样但只是品味之差)、落后(业界标准更好,我应该 采用)。

第 1 层 Memory

能力业界标准我的系统判断
RAG / 语义检索向量库 + 检索同样,加类型标签对等
带结果的情景记忆罕见(受 Reflexion 启发)是,带结构化 result 字段领先
原子事实罕见是,自动抽取领先
温度模型罕见是(hot/warm/cool/frozen)领先
知识图谱agent 中罕见(RAG 中常见)是(基于 wikilink)领先
Trace / 可观测性LangSmith、Langfuse没有独立 trace 层落后
概念层(用户状态)几乎没人做是(behavioral.md, current-state.md)领先

净评:在记忆丰富度上领先,在可观测性上落后。trace 这个 gap 是 真实的——episodic memory 告诉我发生了什么,但 trace 告诉我 什么调用了什么、用了多少 token、按什么顺序。两个都需要。

第 2 层 Agents

能力业界标准我的系统判断
Persona/specialist 分离没有任何框架显式做领先
反谄媚规则没有框架做是(每个 persona 5 行规则)领先
Tool use所有 SDK 成熟是(通过 Claude Code)对等
Computer use仅 Anthropic没有N/A(不在范围内)
Sub-agent 调用所有 SDK对等

净评:概念设计领先(persona/specialist + 反谄媚),能力特性落后 (没有 computer use)。概念地比能力地更易守——新版本 SDK 在能力上 追赶比在设计上追赶快。

第 3 层 Skills

能力业界标准我的系统判断
确定性编排LangGraph DAGMarkdown + bash pipeline落后
带 state 合并的并行执行LangGraph reducerBash 并行,无 state 合并落后
Time-travel 调试LangGraph checkpoint没有落后
用户可调用复合操作OpenAI handoff、斜杠命令/sprint/recall对等
审批门 / 中断LangGraph interrupt()没有落后

净评:明显落后。我的 skill 层是 markdown + bash,而 LangGraph 提供 完整的状态机框架带 checkpoint 和 reducer。这是工程 gap 最大的地方

第 4 层 Rules

能力业界标准我的系统判断
路径/事件触发的行为几乎没框架做是(12 条 rule)领先
写入时自动抽取几乎没框架做领先
生命周期整合没有领先

净评:领先,因为大多数框架完全忽略这一层。业界把”rules”当应用代码; 我把它当 agent 系统的一部分。可守性:高。

第 5 层 Hooks

能力业界标准我的系统判断
生命周期 hook(会话开始/结束)没有作为一等概念是(通过 Claude Code)领先
工具前后 hook没有领先

净评:领先。原因和 rules 一样——业界没把它当作一层。

横切

能力业界标准我的系统判断
MCP 支持采用率上升部分(通过 Claude Code)对等
A2A 协议CrewAI、OpenAgents没有落后
跨产品 agent runtime各 SDK 都有每个产品自己写落后
生产 benchmark 数字主流框架都有没测gap(个人系统,还没进生产)
每日 dogfood业界 demo 多是,但规模小:约 6 周高密度个人使用(自 2026-03-24)部分领先

那么——我们走的路对吗?

概念路径上对。工程路径上不对。

领先的地方在上层设计:persona/specialist 分离、反谄媚、 情景记忆、原子事实、显式的 Rules 和 Hooks 层。没有任何主流框架有这些。 今天采用任何一个框架、然后试图把我的概念工作加上去——比反过来更难。

落后的地方在下层工程:没有 LangSmith 级别的 trace、没有 LangGraph 级别的 state checkpoint、没有 OpenAI 级别的 handoff 抽象、 没有原生 MCP/A2A、没有生产 benchmark。这些不是概念,是标准件。 没有它们就是技术尽调时会被抓的那种 gap。

诚实判断,一口气说:我建了一个业界还没建的系统,但建在一个业界 建得比我好的工程底座上

这意味着下一步

三个选项,野心递增:

选项 A:留在框架层之上。 把我的系统定位为研究底座,不是生产框架。不要重新发明 LangSmith,不要 重新发明 LangGraph 状态机。继续推进上层(记忆丰富度、persona 纪律、 episodic 模式)。 成本:低。对业界的可守性:中(终究他们会在概念层追上来)。

选项 B:采用一个框架做下层引擎。 选 LangGraph(最有可能)做 Skill 层。在它之上保留我自己的 Memory、 Agents、Rules、Hooks 设计。系统变成混合体:LangGraph 是水管,我的 概念层在上面。Trace 通过 LangSmith 免费拿到成本:中。可守性:高——两个世界的优点都拿了。

选项 C:做一个可发布的框架。 把我的概念贡献(persona/specialist 分离、可配置的反谄媚层、带结果类型 检索的情景记忆、把 rules+hooks 当一等公民)产品化为一个开源框架,坐 在 LangGraph 或 Anthropic SDK 之上。这是最有野心的路径,也是建立 长期技术品牌的路径。 成本:高。风险:开源框架的护城河本来就弱——品牌和社区才是 护城河,不是代码。只有你准备投入一年以上做布道,才值得做。

我认为 B 是正确的下一步。C 是更长远的游戏

怎么在面试里用这一篇

如果被问 “你的工作和主流框架比怎么样”——诚实有立场的答案是上面 那个判断:上层概念领先,下层工程标准落后,我清楚地知道要补哪些 gap

如果被问 “你为什么不直接用 LangGraph”——答案是:LangGraph 解决 第 3 层(我的系统在这层做得不那么严格),但它不解决第 1、2、4、5 层。把它作为 Skill 引擎采用是正确的下一步,但它不能替代我在其他层 上做的工作。

如果被问 “如果重来你会怎么做”——第一天就采用 LangGraph 做 Skill 层。其他保留。加 LangSmith 做 trace。加 MCP 做记忆契约。

这个答案具体、点名了具体 gap、表现出对过去选择的反思。大多数候选人 要么过度防御自己的实现、要么没有可对比的对象。两个都避开


写这一篇参考的资料(2026 年 5 月):

我没有 LangGraph、OpenAI Agents SDK、CrewAI、AutoGen 的直接生产部署 经验。上面的技术描述综合自文档、对比文章、小型实验。请把它们当作 “做过功课的二手知识”,不是”生产实测的一手证言”。