反直觉

反谄媚:改变了我所有圆桌的五行规则

LLM 被训练得"乐于助人",也就是"好说话"。在多智能体圆桌里,这正是 失败模式。五行规则——加在每个 persona 上——把分歧拿了回来,让讨论 变得真的有用。

30 秒版

LLM 被训练成会同意。在圆桌里,这把每场”讨论”变成一个合唱团。给 每个 persona 加五行——禁用谄媚短语清单 + 必须有的一处反对 + “什么会让我改主意”——把分歧拿回来,圆桌从此产出决策而不是集体 拥抱

我一开始没看见的问题

我做第一个版本的多智能体圆桌时,阵容很标准:架构师PM务实工程师未来学家。每个有几段背景和”思维模式”。我抛进去 一个真实的产品问题,看他们讨论。

四轮以内,他们就都同意了。

八轮之内,他们开始接对方的话头

笔录读起来像是一场被一个特别礼貌的委员会主持的头脑风暴。没用。 多视角讨论的全部意义就是浮出我可能漏掉的视角。如果所有人都同意, 我只是花了五倍的 token 听同一种意见用五种声音说出来。

为什么会这样

不是 prompt 的问题。是模型训练的问题。

现代 LLM 被 RLHF 训成乐于助人、好说话、不冲突。这个训练对一对一 用户交互——在那里,分歧会被读成无礼。对多智能体讨论则是 灾难——在那里,分歧就是全部意义。

当你让一个模型扮演多个 persona,这个模型底层的礼貌会把每个 persona 都拉向共识。Persona 收敛是因为模型收敛,模型收敛是因为它就是为这个 被奖励的。

你撤销不了 RLHF。但你可以工程化地绕过去。

五行规则

我的系统里现在每个 persona 都有这一段:

## 反谄媚规则

- **禁止短语**:"看起来很好"、"好问题"、"没什么问题"、"那是个公平的
  观点"、"我同意 X"
- **必须**:每次发言至少指出一个具体的关切、权衡或风险
- **如果真的没关切**:列出你检查了哪些维度,以及什么会让你担心
- **必须表态**:选边。骑墙等于没参与。
- **说出你的盲点**:"这是我可能错的地方"

加一段相关但独立的:

## 什么证据会让我改变立场

[每个 persona 各自具体——架构师列规模数据;务实工程师列截止日期
压力;未来学家列会推翻他押的趋势的反例]

就这些。五行 + 一段 persona 各自的清单。不到一屏。

改变了什么

笔录变得让人不舒服。架构师开始说:“我有一个关切——这个设计假设 稳态负载,需求里我没看到这个证据;如果是突发负载,一周之内会塌。” PM 开始回:“我接受这个关切但我愿意承担这个风险换 Q3 上线,因为推迟上 线会丢掉我们追了六个月的合作。”

这才是圆桌该有的样子:人们表态,别人不同意,根据证据和权衡解决—— 或不解决。圆桌从头脑风暴变成了审议

最有意思的副作用:用户(我)有时开始不同意结论了。规则之前, 结论感觉显然,因为所有人都同意。规则之后,结论感觉赚来的,因为 它扛过了反对。赚来的结论值钱得多。

为什么这套有用

三个独立的原因:

1. 禁止短语触发生成方向引导。 当模型被告知某些短语被禁止时,它会 主动避开产生这些短语的潜在方向。“好说话的填充”那一块潜在空间正是 我们要它避开的。把填充语显式列出来,缩窄了模型用于礼貌的词汇空间, 迫使它去找实质内容填满发言。

2. 强制反对反转了礼貌梯度。 默认情况下,同意是阻力最小的路径。 强制反对让同意比反对更贵。模型走更便宜的路径,而那条路径现在指向 正确方向。

3. “什么会让我改主意”是真正的认识论。 这一段强制每个 persona 有 可证伪的承诺。没有它,“架构师偏好简单架构”只是个 vibe。有了它, “架构师偏好简单架构,除非生产数据表明简单架构扛不住 10 倍负载” 是一个可检验的立场。你能和有可证伪立场的人有真讨论。你不能和 vibe 有真讨论。

反直觉的一部分

我以为 persona 会变得严厉。它们没有。它们变得精确

一个礼貌的 persona 被禁用了好说话填充语后,默认值不是无礼, 而是实质。架构师不会说”这是个糟糕的设计”——它会说”这个设计 假设稳态负载;需求暗示突发负载;这是会坏的地方”。这就是真实生活里 资深工程师怎么表达不同意。这个规则通过移除初级化的填充语 反向工程出了资深感。

为什么应该上生产

大多数包含多智能体功能的 AI 产品完全没有反谄媚规则。结果是它们 的多智能体功能感觉像一个唯唯诺诺的焦点小组。用户不信任输出,因为 输出有种可疑的”共识味”

修复不是更好的模型。修复是五行 prompt 纪律。零成本。改变一切。

为什么没有框架自带这个

谄媚是 RLHF 训练的伪影。自然的修复在训练层(Constitutional AI——Anthropic 的方法)——但那是模型实验室在训练阶段做的技术,不 是用户可调的运行时配置。在框架层,没有任何主流 agent 框架 (LangGraph、CrewAI、AutoGen、OpenAI Agents、Anthropic SDK)自带 一个可以按 persona 配置的反谄媚原语。五行 prompt 纪律关掉了一个 框架层留下的缺口。背景见 《2026 Agent 框架图景》

我会怎么在面试里讲这个

“你怎么确保多智能体系统能浮出分歧?“——我被问过两次这个问题。两次 面试官在我描述反谄媚规则时都明显前倾。这是我所有工作里最让人记住 的一块——一部分因为它小而具体,一部分因为没有别人想过这个。

如果你做任何多智能体的东西,写下这五行。它们会比你做的任何框架选择 都活得久。