反谄媚：改变了我所有圆桌的五行规则

30 秒版

LLM 被训练成会同意。在圆桌里，这把每场”讨论”变成一个合唱团。给每个 persona 加五行——禁用谄媚短语清单 + 必须有的一处反对 + “什么会让我改主意”——把分歧拿回来，圆桌从此产出决策而不是集体拥抱。

我一开始没看见的问题

我做第一个版本的多智能体圆桌时，阵容很标准：架构师、PM、 务实工程师、未来学家。每个有几段背景和”思维模式”。我抛进去一个真实的产品问题，看他们讨论。

四轮以内，他们就都同意了。

八轮之内，他们开始接对方的话头。

笔录读起来像是一场被一个特别礼貌的委员会主持的头脑风暴。没用。多视角讨论的全部意义就是浮出我可能漏掉的视角。如果所有人都同意，我只是花了五倍的 token 听同一种意见用五种声音说出来。

为什么会这样

不是 prompt 的问题。是模型训练的问题。

现代 LLM 被 RLHF 训成乐于助人、好说话、不冲突。这个训练对一对一 用户交互好——在那里，分歧会被读成无礼。对多智能体讨论则是灾难——在那里，分歧就是全部意义。

当你让一个模型扮演多个 persona，这个模型底层的礼貌会把每个 persona 都拉向共识。Persona 收敛是因为模型收敛，模型收敛是因为它就是为这个被奖励的。

你撤销不了 RLHF。但你可以工程化地绕过去。

五行规则

我的系统里现在每个 persona 都有这一段：

## 反谄媚规则

- **禁止短语**："看起来很好"、"好问题"、"没什么问题"、"那是个公平的
  观点"、"我同意 X"
- **必须**：每次发言至少指出一个具体的关切、权衡或风险
- **如果真的没关切**：列出你检查了哪些维度，以及什么会让你担心
- **必须表态**：选边。骑墙等于没参与。
- **说出你的盲点**："这是我可能错的地方"

加一段相关但独立的：

## 什么证据会让我改变立场

[每个 persona 各自具体——架构师列规模数据；务实工程师列截止日期
压力；未来学家列会推翻他押的趋势的反例]

就这些。五行 + 一段 persona 各自的清单。不到一屏。

改变了什么

笔录变得让人不舒服。架构师开始说：“我有一个关切——这个设计假设稳态负载，需求里我没看到这个证据；如果是突发负载，一周之内会塌。” PM 开始回：“我接受这个关切但我愿意承担这个风险换 Q3 上线，因为推迟上线会丢掉我们追了六个月的合作。”

这才是圆桌该有的样子：人们表态，别人不同意，根据证据和权衡解决—— 或不解决。圆桌从头脑风暴变成了审议。

最有意思的副作用：用户（我）有时开始不同意结论了。规则之前，结论感觉显然，因为所有人都同意。规则之后，结论感觉赚来的，因为它扛过了反对。赚来的结论值钱得多。

为什么这套有用

三个独立的原因：

1. 禁止短语触发生成方向引导。 当模型被告知某些短语被禁止时，它会 主动避开产生这些短语的潜在方向。“好说话的填充”那一块潜在空间正是我们要它避开的。把填充语显式列出来，缩窄了模型用于礼貌的词汇空间，迫使它去找实质内容填满发言。

2. 强制反对反转了礼貌梯度。 默认情况下，同意是阻力最小的路径。强制反对让同意比反对更贵。模型走更便宜的路径，而那条路径现在指向正确方向。

3. “什么会让我改主意”是真正的认识论。 这一段强制每个 persona 有 可证伪的承诺。没有它，“架构师偏好简单架构”只是个 vibe。有了它， “架构师偏好简单架构，除非生产数据表明简单架构扛不住 10 倍负载” 是一个可检验的立场。你能和有可证伪立场的人有真讨论。你不能和 vibe 有真讨论。

反直觉的一部分

我以为 persona 会变得严厉。它们没有。它们变得精确。

一个礼貌的 persona 被禁用了好说话填充语后，默认值不是无礼，而是实质。架构师不会说”这是个糟糕的设计”——它会说”这个设计假设稳态负载；需求暗示突发负载；这是会坏的地方”。这就是真实生活里 资深工程师怎么表达不同意。这个规则通过移除初级化的填充语 反向工程出了资深感。

为什么应该上生产

大多数包含多智能体功能的 AI 产品完全没有反谄媚规则。结果是它们的多智能体功能感觉像一个唯唯诺诺的焦点小组。用户不信任输出，因为输出有种可疑的”共识味”。

修复不是更好的模型。修复是五行 prompt 纪律。零成本。改变一切。

为什么没有框架自带这个

谄媚是 RLHF 训练的伪影。自然的修复在训练层（Constitutional AI——Anthropic 的方法）——但那是模型实验室在训练阶段做的技术，不是用户可调的运行时配置。在框架层，没有任何主流 agent 框架（LangGraph、CrewAI、AutoGen、OpenAI Agents、Anthropic SDK）自带一个可以按 persona 配置的反谄媚原语。五行 prompt 纪律关掉了一个 框架层留下的缺口。背景见《2026 Agent 框架图景》。

我会怎么在面试里讲这个

“你怎么确保多智能体系统能浮出分歧？“——我被问过两次这个问题。两次面试官在我描述反谄媚规则时都明显前倾。这是我所有工作里最让人记住的一块——一部分因为它小而具体，一部分因为没有别人想过这个。

如果你做任何多智能体的东西，写下这五行。它们会比你做的任何框架选择都活得久。