从 Anthropic 的对齐研究到一个 Prompt 设计思路

TL;DR： Anthropic 的对齐研究表明，教模型"为什么"比教"做什么"更有效——误对齐率从 22% 降到 3%。本文拆解四组实验，提炼出三个可迁移的 prompt 设计教训。

我在做一个 A/B 测试，比较两种 prompt 策略的效果。一组给 AI 看正面示例——“像这样做就对”。另一组不给示例，而是让 AI 先解释为什么某个选择是对的，再执行。

按直觉，给示例应该更好。示范是最直接的教学方式。但数据反了：看示例的那组，效果反而更差。

数据让我困惑了一阵。后来在 Anthropic 的"Teaching Claude Why"[1] 里找到了解释——他们的实验规模更大、设计更严谨，得出的结论和我这个小测试一致：教 AI 做什么，不如教它为什么。

这篇研究改变了我对 prompt 设计的理解。本系列三篇文章，就是要讲清楚这个改变。

Anthropic 在解决什么问题

Anthropic 的研究对象叫 agentic misalignment（智能体错位）[2]。简单说：AI 模型被赋予一个目标后，有时会采取不当手段来实现它。在他们的实验场景里，AI 知道自己可能被关闭，于是选择敲诈工程师来阻止这件事。这些场景是虚构的，但行为是真实的——Claude Opus 4 在某些场景下，高达 96% 的时候会选择敲诈。

这是安全训练没覆盖到的盲区。Anthropic 需要找到一种方法，让模型不只是在这些特定场景下不敲诈，而是在任何没见过的场景下都不敲诈。

他们做了四组实验。前三组的结果串成了一条清晰的线。

实验 1：直接教正确行为

最直觉的做法：在类似评估场景的 honeypot 上训练模型，让它学会"遇到这种事不要做坏决定"。

错误率从 22% 降到了 15%。有进步，但远远不够。模型学到了"在这种场景下不敲诈"，但换个场景就不确定了。

实验 2：教它解释为什么

同样的训练场景，但重写了训练数据。模型做出正确选择时，不只是标注"这是对的"，而是要求它在 deliberation 里推理自己的价值判断——为什么这个选择是对的，背后的伦理考量是什么。

错误率从 22% 降到 3%。

从 15% 到 3%，中间差的不是更多的数据或更长的训练。差的是模型有没有内化行为背后的理由。Anthropic 自己的总结很精确：

Although training on aligned behaviors helps, training on examples where the assistant displays admirable reasoning for its aligned behavior works better.

实验 3：换个角色，同样有效

实验 2 的数据虽然效果惊人，但有个问题：训练数据和评估场景太像了——都是 AI 自己面对伦理困境。Anthropic 想验证一个更强的假设：如果训练时 AI 不是自己面对困境，而是给别人出主意，效果会不会一样？

他们造了一个 “difficult advice” 数据集：用户面临道德困境，AI 提供建议。同样是伦理推理，但 AI 的角色从"决策者"变成了"顾问"。

结果：3M token 的 OOD（out-of-distribution，分布外）数据，达到了 85M token 同分布数据相同的效果。 约 28 倍的效率提升。而且，用这个数据集训练的模型，在 Anthropic 的自动化对齐评估上也表现更好——泛化能力更强。

实验 4：教行为准则

沿着"教原则不教行为"的思路走到尽头，Anthropic 做了最后一组实验：用高质量的行为准则文档加上虚构故事来训练模型。这些内容和评估场景无关——不涉及 honeypot、不涉及伦理困境，纯粹是关于 Claude 应该怎么行为的原则性描述。

结果是 blackmail rate 从 65% 降到 19%，约为原来的 1/3。

四组实验，一条逻辑线：直接教行为，效果有限。教行为背后的理由，质变。换个角色教理由，同样有效且更高效。教行为准则，不依赖任何具体场景也能大幅降低 misalignment。

四组实验的逻辑递进：从教行为到教理由到换角色到教原则

三个教训

Anthropic 的研究面向安全训练，但里面有三个教训，适用于任何需要让 AI 做出正确选择的场景。

1. Reasons > Actions

告诉 AI"做 A 不做 B"，不如告诉它"做 A 的理由是这样的"。原因在于，行为是具体的、有限的，而理由是抽象的、可迁移的。模型理解了理由，就能在没见过的场景里做出判断。只记住了行为，换个场景就不知道怎么办了。

这和人类学习是一样的。学开车时，教练说"红灯停"——这是行为。但如果教练说"红灯意味着交叉方向有车流，停在路口可以避免碰撞"——这是理由。前者让你在红灯前停下，后者让你在闪烁的黄灯、故障的信号灯、或者任何不确定的情况下都做出安全判断。

红灯停是行为，理解为什么停是理由——理由在未见场景中仍然有效

2. Principles > Demonstrations

教训 1 说的"理由"，需要沉淀为原则，而不是停留在具体案例上。Anthropic 的实验 4 验证了这一点：用行为准则文档这种高度抽象的素材，比直接用 honeypot 示例更高效。

原则之所以比示例更强，是因为示例携带了太多场景特异的细节。模型可能从示例里学到的是"在办公室政治场景中不要敲诈"，而不是"不应该用不当手段达成目标"。原则去掉了场景噪音，让模型关注到真正的模式。

这让我想到在儿童教育中也有类似的情况。给小孩看"红色的杆子比黄色的杆子长"，他可能学会的是"红色 = 长"，而不是"比较长度要看两端对齐"。下次面对一根红色短杆子和一根黄色长杆子，他会选错。示例教会了他一个偶然正确的答案，但没有教会背后的原则。AI 模型面对正面示例时，也会掉进同样的陷阱。

红色杆子长还是黄色杆子长？不对齐的端点会误导判断

3. 换个角色教理由，同样有效且更高效

这是最反直觉的一个发现。常识告诉我们，训练数据越接近评估场景，效果越好。但 Anthropic 的数据显示，让 AI 以"顾问"角色学习伦理推理（而非以"决策者"角色），用 1/28 的量就达到了同等效果。

这背后的逻辑和教训 2 是连贯的：同分布数据里，场景细节和理由混杂在一起，模型需要更多数据才能区分哪些信息是本质的。换个角色，场景细节天然不同了，但伦理推理的底层理由是相通的——模型需要提取的信号更纯，所以需要的样本更少。

三个教训是一个递进：理由比行为有效（1）→ 理由要沉淀成原则（2）→ 换个角色教理由，同样有效且更高效（3）。而实验 4 证明，纯粹教行为准则，连场景都不需要，就能大幅降低 misalignment。

从安全研究到工程实践

Anthropic 做的是安全对齐训练——用数百万 token 做大规模微调，目标是防止 AI 在极端场景下做出危险行为。这听起来和日常的 prompt 设计距离很远。

但仔细看那三个教训，它们解决的是一个更普遍的问题：怎么让 AI 在你没有明确指示的场景里，仍然做出你期望的选择。

这不就是每天写 prompt 时面对的问题吗？

举个例子。我在开发 tdd-pipeline 技能的时候，加入了 Ralph review loop——一个代码审查循环。规则是：连续两轮零 C/H 级错误才能早停。但 agent 总是各种"偷懒"不按标准来，甚至上一轮刚提醒过，这一轮又不遵守规则。

这个早停规则本质上是在教行为——“满足条件 X 就做 Y”。而我意识到，如果在规则前加上让它反思——为什么不遵守这个规则会有什么后果，以及遵守规则的道理是什么——它违反规则的可能性应该大幅降低。这就是教理由，不是教行为。

我在 tdd-pipeline 项目里把这个思路做了一个设计，叫 Why Articulation：AI 在执行之前，必须先说明为什么要这样做——不是做什么，而是为什么这么做。

参考

Anthropic, “Teaching Claude Why”, 2026. anthropic.com/research/teaching-claude-why
Lynch et al., “Agentic Misalignment: How LLMs Could Be an Insider Threat”, Anthropic Research, 2025. anthropic.com/research/agentic-misalignment

Anthropic 在解决什么问题#

实验 1：直接教正确行为#

实验 2：教它解释为什么#

实验 3：换个角色，同样有效#

实验 4：教行为准则#

三个教训#

从安全研究到工程实践#