Anthropic

从 Anthropic 的对齐研究到一个 Prompt 设计思路

TL;DR： Anthropic 的对齐研究表明，教模型"为什么"比教"做什么"更有效——误对齐率从 22% 降到 3%。本文拆解四组实验，提炼出三个可迁移的 prompt 设计教训。 ...