Prompt 工程

一段臃肿的 prompt 被修剪成紧凑的策略基因结构，冗余内容散落在旁边，核心约束被保留下来

策略基因：借遗传算法思路精简审查 prompt

系列：用经典理论指导 Agent 实践（第二篇）上一篇：双轮审查：召回和精确为什么不能兼得 TL;DR：审查 prompt 从 317 行砍到 135 行（-58%），审查质量反升 29%。删掉的不是流程步骤，是模型自己能推导出来的冗余内容。留下的才是策略基因——不可替代的约束、反面例子和语气锁。 ...

以尺度尺，用方法改进方法

系列：破而后立的 TDD 流程迭代（第二篇）上一篇：失之东隅，收之桑榆的实验 TL;DR： TDD Pipeline 自己教的是"给原则不给步骤"，但自己却长成了步骤驱动的工具。把阶段一到阶段五的操作步骤删掉，只保留原则、风险提示和反面例子。模型自己推导出了被删掉的步骤，输出质量不降。原因：阶段一到阶段五是创作阶段，需要发散空间，去掉固定轨道反而更好。同样的策略用在阶段六上失败了——下一篇讲为什么。 ...

左侧散落的脚手架碎片标记为废弃，右侧干净的空框，三条金色虚线连接——从复杂到简洁的升级

升级落地——新模板与三个可迁移建议

TL;DR：展示 Why Articulation 模板升级前后的对比，以及三条可迁移建议：给原则不给示例、关键步骤用强制语气、相信模型的自我组织能力。实验局限也已说明。前两篇回顾第一篇从 Anthropic 的对齐研究出发：教模型"为什么"比只教它"正确答案"，误对齐率从 22% 降到 3%（约 7 倍），而且用 1/28 的数据量就能达到同等效果[1]。我把这个发现移植到 prompt 设计里，造出了 Why Articulation 模板——要求 AI 动手前先说清目的、风险和方案。 ...

4 变量 A/B 实验——正面示例为什么有害

TL;DR：四变量 A/B 实验测试 Why Articulation 的结构、语气、位置和示例。正面示例反而有害——模型倾向模仿而非独立思考。开放式 prompt 方向性提升质量，同时节省 33% token。 ...

从 Anthropic 的对齐研究到一个 Prompt 设计思路

TL;DR： Anthropic 的对齐研究表明，教模型"为什么"比教"做什么"更有效——误对齐率从 22% 降到 3%。本文拆解四组实验，提炼出三个可迁移的 prompt 设计教训。 ...