参考答案偏心

系列：AI Agent 实验方法论（第三篇）上一篇：实验设计没毛病，LLM 为什么还是翻车了 TL;DR：双盲实验 B 赢了 4/4，数据漂亮。但审设计时发现 rubric 有 3/8 维度直接测试被测变量，超过 1/3 上限，差点变成自我验证；另一个验证里一个场景满分、另一个才暴露缺陷，只跑一个就宣布通过的话缺陷就上线了。两个坑都是审设计发现的，不是跑完实验才看见的。 ...