
AI 设计的实验,你得自己审
系列:AI Agent 实验方法论(第三篇) 上一篇:实验设计没毛病,LLM 为什么还是翻车了 TL;DR: 双盲实验 B 赢了 4/4,数据漂亮。但审设计时发现 rubric 有 3/8 维度直接测试被测变量,超过 1/3 上限,差点变成自我验证;另一个验证里一个场景满分、另一个才暴露缺陷,只跑一个就宣布通过的话缺陷就上线了。两个坑都是审设计发现的,不是跑完实验才看见的。 ...

系列:AI Agent 实验方法论(第三篇) 上一篇:实验设计没毛病,LLM 为什么还是翻车了 TL;DR: 双盲实验 B 赢了 4/4,数据漂亮。但审设计时发现 rubric 有 3/8 维度直接测试被测变量,超过 1/3 上限,差点变成自我验证;另一个验证里一个场景满分、另一个才暴露缺陷,只跑一个就宣布通过的话缺陷就上线了。两个坑都是审设计发现的,不是跑完实验才看见的。 ...