一张看似完美的实验报告被放大镜照出两处设计缺陷:rubric 偏向变量、场景覆盖不足

AI 设计的实验,你得自己审

系列:AI Agent 实验方法论(第三篇) 上一篇:实验设计没毛病,LLM 为什么还是翻车了 TL;DR: 双盲实验 B 赢了 4/4,数据漂亮。但审设计时发现 rubric 有 3/8 维度直接测试被测变量,超过 1/3 上限,差点变成自我验证;另一个验证里一个场景满分、另一个才暴露缺陷,只跑一个就宣布通过的话缺陷就上线了。两个坑都是审设计发现的,不是跑完实验才看见的。 ...

2026-06-01 · 6 分钟 · Alex Wang
一条精心设计的实验流水线被两个节点的上下文泄漏污染,对比修复后干净的结果

实验设计没毛病,LLM 为什么还是翻车了

系列:AI Agent 实验方法论(第二篇) 上一篇:如何用双盲实验验证 skill 改动的有效性 TL;DR: 双盲实验跑完第一轮,B 赢了 3/4 但没过"幅度筛选",结论是"证据不足"。排查发现 S1-A 的输出被终端颜色代码污染,scorer 在 ANSI 乱码上认认真真打了 8 个维度的分。修复执行上下文后重跑,B 变成 4/4 全胜。翻车的原因不是实验设计,是子 agent 的上下文构造没约束异常行为。 ...

2026-05-31 · 5 分钟 · Alex Wang
两个评估面板被磨砂玻璃隔开,背后隐藏着 X/Y 到 A/B 的映射关系

如何用双盲实验验证 skill 改动的有效性

TL;DR: 改了 skill,怎么知道是真的变好了还是自我感觉良好?我跑了一个双盲实验:两个版本、四个场景、独立评审盲打分。评审看到 X=2.44、Y=2.41,说分不出来。揭盲后精简版 4/0 全胜。 ...

2026-05-29 · 5 分钟 · Alex Wang