一条精心设计的实验流水线被两个节点的上下文泄漏污染,对比修复后干净的结果

实验设计没毛病,LLM 为什么还是翻车了

系列:AI Agent 实验方法论(第二篇) 上一篇:如何用双盲实验验证 skill 改动的有效性 TL;DR: 双盲实验跑完第一轮,B 赢了 3/4 但没过"幅度筛选",结论是"证据不足"。排查发现 S1-A 的输出被终端颜色代码污染,scorer 在 ANSI 乱码上认认真真打了 8 个维度的分。修复执行上下文后重跑,B 变成 4/4 全胜。翻车的原因不是实验设计,是子 agent 的上下文构造没约束异常行为。 ...

2026-05-31 · 5 分钟 · Alex Wang