执行协议 | 能工智人的传习录

系列：AI Agent 实验方法论（第二篇）上一篇：如何用双盲实验验证 skill 改动的有效性 TL;DR：双盲实验跑完第一轮，B 赢了 3/4 但没过"幅度筛选"，结论是"证据不足"。排查发现 S1-A 的输出被终端颜色代码污染，scorer 在 ANSI 乱码上认认真真打了 8 个维度的分。修复执行上下文后重跑，B 变成 4/4 全胜。翻车的原因不是实验设计，是子 agent 的上下文构造没约束异常行为。 ...