如何用双盲实验验证 skill 改动的有效性TL;DR: 改了 skill,怎么知道是真的变好了还是自我感觉良好?我跑了一个双盲实验:两个版本、四个场景、独立评审盲打分。评审看到 X=2.44、Y=2.41,说分不出来。揭盲后精简版 4/0 全胜。 ...