AI Agent on 能工智人的传习录

AI Agent on 能工智人的传习录https://blog.chuanxilu.net/tags/ai-agent/Recent content in AI Agent on 能工智人的传习录Hugozh-CNMon, 01 Jun 2026 10:00:00 +0800AI 设计的实验，你得自己审https://blog.chuanxilu.net/posts/2026/06/experiment-design-review/Mon, 01 Jun 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/06/experiment-design-review/双盲实验成功了，但审查设计时发现 rubric 偏向被测变量、场景覆盖不足。两个设计缺陷都是审出来的，不是跑出来的。实验设计没毛病，LLM 为什么还是翻车了https://blog.chuanxilu.net/posts/2026/05/execution-context-design/Sun, 31 May 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/execution-context-design/双盲实验设计得再理想，不约束每个子 agent 的上下文边界，LLM 仍然会在垃圾输入上认真打分、在没授权的时候自己做汇总。我用两轮真实实验数据说明：workflow 设计和上下文构造是同一枚硬币的两面。如何用双盲实验验证 skill 改动的有效性https://blog.chuanxilu.net/posts/2026/05/double-blind-experiment-ai-prompt-validation/Fri, 29 May 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/double-blind-experiment-ai-prompt-validation/AI skill 的 A/B 测试不是给用户看两个方案测转化率，是让 AI agent 用两个 skill 分别产出结果，再用另一个 AI agent 盲评。我用真实实验数据说明为什么需要双盲，以及如何避免五种失效模式。