<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>AI Agent on 能工智人的传习录</title><link>https://blog.chuanxilu.net/tags/ai-agent/</link><description>Recent content in AI Agent on 能工智人的传习录</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Mon, 01 Jun 2026 10:00:00 +0800</lastBuildDate><atom:link href="https://blog.chuanxilu.net/tags/ai-agent/index.xml" rel="self" type="application/rss+xml"/><item><title>AI 设计的实验，你得自己审</title><link>https://blog.chuanxilu.net/posts/2026/06/experiment-design-review/</link><pubDate>Mon, 01 Jun 2026 10:00:00 +0800</pubDate><guid>https://blog.chuanxilu.net/posts/2026/06/experiment-design-review/</guid><description>双盲实验成功了，但审查设计时发现 rubric 偏向被测变量、场景覆盖不足。两个设计缺陷都是审出来的，不是跑出来的。</description></item><item><title>实验设计没毛病，LLM 为什么还是翻车了</title><link>https://blog.chuanxilu.net/posts/2026/05/execution-context-design/</link><pubDate>Sun, 31 May 2026 10:00:00 +0800</pubDate><guid>https://blog.chuanxilu.net/posts/2026/05/execution-context-design/</guid><description>双盲实验设计得再理想，不约束每个子 agent 的上下文边界，LLM 仍然会在垃圾输入上认真打分、在没授权的时候自己做汇总。我用两轮真实实验数据说明：workflow 设计和上下文构造是同一枚硬币的两面。</description></item><item><title>如何用双盲实验验证 skill 改动的有效性</title><link>https://blog.chuanxilu.net/posts/2026/05/double-blind-experiment-ai-prompt-validation/</link><pubDate>Fri, 29 May 2026 10:00:00 +0800</pubDate><guid>https://blog.chuanxilu.net/posts/2026/05/double-blind-experiment-ai-prompt-validation/</guid><description>AI skill 的 A/B 测试不是给用户看两个方案测转化率，是让 AI agent 用两个 skill 分别产出结果，再用另一个 AI agent 盲评。我用真实实验数据说明为什么需要双盲，以及如何避免五种失效模式。</description></item></channel></rss>