AI 实践 on 能工智人的传习录

AI 实践 on 能工智人的传习录https://blog.chuanxilu.net/categories/ai-%E5%AE%9E%E8%B7%B5/Recent content in AI 实践 on 能工智人的传习录Hugozh-CNFri, 22 May 2026 10:00:00 +0800级联检索，借信息检索领域 15 年前的方法治审查 agent 的病https://blog.chuanxilu.net/posts/2026/05/dual-pass-review-recall-precision-tradeoff/Fri, 22 May 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/dual-pass-review-recall-precision-tradeoff/设计审查的 agent 既要找得全又要找得准，一个 agent 难以两全。借鉴信息检索领域 15 年前的级联检索思路，拆成两个 agent——一个只管找全，一个只管找准。设计方案的问题更早被发现，开发阶段返工的风险降低了。看不见的空白层https://blog.chuanxilu.net/posts/2026/05/tdd-pipeline-phase7-invisible-gap/Thu, 21 May 2026 11:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/tdd-pipeline-phase7-invisible-gap/每个 bug 都追到底了，但没人看 bug 之间的共同模式。不是升级追问工具，是加一层系统性扫描——它的发现不止于多拦几个 bug，而是驱动架构演进的证据起点。以尺度尺，用方法改进方法https://blog.chuanxilu.net/posts/2026/05/tdd-pipeline-v07-refinement-experiment/Wed, 20 May 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/tdd-pipeline-v07-refinement-experiment/你造了一把尺子，尺子量出"冗余有害"，然后你用这把尺子裁掉了尺子本身的冗余。把 AI 工具里的操作步骤删掉，只保留原则和反面例子，模型自己推导出了被删掉的步骤。失之东隅，收之桑榆的实验https://blog.chuanxilu.net/posts/2026/05/tdd-pipeline-v08-failed-experiment-discovery/Tue, 19 May 2026 18:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/tdd-pipeline-v08-failed-experiment-discovery/精炼 TDD Pipeline 预发布测试阶段的 bug 诊断能力，预设目标没达到。但对比精炼版在哪些维度好、哪些维度差，发现诊断单个缺陷之外还缺一层系统性扫描。升级落地——新模板与三个可迁移建议https://blog.chuanxilu.net/posts/2026/05/why-articulation-upgrade-and-takeaways/Sun, 17 May 2026 09:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/why-articulation-upgrade-and-takeaways/基于 A/B 实验结果升级 Why Articulation 模板：去掉显式三问，改为先自由思考再自检补充，保留强制语气和纯反面例子。提炼出三条可迁移到其他 prompt 工程场景的建议。4 变量 A/B 实验——正面示例为什么有害https://blog.chuanxilu.net/posts/2026/05/ab-test-positive-examples-harm/Fri, 15 May 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/ab-test-positive-examples-harm/为什么给 AI 看正面示例反而降低输出质量？一次 4 变量 A/B 实验，测了 Why Articulation 的结构、语气、位置和示例类型，发现正面示例有害——和 Anthropic 的对齐研究结论一致。从 Anthropic 的对齐研究到一个 Prompt 设计思路https://blog.chuanxilu.net/posts/2026/05/anthropic-alignment-to-prompt-design/Thu, 14 May 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/anthropic-alignment-to-prompt-design/Anthropic 的对齐研究发现"教 why 比教 what 更有效"——这个来自安全训练的洞察，同样适用于日常 prompt 设计。本文拆解研究中的四组实验，提炼出三个可迁移的教训。AI 之路：从初触者到原住民https://blog.chuanxilu.net/posts/2026/05/ai-toolchain-evolution-path/Sun, 10 May 2026 08:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/ai-toolchain-evolution-path/一份从 L0 到 L4 的 AI 能力进化地图——不是教你用某个工具，而是帮你理解思维方式在每个阶段发生的根本转变。包含交互式 HTML 页面，可展开查看每个等级的详细能力清单、推荐工具和升级跃迁条件。rebase 一敲，文档灰飞烟灭——用 git worktree 拯救设计文档https://blog.chuanxilu.net/posts/2026/05/design-doc-management-lessons-from-three-projects/Fri, 08 May 2026 15:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/design-doc-management-lessons-from-three-projects/AI 辅助开发产生大量设计文档，它们被 .gitignore 忽略、被 git rebase 静默删除、被 git reflog 永远无法恢复。本文介绍一种基于 git worktree 的轻量方案，用独立的本地分支保护设计文档，并以多个项目的实战数据做佐证。测试全绿，系统不能用：18 个 bug 的六种死法https://blog.chuanxilu.net/posts/2026/05/six-bug-patterns-and-integration-gaps/Thu, 07 May 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/six-bug-patterns-and-integration-gaps/Aristotle v1.1 发布前发现了 18 个 bug，单元测试只拦住了 4 个。剩下的都在集成层。对它们做 root cause analysis 之后，我归纳出六种 AI 辅助开发中特有的 bug 模式——不是因为问题变难了，是因为 AI 绕过了你靠经验建立的防线。OMO vs SLIM：一次省钱切换的实测与反思https://blog.chuanxilu.net/posts/2026/05/omo-vs-omo-slim-token-comparison/Wed, 06 May 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/omo-vs-omo-slim-token-comparison/从 OMO 切换到 SLIM，号称更省 token。实测数据后发现：总平均持平，但拆开任务类型看，差异大到足以推翻一切简单结论。追问的最后一道防线：独立确认与协议的自反性https://blog.chuanxilu.net/posts/2026/05/inquiry-protocol-design-3/Wed, 06 May 2026 09:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/inquiry-protocol-design-3/追问协议的最后一道防线：独立确认者用可证伪性检验找反例，对抗 AI 的浅层锚定。以及追问协议的来路——从 18 个 bug 的实践到 v0.4.1 的升级，和未来自反性的计划。给 AI 套上质量缰绳：追问协议的七个条件https://blog.chuanxilu.net/posts/2026/05/inquiry-protocol-design-2/Tue, 05 May 2026 17:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/inquiry-protocol-design-2/追问协议的终止条件设计：T1-T3 是地板（保证 AI 走得够深），HC1-HC4 是护栏（防止追问失控）。T2 的预防性反事实检验是最关键的洞察。AI 用不好 5-Why：浅尝辄止、单线追踪与确认偏差https://blog.chuanxilu.net/posts/2026/05/inquiry-protocol-design-1/Tue, 05 May 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/inquiry-protocol-design-1/5-Why 交给 AI 为什么用不好？不是方法论过时了，是 AI 的思考质量天然不足——停得太早、只追一条线、只找支持证据。一个四轮归因全部失败的真实案例。修不完的 bug 与逃不出的循环：AI 辅助根因诊断实战https://blog.chuanxilu.net/posts/2026/05/ai-bug-root-cause-diagnosis/Fri, 01 May 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/05/ai-bug-root-cause-diagnosis/修了 #13 回头发现老 bug 又回来了——AI 给的修复方案把已修的 bug 又引进来了。这不是一篇「我用 AI 修了一个 bug」的轶事。是一次 15+ bug 上线攻坚的完整复盘，包含四轮归因、回归陷阱、以及 TDD 如何被痛苦逼出来的真实经历。AI 辅助 TDD 全流程：从需求到代码的完整防线https://blog.chuanxilu.net/posts/2026/04/ai-tdd-full-pipeline-from-requirements-to-code/Thu, 30 Apr 2026 14:00:00 +0800https://blog.chuanxilu.net/posts/2026/04/ai-tdd-full-pipeline-from-requirements-to-code/系列第 6 篇。把需求层、设计层、测试层、审核层、程序正义层串成一条完整管线。每个阶段有 checklist，结尾讨论这套方法的适用边界——严格流程的边际成本随项目复杂度下降，其必要性随 AI 参与度上升而增加。程序正义入协议：让 AI 审核的每一步都经得起检验https://blog.chuanxilu.net/posts/2026/04/adversarial-review-critical-thinking-ai-quality/Thu, 30 Apr 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/04/adversarial-review-critical-thinking-ai-quality/Ralph Loop v0.3 把程序正义编码进审核协议——结构化审查、批判性审视、争议问题协议，让每一步审核决策都有证据、有记录、有规则约束。灵感来自 150 年前诞生的罗伯特议事规则。Ralph Loop：AI 的错误不是随机的，是收敛的https://blog.chuanxilu.net/posts/2026/04/ralph-loop-ai-errors-converge/Wed, 29 Apr 2026 14:00:00 +0800https://blog.chuanxilu.net/posts/2026/04/ralph-loop-ai-errors-converge/第三篇留下了一个问题：AI 写的文档里的事实性声明，一个人无法逐条核实。这篇文章讲 Ralph Loop——一个多轮审核机制，如何让独立的 AI subagent 审查每个阶段的交付物。它的退出条件借鉴了数学里的收敛概念：一轮干净不代表真干净，连续两轮零问题才是收敛的证据。PRD → 技术方案：AI 时代文档不是负担，是护栏https://blog.chuanxilu.net/posts/2026/04/prd-to-tech-spec-ai-design-guardrails/Wed, 29 Apr 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/04/prd-to-tech-spec-ai-design-guardrails/第二次重构 Aristotle 时，需求用 GEAR 协议写清楚了，代码结构也拆分了。但装完发现异步后台根本没生效——agent 还是在主 session 里被拉起。问题不在需求层，在技术方案层。这篇文章讲 PRD 和技术方案各自该写什么，为什么两者缺一不可。为什么 AI 辅助 Aristotle 开发必须从 GEAR 协议开始：需求层的消歧实践https://blog.chuanxilu.net/posts/2026/04/why-aristotle-vibe-development-needs-gear-protocol/Sat, 25 Apr 2026 00:00:00 +0800https://blog.chuanxilu.net/posts/2026/04/why-aristotle-vibe-development-needs-gear-protocol/Aristotle 第一版的需求只有一句话，结果反思任务直接在主 session 里跑了起来，371 行上下文被污染。这篇文章从这次翻车出发，聊聊 AI 辅助开发中需求缺失为什么会被放大成系统性偏差，以及怎么用结构化的方法堵住漏洞。先写测试文档，再写测试代码：AI 开发的需求锚定https://blog.chuanxilu.net/posts/2026/04/test-doc-before-test-code-reverse-anchoring/Thu, 23 Apr 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/04/test-doc-before-test-code-reverse-anchoring/在 AI 辅助开发中，测试不仅是验证手段，更是最精确的需求语言。这篇文章从我的失败经历出发，讨论从测试场景识别到测试开发文档的完整链路，以及为什么这套方法在 AI 编码中比在传统开发中更重要。上下文腐烂：AI编程中一个容易被忽视的问题https://blog.chuanxilu.net/posts/2026/04/managing-context-length-in-ai-coding-sessions/Sat, 18 Apr 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/04/managing-context-length-in-ai-coding-sessions/群里有朋友抱怨 GPT-5.4 表现还不如豆包，问问题常常不读题就瞎回复。追问之后发现大概率是上下文腐烂了——喂了太多文档，对话轮次太长，模型已经"看不清"当前的任务。这引出了一个被忽视的问题：在 vibe coding 或 writing 的过程中，如何管理好上下文，避免模型表现下降导致的 token 和时间浪费。回顾与反思：Aristotle 项目中的七种人机协作模式https://blog.chuanxilu.net/posts/2026/04/seven-human-ai-collaboration-patterns-in-aristotle/Thu, 16 Apr 2026 21:00:00 +0800https://blog.chuanxilu.net/posts/2026/04/seven-human-ai-collaboration-patterns-in-aristotle/回顾 Aristotle 项目从初版设计到 GEAR 协议的完整开发过程，提炼出七种人机协作模式——从'用户给哲学、AI 填细节'到'反思系统反思设计者自身的错误'。随着 AI 能力增强，人类的判断力不是变得不重要了，而是变得更加关键。一份 Markdown 的三次生命：从静态规则到 Git 版本管理的 MCP Serverhttps://blog.chuanxilu.net/posts/2026/04/from-markdown-to-mcp-server-gear-protocol/Thu, 16 Apr 2026 19:00:00 +0800https://blog.chuanxilu.net/posts/2026/04/from-markdown-to-mcp-server-gear-protocol/Aristotle 的反思规则最初写在一份 Markdown 文件里，追加、遗忘、无法回滚。当规则积累到几十条，我意识到这份文件已经不够用了——于是踏上了一条从 append-only 到 Git-backed MCP Server 的设计迭代之路。这条路最终引出了一个叫 GEAR 的协议。从四道伤疤到一套铠甲：Aristotle 改造中的驾驭工程实践https://blog.chuanxilu.net/posts/2026/04/from-scars-to-armor-harness-engineering-practice/Sat, 11 Apr 2026 01:00:00 +0800https://blog.chuanxilu.net/posts/2026/04/from-scars-to-armor-harness-engineering-practice/初版 Aristotle 看起来顺利，实际使用却暴露了四个架构级问题。修复它们的过程，恰好验证了第三篇提出的信任分层模型和驾驭工程框架——从上下文隔离到信息流控制到职责分离，每一道约束背后都是一个信任判断。信任边界：同一个想法在开放系统和受限系统上的实现实验https://blog.chuanxilu.net/posts/2026/04/a-trust-boundary-design-experiment/Mon, 06 Apr 2026 18:00:00 +0800https://blog.chuanxilu.net/posts/2026/04/a-trust-boundary-design-experiment/同一个反思机制落在不同平台上，实现复杂度差了一个数量级——但复杂度本身引出了一个更值得谈的问题：我们应该在什么时候信任 AI 的判断，又在什么时候需要插手？claude-code-reflect：同样的元认知，落在不同的土壤https://blog.chuanxilu.net/posts/2026/04/claude-code-reflect-different-soil/Mon, 06 Apr 2026 14:56:00 +0800https://blog.chuanxilu.net/posts/2026/04/claude-code-reflect-different-soil/同一套反思机制落在不同平台基座上，落地姿态和路径截然不同——从插件安装到权限暗坑到 API 并发，记录 Claude Code 上的真实开发过程。Aristotle：让 AI 学会从错误中反思https://blog.chuanxilu.net/posts/2026/04/aristotle-ai-reflection/Mon, 06 Apr 2026 10:00:00 +0800https://blog.chuanxilu.net/posts/2026/04/aristotle-ai-reflection/给 AI 编程助手装上反思能力——当模型犯错时，即时触发根因分析，将纠正经验转化为持久规则。