AI 实践

分开的左右两半建筑结构，左暖琥珀色 TypeScript 塔楼，右冷青色 Python 引擎室，中央 subprocess 桥连接，五根标柱支撑

同一个系统，两门语言：Aristotle v1.6 架构决策的五个约束

TL;DR： Watchdog-Intervention Bridge 的跨语言架构是被五类约束逼出来的。Watchdog 必须跟 LLM tool call 做同步拦截 → TypeScript。Intervention 必须复用已有反思引擎和规则系统 → Python。Bridge 必须零新增基础设施 → subprocess。通信不能阻塞每次 tool call → 批量而非实时。这五个决策，每一个都是在特定约束下的妥协。 ...

Watchdog-Intervention Bridge 三层架构：从事后反思（暖琥珀色）到实时拦截（冷青色）的过渡

从'事后反思'到'实时拦截'：Aristotle v1.6.0 的 Watchdog-Intervention Bridge

TL;DR： Aristotle v1.6.0 引入 Watchdog-Intervention Bridge，从"事后反思"转向"实时拦截"。TypeScript watchdog 在 tool call 前后检测 21 种信号，Python intervention 层处理 13 种违规类型，通过 subprocess bridge 实现跨语言实时干预。MCP 工具从 10 个 stub 扩展到 25 个完整实现。遗留两个确定会出错的 bug。GitHub 开源，MIT 协议。 ...

终端窗口发出四股数据流——股票行情、GDP 曲线、企业信息、学术论文，统一从单一数据源涌出

kdatasrc-helper：让 AI Agent 直接查金融数据的技能

问题：数据源有了，但 agent 用不上 kimi CLI 的 datasource plugin 是个好东西。A 股港股美股行情、宏观经济指标、企业工商信息、学术论文检索，六个数据源，覆盖了日常投研的大部分需求。安装之后在 kimi 里敲一条命令就能查。 ...

omo vs oms：Fallback 链深度解析

本文是《当你的 AI 编程工具需要三套配置》的下篇。上篇介绍了三套配置的方案设计、文件结构和编排理念，本文聚焦 fallback 链的机制差异和配置实践。文中 omo = oh-my-openagent，oms = oh-my-opencode-slim。模型和 provider 名称已脱敏为 provider-a/model-x 等泛化名称。 ...

当你的 AI 编程工具需要三套配置

为什么我需要三套 OpenCode 配置我的 ~/.config/opencode/ 目录下有三个 opencode.json。起因很简单：我想同时跑 oh-my-openagent（以下简称 omo）和 oh-my-opencode-slim（以下简称 oms），对比着用，搞清楚各自的边界在哪。 ...

一张看似完美的实验报告被放大镜照出两处设计缺陷：rubric 偏向变量、场景覆盖不足

AI 设计的实验，你得自己审

系列：AI Agent 实验方法论（第三篇）上一篇：实验设计没毛病，LLM 为什么还是翻车了 TL;DR：双盲实验 B 赢了 4/4，数据漂亮。但审设计时发现 rubric 有 3/8 维度直接测试被测变量，超过 1/3 上限，差点变成自我验证；另一个验证里一个场景满分、另一个才暴露缺陷，只跑一个就宣布通过的话缺陷就上线了。两个坑都是审设计发现的，不是跑完实验才看见的。 ...

实验设计没毛病，LLM 为什么还是翻车了

系列：AI Agent 实验方法论（第二篇）上一篇：如何用双盲实验验证 skill 改动的有效性 TL;DR：双盲实验跑完第一轮，B 赢了 3/4 但没过"幅度筛选"，结论是"证据不足"。排查发现 S1-A 的输出被终端颜色代码污染，scorer 在 ANSI 乱码上认认真真打了 8 个维度的分。修复执行上下文后重跑，B 变成 4/4 全胜。翻车的原因不是实验设计，是子 agent 的上下文构造没约束异常行为。 ...

如何用双盲实验验证 skill 改动的有效性

TL;DR：改了 skill，怎么知道是真的变好了还是自我感觉良好？我跑了一个双盲实验：两个版本、四个场景、独立评审盲打分。评审看到 X=2.44、Y=2.41，说分不出来。揭盲后精简版 4/0 全胜。 ...

一排暗淡的审查维度插槽只有一格亮起，加入新模块后全部亮起——但右边加了数学符号的版本反而变暗

维度实验：30多年前的奇书能搞定审查维度？

系列：用经典理论指导 Agent 实践（第三篇）第一篇：双轮审查：召回和精确为什么不能兼得 · 第二篇：策略基因：借遗传算法思路精简审查 prompt TL;DR：两组对照实验。代码审查维度从 8 个加到 11 个，已知问题的发现率从 1/6 升到 6/6。设计审查引入公理化设计维度，发现率同样从 1/6 升到 6/6。但加了数学公式的版本证明维度不是越多越好——计算过程挤掉了审查注意力，发现数掉 35%。做对照实验，用已知问题做参照，才知道哪个维度有效。 ...

一段臃肿的 prompt 被修剪成紧凑的策略基因结构，冗余内容散落在旁边，核心约束被保留下来

策略基因：借遗传算法思路精简审查 prompt

系列：用经典理论指导 Agent 实践（第二篇）上一篇：双轮审查：召回和精确为什么不能兼得 TL;DR：审查 prompt 从 317 行砍到 135 行（-58%），审查质量反升 29%。删掉的不是流程步骤，是模型自己能推导出来的冗余内容。留下的才是策略基因——不可替代的约束、反面例子和语气锁。 ...