AI 工具链进化路径

✦

Level 0 · 初触者

第一次与 AI 对话

对 AI 的能力边界模糊，主要靠直觉提问，结果好坏参半。尚未建立系统性认知。

+

核心概念

🧠 理解 LLM 的本质

AI 不是搜索引擎，是预测下一个 token
输出概率性的，不是确定性的
上下文窗口是它的"工作记忆"
没有持久记忆，每次对话从零开始

🗣 Prompt 基础

提问越具体，答案越有用
给出角色 / 背景 / 目标
可以要求特定输出格式
可以让它"一步步思考"

工具接触

ChatGPT / Claude.ai Gemini Notion AI Copilot（Office） Perplexity DeepSeek

建立的使用习惯

📋

有目的地提问 —— 在发送前想清楚"我希望得到什么"

🔁

追问和迭代 —— 第一个答案往往不是最好的，继续引导

🔍

验证事实性内容 —— AI 会自信地说错，关键信息要核实

升级到 L1 的关键跃迁

→

建立"提示词思维"

意识到 AI 的输出质量完全由你的输入决定。开始主动设计提问方式，而不是被动接受输出。推荐行动：找一项你每天重复做的文字工作，用 AI 优化它，并保存有效的提示词模板。

◈

Level 1 · 使用者

把 AI 真正用起来

AI 已经成为日常工具，有自己惯用的场景和套路。开始感受到生产力提升，但仍依赖单一平台。

+

核心概念

📐 Prompt 工程

Few-shot 示例引导
System prompt / 角色设定
思维链（CoT）
格式约束（JSON、列表）

🔄 对话管理

上下文积累与清除时机
分段处理长任务
角色扮演与专家模拟
对话分支与版本对比

🌐 模型差异

不同模型的能力侧重
速度 vs 质量权衡
Web Search 模式
多模态（图像、语音）

工具矩阵

📝 写作 & 思考（举例）

Claude.ai Projects（长上下文）
ChatGPT Workspace Agents
Notion AI、Obsidian + AI 插件
Perplexity（研究型搜索）

💻 编程辅助（举例）

GitHub Copilot（IDE 内联）
Cursor / Windsurf
Claude.ai（代码审查）
v0.app（应用构建）
Bolt.new（全栈原型）

建立的使用习惯

📁

维护 Prompt 库 —— 把高效的提示词存下来，分类管理，按需调用

🎯

选对工具做对事 —— 代码用 Copilot，研究用 Perplexity，长文用 Claude Projects

📊

建立个人知识库 —— 把 AI 生成的有价值内容整理进笔记系统（Obsidian / Notion）

升级到 L2 的关键跃迁

→

打开 API，触碰自动化边界

第一次调用 Anthropic / OpenAI API，哪怕只是在 Python 里打印一条回复。意识到 AI 可以嵌入你的工作流而不仅仅是网页聊天框。推荐行动：用 API 写一个能自动处理你某个重复性文字任务的小脚本。

⬡

Level 2 · 工程师

构建 AI 驱动的工具

能够通过 API 将 AI 嵌入自定义流程，构建真正自动化的工作流，理解 token 经济和上下文管理。

+

核心概念

⚙️ API & 工程基础

Messages API（System / User / Assistant）
Token 计算与成本控制
Temperature / Top-P 参数
Streaming 流式输出
Function Calling / Tool Use

🤖 AI 编程工具（举例）

Claude Code（终端 AI 代理）
Cursor Rules / .mdc
AI-assisted TDD 流程
Prompt 版本管理（Git）
结构化输出（JSON Schema）

🔗 RAG 基础

Embedding 向量化原理
向量数据库（Chroma / Pinecone）
检索增强生成流程
Chunking 策略对质量的影响

⚡ 工作流自动化

n8n / Make / Zapier + AI 节点
LangChain / LlamaIndex 基础
Webhook 触发 AI 任务
批处理（Batch API）

工具栈

Claude Code Cursor / Windsurf Anthropic API LangChain n8n Chroma / Pinecone Supabase pgvector

建立的使用习惯

📝

CLAUDE.md 驱动开发 —— 每个项目维护一份 AI 上下文文件，减少重复解释

🔬

Prompt 实验记录 —— 用 Git 追踪 prompt 变更，像代码一样管理提示词

💡

错误驱动学习 —— 记录 AI 的失败案例和根因，建立个人的"AI 反模式"清单

📐

Human-in-the-loop 设计 —— 对高风险操作保留人工确认节点，而非全自动

升级到 L3 的关键跃迁

→

从单个 AI 调用到多 Agent 协作

意识到复杂任务需要多个 AI 角色分工——一个规划、一个执行、一个验证。开始思考"工作流的认知架构"而非单次对话。推荐行动：设计一个有 Orchestrator + Worker 结构的两层 Agent 系统，哪怕功能很简单。

❋

Level 3 · 架构师

设计多 Agent 系统

能够设计复杂的多 Agent 协作流程，理解记忆架构、工具调用链，以及 AI 系统的可靠性边界。

+

核心概念

🧩 Agent 架构模式

Orchestrator / Subagent 分层
ReAct（推理-行动-观察）循环
Plan-and-Execute 规划模式
Multi-Agent 并行执行
工具调用链与错误恢复

💾 记忆与状态管理

In-context vs External Memory
跨会话记忆持久化
结构化知识图谱
错误学习与反思机制（如 GEAR）
会话 Kick-off / Wrap-up 模式

🔒 可靠性设计

信任边界与权限分级（L0-L3）
Human-in-the-loop 触发条件设计
Fallback 降级策略
幂等性与状态恢复
可观测性（日志 / Trace）

🔌 协议与集成

MCP（Model Context Protocol）
A2A（Agent-to-Agent）协议
OpenAPI 工具注入
Sandbox 隔离执行环境

工具栈

LangGraph CrewAI AutoGen OpenAI Agents SDK Smolagents MCP Servers A2A Protocol Weights & Biases Langfuse Claude Code Skills

建立的使用习惯

🏗

系统图先于代码 —— 画出数据流、Agent 边界、人工干预节点，再开始实现

📊

持续评估（Evals） —— 像测试代码一样测试 prompt，建立回归测试集

🔄

错误库与反思循环 —— 系统性收集 Agent 失败案例，周期性更新系统 prompt

📖

跟踪学术与工程前沿 —— 每周阅读 arXiv、跟进 Anthropic / OpenAI 工程 blog

升级到 L4 的关键跃迁

→

从构建工具到贡献知识

在某个领域形成独到见解，开始对外分享（技术博客、开源项目、论文/RFC）。AI 工具链的认知框架已经内化，更关注模式的通用性和边界条件。推荐行动：把你解决的一个非平凡问题写成文章或开源项目，逼自己梳理清楚背后的思维模型。

⊛

Level 4 · 原住民

AI 原生思维

AI 不再是工具，而是认知的延伸。能够设计新范式、贡献开源生态，并在不确定中保持清醒的判断。

+

核心能力

🧬 范式创新

识别现有框架的结构性缺陷
设计新的 Agent 交互协议
从第一原理出发建模 AI 行为
在学界与工程界之间搭桥

🌐 生态贡献

开源项目维护与社区运营
技术博客 / 论文 / RFC 发布
构建他人可复用的工具原语
建立对比测评框架（Evals）

⚖️ 清醒判断

理解当前模型的硬边界
区分"目前不行"和"永远不行"
在 hype 中保持技术诚实
AI 伦理与安全的实践视角

🔮 未来感知

跟踪 frontier model 发展曲线
预判工具链演进方向
识别真正的技术转折点
将学术突破转化为工程实践

典型标志

🚀

建立自己的"AI 认知框架" —— 有自己的概念体系，能清晰解释 AI 系统为什么工作或失败

🌱

思维方式已经改变 —— 遇到新问题会自然地思考"哪些部分适合 AI 处理，哪些必须保留人类判断"

🎓

持续帮助他人升级 —— 能够识别他人处于哪个阶段，并给出有针对性的导入建议

∞

保持初学者心态

这个领域每 6-12 个月就会有根本性变化。L4 的核心能力不是"知道一切"，而是能够快速将新能力整合进自己的框架，并判断它改变了什么、没改变什么。