学习与自进化
静态 Agent 的天花板是重复犯错。本文给出运行时学习的三个层次(L1 会话内适应、L2 跨会话经验沉淀、L3 行为策略进化)的具体 schema、经验回放与 Prompt 自优化的伪代码、动态 Few-shot 的检索逻辑,以及一条不可越过的红线——学习不能突破安全策略、不能升级权限、不能扩展行为空间。
静态 Agent 的天花板是重复犯错。本文给出运行时学习的三个层次(L1 会话内适应、L2 跨会话经验沉淀、L3 行为策略进化)的具体 schema、经验回放与 Prompt 自优化的伪代码、动态 Few-shot 的检索逻辑,以及一条不可越过的红线——学习不能突破安全策略、不能升级权限、不能扩展行为空间。
当 Agent 像人类一样看屏幕、点鼠标、敲键盘,一种新的交互范式出现了。本文给出 Computer Use 的视觉-动作循环伪代码、action schema、定位策略(坐标 vs Set-of-Mark)、Tool Calling 与 Computer Use 的混合路由,以及为什么 OSWorld 72% 距离生产可用仍有 1-2 个数量级的差距。
Demo 到生产之间隔着四件事——可观测性(Agent 不确定性下唯一的排障手段)、评估(Agent 评估远比 LLM 评估复杂)、成本工程(Token 是新的货币)、安全(Prompt 注入是全新攻击面)。本文给出四件事各自的核心 schema、关键伪代码与最容易踩的坑。
Agent 生态正在走向两极分化——一极是 LangChain/LangGraph 的厚抽象,另一极是 Claude Agent SDK / OpenAI Agents SDK 的薄抽象 + MCP 协议化。本文给出框架选型的八维决策框架、LangGraph 状态机的最小代码、MCP Server/Client 的核心实现,以及 N×M 集成问题的协议化解法。
单 Agent 有四个天花板——context、专业性、可靠性、并行度。多 Agent 协作不是把 Agent 串起来,而是用架构换可靠性。本文给出四种协作模式的核心伪代码、通信机制的 schema 选型、失败传播的处理路径,以及最常被低估的乘法效应数学。
LLM 的 next-token prediction 天然缺乏前瞻和回溯。规划补前瞻、推理补深度、反思补回溯。本文给出 ReAct、Plan-and-Execute、Tree-of-Thought、Hierarchical 四种范式的核心伪代码与适用边界,反思机制的 schema 与终止条件,以及推理时扩展(test-time compute scaling)对 Agent 架构的影响。
LLM 是无状态函数,Agent 必须有状态。本文给出 Agent 记忆的四层结构、各层的读写删伪代码、Chunking 到 Reranking 的完整 RAG 流水线,以及为什么 80% 的 RAG 质量问题在检索侧而非生成侧。
Agent 系统越自主越需要边界。Guardrails 在系统层加入安全护栏:输入侧拦截恶意提示、输出侧过滤危险内容、工具侧约束破坏性操作。Human-in-the-Loop 把人类判断接入关键决策点:不确定性升级、不可逆操作审批、反馈回路。这一篇展开两种模式各自的实现与协同。
Agent 不是只靠一个大循环跑到底。复杂任务通常需要把多步组装成工作流:根据输入选择不同路径(Routing)、把可独立的步骤并行(Parallelization)、把多个步骤链成顺序流水(Chaining)。本文从契约和实现两个角度展开这三种工作流模式,给出何时用、怎么用、容易踩什么坑。
Agent 运行时由三个机制构成:控制循环驱动执行节奏、工具调用打通外部世界、提示词约束 LLM 行为。本文从契约角度展开三者的设计与协作,给出每个机制的核心伪代码、关键 Schema 与生产工程的陷阱清单。
Agent 不是更大的 LLM,而是补齐 LLM 五大局限的系统。本文给出 Agent 的组件分解、Observe-Think-Plan-Act-Reflect-Update 循环的最小落地、自主性 L1-L4 的关键机制差异,以及为什么成本驱动是人工介入率而不是 token 的工程账。
从 LLM 的函数本质出发,定义 Agent 的组件模型与控制循环,绘制十三篇文章的依赖关系,并给出 Agent 不该用的清晰判据。