AI 智能体的有效上下文工程

原文：Effective Context Engineering for AI Agents 作者：Anthropic Applied AI 团队 — Prithvi Rajasekaran、Ethan Dixon、Carly Ryan、Jeremy Hadfield，以及 Rafi Ayub、Hannah Moran、Cal Rueb、Connor Jennings 等人的贡献。发布日期：2025 年 9 月 29 日

引言

上下文工程代表着开发者使用语言模型方式的一次范式转变。与其仅仅关注如何写出完美的提示词，这个领域正在朝着一个新方向演进——"什么样的上下文配置最有可能引导模型产生我们期望的行为？"

上下文是指在对 LLM 进行采样时所包含的 token。工程挑战在于如何在 LLM 的约束条件下优化 token 的效用以达成期望的结果。这要求开发者"以上下文的思维方式思考"——考虑模型可用的完整状态，以及它可能产生的各种行为。

上下文工程 vs. 提示词工程

Anthropic 将上下文工程视为提示词工程的自然演进。提示词工程关注的是如何最优地编写和组织指令，而上下文工程则管理推理过程中的整个 token 集合，包括系统指令、工具、模型上下文协议（MCP）连接、外部数据以及消息历史。

早期的 AI 工程主要围绕提示词进行一次性任务的优化。现代智能体开发则需要在多轮推理和更长时间跨度中管理完整的上下文状态。随着智能体在循环中运行，它们会产生越来越多可能相关的数据，需要不断进行周期性的精炼。上下文工程是"从不断演变的可能信息宇宙中，筛选出放入有限上下文窗口中内容的艺术与科学"。

为什么上下文工程对构建强大的智能体至关重要

LLM 和人类一样，随着上下文的增长会出现注意力退化。针对"大海捞针"基准测试的研究揭示了"上下文腐蚀"现象——随着 token 数量增加，模型回忆信息的准确率会下降。

上下文必须被视为有限且收益递减的资源。就像人类拥有"有限的工作记忆容量"一样，LLM 也拥有一个"注意力预算"，每一个新 token 都会消耗这个预算，因此需要精心管理。

这种稀缺性源于架构上的约束。Transformer 架构使得每个 token 都能"关注到上下文中的其他每一个 token"，对于 n 个 token 会产生 n² 的成对关系。随着上下文长度的增加，捕获这些关系变得越来越困难，在上下文规模和注意力集中度之间产生了张力。

模型从训练数据中发展出的注意力模式主要基于较短的序列，这使得它们在处理全上下文范围的依赖关系时经验不足。位置编码插值等技术允许模型处理更长的序列，但会在一定程度上降低位置理解能力。这造成的是一个性能梯度而非悬崖——模型在长上下文中仍然具有能力，但在信息检索和长距离推理方面精度会有所下降。

有效上下文的解剖

优秀的上下文工程致力于找到"最小的高信号 token 集合，以最大化某个期望结果的可能性"。

系统提示词

系统提示词应当极其清晰，使用直接的语言，并且处于针对智能体的"正确高度"。这意味着在两种失败模式之间找到最佳平衡点：

过于具体： 工程师硬编码复杂且脆弱的逻辑，造成脆弱性和维护复杂性
过于模糊： 高层级的指导无法提供具体的信号，或错误地假设存在共享上下文

最优的方式是"足够具体以有效引导行为，同时又足够灵活以为模型提供强有力的启发式规则"。

组织建议包括使用 XML 标签或 Markdown 标题划分不同的区块（背景信息、指令、工具指导、输出描述）。从使用最佳可用模型的最小提示词开始，然后根据测试中发现的失败模式，逐步迭代地添加指令和示例。

工具

工具使智能体能够在其环境中运作，并动态拉取额外的上下文。由于工具定义了智能体与其信息/行动空间之间的契约，它们必须通过高效的 token 返回和高效的智能体行为来促进效率。

工具应当：

自包含且对错误具有鲁棒性
对预期用途表述极其清晰
输入参数描述性强且无歧义

一个常见的失败模式是工具集臃肿且功能重叠。如果人类工程师都无法确定性地判断某个情境应该使用哪个工具，那智能体同样无法做到。精心筛选最小可行工具集可以提高可靠性，并在长时间交互中改善上下文剪裁。

示例与少样本提示

提供多样化的规范示例是传达期望智能体行为的有效方式。与其将边界情况塞入提示词中，不如精心组织有代表性的示例——"示例是 LLM 的'一图胜千言'"。

上下文检索与智能体搜索

业界正在逐渐接受一个简洁的定义：智能体就是"在循环中自主使用工具的 LLM"。

从预检索到即时上下文

传统的现代 AI 应用采用基于嵌入的推理前检索来呈现重要的上下文。智能体方法越来越多地使用"即时"上下文策略——智能体维护轻量级的标识符（文件路径、存储的查询、网页链接），并在运行时使用工具动态加载数据。

Anthropic 的 Claude Code 在复杂数据库分析中展示了这种方法。模型不会加载完整的数据对象，而是编写有针对性的查询、存储结果，并使用 head 和 tail 等 Bash 命令来分析大量数据，而不消耗上下文。这类似于人类的认知方式——我们不会记忆整个语料库，而是维护外部组织系统（如文件系统和书签）来按需检索。

渐进式披露

来自引用的元数据能有效地精炼行为。文件组织方式、命名约定和时间戳提供的信号帮助人类和智能体理解如何以及何时使用信息。

自主检索实现了渐进式披露——智能体通过探索逐步发现相关上下文。文件大小暗示复杂度；命名约定暗示用途；时间戳指示相关性。智能体逐层构建理解，仅维护必要的工作记忆，同时利用笔记进行持久化。

权衡与混合方法

运行时探索以速度换取灵活性。如果没有适当的引导，智能体会因为工具误用、走入死胡同或信息遗漏而浪费上下文。

有效的智能体可以采用混合策略——预先检索一些数据以提高速度，同时在自己判断需要时进行自主探索。Claude Code 就是一个例子：CLAUDE.md 文件在初始时即被加入上下文，而 glob 和 grep 原语则实现了即时的文件检索，绕过了过时的索引和复杂的语法问题。

随着模型的改进，智能体设计的趋势是让智能模型在更少的人工策划下智能地行动。当前的最佳实践："做最简单的有效方案。"

长期任务的上下文工程

需要较长时间（从几十分钟到数小时）的长期任务会超出上下文窗口的限制。与其等待更大的窗口，开发者应该通过以下三种技术直接解决上下文污染和相关性问题：

压缩（Compaction）

压缩是在对话接近上下文限制时进行摘要，并用摘要重新初始化新窗口，使智能体能够以最小的退化继续工作。

Claude Code 通过让模型总结和压缩消息历史中的关键细节来实现这一点，保留架构决策、未解决的 bug 和实现细节，同时丢弃冗余的工具输出。然后智能体使用压缩后的上下文加上最近访问的文件继续工作。

成功的关键在于平衡激进压缩（可能丢失关键上下文）和最大化召回率。首先最大化召回率，然后通过消除多余内容来提高精确率。工具结果清理是一种安全、轻量的压缩方式——已作为 Claude 开发者平台的一项功能推出。

结构化笔记

智能体记忆将笔记持久化存储在上下文窗口之外，在需要时重新拉取。这以最小的开销提供了持久化记忆。Claude Code 创建待办列表；自定义智能体维护 NOTES.md 文件。这种模式跟踪复杂任务中的进度，维护在数十次工具调用中可能丢失的关键上下文和依赖关系。

Claude 玩宝可梦的案例展示了记忆在非编程领域的变革力量，在数千步中维护精确的计数（"在过去 1,234 步中，我一直在 1 号路线训练我的宝可梦，皮卡丘已经朝着目标 10 级提升了 8 级"）。在没有显式记忆结构提示的情况下，它发展出地图、记住成就并维护战斗策略笔记。

作为 Sonnet 4.5 发布的一部分，Anthropic 推出了公开测试版的记忆工具，使智能体能够通过基于文件的系统在上下文之外存储和查阅信息，随时间构建知识库并跨会话维护状态。

子智能体架构

与其让一个智能体在整个项目中维护状态，不如让专门化的子智能体处理聚焦的任务并使用干净的窗口。主智能体使用高层计划进行协调，而子智能体执行深入工作，返回精炼的摘要（通常 1,000-2,000 个 token），尽管它们可能进行了大量的探索。

这实现了清晰的关注点分离——详细的搜索上下文保持在子智能体中隔离，而主导智能体负责综合结果。关于多智能体系统的研究表明，在复杂的研究任务中，多智能体方法相比单智能体方法有显著的提升。

选择标准

压缩： 适用于需要大量来回交互的任务，维护对话流
笔记： 擅长处理具有明确里程碑的迭代开发
多智能体架构： 处理受益于并行探索的复杂研究和分析

即使模型不断改进，在长时间交互中维护一致性仍然是构建有效智能体的核心。

结论

上下文工程从根本上改变了开发者使用 LLM 的方式。随着模型变得越来越强大，挑战已经超越了编写完美提示词的范畴——它涉及在每一步中周到地策划进入模型有限注意力预算中的信息。

无论是为长期任务实现压缩、设计 token 高效的工具，还是支持环境探索，原则始终不变：找到最小的高信号 token 集合，最大化期望结果的可能性。

随着模型的改进，技术也会演变。更智能的模型需要更少的规定性工程，从而获得更大的自主权。然而，将上下文视为珍贵且有限的资源，对于构建可靠、有效的智能体而言，将始终是至关重要的。

可以在 Claude 开发者平台上开始上下文工程实践，并通过记忆与上下文管理教程获取技巧和最佳实践。

致谢： 由 Anthropic Applied AI 团队撰写：Prithvi Rajasekaran、Ethan Dixon、Carly Ryan 和 Jeremy Hadfield，Rafi Ayub、Hannah Moran、Cal Rueb 和 Connor Jennings 也做出了贡献。特别感谢 Molly Vorwerck、Stuart Ritchie 和 Maggie Vo。

━━━ fin ━━━

If you read this far — thank you.
Come tell me what you thought on X.