构建高效智能体

过去一年，我们与跨行业的数十个团队合作构建大语言模型（LLM）智能体。始终如一，最成功的实现并没有使用复杂的框架或专门的库。相反，它们是用简单、可组合的模式构建的。

在本文中，我们将分享与客户合作以及自己构建智能体所学到的经验，并为开发人员提供构建高效智能体的实用建议。

什么是智能体（agents）

”Agent“可以有多种定义方式。有些客户将agent定义为在较长时间段内独立运行、使用各种工具完成复杂任务的完全自主系统。另一些客户则用这个词来描述遵循预定义工作流的更规范化的实现方式。在Anthropic，我们将所有这些变体归类为智能体系统（agentic systems），但在架构上有一个重要区分：工作流和智能体的区别是：

工作流是通过预定义代码路径编排大语言模型和工具的系统。
智能体则是由大语言模型动态引导自身流程和工具使用的系统，由其掌控如何完成任务。

下面，我们将详细探讨这两种类型的智能体系统。在附录1（「实践中的智能体」）中，我们描述了客户在使用这种系统时发现特别有价值的两个领域。

何时使用（以及何时不使用）智能体

"在使用大语言模型构建应用时，我们建议尽可能找到最简单的解决方案，仅在需要时才增加复杂性。这可能意味着根本不需要构建智能体系统。智能体系统通常以延迟和成本为代价来获得更好的任务性能，你应该考虑这么做是否合理且有性价比。

当确实需要更高的复杂性时，工作流为定义明确的任务提供可预测性和一致性，而智能体则是需要大规模灵活性和型驱动决策时的更好选择。然而，对于许多应用而言，通过检索和上下文示例来优化单次大语言模型调用通常就非常的够用。

何时以及如何使用框架

有很多框架可以简化智能体系统的实现，包括：

Claude Agent SDK
Strands Agents SDK by AWS
Rivet, 拖拽式的GUI LLM工作流构建工具
Vellum, 另一个GUI工具，可以用来构建和测试复杂的工作流

这些框架通过简化标准低级任务（如调用大语言模型、定义和解析工具、以及链式调用）让上手变得容易。然而，它们往往会创建额外的抽象层，可能会掩盖底层的提示和响应，使调试变得更加困难。它们还可能诱使你使用复杂的功能来完成非常简单的事情。

我们建议开发人员直接从使用大语言模型API开始：许多模式只需几行代码就能实现。如果你确实使用框架，要确保你理解底层的代码。对底层实现的不正确理解和假设，是使用者遇到错误的常见原因。

可以查看我们的 cookbook 来获得一些简单的例子。

构建模块、工作流和智能体

在本节中，我们将探讨在生产环境中常见的智能体系统模式。我们将从基础构建模块开始增强型大语言模型并逐步增加复杂性，从简单的组合式工作流到自主智能体。

构建模块：增强型大语言模型

智能体系统的基本构建模块是通过检索、工具和记忆等增强功能提升的大语言模型。我们当前的模型可以主动使用这些能力，生成自己的搜索查询、选择合适的工具，以及确定要保留哪些信息。

我们建议专注于实现的两个关键方面：将这些能力定制到你的特定用例，并确保它们为大语言模型提供简单、文档完善的接口。

虽然实现这些增强功能的方式有很多，但其中一种方法是通过我们最近发布的MCP协议（Model Context Protocol），它允许开发人员通过简单的客户端实现与不断增长的第三方工具生态系统集成。

在本文的后续部分，我们将假设每次大语言模型调用都可以访问这些增强功能。

工作流：提示词链

提示词链将一个任务分解为一系列步骤，其中每次大语言模型调用都处理前一步的输出。你可以在任何中间步骤添加程序化检查（见下图中的"gate"）以确保过程仍在正确轨道上。

何时使用此工作流：此工作流适用于任务可以轻松清晰地分解为固定子任务的情况。主要目标是通过让每次大语言模型调用成为更简单的任务，以牺牲响应速度来换取更高的准确性。

下面的场景中，提示词链会非常有用：

生成营销文案，然后将其翻译成另一种语言
编写文档大纲，检查大纲是否符合特定标准，然后根据大纲撰写文档。

工作流：路由

路由对输入进行分类并将其引导到专门的后续任务。此工作流实现了关注点分离，并能够构建更专门的提示词。如果没有此工作流，针对一种特定任务进行优化可能会损害其他任务的性能。

何时使用此工作流：路由适用于那些有明确类别、更适合分别处理的复杂任务，并且分类可以由大语言模型或更传统的分类模型/算法准确处理的情况。

下面的场景中，路由会非常有用：

将不同类型的客户服务查询（一般问题、退款请求、技术支持）引导到不同的下游流程、提示和工具。
将简单/常见问题引导到更小、更具成本效益的模型（如Claude Haiku4.5），将困难/不常见问题引导到能力更强的模型（如Claude Sonnet 4.5），以优化整体性能。

工作流：并行化

大语言模型有时可以同时处理一个任务，并以程序化方式汇总其输出。这种工作流，并行化表现为两种主要变体：

分段：将任务分解为并行运行的独立子任务。
投票：多次运行同一任务以获得多样化的输出。

何时使用此工作流：当划分的子任务可以并行处理以提高速度，或者需要多个视角或尝试以获得更可信的结果时，并行化是有效的。对于有多个考虑因素的复杂任务，当每个考虑因素由单独的大语言模型调用处理时，大语言模型通常表现更好，这样以集中注意力处理每个特定方面。

下面的场景中，并行化非常有用：

分段：
- 实现防护机制，其中一个模型实例处理用户查询，而另一个实例筛选不当内容或请求。这通常比让同一个大语言型调用同时处理防护机制和核心响应表现更好。
- 自动化评估以评估大语言模型性能，其中每次大语言模型调用评估模型在给定提示词上的性能差异和表现差异。
投票：
- 审查代码中的安全漏洞，使用多个不同的提示词审查代码，发现问题并标记。
- 评估给定内容是否不当，使用多个提示词评估不同方面或要求不同的投票阈值，以平衡误报和漏报。

工作流：编排器-工作者

在编排器-工作者工作流中，一个中央大语言模型动态分解任务，将其委派给工作器大语言模型，并综合它们的结果。

何时使用此工作流：此工作流适用于无法预测所需子任务的复杂任务（例如，在编程中，需要修改的文件数量以及每个文件中修改的性质可能取决于任务）。虽然在拓扑结构上相似，但与并行化的关键区别在于其灵活的子任务不是预定义的，而是由编排器根据具体输入确定的。

下面的场景中，编排器-工作者非常有用：

每次对多个文件进行复杂修改的编码产品。
涉及从多个来源收集和分析信息以寻找可能相关信息的搜索任务。

工作流：评估器-优化器

在评估器-优化器工作流中，一个大语言模型调用生成响应，而另一个调用在循环中提供评估和反馈。

何时使用此工作流：当我们有明确的评估标准，且迭代优化能提供可衡量的价值时，此工作流特别有效。c出现下面两个迹象就应该考虑这个工作流：首先，当人类明确表达反馈时，大语言模型的响应可以明显改善；其次，大语言模型能够提供此类反馈，这类似于人类作者在精修文档内容时可能经历的迭代更改的过程。

下面的场景中，评估器-优化器非常有用：

文学翻译，翻译者大语言模型可能最初无法捕捉其中的细微差别，但评估器大语言模型可以提供有用的批评。
复杂搜索任务，需要多轮搜索和分析以收集全面信息，评估器决定是否需要进一步搜索。

智能体（agents）

随着大语言模型在关键能力上的成熟——理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复，智能体正在生产环境中不断涌现。智能体的工作始于来自用户的指令或与用户的互动对话。一旦任务明确，智能体会独立规划和运作，可能会回到人类那里获取更多信息或决策结果。在执行过程中，智能体在每一步都从环境中获取“真实数据”（如工具调用结果或代码执行）以评估其进展，这至关重要。智能体还可以在检查点或遇到阻碍时暂停以取人工反馈。任务通常在完成后终止，但包含停止条件（如最大迭代次数）以保持控制也是很常见的。

智能体可以处理复杂任务，但其实现通常很直接。它们通常只是在循环中基于环境反馈使用工具的大语言模型。因此，清晰而周到地设计工具集及其文档至关重要。我们在附录2（“工具的提示工程”）中详细阐述了工具开发的最佳实践。

何时使用智能体：智能体可用于难以或无法预测所需步骤数量，且无法硬编码固定路径的开放式问题。大语言模型可能会运行多轮，你必须对其决策有一定程度的信任。智能体的自主性使其成为在可信环境中扩展任务的理想选择

智能体的自主性意味着更高的成本，以及错误累积的可能性。我们建议在沙盒环境中进行广泛测试，并采取适当的护措施。

下面的场景中，智能体非常有用：

以下示例来自我们自己的实现：

一个编码智能体，用于解决SWE-bench任务，涉及根据任务描述对多个文件进行编辑。
我们的“计算机使用”参考实现，其中Claude使用计算机来完成任务。

组合和定制这些模式

这些构建模块并非规范性要求。它们是常见模式，开发人员可以对其进行塑造和组合以适应不同的用例。如同任何大语言模型功能一样，成功的关键在于衡量性能并对实现进行迭代。重申一次：只有在复杂性能明显改善结果时，才应该考虑增加复杂性。

总结

在大语言模型领域，成功不在于构建最复杂的系统，而在于为你的需求构建合适的系统。从简单的提示词开始，通过全面的评估来优化它们，只有在更简单的解决方案不足时才添加多步智能体系统。

在实现智能体时，我们尝试遵循三个核心原则：

保持智能体设计的简单性。
通过明确显示智能体的规划步骤来实现对用户的透明度。
通过对自己的工具文档和测试的深度思考来精心设计智能体-计算机接口（ACI）。

框架可以帮助你快速上手，但在转向生产环境时，不要犹豫减少抽象层并使用基本组件进行构建。通过遵循这些原则你可以创建出不仅强大而且可靠、可维护且受用户信任的智能体。

附录1：实践中的智能体

我们与客户的合作揭示了两个特别有前景的人工智能智能体应用，展示了上述讨论的模式的实际价值。这两个应用都说明了智能体如何为那些既需要对话又需要行动、具有明确成功标准、支持反馈循环并包含有意义的人工监督的任务中极具价值。

A. 客户支持

客户支持将熟悉的聊天机器人界面与通过工具集成增强的功能相结合。对于更开放性的智能体来说，这是非常天然适合，因为：

客户支持交互流程，自然地遵循对话流程，同时需要访问外部信息和执行操作；
可以集成工具来提取客户数据、订单历史和知识库文章；
诸如退款或更新工单等操作可以通过程序化方式处理；
成功与否可以明确的通过用户定义的解决方案来衡量。

几家公司的基于使用量的定价模型仅对成功的解决方案收费，展示了这种方法的可行性，表明对其智能体效果的信赖。

B. 编码智能体

软件开发领域展示了大语言模型功能的非凡潜力，只能体的能力从代码补全演变为自主问题解决。智能体在这个领域特别有效，因为：

代码解决方案可以通过自动化测试进行验证；
智能能体可以使用测试结果作为反馈来迭代解决方案；
问题空间是定义明确且结构化的；
输出质量可以客观衡量。

在我们自己的实现中，智能体在SWE-bench Verified基准测试中现在可以仅根据拉取请求描述，解决真实的GitHub问题。然而，虽然自动化测试有助于验证功能，但人工审查对于确保解决方案符合更广泛的系统要求仍然至关重要。

附录2：工具的提示词工程

无论你正在构建哪种智能体系统，可能工具都是你的智能体的重要组成部分。工具使 Claude 能够与外部服务和 API进行交互，方法是在我们的 API 中指定它们的精确结构和定义。当 Claude响应时，如果它计划调用某个工具，会在 API 响应中包含一个工具使用块。工具的定义和规范应该与你的整体提示词一样，需要同等程度的提示工程关注。在这个简短的附录中，我们将介绍如何对你的工具进行提示工程。

通常有多种方式可以指定同一个操作。例如，你可以通过编写差异（diff）来指定文件编辑，也可以通过重写整个件来实现。对于结构化输出，你可以将代码放在 markdown 中返回，也可以放在 JSON中返回。在软件工程中，这些差异只是表面形式的，可以无损地相互转换。然而，对于大语言模型来说，某些格式其他格式更难编写。编写差异需求时，需要在新代码写入之前，就在块头中知道有多少行发生了变化。将代码写在 JSON中（相比于 markdown）需要对换行符和引号进行额外的转义处理。

我们对于决定工具格式的建议如下：

给模型足够的 token 来"思考"，以免它把自己写入死角。
保持格式接近模型在互联网文本中自然见过的形式。
确保没有格式"开销"，例如必须准确计算数千行代码的行数，或者对它编写的任何代码进行字符串转义。

一个经验法则是，想想在人机交互界面（HCI）上投入了多少精力，然后计划在创建良好的智能体-计算机交互界面（ACI）上投入同样多的精力。以下是一些关于如何做到这一点的思考：

站在模型的角度思考。根据描述和参数，如何使用这个工具是否显而易见，还是需要仔细思考？如果是后者，那对模型来说可能也是如此。一个好的工具定义通常包括使用示例、边界情况、输入格式要求，以及与其他工具的清界限。
如何修改参数名称或描述来使事情更加明显？可以把这想象成为团队中的初级开发者编写一份优秀的文档字符串当使用许多相似的工具时，这一点尤为重要。
测试模型如何使用你的工具：在我们的工作台中运行大量示例输入，查看模型会犯哪些错误，然后进行迭代改进
对你的工具进行防错设计（Poka-yoke）。修改参数，使其更难出错。

在为 SWE-bench 构建我们的智能体时，我们实际上花在优化工具上的时间比优化整体提示词的时间更多。例如，我们发现当智能体移出根目录后，模型在使用相对文件路径的工具时会出错。为了解决这个问题，我们将工具改为始要求使用绝对文件路径，结果发现模型能够完美无误地使用这种方法。

译者评注

这篇文章虽然文章虽然发布在2024年12月份，但是自己认为这篇博文是智能体中非常有分量的一篇文章，它完整的阐述了，构建智能的基本原则，以及智能体本身之外的工作模式和这些模式的适用场景。自己经常反复去阅读这篇文章，来反思在构建Agent中，自己的选择是否是符合需求的，是否过度设计了。

原文: Building effective agents