
关于
为代理系统构建评估框架。适用于系统性测试代理性能、验证上下文工程选择或衡量改进效果。
name: evaluation description: "构建智能体系统的评估框架。用于系统性测试智能体性能、验证上下文工程选择或衡量改进效果。" risk: safe source: "https://github.com/muratcankoylan/Agent-Skills-for-Context-Engineering/tree/main/skills/evaluation" date_added: "2026-02-27"
何时使用此技能
构建智能体系统的评估框架
当需要构建智能体系统评估框架时使用此技能。
智能体系统的评估方法
智能体系统的评估需要与传统软件甚至标准语言模型应用不同的方法。智能体做出动态决策,在不同运行之间具有非确定性,且通常缺乏唯一正确答案。有效的评估必须考虑这些特性,同时提供可操作的反馈。一个健壮的评估框架能够实现持续改进、捕获回归问题,并验证上下文工程选择是否达到预期效果。
何时使用
在以下情况下激活此技能:
- 系统性测试智能体性能
- 验证上下文工程选择
- 衡量改进效果
- 在部署前捕获回归问题
- 为智能体流水线构建质量门禁
- 比较不同的智能体配置
- 持续评估生产系统
核心概念
智能体评估需要以结果为导向的方法,考虑非确定性和多条有效路径。多维评分标准捕获各种质量方面:事实准确性、完整性、引用准确性、来源质量和工具效率。LLM-as-judge 提供可扩展的评估,而人工评估则捕获边缘情况。
关键洞察是智能体可能找到达成目标的替代路径——评估应该判断它们是否在遵循合理流程的同时达成了正确的结果。
性能驱动因素:95% 发现 对 BrowseComp 评估(测试浏览智能体定位难以找到的信息的能力)的研究发现,三个因素解释了 95% 的性能方差:
| 因素 | 方差解释比例 | 启示 | |--------|-------------------|-------------| | Token 使用量 | 80% | 更多 token = 更好的性能 | | 工具调用次数 | ~10% | 更多探索有帮助 | | 模型选择 | ~5% | 更好的模型倍增效率 |
这一发现对评估设计有重要启示:
- Token 预算很重要:使用现实的 token 预算评估智能体,而非无限资源
- 模型升级优于增加 token:升级到 Claude Sonnet 4.5 或 GPT-5.2 比在旧版本上加倍 token 预算带来更大收益
- 多智能体验证:该发现验证了将工作分配给具有独立上下文窗口的多个智能体的架构
详细主题
评估挑战
非确定性和多条有效路径 智能体可能采取完全不同的有效路径来达成目标。一个智能体可能搜索三个来源,而另一个搜索十个。它们可能使用不同的工具找到相同的答案。检查特定步骤的传统评估在此场景下会失败。
解决方案是以结果为导向的评估,判断智能体是否在遵循合理流程的同时达成了正确的结果。
上下文相关的失败 智能体的失败通常以微妙的方式依赖于上下文。智能体可能在简单查询上成功但在复杂查询上失败。它可能在一组工具下运行良好但在另一组下失败。失败可能仅在上下文累积后的长时间交互中才会出现。
评估必须覆盖一系列复杂度级别,并测试扩展交互,而不仅仅是孤立的查询。
复合质量维度 智能体质量不是单一维度。它包括事实准确性、完整性、连贯性、工具效率和流程质量。智能体可能在准确性上得分高但效率低,反之亦然。
评估标准必须捕获多个维度,并根据用例进行适当加权。
评估标准设计
多维评分标准 有效的评分标准覆盖关键维度并提供描述性级别:
事实准确性:声明与基准事实匹配(优秀到失败)
完整性:输出覆盖请求的各个方面(优秀到失败)
引用准确性:引用与声称的来源匹配(优秀到失败)
来源质量:使用适当的主要来源(优秀到失败)
工具效率:合理次数使用正确的工具(优秀到失败)
评分标准打分 将维度评估转换为数值分数(0.0 到 1.0),并进行适当加权。计算加权总分。根据用例需求确定通过阈值。
评估方法论
LLM-as-Judge 基于 LLM 的评估可扩展到大型测试集并提供一致的判断。关键是设计有效的评估提示,捕获感兴趣的维度。
提供