
关于
高级评估技能,用于对 AI 代理系统进行深度性能评估和质量分析。
name: advanced-evaluation description: 当用户要求"实现 LLM 作为评判者"、"比较模型输出"、"创建评估标准"、"缓解评估偏差",或提到直接评分、成对比较、位置偏差、评估流水线或自动化质量评估时,应使用此技能。 risk: safe source: community date_added: 2026-03-18
高级评估
此技能涵盖使用 LLM 作为评判者来评估 LLM 输出的生产级技术。它将学术论文、行业实践和实际实施经验的研究综合为可操作的模式,用于构建可靠的评估系统。
核心洞察:LLM 作为评判者不是单一技术,而是一系列方法,每种方法适用于不同的评估场景。选择正确的方法并缓解已知偏差是此技能培养的核心能力。
何时使用
在以下情况下激活此技能:
- 为 LLM 输出构建自动化评估流水线
- 比较多个模型响应以选择最佳响应
- 在评估团队中建立一致的质量标准
- 调试显示不一致结果的评估系统
- 为 prompt 或模型变更设计 A/B 测试
- 为人工或自动化评估创建评分标准
- 分析自动化评判与人工评判之间的相关性
核心概念
评估分类体系
评估方法分为两个主要类别,具有不同的可靠性特征:
直接评分:单个 LLM 在定义的量表上对一个响应进行评分。
- 最适合:客观标准(事实准确性、指令遵循、毒性)
- 可靠性:对于定义明确的标准为中等到高
- 失败模式:评分校准漂移、量表解释不一致
成对比较:LLM 比较两个响应并选择更好的一个。
- 最适合:主观偏好(语气、风格、说服力)
- 可靠性:对于偏好评估高于直接评分
- 失败模式:位置偏差、长度偏差
MT-Bench 论文(Zheng et al., 2023)的研究表明,成对比较在基于偏好的评估中与人类评判者的一致性高于直接评分,而直接评分仍然适用于具有明确基准真相的客观标准。
偏差全景
LLM 评判者表现出必须主动缓解的系统性偏差:
位置偏差:在成对比较中,第一位置的响应获得优先待遇。缓解方法:交换位置评估两次,使用多数投票或一致性检查。
长度偏差:无论质量如何,较长的响应获得更高评分。缓解方法:明确提示忽略长度,长度归一化评分。
自我增强偏差:模型对自己的输出评分更高。缓解方法:使用不同的模型进行生成和评估,或承认局限性。
冗余偏差:即使不必要,详细解释也会获得更高分数。缓解方法:特定标准的评分标准,惩罚无关细节。
权威偏差:无论准确性如何,自信、权威的语气获得更高评分。缓解方法:要求证据引用,事实核查层。
指标选择框架
根据评估任务结构选择指标:
| 任务类型 | 主要指标 | 次要指标 | |-----------|-----------------|-------------------| | 二元分类(通过/失败) | 召回率、精确率、F1 | Cohen's κ | | 序数量表(1-5 评分) | Spearman's ρ、Kendall's τ | Cohen's κ(加权) | | 成对偏好 | 一致率、位置一致性 | 置信度校准 | | 多标签 | 宏 F1、微 F1 | 每标签精确率/召回率 |
关键洞察:高绝对一致性不如系统性分歧模式重要。在特定标准上持续与人类不一致的评判者比具有随机噪声的评判者问题更大。
评估方法
直接评分实现
直接评分需要三个组件:明确的标准、校准的量表和结构化的输出格式。
标准定义模式:
Criterion: [Name]
Description: [What this criterion measures]
Weight: [Relative importance, 0-1]
量表校准:
- 1-3 量表:带中性选项的二元,最低认知负荷
- 1-5 量表:标准 Likert,粒度和可靠性的良好平衡
- 1-10 量表:高粒度但更难校准,仅在有详细评分标准时使用
直接评分的 Prompt 结构:
You are an expert evaluator assessing response quality.
## Task
Evaluate the following response against each criterion.
## Original Prompt
{prompt}
## Response to Evaluate
{response}
## Criteria
{for each criterion: name, description, weight}
## Instructions
For each criterion:
1. Find specific evidence in the response
2. Score according to the rubric (1-{max} scale)
3. Justify your score with evidence
4. Suggest one specific improvement
## Output Format