
关于
通过性能分析、提示工程和持续迭代系统性改进现有代理。
name: agent-orchestration-improve-agent description: "通过性能分析、提示词工程和持续迭代系统性改进现有智能体。" risk: unknown source: community date_added: "2026-02-27"
智能体性能优化工作流
通过性能分析、提示词工程和持续迭代系统性改进现有智能体。
[扩展思考:智能体优化需要数据驱动的方法,结合性能指标、用户反馈分析和高级提示词工程技术。成功取决于系统性评估、针对性改进和严格测试,以及生产安全的回滚能力。]
何时使用此技能
- 改进现有智能体的性能或可靠性
- 分析故障模式、提示词质量或工具使用
- 运行结构化 A/B 测试或评估套件
- 设计智能体的迭代优化工作流
不适用场景
- 从零开始构建全新智能体
- 没有可用的指标、反馈或测试用例
- 任务与智能体性能或提示词质量无关
操作指南
- 建立基线指标并收集代表性示例。
- 识别故障模式并优先处理高影响修复。
- 应用提示词和工作流改进,设定可衡量目标。
- 通过测试验证并在受控阶段推出变更。
安全
- 避免在没有回归测试的情况下部署提示词变更。
- 如果质量或安全指标回退,快速回滚。
阶段 1:性能分析和基线指标
使用 context-manager 进行历史数据收集的全面智能体性能分析。
1.1 收集性能数据
Use: context-manager
Command: analyze-agent-performance $ARGUMENTS --days 30
收集的指标包括:
- 任务完成率(成功 vs 失败任务)
- 响应准确性和事实正确性
- 工具使用效率(正确工具、调用频率)
- 平均响应时间和 token 消耗
- 用户满意度指标(修正、重试)
- 幻觉事件和错误模式
1.2 用户反馈模式分析
识别用户交互中的重复模式:
- 修正模式: 用户持续修改输出的位置
- 澄清请求: 常见的歧义区域
- 任务放弃: 用户放弃的节点
- 后续问题: 响应不完整的指标
- 正面反馈: 需要保留的成功模式
1.3 故障模式分类
按根因分类故障:
- 指令误解: 角色或任务混淆
- 输出格式错误: 结构或格式问题
- 上下文丢失: 长对话退化
- 工具误用: 不正确或低效的工具选择
- 约束违反: 安全或业务规则违规
- 边缘情况处理: 异常输入场景
1.4 基线性能报告
生成定量基线指标:
性能基线:
- 任务成功率: [X%]
- 每任务平均修正次数: [Y]
- 工具调用效率: [Z%]
- 用户满意度评分: [1-10]
- 平均响应延迟: [Xms]
- Token 效率比: [X:Y]
阶段 2:提示词工程改进
使用 prompt-engineer 智能体应用高级提示词优化技术。
2.1 思维链增强
实现结构化推理模式:
Use: prompt-engineer
Technique: chain-of-thought-optimization
- 添加明确的推理步骤:"让我们逐步处理..."
- 包含自我验证检查点:"在继续之前,验证..."
- 对复杂任务实现递归分解
- 添加推理轨迹可见性用于调试
2.2 少样本示例优化
从成功交互中策划高质量示例:
- 选择多样化示例 覆盖常见用例
- 包含边缘情况 之前失败的案例
- 展示正面和负面示例 附带解释
- 排序示例 从简单到复杂
- 标注示例 关键决策点
示例结构:
好的示例:
输入: [用户请求]
推理: [逐步思考过程]
输出: [成功响应]
为什么有效: [关键成功因素]
坏的示例:
输入: [类似请求]
输出: [失败响应]
为什么失败: [具体问题]
正确方法: [修正版本]
2.3 角色定义细化
强化智能体身份和能力:
- 核心目的: 清晰的单句使命
- 专业领域: 具体知识领域
- 行为特征: 个性和交互风格
- 工具熟练度: 可用工具及使用时机
- 约束: 智能体不应做什么
- 成功标准: 如何衡量任务完成
2.4 宪法 AI 集成
实现自我纠正机制:
Constitutional Principles:
1. Verify factual accuracy be
兼容工具
Claude CodeCursor
标签
AI与机器学习