
关于
智能事件响应修复工作流,利用 AI 辅助调试工具和可观测性平台系统性地诊断和解决生产问题
name: incident-response-smart-fix description: "[扩展思考:此工作流实现了一个复杂的调试和解决管道,利用AI辅助调试工具和可观测性平台系统性地诊断和解决生产问题]" risk: unknown source: community date_added: "2026-02-27"
多智能体协调的智能问题解决
[扩展思考:此工作流实现了一个复杂的调试和解决管道,利用AI辅助调试工具和可观测性平台系统性地诊断和解决生产问题。智能调试策略将自动化根因分析与人类专业知识相结合,使用2024/2025年的现代实践,包括AI代码助手(GitHub Copilot、Claude Code)、可观测性平台(Sentry、DataDog、OpenTelemetry)、用于回归追踪的git bisect自动化,以及分布式追踪和结构化日志等生产安全调试技术。该流程遵循严格的四阶段方法:(1)问题分析阶段 - error-detective和debugger智能体分析错误追踪、日志、复现步骤和可观测性数据,以理解故障的完整上下文,包括上下游影响;(2)根因调查阶段 - debugger和code-reviewer智能体执行深度代码分析、自动化git bisect以识别引入提交、依赖兼容性检查和状态检查,以隔离确切的故障机制;(3)修复实施阶段 - 领域特定智能体(python-pro、typescript-pro、rust-expert等)实施最小修复,并提供全面的测试覆盖,包括单元测试、集成测试和边界用例测试,同时遵循生产安全实践;(4)验证阶段 - test-automator和performance-engineer智能体运行回归套件、性能基准测试、安全扫描,并验证没有引入新问题。跨多个系统的复杂问题需要专家智能体之间的协调配合(database-optimizer → performance-engineer → devops-troubleshooter),具有明确的上下文传递和状态共享。该工作流强调理解根因而非治标、实施持久的架构改进、通过增强监控和告警自动化检测,以及通过类型系统增强、静态分析规则和改进的错误处理模式防止未来发生。成功不仅以问题解决来衡量,还以平均恢复时间(MTTR)的减少、类似问题的预防和系统韧性的提升来衡量。]
何时使用此技能
- 处理多智能体协调的智能问题解决任务或工作流时
- 需要多智能体协调的智能问题解决的指导、最佳实践或检查清单时
不适用场景
- 任务与多智能体协调的智能问题解决无关时
- 需要此范围之外的其他领域或工具时
操作说明
- 明确目标、约束条件和所需输入。
- 应用相关最佳实践并验证结果。
- 提供可执行的步骤和验证方法。
- 如需详细示例,请打开
resources/implementation-playbook.md。
资源
resources/implementation-playbook.md提供详细的模式和示例。
局限性
- 仅在任务明确匹配上述范围时使用此技能。
- 不要将输出视为环境特定验证、测试或专家审查的替代品。
- 如果缺少所需输入、权限、安全边界或成功标准,请停下来寻求澄清。