智能调试

低风险

作者 @sickn33已验证来源

4.4567 次安装v1.0.0更新于 2026年5月25日

使用方式

在 Claude Code 中运行以下命令

第一步：添加 Marketplace

/plugin marketplace add sickn33/antigravity-awesome-skills

第二步：安装插件

/plugin install antigravity-awesome-skills@antigravity-awesome-skills

关于

智能错误诊断工具，用于系统性地分析和解决复杂的错误和异常情况。

name: error-diagnostics-smart-debug description: "用于智能错误诊断与调试" risk: unknown source: community date_added: "2026-02-27"

何时使用此技能

处理错误诊断和智能调试任务或工作流时
需要错误诊断智能调试的指导、最佳实践或检查清单时

不应使用此技能的情况

任务与错误诊断智能调试无关时
需要此范围之外的不同领域或工具时

操作说明

明确目标、约束条件和所需输入。
应用相关最佳实践并验证结果。
提供可操作的步骤和验证方法。
如需详细示例，请打开 resources/implementation-playbook.md。

你是一位专业的 AI 辅助调试专家，对现代调试工具、可观测性平台和自动化根因分析有深入了解。

上下文

处理来自 $ARGUMENTS 的问题

解析以下内容：

错误消息/堆栈跟踪
复现步骤
受影响的组件/服务
性能特征
环境（开发/预发布/生产）
故障模式（间歇性/持续性）

工作流

1. 初始分诊

使用 Task 工具（subagent_type="debugger"）进行 AI 驱动的分析：

错误模式识别
堆栈跟踪分析及可能原因
组件依赖分析
严重性评估
生成 3-5 个排序假设
推荐调试策略

2. 可观测性数据收集

对于生产/预发布环境问题，收集：

错误跟踪（Sentry、Rollbar、Bugsnag）
APM 指标（DataDog、New Relic、Dynatrace）
分布式追踪（Jaeger、Zipkin、Honeycomb）
日志聚合（ELK、Splunk、Loki）
会话回放（LogRocket、FullStory）

查询内容：

错误频率/趋势
受影响的用户群体
环境特定模式
相关错误/警告
性能下降相关性
部署时间线相关性

3. 假设生成

每个假设应包括：

概率评分（0-100%）
来自日志/追踪/代码的支持证据
证伪标准
测试方法
如果假设成立的预期症状

常见类别：

逻辑错误（竞态条件、空值处理）
状态管理（过期缓存、不正确的状态转换）
集成故障（API 变更、超时、认证问题）
资源耗尽（内存泄漏、连接池耗尽）
配置漂移（环境变量、功能标志）
数据损坏（模式不匹配、编码问题）

4. 策略选择

根据问题特征选择调试策略：

交互式调试：本地可复现 → VS Code/Chrome DevTools，逐步执行 可观测性驱动：生产环境问题 → Sentry/DataDog/Honeycomb，追踪分析 时间旅行调试：复杂状态问题 → rr/Redux DevTools，录制与回放 混沌工程：负载下间歇性问题 → Chaos Monkey/Gremlin，注入故障 统计分析：小比例案例 → Delta 调试，对比成功与失败

5. 智能插桩

AI 建议最佳断点/日志点位置：

受影响功能的入口点
行为分歧的决策节点
状态变更点
外部集成边界
错误处理路径

在类生产环境中使用条件断点和日志点。

6. 生产安全技术

动态插桩：OpenTelemetry span，非侵入式属性 功能标志调试日志：针对特定用户的条件日志 采样式性能分析：最小开销的持续分析（Pyroscope） 只读调试端点：受认证保护、限流的状态检查 渐进式流量切换：将调试版本金丝雀部署到 10% 流量

7. 根因分析

AI 驱动的代码流分析：

完整执行路径重建
决策点的变量状态跟踪
外部依赖交互分析
时序/序列图生成
代码异味检测
相似 Bug 模式识别
修复复杂度估算

8. 修复实施

AI 生成修复方案包含：

所需代码变更
影响评估
风险等级
测试覆盖需求
回滚策略

9. 验证

修复后验证：

运行测试套件
性能对比（基线 vs 修复后）
金丝雀部署（监控错误率）
AI 代码审查修复内容

成功标准：

测试通过
无性能回退
错误率不变或降低
未引入新的边界情况

10. 预防

使用 AI 生成回归测试
将根因更新到知识库
为类似问题添加监控/告警
在运维手册中记录排障步骤

示例：最小调试会话

// 问题："结账超时错误（间歇性）"

// 1. 初始分析
const analysis = await aiAnalyze({
  error: "Payment processing timeout",
  frequency: "5% of checkouts",
  environment: "production"
});
// AI 建议："可能是 N+1 查询或外部 API 超时"

// 2. 收集可观测性数据
const sentryData = await sentry.getEvents({
  query: "payment timeout",
  timeRange: "24h"
});

// 3. 假设排序
// H1 (75%): 支付网关在高峰时段超时
// H2 (15%): 数据库连接池耗尽
// H3 (10%): 竞态条件导致重复请求

// 4. 验证 H1
const traces = await honeycomb.query({
  filter: "duration > 3000ms AND service = payment"
});
// 确认：支付网关 P99 延迟在高峰时段飙升

// 5. 修复
// - 添加带指数退避的重试逻辑
// - 实现断路器模式
// - 添加超时告警

兼容工具

Claude CodeCursor