
关于
构建能回答真实运维问题的监控仪表盘,适用于 Grafana、SigNoz 等平台。用于将指标转化为实用的工作仪表盘而非虚荣面板。
name: dashboard-builder description: 构建能回答真实运维问题的监控仪表板,适用于 Grafana、SigNoz 等平台。当需要将指标转化为可操作的仪表板而非虚荣面板时使用。 origin: ECC direct-port adaptation version: "1.0.0"
仪表板构建器
当任务是构建一个人们可以据此操作的仪表板时使用此技能。
目标不是"展示每个指标"。目标是回答:
- 它健康吗?
- 瓶颈在哪里?
- 什么发生了变化?
- 应该采取什么行动?
何时使用
- "构建一个 Kafka 监控仪表板"
- "为 Elasticsearch 创建一个 Grafana 仪表板"
- "为这个服务制作一个 SigNoz 仪表板"
- "将这个指标列表转化为真正的运维仪表板"
防护规则
- 不要从视觉布局开始;从运维问题开始
- 不要仅仅因为指标存在就全部包含
- 不要在没有结构的情况下混合健康、吞吐量和资源面板
- 不要发布没有标题、单位和合理阈值的面板
工作流程
1. 定义运维问题
围绕以下方面组织:
- 健康/可用性
- 延迟/性能
- 吞吐量/流量
- 饱和度/资源
- 服务特定风险
2. 研究目标平台 schema
先检查现有仪表板:
- JSON 结构
- 查询语言
- 变量
- 阈值样式
- 分区布局
3. 构建最小可用面板
推荐结构:
- 概览
- 性能
- 资源
- 服务特定部分
4. 删除虚荣面板
每个面板都应该回答一个真实问题。如果不能,移除它。
示例面板集
Elasticsearch
- 集群健康
- 分片分配
- 搜索延迟
- 索引速率
- JVM 堆/GC
Kafka
- Broker 数量
- 副本不足的分区
- 消息入/出
- 消费者延迟
- 磁盘和网络压力
API 网关/入口
- 请求速率
- p50 / p95 / p99 延迟
- 错误率
- 上游健康
- 活跃连接数
质量检查清单
- [ ] 有效的仪表板 JSON
- [ ] 清晰的分区分组
- [ ] 标题和单位已填写
- [ ] 阈值/状态颜色有意义
- [ ] 常用过滤器有变量
- [ ] 默认时间范围和刷新间隔合理
- [ ] 没有对运维无价值的虚荣面板
相关技能
research-opsbackend-patternsterminal-ops
兼容工具
Claude CodeCursor
标签
数据工程

