机器学习流水线设计

低风险

作者 @sickn33已验证来源

4489 次安装v1.0.0更新于 2026年5月25日

使用方式

在 Claude Code 中运行以下命令

第一步：添加 Marketplace

/plugin marketplace add sickn33/antigravity-awesome-skills

第二步：安装插件

/plugin install machine-learning-ops-ml-pipeline@antigravity-awesome-skills

关于

设计和实现完整的机器学习管道，覆盖从数据准备到模型部署的全流程。

name: machine-learning-ops-ml-pipeline description: "设计和实施完整的 ML 管道：$ARGUMENTS" risk: unknown source: community date_added: "2026-02-27"

机器学习管道 - 多代理 MLOps 编排

设计和实施完整的 ML 管道：$ARGUMENTS

何时使用此技能

处理机器学习管道 - 多代理 MLOps 编排任务或工作流
需要机器学习管道 - 多代理 MLOps 编排的指导、最佳实践或检查清单

不要在以下情况使用此技能

任务与机器学习管道 - 多代理 MLOps 编排无关
你需要此范围之外的不同领域或工具

说明

明确目标、约束和所需输入。
应用相关最佳实践并验证结果。
提供可操作的步骤和验证。
如果需要详细示例，打开 resources/implementation-playbook.md。

思考

此工作流编排多个专业代理，按照现代 MLOps 最佳实践构建生产就绪的 ML 管道。方法强调：

基于阶段的协调：每个阶段建立在前一阶段的输出之上，代理之间有清晰的交接
现代工具集成：MLflow/W&B 用于实验，Feast/Tecton 用于特征，KServe/Seldon 用于服务
生产优先思维：每个组件都为规模、监控和可靠性而设计
可重现性：数据、模型和基础设施的版本控制
持续改进：自动重训练、A/B 测试和漂移检测

多代理方法确保每个方面由领域专家处理：

数据工程师处理摄取和质量
数据科学家设计特征和实验
ML 工程师实施训练管道
MLOps 工程师处理生产部署
可观测性工程师确保监控

阶段 1：数据与需求分析

<Task> subagent_type: data-engineer prompt: | 分析并设计 ML 系统的数据管道，需求：$ARGUMENTS

交付物：

数据源审计和摄取策略：
- 源系统和连接模式
- 使用 Pydantic/Great Expectations 的模式验证
- 使用 DVC 或 lakeFS 的数据版本控制
- 增量加载和 CDC 策略
数据质量框架：
- 分析和统计生成
- 异常检测规则
- 数据血缘追踪
- 质量门控和 SLA
存储架构：
- 原始/处理/特征层
- 分区策略
- 保留策略
- 成本优化

提供关键组件的实现代码和集成模式。 </Task>

<Task> subagent_type: data-scientist prompt: | 设计特征工程和模型需求：$ARGUMENTS 使用数据架构：{phase1.data-engineer.output}

交付物：

特征工程管道：
- 转换规范
- 特征存储模式（Feast/Tecton）
- 统计验证规则
- 缺失数据/异常值处理策略
模型需求：
- 算法选择理由
- 性能指标和基线
- 训练数据需求
- 评估标准和阈值
实验设计：
- 假设和成功指标
- A/B 测试方法论
- 样本量计算
- 偏差检测方法

包含特征转换代码和统计验证逻辑。 </Task>

阶段 2：模型开发与训练

<Task> subagent_type: ml-engineer prompt: | 基于需求实施训练管道：{phase1.data-scientist.output} 使用数据管道：{phase1.data-engineer.output}

构建全面的训练系统：

训练管道实施：
- 具有清晰接口的模块化训练代码
- 超参数优化（Optuna/Ray Tune）
- 分布式训练支持（Horovod/PyTorch DDP）
- 交叉验证和集成策略
实验追踪设置：
- MLflow/Weights & Biases 集成
- 指标记录和可视化
- 工件管理（模型、图表、数据样本）
- 实验比较和分析工具
模型注册表集成：
- 版本控制和标签策略
- 模型元数据和血缘
- 晋升工作流（dev -> staging -> prod）
- 回滚程序

提供带配置管理的完整训练代码。 </Task>

<Task> subagent_type: python-pro prompt: | 优化和生产化 ML 代码：{phase2.ml-engineer.output}

重点领域：

代码质量和结构：
- 重构为生产标准
- 添加全面的错误处理
- 实施结构化格式的正确日志记录
- 创建可重用组件和工具
性能优化：
- 分析和优化瓶颈
- 实施缓存策略
- 内存优化
- 并行处理 </Task>

阶段 3：部署与服务

模型服务

KServe/Seldon 用于模型推理
自动扩展和负载均衡
A/B 测试和金丝雀部署
模型版本管理

监控与可观测性

模型性能指标追踪
数据漂移检测
预测质量监控
告警和自动响应

持续训练

触发式重训练管道
数据验证门控
模型验证和比较
自动化部署审批

限制

仅在任务明确匹配上述范围时使用此技能。
不要将输出视为环境特定验证、测试或专家审查的替代品。
如果缺少所需的输入、权限、安全边界或成功标准，请停下来要求澄清。

兼容工具

Claude CodeCursor

机器学习流水线设计

关于

name: machine-learning-ops-ml-pipeline description: "设计和实施完整的 ML 管道：$ARGUMENTS" risk: unknown source: community date_added: "2026-02-27"

机器学习管道 - 多代理 MLOps 编排

何时使用此技能

不要在以下情况使用此技能

说明

思考

阶段 1：数据与需求分析

阶段 2：模型开发与训练

阶段 3：部署与服务

模型服务

监控与可观测性

持续训练

限制

兼容工具

标签

相关推荐

RAG系统工程师

批量重构编排

Docx 文档处理

Azure AI Agents Java SDK

Azure Search 文档搜索

Azure AI Agent框架