
关于
设计和实现完整的机器学习管道,覆盖从数据准备到模型部署的全流程。
name: machine-learning-ops-ml-pipeline description: "设计和实施完整的 ML 管道:$ARGUMENTS" risk: unknown source: community date_added: "2026-02-27"
机器学习管道 - 多代理 MLOps 编排
设计和实施完整的 ML 管道:$ARGUMENTS
何时使用此技能
- 处理机器学习管道 - 多代理 MLOps 编排任务或工作流
- 需要机器学习管道 - 多代理 MLOps 编排的指导、最佳实践或检查清单
不要在以下情况使用此技能
- 任务与机器学习管道 - 多代理 MLOps 编排无关
- 你需要此范围之外的不同领域或工具
说明
- 明确目标、约束和所需输入。
- 应用相关最佳实践并验证结果。
- 提供可操作的步骤和验证。
- 如果需要详细示例,打开
resources/implementation-playbook.md。
思考
此工作流编排多个专业代理,按照现代 MLOps 最佳实践构建生产就绪的 ML 管道。方法强调:
- 基于阶段的协调:每个阶段建立在前一阶段的输出之上,代理之间有清晰的交接
- 现代工具集成:MLflow/W&B 用于实验,Feast/Tecton 用于特征,KServe/Seldon 用于服务
- 生产优先思维:每个组件都为规模、监控和可靠性而设计
- 可重现性:数据、模型和基础设施的版本控制
- 持续改进:自动重训练、A/B 测试和漂移检测
多代理方法确保每个方面由领域专家处理:
- 数据工程师处理摄取和质量
- 数据科学家设计特征和实验
- ML 工程师实施训练管道
- MLOps 工程师处理生产部署
- 可观测性工程师确保监控
阶段 1:数据与需求分析
<Task> subagent_type: data-engineer prompt: | 分析并设计 ML 系统的数据管道,需求:$ARGUMENTS交付物:
-
数据源审计和摄取策略:
- 源系统和连接模式
- 使用 Pydantic/Great Expectations 的模式验证
- 使用 DVC 或 lakeFS 的数据版本控制
- 增量加载和 CDC 策略
-
数据质量框架:
- 分析和统计生成
- 异常检测规则
- 数据血缘追踪
- 质量门控和 SLA
-
存储架构:
- 原始/处理/特征层
- 分区策略
- 保留策略
- 成本优化
提供关键组件的实现代码和集成模式。 </Task>
<Task> subagent_type: data-scientist prompt: | 设计特征工程和模型需求:$ARGUMENTS 使用数据架构:{phase1.data-engineer.output}交付物:
-
特征工程管道:
- 转换规范
- 特征存储模式(Feast/Tecton)
- 统计验证规则
- 缺失数据/异常值处理策略
-
模型需求:
- 算法选择理由
- 性能指标和基线
- 训练数据需求
- 评估标准和阈值
-
实验设计:
- 假设和成功指标
- A/B 测试方法论
- 样本量计算
- 偏差检测方法
包含特征转换代码和统计验证逻辑。 </Task>
阶段 2:模型开发与训练
<Task> subagent_type: ml-engineer prompt: | 基于需求实施训练管道:{phase1.data-scientist.output} 使用数据管道:{phase1.data-engineer.output}构建全面的训练系统:
-
训练管道实施:
- 具有清晰接口的模块化训练代码
- 超参数优化(Optuna/Ray Tune)
- 分布式训练支持(Horovod/PyTorch DDP)
- 交叉验证和集成策略
-
实验追踪设置:
- MLflow/Weights & Biases 集成
- 指标记录和可视化
- 工件管理(模型、图表、数据样本)
- 实验比较和分析工具
-
模型注册表集成:
- 版本控制和标签策略
- 模型元数据和血缘
- 晋升工作流(dev -> staging -> prod)
- 回滚程序
提供带配置管理的完整训练代码。 </Task>
<Task> subagent_type: python-pro prompt: | 优化和生产化 ML 代码:{phase2.ml-engineer.output}重点领域:
-
代码质量和结构:
- 重构为生产标准
- 添加全面的错误处理
- 实施结构化格式的正确日志记录
- 创建可重用组件和工具
-
性能优化:
- 分析和优化瓶颈
- 实施缓存策略
- 内存优化
- 并行处理 </Task>
阶段 3:部署与服务
模型服务
- KServe/Seldon 用于模型推理
- 自动扩展和负载均衡
- A/B 测试和金丝雀部署
- 模型版本管理
监控与可观测性
- 模型性能指标追踪
- 数据漂移检测
- 预测质量监控
- 告警和自动响应
持续训练
- 触发式重训练管道
- 数据验证门控
- 模型验证和比较
- 自动化部署审批
限制
- 仅在任务明确匹配上述范围时使用此技能。
- 不要将输出视为环境特定验证、测试或专家审查的替代品。
- 如果缺少所需的输入、权限、安全边界或成功标准,请停下来要求澄清。
兼容工具
Claude CodeCursor
标签
AI与机器学习