
关于
从数据准备到模型部署的完整端到端 MLOps 管道编排。
name: ml-pipeline-workflow description: "从数据准备到模型部署的完整端到端 MLOps 流水线编排。" risk: unknown source: community date_added: "2026-02-27"
ML 流水线工作流
从数据准备到模型部署的完整端到端 MLOps 流水线编排。
不适用场景
- 任务与 ML 流水线工作流无关
- 需要此范围之外的不同领域或工具
使用说明
- 明确目标、约束条件和所需输入。
- 应用相关最佳实践并验证结果。
- 提供可操作的步骤和验证方法。
- 如需详细示例,请打开
resources/implementation-playbook.md。
概述
本技能提供构建生产级 ML 流水线的全面指导,涵盖完整生命周期:数据摄取 → 准备 → 训练 → 验证 → 部署 → 监控。
适用场景
- 从零开始构建新的 ML 流水线
- 为 ML 系统设计工作流编排
- 实现数据 → 模型 → 部署的自动化
- 设置可复现的训练工作流
- 创建基于 DAG 的 ML 编排
- 将 ML 组件集成到生产系统中
本技能提供的能力
核心能力
-
流水线架构
- 端到端工作流设计
- DAG 编排模式(Airflow、Dagster、Kubeflow)
- 组件依赖关系和数据流
- 错误处理和重试策略
-
数据准备
- 数据验证和质量检查
- 特征工程流水线
- 数据版本控制和血缘追踪
- 训练/验证/测试集划分策略
-
模型训练
- 训练任务编排
- 超参数管理
- 实验追踪集成
- 分布式训练模式
-
模型验证
- 验证框架和指标
- A/B 测试基础设施
- 性能回归检测
- 模型对比工作流
-
部署自动化
- 模型服务模式
- 金丝雀部署
- 蓝绿部署策略
- 回滚机制
参考文档
详细指南请参见 references/ 目录:
- data-preparation.md - 数据清洗、验证和特征工程
- model-training.md - 训练工作流和最佳实践
- model-validation.md - 验证策略和指标
- model-deployment.md - 部署模式和服务架构
资源和模板
assets/ 目录包含:
- pipeline-dag.yaml.template - 工作流编排的 DAG 模板
- training-config.yaml - 训练配置模板
- validation-checklist.md - 部署前验证清单
使用模式
基础流水线设置
# 1. 定义流水线阶段
stages = [
"data_ingestion",
"data_validation",
"feature_engineering",
"model_training",
"model_validation",
"model_deployment"
]
# 2. 配置依赖关系
# 完整示例请参见 assets/pipeline-dag.yaml.template
生产工作流
-
数据准备阶段
- 从数据源摄取原始数据
- 运行数据质量检查
- 应用特征转换
- 对处理后的数据集进行版本控制
-
训练阶段
- 加载版本化的训练数据
- 执行训练任务
- 追踪实验和指标
- 保存训练好的模型
-
验证阶段
- 运行验证测试套件
- 与基线进行对比
- 生成性能报告
- 批准部署
-
部署阶段
- 打包模型产物
- 部署到服务基础设施
- 配置监控
- 验证生产流量
最佳实践
流水线设计
- 模块化:每个阶段应可独立测试
- 幂等性:重新运行阶段应是安全的
- 可观测性:在每个阶段记录指标
- 版本控制:追踪数据、代码和模型版本
- 故障处理:实现重试逻辑和告警
数据管理
- 使用数据验证库(Great Expectations、TFX)
- 使用 DVC 或类似工具进行数据集版本控制
- 记录特征工程转换过程
- 维护数据血缘追踪
模型运维
- 分离训练和服务基础设施
- 使用模型注册中心(MLflow、Weights & Biases)
- 为新模型实施渐进式发布
- 监控模型性能漂移
- 维护回滚能力
部署策略
- 从影子部署开始
- 使用金丝雀发布进行验证
- 实施 A/B 测试基础设施
- 设置自动回滚触发器
- 监控延迟和吞吐量
集成点
编排工具
- Apache Airflow:基于 DAG 的工作流编排
- Dagster:基于资产的流水线编排
- Kubeflow Pipelines:Kubernetes 原生 ML 工作流
- Prefect:现代数据流自动化
实验追踪
- MLflow 用于实验追踪和模型注册
兼容工具
Claude CodeCursor
标签
AI与机器学习