
关于
生产级机器学习工程工作流,涵盖数据契约、可复现训练、模型评估、部署、监控和回滚。适用于构建、审查或加固超越一次性 Notebook 的 ML 系统。
name: mle-workflow description: 生产级机器学习工程工作流,涵盖数据契约、可复现训练、模型评估、部署、监控和回滚。在构建、审查或加固超越一次性 notebook 的 ML 系统时使用。 origin: ECC
机器学习工程工作流
使用此技能将模型工作转化为生产级 ML 系统,具备清晰的数据契约、可重复的训练、可衡量的质量门禁、可部署的制品和运维监控。
何时激活
- 规划或审查生产级 ML 功能、模型刷新、排序系统、推荐系统、分类器、嵌入工作流或预测流水线
- 将 notebook 代码转换为可复用的训练、评估、批量推理或在线推理流水线
- 设计模型晋升标准、离线/在线评估、实验追踪或回滚路径
- 调试由数据漂移、标签泄漏、过期特征、制品不匹配或训练与服务逻辑不一致导致的故障
- 添加模型监控、金丝雀发布、影子流量或部署后质量检查
范围校准
仅使用适合当前系统的通道。此技能适用于排序、搜索、推荐、分类器、预测、嵌入、LLM 工作流、异常检测和批量分析,但不应将一种架构强加于所有场景。
- 不要假设每个模型都有监督标签、在线服务、特征存储、PyTorch、GPU、人工审核、A/B 测试或实时反馈。
- 当数据契约、基线、评估脚本和回滚说明就能使变更可审查时,不要添加重量级 MLOps 机制。
- 当项目缺少标签、延迟结果、切片定义、生产流量或监控所有权时,要明确假设。
- 将示例视为可互换的脚手架。用项目原生等价物替换指标、服务模式、数据存储和发布机制。
相关技能
python-patterns和python-testing用于 Python 实现和 pytest 覆盖pytorch-patterns用于深度学习模型、数据加载器、设备处理和训练循环eval-harness和ai-regression-testing用于晋升门禁和智能体辅助回归检查database-migrations、postgres-patterns和clickhouse-io用于数据存储和分析层deployment-patterns、docker-patterns和security-review用于服务、密钥、容器和生产加固
复用 SWE 层面
不要将 MLE 视为与软件工程分离的领域。大多数 ECC SWE 工作流直接适用于 ML 系统,通常具有更严格的失败模式:
推荐的 minimal --with capability:machine-learning 安装保持核心智能体层面与此技能一起可用。对于仅技能或智能体受限的环境,在目标支持智能体的地方将 skill:mle-workflow 与 agent:mle-reviewer 配对。
| SWE 层面 | MLE 用途 |
|----------|----------|
| product-capability / architecture-decision-records | 将模型工作转化为明确的产品契约,记录不可逆的数据、模型和发布决策 |
| repo-scan / codebase-onboarding / code-tour | 在引入并行 ML 栈之前找到现有的训练、特征、服务、评估和监控路径 |
| plan / feature-dev | 将模型变更作为产品能力来规划,包含数据、评估、服务和回滚阶段 |
| tdd-workflow / python-testing | 在实现前测试特征转换、分割逻辑、指标计算、制品加载和推理 Schema |
| code-reviewer / mle-reviewer | 审查代码质量加上 ML 特定的泄漏、可复现性、晋升和监控风险 |
| build-fix / pr-test-analyzer | 诊断损坏的 CI、不稳定的评估、缺失的 fixture 和环境特定的模型或依赖故障 |
| quality-gate / test-coverage | 要求转换、指标、推理契约、晋升门禁和回滚行为的自动化证据 |
| eval-harness / verification-loop | 将离线指标、切片检查、延迟预算和回滚演练转化为可重复的门禁 |
| ai-regression-testing | 将每个生产 bug 保存为回归:缺失特征、过期标签、坏制品、Schema 漂移或服务不匹配 |
| api-design / backend-patterns | 设计预测 API、批处理作业、幂等重训练端点和响应信封 |
| database-migrations / postgres-patterns / clickhouse-io | 版本化标签、特征快照、预测日志、实验指标和漂移分析 |
| deployment-patterns / docker-patterns | 打包可复现的训练和服务镜像,带健康检查、资源限制和回滚 |
| canary-watch / dashboard-builder | 通过模型版本、切片、漂移、延迟、成本和延迟标签仪表板使发布健康可见 |
| security-review / security-scan | 检查模型制品、notebook、p
