
关于
6 个生产级 AI 工程工作流:提示词评估(8 维评分)、上下文预算规划、RAG 管道设计、代理安全审计(65 点检查清单)、评估框架构建和产品感教练。
name: ai-engineering-toolkit description: "6个生产就绪的AI工程工作流:提示词评估(8维度评分)、上下文预算规划、RAG管道设计、Agent安全审计(65项检查清单)、评估框架构建和产品思维辅导。" category: data-ai risk: offensive source: community date_added: "2026-03-15" author: viliawang-pm tags: [prompt-engineering, rag, security, evaluation, ai-engineering, llm] tools: [claude, cursor, gemini, copilot]
AI工程工具包
概述
包含6个结构化、专家级工作流的集合,将你的AI编程助手转变为高级AI工程合作伙伴。每个技能编码了一套可重复的方法论——不仅仅是"让AI来帮忙",而是带有量化评分、检查清单和决策树的逐步决策框架。
与临时AI辅助的关键区别:每个工作流都能产生一致、可复现的结果,无论谁在何时运行。你可以将评分系统作为团队基准,并将其写入CI/CD流水线。
何时使用此技能
- 在生产部署前评估或优化LLM系统提示词时使用
- 设计RAG管道并需要结构化架构决策(而非仅仅是样板代码)时使用
- 规划上下文窗口各区域的token预算分配时使用
- 对AI Agent进行上线前安全审计时使用
- 为LLM应用构建评估框架时使用
- 在编写代码前思考产品策略时使用
工作原理
技能1:提示词评估器
从8个维度(清晰度、具体性、完整性、简洁性、结构性、接地性、安全性、鲁棒性)对提示词进行1-10分评分,通过加权聚合得出0-100的总分。识别3个最弱维度,生成针对性重写,并重新评估。支持单提示词、A/B对比和批量评估模式。
技能2:上下文预算规划器
分析5个上下文区域(系统、少样本、用户输入、检索、输出)的token分布,并生成优化的分配方案。包含每个区域的压缩策略决策树。常见发现:输出区域被压缩到6%以下——此技能能在截断发生前捕获这个问题。
技能3:RAG管道架构师
引导完成完整的架构决策树:文档格式→解析策略→分块方法(固定/语义/递归)→嵌入模型选择→检索方法(向量/关键词/混合)→评估指标(忠实度、相关性、上下文精确度)。涵盖Naive RAG、Advanced RAG和Modular RAG模式。
技能4:Agent安全卫士
⚠️ 仅限授权使用 此技能仅用于教育目的或授权安全评估。 使用此工具前必须获得系统所有者的明确书面许可。 滥用此工具是违法的,严格禁止。
执行5个攻击类别的65项红队审计:直接提示词注入、间接提示词注入(通过RAG文档)、信息提取(系统提示词/API密钥泄露)、工具滥用(SQL注入、路径遍历、命令注入)和目标劫持。AI构建对抗性测试提示词用于评估目的,在每个测试阶段前请求用户确认,判断通过/失败,并生成修复建议。所有测试都在评估上下文中进行,不与外部系统交互。建议在沙箱环境(Docker/VM)中运行审计。
技能5:评估框架构建器
为LLM应用设计评估指标系统。包含LLM-as-Judge评分框架及偏差缓解策略(位置偏差、冗长偏差、自我增强偏差)。输出CI/CD就绪的评估流水线模板。
技能6:产品思维教练
5阶段引导对话框架:深挖动机→评估市场机会→寻找路径→设计场景→分析竞争。适用于在编写任何代码前思考"我们是否应该构建这个?"。
示例
示例1:提示词评估
提问:"评估这个系统提示词"
You are a customer support agent. Help users with their questions. Be nice and helpful.
结果:总分28/100。最弱维度:安全性(1/10,零注入防护)、具体性(2/10,无输出格式)、结构性(2/10,无分节)。自动重写得分82/100,添加了范围边界、响应格式、升级规则和安全防护。
示例2:安全审计
提问:"对我的客服Agent运行安全审计"
结果:执行65项测试。发现3个严重失败:Base64编码指令绕过、通过工具调用的路径遍历、通过角色扮演的系统提示词提取。为每项提供修复建议。
最佳实践
- ✅ 在任何生产部署前运行提示词评估器——设定团队基准(如≥70/100)
- ✅ 在开发早期使用上下文预算规划器