AI工程工具箱

低风险

作者 @sickn33已验证来源

4.8203 次安装v1.0.0更新于 2026年5月25日

使用方式

在 Claude Code 中运行以下命令

第一步：添加 Marketplace

/plugin marketplace add sickn33/antigravity-awesome-skills

第二步：安装插件

/plugin install antigravity-awesome-skills@antigravity-awesome-skills

关于

6 个生产级 AI 工程工作流：提示词评估（8 维评分）、上下文预算规划、RAG 管道设计、代理安全审计（65 点检查清单）、评估框架构建和产品感教练。

name: ai-engineering-toolkit description: "6个生产就绪的AI工程工作流：提示词评估（8维度评分）、上下文预算规划、RAG管道设计、Agent安全审计（65项检查清单）、评估框架构建和产品思维辅导。" category: data-ai risk: offensive source: community date_added: "2026-03-15" author: viliawang-pm tags: [prompt-engineering, rag, security, evaluation, ai-engineering, llm] tools: [claude, cursor, gemini, copilot]

AI工程工具包

概述

包含6个结构化、专家级工作流的集合，将你的AI编程助手转变为高级AI工程合作伙伴。每个技能编码了一套可重复的方法论——不仅仅是"让AI来帮忙"，而是带有量化评分、检查清单和决策树的逐步决策框架。

与临时AI辅助的关键区别：每个工作流都能产生一致、可复现的结果，无论谁在何时运行。你可以将评分系统作为团队基准，并将其写入CI/CD流水线。

何时使用此技能

在生产部署前评估或优化LLM系统提示词时使用
设计RAG管道并需要结构化架构决策（而非仅仅是样板代码）时使用
规划上下文窗口各区域的token预算分配时使用
对AI Agent进行上线前安全审计时使用
为LLM应用构建评估框架时使用
在编写代码前思考产品策略时使用

工作原理

技能1：提示词评估器

从8个维度（清晰度、具体性、完整性、简洁性、结构性、接地性、安全性、鲁棒性）对提示词进行1-10分评分，通过加权聚合得出0-100的总分。识别3个最弱维度，生成针对性重写，并重新评估。支持单提示词、A/B对比和批量评估模式。

技能2：上下文预算规划器

分析5个上下文区域（系统、少样本、用户输入、检索、输出）的token分布，并生成优化的分配方案。包含每个区域的压缩策略决策树。常见发现：输出区域被压缩到6%以下——此技能能在截断发生前捕获这个问题。

技能3：RAG管道架构师

引导完成完整的架构决策树：文档格式→解析策略→分块方法（固定/语义/递归）→嵌入模型选择→检索方法（向量/关键词/混合）→评估指标（忠实度、相关性、上下文精确度）。涵盖Naive RAG、Advanced RAG和Modular RAG模式。

技能4：Agent安全卫士

⚠️ 仅限授权使用 此技能仅用于教育目的或授权安全评估。使用此工具前必须获得系统所有者的明确书面许可。滥用此工具是违法的，严格禁止。

执行5个攻击类别的65项红队审计：直接提示词注入、间接提示词注入（通过RAG文档）、信息提取（系统提示词/API密钥泄露）、工具滥用（SQL注入、路径遍历、命令注入）和目标劫持。AI构建对抗性测试提示词用于评估目的，在每个测试阶段前请求用户确认，判断通过/失败，并生成修复建议。所有测试都在评估上下文中进行，不与外部系统交互。建议在沙箱环境（Docker/VM）中运行审计。

技能5：评估框架构建器

为LLM应用设计评估指标系统。包含LLM-as-Judge评分框架及偏差缓解策略（位置偏差、冗长偏差、自我增强偏差）。输出CI/CD就绪的评估流水线模板。

技能6：产品思维教练

5阶段引导对话框架：深挖动机→评估市场机会→寻找路径→设计场景→分析竞争。适用于在编写任何代码前思考"我们是否应该构建这个？"。

示例

示例1：提示词评估

提问："评估这个系统提示词"

You are a customer support agent. Help users with their questions. Be nice and helpful.

结果：总分28/100。最弱维度：安全性（1/10，零注入防护）、具体性（2/10，无输出格式）、结构性（2/10，无分节）。自动重写得分82/100，添加了范围边界、响应格式、升级规则和安全防护。

示例2：安全审计

提问："对我的客服Agent运行安全审计"

结果：执行65项测试。发现3个严重失败：Base64编码指令绕过、通过工具调用的路径遍历、通过角色扮演的系统提示词提取。为每项提供修复建议。

最佳实践

✅ 在任何生产部署前运行提示词评估器——设定团队基准（如≥70/100）
✅ 在开发早期使用上下文预算规划器

兼容工具

Claude CodeCursor

AI工程工具箱

关于

AI工程工具包

概述

何时使用此技能

工作原理

技能1：提示词评估器

技能2：上下文预算规划器

技能3：RAG管道架构师

技能4：Agent安全卫士

技能5：评估框架构建器

技能6：产品思维教练

示例

示例1：提示词评估

示例2：安全审计

最佳实践

兼容工具

标签

相关推荐

RAG系统工程师

批量重构编排

Docx 文档处理

Azure AI Agents Java SDK

Azure Search 文档搜索

Azure AI Agent框架