
关于
通过裁剪冗余上下文、管理 Token 使用和强制超简洁直达价值的响应来优化 AI 代理性能
name: recursive-context-pruning-token-budgeting description: "通过裁剪冗余上下文、管理 token 使用量和强制超简洁、直达价值的响应来优化 AI 代理性能。" category: prompt-engineering risk: safe source: self source_repo: Kench001/antigravity-awesome-skills source_type: self date_added: "2026-05-03" author: Kench001 tags: [efficiency, token-optimization, brevity, context-management] tools: [claude, cursor, gemini]
递归上下文裁剪与 Token 预算管理
概述
此技能实现了一种"守门人"逻辑,防止上下文窗口膨胀和不必要的 token 消耗。它确保代理仅处理相关数据片段,并遵循原子精度协议——以零对话填充词交付功能性答案。通过递归总结状态和剥离"桥接短语",它最大化了长期运行开发工作流的持久性和速度。
何时使用此技能
- 构建多步骤代理时使用,防止长对话中的重复和"记忆漂移"。
- 处理大型文档集或代码库时使用,避免将整个文件倾倒到提示中。
- 需要纯功能性输出(代码/逻辑)而不需要"当然!这是你的..."开头时使用。
工作原理
步骤 1:元数据分片
扫描可用数据的标题、摘要和关键指标。创建上下文的"地图"而非注入完整源文件。除非请求特定的缩小片段,否则永远不要将整个文件拉入提示。
步骤 2:Token 预算分配
根据当前上下文窗口计算"安全响应限制"。分配 30% 用于当前逻辑处理,20% 用于即时输出,50% 用于未来上下文缓冲。
步骤 3:原子输出过滤
剥离所有"桥接短语"(例如"我已更新代码"、"根据你的请求"、"当然")。直接以解决方案或代码块开始响应。
步骤 4:歧义检查
在执行步骤 3 之前,扫描缺失的关键变量(例如特定文件名或环境类型)。如果提示过于模糊,绕过原子输出并生成恰好一个简洁问题来解决阻塞。
步骤 5:抽象压缩
将当前轮次总结为"压缩状态字符串"(例如 [Project: Feasify | State: Auth-Fixed | Remaining-Tasks: 2]),以在下一个提示之前丢弃冗余对话数据。
示例
示例 1:过滤后的代码输出(无填充)
User: "Update the Firebase config to use environment variables."
const firebaseConfig = {
apiKey: process.env.VITE_FIREBASE_API_KEY,
authDomain: process.env.VITE_FIREBASE_AUTH_DOMAIN,
projectId: process.env.VITE_FIREBASE_PROJECT_ID
};
示例 2:必要的澄清
User: "Deploy the function."
"Specify environment: production or staging?"
最佳实践
- ✅ 直接开始: 将代码或答案放在响应的第一个字符处。
- ✅ 边走边总结: 将 10 页讨论变成下一轮的 5 个要点。
- ✅ 省略签名: 永远不要以"如果需要更多帮助请告诉我"结尾。
- ❌ 无桥接短语: 避免"这是代码"、"当然"或"我可以帮你"。
- ❌ 不要猜测: 如果缺少输入,立即提问而不是浪费 token 在通用猜测上。
限制
- 此技能不能替代特定环境的验证、测试或专家审查。
- 极端简洁有时可能隐藏重要细微差别;对关键注释使用简洁的内联注释(
// crucial step)。
安全注意事项
- 在压缩阶段永远不要裁剪安全头、特定环境的安全约束或系统级指令。
- 将原始系统指令保持在上下文的"根"位置,以防止基于上下文丢失的越狱攻击。
常见陷阱
-
问题: 响应过于简短,缺乏实施所需的上下文。 解决方案: 使用简洁的内联代码注释代替单独的文本段落。
-
问题: 由于过度压缩,代理丢失了总体目标。 解决方案: 始终将"主要目标"固定在每个裁剪后提示的顶部。
相关技能
@atomic-precision-response- 专门用于移除对话填充词。@context-sharding- 用于管理大规模文档映射。
兼容工具
Claude CodeCursor
标签
AI与机器学习