
关于
Token 预算顾问,帮助优化 AI 交互中的 Token 使用和成本控制。
name: token-budget-advisor description: >- 在回答之前,为用户提供关于消耗多少响应深度的知情选择。当用户明确想要控制响应长度、深度或token预算时使用此技能。 触发条件:"token预算"、"token计数"、"token用量"、"token限制"、"响应长度"、"回答深度"、"简短版本"、"简要回答"、"详细回答"、"完整回答",或用户明确要求控制回答大小或深度的类似变体。 不触发条件:用户在当前会话中已指定级别(保持该级别)、请求明显只需一个词的回答,或"token"指的是认证/会话/支付令牌而非响应大小。 origin: community
Token预算顾问 (TBA)
在Claude回答之前拦截响应流程,为用户提供关于响应深度的选择。
何时使用
- 用户想要控制响应的长度或详细程度
- 用户提到token、预算、深度或响应长度
- 用户说"简短版本"、"摘要"、"简要"、"25%"、"完整版"等
- 任何时候用户想要预先选择深度/详细级别
不触发条件:用户在本次会话中已设置级别(静默保持),或答案显然只需一行。
工作原理
第1步 — 估算输入token数
使用仓库的标准上下文预算启发式方法来估算提示的token数量。
使用与 context-budget 相同的校准指南:
- 散文:
words × 1.3 - 代码密集或混合/代码块:
chars / 4
对于混合内容,使用主要内容类型并保持估算启发式方法。
第2步 — 按复杂度估算响应大小
对提示进行分类,然后应用乘数范围来获取完整响应窗口:
| 复杂度 | 乘数范围 | 示例提示 | |--------|----------|----------| | 简单 | 3× – 8× | "X是什么?"、是/否、单一事实 | | 中等 | 8× – 20× | "X是如何工作的?" | | 中高 | 10× – 25× | 带上下文的代码请求 | | 复杂 | 15× – 40× | 多部分分析、比较、架构 | | 创意 | 10× – 30× | 故事、文章、叙事写作 |
响应窗口 = input_tokens × mult_min 到 input_tokens × mult_max(但不超过模型配置的输出token限制)。
第3步 — 展示深度选项
在回答之前展示此区块,使用实际估算数字:
正在分析您的提示...
输入:~[N] tokens | 类型:[type] | 复杂度:[level] | 语言:[lang]
选择您的深度级别:
[1] 精要 (25%) -> ~[tokens] 仅直接回答,无前言
[2] 适中 (50%) -> ~[tokens] 回答 + 上下文 + 1个示例
[3] 详细 (75%) -> ~[tokens] 完整回答含替代方案
[4] 完整 (100%) -> ~[tokens] 全部内容,无限制
选择哪个级别?(1-4 或说"25%深度"、"50%深度"、"75%深度"、"100%深度")
精度:启发式估算约85-90%准确率(±15%)。
级别token估算(在响应窗口内):
- 25% →
min + (max - min) × 0.25 - 50% →
min + (max - min) × 0.50 - 75% →
min + (max - min) × 0.75 - 100% →
max
第4步 — 按选定级别响应
| 级别 | 目标长度 | 包含 | 省略 | |------|----------|------|------| | 25% 精要 | 最多2-4句 | 直接回答、关键结论 | 上下文、示例、细微差别、替代方案 | | 50% 适中 | 1-3段 | 回答 + 必要上下文 + 1个示例 | 深度分析、边缘情况、参考文献 | | 75% 详细 | 结构化响应 | 多个示例、优缺点、替代方案 | 极端边缘情况、详尽参考文献 | | 100% 完整 | 无限制 | 所有内容 — 完整分析、所有代码、所有视角 | 无 |
快捷方式 — 跳过提问
如果用户已经表明了级别,立即按该级别响应,无需询问:
| 用户说的话 | 级别 | |-----------|------| | "1" / "25%深度" / "简短版本" / "简要回答" / "摘要" | 25% | | "2" / "50%深度" / "适中深度" / "平衡回答" | 50% | | "3" / "75%深度" / "详细回答" / "全面回答" | 75% | | "4" / "100%深度" / "完整回答" / "全部内容" / "无限制" | 100% |
