
关于
透视任何 AI 模型的行为模式 — 拒绝边界、幻觉倾向、推理风格、格式默认值。无需 API 密钥。
name: bdistill-behavioral-xray description: "透视任何AI模型的行为模式——拒绝边界、幻觉倾向、推理风格、格式默认值。无需API密钥。" category: ai-testing risk: safe source: community date_added: "2026-03-20" author: FrancyJGLisboa tags: [ai, testing, behavioral-analysis, model-evaluation, red-team, compliance, mcp] tools: [claude, cursor, codex, copilot]
行为透视
系统性探测AI模型的行为模式并生成可视化报告。AI代理探测自身——无需API密钥或外部设置。
概述
bdistill的行为透视在6个维度上运行30个精心设计的探测问题,自动为每个响应标记行为元数据,并将结果编译为带有雷达图和可操作洞察的样式化HTML报告。
用它来在构建之前了解你的模型、比较模型以选择任务、或跟踪行为随时间的漂移。
何时使用此技能
- 想了解AI模型实际行为(而非它声称的行为)时使用
- 为特定任务在模型间做选择时使用
- 调试意外拒绝、幻觉或格式问题时使用
- 合规审计——记录部署边界处的模型行为时使用
- 红队评估——跨安全维度的系统性边界映射时使用
工作原理
步骤1:安装
pip install bdistill
claude mcp add bdistill -- bdistill-mcp # Claude Code
对于其他工具,在项目配置中将 bdistill-mcp 添加为MCP服务器。
步骤2:运行探测
在Claude Code中:
/xray # 完整行为探测(30个问题)
/xray --dimensions refusal # 仅探测一个维度
/xray-report # 从已完成的探测生成报告
在任何支持MCP的工具中:
"X-ray your behavioral patterns"
"Test your refusal boundaries"
"Generate a behavioral report"
探测维度
| 维度 | 测量内容 | |-----------|-----------------| | tool_use | 何时调用工具vs从知识中回答? | | refusal | 安全边界在哪里?是否过度拒绝? | | formatting | 列表vs散文?代码块?长度校准? | | reasoning | 是否展示思维链?如何处理陷阱问题? | | persona | 身份、语调匹配、面对敌意时的镇定 | | grounding | 幻觉抵抗、捏造陷阱、知识边界 |
输出
样式化HTML报告显示:
- 拒绝率、模糊率、思维链使用率
- 按维度细分的条形图
- 带行为标签的典型响应示例
- 可操作洞察(例如,"你已经85%的时间展示CoT,无需在提示中要求")
最佳实践
- 诚实回答探测问题——价值在于真实的行为数据
- 定期在同一模型上运行探测以跟踪行为漂移
- 跨模型比较报告以做出明智的选择决策
- 将对抗性知识提取(
/distill --adversarial)与行为探测结合使用以获得完整的模型画像
相关技能
@bdistill-knowledge-extraction- 从任何AI模型提取结构化领域知识
限制
- 仅在任务明确匹配上述范围时使用此技能。
- 不要将输出视为环境特定验证、测试或专家审查的替代品。
- 如果缺少必需的输入、权限、安全边界或成功标准,请停下来要求澄清。
兼容工具
Claude CodeCursor
标签
AI与机器学习