
关于
A/B 测试设置结构化指南,包含假设、指标和执行就绪性的强制检查门
name: ab-test-setup description: "A/B 测试设置的结构化指南,包含假设、指标和执行就绪性的强制门控。" risk: unknown source: community date_added: "2026-02-27"
A/B 测试设置
1. 目的与范围
确保每个 A/B 测试在编写任何一行代码之前都是有效、严谨且安全的。
- 防止"偷看"
- 强制统计功效
- 阻止无效假设
2. 前提条件
你必须具备:
- 明确的用户问题
- 访问分析数据源的权限
- 大致估算的流量
假设质量检查清单
有效假设包括:
- 观察或证据
- 单一、具体的变更
- 方向性预期
- 定义的受众
- 可衡量的成功标准
3. 假设锁定(硬性门控)
在设计变体或指标之前,你必须:
- 提出最终假设
- 指定:
- 目标受众
- 主指标
- 预期效果方向
- 最小可检测效应(MDE)
明确询问:
"这是我们为此测试承诺的最终假设吗?"
在确认之前不要继续。
4. 假设与有效性检查(必需)
明确列出关于以下方面的假设:
- 流量稳定性
- 用户独立性
- 指标可靠性
- 随机化质量
- 外部因素(季节性、营销活动、发布)
如果假设薄弱或被违反:
- 警告用户
- 建议推迟或重新设计测试
5. 测试类型选择
选择最简单的有效测试:
- A/B 测试 -- 单一变更,两个变体
- A/B/n 测试 -- 多个变体,需要更高流量
- 多变量测试(MVT) -- 交互效应,需要非常高的流量
- 分流 URL 测试 -- 重大结构性变更
除非有明确理由,否则默认选择 A/B。
6. 指标定义
主指标(必需)
- 用于评估成功的单一指标
- 直接与假设相关
- 在启动前预定义并冻结
次要指标
- 提供上下文
- 解释结果_为什么_发生
- 不得覆盖主指标
护栏指标
- 不得恶化的指标
- 用于防止有害的"胜利"
- 如果显著为负则触发测试停止
7. 样本量与持续时间
预先定义:
- 基线率
- MDE
- 显著性水平(通常 95%)
- 统计功效(通常 80%)
估算:
- 每个变体所需的样本量
- 预期测试持续时间
没有现实的样本量估算,不要继续。
8. 执行就绪门控(硬性停止)
只有在以下所有条件都为真时,才可以进入实施阶段:
- 假设已锁定
- 主指标已冻结
- 样本量已计算
- 测试持续时间已定义
- 护栏已设置
- 跟踪已验证
如果任何项目缺失,停止并解决它。
运行测试
测试期间
应该做的:
- 监控技术健康状况
- 记录外部因素
不应该做的:
- 因为"看起来不错的"结果而提前停止
- 在测试中途更改变体
- 添加新的流量来源
- 重新定义成功标准
分析结果
分析纪律
解读结果时:
- 不要超出测试人群进行泛化
- 不要声称超出测试变更的因果关系
- 不要忽视护栏指标失败
- 将统计显著性与商业判断分开
解读结果
| 结果 | 行动 | | -------------------- | -------------------------------------- | | 显著正面 | 考虑全量发布 | | 显著负面 | 拒绝变体,记录经验教训 | | 不确定 | 考虑更多流量或更大胆的变更 | | 护栏失败 | 即使主指标获胜也不发布 |
文档与学习
测试记录(必需)
记录:
- 假设
- 变体
- 指标
- 样本量 vs 实际达到
- 结果
- 决策
- 经验教训
- 后续想法
将记录存储在共享的、可搜索的位置,以避免重复失败。
拒绝条件(安全)
在以下情况拒绝继续:
- 基线率未知且无法估算
- 流量不足以检测 MDE
- 主指标未定义
- 在没有适当设计的情况下更改了多个变量
- 假设无法清晰陈述
解释原因并推荐下一步。
关键原则(不可协商)
- 每次测试一个假设
- 一个主指标
- 启动前承诺
- 不偷看
- 学习优先于获胜
- 统计严谨性优先
最后提醒
A/B 测试不是为了证明想法是对的。 而是为了有信心地了解真相。
如果你感到想要匆忙、简化或"试试看"—— 这就是放慢脚步并重新检查设计的信号。
何时使用
当任务明确匹配上述概述中描述的工作流程或操作时,适用此技能。
限制
- 仅在任务明确匹配上述范围时使用此技能。
- 不要将输出视为环境特定验证、测试或专家审查的替代品。
兼容工具
Claude CodeCursor
标签
前端开发