A/B 测试配置

低风险

作者 @sickn33已验证来源

4.2142 次安装v1.0.0更新于 2026年5月25日

使用方式

在 Claude Code 中运行以下命令

第一步：添加 Marketplace

/plugin marketplace add sickn33/antigravity-awesome-skills

第二步：安装插件

/plugin install antigravity-awesome-skills@antigravity-awesome-skills

关于

A/B 测试设置结构化指南，包含假设、指标和执行就绪性的强制检查门

name: ab-test-setup description: "A/B 测试设置的结构化指南，包含假设、指标和执行就绪性的强制门控。" risk: unknown source: community date_added: "2026-02-27"

A/B 测试设置

1. 目的与范围

确保每个 A/B 测试在编写任何一行代码之前都是有效、严谨且安全的。

防止"偷看"
强制统计功效
阻止无效假设

2. 前提条件

你必须具备：

明确的用户问题
访问分析数据源的权限
大致估算的流量

假设质量检查清单

有效假设包括：

观察或证据
单一、具体的变更
方向性预期
定义的受众
可衡量的成功标准

3. 假设锁定（硬性门控）

在设计变体或指标之前，你必须：

提出最终假设
指定：
- 目标受众
- 主指标
- 预期效果方向
- 最小可检测效应（MDE）

明确询问：

"这是我们为此测试承诺的最终假设吗？"

在确认之前不要继续。

4. 假设与有效性检查（必需）

明确列出关于以下方面的假设：

流量稳定性
用户独立性
指标可靠性
随机化质量
外部因素（季节性、营销活动、发布）

如果假设薄弱或被违反：

警告用户
建议推迟或重新设计测试

5. 测试类型选择

选择最简单的有效测试：

A/B 测试 -- 单一变更，两个变体
A/B/n 测试 -- 多个变体，需要更高流量
多变量测试（MVT） -- 交互效应，需要非常高的流量
分流 URL 测试 -- 重大结构性变更

除非有明确理由，否则默认选择 A/B。

6. 指标定义

主指标（必需）

用于评估成功的单一指标
直接与假设相关
在启动前预定义并冻结

次要指标

提供上下文
解释结果_为什么_发生
不得覆盖主指标

护栏指标

不得恶化的指标
用于防止有害的"胜利"
如果显著为负则触发测试停止

7. 样本量与持续时间

预先定义：

基线率
MDE
显著性水平（通常 95%）
统计功效（通常 80%）

估算：

每个变体所需的样本量
预期测试持续时间

没有现实的样本量估算，不要继续。

8. 执行就绪门控（硬性停止）

只有在以下所有条件都为真时，才可以进入实施阶段：

假设已锁定
主指标已冻结
样本量已计算
测试持续时间已定义
护栏已设置
跟踪已验证

如果任何项目缺失，停止并解决它。

运行测试

测试期间

应该做的：

监控技术健康状况
记录外部因素

不应该做的：

因为"看起来不错的"结果而提前停止
在测试中途更改变体
添加新的流量来源
重新定义成功标准

分析结果

分析纪律

解读结果时：

不要超出测试人群进行泛化
不要声称超出测试变更的因果关系
不要忽视护栏指标失败
将统计显著性与商业判断分开

解读结果

| 结果 | 行动 | | -------------------- | -------------------------------------- | | 显著正面 | 考虑全量发布 | | 显著负面 | 拒绝变体，记录经验教训 | | 不确定 | 考虑更多流量或更大胆的变更 | | 护栏失败 | 即使主指标获胜也不发布 |

文档与学习

测试记录（必需）

记录：

假设
变体
指标
样本量 vs 实际达到
结果
决策
经验教训
后续想法

将记录存储在共享的、可搜索的位置，以避免重复失败。

拒绝条件（安全）

在以下情况拒绝继续：

基线率未知且无法估算
流量不足以检测 MDE
主指标未定义
在没有适当设计的情况下更改了多个变量
假设无法清晰陈述

解释原因并推荐下一步。

关键原则（不可协商）

每次测试一个假设
一个主指标
启动前承诺
不偷看
学习优先于获胜
统计严谨性优先

最后提醒

A/B 测试不是为了证明想法是对的。而是为了有信心地了解真相。

如果你感到想要匆忙、简化或"试试看"—— 这就是放慢脚步并重新检查设计的信号。

何时使用

当任务明确匹配上述概述中描述的工作流程或操作时，适用此技能。

限制

仅在任务明确匹配上述范围时使用此技能。
不要将输出视为环境特定验证、测试或专家审查的替代品。

兼容工具

Claude CodeCursor