Day 5：验证假设

从 Day 4 开始

昨天你用最低成本构建了一个可以让用户体验的东西——MVP。不管它是一段视频、一个 Landing Page、还是一次手动服务，它存在的目的只有一个：验证你在 Day 2 写下的那个假设。

现在用户体验过了，数据也有了一些。然后呢？

大多数人这时候会去看"用户喜不喜欢"——好评率、下载量、有没有人说"挺好的"。但这些不是验证。

验证是：你之前定义的那个缺口，证据说它被关闭了吗？

你在 Day 2 写的假设是："研二以上 PM 求职者中，超过 30% 因为不知道学什么 AI 而推迟投递。" 你在 Day 4 做了一个 MVP 来测试解法。现在的问题不是"用户觉得好不好"，而是"用了你的方案之后，推迟投递的比例有没有下降"。

这就是 Day 5 要做的事：怎么判断假设成立还是不成立。

判断的四个维度

我们分析了 8 位在"怎么判断"这件事上有深入贡献的产品人——从精益创业之父到微软实验平台负责人，从增长黑客教父到前 Google 产品经理，跨越早期创业、大厂实验平台、增长咨询和产品教育。

他们的背景和场景各不相同，但所有人都在做同一件事：实验做完了，数据出来了，怎么判断你的假设成立还是不成立？

分析之后，四个维度自然涌现：

维度	核心问题
定标准	什么算"通过"？
看数据	看哪些数字？
防自欺	怎么避免骗自己？
分阶段	你现在在哪个阶段？

四个维度缺一不可。只有"定标准"没有"看数据"——有尺子但不知道量什么。只有"看数据"没有"定标准"——数据很多但说不清好坏。只有前两个没有"防自欺"——无意识地挑有利数据，自以为客观。没有"分阶段"——在种子期追求 A/B 测试的统计显著性（你根本没那么多流量）。

完整分析 →

接下来，你会依次体验这四个维度。每一步都有练习题，做完你就知道自己在判断这件事上哪里最弱。

定标准：什么算"通过"？

核心技能：在看到数据之前就写下判断标准，锁死，不许改。

先看看牛人怎么做：

Ellis（GrowthHackers 创始人）— 一个问题判断 PMF："如果你再也不能用这个产品了，你会有什么感受？" 超过 40% 的用户选"非常失望" = 有 PMF

Kohavi（前微软实验平台 VP）— 每个实验必须有一个预先定义的 OEC（综合评估指标），最多五个指标。数据出来之前就定好标准

Gilad（前 Google PM）— 信心阶梯：用 0.01-10 的信心分数做进退决策，低于阈值直接杀掉想法

这三个人做法不同，但都在做同一件事：把判断标准从"实验之后"移到"实验之前"。

这个时序调整看起来简单，但它是防止事后合理化的核心机制。先看数据再定标准——有个名字，叫事后合理化（post-hoc rationalization）。这是产品验证中最常见的自欺方式。

练习 1

练习 2

Ellis 的 40% 失望标准是一个经典的预设标准。但它有适用条件。

两道题做下来，定标准的核心就是：先写下来，再看数据。 达到就通过，达不到就回去改。标准不是你"感觉"的，是你预先定义的。

看什么标准有了。接下来的问题是：看什么数据？

看数据：行为数据 vs 态度数据

核心技能：区分"用户做了什么"和"用户说了什么"。

先看看牛人怎么做：

GoPractice（产品管理教育平台）— 留存曲线诊断法：如果曲线在某个时间点走平，你就有了 PMF。如果一直掉到零，没有用户觉得你的产品值得持续用

Blank（精益创业奠基人）— 判断标准是"可重复的销售流程"：一个客户买了不算，三个不同客户通过同样流程买了，才算

Croll（Lean Analytics 作者）— OMTM（One Metric That Matters）：此刻最重要的那一个指标

他们都在做同一件事：看行为，不看态度。 用户做了什么比用户说了什么更真实。

行为数据和态度数据的关系：行为数据告诉你"发生了什么"（留存率 15%），态度数据告诉你"为什么"（"我每次焦虑就会打开它"）。两者配合最好，但当两者矛盾时，信行为数据。

Blank 的 Customer Development 四步

这是一个完整的验证流程，值得展开讲。Steve Blank 在 2005 年提出了 Customer Development（客户开发）四步模型：

步骤	做什么	判断标准
Customer Discovery	验证问题是否存在	找到 earlyvangelists（早期布道者）
Customer Validation	验证方案有人买单	可重复的销售流程
Customer Creation	创造终端用户需求	获客渠道可规模化
Company Building	从创业团队变成公司	组织能支撑规模

前两步是验证阶段，后两步是执行阶段。大多数创业失败发生在前两步——不是产品做得不好，是问题本身不存在，或者方案没人买单。

earlyvangelists 有五个特征：有问题、知道自己有问题、在主动找解决方案、有预算、已经拼凑了临时替代方案。如果连 earlyvangelists 都不买，普通用户更不会。

关键区分： 用户说"我会买"是态度数据（不可靠）。用户掏钱买了是行为数据（可靠）。Blank 的标准是行为数据——真实的销售，不是意向调查。

Ries — 虚荣指标 vs 可行动指标：总注册数只涨不跌，永远好看。转化率会跌，才能告诉你真相

Kohavi — "拿到数字很容易，拿到你能信任的数字才难。" 微软实验数据显示，大约三分之一的想法有正面效果，三分之一没效果，三分之一有负面效果

Gilad — 信心值是解药：不是"你觉得这个想法好不好"，而是"你有多少证据支持这个想法"

自欺不是道德问题，而是认知问题——人类大脑天生就会这样。防自欺的核心不是"更诚实"，是用结构和流程对抗本能。

产品验证中最常见的自欺方式有六种：

自欺方式	表现	怎么防
事后合理化	数据出来后才选"看哪个指标"，挑好看的	标准必须在实验前定义
虚荣指标	总注册数、总下载量——只涨不跌	用同群分析替代总量指标
确认偏误	只看支持假设的数据，忽略反对的	用信心分数量化证据
样本偏差	只问喜欢产品的用户	样本必须包含真实用户，最少 30 人
IKEA 效应	"我花了三个月做的，肯定有价值"	让没参与构建的人来评判
阶段错配	在种子期追求统计显著性	0→1 用定性证据，规模化用定量实验

Croll（Lean Analytics）— 五阶段模型：共情 → 粘性 → 传播 → 收入 → 规模。每个阶段有不同的关键指标。"在错误的阶段优化错误的指标，是创业公司最常见的自杀方式"

Gilad（Evidence Guided）— 信心阶梯：大部分想法在评估和调研阶段就该杀掉，只有少数幸存者才值得进入高精度验证

GoPractice — 分群对比：不是看一条曲线，而是看每个月的新用户群各自的曲线

验证标准有一个精度递增的阶梯：越早期越粗糙，越后期越精密。

阶段	核心问题	该看什么	判断标准
0→1（有想法没产品）	有人在乎吗？	用户情绪强度、是否在主动找替代方案	earlyvangelists 存在且愿意尝试
有原型有早期用户	解决了问题吗？	PMF 问卷、早期留存、自发推荐	Ellis 40%、留存曲线走平
有一定规模	增长引擎转了吗？	获客成本、转化率、病毒系数	OMTM 达标
规模化运营	改进有效吗？	A/B 测试的 OEC	OEC 改善且统计显著

练习 7

回头看

Day 4 你做了 MVP，今天你学了怎么判断它是否通过验证。

维度	做了什么	你刚才体验了什么
定标准	在看数据之前写下"什么算通过"	满意度和好评不是标准，行为变化才是——而且标准必须预先定义
看数据	区分行为数据和态度数据	留存曲线走平比留存率高更重要；后面的群比前面的群好 = 产品在进步
防自欺	识别六种自欺方式	IKEA 效应最危险——花了三个月做的，你不想承认它有问题
分阶段	匹配阶段使用匹配的标准	80 个用户做 A/B 测试是浪费时间，5 个深度访谈更有价值

8 个人都同意一件事：先定标准，再看数据。 反过来做叫事后合理化——这是产品验证中最常见的自欺方式。

判断完了，只有两种结果。证据说假设成立——进入 Day 6，决定怎么放大。证据说假设不成立——也进入 Day 6，决定是坚持还是转向。判断是闭环的最后一步，也是新循环的第一步。

查看完整方法图谱 → | 继续 Day 6：修正方向 →

Day 5：验证假设

从 Day 4 开始

判断的四个维度

定标准：什么算"通过"？

练习 1

练习 2

看数据：行为数据 vs 态度数据

Blank 的 Customer Development 四步

练习 3

练习 4

防自欺：你以为你在看数据，其实在骗自己

练习 5

练习 6

分阶段：不在错误的阶段追求错误的指标

练习 7

回头看

On this page