AI产品自助课

Day 5:验证假设

不是'他们喜不喜欢',是缺口有没有被关闭。

从 Day 4 开始

昨天你用最低成本构建了一个可以让用户体验的东西——MVP。不管它是一段视频、一个 Landing Page、还是一次手动服务,它存在的目的只有一个:验证你在 Day 2 写下的那个假设。

现在用户体验过了,数据也有了一些。然后呢?

大多数人这时候会去看"用户喜不喜欢"——好评率、下载量、有没有人说"挺好的"。但这些不是验证。

验证是:你之前定义的那个缺口,证据说它被关闭了吗?

你在 Day 2 写的假设是:"研二以上 PM 求职者中,超过 30% 因为不知道学什么 AI 而推迟投递。" 你在 Day 4 做了一个 MVP 来测试解法。现在的问题不是"用户觉得好不好",而是"用了你的方案之后,推迟投递的比例有没有下降"。

这就是 Day 5 要做的事:怎么判断假设成立还是不成立。


判断的四个维度

我们分析了 8 位在"怎么判断"这件事上有深入贡献的产品人——从精益创业之父到微软实验平台负责人,从增长黑客教父到前 Google 产品经理,跨越早期创业、大厂实验平台、增长咨询和产品教育。

他们的背景和场景各不相同,但所有人都在做同一件事:实验做完了,数据出来了,怎么判断你的假设成立还是不成立?

分析之后,四个维度自然涌现:

维度核心问题
定标准什么算"通过"?
看数据看哪些数字?
防自欺怎么避免骗自己?
分阶段你现在在哪个阶段?

四个维度缺一不可。只有"定标准"没有"看数据"——有尺子但不知道量什么。只有"看数据"没有"定标准"——数据很多但说不清好坏。只有前两个没有"防自欺"——无意识地挑有利数据,自以为客观。没有"分阶段"——在种子期追求 A/B 测试的统计显著性(你根本没那么多流量)。

完整分析 →

接下来,你会依次体验这四个维度。每一步都有练习题,做完你就知道自己在判断这件事上哪里最弱。


定标准:什么算"通过"?

核心技能:在看到数据之前就写下判断标准,锁死,不许改。

先看看牛人怎么做:

  • Ellis(GrowthHackers 创始人)— 一个问题判断 PMF:"如果你再也不能用这个产品了,你会有什么感受?" 超过 40% 的用户选"非常失望" = 有 PMF
  • Kohavi(前微软实验平台 VP)— 每个实验必须有一个预先定义的 OEC(综合评估指标),最多五个指标。数据出来之前就定好标准
  • Gilad(前 Google PM)— 信心阶梯:用 0.01-10 的信心分数做进退决策,低于阈值直接杀掉想法

这三个人做法不同,但都在做同一件事:把判断标准从"实验之后"移到"实验之前"

这个时序调整看起来简单,但它是防止事后合理化的核心机制。先看数据再定标准——有个名字,叫事后合理化(post-hoc rationalization)。这是产品验证中最常见的自欺方式。

练习 1

练习 2

Ellis 的 40% 失望标准是一个经典的预设标准。但它有适用条件。

两道题做下来,定标准的核心就是:先写下来,再看数据。 达到就通过,达不到就回去改。标准不是你"感觉"的,是你预先定义的。

看什么标准有了。接下来的问题是:看什么数据?


看数据:行为数据 vs 态度数据

核心技能:区分"用户做了什么"和"用户说了什么"。

先看看牛人怎么做:

  • GoPractice(产品管理教育平台)— 留存曲线诊断法:如果曲线在某个时间点走平,你就有了 PMF。如果一直掉到零,没有用户觉得你的产品值得持续用
  • Blank(精益创业奠基人)— 判断标准是"可重复的销售流程":一个客户买了不算,三个不同客户通过同样流程买了,才算
  • Croll(Lean Analytics 作者)— OMTM(One Metric That Matters):此刻最重要的那一个指标

他们都在做同一件事:看行为,不看态度。 用户做了什么比用户说了什么更真实。

行为数据和态度数据的关系:行为数据告诉你"发生了什么"(留存率 15%),态度数据告诉你"为什么"("我每次焦虑就会打开它")。两者配合最好,但当两者矛盾时,信行为数据。

Blank 的 Customer Development 四步

这是一个完整的验证流程,值得展开讲。Steve Blank 在 2005 年提出了 Customer Development(客户开发)四步模型:

步骤做什么判断标准
Customer Discovery验证问题是否存在找到 earlyvangelists(早期布道者)
Customer Validation验证方案有人买单可重复的销售流程
Customer Creation创造终端用户需求获客渠道可规模化
Company Building从创业团队变成公司组织能支撑规模

前两步是验证阶段,后两步是执行阶段。大多数创业失败发生在前两步——不是产品做得不好,是问题本身不存在,或者方案没人买单。

earlyvangelists 有五个特征:有问题、知道自己有问题、在主动找解决方案、有预算、已经拼凑了临时替代方案。如果连 earlyvangelists 都不买,普通用户更不会。

关键区分: 用户说"我会买"是态度数据(不可靠)。用户掏钱买了是行为数据(可靠)。Blank 的标准是行为数据——真实的销售,不是意向调查。

练习 3

练习 4

留存曲线是行为数据中最重要的工具之一。

看数据的核心:行为数据优先,态度数据辅助。 当两者矛盾时,信行为。但你怎么确定自己真的在"客观地看数据"?


防自欺:你以为你在看数据,其实在骗自己

核心技能:识别自己正在犯的判断偏误。

先看看牛人怎么做:

  • Ries — 虚荣指标 vs 可行动指标:总注册数只涨不跌,永远好看。转化率会跌,才能告诉你真相
  • Kohavi — "拿到数字很容易,拿到你能信任的数字才难。" 微软实验数据显示,大约三分之一的想法有正面效果,三分之一没效果,三分之一有负面效果
  • Gilad — 信心值是解药:不是"你觉得这个想法好不好",而是"你有多少证据支持这个想法"

自欺不是道德问题,而是认知问题——人类大脑天生就会这样。防自欺的核心不是"更诚实",是用结构和流程对抗本能

产品验证中最常见的自欺方式有六种:

自欺方式表现怎么防
事后合理化数据出来后才选"看哪个指标",挑好看的标准必须在实验前定义
虚荣指标总注册数、总下载量——只涨不跌用同群分析替代总量指标
确认偏误只看支持假设的数据,忽略反对的用信心分数量化证据
样本偏差只问喜欢产品的用户样本必须包含真实用户,最少 30 人
IKEA 效应"我花了三个月做的,肯定有价值"让没参与构建的人来评判
阶段错配在种子期追求统计显著性0→1 用定性证据,规模化用定量实验

练习 5

练习 6

防自欺的核心:不是"我要更客观"——这没用,人脑不是设计来客观的。而是用结构防偏误:标准预先定义、数据分群追踪、让局外人评判、行为数据优先于态度数据。

最后一个维度:你的判断标准对不对,取决于你在什么阶段。


分阶段:不在错误的阶段追求错误的指标

核心技能:识别自己在哪个阶段,用匹配的标准判断。

先看看牛人怎么做:

  • Croll(Lean Analytics)— 五阶段模型:共情 → 粘性 → 传播 → 收入 → 规模。每个阶段有不同的关键指标。"在错误的阶段优化错误的指标,是创业公司最常见的自杀方式"
  • Gilad(Evidence Guided)— 信心阶梯:大部分想法在评估和调研阶段就该杀掉,只有少数幸存者才值得进入高精度验证
  • GoPractice — 分群对比:不是看一条曲线,而是看每个月的新用户群各自的曲线

验证标准有一个精度递增的阶梯:越早期越粗糙,越后期越精密。

阶段核心问题该看什么判断标准
0→1(有想法没产品)有人在乎吗?用户情绪强度、是否在主动找替代方案earlyvangelists 存在且愿意尝试
有原型有早期用户解决了问题吗?PMF 问卷、早期留存、自发推荐Ellis 40%、留存曲线走平
有一定规模增长引擎转了吗?获客成本、转化率、病毒系数OMTM 达标
规模化运营改进有效吗?A/B 测试的 OECOEC 改善且统计显著

练习 7


回头看

Day 4 你做了 MVP,今天你学了怎么判断它是否通过验证。

维度做了什么你刚才体验了什么
定标准在看数据之前写下"什么算通过"满意度和好评不是标准,行为变化才是——而且标准必须预先定义
看数据区分行为数据和态度数据留存曲线走平比留存率高更重要;后面的群比前面的群好 = 产品在进步
防自欺识别六种自欺方式IKEA 效应最危险——花了三个月做的,你不想承认它有问题
分阶段匹配阶段使用匹配的标准80 个用户做 A/B 测试是浪费时间,5 个深度访谈更有价值

8 个人都同意一件事:先定标准,再看数据。 反过来做叫事后合理化——这是产品验证中最常见的自欺方式。

判断完了,只有两种结果。证据说假设成立——进入 Day 6,决定怎么放大。证据说假设不成立——也进入 Day 6,决定是坚持还是转向。判断是闭环的最后一步,也是新循环的第一步。

查看完整方法图谱 → | 继续 Day 6:修正方向 →

On this page