
大多数已发表的统计发现建立在两个几乎所有人都搞混的概念上。p值告诉你如果零假设为真你应该多惊讶。统计功效告诉你你的研究是否有任何机会首先检测到效应。搞混它们你就会相信不存在的东西并错过存在的东西。
简单的画面
你在暗房里拿着手电筒。p值告诉你光束里看到的东西是否出人意料。统计功效是你手电筒有多亮。手电筒暗(低功效)就只能看见大象,老鼠从你面前走过你完全察觉不到。手电筒亮(高功效)能捕捉到更微妙的运动。
一项低功效的研究没找到效应,几乎什么都没告诉你,它只意味着效应不是大象级的。没有证据不等于证据不存在,但前提是手电筒确实亮到了有意义的程度。
P值:惊讶,不是真相
p值回答一个狭窄的问题:如果什么都没发生,我多经常会看到这么极端的数据? 传统阈值是0.05,在零假设下看到这个结果的5%概率。低于0.05,你称之为”统计显著”。
p值不告诉你的:
- 效应的大小。 一个微小的、无意义的效应在足够多的数据下可以统计显著。一种降血压0.1 mmHg的药在一百万参与者下可以达到p < 0.01。效应是真的但完全没用。
- 假设为真的概率。 p值是P(数据 | 零假设),不是P(零假设 | 数据)。这个反转是整个应用统计学中最常见的误读。
- 是否有人应该在乎。 显著性是检验的属性,不是世界的属性。古德哈特定律直接适用:一旦p < 0.05成为发表的目标,研究者就为它优化,通过选择性报告、灵活分析和悄悄排除数据,指标就和它本该代表的现实脱钩了。
功效:你能看到它吗?
统计功效是检测到一个确实存在的效应的概率。它是三件事的函数:样本量、效应量和显著性阈值。
低功效意味着信号必须巨大到你的研究才能捡到。样本20人时,只有最戏剧性的效应才能越过显著性阈值。所有微妙的东西,而这是医学、金融和社会科学中大部分重要的东西,消失在噪声中。
结构性问题:大多数研究功效不足。 充足的样本量很贵。期刊不奖励零结果。于是文献被两种研究主导:找到了大象级效应的(罕见且常被夸大)或碰巧跟噪声撞上的(常见且不可复制)。这是可复制性危机背后的引擎,不是欺诈,而是朝着发表侥幸结果的系统性结构偏差。
低/中/高水平理解
低水平理解:“p < 0.05就是真的,p > 0.05就是假的。”
中等水平理解:“p值坏了,我们应该转用贝叶斯方法和置信区间。“这在方向上是对的但忽略了更深的问题。更好的统计工具在同样的激励结构手中产生同样的扭曲。问题不在数学。
更好的理解:整条从数据到发表的管道是一个过滤器,而像所有过滤器一样它制造模式(伯克森悖论的慢动作版)。碰巧找到显著性的功效不足研究被发表。什么都没找到的功效不足研究被存档。已发表文献是录取班级,被筛选出来的是惊喜,不是真相。解决方案不是更好的统计而是更好的激励:预注册、强制功效分析、以及发表零结果的期刊。
核心收获
对任何阅读研究的人,在金融、医学或社会科学中,实用的收获是一个两步过滤器:
- 我应该多惊讶?(p值)
- 这项研究能检测到一个现实的效应吗?(功效)
如果第2个问题的答案是”勉强”,那么一个显著的发现更可能是噪声而非信号,而一个零发现没有信息量。在功效不足的领域中,大部分被当作证据的东西只是手电筒太暗看不见老鼠,而光束中出现的大象往往是影子。
参考:
- Notes on Statistics Done Wrong, Moontower Meta