统计功效与惊讶阈值

大多数已发表的统计发现建立在两个几乎所有人都搞混的概念上。p值告诉你如果零假设为真你应该多惊讶。统计功效告诉你你的研究是否有任何机会首先检测到效应。搞混它们你就会相信不存在的东西并错过存在的东西。

简单的画面

你在暗房里拿着手电筒。p值告诉你光束里看到的东西是否出人意料。统计功效是你手电筒有多亮。手电筒暗（低功效）就只能看见大象，老鼠从你面前走过你完全察觉不到。手电筒亮（高功效）能捕捉到更微妙的运动。

一项低功效的研究没找到效应，几乎什么都没告诉你，它只意味着效应不是大象级的。没有证据不等于证据不存在，但前提是手电筒确实亮到了有意义的程度。

P值：惊讶，不是真相

p值回答一个狭窄的问题：如果什么都没发生，我多经常会看到这么极端的数据？ 传统阈值是0.05，在零假设下看到这个结果的5%概率。低于0.05，你称之为”统计显著”。

p值不告诉你的：

效应的大小。 一个微小的、无意义的效应在足够多的数据下可以统计显著。一种降血压0.1 mmHg的药在一百万参与者下可以达到p < 0.01。效应是真的但完全没用。
假设为真的概率。 p值是P(数据 | 零假设)，不是P(零假设 | 数据)。这个反转是整个应用统计学中最常见的误读。
是否有人应该在乎。 显著性是检验的属性，不是世界的属性。古德哈特定律直接适用：一旦p < 0.05成为发表的目标，研究者就为它优化，通过选择性报告、灵活分析和悄悄排除数据，指标就和它本该代表的现实脱钩了。

功效：你能看到它吗？

统计功效是检测到一个确实存在的效应的概率。它是三件事的函数：样本量、效应量和显著性阈值。

低功效意味着信号必须巨大到你的研究才能捡到。样本20人时，只有最戏剧性的效应才能越过显著性阈值。所有微妙的东西，而这是医学、金融和社会科学中大部分重要的东西，消失在噪声中。

结构性问题：大多数研究功效不足。 充足的样本量很贵。期刊不奖励零结果。于是文献被两种研究主导：找到了大象级效应的（罕见且常被夸大）或碰巧跟噪声撞上的（常见且不可复制）。这是可复制性危机背后的引擎，不是欺诈，而是朝着发表侥幸结果的系统性结构偏差。

低/中/高水平理解

低水平理解：“p < 0.05就是真的，p > 0.05就是假的。”

中等水平理解：“p值坏了，我们应该转用贝叶斯方法和置信区间。“这在方向上是对的但忽略了更深的问题。更好的统计工具在同样的激励结构手中产生同样的扭曲。问题不在数学。

更好的理解：整条从数据到发表的管道是一个过滤器，而像所有过滤器一样它制造模式（伯克森悖论的慢动作版）。碰巧找到显著性的功效不足研究被发表。什么都没找到的功效不足研究被存档。已发表文献是录取班级，被筛选出来的是惊喜，不是真相。解决方案不是更好的统计而是更好的激励：预注册、强制功效分析、以及发表零结果的期刊。

核心收获

对任何阅读研究的人，在金融、医学或社会科学中，实用的收获是一个两步过滤器：

我应该多惊讶？（p值）
这项研究能检测到一个现实的效应吗？（功效）

如果第2个问题的答案是”勉强”，那么一个显著的发现更可能是噪声而非信号，而一个零发现没有信息量。在功效不足的领域中，大部分被当作证据的东西只是手电筒太暗看不见老鼠，而光束中出现的大象往往是影子。

参考：

Notes on Statistics Done Wrong, Moontower Meta

小观园Prospect Garden

Atlas

统计功效与惊讶阈值

简单的画面

P值：惊讶，不是真相

功效：你能看到它吗？

低/中/高水平理解

核心收获

Graph View

Table of Contents

Backlinks