p值的常见误解
我们先一起来看一个临床试验中常见的设计。
我们想知道一种新药A能否改变患者的住院天数。在没有确切信息的时候,我们的假设是不能,也就是使用A和不使用A的两组的平均住院天数相同。换句话说,使用A对于患者住院天数没有影响。我们设计了一个随机对照试验(RCT),把200名患者1:1随机分入A组(使用新药)和B组(使用安慰剂),每组100人。
试验结果中,A组患者平均住院天数为25.1天,B组为27.6天。进行双样本t检验后,得到了p值为0.015。
那么,单看这个p值,下列理解哪些是正确的呢?
A. 有1.5%的概率,使用A对于患者住院天数没有影响;
B. p = 0.015 意味着两组平均住院天数有很大不同(即效应值很大);
C. p = 0.015 意味着使用A和患者住院天数的关联度很高;
D. 若 p > 0.05,则意味着没有治疗效果。
实际上,这4个选项都是错的!让我们一个个来解释。
一、A 选项
一句话解释:p值只是假设和数据的关系
首先,我们来明确一下p值的定义。
美国统计学会(American Statistical Association, ASA)明确告诉我们:
P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.( p值不是“我们研究的假设是真的”的概率,也不是“数据仅仅由随机因素产生的”的概率)
p值解释的并非假设本身,而是数据和假设的关系(比如,我们收集到的A组和B组的数据,和假设“使用A对于住院天数没有影响”的关系)。这是因为,假设本身要么就是对的,要么就是错的,不存在一个概率的问题。
因此,p=0.015的含义是,如果我们的假设是正确的(即使用A对于住院天数没有影响),那么我们在这一次临床试验中得到平均住院天数差为2.5天这个结果,甚至于更极端(大于2.5天)的概率是0.015。
二、B 选项和C 选项
一句话解释:显著≠重要
如果A能显著地缩短住院时间2天,而和B在其他方面差不多,那么我们真应该使用A药替换B药么?我们要考虑的当然是住院时间本来是多久:如果住院时间原本是5天,那缩短2天则是很好的结果;但是如果住院时间原本是30天呢?甚至,如果是365天呢?
我们先来回顾一下“效应值”的概念。效应值(effect size,是对于试验效果描述的统计量)通常表示不同的处理下总体均值差异的大小。比如,在我们的例子中,A组和B组住院天数所相差的2.5天就是对于该试验效果的一个估计值。
效应值是一个和p值同样受欢迎的统计量,这是因为一个更大的效应值意味着更好的效果,这说明新药更加有效。比如对于例子中的新药A,我们乐于看到A组能平均缩短2.5天的住院天数,甚至是3.5天、4.5天,甚至更多。同时,p值受样本量影响非常大,而观测到的效应值则相对受样本量影响较小,因此比p值更加“稳定”。
然而,正是由于样本量大小对于p值和效应值的影响不同,效应值的大小不一定与p值相关。在某些情况下,两个类似的研究尽管有截然不同的效应值,也可能得出相近的p值。也因此,p值也不能说明使用A和住院天数的关联度大小。
三、D选项
一句话解释:p值 > 0.05只说明还没找到有效的证据,而不意味着无效(Absence of evidence is not evidence of absence)
前面选项错在过度解读了“p值显著的结果”,而这个选项则错在过度解读了“p值不显著的结果”。在上面的例子中,p若大于0.05只能说明没有找到A药有缩短住院天数的证据,而不是A不能缩短住院天数的证据。当然,许多媒体也会犯这一类的错误。
比如上面这篇报道,正文第一句写的是“没有证据表明转基因农作物对人类或环境有害”,而标题却被改为了“转基因食品对人无害”。
其实,p值描述的是数据和一个特定的统计学模型(原假设)的不匹配程度:p值越小,数据和该统计学模型的不匹配程度就越大。在“无关联”的假设下,只要p值小于1,数据中就包含了某些联系,所以我们也需要关注试验的效果(效应值)来得出结论。同时,p>0.05只意味着没有找到可信服的证据。然而,这不意味着已经检验了所有的证据,也不意味着每个人都会同意所得出的结论。比如,我们若增加样本量,或者提高测量的精度,都有可能得到显著的结论。