统计分析中应注意的几个问题
p值可以理解为结论的风险,即数据结果出错的风险。p值越小,得出错误结论的风险越小,即结论越可靠;p值越大,出错的风险越大,即结论的可靠性差。p值是对已有结果的错误风险判断,与结果大小无关。目前很多医学期刊中关于P值的术语还存在不规范的地方,如P≤0.05认为“显著差异”,P≤0.01认为“非常显著差异”。不要把p值和实际差联系起来。这是一个值得注意的地方。
在统计学中,一般用0.05作为假设检验的检验水平,在手工计算的时代无疑是非常方便的。但是在计算机发达的今天,我们可以很容易的计算出准确的P值,认为P≤0.05具有统计学意义是不符合趋势的。P值等于0.049和0.051有什么区别?无非0.049比0.051多0.2%的证据支持结论,但是没有这0.2%的证据就没有意义了吗?因此,为了显示更多的信息,最好给出p的精确值。
2.对重大意义的理解
?很多书通常把“显著”翻译成“显著”,很容易联想到实际的差异。其实意义的含义应该是“非偶然的”。当根据样本数据得出的结果显著时,实际上说明这个结果“不是偶然的”,更有可能存在这样的结果。如果显著性水平设置为0.05,那么P≤0.05意味着根据样本数据计算出的统计量可能有不到5%是偶然造成的(也可以理解为抽样误差)。反之,计算出来的统计数据不太可能是偶然造成的,更可能是真实的。
3.统计意义和实际意义
当统计分析结果显示P≤0.05时,我们的结论应该写成“组间差异有统计学意义”、“相关有统计学意义”、“影响有统计学意义”,而不是直接写成“组间差异”、“变量间相关”、“变量的影响”。统计结论与实际结论不同,只反映了从样本数据中得到当前结果不是偶然的,并不反映实际结果的大小。
?理论上,样本含量越大,越有可能得到小P值。即使实际差异很小,大样本得到的p值也可能很小,于是问题来了:有人认为统计学是数字游戏。事实上,并非如此。大样本的P值很小,说明大样本的结果更稳定可靠,这恰恰体现了统计学的严谨性。比如一个医生治好了1个人,他声称治愈率是100%。你会相信吗但如果他治疗了10000人,而且全部还是治愈的,他说治愈率是100%你会更相信他吗?关键问题是,样本增加了,原来的结果会不会保持。1人可以通过治疗治愈,但是第二个人会通过治疗治愈吗?如果样本数不断增加,结果不变,统计学会认为基于大样本的结果是可靠的,不是偶然的,会给出一个很小的P值。如果发现小样本的结果有差异,统计学会认为基于小样本的差异不一定可靠,所以会给出较大的P值,提醒研究者谨慎下结论。
4.单边检验和双边检验
单边和双边测试主要用于组间比较。如果比较药物A和药物B的疗效,如果预计药物B不能劣于药物A,可以采用单侧检验。这种情况也经常被用来比较新药和安慰剂。如果预计药物的疗效不会比安慰剂差,可以采用单侧试验。如果两种药物疗效不确定,且药物B可能优于药物A,也可能差于药物A,则常采用双边试验。
一般来说,如果事先不太了解A和B,没有足够的证据知道谁大谁小,可以选择双边测试,如果事先知道谁大谁小,可以选择单边测试。值得注意的是,单侧检验和双侧检验的选择一定要根据专业在数据分析前确定。
对于同样的数据,单边检验比双边检验更容易得到“有统计学意义”的结论,即更容易得到肯定的结果。因此,你一定不能得到p值后再回去选择有利的单侧检验或双侧检验,否则你真的是在玩一场统计游戏。
5.对保证程度的理解
确信度,也称为功效,表示如果具有统计显著性,根据现有数据可以找到它的概率或确信度。比如在两组的比较中,功效为0.8,也就是说如果两组有差异,我们就可以得到在分析中有80%置信度的统计差异的结论。
确信度通常用1-β来表示,β是犯第二类错误的概率。把握度在普通的统计分析中一般不被重视,但当数据有负面结果时,你会发现它的用处。你可以用你的自信来判断否定的结果是不是因为案例太少。如果是这样,可以继续增加样本量。如果没有,你就不得不宣布实验结果适得其反了。