统计分析中应注意的几个问题

1.对P值的理解

p值可以理解为结论的风险，即数据结果出错的风险。p值越小，得出错误结论的风险越小，即结论越可靠；p值越大，出错的风险越大，即结论的可靠性差。p值是对已有结果的错误风险判断，与结果大小无关。目前很多医学期刊中关于P值的术语还存在不规范的地方，如P≤0.05认为“显著差异”，P≤0.01认为“非常显著差异”。不要把p值和实际差联系起来。这是一个值得注意的地方。

在统计学中，一般用0.05作为假设检验的检验水平，在手工计算的时代无疑是非常方便的。但是在计算机发达的今天，我们可以很容易的计算出准确的P值，认为P≤0.05具有统计学意义是不符合趋势的。P值等于0.049和0.051有什么区别？无非0.049比0.051多0.2%的证据支持结论，但是没有这0.2%的证据就没有意义了吗？因此，为了显示更多的信息，最好给出p的精确值。

2.对重大意义的理解

？很多书通常把“显著”翻译成“显著”，很容易联想到实际的差异。其实意义的含义应该是“非偶然的”。当根据样本数据得出的结果显著时，实际上说明这个结果“不是偶然的”，更有可能存在这样的结果。如果显著性水平设置为0.05，那么P≤0.05意味着根据样本数据计算出的统计量可能有不到5%是偶然造成的(也可以理解为抽样误差)。反之，计算出来的统计数据不太可能是偶然造成的，更可能是真实的。

3.统计意义和实际意义

当统计分析结果显示P≤0.05时，我们的结论应该写成“组间差异有统计学意义”、“相关有统计学意义”、“影响有统计学意义”，而不是直接写成“组间差异”、“变量间相关”、“变量的影响”。统计结论与实际结论不同，只反映了从样本数据中得到当前结果不是偶然的，并不反映实际结果的大小。

？理论上，样本含量越大，越有可能得到小P值。即使实际差异很小，大样本得到的p值也可能很小，于是问题来了:有人认为统计学是数字游戏。事实上，并非如此。大样本的P值很小，说明大样本的结果更稳定可靠，这恰恰体现了统计学的严谨性。比如一个医生治好了1个人，他声称治愈率是100%。你会相信吗但如果他治疗了10000人，而且全部还是治愈的，他说治愈率是100%你会更相信他吗？关键问题是，样本增加了，原来的结果会不会保持。1人可以通过治疗治愈，但是第二个人会通过治疗治愈吗？如果样本数不断增加，结果不变，统计学会认为基于大样本的结果是可靠的，不是偶然的，会给出一个很小的P值。如果发现小样本的结果有差异，统计学会认为基于小样本的差异不一定可靠，所以会给出较大的P值，提醒研究者谨慎下结论。

4.单边检验和双边检验

单边和双边测试主要用于组间比较。如果比较药物A和药物B的疗效，如果预计药物B不能劣于药物A，可以采用单侧检验。这种情况也经常被用来比较新药和安慰剂。如果预计药物的疗效不会比安慰剂差，可以采用单侧试验。如果两种药物疗效不确定，且药物B可能优于药物A，也可能差于药物A，则常采用双边试验。

一般来说，如果事先不太了解A和B，没有足够的证据知道谁大谁小，可以选择双边测试，如果事先知道谁大谁小，可以选择单边测试。值得注意的是，单侧检验和双侧检验的选择一定要根据专业在数据分析前确定。

对于同样的数据，单边检验比双边检验更容易得到“有统计学意义”的结论，即更容易得到肯定的结果。因此，你一定不能得到p值后再回去选择有利的单侧检验或双侧检验，否则你真的是在玩一场统计游戏。

5.对保证程度的理解

确信度，也称为功效，表示如果具有统计显著性，根据现有数据可以找到它的概率或确信度。比如在两组的比较中，功效为0.8，也就是说如果两组有差异，我们就可以得到在分析中有80%置信度的统计差异的结论。

确信度通常用1-β来表示，β是犯第二类错误的概率。把握度在普通的统计分析中一般不被重视，但当数据有负面结果时，你会发现它的用处。你可以用你的自信来判断否定的结果是不是因为案例太少。如果是这样，可以继续增加样本量。如果没有，你就不得不宣布实验结果适得其反了。