在我们实际科学研究中,样本量是一个头疼的问题。一般而言,样本量越大,结果估计更精确,但是过大影响计划的实施,过小不能提供足够的统计效能。因此如何确定一个合适的样本量,增加研究的可靠性,得到可信的结果,这是一个重要的问题。因此,我们来讲讲在R语言中如何计算研究需要的样本量。
一、样本量的影响因素
“我的研究究竟需要多少样本量?”要回答这个问题,我们必须要知道影响样本量大小的因素有哪些。
样本的估算公式有很多,不同的统计检验方法,计算样本量的公式也不同,但一般而言影响样本量的因素有以下几种:
(1)事件的发生率:即所谓“小概率、大概率”事件,研究事件结局发生概率越大,需要的样本量越小,比如感冒;事件发生概率越小,样本量越大,比如罕见病。
(2)研究因素的有效率:效率越高,样本量越小。比如我们实验组和对照组所研究指标的差异越大,我们用较小的样本,即可达到统计学上的显著性。
(3)第一类错误的概率α:即我们统计学上平时讲的显著性。α越小,所需的样本量越大,但通常我们的α取值为0.05或者0.01。
(4)第二类错误的概率β:1-β就是我们所说的检验效能,检验效能就是在确定的α水平下,如果差异有统计学意义,我们有多大的把握能发现这种差别。所以β越小,检验效能越大,所需的样本量越大。
(5)容许误差:即要比较两者差多少我们是可以接受的。容许误差越小,需要的样本量越大。该值我们通常需要查阅资料,