数据科学中的R和Python: R语言基础入门之四：常用的统计推断

星期日, 十一月 13, 2011

R语言基础入门之四：常用的统计推断

通常一个研究项目能够获得的数据是有限的，以有限的样本特征来推断总体特征就称为统计推断。推断又可细分为区间估计和假设检验，二者虽有区别，但却是一枚硬币的两面，之间有着紧密的关联。

1 对总体均值进行区间估计
假设我们从总体中抽得一个样本，希望根据样本均值判断总体均值的置信区间，如下例所示：

x=rnorm(50,mean=10,sd=5) #随机生成50个均值为10，标准差为5的随机数为作为研究对象
mean(x)-qt(0.975,49)*sd(x)/sqrt(50) #根据统计学区间估计公式，得到95%置信度下的区间下界
mean(x)+qt(0.975,49)*sd(x)/sqrt(50) #95%置信度下的区间上界

也可以直接利用R语言内置函数t.test

t.test(x,conf.level=0.95)

从如下结果可得95%置信区间为（9.56，12.36）

One Sample t-test
data: x
t = 15.7301, df = 49, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
9.563346 12.364729
sample estimates:
mean of x
10.96404

2 对总体均值进行假设检验
还是以上面的X数据作为对象，来检验总体均值是否为10

t.test(x,mu=10,alternative='two.sided') #这里的原假设是总体均值（mu）为10，使用双侧检验，得到P值为0.17，可见P值不够小，不能够拒绝原假设。

T检验是极为常用的检验方法，除了单样本推断之外，t.test命令还可以实现两样本推断和配对样本推断。如果要对总体比率或总体方差进行推断，可以使用prop.test和var.test。

3 正态分布检验
T检验的前提条件是总体服从正态分布，因此我们有必要先检验正态性。而且在评价回归模型时，对残差也需要检验正态性。检验正态性的函数是shapiro.test