相关分析是对变量两两之间的相关程度进行分析。相关分析的计算方式有三种,分别是 Pearson 相关系数(适用于定量数据,且数据满足正态分布)、Spearman 相关系数(数据不满足正态分布时或者定序数据使用)、卡方检验(定类变量)
输入:两个或者两个以上的定量变量或定序变量
输出:两两变量之间是否呈现显著性相似以及相似的程度
人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题
1.定类变量:只能区分为某一类别,类别平等
2.定序变量:只能区分为某一类别,类别有序
3.定量变量:可以用具体数值表示
4.定比变量:可以用具体数值表示,存在零点。定比变量各类别之间的距离,不仅能用加减而且能用乘除或倍数形式来说明它们之间的关系
皮尔逊相关系数
两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
上式定义了总体相关系数,常用希腊小写字母 作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母r代表:
r亦可由样本点的标准分数均值估计,得到与上式等价的表达式:
其中 、 及 分别是对样本的标准分数、样本平均值和样本标准差。
斯皮尔曼相关系数
斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数 为:
为的等级差,位于(-1,1)之间。
卡方检验
(1)提出原假设: H0:总体 X 的分布函数为 F(x). 如果总体分布为离散型,则假设具体为 H0:总体 X 的分布律为 P{X=xi}=pi, i=1,2,...
(2)将总体 X 的取值范围分成 k 个互不相交的小区间 A1,A2,A3,…,Ak,如可取 A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak), 其中 a0 可取-∞,ak 可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于 5,而区间个数 k 不要太大也不要太小。
(3)把落入第 i 个小区间的 Ai 的样本值的个数记作 fi,成为组频数(真实值),所有组频数之和 f1+f2+...+fk 等于样本容量 n。
(4)当 H0 为真时,根据所假设的总体理论分布,可算出总体 X 的值落入第 i 个小区间 Ai 的概率 pi,于是, 就是落入第 i 个小区间 Ai 的样本值的理论频数(理论值)。
(5)当 H0 为真时,n 次试验中样本值落入第 i 个小区间 Ai 的频率 fi/n 与概率 pi 应很接近,当 H0 不真时,则 fi/n 与 pi 相差很大。基于这种思想,皮尔逊引进如下检验统计量:
在 H0 假设成立的情况下服从自由度为 k-1 的卡方分布。