总体 ——所要考察对象的全部个体叫做总体。我们总是希望得到总体数据的一些特征(例如均值方差等)
样本 ——从总体中所抽取的一部分个体叫做总体的一个样本。
总体皮尔森Pearson相关系数:
均值和协方差:
直观理解协方差:如果X、Y变化方向相同,即当X大于(小于)其均值时,Y也大于(小于)其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直保持相同,则协方差为正;同理,如果X、Y变化方向一直相反,则协方差为负;如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。
注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。
皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。
样本皮尔森Pearson相关系数
相关性的可视化
通过绘制散点图可以很容易判断样本之间的相关性。
关于皮尔森相关系数的理解误区
上面四个散点图对应的数据的皮尔逊相关系数均为0.816。
冰激凌的销量和温度之间的关系: