• 打破数据分析壁垒:SPSS复习必备(四)


    一、连续性变量的统计描述与参数估计

    1、集中趋势的描述指标

    均数(Mean) 中位数(Median) 众数(Mode) 总合(Sum)

    2、离散趋势的描述指标

    标准差(Std. Deviation)、方差(Variance)、全距(Range)【极差】

    四分位差--排序后处于75%和25%位置上的值的差QU- QL 

    3、分布特征、其他趋势的描述指标

    偏度系数(Skewness)和峰度系数(Kurtosis)

    百分位数指标(Percentile)、M统计量(M-Estimators)、极端值(Outlier)

    二、SPSS功能实现

    1、频率过程

    2、描述过程

    用于一般性的统计描述

    3、探索过程

    用于对连续性资料分布状况不清楚时的探索性分析,它可以计算许多描述统计量,给出各种统计图,并进行简单的参数估计。

    4、比率过程

    用于对两个连续性变量计算相对比指标

    三、连续性变量的参数估计

    1、正态分布

    特征:

    (1)正态分布是一条对称曲线,关于均数对称,因此均数被称为正态分布的位置参数。

    (2)曲线是单峰,在均值出达到最高点。

    (3)正态分布曲线的尖削与标准差有关。因此标准差被称为正态分布曲线的尺度参数。

    (4)曲线无论向左或向右延伸,都越来越接近横轴,但不会与横轴相交,以横轴为渐近线。 (5)约68%的个体的取值与平均数在距离一个标准差之内。

    (6)约95%的个体取值与平均数的距离在1.96个标准差之内。

    (7)99%个体的取值与平均数的距离在2.58个标准差。

    2、参数的点估计

    参数的点估计就是选定一个适当的样本统计量作为参数的估计量,并计算出估计值。

    对于所选统计量是否适于作参数估计量,有无偏性、一致性和有效性三个评选标准。

    无偏性是指虽然估计量的值不全等于参数,但应在真实值附近摆动。

    一致性是指样本容量越大,估计值离真实值的差异应当越小。

    有效性是指如果两个统计量都符合上述要求,则应当选取误差更小的一个作为估计值。

    1)矩阵  2)极大似然估计法  3)稳健估计值

    3、参数的区间估计

    一、标准误 标准误就是用来描述参数估计值可能离真实值究竟有多远的统计量。

    二、区间估计的计算 结合样本统计量和标准误可以确定一个具有较大的可信度包含总体参数的区间,该区间称为总体参数的1-a可信区间或置信区间(Confidence Interval)。 对于任意可信度的区间情况,总体均值在100(1-a)%可信区间为:

    四、正态分布检验

    1)利用图形观察分布,预先判定;

    2)计算偏度峰度;

    3)正态概率图,如P-P图、Q-Q图等;

    4)非参数分析方法。

    直接实战:


    总结

    本章主要针对连续性变量的统计描述与参数估计

    主要解决问题:

    1)连续性变量的统计描述与参数估计及相关SPSS实现

    2)连续性变量的参数估计及正态分布检验的SPSS的实现

  • 相关阅读:
    05 程序流程控制
    开始SpringCloud
    MyBatisPlus-Lombok的使用及分页功能
    来自北大算法课的Leetcode题解:208. 实现Trie(前缀树)
    数据预处理之基于聚类的TOD异常值检测#matlab
    M2 MacbookPro配置Spark源码运行环境
    ios上传图片旋转90度的解决办法 - nextcloud
    2021Java面试题库大全(内部资源)
    学习记忆——记忆宫殿——编码——数字编码——三位数
    Docker容器技术之user-defined网络
  • 原文地址:https://blog.csdn.net/m0_74070923/article/details/139856731