统计数字会撒谎

1 常见统计场景

1.1 GPA越高越好吗？

GPA，平均成绩点数，是计算大学学业的表现方法，通俗点说就是学生在校的平均成绩
计算方法如下：
1、百分制折算为等级成绩，等级成绩换算为分值

分数	等级	分值
90-100	A	4
80-90	B	3
70-80	C	2
60-70	D	1

2、单科绩点=分值*学分
3、 GPA=总绩点/总学分=所有科的绩点之和/所有科的学分之和
GPA是评价学术潜力的一个方便快捷的指标，一个GPA3.5的学生显然要比另一个GPA2.5的学生的实力强，GPA不仅计算容易、理解容易，而且对不同学生进行比较也很容易
但是这个指标是完美的吗？
总结：GPA没有反映不同学生所选课程的难易程度，假设一个GPA为3.5的学生选的都是容易的课，而GPA2.9的学生的课程表里尽是微积分、物理这类难学的课，我们能一口判定孰优孰劣吗？
描述统计学的意义就是简化，但过于简化会不可避免地丢失一些内容和细节。

1.2 我真的享受减税了吗？

政府要推行一个新的减税政策，这一政策将惠及绝大多数家庭，在这项政策推行后，将会有1亿人享受减税待遇，人均减税额超过1000元。
从数字上看，直观的认为大部分人都能减税1000元左右，但是如果减税中位数是100元呢？

总结：从准确性角度看，平均数和中位数取哪个，关键在用这个数据分布里的异常值对事实的真相是起到扭曲作用，还是其重要的组成部分。判断比统计更重要。

1.3 到底多付了多少？

百分差和百分率的区别
北京市的个人所得税税率由原来的3%上调到5%
有两种描述方法：
个人所得税税率上升了2个百分点，从3%涨到5%
个人所得税税率上升了67%

总结：这两种描述方法都没有问题，只是所站角度不同

1.4 变好了还是变坏了？

教育水平是变好了还是变坏了
政客甲（挑战者）：我们的教育水平正变得原来越糟！2013年有6成学校的考试成绩低于2012年
政客乙（在任者）：我么的教育水平正变得越来越好！2013年有8成学生的考试成绩高于2012年
从上述数据，我们并不能简单的说变化还是变坏，只能得到下述信息：
1 学校的规模差距比较大；
2 成绩上升的学生大部分来自于规模较大的学校；
3 成绩下降的学生大部分来自于规模较小的学校。
经济变好了还是变坏了
政客甲（平民主义者）：我们的经济一塌糊涂！2012年有30个州的收入都出现了下滑
政客乙（更接近精英派）：我们的经纪走势一片光明！2012年有70%的美国人的收入增加了
从上述数据，我们能得到下述信息：
1 州的规模差距较大；
2 收入上升的州可能是规模较大的州；
3 收入下滑的州可能是规模较小的州。

总结：要明确分析的目的，分清分析的单位，描述的对象到底是谁（或什么），以及不同的人口中的谁（或什么）是不是存在差异

1.5 物价涨了还是降了？

举一个简单的例子，假设去年一夸脱牛奶值 20 美分，一条面包 5 美分。今年牛奶的价格降至 10 美分，而面包的价格升至 l0 美分。现在你想证明什么呢? 物价指数上升？
物价指数下降？或者根本没有变化?
方法1：以去年为基期
牛奶的价格降了50% (10-20)/20
面包的价格涨了100% (10-5)/5
即今年涨了25% (-50%+100%)/2=25%
方法2：以今年为基期
去年牛奶的价格高于今年的100% (20-10)/10
面包的价格低于今年的50% (5-10)/10
即今年降了25%(-100%+50%)/2=25%
方法3:几何平均数（若有N个数，则这N个数的积开N次方就是N个数的几何平均数）
以去年为基期为例，
去年每种商品的价格都看成 100％，将两个 100％相乘再开平方根，得到 100％，这是去年价格指数的几何平均数
今年牛奶是去年的50％，面包是去年的 200％，50％乘以 200％得10000％，再开平方根得100％
价格没升没降

1.6 辍学率到底是多少？

某市教育局公布的高中辍学率为1.5%，而某电视栏目组暗访计算的辍学率为25%~50%
原因：教育局认为转学、出国或攻读一般同等学力的不是辍学，不纳入统计

2023年5月中国青年（16-24岁）失业率高达20.8%，真实的失业率到底是多少？
国家统计局的统计口径：将16岁及以上人口划分成三类，一类是就业，一类是失业，还有一类是非劳动力。按照国际劳工组织的标准，就业人口是指在调查参考期内，通常为一周，为了取得劳动报酬或经营收入而工作一小时及以上和因休假、临时停工等暂时离岗的人，这些人都属于就业
失业率=1-（一周内工作一小时及以上的人/(就业的人+失业的人））

1.7 收入增长的多吗？

在这里插入图片描述

总结：同一套数据，图表的刻度不同，给人的印象也不一样

1.8 军费增长的多吗？

在这里插入图片描述

总结：同一套数据，选择的时间范围不一样，给人的印象也不一样

2 对统计数据提出的五个问题

2.1 谁说的

首先要寻找的是偏差——出于学说、名誉或收入的考虑而需要证明某些结论的实验室，希望获得一篇好报道的报界，工资已岌岌可危的工人和管理部门都有可能制造偏差。
有意识的偏差：刻意舍弃部分数据；改变测量标准
无意识偏差：幸存者偏差
谨防“专家”“权威人士”

2.2 如何知道的

谨防有偏抽样，是选择不当还是刻意挑选有利的样本

2.3 样本是否足够大

谨防样本量过小、以偏概全“沉默的大多数”

2.4 是否遗漏了辅助信息

一项研究表明，在 2800 个案例中，超过半数的患者母亲年龄是 35 岁或超过 35 岁；
在大雾的一周内，伦敦市郊的死亡人数猛增至 2800 人；
约翰斯·霍普金斯大学 1／3 的女学生嫁给了大学老师；

2.5 是否偷换了概念

谨防统计口径的变化
某国某个地区的人口总数是2800万，5年后这个数据却变成了10500万，当中只有小部分的增长是真实的。
产生前后两次巨大差异的原因可归结为不同的调查目的，第一次是为征税和征兵服务的，第二次却是为了发放救济粮。

3 辛普森悖论

3.1 解释

谁的命中率更好？
先看第一场比赛：

运动员	两分球命中率	三分球命中率
詹姆斯	52.94%	41.67%
库里	57.14%	53.85%

其中：
两分球命中率 = 两分球命中数 / 两分球出手数 * 100%
三分球命中率 = 三分球命中数 / 三分球出手数 * 100%
总命中率 = (两分球命中数 + 三分球命中数) / (两分球出手数 + 三分球出手数) * 100%
看一下明细数据

运动员	两份球命中数	两分球出手数	两分球命中率	三分球命中数	三分球出手数	三分球命中率	总命中数	总出手数	总命中率
詹姆斯	9	17	52.94%	5	12	41.67%	14	29	48.28%
库里	8	14	57.14%	7	13	53.85%	15	27	55.56%

再来看另一场比赛：

运动员	两分球命中率	三分球命中率
詹姆斯	55.00%	33.33%
库里	57.14%	47.06%

再来看一下明细数据

运动员	两份球命中数	两分球出手数	两分球命中率	三分球命中数	三分球出手数	三分球命中率	总命中数	总出手数	总命中率
詹姆斯	11	20	55.00%	1	3	33.33%	12	23	52.17%
库里	4	7	57.14%	8	17	47.06%	12	24	50.00%

詹姆斯的两分球命中率也低于库里，三分球命中率也低于库里，但是汇总起来看，詹姆斯的投篮命中率是要高于库里的！

百科上对辛普森悖论的解释：
计算分项的比例（比如各种各样的率）数据时，A的每一分项的数据都比B要高，但是把各分项一汇总起来算总体数据时，A却比B低。这种不符合常规认知的“悖论”现象，在数据分析领域并不少见；这种在进行分组研究的时候，有时在每个组比较时都占优势的一方，在总评中有时反而是失势的一方的“悖论”现象就叫辛普森悖论。
在数学上的解释：
在这里插入图片描述
詹姆斯的投篮主要来自于两分球，三分球投的少（总投篮命中率主要由其两分球命中率主导）
库里的投篮主要来自于三分球，两分球投的少（总投篮命中率主要由其三分球命中率主导）
而三分球的命中率天然就会比两份球低得多，尽管库里三分球命中率远高于詹姆斯的三分球命中率，但再高也没有詹姆斯的两分球命中率高。

3.2 扩展

在真实的数据分析工作中，真实的数据形态往往更复杂，更多样，而标准的辛普森悖论也有很多的扩展甚至是变种的形态。根据数据分析经验总结起来，辛普森悖论更多的时候是从总体拆分到细项维度的时候发现的，而触发辛普森悖论，就是因为你选择了这个维度做拆分。所以，在数据分析中，对决策危害最大的错误就是：在分析的时候遗漏了关键的维度；而触发辛普森悖论的维度，恰恰是最不应该遗漏的！
所以，辛普森悖论的扩展定义可以归纳为：在增加了维度后使得数据结论反转的现象，均可称为是辛普森悖论现象

3.3 应用

在这里插入图片描述
尽管每个系女生的录取率都更高，但整体算下来男生的录取率却更高

地理系 8名男性报名（8/13=61.5%），录取了6人（6/8=75%）
历史系 8名女性报名（8/13=61.5%），录取了2人（2/8=25%

相关阅读:
Linux基础:软件包的管理
ssl证书阿里的域名，腾讯云的证书
高危漏洞分析|CVE-2022-42920 Apache Commons BCEL 越界写漏洞
龙蜥开发者说：海纳百川，有容乃大，我在龙蜥社区的升级之旅 | 第 11 期
【JavaEE初阶】 Thread类及常见方法
全网最全抖音运营攻略
常见Web安全漏洞深入解析
go多样化定时任务通用实现与封装
Spring Cloud 微服务项目实战笔记（一）
macOS Monterey 12.6 解决 UNRAR_LIB_PATH找不到错误

原文地址：https://blog.csdn.net/xjh163/article/details/132688541