• 统计数字会撒谎


    1 常见统计场景

    1.1 GPA越高越好吗?

    GPA,平均成绩点数,是计算大学学业的表现方法,通俗点说就是学生在校的平均成绩
    计算方法如下:
    1、 百分制折算为等级成绩,等级成绩换算为分值

    分数等级分值
    90-100A4
    80-90B3
    70-80C2
    60-70D1

    2、 单科绩点=分值*学分
    3、 GPA=总绩点/总学分=所有科的绩点之和/所有科的学分之和
    GPA是评价学术潜力的一个方便快捷的指标,一个GPA3.5的学生显然要比另一个GPA2.5的学生的实力强,GPA不仅计算容易、理解容易,而且对不同学生进行比较也很容易
    但是这个指标是完美的吗?
    总结:GPA没有反映不同学生所选课程的难易程度,假设一个GPA为3.5的学生选的都是容易的课,而GPA2.9的学生的课程表里尽是微积分、物理这类难学的课,我们能一口判定孰优孰劣吗?
    描述统计学的意义就是简化,但过于简化会不可避免地丢失一些内容和细节。

    1.2 我真的享受减税了吗?

    政府要推行一个新的减税政策,这一政策将惠及绝大多数家庭,在这项政策推行后,将会有1亿人享受减税待遇,人均减税额超过1000元。
    从数字上看,直观的认为大部分人都能减税1000元左右,但是如果减税中位数是100元呢?

    总结:从准确性角度看,平均数和中位数取哪个,关键在用这个数据分布里的异常值对事实的真相是起到扭曲作用,还是其重要的组成部分。判断比统计更重要。

    1.3 到底多付了多少?

    百分差和百分率的区别
    北京市的个人所得税税率由原来的3%上调到5%
    有两种描述方法:
    个人所得税税率上升了2个百分点,从3%涨到5%
    个人所得税税率上升了67%

    总结:这两种描述方法都没有问题,只是所站角度不同

    1.4 变好了还是变坏了?

    教育水平是变好了还是变坏了
    政客甲(挑战者):我们的教育水平正变得原来越糟!2013年有6成学校的考试成绩低于2012年
    政客乙(在任者):我么的教育水平正变得越来越好!2013年有8成学生的考试成绩高于2012年
    从上述数据,我们并不能简单的说变化还是变坏,只能得到下述信息:
    1 学校的规模差距比较大;
    2 成绩上升的学生大部分来自于规模较大的学校;
    3 成绩下降的学生大部分来自于规模较小的学校。
    经济变好了还是变坏了
    政客甲(平民主义者):我们的经济一塌糊涂!2012年有30个州的收入都出现了下滑
    政客乙(更接近精英派):我们的经纪走势一片光明!2012年有70%的美国人的收入增加了
    从上述数据,我们能得到下述信息:
    1 州的规模差距较大;
    2 收入上升的州可能是规模较大的州;
    3 收入下滑的州可能是规模较小的州。

    总结:要明确分析的目的,分清分析的单位,描述的对象到底是谁(或什么),以及不同的人口中的谁(或什么)是不是存在差异

    1.5 物价涨了还是降了?

    举一个简单的例子,假设去年一夸脱牛奶值 20 美分,一条面包 5 美分。今年牛奶的价格降至 10 美分,而面包的价格升至 l0 美分。现在你想证明什么呢? 物价指数上升?
    物价指数下降?或者根本没有变化?
    方法1:以去年为基期
    牛奶的价格降了50% (10-20)/20
    面包的价格涨了100% (10-5)/5
    即今年涨了25% (-50%+100%)/2=25%
    方法2:以今年为基期
    去年牛奶的价格高于今年的100% (20-10)/10
    面包的价格低于今年的50% (5-10)/10
    即今年降了25%(-100%+50%)/2=25%
    方法3:几何平均数(若有N个数,则这N个数的积开N次方就是N个数的几何平均数)
    以去年为基期为例,
    去年每种商品的价格都看成 100%,将两个 100%相乘再开平方根,得到 100%,这是去年价格指数的几何平均数
    今年牛奶是去年的50%,面包是去年的 200%,50%乘以 200%得10000%,再开平方根得100%
    价格没升没降

    1.6 辍学率到底是多少?

    某市教育局公布的高中辍学率为1.5%,而某电视栏目组暗访计算的辍学率为25%~50%
    原因:教育局认为转学、出国或攻读一般同等学力的不是辍学,不纳入统计

    2023年5月中国青年(16-24岁)失业率高达20.8%,真实的失业率到底是多少?
    国家统计局的统计口径:将16岁及以上人口划分成三类,一类是就业,一类是失业,还有一类是非劳动力。按照国际劳工组织的标准,就业人口是指在调查参考期内,通常为一周,为了取得劳动报酬或经营收入而工作一小时及以上和因休假、临时停工等暂时离岗的人,这些人都属于就业
    失业率=1-(一周内工作一小时及以上的人/(就业的人+失业的人))

    1.7 收入增长的多吗?

    在这里插入图片描述
    在这里插入图片描述
    总结:同一套数据,图表的刻度不同,给人的印象也不一样

    1.8 军费增长的多吗?

    在这里插入图片描述
    在这里插入图片描述
    总结:同一套数据,选择的时间范围不一样,给人的印象也不一样

    2 对统计数据提出的五个问题

    2.1 谁说的

    首先要寻找的是偏差——出于学说、名誉或收入的考虑而需要证明某些结论的实验室,希望获得一篇好报道的报界,工资已岌岌可危的工人和管理部门都有可能制造偏差。
    有意识的偏差:刻意舍弃部分数据;改变测量标准
    无意识偏差:幸存者偏差
    谨防“专家”“权威人士”

    2.2 如何知道的

    谨防有偏抽样,是选择不当还是刻意挑选有利的样本

    2.3 样本是否足够大

    谨防样本量过小、以偏概全“沉默的大多数”

    2.4 是否遗漏了辅助信息

    一项研究表明,在 2800 个案例中,超过半数的患者母亲年龄是 35 岁或超过 35 岁;
    在大雾的一周内,伦敦市郊的死亡人数猛增至 2800 人;
    约翰斯·霍普金斯大学 1/3 的女学生嫁给了大学老师;

    2.5 是否偷换了概念

    谨防统计口径的变化
    某国某个地区的人口总数是2800万,5年后这个数据 却变成了10500万,当中只有小部分的增长是真实的。
    产生前后两次巨大差异的原因可归结为不同的调查目的,第一次是为征税和征兵服务的,第二次却是为了发放救济粮。

    3 辛普森悖论

    3.1 解释

    谁的命中率更好?
    先看第一场比赛:

    运动员两分球命中率三分球命中率
    詹姆斯52.94%41.67%
    库里57.14%53.85%

    其中:
    两分球命中率 = 两分球命中数 / 两分球出手数 * 100%
    三分球命中率 = 三分球命中数 / 三分球出手数 * 100%
    总命中率 = (两分球命中数 + 三分球命中数) / (两分球出手数 + 三分球出手数) * 100%
    看一下明细数据

    运动员两份球命中数两分球出手数两分球命中率三分球命中数三分球出手数三分球命中率总命中数总出手数总命中率
    詹姆斯91752.94%51241.67%142948.28%
    库里81457.14%71353.85%152755.56%

    再来看另一场比赛:

    运动员两分球命中率三分球命中率
    詹姆斯55.00%33.33%
    库里57.14%47.06%

    再来看一下明细数据

    运动员两份球命中数两分球出手数两分球命中率三分球命中数三分球出手数三分球命中率总命中数总出手数总命中率
    詹姆斯112055.00%1333.33%122352.17%
    库里4757.14%81747.06%122450.00%

    詹姆斯的两分球命中率也低于库里,三分球命中率也低于库里,但是汇总起来看,詹姆斯的投篮命中率是要高于库里的!

    百科上对辛普森悖论的解释:
    计算分项的比例(比如各种各样的率)数据时,A的每一分项的数据都比B要高,但是把各分项一汇总起来算总体数据时,A却比B低。这种不符合常规认知的“悖论”现象,在数据分析领域并不少见;这种在进行分组研究的时候,有时在每个组比较时都占优势的一方,在总评中有时反而是失势的一方的“悖论”现象就叫辛普森悖论。
    在数学上的解释:
    在这里插入图片描述
    詹姆斯的投篮主要来自于两分球,三分球投的少(总投篮命中率主要由其两分球命中率主导)
    库里的投篮主要来自于三分球,两分球投的少(总投篮命中率主要由其三分球命中率主导)
    而三分球的命中率天然就会比两份球低得多,尽管库里三分球命中率远高于詹姆斯的三分球命中率,但再高也没有詹姆斯的两分球命中率高。

    3.2 扩展

    在真实的数据分析工作中,真实的数据形态往往更复杂,更多样,而标准的辛普森悖论也有很多的扩展甚至是变种的形态。根据数据分析经验总结起来,辛普森悖论更多的时候是从总体拆分到细项维度的时候发现的,而触发辛普森悖论,就是因为你选择了这个维度做拆分。所以,在数据分析中,对决策危害最大的错误就是:在分析的时候遗漏了关键的维度;而触发辛普森悖论的维度,恰恰是最不应该遗漏的!
    所以,辛普森悖论的扩展定义可以归纳为:在增加了维度后使得数据结论反转的现象,均可称为是辛普森悖论现象

    3.3 应用

    在这里插入图片描述
    尽管每个系女生的录取率都更高,但整体算下来男生的录取率却更高

    地理系 8名男性报名(8/13=61.5%),录取了6人(6/8=75%)
    历史系 8名女性报名(8/13=61.5%),录取了2人(2/8=25%

  • 相关阅读:
    Spring Boot + Vue3前后端分离实战wiki知识库系统<十三>--单点登录开发二
    mac 安装及配置vue
    如何通过API接口获取item_get - 获得淘宝商品详情
    Linux编译器-gcc/g++使用
    JavaWeb开发之——DDL-操作表-查询表与创建表(07)
    7年阿里测试经验之谈 —— 用UI自动化测试实现元素定位
    【技术分享】NetLogon于域内提权漏洞(CVE-2020-1472)
    数据结构--队列
    dockerfile文件参数
    [附源码]Python计算机毕业设计Django勤工助学管理系统
  • 原文地址:https://blog.csdn.net/xjh163/article/details/132688541