• 概率论的学习和整理12: 正态分布


     

    1 问题: 什么是正态分布,为什么这么出名和重要?

    1.1 名气大

    • 正态分布的大名,如雷贯耳
    • 很多人一说到概率,除了想到丢骰子的古典概型,第二个会想到的就是正态分布了
    • 下图就是正态分布和标准正态分布曲线的图

    • 甚至大部分有区分度的考试(选拔筛选考试,而不是资格水平考试)
    • 学生成绩没呈现正态分布,可以说是试卷出卷和教学有问题

    1.2 正态分布从哪儿来? 谁发明的?

    名字:

    • 正态分布(Normal distribution)
    • 正常分布!一般的分布,完全可以这么翻译
    • 高斯分布(Gaussian distribution)
    • 钟形曲线  (bell curve)
    • 正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个极其常见的连续概率分布。因为正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。
    • 高斯、拉普拉斯、棣莫弗、勒让德很多大神的作用一步步发展而来,高斯是发明了最小二乘方法
    • 正态分布最初是从二项分布发展而来的,二项分布的pmf确实很像正态分布
    • 后来推广到其他概率分布,当样本量极大时接近无限,所有的分布都可以认为趋向于正态分布?
    • 哪些情况可以用正态分布?一般来说,据说是只要是针对同一类型的变量的试验,次数足够大的情况,都会趋向正态分布的

    1.3 正态分布是概率论,还是统计?

    • 我觉得更多的是统计学
    • 因为都是从观测的数据,去反推这些数据服从什么  随机变量--概率的规律--也就是  概率密度曲线pdf,也就是概率的分布!

    2 正态分布的基本概念内容介绍

    2.1  正态分布

    • 正态分布,
    • 正态分布概率函数 
    • f(x)=[1/(√2π)δ]*e^[-(x-u)^2/2(δ^2)] 
    • 正态分布的平均值  u,是理想的假设知道所有值之后的算术平均值?
    • 正态分布的期望? 就是均值吧

    • 正态分布的标准差  δ=np(1-p)
    • 正态分布的方差? 就是标准差的平方吧 δ^2

    2.2 标准正态分布

    • 正态分布概率函数 f(x)=[1/(√2π)δ]*e^[-(x-u)^2/2(δ^2)]
    • 当u=0,δ=1 时,就是标准正态分布
    • 标准正态分布的概率公式更简洁

    2.3 正态分布曲线  和 各种标准的意思

    • 第1置信区间: [-δ,δ] 之间,68.3%
    • 第2置信区间: [-2δ,2δ] 之间,95.4%
    • 第3置信区间: [-3δ,3δ] 之间,99.7%

    2.4 正态分布的特点

    • 3个置信区间的
    • 第1置信区间: [-δ,δ] 之间,68.3%
    • 第2置信区间: [-2δ,2δ] 之间,95.4%
    • 第3置信区间: [-3δ,3δ] 之间,99.7%
    • 平均值就是期望
    • 极端值很少,在 [-3δ,3δ] 之外的数很少
    • 标准差小,则数据集中,钟形曲线瘦高个,如果是标准差大,那么钟形曲线就扁和矮。

    2.5 正态分布的推论

    • 正态分布变量的和,一般也是正态分布
    • 正态分布相加,一般期望就等于2者期望之和,标准差等于2者标准差之和
    • 也就是正态分布相加,正态分布会变扁(因为标准差是求和变大了!越大越扁)
    • 正态分布还和柯西分布,k2分布有关系

    3 哪些情况符合正态分布呢?

    3.1 正态分布的适用范围

    • 正态分布,名字叫正常分布,适用面积非常的广
    • 常见的正态分布举例,比如WHO统计的儿童身高体重不就是正态分布的3个区间的数字么
    • 也就是一般就看 [-2δ,2δ] 之间,95.4% 就够了

    3.2 哪些情况适合正态分布呢?

    正态分布最初是从二项分布发展而来的,二项分布的pmf确实很像正态分布,后来推广到其他概率分布,当样本量极大时接近无限都可以认为趋向于正态分布?

    哪些情况可以用正态分布?一般来说,据说是只要是针对同一类型的变量的试验,次数足够大的情况,都会趋向正态分布的

    • 正态分布,从离散的二项分布出发
    • 但是正态分布本身是一种连续分布
    • 正态分布是连续的,意味着单个点的概率p=0,只能关注区间概率
    • 哪些情况可以用正态分布?
    • 一般来说,据说是只要是针对同一类型的变量的试验,次数足够大的情况,都会趋向正态分布的,也就是正态分布具有普适性。。。

    • 生活中到处都是正态分布,试验次数很多的结果
    • 人们认为正态分布完美地诠释了讲到的“同质”和“变异”这两个概念。
    • 正是因为我们研究的对象具有同质性,所以其特征往往是趋同的,也即存在一个基准(均数),但由于个体变异的存在,这些特征又不是完全一致,

    几个关键点

    • 只要是针对同一类型的变量的试验,这个说法,意味着一般是类伯努利试验,每次试验之间是独立的,互不影响
    • 也就是说这些随机元素,影响因素之间要独立
    • 而且一般说,影响的因素要比较多
    • 这些随机元素对结果的影响,一般是使用加法原理,用加和的方法求得。也就是这些因素对完成随机试验的结果,是并行的关系。
    • 举例子,用身高举例,遗传因素,环境因素,饮食因素,锻炼因素都是独立的(或者相关程度很低,不是强相关),他们对身高的影响都是可以用加法原理加和的。这样的就符合正态分布

    3.3 哪些不适合正态分布呢?

    • 随机元素之间,不是独立的,而是有互相影响则可能不正态分布
    • 如果一些因素作用还可能有前后步骤,乘法原理的关系,就可能不是正态分布
    • 如果影响的因素毕竟少,不多,原因太单一可能不是正态分布

    正态分布变成标准正态分布

    我能不能理解标准化就是把图形σ倍缩小然后移动μ个位置啊

    4  为什么呢?

    4.1 极大似然估计

    4.2 中心极限定理

    4.3 最小二乘法

    样本足够大则近似认为服从正态分布

    样本量一般至少要超过30才可以认为可以近似正态分布

    5 具体例题举例,还需要查表

    查表

    6 另外几个分布

    • k2分布
    • f分布
    • t分布等等

    7  一些有趣的研究

    • 牛人们根据这个研究出,不同XX的人组合,就是正态分布的叠加,因此标准差会变大。。。。
    • 第一次看到这种角度,理解他们的想法了,脑洞好大啊

     


     

  • 相关阅读:
    SpringSecurity 快速入门
    单调递增的数字【贪心算法】
    python基础语法——类和对象
    LeetCode 1142.过去30天的用户活动2
    springboot幼儿园幼儿基本信息管理系统设计与实现毕业设计源码201126
    Vue配置代理学习笔记
    CSS3新增伪类有那些?
    线性代数中涉及到的matlab命令-第三章:矩阵的初等变换及线性方程组
    Lambda表达式在C++中的定义
    waituntil and stopuntil说明
  • 原文地址:https://blog.csdn.net/xuemanqianshan/article/details/126467945