数据建模中利用3σ剔除异常值进行数据清洗

方法原理：

        3σ准则又称为拉依达准则，它是先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。
        在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴
3σ原则：
        数值分布在（μ-σ,μ+σ)中的概率为0.6827
        数值分布在（μ-2σ,μ+2σ)中的概率为0.9544
        数值分布在（μ-3σ,μ+3σ)中的概率为0.9974
        可以认为，Y 的取值几乎全部集中在（μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%。

示例数据:

	日期	商品编码	销售数量
0	2020-12-01	A005	1
1	2020-12-01	A014	2
2	2020-12-01	A007	3
3	2020-12-01	A012	4
4	2020-12-01	A009	5
5	2020-12-01	A019	6
6	2020-12-01	A008	7
7	2020-12-01	A019	8
8	2020-12-01	A002	9
9	2020-12-02	A005	10

现在利用3σ剔除异常值的操作。


df_avg = df['销售数量'].mean() # 计算均值
df_std = df['销售数量'].std()  # 计算标准差
df['z_score'] = (df['销售数量'] - df_avg)/ df_std 
print(display(df))
df = df.loc[(df['z_score']>-3)|(df['z_score']<3)]    # 过滤掉销量过高的数据，排除一下异常值干扰
df = df.drop('z_score',axis =1)
print('均值：',df_avg)
print('标准差：',df_std)

均值： 5.5
标准差： 3.0276503540974917

查看处理后的结果：

	日期	商品编码	销售数量
0	2020-12-01	A005	1
1	2020-12-01	A014	2
2	2020-12-01	A007	3
3	2020-12-01	A012	4
4	2020-12-01	A009	5
5	2020-12-01	A019	6
6	2020-12-01	A008	7
7	2020-12-01	A019	8
8	2020-12-01	A002	9
9	2020-12-02	A005	10

可以看到结果没有变，现在人工加入一个异常值，看看能不能被过滤掉。

利用loc函数方法进行添加。


df.loc[10]=['2020-12-02','A007',1000]
df

再运行一下3σ剔除异常值的操作代码,查看结果,异常数据销售数量为1000已经剔除掉

	日期	商品编码	销售数量
0	2020-12-01 00:00:00	A005	1
1	2020-12-01 00:00:00	A014	2
2	2020-12-01 00:00:00	A007	3
3	2020-12-01 00:00:00	A012	4
4	2020-12-01 00:00:00	A009	5
5	2020-12-01 00:00:00	A019	6
6	2020-12-01 00:00:00	A008	7
7	2020-12-01 00:00:00	A019	8
8	2020-12-01 00:00:00	A002	9
9	2020-12-02 00:00:00	A005	10

相关阅读:
23云计算全国职业技能大赛容器云-容器编排
Netty实践-- echo
python3.8,torch1.10.2+cu113、torch-geometric 安装
力扣每日一题(+日常水题|树型dp)
simulink求解器选择的小tip
华为高斯数据库配置环境变量(DWS,高斯数据库，libra) 报错：sh: gsql: command not found
【Redis】专栏合集，从入门到高级业务场景实战
Mybatis 08
Kafka消费者Relance机制和分区机制
这篇文章可能是把时间和空间复杂度讲得最透彻的了

原文地址：https://blog.csdn.net/jcjic/article/details/125633332