【Educoder数据挖掘实训】异常值检测-3σ法

开挖！

这个异常值检测基于的是两点：

数据往往遵循正态分布
在正态分布中， $[\mu - 3\sigma, \mu +3\sigma]$ 包含了正态分布中 $99.74\%$ 的数据。

所以一个很容易想到的方法就是舍弃在上述区间之外的数。
代码实现也比较容易，跟上一个实训箱线图代码实现一般无二。
只需要借住 $S er i es$ 中的函数 $m e an$ 计算平均值、 $s t d$ 计算标准差即可。

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
import numpy as np

data = pd.read_csv("src/death.csv", index_col='Unnamed: 0')

data = data.dropna(axis=1, thresh=data.shape[0] * 0.2)
data = data.dropna(axis=0, thresh=data.shape[1] * 0.2)

a = pd.isna(data).sum()
cols = [x for i, x in enumerate(a.index) if a[i] > 0]

mode_list = 'FIPS Admin2'
for i in cols:
    if mode_list.find(i) != -1:
        data[i] = data[i].fillna(data[i].mode().iloc[0])
    else:
        data[i] = data[i].fillna(data.mean()[i])


cols = '2008/10/20,2008/11/20,2008/12/20'.split(',')
x = data[cols]

########## Begin ########## 
# 3σ 原则检测异常值
bar, sigma = x.mean(), x.std()

outliers_index = (x < bar - 3 * sigma) | (x > bar + 3 * sigma)
# 删除异常值

x = x[~outliers_index]

# 打印各列异常值个数 
print(outliers_index.sum())

########## End ########## 



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

相关阅读:
3d游戏建模要达到什么水平才能找到工作？需要手绘和次时代都会吗？
23种设计模式（十一）外观模式（阁瑞钛伦特软件-九耶实训）
Element Plus& Ant Design(react) 表格的分页封装
反射
我面试的人成了我的领导，我该不该离职？
typescript57-数组泛型接口
ISIS基础知识
【收藏】使用jieba 进行基于Paddle的词性标注
这篇文章带你了解：如何一次性将Centos中Mysql的数据快速导出！！！
Tomcat漏洞利用工具-TomcatVuln

原文地址：https://blog.csdn.net/JZYshuraK/article/details/136404807