引包:
- import pandas as pd
- import numpy as np
读取文件:
df=pd.read_csv('./HR.csv')
文件见绑定资源(来自kaggle的HR.csv)
处理过程:
一、从df中拿出处理对象
二、找出缺失值的位置并删除
- s1_s=df['satisfaction_level']
- # s1_s.isnull()
- #查找空值
- print(s1_s[s1_s.isnull()])
- # 查看空值的具体情况
- print(df[df['satisfaction_level'].isnull()])
- # 删除空值
- s1_s=s1_s.dropna()
- # print(s1_s)
三、观察数据组成情况
(均值。中位数、最大值最小值、标准差、偏度和峰度.......)
- print(s1_s.mean())#均值
- print(s1_s.median())#中位数
- print(s1_s.std())#标准差
- print(s1_s.max())#最大值
- print(s1_s.min())#最小值
- print(s1_s.quantile(q=0.25))#下四分位数
- print(s1_s.quantile(q=0.75))#上四分位数
- print(s1_s.skew())#偏度=-0.4763...为负偏--均值偏小,大部分数大于均值
- print(s1_s.kurt())#峰度=-0.67...-->相对于正态分布来说属于比较平缓的状态
(获取离散化的分布用numpy.histogram)
- 获取离散化的分布用numpy.histogram
- s=np.histogram(s1_s.values,bins=np.arange(0.0,1.1,0.1))
- # series的值 bins:切分的临界
- print(s)
- # 输出: (array([ 195, 1214, 532, 974, 1668, 2146, 1972, 2074, 2220, 2004],
- # dtype=int64), array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ]))
其他列的数据也是同上三部的操作代码如下:
(多了一个删除异常值)
- le_s=df['last_evaluation']
- print(le_s[le_s.isnull()])
-
- print(le_s.mean())#均值
- print(le_s.std())#标准差
- print(le_s.max())#最大值
- print(le_s.min())#最小值
- print(le_s.median())#中位数
- print(le_s.skew())#偏度
- print(le_s.kurt())#峰度
- print(df['last_evaluation'].describe())
- print(df.describe())
-
- q_low=le_s.quantile(q=0.25)
- q_high=le_s.quantile(q=0.75)
- q_interval=q_high-q_low
- k=1.5
- le_s=le_s[le_s
q_low-k*q_interval] - print(le_s)
- print(np.histogram(le_s.values,bins=np.arange(0.0,1.1,0.1)))
-
-
- #处理number_project
- np_s=df['number_project']
- print(np_s[np_s.isnull()])
-
- np_s=np_s.dropna()
- print('====')
- print(np_s)
- # print(np_s.skew())
-
- k=1.5
- np_s1=np_s.quantile(0.25)
- np_s2=np_s.quantile(0.75)
- np_ss=np_s2-np_s1
- np_s=np_s[np_s
np_s1-k*np_ss] - print(np_s)
- print(np_s.describe())
- # 查看数据的个数
- print(np_s.value_counts())
- # 查看各个数据所占的比例
- print(np_s.value_counts(normalize=True))
- # normalize:输出占比比例
- # 按照index排序和values排序
- print(np_s.value_counts(normalize=True).sort_index())
- print(np_s.value_counts(normalize=True).sort_values())
-
-
- # 处理average_montly_hours
- amh_s=df['average_montly_hours']
- # print(amh_s)
- print(amh_s[amh_s.isnull()])
- amh_s=amh_s.dropna()
- # print('===\n',amh_s[amh_s.isnull()])
- # print(amh_s)
- # print(amh_s.describe())
- Upper_q=amh_s.quantile(q=0.75)
- Lower_q=amh_s.quantile(q=0.25)
- q=Upper_q-Lower_q
- amh_s=amh_s[amh_s<=Upper_q+q*1.5][amh_s>=Lower_q-q*1.5]
- print(amh_s)
- # 输出偏度和峰度
- print(amh_s.skew(),amh_s.kurt())
观察数值的分布情况
使用了histogram和可视化两个方法
-
- # 方法一
- print(np.histogram(amh_s.values,bins=10))
- # print(np.histogram(amh_s.values,bins=np.arange(amh_s.min(),amh_s.max()+10,10)))
- # # 方法二:画图--利用直方图来观察数据的分布情况
- # import matplotlib.pyplot as plt
- # plt.hist(amh_s.values,np.arange(amh_s.min(),amh_s.max()+10,10))
- # plt.show()
其他列的简单操作大部分都是删除空值
- tsc_s=df['time_spend_company']
- # print(tsc_s)
- x=tsc_s[tsc_s.isnull()]
- # print(x)
- tsc_s=tsc_s.dropna()
- # print(tsc_s)
- print(tsc_s.min(),tsc_s.max(),tsc_s.kurt(),tsc_s.skew(),tsc_s.std())
- uper_q=tsc_s.quantile(q=0.75)
- lower_q=tsc_s.quantile(q=0.25)
- q=uper_q-lower_q
- tsc_s=tsc_s[tsc_s
1.5][tsc_s>lower_q-q*1.5] - print(tsc_s)
- print(tsc_s.min(),tsc_s.max(),tsc_s.kurt(),tsc_s.skew(),tsc_s.std())
- print(tsc_s.value_counts().sort_index())
- print(np.histogram(tsc_s.values,bins=np.arange(tsc_s.min(),tsc_s.max()+1,1)))
-
-
-
- wa_s=df['Work_accident']
- print(wa_s)
- wa_s.value_counts()
- wa_s=wa_s[wa_s==0.0]
- print(wa_s)
-
-
- lf_s=df['left']
- print(lf_s)
- lf_s=lf_s[lf_s==1.0]
- print(lf_s)
- print(lf_s.value_counts())
-
-
- pro_s=df['promotion_last_5years']
- print(pro_s)
- pro_s=pro_s[pro_s==0.0]
- print(pro_s)
- print(pro_s.value_counts())
-
-
- s_s=df['salary']
- print(s_s)
- s_s=s_s.dropna()
- print(s_s)
- print(s_s.value_counts())
-
-
- dpt_s=df['sales']
- print(dpt_s)
- dpt_s=dpt_s.dropna()
- print(dpt_s)
- dpt_s.where()
- print(dpt_s.value_counts())
-
- say_s=df['salary']
其实删除空值只需一行代码上面是为了一列一列的观察数据查看还有没有其他的异常值:
df=df.dropna(axis=0,how='any')
意思是删除只要有空值的行。
对比分析:
(将不同列放在一起观察并分析数据)
这里的代码类似与sql的DQL代码
-
- df=df.dropna(axis=0,how='any')
- # print(df)
-
-
- df1=df.groupby('sales').min()
- print(df1)
- df2=df.loc[:,['satisfaction_level','sales']].groupby('sales').mean()
- print(df2)
- print('=====')
- # 输出极差
- df3=df.loc[:,['average_montly_hours','sales']].groupby('sales')['average_montly_hours'].apply(lambda x:x.max()-x.min())
- print(df3)
- print(df['salary'].value_counts())
- print(len(df['salary'].value_counts()))
简单的可视化操作:
这里用到的是matplotlib
- import matplotlib.pyplot as plt
- plt.title('salary')
- plt.xlabel('salary_zhonglei')
- plt.ylabel('shuliang')
- plt.xticks(np.arange(len(df['salary'].value_counts())),df['salary'].value_counts().index)
- # bottom=['low','medium','high']
- plt.axis([-1,3,0,10000])
- plt.bar(np.arange(len(df['salary'].value_counts())),df['salary'].value_counts(),width=0.4)
- for x,y in zip(np.arange(len(df['salary'].value_counts())),df['salary'].value_counts()):
- plt.text(x,y,y,ha='center',va='bottom')
- # ha = 'center', va = 'bottom'
- plt.show()