检测与处理记录重复值
准备数据detail.csv,将数据文件detail.csv放到Linux本地的/course/DataAnalyze/data目录。
| In[1]: | import os import pandas as pd os.chdir('/course/DataAnalyze/data') detail = pd.read_csv('./detail.csv',index_col=0,encoding = 'gbk', engine = 'python') ##方法一 ##定义去重函数 def delRep(list1): list2=[] for i in list1: if i not in list2: list2.append(i) return list2 dishes=list(detail['dishes_name']) ##将dishes_name从数据框中提取出来 print('去重前菜品总数为:',len(dishes)) dish = delRep(dishes) ##使用自定义的去重函数去重 print('方法一去重后菜品总数为:',len(dish)) |
| Out[1]: | 去重前菜品总数为: 1546 方法一去重后菜品总数为:145 |
| In[2]: | ##方法二 print('去重前菜品总数为:',len(dishes)) dish_set = set(dishes) ##利用set的特性去重 print('方法二去重后菜品总数为:',len(dish_set)) |
| Out[2]: | 去重前菜品总数为: 1546 方法二去重后菜品总数为:145 |
| 源数据 | 方法一去重后数据 | 方法二去重后数据 |
| 蒜蓉生蚝 | 蒜蓉生蚝 | 纸杯蛋糕 |
| 蒙古烤羊腿 | 蒙古烤羊腿 | 爆炒鳝碌 |
| 大蒜苋菜 | 大蒜苋菜 | 黄尾袋鼠西拉子红葡萄酒 |
| 芝麻烤紫菜 | 芝麻烤紫菜 | 白斩鸡 |
| 蒜香包 | 蒜香包 | 香菇鸡肉粥 |
| 白斩鸡 | 白斩鸡 | 农夫山泉NFC果汁100%橙汁 |
代码 43 使用drop_duplicates方法对菜品名称去重
| In[3]: | dishes_name = detail['dishes_name'].drop_duplicates() ##对dishes_name去重 print('drop_duplicates方法去重之后菜品总数为:',len(dishes_name)) |
| Out[3]: | drop_duplicates方法去重之后菜品总数为:143 |
代码 44 使用drop_duplicates方法对多列去重
| In[4]: | print('去重之前订单详情表的形状为:', detail.shape) shapeDet = detail.drop_duplicates(subset = ['order_id','emp_id']).shape print('依照订单编号,会员编号去重之后订单详情表大小为:', shapeDet) |
| Out[4]: | 去重之前订单详情表的形状为: (1546,18) 依照订单编号,会员编号去重之后订单详情表大小为: (162, 18) |