• 【pandas】数据清洗的几种方法


    引言

    数据处理和分析过程中,数据清洗是至关重要的一步。Pandas是Python中用于数据处理和分析的强大库,提供了多种数据清洗方法。本文将介绍几种常用的数据清洗方法:缺失值处理重复值处理异常值处理

    准备

    这里准备了一份数据集,为了演示数据清洗的过程,该数据集包含了空值、重复行、异常值。
    异常值包括过大值和过小值。
    在这里插入图片描述

    • 读取数据集
    import pandas as pd
    data = pd.read_csv("./tmp.tsv",sep="\t",encoding="gbk")
    print(data.head(5))
    print(data.shape)
    
    • 1
    • 2
    • 3
    • 4

    在这里插入图片描述





    去除重复行

    拿到数据集的第一步,我们可以先做去除重复行的操作,该操作可以去除冗余数据,从而提高数据的准确性。

    data.drop_duplicates(inplace=True) # 删除重复行
    print(data.shape)
    
    • 1
    • 2

    在这里插入图片描述
    可以看到数据减少了两行





    填充空值

    去除重复行之后数据的样子:
    在这里插入图片描述

    可以看到剩余的数据还有空值的存在,所以接下来的一步就是填充空值。
    我们可以使用中位数去填充,也可以使用这列的中值填充。

    • 用中值填充
    for col in data.columns:
        quantile = data[col].quantile()
        data[col].fillna(quantile,inplace=True)
    print(data)
    
    • 1
    • 2
    • 3
    • 4

    在这里插入图片描述

    • 用均值填充
    for col in data.columns:
        quantile = data[col].mean()
        data[col].fillna(quantile,inplace=True)
    print(data)
    
    • 1
    • 2
    • 3
    • 4

    在这里插入图片描述



    去除异常值

    填充空值之后,就可以观察数据,找到自己认为的正常数据的范围,并把脱离这个范围的数据整行去除,该操作可以不符合实际情况的异常数据删除,提高数据的质量和准确性,使得数据分析结果更加准确可靠

    查看去除异常值前的data形状:
    在这里插入图片描述

    for col in data.columns:
        q1 = data[col].quantile(0.25)
        q3 = data[col].quantile(0.75)
    
        iqr = q3 - q1
        data = data[(data[col] > q1 - 1.5*iqr) & (data[col] < q3 + 1.5*iqr)]
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    查看去除异常值后的数据形状
    在这里插入图片描述

    这里使用的是IQR方法:
    IQR方法是一种基于四分位数的异常值检测方法。它通过计算每个数据点与四分位数之间的距离,来衡量数据点的离散程度。如果某个数据点距离四分位数的距离超过1.5倍的四分位距,则可以将其视为异常值并剔除。





    其他常用操作

    在数据集中还有一些查看表格的常用方法:

    • df.describe()

    查看数据的整体情况
    在这里插入图片描述

    • df.info()
      查看数据每列的基本类型,以及每列的空值数量

    在这里插入图片描述

  • 相关阅读:
    Spark性能调优之广播变量
    39.JavaScript中Promise的基本概念、使用方法,回调地狱规避、链式编程
    Linux: Swap与swappiness
    Go语言学习笔记——访问权限控制框架casbin
    97. 常用的HTTP服务压测工具
    CRM&PM如何帮助企业创造最优销售绩效
    Gitee Pages个人简历部署(上)
    2023年中国乳胶制品产量、需求量及市场规模分析[图]
    武汉新时标文化传媒有限公司短视频创业是一个趋势
    ArmSoM-W3之RK3588 Debian11详解
  • 原文地址:https://blog.csdn.net/fuhao6363/article/details/134331227