• pandas.read_csv() 处理 CSV 文件的 6 个有用参数


    pandas.read_csv 有很多有用的参数,你都知道吗?本文将介绍一些 pandas.read_csv()有用的参数,这些参数在我们日常处理CSV文件的时候是非常有用的。

    pandas.read_csv() 是最流行的数据分析框架 pandas 中的一个方法。我们日常使用的时候这个函数也是我们用的最多的,但是pandas.read_csv() 有很多输入参数,其中 filepath或buffer 参数是必不可少的,其余的都是可选的。所以我们一般也不会太关注,但是这些可选参数可以帮我们解决大问题。以下是read_csv完整的参数列表:

    pandas.read_csv(filepath_or_buffer, sep=NoDefault.no_default, delimiter=None, header='infer', names=NoDefault.no_default, index_col=None, usecols=None, squeeze=None, prefix=NoDefault.no_default, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=None, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, encoding_errors='strict', dialect=None, error_bad_lines=None, warn_bad_lines=None, on_bad_lines=None, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None, storage_options=None)
    
    • 1

    我们用以下的CSV 文件作为样例。你可以将此数据复制到文本文件中并将其保存为 dummy.csv 文件。

    #1.###############################################################,
    #2. some metadata #,
    #3. Last updated: 2022-06-23 05:49:15 UTC                        #,
    #4.                                                              #,
    #5. Terms Of Use:           #,
    #6. For questions please contact         #,
    #7. #############################################################,
    #8. ,
    date,name
    2022-06-23 05:49:15,a1
    2022-06-22 14:52:16,a2
    2022-06-22 06:45:16,a3
    2022-06-21 15:02:34,a4
    2022-06-21 09:00:17,a5
    2022-06-21 08:59:59,a6
    2022-06-20 13:57:09,a7
    2022-06-20 09:06:59,a8
    2022-06-20 09:06:54,a9
    2022-06-19 17:26:45,a10
    2022-06-19 17:26:32,a11
    2022-06-19 09:26:13,a12
    2022-06-19 09:25:57,a13
    2022-06-18 07:09:55,a14
    2022-06-17 08:14:21,a15
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24

    1、skiprows

    skiprows 接收一个正整数。在读取 CSV 文件时,如果使用了 skiprows,Pandas 将从头开始删除指定的行。我们想从开头跳过 8 行,因此将 skiprows 设置为 8。如下所示:

    在这里插入图片描述

    2、comment

    comment接收一个字符。如果该字符在行首出现,则将跳过该行。我们想跳过上面显示的 CSV 文件中包含一些额外信息的行,所以 CSV 文件读入 pandas 时指定 comment = ‘#’:

    3、nrows

    nrows 表示从顶部开始读取的行数,这是在处理 skiprows 和comment参数后计算的。如果希望从大文件中提取加载一部分数据,就需要这个参数。

    例如,只读取在删除任何以数字“#”开头的行之后剩下的前 5 行。

    在这里插入图片描述

    4、dtype

    在读取数据时可以直接定义某些列的 dtype。我们将name定义为string。

    在这里插入图片描述

    5、parse_dates

    如果数据包含日期列,还可以在读取时使用 parse_dates 定义日期列。Pandas 将自动从指定的“日期”列推断日期格式。 我们将date传入parse_dates , pandas 自动会将“date”列推断为日期 dtype。

    6、skipfooter

    与skiprows类似,它将跳过文件底部的行数。(这个参数不支持engine=‘c’,所以需要指定engine=“python”,可以看下面截图中的提示)。CSV 文件中,如果想删除最后一行,那么可以指定 skipfooter =1:

    在这里插入图片描述

    以上就是6个非常简单但是有用的参数,在读取CSV时使用它们可以最大限度地减少数据加载所需的工作量并加快数据分析。

    https://avoid.overfit.cn/post/600f8b1b76734fe3b51394d6c2faf565

    作者:R. Gupta

  • 相关阅读:
    优思学院|为何CPK要大于1.33?
    聊聊路径规划算法(四)——滚动在线RRT算法和BUG算法
    深度学习计算 - 层和块
    C. Binary String Reconstruction
    世界连续动作预测模型-方向模型
    【软件测试】针对自己开发(或常用)的一个Web系统,结合所学软件测试相关技术,评价项目的可用性、可靠性和安全性
    COIG:开源四类中文指令语料库
    [附源码]Python计算机毕业设计Django线上社区管理系统
    【修车案例】一波形一案例(9)
    UJNOJ_1307: 数独 [for ACMer]_模拟
  • 原文地址:https://blog.csdn.net/m0_46510245/article/details/125613188