• Pandas--read_csv,to_csv参数说明


    文件读取 pandas.read_csv

    pandas.read_csv(filepath_or_buffer, 
    				sep=NoDefault.no_default, 
    				delimiter=None, 
    				header='infer', 
    				names=NoDefault.no_default, 
    				index_col=None, 
    				usecols=None, 
    				squeeze=None, 
    				prefix=NoDefault.no_default, 
    				mangle_dupe_cols=True, 
    				dtype=None, 
    				engine=None, 
    				converters=None, 
    				true_values=None, 
    				false_values=None, 
    				skipinitialspace=False, 
    				skiprows=None, 
    				skipfooter=0, 
    				nrows=None, 
    				na_values=None, 
    				keep_default_na=True, 
    				na_filter=True, 
    				verbose=False, 
    				skip_blank_lines=True, 
    				parse_dates=None, 
    				infer_datetime_format=False, 
    				keep_date_col=False, 
    				date_parser=None, 
    				dayfirst=False, 
    				cache_dates=True, 
    				iterator=False, 
    				chunksize=None, 
    				compression='infer', 
    				thousands=None, 
    				decimal='.', 
    				lineterminator=None, 
    				quotechar='"', 
    				quoting=0, 
    				doublequote=True, 
    				escapechar=None, 
    				comment=None, 
    				encoding=None, 
    				encoding_errors='strict', 
    				dialect=None, 
    				error_bad_lines=None, 
    				warn_bad_lines=None, 
    				on_bad_lines=None, 
    				delim_whitespace=False, 
    				low_memory=True, 
    				memory_map=False, 
    				float_precision=None, 
    				storage_options=None)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52

    参数:

    • filepath_or_buffer:str, path object or file-like object.字符串。任何有效的字符串路径都可以,网址也行。
    • sep:str, default ‘,’。字符串,表示分隔符,默认为’,’ .。一个字符及以上都可以,注意如果是转义字符要加’’
    • delimiter:str, default None。字符串,sep的别名,默认None。
    • header:int, list of int, None, default ‘infer’。用作列名的行号,默认是0(第一行),如果没有列名默认None。
    • names:array-like, optional。结果的列名列表,与header=None共同使用。
    • index_col:int, str, sequence of int / str, or False, optional, default None。用作结果中行索引的列号或列名,可以是一个单一的名称\数字,也可以是一个分层索引。
    • usecols:list-like or callable, optional。返回列的子集。
    • squeeze:bool, default False。如果解析的数据仅包含一列,则返回一个Series。
    • prefix:str, optional。没有标题时要添加到列号的前缀
    • mangle_dupe_cols:bool, default True。重复的列将被指定为“ X”,“ X.1”,……“ X.N”,而不是“ X”……“ X”。如果列中的名称重复,则False将导致数据被覆盖。
    • dtype:Type name or dict of column -> type, optional。数据或列的数据类型。
    • engine:{‘c’, ‘python’, ‘pyarrow’}, optional。要使用的解析器引擎。C引擎速度更快,而python引擎当前功能更完善。
    • converters:dict, optional。包含列名称映射到函数的字典,例如{‘foo’: f}会把函数f应用到’foo’列。
    • true_values:list, optional。视为True的值
    • false_values:list, optional。视为False的值
    • skipinitialspace:bool, default False。在定界符后跳过空格。
    • skiprows:list-like, int or callable, optional。在文件开始处要跳过的行号(索引为0)或要跳过的行数(整数)。
    • skipfooter:int, default 0。忽略文件尾部的行数。
    • nrows:int, optional。从文件开头处读入的行数。
    • na_values:scalar, str, list-like, or dict, optional。需要用NA替换的值序列。
    • keep_default_na:bool, default True。解析数据时是否包括默认的NaN值。
    • na_filter:bool, default True。检测缺失值标记(空字符串和na_values的值)。请注意,如果将na_filter传递为False,则将忽略keep_default_na和 na_values参数。
    • verbose:bool, default False。打印各种解析器输出的信息,比如位于非数值列中的缺失值的数量。
    • skip_blank_lines:bool, default True。如果为True,跳过空白行,并且不解释为NaN值。
    • parse_dates:bool or list of int or names or list of lists or dict, default False。尝试将数据解析为datetime,默认为False。如果为True,将尝试解析所有的列。也可以指定列号或列名列来进行解析。如果列表的元素是元组或列表,将会把多个列组合在一起进行解析(例如日期\时间将拆分成两列)
    • infer_datetime_format:bool, default False。如果启用True和parse_dates,则pandas将尝试推断列中日期时间字符串的格式,并且如果可以推断出日期格式,就会切换到更快的解析它们的方法。
    • keep_date_col:bool, default False。如果连接列到解析日期上,保留被连接的列,默认为False。
    • date_parser:function, optional。用于解析日期的函数。
    • dayfirst:bool, default False。解析非明确日期时,DD / MM格式的日期,国际和欧洲格式。
    • cache_dates:bool, default True。如果为True,则使用唯一的转换日期缓存来应用datetime转换。
    • iterator:bool, default False。返回TextFileReader对象,用于零散地读入文件。
    • chunksize:int, optional。用于迭代的块大小。
    • compression:str or dict, default ‘infer’。用于对磁盘数据进行即时解压缩。设置为“无”将不进行解压缩。
    • thousands:str, optional。千位分隔符。
    • decimal:str, default ‘.’。识别为小数点的字符(例如,对于欧洲数据,请使用“,”)。
    • lineterminator:str (length 1), optional。用于将文件分成几行的字符。仅对C解析器有效。
    • quotechar:str (length 1), optional。用于表示引用项目的开始和结束的字符。
    • quoting:int or csv.QUOTE_* instance, default 0
    • doublequote:bool, default True。如果指定quotechar而未使用引号QUOTE_NONE,则指示是否将一个字段内的两个连续的quotechar元素解释为单个quotechar元素。
    • escapechar:str (length 1), optional。一字符字符串,用于转义其他字符。
    • comment:str, optional。在行结尾处分隔注释的字符。
    • encoding:str, optional。读/写时用于UTF的编码(例如’utf-8’)。
    • encoding_errors:str, optional, default “strict”。默认情况下,具有太多字段的行(例如,带有太多逗号的csv行)将引发异常,并且不会返回任何DataFrame。如果为False,则这些“坏行”将从返回的DataFrame中删除。
    • dialect:str or csv.Dialect, optional。如果提供的话,该参数将覆盖为以下参数的值(默认或不):delimiter, doublequote, escapechar, skipinitialspace, quotechar, and quoting。
    • warn_bad_lines:bool, optional, default None。如果error_bad_lines为False,而warn_bad_lines为True,则将为每个“坏行”输出警告。
    • on_bad_lines:{‘error’, ‘warn’, ‘skip’} or callable, default ‘error’
    • delim_whitespace:bool, default False。指定是否将空格(例如或)用作分隔符。
    • low_memory:bool, default True。在内部对文件进行分块处理,从而在解析时减少了内存使用。
    • memory_map:bool, default False。如果为filepath_or_buffer提供了文件路径,则将文件对象直接映射到内存中,然后直接从那里访问数据。使用此选项可以提高性能,因为不再有任何I / O开销。
    • float_precision:str, optional。指定C引擎应将哪个转换器用于浮点值。
    • storage_options:dict, optional。解析特殊的URL。如果为该参数提供非fsspec URL,则会引发错误。

    返回值:
    DataFrame or TextParser

    import pandas as pd
    pd.read_csv('data.csv')
    
    • 1
    • 2

    分块读入文件

    1. 读取前五行,指明nrows=5
    import pandas as pd
    
    df = pd.read_csv('test.csv', nrows=5)
    
    • 1
    • 2
    • 3

    pandas.DataFrame.to_csv

    DataFrame.to_csv(path_or_buf=None, 
    				sep=',', 
    				na_rep='', 
    				float_format=None, 
    				columns=None, 
    				header=True, 
    				index=True, 
    				index_label=None, 
    				mode='w', 
    				encoding=None, 
    				compression='infer', 
    				quoting=None, 
    				quotechar='"', 
    				line_terminator=None, 
    				chunksize=None, 
    				date_format=None, 
    				doublequote=True, 
    				escapechar=None, 
    				decimal='.', 
    				errors='strict', 
    				storage_options=None)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21

    参数:

    • path_or_buf:str, path object, file-like object, or None, default None。字符串或文件目录,文件路径或对象,如果未提供,结果将作为字符串返回。如果传递了一个文件对象,应该用换行= ’ ',禁用通用换行符。
    • sep:str, default ‘,’。输出文件的字段分隔符。
    • na_rep:str, default ‘’。字符串,默认为 ‘’ 浮点数格式字符串。
    • float_format:str, default None。浮点数格式字符串。
    • columns:sequence, optional。写出列名。如果给定字符串列表,则假定为列名的别名。
    • header:bool or list of str, default True。指定行数用来作为列名,数据开始行数。
    • index:bool, default True。写入行名称(索引)。
    • index_label:str or sequence, or False, default None
    • mode:str。Python写模式,默认“w”
    • encoding:str, optional。表示在输出文件中使用的编码的字符串,Python 2上默认为“ASCII”和Python 3上默认为“UTF-8”。
    • compression:str or dict, default ‘infer’。表示在输出文件中使用的压缩的字符串,允许值为“gzip”、“bz2”、“xz”,仅在第一个参数是文件名时使用。
    • quoting:optional constant from csv module。默认值为to_csv.QUOTE_MINIMAL。如果设置了浮点格式,那么浮点将转换为字符串,因此csv.QUOTE_NONNUMERIC会将它们视为非数值的。
    • quotechar:str, default ‘"’。用于引用字段的字符
    • line_terminator:str, optional
    • chunksize:int or None。一次写入行。
    • date_format:str, default None。字符串对象转换为日期时间对象
    • doublequote:bool, default True。控制一个字段内的quotechar。
    • escapechar:str, default None。在适当的时候用来转义sep和quotechar的字符。
    • decimal:str, default ‘.’。字符识别为小数点分隔符。例如。欧洲数据使用 ​​’,’。
    • errors:str, default ‘strict’
    • storage_options:dict, optional

    返回值:
    None or str

    df = pd.DataFrame({'name': ['Raphael', 'Donatello'],
                       'mask': ['red', 'purple'],
                       'weapon': ['sai', 'bo staff']})
    df.to_csv(index=False)
    # 'name,mask,weapon\nRaphael,red,sai\nDonatello,purple,bo staff\n'
    
    • 1
    • 2
    • 3
    • 4
    • 5
  • 相关阅读:
    基于java SpringBoot和HTML实验室预约管理系统设计
    Oracle/PLSQL: Atan Function
    JVM之方法区
    【MySql】Mysql之备份与恢复
    Python网络爬虫(五):b站弹幕
    Java项目:SSM个人博客管理系统
    聊聊秒杀系统的设计(一)
    【深度学习实验】卷积神经网络(七):实现深度残差神经网络ResNet
    成为会带团队的技术人 做规划:除了交付和稳定性,还要规划什么?
    听劝!不要啥都不懂就学PMP!这100个考试关键点,带你直击考试现场
  • 原文地址:https://blog.csdn.net/weixin_43956958/article/details/125881300