文件读取 pandas.read_csv
pandas. read_csv( filepath_or_buffer,
sep= NoDefault. no_default,
delimiter= None ,
header= 'infer' ,
names= NoDefault. no_default,
index_col= None ,
usecols= None ,
squeeze= None ,
prefix= NoDefault. no_default,
mangle_dupe_cols= True ,
dtype= None ,
engine= None ,
converters= None ,
true_values= None ,
false_values= None ,
skipinitialspace= False ,
skiprows= None ,
skipfooter= 0 ,
nrows= None ,
na_values= None ,
keep_default_na= True ,
na_filter= True ,
verbose= False ,
skip_blank_lines= True ,
parse_dates= None ,
infer_datetime_format= False ,
keep_date_col= False ,
date_parser= None ,
dayfirst= False ,
cache_dates= True ,
iterator= False ,
chunksize= None ,
compression= 'infer' ,
thousands= None ,
decimal= '.' ,
lineterminator= None ,
quotechar= '"' ,
quoting= 0 ,
doublequote= True ,
escapechar= None ,
comment= None ,
encoding= None ,
encoding_errors= 'strict' ,
dialect= None ,
error_bad_lines= None ,
warn_bad_lines= None ,
on_bad_lines= None ,
delim_whitespace= False ,
low_memory= True ,
memory_map= False ,
float_precision= None ,
storage_options= None )
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
参数:
filepath_or_buffer:str, path object or file-like object.字符串。任何有效的字符串路径都可以,网址也行。 sep:str, default ‘,’。字符串,表示分隔符,默认为’,’ .。一个字符及以上都可以,注意如果是转义字符要加’’ delimiter:str, default None。字符串,sep的别名,默认None。 header:int, list of int, None, default ‘infer’。用作列名的行号,默认是0(第一行),如果没有列名默认None。 names:array-like, optional。结果的列名列表,与header=None共同使用。 index_col:int, str, sequence of int / str, or False, optional, default None。用作结果中行索引的列号或列名,可以是一个单一的名称\数字,也可以是一个分层索引。 usecols:list-like or callable, optional。返回列的子集。 squeeze:bool, default False。如果解析的数据仅包含一列,则返回一个Series。 prefix:str, optional。没有标题时要添加到列号的前缀 mangle_dupe_cols:bool, default True。重复的列将被指定为“ X”,“ X.1”,……“ X.N”,而不是“ X”……“ X”。如果列中的名称重复,则False将导致数据被覆盖。 dtype:Type name or dict of column -> type, optional。数据或列的数据类型。 engine:{‘c’, ‘python’, ‘pyarrow’}, optional。要使用的解析器引擎。C引擎速度更快,而python引擎当前功能更完善。 converters:dict, optional。包含列名称映射到函数的字典,例如{‘foo’: f}会把函数f应用到’foo’列。 true_values:list, optional。视为True的值 false_values:list, optional。视为False的值 skipinitialspace:bool, default False。在定界符后跳过空格。 skiprows:list-like, int or callable, optional。在文件开始处要跳过的行号(索引为0)或要跳过的行数(整数)。 skipfooter:int, default 0。忽略文件尾部的行数。 nrows:int, optional。从文件开头处读入的行数。 na_values:scalar, str, list-like, or dict, optional。需要用NA替换的值序列。 keep_default_na:bool, default True。解析数据时是否包括默认的NaN值。 na_filter:bool, default True。检测缺失值标记(空字符串和na_values的值)。请注意,如果将na_filter传递为False,则将忽略keep_default_na和 na_values参数。 verbose:bool, default False。打印各种解析器输出的信息,比如位于非数值列中的缺失值的数量。 skip_blank_lines:bool, default True。如果为True,跳过空白行,并且不解释为NaN值。 parse_dates:bool or list of int or names or list of lists or dict, default False。尝试将数据解析为datetime,默认为False。如果为True,将尝试解析所有的列。也可以指定列号或列名列来进行解析。如果列表的元素是元组或列表,将会把多个列组合在一起进行解析(例如日期\时间将拆分成两列) infer_datetime_format:bool, default False。如果启用True和parse_dates,则pandas将尝试推断列中日期时间字符串的格式,并且如果可以推断出日期格式,就会切换到更快的解析它们的方法。 keep_date_col:bool, default False。如果连接列到解析日期上,保留被连接的列,默认为False。 date_parser:function, optional。用于解析日期的函数。 dayfirst:bool, default False。解析非明确日期时,DD / MM格式的日期,国际和欧洲格式。 cache_dates:bool, default True。如果为True,则使用唯一的转换日期缓存来应用datetime转换。 iterator:bool, default False。返回TextFileReader对象,用于零散地读入文件。 chunksize:int, optional。用于迭代的块大小。 compression:str or dict, default ‘infer’。用于对磁盘数据进行即时解压缩。设置为“无”将不进行解压缩。 thousands:str, optional。千位分隔符。 decimal:str, default ‘.’。识别为小数点的字符(例如,对于欧洲数据,请使用“,”)。 lineterminator:str (length 1), optional。用于将文件分成几行的字符。仅对C解析器有效。 quotechar:str (length 1), optional。用于表示引用项目的开始和结束的字符。 quoting:int or csv.QUOTE_* instance, default 0 doublequote:bool, default True。如果指定quotechar而未使用引号QUOTE_NONE,则指示是否将一个字段内的两个连续的quotechar元素解释为单个quotechar元素。 escapechar:str (length 1), optional。一字符字符串,用于转义其他字符。 comment:str, optional。在行结尾处分隔注释的字符。 encoding:str, optional。读/写时用于UTF的编码(例如’utf-8’)。 encoding_errors:str, optional, default “strict”。默认情况下,具有太多字段的行(例如,带有太多逗号的csv行)将引发异常,并且不会返回任何DataFrame。如果为False,则这些“坏行”将从返回的DataFrame中删除。 dialect:str or csv.Dialect, optional。如果提供的话,该参数将覆盖为以下参数的值(默认或不):delimiter, doublequote, escapechar, skipinitialspace, quotechar, and quoting。 warn_bad_lines:bool, optional, default None。如果error_bad_lines为False,而warn_bad_lines为True,则将为每个“坏行”输出警告。 on_bad_lines:{‘error’, ‘warn’, ‘skip’} or callable, default ‘error’ delim_whitespace:bool, default False。指定是否将空格(例如或)用作分隔符。 low_memory:bool, default True。在内部对文件进行分块处理,从而在解析时减少了内存使用。 memory_map:bool, default False。如果为filepath_or_buffer提供了文件路径,则将文件对象直接映射到内存中,然后直接从那里访问数据。使用此选项可以提高性能,因为不再有任何I / O开销。 float_precision:str, optional。指定C引擎应将哪个转换器用于浮点值。 storage_options:dict, optional。解析特殊的URL。如果为该参数提供非fsspec URL,则会引发错误。
返回值: DataFrame or TextParser
import pandas as pd
pd. read_csv( 'data.csv' )
分块读入文件
读取前五行,指明nrows=5
import pandas as pd
df = pd. read_csv( 'test.csv' , nrows= 5 )
pandas.DataFrame.to_csv
DataFrame. to_csv( path_or_buf= None ,
sep= ',' ,
na_rep= '' ,
float_format= None ,
columns= None ,
header= True ,
index= True ,
index_label= None ,
mode= 'w' ,
encoding= None ,
compression= 'infer' ,
quoting= None ,
quotechar= '"' ,
line_terminator= None ,
chunksize= None ,
date_format= None ,
doublequote= True ,
escapechar= None ,
decimal= '.' ,
errors= 'strict' ,
storage_options= None )
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
参数:
path_or_buf:str, path object, file-like object, or None, default None。字符串或文件目录,文件路径或对象,如果未提供,结果将作为字符串返回。如果传递了一个文件对象,应该用换行= ’ ',禁用通用换行符。 sep:str, default ‘,’。输出文件的字段分隔符。 na_rep:str, default ‘’。字符串,默认为 ‘’ 浮点数格式字符串。 float_format:str, default None。浮点数格式字符串。 columns:sequence, optional。写出列名。如果给定字符串列表,则假定为列名的别名。 header:bool or list of str, default True。指定行数用来作为列名,数据开始行数。 index:bool, default True。写入行名称(索引)。 index_label:str or sequence, or False, default None mode:str。Python写模式,默认“w” encoding:str, optional。表示在输出文件中使用的编码的字符串,Python 2上默认为“ASCII”和Python 3上默认为“UTF-8”。 compression:str or dict, default ‘infer’。表示在输出文件中使用的压缩的字符串,允许值为“gzip”、“bz2”、“xz”,仅在第一个参数是文件名时使用。 quoting:optional constant from csv module。默认值为to_csv.QUOTE_MINIMAL。如果设置了浮点格式,那么浮点将转换为字符串,因此csv.QUOTE_NONNUMERIC会将它们视为非数值的。 quotechar:str, default ‘"’。用于引用字段的字符 line_terminator:str, optional chunksize:int or None。一次写入行。 date_format:str, default None。字符串对象转换为日期时间对象 doublequote:bool, default True。控制一个字段内的quotechar。 escapechar:str, default None。在适当的时候用来转义sep和quotechar的字符。 decimal:str, default ‘.’。字符识别为小数点分隔符。例如。欧洲数据使用 ’,’。 errors:str, default ‘strict’ storage_options:dict, optional
返回值: None or str
df = pd. DataFrame( { 'name' : [ 'Raphael' , 'Donatello' ] ,
'mask' : [ 'red' , 'purple' ] ,
'weapon' : [ 'sai' , 'bo staff' ] } )
df. to_csv( index= False )