pandas.read_excel(io, sheet_name…)
创建一个Excel文件
import pandas as pd
import numpy as np
# 指定索引列
pd.read_excel('./fakeExcel.xlsx', index_col=0) # 第0列作为标题
pd.read_excel('fakeExcel.xlsx', header=0) # 指定表头行
# 指定读取格式转换
# 适合数据处理精度要求比较高或者速度要求比较快的情况
pd.read_excel('fakeExcel.xlsx', dtype={
'grade': np.float32
}) # 指定表头列
# 自定义缺失值, 如年龄为负数时,清空,显示NAN
pd.read_excel('fakeExcel.xlsx', na_values={
'title': 'aa'
})
# 处理注释行
pd.read_excel('fakeExcel.xlsx', sheet_name=1, comment='#')
# 列操作, 列减少2
data['grade'] = data['grade'] - 2
data
# 删除列:
# 改变内存数据
# 建议使用不改变内存的函数, 通过赋值修改原数据
if True:
del data["a"]
# 不改变内存数据(返回新数据)
else:
data = data.drop('a', axis=1)
data
# 重命令列
data.rename(columns={ 'grade': 'grade2' })
# 或者
data.columns = ['b', 'title', 'grade2']
# 保留指定的列
data[['title', 'grade']]
# 过滤数据
data[data['grade'] > 60]
data[data['title'] == 'bb']
# 值排序
data.sort_values('grade', ascending = True)
# names 参数的作用, 相当于rename
pd.read_excel('fakeExcel.xlsx', header=0, names=[0,1,2])
# 删除指定字符串的行
data.drop(data.index[(newData['line3'] == '--')], inplace=True) # inplace是否直接替换原数据