pandas是一个开源的python类库:用于数据分析、数据处理、数据可视化。有如下几个特点:
很方便和其他类库一起使用:
安装pandas:pip install pandas
| 数据类型 | 说明 | pandas读取方法 |
|---|---|---|
| csv、txt | 用于逗号分割、tab分割的纯文本文件 | pd.read_csv |
| excel | 微软xls或者xlsx文件 | pd.read_excel |
| mysql | 关系型数据库表 | pd.read_sql |
import pandas as pd
fpath="./bank_marketing_copy.csv"
#使用pd.read_csv读取数据
ratings = pd.read_csv(fpath)
#查看前几行数据
ratings.head()

ratings.shape

ratings.columns

ratings.index

ratings.dtypes

txt_path="./access_pvuv.txt"
pvuv = pd.read_csv(txt_path,sep="\t",header=None,names=['pdate','pv','uv'])
pvuv

excel_path = "./pandasdata/access_pvuv.xlsx"
pvuv = pd.read_excel(excel_path)
pvuv


Series:是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成

import numpy as np
import pandas as pd
s1 = pd.Series([1,'a',5.2,7])
s1

s1.index

s1.values

s2 = pd.Series([1,'a',5.2,7],index=['a','b','c','d'])
s2

sdata = {'zhoujie':8888,'xiaohai':6666,'xiaoming':7777}
s3 = pd.Series(sdata)
s3

类似python的字段dict
s2['a']

s2[['a','b']]

type(s2[['a','b']])

DataFrame是一个表格型的数据结构
data = {
'sdata':['zhoujie','xiaohai','xiaoming']
,'year':[2001,2002,2003]
,'pop':[1.5,1.7,3.6]
}
df = pd.DataFrame(data)
df

df.dtypes

df.columns

df['year']





pandas使用df.loc查询数据的方法
注意
数据为北京2018年全年天气预报



行或者列都可以只传入单个值,实现精准匹配





