python机器学习入门之pandas的使用（超详细，必看） - 码农知识堂

python机器学习入门之pandas的使用（超详细，必看）
pandas是基于numpy的一种工具同样用于数据分析

pandas主要处理以下三种数据结构

1：series 一维数组接近python中的list

2：DataFrame 二维数据结构其可以理解为series的容器其内部的每项元素可以看成一个series 在机器学习中经常用到

3：panel 三维数组可以理解为DataFrame的容器

1：创建一个series对象
```
import pandas as pd
s=pd.Series([1,3,5,6,8,9])
print(s)
```
可以通过赋值操作直接修改Series对象成员的值
```
s[1]=5
```
根据条件表达式筛选数据
```
s=pd.Series([1,3,5,6])
b=pd.Series([4,5,6,6])
print(s[s>2])
```
通过drop函数可以删除对象成员

2：DateFrame是一个表格型的数据结构包括行索引和列索引
```
import pandas as pd
dict1={'col1':[2,4,5,3],'col2':['a','b','c','d']}
df=pd.DataFrame(dict1)
print(df)
```
访问DataFrame有多种方法可以通过下标和索引等等
```
import pandas as pd
ser=pd.Series(np.arange(4),index=['a','b','c','d'])
data=pd.DataFrame(np.arange(16).reshape(4,4),index=['AJ','BJ','CJ','DJ'],columns=['q','r','s','t'])
print("ser['c]:",ser['c'])
print("ser 2:",ser[2])
print("date q:",data['q'])
print("data q t:",data[['q','t']])
```
loc方法则是通过索引名抽取数据 iloc则是通过下标值抽取数据

3：数据对齐

pandas有个很好的功能是对齐不同索引的数据如两个数据对象相加如果索引不同则结果的索引是这两个索引的并集

3.2：缺失数据的处理

NA值会带入后续的操作导致出错所以dropna方法可以预先过滤缺失数据

会默认丢失所以含有缺失值的行如果想对列进行过滤则把axis=1即可

参数how可以根据行或者列中的NA数量来决定是否删除行或列常用的有all或者any
```
from numpy import nan as NA
data=pd.Series([1,NA,3.5,NA,7])
data.dropna()
```
3.3：notnull函数可以判断空值下面的代码可以过滤空值
```
s1=pd.Series(['one','two','thress',NA,None])
print(s1[s1.notnull()])
```
3.4：填充缺失数据 如果不想删除有缺失值的行和列可以用fillna方法填充数据
```
s1=pd.Series(['one','two','thress',NA,None])
print(s1[s1.notnull()])
print(s1.fillna('ljl'))
```
相关阅读:
Windows 基础（一）：深入理解Windows，掌握命令行与Shell
android wifiService 启动慢的问题规避记录
 Keras深度学习入门篇
 软考-访问控制技术原理与应用
 SpringBoot——整合RabbitMQ收发消息
 http1.0到http3.0的介绍以及新特性
 Day 08 python学习笔记
 PTA 编程题（C语言）-- 连续因子
 springboot整合flink(二)
cnn和fc的区别
原文地址：https://blog.csdn.net/jiebaoshayebuhui/article/details/126745898