Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。
Pandas 已经成为 Python 数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。
Pandas 这个名字来源于面板数据(Panel Data)与数据分析(data analysis)这两个名词的组合。Pandas 最初被应用于金融量化交易领域,现在它的应用领域更加广泛,涵盖了农业、工业、交通等许多行业
Pandas 为解决构建和处理二维、多维数组是一项繁琐的任务。 在 ndarray 数组(NumPy 中的数组)的基础上构建出了
两种不同的数据结构:
pip install pandas
import pandas as pd
6.1 Series结构概念
Series 结构,也称 Series 序列,是 Pandas 常用的数据结构之一,它是一种类似于一维数组的结构,由一组数据值(value)和一组标签组成,其中标签与数据值之间是一一对应的关系。 Series 可以保存任何数据类型,比如整数、字符串、浮点数、Python 对象等,它的标签默认为整数,从 0 开始依次递增。
6.2 Series对象
使用 Series() 函数来创建 Series 对象,通过这个对象可以调用相应的方法和属性
6.3 Series创建对象
1、创建一个空Series对象
2、字典创建Series对象
3、数组创建Series对象
4、标量创建Series对象
6.4 Series访问数据
分为两种方式: (1) 位置索引访问 (2) 标签索引访问
6.5 Pandas的reindex函数
返回->数据符合新的索引来构造一个新的对象
语法:DataFrame.reindex(index=None, columns=None, **kwargs)
reindex 函数的参数说明:
6.6 Series常用属性
6.7 Series常用方法
1、head()、tail()查看数据
2、isnull()、nonull()检测缺失值 所谓缺失值,顾名思义就是值不存在、丢失、缺少。
6.8 Series算术运算
6.9 Series添加append
6.10 Series删除drop
删除数据集中多余的数据
DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
7.1 dataFrame概念
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)
7.2 DataFrame对象
创建 DataFrame 对象的语法格式
7.3 DataFrame创建对象
1、创建空对象
2、二维数组创建
3、字典创建
4、from_dict()创建
5、列表嵌套字典创建
7.4 DataFrame常见属性&方法
7.5 Pandas loc/iloc用法
7.6 Pandas sorting排序
两种排序方法:
1、按索引排序 sort_index(axis= , ascending= , inplace=)
2、按值排序 sort_values(by= , axis= , ascending= , inplace=)
7.7 Pandas rank排名
rank函数语法:
DataFrame.rank(axis=0,method='average',numeric_only=None, na_option='keep',ascending=True,pct=False)