pandas 学习第15篇：分组 groupby

对DataFrame 和 Series 进行分组之后，会返回一个数据类型为GroupBy的对象。对数据进行分组之后，能够得到一个分组键和一个分组数据，一个分组对应的分组键是唯一的，分组是具有相同分组键的行或列的列表。

一，groupby函数的基本原理

这一节的内容引用于《Pandas教程 | 超好用的Groupby用法详解》，我强烈建议阅读原文，原文写的真棒。

为了后续图解的方便，采用模拟生成的10个样本数据，代码和数据如下：


company=["A","B","C"]
data=pd.DataFrame({
    "company":[company[x] for x in np.random.randint(0,len(company),10)],
    "salary":np.random.randint(5,50,10),
    "age":np.random.randint(15,50,10)
}
)

在pandas中，实现分组操作的代码很简单，仅需一行代码，在这里，将上面的数据集按照company字段进行划分：

group = data.groupby("company")

将上述代码输入ipython后，会得到一个DataFrameGroupBy对象

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B7E2650240>

那这个生成的DataFrameGroupBy是啥呢？对data进行了groupby后发生了什么？ipython所返回的结果是其内存地址，并不利于直观地理解，为了看看group内部究竟是什么，这里把group转换成list的形式来看一看：


In [8]: list(group)
Out[8]:
[('A',   company  salary  age
  3       A      20   22
  6       A      23   33), 
 ('B',   company  salary  age
  4       B      10   17
  5       B      21   40
  8       B       8   30), 
 ('C',   company  salary  age
  0       C      43   35
  1       C      17   25
  2       C       8   30
  7       C      49   19)]

转换成列表的形式后，可以看到，列表由三个元组组成，每个元组中，第一个元素是组别(这里是按照company进行分组，所以最后分为了A,B,C)，第二个元素的是对应组别下的DataFrame，整个过程可以图解如下：

总结来说，groupby的过程就是将原有的DataFrame按照groupby的字段(这里是company)，划分为若干个分组DataFrame，被分为多少个组就有多少个分组DataFrame。所以说，在groupby之后的一系列操作(如agg、apply等)，均是基于子DataFrame的操作。理解了这点，也就基本摸清了Pandas中groupby操作的主要原理。下面来讲讲groupby之后的常见操作。

二，groupby 函数

对序列或DataFrame对象进行分组，返回分组之后的对象，并可以调用聚合函数获得每个分组的聚合值：


DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, dropna=True)
Series.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, dropna=True)

参数注释：

by：用于对序列进行分组，参数by的值可以是函数，列名或列名列表，映射
axis：0表示index，1表示columns，默认值是0，按照行(0)或列(1)进行拆分
level：对于多维索引，按照索引的级别来分组，默认值是0
as_index：对于聚合输出，返回的GroupBy对象把分组标签作为索引
group_keys：当调用apply函数时，把分组键(group keys)作为索引来区分分组
dropna：如果设置为True，当分组键包含NA时，把包含NA的分组键以及对应的值删除掉。

1，by是列名

如果by是标签列表，通常是按照列值来对数据进行分组，通常用于数据框(DataFrame)中，按照分组列，对每个列的值进行聚合运算：


>>> df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'],
...                    'Max Speed': [380., 370., 24., 26.],
...                    'Max Age': [38, 30, 20, 16]})
>>> df.groupby(['Animal']).mean()
        Max Speed  Max Age
Animal                    
Falcon      375.0       34
Parrot       25.0       18

2，by是映射(序列)

当使用序列作为映射时，by序列的值用于对原始序列进行分组，by序列中相同的值对应着原始序列的值属于同一个分组；原始序列和by序列进行匹配的方法是索引对齐。


>>> s.groupby(by=pd.Series(data=[1,2,1,1],index=[0,2,3,1])).mean()
1    2.333333
2    3.000000
dtype: float64

索引对齐是怎么回事？

对于by参数的序列，数据是1, 2, 1, 1，这意味着，把原始序列分为2组，分组的key分别是1和2。

by序列的索引是0, 2, 3, 1，也就是说，当原始序列的索引为0, 3, 1 时，对应的分组key是1，当原始序列的索引为2时，对应的分组key是2。

索引对齐之后，原始序列中的值1,2,4属于分组1；原始序列中的值3属于分组2，再计算每个分组的均值。

三，GroupBy对象

GroupBy对象是由函数Series.groupby() 或 DataFrame.groupby()返回的对象，GroupBy对象有两个熟悉：groups和indices。

groups是字典结构，表示所有的分组：Dict {group name -> group labels}

indices是字典结构，表示分组的索引键：Dict {group name -> group indices}，也就是groupby函数中by参数设置的字段的值。

举个例子：


>>> df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'],
...                    'Max Speed': [380., 370., 24., 26.],
...                    'Max Age': [38, 30, 20, 16]})
>>> gb = df.groupby(['Animal'])

gb 就是 GroupBy对象，该对象的属性groups是一个字典结构，key是分组键，值是分组键对行的索引构成的列表。


>>> gb.groups
{'Falcon': Int64Index([0, 1], dtype='int64'), 'Parrot': Int64Index([2, 3], dtype='int64')}

对每个分组，可以计算聚合值，计算相关性等操作，详细操作，可以阅读官方手册 GroupBy。

参考文档：

Pandas教程 | 超好用的Groupby用法详解

pandas.DataFrame.groupby

GroupBy

相关阅读:
常用邮件服务器支持端口及加密方法实测
【Python】PyQt5 Designer工具配置
IDC TechScape中国数据安全发展路线图，美创两款产品获重点推荐
系列ML.Net 学习篇【一】——初识机器学习
ping多个IP的工具
会计制度设计名词解释
【深度学习实验】前馈神经网络（九）：整合训练、评估、预测过程（Runner）
Zeus IoT : 基于 SpringBoot 的分布式开源物联网大数据平台
猿创征文｜〖Python 数据库开发实战 - Python与MySQL交互篇⑩〗- 创建新闻管理系统的具体python文件
私有云笔记推荐（obsidian+nas同步）

原文地址：https://blog.csdn.net/upluck/article/details/126108641

pandas 学习 第15篇：分组 groupby

一，groupby函数的基本原理

二，groupby 函数

三，GroupBy对象

pandas 学习第15篇：分组 groupby