Pandas分组聚合_Python数据分析与可视化

Pandas分组聚合

分组
聚合

分组聚合的流程主要有三步：

分割步骤将 DataFrame 按照指定的键分割成若干组；
应用步骤对每个组应用函数，通常是累计、转换或过滤函数；
组合步骤将每一组的结果合并成一个输出数组。

在这里插入图片描述

分组

通常我们将数据分成多个集合的操作称之为分组，Pandas 中使用 groupby() 函数来实现分组操作。

单列和多列分组

对分组后的子集进行数值运算时，不是数值的列会自动过滤

import pandas as pd
data = {'A': [1, 2, 2, 3, 2, 4],
        'B': [2014, 2015, 2014, 2014, 2015, 2017],
        'C': ["a", "b", "c", "d", "e", "f"],
        'D': [0.5, 0.9, 2.1, 1.5, 0.5, 0.1]
        }
df = pd.DataFrame(data)
df.groupby("B")   #单列分组  返回的是一个groupby对象
df.groupby(["B","C"])    #多列分组
1
2
3
4
5
6
7
8
9

Series 系列分组

选取数据帧中的一列作为 index 进行分组：

df["A"].groupby(df["B"])   #df的 A 列根据 B 进行分组
1

通过数据类型或者字典分组

数据类型分组：

df.groupby(df.dtypes,axis=1)   # axis=1表示按列分组，以数据类型为列名
1

传入字典分组:

dic = {"A": "number", "B": "number", "C": "str", "D": "number"}
df.groupby(dic, axis=1)   #按列分组，列名是字典的值
1
2

获取单个分组

使用 get_group() 方法可以选择一个组。

df.groupby("A").get_group(2)
Output：
   A     B  C    D
1  2  2015  b  0.9
2  2  2014  c  2.1
4  2  2015  e  0.5
1
2
3
4
5
6

对分组进行迭代

GroupBy 对象支持迭代，可以产生一组二元元组（由分组名和数据块组成）。

for name,data in df.groupby("A"):
        print(name)
        print(data)
Output:
1
   A     B  C    D
0  1  2014  a  0.5
2
   A     B  C    D
1  2  2015  b  0.9
2  2  2014  c  2.1
4  2  2015  e  0.5
3
   A     B  C    D
3  3  2014  d  1.5
4
   A     B  C    D
5  4  2017  f  0.1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

聚合

聚合函数为每个组返回单个聚合值。当创建了 groupby 对象，就可以对分组数据执行多个聚合操作。比较常用的是通过聚合函数或等效的 agg 方法聚合。

常用的聚合函数：
在这里插入图片描述

应用单个聚合函数

对分组后的子集进行数值运算时，不是数值的列会自动过滤

import pandas as pd
import numpy as np
data = {'A': [1, 2, 2, 3, 2, 4],
        'B': [2014, 2015, 2014, 2014, 2015, 2017],
        'C': ["a", "b", "c", "d", "e", "f"],
        'D': [0.5, 0.9, 2.1, 1.5, 0.5, 0.1]
        }
df = pd.DataFrame(data)
df.groupby("B").sum()       #对分组进行求和
1
2
3
4
5
6
7
8
9

应用多个聚合函数

df.groupby("B").agg([np.sum,np.mean,np.std])
1

自定义函数传入 agg() 中

def result(df):
    return df.max() - df.min()
df.groupby("B").agg(result)  #求每一组最大值与最小值的差
1
2
3

对不同的列使用不同的聚合函数

mapping = {"A":np.sum,"B":np.mean}
df.groupby("C").agg(mapping)
1
2

相关阅读:
main函数参数解析与应用
鸡哥的 AI 驾驶（Gym - 103186H）
Abbexa丨Abbexa FOXD3 DNA 结合ELISA试剂盒方案
这么讲不怕你不懂负载均衡
【云原生之k8s】kubernetes原理
联合关系抽取论文（一）——TPLinker
使用结构体指针作为参数赋值传递时的注意点
TF-IDF在现代搜索引擎优化策略中的作用
你不做机票酒店照样跟去哪儿、携程夺食！
17-Linux进程管理

原文地址：https://blog.csdn.net/xks18232047575/article/details/134486235