• 16.Pandas实现groupBy分组统计


    简单介绍

    类似Sql:
    select city,max(temperature) from city_weather group by city;
    groupby:先对数据分组,然后在每个分组上应用聚合函数,转换函数
    本次演示

    1. 分组使用聚合函数做数据统计
    2. 遍历groupby的结果理解执行流程
    3. 实例分组探索天气数据
    import pandas as pd
    import numpy as np
    
    df = pd.DataFrame({
        'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
        'C': np.random.randn(8),
        'D': np.random.randn(8)
    })
    print(df)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    在这里插入图片描述

    分组使用聚合函数做数据统计

    1.单个列groupby,查询所有列的统计

    # 1.groupby中A变成了数据的索引列
    # 2.因为要统计sum,但B列不是数字,所以被自动忽略掉
    print(df.groupby('A').sum())
    
    • 1
    • 2
    • 3

    在这里插入图片描述

    2.多个列groupby,查询所有数据列的统计

    # (A,B)成对变成了二级索引
    print(df.groupby(['A', 'B']).mean())
    print("*" * 32)
    print(df.groupby(['A', 'B'], as_index=False).mean())
    
    • 1
    • 2
    • 3
    • 4

    在这里插入图片描述

    3.同时查看多种数据统计

    在这里插入图片描述

    4.查看单列的结果数据统计

    在这里插入图片描述

    5.不同列使用不同的聚合函数

    在这里插入图片描述

    遍历groupby的结果理解执行流程

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    实例分组探索天气数据

    数据整理

    import pandas as pd
    fpath = "../data/tianqi.csv"
    df = pd.read_csv(fpath)
    # 替换掉温度的后缀
    df.loc[:, "bWenDu"] = df["bWenDu"].str.replace("°C", "").astype('int32')
    df.loc[:, "yWenDu"] = df["yWenDu"].str.replace("°C", "").astype('int32')
    print(df.head())
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    在这里插入图片描述

    # 新增一列为月份
    df['mouth'] = df['ymd'].str[:7]
    print(df.head())
    
    • 1
    • 2
    • 3

    在这里插入图片描述

    查看每个月的最高温度

    data = df.groupby('mouth')['bWenDu'].max()
    print(data)
    type(data)
    print(type(df.groupby('mouth')))
    
    • 1
    • 2
    • 3
    • 4

    在这里插入图片描述

    查看每个月的最高温度、最低温度、平均空气质量指数

    group_data = df.groupby('mouth').agg({"bWenDu": np.max, "yWenDu": np.min, "aqi": np.mean})
    print(group_data)
    
    • 1
    • 2

    在这里插入图片描述

  • 相关阅读:
    SpringCloud微服务(四)——Nacos服务注册和配置中心
    Django 注册及创建订单商品
    地震数据处理研究(Matlab代码实现)
    Vue简介
    【CTF Web】CTFShow 数据库恶意下载 Writeup(目录扫描+mdb文件泄露+Access脱库)
    Tomcat(二)
    安卓通讯录操作插件
    Linux/Ubuntu环境搭建(二):创建添加新磁盘、搭建Samba服务器
    时序预测 | Matlab实现HPO-ELM猎食者算法优化极限学习机的时间序列预测
    C# + easyui 写的一个web项目
  • 原文地址:https://blog.csdn.net/technologist_28/article/details/126348409