• 【Python】进阶学习:pandas--groupby()用法详解


    📊【Python】进阶学习:pandas–groupby()用法详解

    在这里插入图片描述

    🌈 个人主页:高斯小哥
    🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化Python基础【高质量合集】PyTorch零基础入门教程👈 希望得到您的订阅和支持~
    💡 创作高质量博文(平均质量分92+),分享更多关于深度学习、PyTorch、Python领域的优质内容!(希望得到您的关注~)


      👋 欢迎来到Python进阶学习之旅!今天,我们将深入探讨pandas库中非常强大的groupby()函数。groupby()函数在数据分析和数据清洗中发挥着关键作用,能够帮助我们轻松地对数据进行分组、聚合和转换。

    🤔 一、为什么需要groupby()?

      在处理大量数据时,我们经常需要按照某个或多个特征对数据进行分组,以便更好地理解数据的结构和关系。例如,我们可能希望按照年份、地区或产品类别对数据进行分组,并对每个组进行聚合运算,如求和、平均值、最大值等。这时,groupby()函数就显得非常有用。

    🎯 二、groupby()的基本用法

      首先,我们需要导入pandas库,并创建一个示例数据集。然后,我们可以使用groupby()函数按照指定的列对数据进行分组。

    import numpy as np
    import pandas as pd
    
    # 创建一个简单的DataFrame
    data = {
        'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'C': np.random.randn(8),
        'D': np.random.randn(8)
    }
    df = pd.DataFrame(data)
    
    # 使用groupby按列'A'进行分组
    grouped = df.groupby('A')
    
    
    # 打印分组后的GroupBy对象
    print(grouped)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17

    输出:

    
    
    • 1

      上述代码将按照列’A’的值对DataFrame进行分组,并返回一个GroupBy对象。我们可以进一步对这个对象进行聚合运算。

    📈 三、聚合运算

      GroupBy对象提供了多种聚合函数,如sum()mean()max()等。我们可以使用这些函数对每个组进行聚合运算。

    import numpy as np
    import pandas as pd
    
    # 创建一个简单的DataFrame
    data = {
        'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'C': np.random.randn(8),
        'D': np.random.randn(8)
    }
    df = pd.DataFrame(data)
    
    # 使用groupby按列'A'进行分组
    grouped = df.groupby('A')
    
    # 打印分组后的对象
    print(grouped)
    
    # 计算每个组的平均值
    mean_grouped = grouped.mean()
    print(mean_grouped)
    
    # 计算每个组的总和
    sum_grouped = grouped.sum()
    print(sum_grouped)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24

    输出:

                C         D
    A                      
    bar  0.658173 -0.225388
    foo  0.778100 -0.164148
               C         D
    A                     
    bar  1.97452 -0.676164
    foo  3.89050 -0.820740
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

      除了内置的聚合函数外,我们还可以使用agg()函数应用自定义的聚合函数。例如,我们可以计算每个组的标准差:

    import numpy as np
    import pandas as pd
    
    # 创建一个简单的DataFrame
    data = {
        'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'C': np.random.randn(8),
        'D': np.random.randn(8)
    }
    df = pd.DataFrame(data)
    
    # 使用groupby按列'A'进行分组
    grouped = df.groupby('A')
    
    # 打印分组后的对象
    print(grouped)
    
    # 计算每个组的标准差
    std_grouped = grouped.agg(np.std)
    print(std_grouped)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20

    输出:

    
                C         D
    A                      
    bar  0.101229  0.274698
    foo  0.996597  0.812362
    
    • 1
    • 2
    • 3
    • 4
    • 5

    🛠️ 四、高级用法与技巧

      除了基本的分组和聚合操作外,groupby()还提供了许多高级功能,如应用自定义函数、转换数据等。

    🔧 应用自定义函数

      我们可以使用apply()方法应用自定义函数到每个组。例如,我们可以定义一个函数来计算每个组的最大值和最小值之差:

    import numpy as np
    import pandas as pd
    
    # 创建一个简单的DataFrame
    data = {
        'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'C': np.random.randn(8),
        'D': np.random.randn(8)
    }
    df = pd.DataFrame(data)
    
    # 使用groupby按列'A'进行分组
    grouped = df.groupby('A')
    
    # 打印分组后的对象
    print(grouped)
    
    # 定义一个自定义函数,计算每个组的最大值和最小值之差
    def range_diff(group):
        return group.max() - group.min()
    
    # 使用apply()应用自定义函数
    diff_grouped = grouped.apply(range_diff)
    print(diff_grouped)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24

    输出:

    
                C         D
    A                      
    bar  2.497695  1.086924
    foo  2.826518  2.063781
    
    • 1
    • 2
    • 3
    • 4
    • 5

    🔄 数据转换

      groupby()还提供了transform()方法,用于将聚合运算的结果广播到原始数据的每一行。这在数据转换中非常有用。

    import numpy as np
    import pandas as pd
    
    # 创建一个简单的DataFrame
    data = {
        'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'C': np.random.randn(8),
        'D': np.random.randn(8)
    }
    df = pd.DataFrame(data)
    
    # 使用groupby按列'A'进行分组
    grouped = df.groupby('A')
    
    # 打印分组后的对象
    print(grouped)
    
    # 使用transform()方法将每个组的平均值广播到原始数据的每一行
    mean_transformed = grouped['C'].transform('mean')
    print(mean_transformed)
    
    # 将转换后的平均值添加到原始DataFrame中
    df['C_mean'] = mean_transformed
    print(df)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24

    输出:

    
    0    0.344876
    1   -1.358760
    2    0.344876
    3   -1.358760
    4    0.344876
    5   -1.358760
    6    0.344876
    7    0.344876
    Name: C, dtype: float64
         A         C         D    C_mean
    0  foo  0.783914 -1.027288  0.344876
    1  bar -2.072893 -0.972087 -1.358760
    2  foo  0.035637 -0.315908  0.344876
    3  bar -1.953068  0.409697 -1.358760
    4  foo  0.576048 -0.258289  0.344876
    5  bar -0.050318 -1.115734 -1.358760
    6  foo  0.093456  0.106227  0.344876
    7  foo  0.235322  1.365150  0.344876
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19

    🔍 过滤数据

      除了聚合和转换外,我们还可以使用filter()方法根据条件过滤出满足条件的组。

    import numpy as np
    import pandas as pd
    
    # 创建一个简单的DataFrame
    data = {
        'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'C': np.random.randn(8),
        'D': np.random.randn(8)
    }
    df = pd.DataFrame(data)
    
    # 使用groupby按列'A'进行分组
    grouped = df.groupby('A')
    
    # 打印分组后的对象
    print(grouped)
    
    # 使用filter()方法过滤出满足条件的组(例如,组的大小大于3)
    filtered_groups = grouped.filter(lambda x: len(x) > 3)
    print(filtered_groups)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20

    输出:

    
         A         C         D
    0  foo  1.967217  0.005976
    2  foo  0.950149  0.098143
    4  foo  0.568101  1.461587
    6  foo -1.905337 -1.106591
    7  foo -0.168686  0.692850
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    🛠️ 五、实际案例应用

      最后,让我们通过一个实际案例来演示如何应用groupby()函数进行数据分析和清洗。

      假设我们有一个包含销售数据的DataFrame,其中包含日期、地区、产品名称、销售额等列。我们希望按地区和产品名称对数据进行分组,并计算每个组的总销售额。

    import numpy as np
    import pandas as pd
    
    # 创建一个包含销售数据的DataFrame
    sales_data = {
        'date': pd.date_range(start='2023-01-01', periods=100),
        'region': np.random.choice(['North', 'South', 'East', 'West'], size=100),
        'product': np.random.choice(['Product A', 'Product B', 'Product C'], size=100),
        'sales': np.random.rand(100) * 1000
    }
    df_sales = pd.DataFrame(sales_data)
    
    # 按地区和产品名称对数据进行分组,并计算总销售额
    grouped_sales = df_sales.groupby(['region', 'product'])['sales'].sum().reset_index()
    
    # 打印分组后的销售额
    print(grouped_sales)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17

    输出:

       region    product        sales
    0    East  Product A  2728.679432
    1    East  Product B  1847.966730
    2    East  Product C  4518.356763
    3   North  Product A  5882.374531
    4   North  Product B  5519.364196
    5   North  Product C  4229.953852
    6   South  Product A  5303.784425
    7   South  Product B  2321.080682
    8   South  Product C  4239.002167
    9    West  Product A  1689.650513
    10   West  Product B  4002.790867
    11   West  Product C  4894.553548
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13

      在这个案例中,我们首先创建了一个包含销售数据的DataFrame。然后,我们使用groupby()函数按地区和产品名称对数据进行分组,并使用sum()函数计算每个组的总销售额。最后,我们使用reset_index()函数将结果转换为一个新的DataFrame,并打印出来。

    🎉 六、总结

      groupby()函数是pandas库中一个非常强大的工具,它允许我们按照一个或多个特征对数据进行分组,并对每个组进行聚合、转换和过滤操作。通过熟练掌握groupby()函数的用法,我们可以更高效地处理和分析大量数据,从而洞察数据的内在结构和关系。希望这篇博客能够帮助你更好地理解和应用groupby()函数!

    🤝 七、期待与你共同进步

      🌱 亲爱的读者,非常感谢你每一次的停留和阅读!你的支持是我们前行的最大动力!🙏

      🌐 在这茫茫网海中,有你的关注,我们深感荣幸。你的每一次点赞👍、收藏🌟、评论💬和关注💖,都像是明灯一样照亮我们前行的道路,给予我们无比的鼓舞和力量。🌟

      📚 我们会继续努力,为你呈现更多精彩和有深度的内容。同时,我们非常欢迎你在评论区留下你的宝贵意见和建议,让我们共同进步,共同成长!💬

      💪 无论你在编程的道路上遇到什么困难,都希望你能坚持下去,因为每一次的挫折都是通往成功的必经之路。我们期待与你一起书写编程的精彩篇章! 🎉

      🌈 最后,再次感谢你的厚爱与支持!愿你在编程的道路上越走越远,收获满满的成就和喜悦!祝你编程愉快!🎉

  • 相关阅读:
    AD敷铜报polygon not repour after edit[已解决]
    2024最新互联网大厂面试题,(java,python,vue)
    【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式
    云原生kubernetes从入门到实践系列教程
    概率 | 【提神醒脑】自用笔记串联二 —— 数字特征、大数定律、统计量
    强强联手 法大大电子合同金蝶云·苍穹版上线
    Java 版本任你发,我用Java8.(Java 15 新功能介绍 )
    三万字盘点Spring/SpringBoot的那些常用扩展点
    关于图纸的吸附布局、全屏填充、适配内容来做图元根据图纸页面在不同窗口显示尺寸下自适应
    PHP - 各版本对比 - 整理
  • 原文地址:https://blog.csdn.net/qq_41813454/article/details/136432561