spark的两种groupby，一种不易OOM

无rdd的，优点是不易内存溢出，缺点是只支持count、sum、max等groupby后操作

       df.select("the_key")
      .groupBy("the_key").count()
      .toDF("the_key", "the_count")
1
2
3

有rdd的，缺点是容易内存溢出，优点是可以进行groupby后每个group里的自定义操作

       df.rdd.groupBy(row => row.getAs[String]("the_key")).map(pair => {
        val the_key = pair._1
        (the_key, pair._2.size)
      }).toDF("the_key", "the_count")
1
2
3
4

相关阅读:
[一周AI简讯]OpenAI宫斗；微软Bing Chat更名Copilot；Youtube测试音乐AI
Spring--getBean()与@Autowired的对比
基于Matlab使用线性FM波形对带状合成孔径雷达系统建模（附源码）
金蝶与电商集成如何调用奇门接口
MMFewShot训练与测试流程
淘宝账号如何快速提升到更高等级
不同场景下的JMETER设置
adb常用命令总结[持续更新]
sqllabs第46关 order by 注入（通过盲注）
python接口自动化封装导出excel方法和读写excel数据

原文地址：https://blog.csdn.net/guotong1988/article/details/125892464