spark sql如何行转列

在数据仓库中，行转列通常称为”变形”(Pivoting) 或 “透视”(Pivoting)，可使用Spark SQL的pivot语句实现。下面是一个简单的示例：

假设我们有如下表格：


+-------+-------+------+
| name  | brand | year |
+-------+-------+------+
| Alice | BMW   | 2017 |
| Bob   | Tesla | 2018 |
| Alice | Tesla | 2019 |
| Bob   | BMW   | 2020 |
+-------+-------+------+

我们想要把该表中的品牌列转换为4列，分别表示不同的品牌，而值则为对应品牌的年份。具体操作如下：


SELECT name, 
       COALESCE(BMW, 0) AS BMW, 
       COALESCE(Tesla, 0) AS Tesla 
FROM (
  SELECT name,
         brand,
         year 
  FROM my_table
) T
PIVOT (
  MAX(year) 
  FOR brand IN ('BMW', 'Tesla')
)

运行上面的代码，得到的结果如下所示：


+-------+------+------+
| name  | BMW  | Tesla|
+-------+------+------+
| Alice | 2017 | 2019 |
| Bob   | 2020 | 2018 |
+-------+------+------+

可以看到，原本的品牌列已经被转换成了两个新的列，并且对于每个人名，都有对应的品牌年份信息填充其中。这就是典型的行转列操作。其中，COALESCE函数用于处理可能存在的空值情况。

相关阅读:
Centos根目录空间占满的解决思路
redis哨兵机制
【网络编程】网络层——IP协议
情人节---快来学习一下程序员的专属浪漫吧
SPA项目开发之表单验证&增删改功能
基于python下django框架实现校园教室实验室预约系统详细设计
想跟大家说点心里话~（希望大家都看一下谢谢各位！！）
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 24 日论文合集）
Spark学习（7）-SparkSQL函数定义
使用Redis完成商品秒杀业务

原文地址：https://blog.csdn.net/linweidong/article/details/133721206