Spark DataFrame join后移除重复的列

在Spark，两个DataFrame做join操作后，会出现重复的列。例如：

 Dataset<Row> moviesWithRating = moviesDF
                .join(averageRatingMoviesDF,
                        moviesDF.col("movieId").equalTo(averageRatingMoviesDF.col("movieId")));
1
2
3

其schema如下：

//moviesWithRating.printSchema();
        /**
         * root
         *  |-- _id: struct (nullable = true)
         *  |    |-- oid: string (nullable = true)
         *  |-- actors: string (nullable = true)
         *  |-- description: string (nullable = true)
         *  |-- directors: string (nullable = true)
         *  |-- genres: string (nullable = true)
         *  |-- issue: string (nullable = true)
         *  |-- language: string (nullable = true)
         *  |-- movieId: integer (nullable = true)
         *  |-- shoot: string (nullable = true)
         *  |-- timeLong: string (nullable = true)
         *  |-- title: string (nullable = true)
         *  |-- movieId: integer (nullable = true)
         *  |-- avgRating: double (nullable = true)
         */
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

我们在继续操作这个DataFrame时，可能就会报错，如下：org.apache.spark.sql.AnalysisException: Reference ‘movieId’ is ambiguous

解决方案有两种方法可以用来移除重复的列

方法一：join表达式使用字符串数组（用于join的列）

Seq<String> joinColumns = JavaConversions.asScalaBuffer(Arrays.asList("movieId")).toList();
Dataset<Row> moviesWithRating = moviesDF.join(
                        averageRatingMoviesDF,
                        joinColumns,
                        "inner");
1
2
3
4
5

这里DataFrame moviesDF和averageRatingMoviesDF使用了movieId和movieId两列来做join，返回的结果会对这两列去重
如果是scala，解决方案如下：

 val moviesWithRating = moviesDf.join(averageRatingMoviesDF, Seq("movieId")) 
1

方法二：使用select返回指定的列

Dataset<Row> moviesWithRating = moviesDF
                .join(averageRatingMoviesDF,
                        moviesDF.col("movieId").equalTo(averageRatingMoviesDF.col("movieId")))
                .select(
                        moviesDF.col("movieId"),

                        col("actors"),
                        col("description"),
                        col("directors"),
                        col("genres"),
                        col("issue"),
                        col("language"),
                        col("shoot"),
                        col("timeLong"),
                        col("title"),
                        col("avgRating")
                );
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

说明：
如果列较少, 推荐使用第二种.
如果列较多, 推荐使用第一种.

相关阅读:
Nginx 部署vue项目（Windows版）
C++ 11 新特性
国产API管理神器Eolink也太强了吧
Lambda架构与Kappa架构的特性对比
MATLAB Simulink和S7-1200PLC MOBUSTCP通信
xapian 搜索引擎介绍与使用入门
催付话术模板
【网络编程】从零开始搭建一个开源博客网站（云服务器+宝塔+WordPress）
一篇了解springboot3请求参数种类及接口测试
【windows】实战部署一（安装）SVNserver服务端+SVNclient客户端

原文地址：https://blog.csdn.net/weixin_56058578/article/details/134399798