本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据。分别创建员工和部门的 Datafame,并注册为临时视图,代码如下:
- val spark = SparkSession.builder().appName("aggregations").master("local[2]").getOrCreate()
-
- val empDF = spark.read.json("/data/file/json/emp.json")
- empDF.createOrReplaceTempView("emp")
-
- val deptDF = spark.read.json("/data/file/json/dept.json")
- deptDF.createOrReplaceTempView("dept")
edmp 内容如下:
{"EMPNO": 7369,"ENAME": "SMITH","JOB": "CLERK"