特斯拉的大数据开发笔试 3 个题,两道 SQL 难度中规中矩,一道是工程题,没做过可能难顶。
题目是用 Spark 实现四个方法:
spark.read.load 是加载数据的通用方法。
如果读取不同格式的数据,可以对不同的数据格式进行设定。
scala> spark.read.format("…")[.option("…")].load("…")
除此之外,也可以直接在文件上进行查询: 文件格式.文件路径。
scala> spark.sql("select * from json.`/opt/module/data/user.json`").show
df.write.save 是保存数据的通用方法.
如果保存不同格式的数据,可以对不同的数据格式进行设定。
scala> df.write.format("…")[.option("…")].save("…")
Spark SQL 可以配置 CSV 文件的列表信息,读取 CSV 文件,CSV 文件的第一行设置为数据列。
df = spark.read.format("csv") // 读取 csv 格式文件
.option("sep", ",") // 设置读取文本时每个字段的分隔符,这里用 , 分隔
.option("inferSchema", "true") // 自动推断类型
.option("header", "true") // 将 csv 文件第一行作为 DataFrame 的列名
.load("data/user.csv") // 数据的路径
读取之后返回 DataFrame 类型。
上述读取的 df 可以进行 join 操作。
在 spark 程序实际开发过程中遇到需要对文件内容做 Join 操作,使用 createOrReplaceTempView 方式将读取的文件创建临时表,然后通过 spark.sql() 方式利用 SQL语句 做 Join 操作。
// 用上述的 df 创建临时表,表名为 tempTable
df1.createOrReplaceTempView("tempTable1")
df2.createOrReplaceTempView("tempTable2")
// 直接可以用 SQL 操作
val resultDf = spark.sql("SELECT name FROM tempTable1 as t1 JOIN tempTable2 as t2 ON t1.id=t2.id")
// 返回结果
return resultDf