【面经】特斯拉大数据开发笔经

欢迎点击此处关注公众号。每天分享大数据开发面经。

特斯拉的大数据开发笔试 3 个题，两道 SQL 难度中规中矩，一道是工程题，没做过可能难顶。

题目是用 Spark 实现四个方法：

前三个方法是读取 csv 文件，返回 DataFrame；
第四个方法是对上述三个 DataFrame 进行 join；
编程语言可选 Java 11、PySpark、Scala。

1.数据加载

spark.read.load 是加载数据的通用方法。

如果读取不同格式的数据，可以对不同的数据格式进行设定。

scala> spark.read.format("…")[.option("…")].load("…")
1

format(“…”)：指定加载的数据类型，包括 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile”。
load(“…”)：在 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile” 格式下需要传入加载数据的路径。
option(“…”)：在 “jdbc” 格式下需要传入 JDBC 相应参数，url、user、password 和 dbtable。

除此之外，也可以直接在文件上进行查询: 文件格式.文件路径。

scala> spark.sql("select * from json.`/opt/module/data/user.json`").show
1

2.保存数据

df.write.save 是保存数据的通用方法.

如果保存不同格式的数据，可以对不同的数据格式进行设定。

scala> df.write.format("…")[.option("…")].save("…")
1

format(“…”)：指定保存的数据类型，包括 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile”。
save (“…”)：在 “csv”、“orc”、“parquet” 和 “textFile” 格式下需要传入保存数据的路径。
option(“…”)：在 “jdbc” 格式下需要传入 JDBC 相应参数，url、user、password 和 dbtable。

3.读取 csv 文件

Spark SQL 可以配置 CSV 文件的列表信息，读取 CSV 文件，CSV 文件的第一行设置为数据列。

df = spark.read.format("csv")	// 读取 csv 格式文件
		  .option("sep", ",")	// 设置读取文本时每个字段的分隔符，这里用 , 分隔
		  .option("inferSchema", "true")		// 自动推断类型
          .option("header", "true")		// 将 csv 文件第一行作为 DataFrame 的列名
	 	  .load("data/user.csv")		// 数据的路径
1
2
3
4
5

读取之后返回 DataFrame 类型。

4.SQL 操作

上述读取的 df 可以进行 join 操作。

在 spark 程序实际开发过程中遇到需要对文件内容做 Join 操作，使用 createOrReplaceTempView 方式将读取的文件创建临时表，然后通过 spark.sql() 方式利用 SQL语句做 Join 操作。

// 用上述的 df 创建临时表，表名为 tempTable
df1.createOrReplaceTempView("tempTable1")
df2.createOrReplaceTempView("tempTable2")

// 直接可以用 SQL 操作
val resultDf = spark.sql("SELECT name FROM tempTable1 as t1 JOIN tempTable2 as t2 ON t1.id=t2.id")

// 返回结果
return resultDf
1
2
3
4
5
6
7
8
9

相关阅读:
【TS】枚举
【云原生 | Kubernetes 系列】--Ceph集群应用
Spring中Bean的生命周期
JasperReports做报表嵌套显示子报表显示不出来
SwiftUI 为不同视图限制不同的屏幕旋转方向
【目标检测】超分重建对小目标检测有效性探究
讯飞离线语音合成新版(Aikit)-android sdk合成 demo（Java版本）
用floyd算法求图中任意两点最短距离（matlab）
计算机毕业设计springboot+vue+elementUI在线漫画周边销售购物交流系统
tp6+vue-elementui-admin实现前后端权限分离框架

原文地址：https://blog.csdn.net/weixin_45545090/article/details/126927568