• 【面经】特斯拉大数据开发笔经


    欢迎点击此处关注公众号。每天分享大数据开发面经。

    特斯拉的大数据开发笔试 3 个题,两道 SQL 难度中规中矩,一道是工程题,没做过可能难顶。

    题目是用 Spark 实现四个方法:

    • 前三个方法是读取 csv 文件,返回 DataFrame;
    • 第四个方法是对上述三个 DataFrame 进行 join;
    • 编程语言可选 Java 11、PySpark、Scala。
    1.数据加载

    spark.read.load 是加载数据的通用方法。

    如果读取不同格式的数据,可以对不同的数据格式进行设定。

    scala> spark.read.format("…")[.option("…")].load("…")
    
    • 1
    • format(“…”):指定加载的数据类型,包括 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile”。
    • load(“…”):在 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile” 格式下需要传入加载数据的路径。
    • option(“…”):在 “jdbc” 格式下需要传入 JDBC 相应参数,url、user、password 和 dbtable。

    除此之外,也可以直接在文件上进行查询: 文件格式.文件路径。

    scala> spark.sql("select * from json.`/opt/module/data/user.json`").show
    
    • 1
    2.保存数据

    df.write.save 是保存数据的通用方法.

    如果保存不同格式的数据,可以对不同的数据格式进行设定。

    scala> df.write.format("…")[.option("…")].save("…")
    
    • 1
    • format(“…”):指定保存的数据类型,包括 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile”。
    • save (“…”):在 “csv”、“orc”、“parquet” 和 “textFile” 格式下需要传入保存数据的路径。
    • option(“…”):在 “jdbc” 格式下需要传入 JDBC 相应参数,url、user、password 和 dbtable。
    3.读取 csv 文件

    Spark SQL 可以配置 CSV 文件的列表信息,读取 CSV 文件,CSV 文件的第一行设置为数据列。

    df = spark.read.format("csv")	// 读取 csv 格式文件
    		  .option("sep", ",")	// 设置读取文本时每个字段的分隔符,这里用 , 分隔
    		  .option("inferSchema", "true")		// 自动推断类型
              .option("header", "true")		// 将 csv 文件第一行作为 DataFrame 的列名
    	 	  .load("data/user.csv")		// 数据的路径
    
    • 1
    • 2
    • 3
    • 4
    • 5

    读取之后返回 DataFrame 类型。

    4.SQL 操作

    上述读取的 df 可以进行 join 操作。

    在 spark 程序实际开发过程中遇到需要对文件内容做 Join 操作,使用 createOrReplaceTempView 方式将读取的文件创建临时表,然后通过 spark.sql() 方式利用 SQL语句 做 Join 操作。

    // 用上述的 df 创建临时表,表名为 tempTable
    df1.createOrReplaceTempView("tempTable1")
    df2.createOrReplaceTempView("tempTable2")
    
    // 直接可以用 SQL 操作
    val resultDf = spark.sql("SELECT name FROM tempTable1 as t1 JOIN tempTable2 as t2 ON t1.id=t2.id")
    
    // 返回结果
    return resultDf
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
  • 相关阅读:
    【TS】枚举
    【云原生 | Kubernetes 系列】--Ceph集群应用
    Spring中Bean的生命周期
    JasperReports做报表嵌套显示子报表显示不出来
    SwiftUI 为不同视图限制不同的屏幕旋转方向
    【目标检测】超分重建对小目标检测有效性探究
    讯飞离线语音合成新版(Aikit)-android sdk合成 demo(Java版本)
    用floyd算法求图中任意两点最短距离(matlab)
    计算机毕业设计springboot+vue+elementUI在线漫画周边销售购物交流系统
    tp6+vue-elementui-admin实现前后端权限分离框架
  • 原文地址:https://blog.csdn.net/weixin_45545090/article/details/126927568