• 【面经】特斯拉大数据开发笔经


    欢迎点击此处关注公众号。每天分享大数据开发面经。

    特斯拉的大数据开发笔试 3 个题,两道 SQL 难度中规中矩,一道是工程题,没做过可能难顶。

    题目是用 Spark 实现四个方法:

    • 前三个方法是读取 csv 文件,返回 DataFrame;
    • 第四个方法是对上述三个 DataFrame 进行 join;
    • 编程语言可选 Java 11、PySpark、Scala。
    1.数据加载

    spark.read.load 是加载数据的通用方法。

    如果读取不同格式的数据,可以对不同的数据格式进行设定。

    scala> spark.read.format("…")[.option("…")].load("…")
    
    • 1
    • format(“…”):指定加载的数据类型,包括 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile”。
    • load(“…”):在 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile” 格式下需要传入加载数据的路径。
    • option(“…”):在 “jdbc” 格式下需要传入 JDBC 相应参数,url、user、password 和 dbtable。

    除此之外,也可以直接在文件上进行查询: 文件格式.文件路径。

    scala> spark.sql("select * from json.`/opt/module/data/user.json`").show
    
    • 1
    2.保存数据

    df.write.save 是保存数据的通用方法.

    如果保存不同格式的数据,可以对不同的数据格式进行设定。

    scala> df.write.format("…")[.option("…")].save("…")
    
    • 1
    • format(“…”):指定保存的数据类型,包括 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile”。
    • save (“…”):在 “csv”、“orc”、“parquet” 和 “textFile” 格式下需要传入保存数据的路径。
    • option(“…”):在 “jdbc” 格式下需要传入 JDBC 相应参数,url、user、password 和 dbtable。
    3.读取 csv 文件

    Spark SQL 可以配置 CSV 文件的列表信息,读取 CSV 文件,CSV 文件的第一行设置为数据列。

    df = spark.read.format("csv")	// 读取 csv 格式文件
    		  .option("sep", ",")	// 设置读取文本时每个字段的分隔符,这里用 , 分隔
    		  .option("inferSchema", "true")		// 自动推断类型
              .option("header", "true")		// 将 csv 文件第一行作为 DataFrame 的列名
    	 	  .load("data/user.csv")		// 数据的路径
    
    • 1
    • 2
    • 3
    • 4
    • 5

    读取之后返回 DataFrame 类型。

    4.SQL 操作

    上述读取的 df 可以进行 join 操作。

    在 spark 程序实际开发过程中遇到需要对文件内容做 Join 操作,使用 createOrReplaceTempView 方式将读取的文件创建临时表,然后通过 spark.sql() 方式利用 SQL语句 做 Join 操作。

    // 用上述的 df 创建临时表,表名为 tempTable
    df1.createOrReplaceTempView("tempTable1")
    df2.createOrReplaceTempView("tempTable2")
    
    // 直接可以用 SQL 操作
    val resultDf = spark.sql("SELECT name FROM tempTable1 as t1 JOIN tempTable2 as t2 ON t1.id=t2.id")
    
    // 返回结果
    return resultDf
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
  • 相关阅读:
    haproxy工具,负载均衡配置,反向代理配置,动静分离,高可用等等
    智云通CRM:产品销量和价格有什么关系?
    vue在线查看pdf文件
    分享一个一年经历两次裁员的程序员的一些感触
    Window 脚本 - Powershell 使用
    Python文件操作(05):Excel操作
    企业微信SCRM的那些事儿
    如何写一个可以找到工作的简历不至于太烂
    数据库等值查询与统计信息
    2022年加氢工艺考试题模拟考试平台操作
  • 原文地址:https://blog.csdn.net/weixin_45545090/article/details/126927568