目录
1.Spark架构与作业提交流程
2.Spark提交作业参数
3.RDD属性
4.Spark算子
5.Repartition和Coalesce区别
6.reduceByKey和groupByKey的区别
7.Spark中的血缘
8.Spark任务的划分
9.cache缓存级别
10.释放缓存和缓存
11.缓存和检查点区别
12.Spark分区
13.Spark累加器
14.Spark广播变量
15.SparkSQL中RDD、DataFrame、DataSet三者的转换
16.请列举会引起Shuffle过程的Spark算子,并简述功能
17.当Spark涉及到数据库的操作时,如何减少Spark运行中的数据库连接数?
18.Spark实现TopN
19.Spark内核源码
20.Spark通讯架构
21.Stage任务划分
22.Task任务调度执行
23.HashShuffle流程
24.SortShuffle流程
25.bypassShuffle流程
26.Spark Streaming精准一次
27.Spark Streaming背压机制
28.Spark Streaming默认分区数
29.Spark Streaming有哪几种方式消费Kafka中的数据,她们之间的区别是什么?
30.简述SparkStreaming窗口函数的原理(重点)
31.数据倾斜的表现
32.数据倾斜的原因
1.Spark架构与作业提交流程
2.Spark提交作业参数
3.RDD属性
4.Spark算子
5.Repartition和Coalesce区别
6.reduceByKey和groupByKey的区别
7.Spark中的血缘
8.Spark任务的划分
9.cache缓存级别
10.释放缓存和缓存
11.缓存和检查点区别
12.Spark分区
13.Spark累加器
14.Spark广播变量
15.SparkSQL中RDD、DataFrame、DataSet三者的转换
16.请列举会引起Shuffle过程的Spark算子,并简述功能
17.当Spark涉及到数据库的操作时,如何减少Spark运行中的数据库连接数?
18.Spark实现TopN
19.Spark内核源码
20.Spark通讯架构
21.Stage任务划分
22.Task任务调度执行
23.HashShuffle流程
24.SortShuffle流程
25.bypassShuffle流程
26.Spark Streaming精准一次
27.Spark Streaming背压机制
28.Spark Streaming默认分区数
29.Spark Streaming有哪几种方式消费Kafka中的数据,她们之间的区别是什么?
30.简述SparkStreaming窗口函数的原理(重点)
31.数据倾斜的表现
32.数据倾斜的原因