spark复习

第一章

1.大数据特点:4V

2.大数据计算模式

3.hadoop生态系统

4.spark提供了内存计算和基于DAG的任务调度机制，遵循一个软件栈满足不同应用场景的理念。

5.hadoop中MapReduce计算框架的缺点，对应的spark的优点

第二章

1.spark生态系统

2.spark的应用场景

3.RDD，DAG，Executor，应用，阶段的概念

4.spark架构设计

5.spark运行基本流程

6.RDD是一个分布式对象集合，本质上是一个只读的分区记录集合。提供了一种高度受限的共享内存模型，不能直接修改。RDD提供一组丰富的操作分为行动和转换两种类型，前者用于执行计算并指定输出的形式，后者指定RDD之间的依赖关系。

7.RDD采用惰性调用，真正的计算发生在行动操作，通过血缘关系连接起来的一系列RDD操作可以实现管道化Pipeline

8.RDD特性(*)

9.宽依赖与窄依赖的区别:是否包含shuffle操作

10.窄依赖:map,filter,union

11.宽依赖:groupByKey

12.spark中，对窄依赖合并过程被称为流水线优化

13.RDD阶段的划分(简答)

14.spark部署方式:Spark on Mesos(URL是Mesos://ip:port),Spark on YARN ,Standalone

第四章

第五章

1.Spark SQL架构

第六章

1.流计算和批量计算过一遍(有印象就行)

2.Spark Streaming的基本原理

3.Spark Streaming最主要的抽象是Dstream

4.Spark Streaming中有一个组件Receiver，作为长期运行的任务在一个Executor上执行，每个Receiver负责一个DStream输入流

5.编写Spark Streaming基本步骤

6.RDD编程中需要生成一个SparkContext对象，在Spark SQL编程中需要生成一个SparkSession对象，在Spark Streaming中需要生成一个StreamingContext对象

7.Socket工作原理(填空accept)

8.Kafka分布式发布订阅消息系统，相关概念:Broker,Topic,Producer,Consumer,Partition

9.DStream无状态转换操作和有状态转换操作区别

第七章

1.Structured Streaming关键思想

2.Structured Streaming的两种处理模型区别

3.Structured Streaming，Spark SQL，Spark Streaming区别

第八章

1.机器学习三个关键词:算法，经验，性能

2.模型是用数据对算法进行训练得到的

3.常用学习算法:分类，回归，聚类，协同过滤

4.流水线包括一些概念:DataFrame，转换器实现了transform()方法，评估器，流水线，参数

5.构建一个机器学习流水线，首先要定义流水线中各个PipelineStage，称为工作流阶段，包括转换器和评估器，之后就可以按照具体的处理逻辑，有序组织PipelineStage并创建一个流水线。构建好后，就可以把训练数据集作为输入参数，调用流水线实例的fit()方法，以流的方式来处理原训练数据。该调用返回一个PipelineModel类的实例，用来预测测试数据的标签。

6.TF-IDF的含义

相关阅读:
一文讲透消息队列RocketMQ实现消费幂等
测试杂谈——一条SQL引发的思考
回归预测 | MATLAB实现PCA-GRU主成分门控循环单元多输入单输出回归预测
C语言大小端判断
雅思口语高分课程
KeeWiDB的高性能修炼之路：架构篇
GIT使用教程
OS＞＞多线程
语言模型和编解码模型
疫情后的旅游业：恢复和变革

原文地址：https://blog.csdn.net/weixin_69139397/article/details/139544265