• spark复习


    第一章

    1.​大数据特点:4V

    2.​大数据计算模式

    3.​hadoop生态系统

    4.​spark提供了内存计算和基于DAG的任务调度机制,遵循一个软件栈满足不同应用场景的理念。

    5.​hadoop中MapReduce计算框架的缺点,对应的spark的优点

     

    第二章

    1.​spark生态系统

    2.​spark的应用场景

    3.​RDD,DAG,Executor,应用,阶段的概念

    4.​spark架构设计

    5.​spark运行基本流程

    6.​RDD是一个分布式对象集合,本质上是一个只读的分区记录集合。提供了一种高度受限的共享内存模型,不能直接修改。RDD提供一组丰富的操作分为行动和转换两种类型,前者用于执行计算并指定输出的形式,后者指定RDD之间的依赖关系。

    7.​RDD采用惰性调用,真正的计算发生在行动操作,通过血缘关系连接起来的一系列RDD操作可以实现管道化Pipeline

    8.​RDD特性(*)

    9.​宽依赖与窄依赖的区别:是否包含shuffle操作

    10.​窄依赖:map,filter,union

    11.​宽依赖:groupByKey

    12.​spark中,对窄依赖合并过程被称为流水线优化

    13.​RDD阶段的划分(简答)

    14.​spark部署方式:Spark on Mesos(URL是Mesos://ip:port),Spark on YARN ,Standalone

     

    第四章

    23fc6357fabb419ea8583edca7b82f5c.jpg

    第五章

    1.Spark SQL架构

    fea2001c7ced4e7498ade11172ea4237.jpeg

    563bae5cf53245efb6a8bf35046013f1.jpeg 

    b28ddc595739428584cb59387fbec0e9.jpg

    第六章

    1.流计算和批量计算过一遍(有印象就行)

    2.​Spark Streaming的基本原理

    3.​Spark Streaming最主要的抽象是Dstream

    4.​Spark Streaming中有一个组件Receiver,作为长期运行的任务在一个Executor上执行,每个Receiver负责一个DStream输入流

    5.​编写Spark Streaming基本步骤

    6.​RDD编程中需要生成一个SparkContext对象,在Spark SQL编程中需要生成一个SparkSession对象,在Spark Streaming中需要生成一个StreamingContext对象

    7.​Socket工作原理(填空accept)

    8.​Kafka分布式发布订阅消息系统,相关概念:Broker,Topic,Producer,Consumer,Partition

    9.​DStream无状态转换操作和有状态转换操作区别

    a9c8151902c84489a4f5f388399f0530.jpg

     第七章

    1.Structured Streaming关键思想

    2.​Structured Streaming的两种处理模型区别

    3.​Structured Streaming,Spark SQL,Spark Streaming区别

    307815eb0f784150be7bc902c80e8900.jpg

     第八章

    1.机器学习三个关键词:算法,经验,性能

    2.​模型是用数据对算法进行训练得到的

    3.​常用学习算法:分类,回归,聚类,协同过滤

    4.​流水线包括一些概念:DataFrame,转换器实现了transform()方法,评估器,流水线,参数

    5.​构建一个机器学习流水线,首先要定义流水线中各个PipelineStage,称为工作流阶段,包括转换器和评估器,之后就可以按照具体的处理逻辑,有序组织PipelineStage并创建一个流水线。构建好后,就可以把训练数据集作为输入参数,调用流水线实例的fit()方法,以流的方式来处理原训练数据。该调用返回一个PipelineModel类的实例,用来预测测试数据的标签。

    6.​TF-IDF的含义

    e981fd1010c441fa84fed524ce409ac6.jpg

     

  • 相关阅读:
    235. 二叉搜索树的最近公共祖先
    Spring Boot 中自动装配机制的原理
    路由综合实验
    [英雄星球七月集训LeetCode解题日报] 第1日 数组
    【无标题】
    java基于springboot+vue的校园跑腿系统 nodejs前后端分离
    移动端App应用
    ​JavaScript中的多种进制与进制转换 ​
    为什么大厂压力大,竞争大,还有这么多人热衷于大厂呢?
    【Java面试题】《尚硅谷Java大厂面试题第2季,面试必刷,跳槽大厂神器》学习笔记
  • 原文地址:https://blog.csdn.net/weixin_69139397/article/details/139544265