码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • MOOC 大数据Note


    MOOC 大数据Note

    • Spark
      • Spark 一个软件栈满足不同交互场景
      • Lineage 血缘关系
      • 创建 转换 动作
      • ShuffleMapStage
      • Spark的部署和应用方式
      • RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:count
      • Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARN
      • RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算
      • 在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架Storm
      • 基于实时数据流的数据处理:Storm
      • 复杂的批量数据处理:MapReduce
      • 基于历史数据的交互式查询:Impala
      • Apache软件基金会最重要的三大分布式计算系统开源项目包括:Storm、Spark、Hadoop
      • Spark的主要特点包括:运行模式多样、通用性好、容易使用、运行速度快
      • Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言
      • Scala具备强大的并发性,支持函数式编程
      • Scala是一种多范式编程语言
      • Scala运行于Java平台,兼容现有的Java程序
      • Spark的运行架构包括:每个应用的任务控制节点 Driver、集群资源管理器 Cluster Manager、运行作业任务的工作节点 Worker Node、每个工作节点上负责具体任务的执行进程 Executor
      • 常见的动作(Action)和转换(Transformation)操作的API count():返回数据集中的元素个数,map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集,filter(func):筛选出满足函数func的元素,并返回一个新的数据集
      • HBase是一种列式数据库
      • HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳
      • 每个HBase表都由若干行组成,每个行由行键(row key)来标识
      • HBase列族支持动态扩展,可以很轻松地添加一个列族或列
      • Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等
      • HBase三层结构的顺序是:Zookeeper文件,-ROOT-表,.MEATA.表
      • 客户端是通过三级寻址来定位Region
      • 访问HBase表中的行,有哪些方式:通过一个行健的区间来访问,通过单个行键来访问、全表扫描
      • HBase和传统关系型数据库的区别在于哪些方面:数据操作、数据模型、存储模式、数据索引
      • 下列对HBase的理解正确的是:HBase多用于存储非结构化和半结构化的松散数据,HBase是针对谷歌BigTable的开源实现

    Spark

    Spark 一个软件栈满足不同交互场景

    在这里插入图片描述

    Lineage 血缘关系

    创建 转换 动作

    ShuffleMapStage

    在这里插入图片描述

    Spark的部署和应用方式

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:count

    Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARN

    RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算

    在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架Storm

    基于实时数据流的数据处理:Storm

    复杂的批量数据处理:MapReduce

    基于历史数据的交互式查询:Impala

    Apache软件基金会最重要的三大分布式计算系统开源项目包括:Storm、Spark、Hadoop

    Spark的主要特点包括:运行模式多样、通用性好、容易使用、运行速度快

    Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言

    Scala具备强大的并发性,支持函数式编程

    Scala是一种多范式编程语言

    Scala运行于Java平台,兼容现有的Java程序

    Spark的运行架构包括:每个应用的任务控制节点 Driver、集群资源管理器 Cluster Manager、运行作业任务的工作节点 Worker Node、每个工作节点上负责具体任务的执行进程 Executor

    常见的动作(Action)和转换(Transformation)操作的API count():返回数据集中的元素个数,map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集,filter(func):筛选出满足函数func的元素,并返回一个新的数据集

    HBase是一种列式数据库

    HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳

    每个HBase表都由若干行组成,每个行由行键(row key)来标识

    HBase列族支持动态扩展,可以很轻松地添加一个列族或列

    Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等

    HBase三层结构的顺序是:Zookeeper文件,-ROOT-表,.MEATA.表

    客户端是通过三级寻址来定位Region

    访问HBase表中的行,有哪些方式:通过一个行健的区间来访问,通过单个行键来访问、全表扫描

    HBase和传统关系型数据库的区别在于哪些方面:数据操作、数据模型、存储模式、数据索引

    下列对HBase的理解正确的是:HBase多用于存储非结构化和半结构化的松散数据,HBase是针对谷歌BigTable的开源实现

  • 相关阅读:
    性能测试 —— 吞吐量和并发量的关系? 有什么区别?
    【Leetcode】120.三角形最小路径和
    做个行动派吧
    基于ensp的园区网络搭建综合实验
    【LeetCode滑动窗口专题#2】无重复字符的最长子串
    KeeWiDB 的架构由代理层和服务层两个部分构成
    obb包围盒数组的含义
    基因家族特征分析 - 染色体定位分析
    正则表达式的修饰符
    图论-最短路径问题
  • 原文地址:https://blog.csdn.net/zhanghanqmx/article/details/128171841
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号