码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Hadoop系列——Hadoop简介day1-2


    Hadoop系列——Hadoop简介day1-2

    • Hadoop
      • 核心组件
      • 官方地址
      • Google的三篇论文
      • 特性优点
        • 1.扩容能力
        • 2.成本低
        • 3.效率高
        • 4.可靠性
      • Hadoop版本
        • 商业发行版
        • 开源社区版
      • Hadoop架构变迁
        • Hadoop 1.0
        • Hadoop 2.0
        • Hadoop 3.0(着重于2.0的性能优化)
          • 通用
          • Hadoop HDFS
          • Hadoop MapReduce
          • Hadoop YARN
      • Hadoop集群
        • HDFS集群(分布式存储)
        • YARN集群(资源管理、调度)
      • Hadoop部署模式
        • 单机模式 Standalone mode
        • 伪分布式 Pseudo-Distributed mode
        • 集群模式 Cluster mode
        • HA高可用 HA mode

    Hadoop

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算

    核心组件

    HDFS:分布式文件存储系统——解决海量数据存储
    YARN:集群资源管理和任务调度框架——解决资源任务调度
    MapReduce:分布式计算框架——解决海量数据计算

    官方地址

    https://hadoop.apache.org/

    Google的三篇论文

    1. 《The Google file system》︰谷歌分布式文件系统GFS
    2. 《MapReduce: Simplified Data Processing on Large Clusters》︰谷歌分布式计算框架MapReduce
    3. 《Bigtable: A Distributed Storage System for Structured Data》︰谷歌结构化数据存储系统

    这三篇论文成为了Hadoop的指导

    特性优点

    1.扩容能力

    Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。

    2.成本低

    Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。

    3.效率高

    通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。

    4.可靠性

    能自动维护数据的多份复制,并且在任务失败后能自动地重新部署( redeploy )计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

    Hadoop版本

    商业发行版

    商业公司发行
    某些服务需要收费
    基于Apache开源协议
    优点︰稳定兼容好
    缺点︰收费版本更新慢

    开源社区版

    Apache开源社区发行
    也是官方发行版本
    优点∶更新迭代快
    缺点︰兼容稳定性不周

    Hadoop架构变迁

    Hadoop 1.0

    • HDFS(分布式文件存储)
    • MapReduce(资源管理和分布式数据处理)
      在这里插入图片描述

    Hadoop 2.0

    • HDFS(分布式文件存储)
    • MapReduce (分布式数据处理)
    • YARN(集群资源管理、任务调度)

    在这里插入图片描述

    Hadoop 3.0(着重于2.0的性能优化)

    通用

    精简内核、类路径隔离、shell脚本重构

    Hadoop HDFS

    EC纠删码、多NameNode支持

    Hadoop MapReduce

    任务本地化优化、内存参数自动推断

    Hadoop YARN

    Timeline Service V2、队列配置

    在这里插入图片描述

    Hadoop集群

    Hadoop集群包括两个集群:

    • HDFS集群
    • YARN集群

    两个集群逻辑上分离:两个集群互相之间没有依赖、互不影响
    物理上在一起:在某些角色进程往往部署在同一台服务器上
    两个集群都是标准的主从架构集群

    MapReduce是计算框架、代码层面的组件,没有集群之说所以没有MapReduce集群

    HDFS集群(分布式存储)

    • 主角色: NameNode
    • 从角色: DataNode
    • 主角色辅助角色:SecondaryNameNode

    YARN集群(资源管理、调度)

    • 主角色:ResourceManager
    • 从角色:NodeManager

    Hadoop部署模式

    单机模式 Standalone mode

    1个机器运行1个java进程,所有角色在一个进程中运行,主要用于调试

    伪分布式 Pseudo-Distributed mode

    一个机器运行多个进程,每个角色一个进程,主要用于调试

    集群模式 Cluster mode

    集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。

    HA高可用 HA mode

    在集群模式的基础上为单点故障部署备份角色,形成主备架构,实现容错

  • 相关阅读:
    Scala教程
    攻防演练怎样从外网进行纵深突破
    【Linux】环境基础开发工具使用 - 软件包管理yum _vim _gcc/g++ _gdb
    pyspark使用xgboost做模型训练
    天龙八部科举答题问题和答案(全7/8)
    202328读书笔记|《杨绛传:岁月流转,我心依然》——我和谁都不争,和谁争我都不屑。我爱大自然,其次就是艺术。
    hive on spark 记录
    VH6501模板工程介绍(一)
    对话销售易CEO史彦泽:做CRM淘汰赛“钉子户”
    Java基础知识点整理(2022年最新版)
  • 原文地址:https://blog.csdn.net/qq_51553982/article/details/126943056
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号