• 【大数据】hadoop概述(学习笔记)


    一、介绍

    Hadoop是Apache软件基金会的开源软件

    hadoop核心组件:

    • Hadoop HDFS(分布式文件存储系统):解决海量数据存储
    • Hadoop YARN (集群资源管理和任务调度框架):解决资源任务调度
    • Hadoop MapReduce(分布式计算框架):解决海量数据计算

    广义上Hadoop指的是围绕Hadoop打造的大数据生态圈

    二、简史

    Hadoop之父:Doug Cutting

    Hadoop起源于Apache Lucene子项目:Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎

    三、现状

    HDFS作为为分布式文件存储系统,处在生态圈的底层与核心地位

    YARN作为分布式通用的集群资源管理系统和任务调度平台 ,支撑各种计算引擎运行,保证了Hadoop地位

    MapReduce作为大数据生态圈第一代分布式计算引擎,由于自身设计的模型所产生的弊端 ,导致企业一线几乎不再直接使用MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据

    四、优点

    扩容能力:可以分布在各个节点

    成本低:部署普通廉价的机器组成集群来处理大数据

    效率高:通过并发数据,可以在节点之间动态并行的移动数据

    可靠性:能自动维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务

    通用性(与业务脱钩)、简单性

    五、版本

    开源社区版:官方发行版本,兼容性稳定性一般

    http://hadoop.apache.org/

    商业发行版:稳定性好、得加钱…

    Cloudera、Hortonworks

    六、架构变迁

    Hadoop 1.0

    HDFS(分布式文件存储)

    MapReduce(资源管理和分布式数据处理)

    Hadoop 2.0

    HDFS(分布式文件存储)

    MapReduce (分布式数据处理)

    YARN(集群资源管理、任务调度)

    Hadoop 3.0

    精简内核、类路径隔离、she11脚本重构

    Hadoop HDFS:EC纠删码、多NameNode支持

    Hadoop MapReduce:任务本地化优化、 内存参数自动推断

    Hadoop YARN:Timeline Service v2、队列配置

  • 相关阅读:
    测开 - 进阶篇 - 细节狂魔
    算法通关村-----回溯模板如何解决排列组合问题
    秋日氛围 VoxEdit 大赛
    PC端使子组件的弹框关闭
    机器学习笔记 - 使用3D卷积神经网络进行视频分类
    LQ0219 三部排序【程序填空】
    TCR历史期刊为何受大家欢迎?
    反转链表问题的递归解法
    Embedding 模型部署及效果评测
    【CSS】设置文字(文本)的渐变色
  • 原文地址:https://blog.csdn.net/wmh1024/article/details/133623315