码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 一文理解Hadoop分布式存储和计算框架入门基础


    🚀 优质资源分享 🚀

    学习路线指引(点击解锁) 知识定位 人群定位
    🧡 Python实战微信订餐小程序 🧡 进阶级 本课程是python flask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。
    💛Python量化交易实战💛 入门级 手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

    @

    目录* 概述
    + 定义
    + 发展历史
    + 发行版本
    + 优势
    + 生态项目

    • 架构
      • 组成模块
      • HDFS架构
      • YARN架构
    • 部署
      • 部署规划
      • 前置条件
      • 部署步骤
        • 下载文件(三台都执行)
        • 创建目录(三台都执行)
        • 配置环境变量(三台都执行)
        • 安装和配置(hadoop1上执行)
        • 启动和停止Hadoop
        • HDFS环境测试
        • 计算和资源环境测试

    概述

    定义

    Hadoop 官网地址 https://hadoop.apache.org/

    Hadoop GitHub地址 https://github.com/apache/hadoop

    Hadoop 文档地址 https://hadoop.apache.org/docs/stable/

    Apache Hadoop是一个由 Apache 基金会所开发的分布式存储和计算的基础框架,使用简单的编程模型跨计算机集群分布式处理海量数据,也即是主要解决海量数据的存储和海量数据的分析计算问题。

    Apache Hadoop可从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储,实现存储和计算高可用性;而从广义上来说, Hadoop 通常是指一个更广泛的概念 —— Hadoop 生态圈。

    发展历史

    • Hadoop 创始人 Doug Cutting ,为了实现与 Google 类似的全文搜索功能,他在 Lucene 框架基础上进行优化升级,查询引擎和索引引擎。
    • 2001 年年底 Lucene 成为 Apache 基金会的一个子项目。
    • 对于海量数据的场景, Lucene 框架面对与 Google 同样的困难, 存储海量数据困难,检索海量速度慢 。
    • 学习和模仿 Google 解决这些问题的办法 :微型版 Nutch 。
    • 可以说 Google 是 Hadoop 的思想之源( Google 在大数据方面的三篇论文,GFS —>HDFS、Map-Reduce —>MR、BigTable —>HBase)。
    • 2003-2004 年, Google 公开了部分 GFS 和 MapReduce 思想的细节,以此为基础 Doug Cutting 等人用了 2 年业余时间 实现了 DFS 和 MapReduce 机制,使 Nutch 性能飙升。
    • 2005 年 Hadoop 作为 Lucene 的子项目 Nutch 的一部分正式引入 Apache 基金会。
    • 2006 年 3 月份, Map-Reduce 和 Nutch Distributed File System ( NDFS )分别被纳入到 Hadoop 项目中, Hadoop 就此正式诞生,标志着大数据时代来临。
    • 名字来源于 Doug Cutting 儿子的玩具大象。

    发行版本

    Hadoop 发行版除了Apache的开源版本之外,还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,所有这些发行版均是基于Apache Hadoop衍生出来的。

    • Apache Hadoop 原生版本,其优点完全开源免费,社区活跃,文档、资料详实。缺点复杂版本管理,复杂的集群部署、安装、配置,复杂的集群运维,复杂的生态环境兼容性和冲突,因此仅适用于以学习原理部署方式。
    • Cloudera Hadoop(CDH):cloudera研发了cloudera manger、cdh大数据分析集成平台、cloudera Support;也是最成型的发行版本,拥有最多的部署案例;提供强大的部署、管理和监控工具;Cloudera开发并贡献了可实时处理大数据的Impala项目。
    • Hortonworks Hadoop(HDP)hortonworks研发了Ambari和hdp的大数据分析集成平台。
    • CDP:在Cloudera和Hortonworks合并后,Cloudera公司推出了新一代的数据平台产品CDP Data Center(以下简称为CDP).
    • TDH:星环科技开发,是国内首个全面支持Spark的Hadoop发行版,也是国内落地案例最多的商业版本,是国内外领先的高性能平台。
    • MapR:获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS。

    优势

    • 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
    • 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
  • 相关阅读:
    tkMapper单表查询_实际应用
    【我的OpenGL学习进阶之旅】Assimp库支持哪些3D模型格式?
    BERT论文阅读
    快速入手node.js
    领域驱动设计(DDD):三层架构到DDD架构演化
    中标麒麟Linux64平台上QT5.6.3源码编译安装
    Kamiya丨Kamiya艾美捷小鼠脱细胞素ELISA说明书
    MySQL数据库基本操作2
    Golang中gRPC使用及原理探究
    渐进式编程之旅:探寻PHP函数的奇妙世界
  • 原文地址:https://blog.csdn.net/u013190417/article/details/126397195
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号