码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Hadoop1_hadoop概览


    Hadoop

    • 1 大数据技术简介
      • 1.1 大数据
      • 1.2 Hadoop(两件事:海量数据存储和计算)
      • 1.3 Hadoop和Hive、Spark的区别
      • 1.4 Hadoop的3部分组成
        • 1.4.1 HDFS架构3部分(目录-数据-备份)
        • 1.4.2 YARN
        • 1.4.3MapReduce
      • 1.5 集群和节点
      • 1.6 hadoop在window上安装
    • 2 HDFS(和操作mysql是一个道理)
      • 2.1 特点
      • 2.2 组成
      • 2.3 写数据
      • 2.4 读数据
      • 2.5 DataNode工作机制
    • 3 MapReduce
      • 3.1 MapReduce执行原理
      • 3.2 执行的时候一般分为3个类(8股文)
      • 3.3 类型
      • 3.4 MAP阶段
      • 3.5 shuffle
      • 3.5 Reduce阶段
      • 3.6 WordCount小案例
      • 3.7 序列化
      • 3.8 自定义输出小案例(理解MapTask工作机制)
    • 4 YARN
    • 参考资料

    1 大数据技术简介

    1.1 大数据

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    1.2 Hadoop(两件事:海量数据存储和计算)

    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    1.3 Hadoop和Hive、Spark的区别

    在这里插入图片描述

    1.4 Hadoop的3部分组成

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    1.4.1 HDFS架构3部分(目录-数据-备份)

    在这里插入图片描述

    1.4.2 YARN

    在这里插入图片描述

    1.4.3MapReduce

    在这里插入图片描述

    1.5 集群和节点

    一个节点就是1台服务器
    一个集群就是多台服务器,连成局域网

    多个服务器组合在一起称为集群,一般指应用服务器;存储型的服务器集群指得是:数据一个服务器放不下,分别放到不同机器中,这些机器称为集群。
    一个或多个节点集合组成一个集群,集群上的节点可以存储数据,并提供跨节点的索引和搜索功能。
    一个节点就是一个服务(实例),可以实现存储数据,索引并且搜索的功能。
    每个节点都有一个唯一的名称作为身份标识;如果没有设置名称,默认使用 UUID 作为名称。推荐定义有意义的名称,便于更好的在集群中区分与管理。

    节点通过设置集群名称,在同一网络中发现具有相同集群名称的节点,组成集群。如果在同一网络中只有一个节点,则这个节点成为一个单节点集群,即此节点集群中每个节点都是功能齐全的服务。

    1.6 hadoop在window上安装

    Hadoop-3.0.0版本Windows安装_DELICACY.的博客-CSDN博客
    https://blog.csdn.net/mr_yuntuo/article/details/90728174

    2 HDFS(和操作mysql是一个道理)

    在linux上面操作hdfs集群和mysql是一个道理,操作mysql是打开了mysql软件,让mysql软件执行一些命令,操作hdfs也是打开了hdfs软件,让hdfs软件执行一些命令。具体的文件还是存在你电脑上,只不过你看不懂,但是mysql和hdfs是可以看懂它存的文件的

    在这里插入图片描述
    在这里插入图片描述

    2.1 特点

    在这里插入图片描述

    2.2 组成

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2.3 写数据

    在这里插入图片描述

    2.4 读数据

    在这里插入图片描述

    2.5 DataNode工作机制

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    3 MapReduce

    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    3.1 MapReduce执行原理

    读取HDFS中的文件。每一行解析成一个。每一个键值对调用一次map函数。 当然可以修改split,使得每个map处理的程序不是1行。
    有几个分块就有几个k,v就有几个mapper。
    split分块 ——(k,v)——mapper
    在这里插入图片描述

    3.2 执行的时候一般分为3个类(8股文)

    1 主要功能类
    2 MAP类
    3 Reduce类
    在这里插入图片描述

    3.3 类型

    在这里插入图片描述

    3.4 MAP阶段

    在这里插入图片描述

    3.5 shuffle

    Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。

    这一过程主要是分区和排序,就这两个过程;

    有几个分区就对应几个reduce;

    map过程出来的k,v根据k放到不同的分区中,然后reduce进行处理。

    3.5 Reduce阶段

    在这里插入图片描述

    在这里插入图片描述

    3.6 WordCount小案例

    在这里插入图片描述
    (1)创建项目和3个类
    (2)配置依赖库
    (3)添加资源文件
    (4)实现这3个类

    在eclipse中实现3步:
    1 建好包,把3个java文件考进去
    2 把配置文件.perproties放到src目录下
    3 导包,导入hadoop包

    3.7 序列化

    在这里插入图片描述
    在这里插入图片描述

    3.8 自定义输出小案例(理解MapTask工作机制)

    4 YARN

    Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

    参考资料

    1 看这个视频就够了,必须都学了,尚硅谷_Hadoop_概论
    https://www.bilibili.com/video/BV1Qp4y1n7EN?p=4&spm_id_from=pageDriver&vd_source=eef37ea4f9af07ac3ada3c77ce1c6ec5

    2 Hadoop Shell命令
    https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html

    3 Hadoop常用命令 - 走看看
    http://t.zoukankan.com/hunttown-p-5809227.html

    4 hdfs shell的基本操作以及hdfsWeb查看文件 - 知乎
    https://zhuanlan.zhihu.com/p/374573384

    5 HDFS查看文件的行数-前几行-后几行

  • 相关阅读:
    ACE默认高效实现之自适应锁策略兼谈模板与宏
    Qt5开发从入门到精通——第五篇二节( 文本编辑器 Easy Word 开发 V1.1 详解 )
    026-为什么要使用接口
    『亚马逊云科技产品测评』活动征文|搭建Squoosh图片在线压缩工具
    荣誉榜再度添彩!热烈祝贺旭帆科技荣获安徽省大数据企业!
    使用MybatisPlus快速进行增删改查
    MySQL案例详解 二:MHA高可用配置及故障切换
    什么是深度学习?最易懂的机器学习入门文章
    WalkMe的数字用户体验到底是啥
    在编程Python的时候发生ModuleNotFoundError: No module named distutils报错怎么办
  • 原文地址:https://blog.csdn.net/xiaotiig/article/details/126459458
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号