码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Hadoop学习笔记(1)


    目录

    一、Hadoop入门

    1、Hadoop概述 

    1.1 Hadoop是什么

    1.2 Hadoop发展历史

    1.3 Hadoop三大发行版本(了解)

    1.4 Hadoop的优势

    1.5 Hadoop1.x、2.x、3.x区别

    2、Hadoop组成 

    2.1 HDFS架构概述

    2.2 YARN架构概述

    2.3 MapReduce架构概述

    2.4 HDFS、YARN、MapReduce三者关系

     2.5 大数据技术生态体系

    2.6 推荐系统框架图

    二、Hadoop(1)——运行模式

    1、本地运行模式

    2、完全分布式运行模式

    2.1 编写集群分发脚本xsync

    2.2 SSH无密登陆配置

    2.4 集群配置

    2.5 群起集群

    2.6 配置历史服务器

    2.7 日志聚集功能配置

    2.8 集群启动/停止方式总结

    2.9 两个常用的脚本

    2.10 面试题(关于端口号和配置文件) 

    2.11 集群时间同步

    3、常见错误及解决方案


    一、Hadoop入门

    内容:

    1、Hadoop概述 

    1.1 Hadoop是什么

    1.2 Hadoop发展历史

    1.3 Hadoop三大发行版本(了解)

    1.4 Hadoop的优势

    1.5 Hadoop1.x、2.x、3.x区别

    2、Hadoop组成 

    2.1 HDFS架构概述

    Hadoop Distributed File System,简称HDFS,是一个分布式文件系统

    示意图:

    2.2 YARN架构概述

    Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器

    2.3 MapReduce架构概述

    MapReduce将计算过程分为两个阶段:Map和Reduce

    1、Map阶段并行处理输入数据(分工给多个服务器)

    2、Reduce阶段对Map结果进行汇总

    2.4 HDFS、YARN、MapReduce三者关系

     2.5 大数据技术生态体系

    2.6 推荐系统框架图

    二、Hadoop(1)——运行模式

    1、本地运行模式

     注意:

    1、每一步输入查看路径时候不要按回车,要使用table键

    2、这里一定要指明输出路径,且输出路径还不能存在

    2、完全分布式运行模式

    2.1 编写集群分发脚本xsync

    1、scp安全拷贝 

    以下几种方法都可以

    方法1:在102中从102拷贝到103

    方法2:在103中从102拷贝到103 

    方法3:在103中从102拷贝到104

    2、ysync远程同步工具

    当修改了一个文件时,同步只更改该文件,而拷贝要整个文件进行复制拷贝 

    3、xsync集群分发脚本

     /home/atguigu/bin目录下的文件是全局环境变量,因此可以在任何地方声明

     

     dirname $file可以获取父目录

    -P防止读取到软连接的目录

    ssh可以远程连接,比如可以在102转换到103,-p可以实现覆盖

    2.2 SSH无密登陆配置

    免密登录原理

    2.4 集群配置

    1、集群部署的规划

    2、配置文件说明 

    3、配置集群

    4、5 分发配置文件及查看分发情况 

    2.5 群起集群

    注意:要在103上启动ResourceManager 

    1、实践可以看出来,存储路径就在data目录下

    2、关闭yarn等使用kill 进程号

    2.6 配置历史服务器

    为了查看程序的历史运行情况,需要配置以下历史服务器,具体配置步骤如下:

    2.7 日志聚集功能配置

    在102中使用mapred --daemon stop historyserver可以停止历史服务器

    在hadoop103中使用sbin/stop-yarn.sh可以停止yarn

    2.8 集群启动/停止方式总结

     可以kill 进程去停止

    2.9 两个常用的脚本

    2.10 面试题(关于端口号和配置文件) 

    2.11 集群时间同步

    我们的虚拟机联网了,因此不用打开

    3、常见错误及解决方案

     

    附上HDFS和YARN的图

  • 相关阅读:
    [附源码]SSM计算机毕业设计成都团结石材城商家协作系统JAVA
    项目管理中,项目干系人的角色和责任
    并查集及实现
    6-5,web3浏览器链接区块链(react+区块链实战)
    51单片机-LED实验二
    MySQL【创建和管理表】
    华为云云耀云服务器L实例评测|单节点环境下部署ClickHouse21.1.9.41数据库
    深入理解指针(c语言)
    【leetcode】【剑指offer Ⅱ】047. 二叉树剪枝
    【C++】string类模拟实现
  • 原文地址:https://blog.csdn.net/qq_64557330/article/details/126012685
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号