目录
内容:







Hadoop Distributed File System,简称HDFS,是一个分布式文件系统
示意图:


Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器

MapReduce将计算过程分为两个阶段:Map和Reduce
1、Map阶段并行处理输入数据(分工给多个服务器)
2、Reduce阶段对Map结果进行汇总







注意:
1、每一步输入查看路径时候不要按回车,要使用table键
2、这里一定要指明输出路径,且输出路径还不能存在

1、scp安全拷贝


以下几种方法都可以
方法1:在102中从102拷贝到103
方法2:在103中从102拷贝到103
方法3:在103中从102拷贝到104
2、ysync远程同步工具

当修改了一个文件时,同步只更改该文件,而拷贝要整个文件进行复制拷贝
3、xsync集群分发脚本

/home/atguigu/bin目录下的文件是全局环境变量,因此可以在任何地方声明

dirname $file可以获取父目录
-P防止读取到软连接的目录
ssh可以远程连接,比如可以在102转换到103,-p可以实现覆盖

免密登录原理

1、集群部署的规划

2、配置文件说明

3、配置集群




4、5 分发配置文件及查看分发情况



注意:要在103上启动ResourceManager

1、实践可以看出来,存储路径就在data目录下
2、关闭yarn等使用kill 进程号
为了查看程序的历史运行情况,需要配置以下历史服务器,具体配置步骤如下:




在102中使用mapred --daemon stop historyserver可以停止历史服务器
在hadoop103中使用sbin/stop-yarn.sh可以停止yarn

可以kill 进程去停止




我们的虚拟机联网了,因此不用打开


附上HDFS和YARN的图

