目录
内容:
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统
示意图:
Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器
MapReduce将计算过程分为两个阶段:Map和Reduce
1、Map阶段并行处理输入数据(分工给多个服务器)
2、Reduce阶段对Map结果进行汇总
注意:
1、每一步输入查看路径时候不要按回车,要使用table键
2、这里一定要指明输出路径,且输出路径还不能存在
1、scp安全拷贝
以下几种方法都可以
方法1:在102中从102拷贝到103
方法2:在103中从102拷贝到103
方法3:在103中从102拷贝到104
2、ysync远程同步工具
当修改了一个文件时,同步只更改该文件,而拷贝要整个文件进行复制拷贝
3、xsync集群分发脚本
/home/atguigu/bin目录下的文件是全局环境变量,因此可以在任何地方声明
dirname $file可以获取父目录
-P防止读取到软连接的目录
ssh可以远程连接,比如可以在102转换到103,-p可以实现覆盖
免密登录原理
1、集群部署的规划
2、配置文件说明
3、配置集群
4、5 分发配置文件及查看分发情况
注意:要在103上启动ResourceManager
1、实践可以看出来,存储路径就在data目录下
2、关闭yarn等使用kill 进程号
为了查看程序的历史运行情况,需要配置以下历史服务器,具体配置步骤如下:
在102中使用mapred --daemon stop historyserver可以停止历史服务器
在hadoop103中使用sbin/stop-yarn.sh可以停止yarn
可以kill 进程去停止
我们的虚拟机联网了,因此不用打开
附上HDFS和YARN的图