

















一个节点就是1台服务器
一个集群就是多台服务器,连成局域网
多个服务器组合在一起称为集群,一般指应用服务器;存储型的服务器集群指得是:数据一个服务器放不下,分别放到不同机器中,这些机器称为集群。
一个或多个节点集合组成一个集群,集群上的节点可以存储数据,并提供跨节点的索引和搜索功能。
一个节点就是一个服务(实例),可以实现存储数据,索引并且搜索的功能。
每个节点都有一个唯一的名称作为身份标识;如果没有设置名称,默认使用 UUID 作为名称。推荐定义有意义的名称,便于更好的在集群中区分与管理。
节点通过设置集群名称,在同一网络中发现具有相同集群名称的节点,组成集群。如果在同一网络中只有一个节点,则这个节点成为一个单节点集群,即此节点集群中每个节点都是功能齐全的服务。
Hadoop-3.0.0版本Windows安装_DELICACY.的博客-CSDN博客
https://blog.csdn.net/mr_yuntuo/article/details/90728174
在linux上面操作hdfs集群和mysql是一个道理,操作mysql是打开了mysql软件,让mysql软件执行一些命令,操作hdfs也是打开了hdfs软件,让hdfs软件执行一些命令。具体的文件还是存在你电脑上,只不过你看不懂,但是mysql和hdfs是可以看懂它存的文件的














读取HDFS中的文件。每一行解析成一个
有几个分块就有几个k,v就有几个mapper。
split分块 ——(k,v)——mapper

1 主要功能类
2 MAP类
3 Reduce类



Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。
这一过程主要是分区和排序,就这两个过程;
有几个分区就对应几个reduce;
map过程出来的k,v根据k放到不同的分区中,然后reduce进行处理。



(1)创建项目和3个类
(2)配置依赖库
(3)添加资源文件
(4)实现这3个类
在eclipse中实现3步:
1 建好包,把3个java文件考进去
2 把配置文件.perproties放到src目录下
3 导包,导入hadoop包


Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。
1 看这个视频就够了,必须都学了,尚硅谷_Hadoop_概论
https://www.bilibili.com/video/BV1Qp4y1n7EN?p=4&spm_id_from=pageDriver&vd_source=eef37ea4f9af07ac3ada3c77ce1c6ec5
2 Hadoop Shell命令
https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html
3 Hadoop常用命令 - 走看看
http://t.zoukankan.com/hunttown-p-5809227.html
4 hdfs shell的基本操作以及hdfsWeb查看文件 - 知乎
https://zhuanlan.zhihu.com/p/374573384