作者简介:🏅云计算领域优质创作者🏅新星计划第三季python赛道第一名🏅 阿里云ACE认证高级工程师🏅
✒️个人主页:小鹏linux
💊个人社区:小鹏linux(个人社区)欢迎您的加入!
目录
作为当今大数据处理领域的经典分布式平台,Apache Hadoop主要基于Java语言实现,由三个核心子系统组成:HDFS、YARN、MapReduce,其中,HDFS是一套分布式文件系统;YARN是资源管理系统,MapReduce是运行在YARN上的应用,负责分布式处理管理。如果从操作系统的角度看,HDFS相当于Linux的 ext3/ext4文件系统,而Yarn相当于Linux的进程调度和内存分配模块 |
1)Hadoop 创始人 Doug Cutting ,为 了实 现与 Google 类似的全文搜索功能,他在 Lucene 框架基础上进行优化升级,查询引擎和索引引擎。 |
可以通过docker run指令运行镜像,同时打开bash命令行,如下所示: |
- $ docker run -it sequenceiq/hadoop-docker:2.7.0 /etc/bootstrap.sh -bash
- bash-4.1#
此时可以查看各种配置信息和执行操作,例如查看namenode日志等信息: |
- bash-4.1# cat /usr/local/hadoop/logs/hadoop-root-namenode-d4e1e9d8f24f.out
- ulimit -a for user root
- core file size (blocks, -c) 0
- data seg size (kbytes, -d) unlimited
- scheduling priority (-e) 0
- file size (blocks, -f) unlimited
- pending signals (-i) 7758
- max locked memory (kbytes, -l) 64
- max memory size (kbytes, -m) unlimited
- open files (-n) 1048576
- pipe size (512 bytes, -p) 8
- POSIX message queues (bytes, -q) 819200
- real-time priority (-r) 0
- stack size (kbytes, -s) 8192
- cpu time (seconds, -t) unlimited
- max user processes (-u) unlimited
- virtual memory (kbytes, -v) unlimited
- file locks (-x) unlimited
需要验证Hadoop环境是否安装成功。打开容器的bash命令行环境,进入Hadoop目录:
|
bash-4.1# cd $HADOOP_PREFIXbash-4.1# pwd/usr/local/hadoop
然后通过运行Hadoop内置的实例程序来进行测试: |
- bash-4.1# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input output 'dfs[a-z.]+'
- 16/08/31 10:00:11 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
- 16/08/31 10:00:15 INFO input.FileInputFormat: Total input paths to process : 31
- 16/08/31 10:00:16 INFO mapreduce.JobSubmitter: number of splits:31
- ...
最后可以使用hdfs指令检查输出结果: |
bash-4.1# bin/hdfs dfs -cat output/*