CENTOS上的网络安全工具（十一）走向Hadoop（3） MapReduce示例解析

CENTOS上的网络安全工具（十一）走向Hadoop（3） MapReduce示例解析
关于MapReduce的介绍及源码分析网上也不少，但是有些东西看过只是看过，没有亲自手撸一遍的过程，总感觉还是有点那么不够实在。所以为了搞明白MapReduce的Grep示例具体怎么工作的，我们上一篇首先构建了可以支撑我们手撸的环境，这一篇就基于这个环境尝试解剖一下Grep。当然，解剖的程度是以我自己感觉大致明白为界限的，毕竟水平有限也没打算过于深究。只是若读者感兴趣，完全可以在该篇基础上继续深入，如果有兴趣写出来最好，余必拜访学习：）

        一、MapReduce的执行逻辑

第一段不能免俗，先来张MapReduce的执行逻辑图。只不过，如果只看这张图，会感觉似乎明白MapReduce在干什么，但似乎又确实不知道MapReduce在干什么——我刚接触到这个玩意儿的时候，就这么个感觉。

毕竟要说他在干什么，打个比方就行：一个叫做DFS的图书馆里，存了好几百书架的书，现在需要统计一下，这些书总共有多少本。如果你是一个人，做法无非就是从第一个书架开始，一本一本数；像快一点的话，那就来一群人，分开数完一加就是。

但是要像真弄清楚，这个比方还得再戏谑……啊不，再细致点：

        这一群人，组建了一个叫MapReduce的公司。其中，有个大佬比较NB，是董事会请来的CEO，大家都听他（JobTracer进程）的，所以他来安排这个任务原则上怎么干:绝大部分的人（Mapper类），每人负责若干书架，一个书架一个书架的数，数完就会报<第几书架,共多少本>；一个（或少数）会算加法的聪明人（Reducer类）负责统计，把所有的<第几书架,共多少本>报告记下来，把本数加起来，最后报告<总数：多少本>。

如果把这个数图书馆的事作为一个工程项目的话，Mapper和Reducer这种具体搬砖的人，就是现实生活中苦逼的技术线码农们。如果书架不多还好说，如果书架太多，码农们可能数着数着就忘记自己接下来该数哪个书架了，或者一些聪明的混混们跑去摸鱼去了，Reducer可能好久也凑不齐需要统计的数据。JobTracer作为行政线唯一的大佬，盯着码农们干活这种事当然不能亲自操刀，所以还要找一些具备PUA特长的中层们（TaskTracer进程），这些中层们负责盯着码农们干活，干得快的，就多分点任务给他，让他多数几个书架；摸鱼太久的，叫到办公室批评教育洗洗脑，重新分配任务从头数；累傻累晕的直接拖出去，招个新人进来顶岗……

老板JobTracer会把任务情况写在公司门口的大白板上，比如任务地点在哪，公司派出多少人，行政线是谁，技术线可调度人员多少，相互怎么配合等等，这个白板叫做Configuration；然后任务（Job类）执行路线会写在一个叫Grep的红头文件里面，安排秘书ToolRunner下发。这个Tool红头文件其实是一个有格式的工单，规定了开展工作必须的要素（Job类——工作内容，Configured接口——执行工作内容需要的附件，也就是白板上的内容，Tool接口——秘书用这个接口签字下发）。JobTracer和TaskTracer会按照这个文件精神督促搬砖的干活。

当然，光靠学习文件精神是没法把活干起来的，所以Mapper和Reducer们还需要工作文档来记录工作内容，这个文档叫做Context，Mapper和Reducer都会管理和使用。

哦，对了。为了防止搬砖的对任务理解不一致，Tool文件中规定了任务的输入输出格式，分别叫做InputFormat和OutputFormat。如果遇到任何与规定不符的输入，Mapper和Reducer会拒绝干活，毕竟输入错了责任在输出方，自己傻不愣登接着往下干，责任就说不清，锅就被自己背上了

        ：P

嗯，大公司就有大公司的道理，看起来很简单的事情，真要招一群人来做，其实就没那么简单了。上面这一段看起来就比较复杂，但其实HR部门（Yarn）还没考虑进来。如果公司的业务比数书架要复杂得多，那可能还得有个规划办（ZooKeeper）。

        二、MapReduce主要组件梳理

上面我们大概了解了一下MapReduce公司的组织架构和各部门的职能分工，接着就从代码的角度挨个梳理：

1.Configuration
```
 1 package org.apache.hadoop.conf;
 2 
 3 /** Base class for things that may be configured with a {@link Configuration}. */
 4 public class Configured implements Configurable {
 5 
 6   private Configuration conf;
 7 
 8   /** Construct a Configured. */
 9   public Configured() {
10     this(null);
11   }
12   
13   /** Construct a Configured. */
14   public Configured(Configuration conf) {
15     setConf(conf);
16   }
17 
18   // inherit javadoc
19   public void setConf(Configuration conf) {
20     this.conf = conf;
21   }
22 
23   // inherit javadoc
24   public Configuration getConf() {
25     return conf;
26   }
27 
28 }
```
Hadoop集群环境配置需要设置4个xml文件，因为之前我们只安装了Single Node版本，所以还没涉及到这一块。不过在官方的Cluster Setup指南里，是如下图这般说的——Site-specific configuration那一行。

Hadoop使用了Configuration类来维护管理这些xml文件中的配置信息。Configuration源代码中一段描述指出了这个事实：
```
/*
 * Unless explicitly turned off, Hadoop by default specifies two 
 * resources, loaded in-order from the classpath: 
 * 
```
*
* core-default.xml: Read-only defaults for hadoop.

Public class Configured implements Configurable{ Private Configuration conf; Public Configured(Configuration conf){setConf(conf);}//构造方法 Public void setConf(Configuration conf) { This.conf=conf; } Public getConf() { Return conf; } }

public class MyApp extends Configured implements Tool { public int run(String[] args) throws Exception { Configuration conf = getConf();//获取Hadoop环境 JobConf Job = new JobConf(conf,MyApp.class);//构建MR环境 Path in = new Path(args[1]) Path out = new Path(args[2]) //设置MapReduce任务 Job.setJobName(“my-app”); Job.setInputPath(in); //该方法并不存在，可能是伪代码 Job.setOutputPath(out); //该方法并不存在，可能是伪代码 Job.setMapperClass(MyMapper.class) Job.setReducerClass(MyReducer.class) //提交MapReduce任务并等待结束 RunningJob runningJob = JobClient.runJob(Job); if(runningJob.isSuccessful())return 0; else return 1; } public static void main(String[] args) throws Exception{ //新建Hadoop环境，新建MR任务，并使用ToolRunner启动 int res = ToolRunner.run(new Configuration(),new MyApp(),args); system.exit(res); } }

//设置并构置Hadoop环境 Configuration conf = getConf(); Job grepJob = Job.getInstance(conf); grepJob.setJobName("grep-search"); grepJob.setJarByClass(Grep.class); //配置MapReduce环境和任务 FileInputFormat.setInputPaths(grepJob, args[0]); grepJob.setMapperClass(RegexMapper.class); grepJob.setCombinerClass(LongSumReducer.class); grepJob.setReducerClass(LongSumReducer.class); FileOutputFormat.setOutputPath(grepJob, tempDir); grepJob.setOutputFormatClass(SequenceFileOutputFormat.class); grepJob.setOutputKeyClass(Text.class); grepJob.setOutputValueClass(LongWritable.class); //启动并等待任务 grepJob.waitForCompletion(true);

public class ToolRunner { public static int run(Configuration conf, Tool tool, String[] args) throws Exception{ if(conf == null) { conf = new Configuration(); } GenericOptionsParser parser = new GenericOptionsParser(conf, args); //set the configuration back, so that Tool can configure itself tool.setConf(conf) String[] toolArgs = parser.getRemainingArgs(); return tool.run(toolArgs); } public static int run(Tool tool, String[] args) throws Exception{ return run(tool.getConf(), tool, args); } public static void printGenericCommandUsage(PrintStream out) { GenericOptionsParser.printGenericCommandUsage(out); } }

{ setup(context); try { while (context.nextKeyValue()) { map(context.getCurrentKey(), context.getCurrentValue(), context); } } finally { cleanup(context); } }

一、MapReduce的执行逻辑

二、MapReduce主要组件梳理

1.Configuration

2.Configurable接口和Configured类

3.Tool接口

4.Grep类

5.ToolRunner类

6.RegexMapper

7.TextInputFormat/FileInputFormat/InputFormat

8.LineRecordReader/RecordReader

9.MapReduce的mapper的总体执行流程