Mapreduce编程

1. MapReduce核心思想

（1）分布式的运算程序往往需要分成只少2个阶段

（2）第一个阶段的MapTask并发实例。完全并行运行，互补相干

（3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。

（4）MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，只能多个MapReduce程序，串行运行。

一个完整的MapReduce程序在分布式运行时有三类实例进程

（1）MrAppMaster：复制整个程序的过程调度及状态协调

（2）MapTask：负责Map阶段的整个数据处理流程

（3）ReduceTask：负责Reduce阶段的整个数据处理流程

用户编写的程序分成三个部分：Mapper、Reduce和Driver

1.Mapper阶段：

（1）用户自定义的Mapper要继承自己的父类

（2）Mapper的数据数据是KV对的形式（KV的类型可自定义）

（3）Mapper中的业务逻辑写在map()方法中

（4）Mapper的输出数据是KV对的形式（KV的类型可自定义）

（5）map()方法（MapTask进程）对每一个调用一次

2. Reduce阶段

（1）用户自定义的Reduce要继承自己的父类

（2）Reducer的输入数据类型对应Mapper的输出数据类型，也是KV

（3）Reducer的业务逻辑写在reduce()方法中

（4）ReduceTask进程对每一组相同的k的组调用一次reduce()方法

3.Driver阶段

相当于YARN集群的客户端，用于提交我们整个程序到YARN 集群，提交的是封装了MapReduce程序相关运行参数的job对象

相关阅读:
关于如何检查一个进程是否存活
2023 牛客国庆day4 【10.2训练补题】
绑定样式--class样式（字符串法、对象法、数组法）、style样式（直接绑定法、对象法、数组法）
kubeadm重新拉取集群的方式
ICLR24大模型提示(1/11) | BadChain：大型语言模型的后门思维链提示
【MySQL系列】MySQL的事务管理的学习（二）_ 再次理解隔离性
使用$indesStats查看索引使用情况
leetcode 热题 100_合并两个有序链表
『忘了再学』Shell流程控制 — 35、多分支case条件语句
Java项目：SSM校园班级同学通讯录管理系统

原文地址：https://blog.csdn.net/weixin_44216665/article/details/126317623