Hadoop提交MR任务

MR作为Hadoop自带的计算框架所运行的任务，它本身通过hadoop jar提交

hadoop jar mr任务jar包路径 你要运行的类的全限定名 后面就是你需要传的参数

但是有些时候你需要显示的修改指定这个任务运行时所用的资源数，就可以通过下面的命令指令

hadoop jar your-hadoop-job.jar com.example.YourJobDriver \
    -D mapreduce.map.memory.mb=2048 \
    -D mapreduce.map.java.opts=-Xmx1638m \
    -D mapreduce.reduce.memory.mb=4096 \
    -D mapreduce.reduce.java.opts=-Xmx3276m \
    -D mapreduce.job.inputdir=/path/to/input/data \
    -D mapreduce.job.outputdir=/path/to/output/directory \
    arg1 arg2 arg3

your-hadoop-job.jar 是你的Hadoop作业的JAR文件。
com.example.YourJobDriver 是你的作业驱动程序的完全限定类名。
-D 选项用于设置Hadoop配置参数。
mapreduce.map.memory.mb=2048 设置每个Map任务的内存为2048MB。
mapreduce.map.java.opts=-Xmx1638m 这个是设置Map任务暂用JVM堆内存大小为1638MB（留一些内存给JVM进程本身）。
mapreduce.reduce.memory.mb=4096 设置每个Reduce任务的内存为4096MB。
mapreduce.reduce.java.opts=-Xmx3276m 设置Reduce任务的JVM堆内存大小为3276MB。
-D mapreduce.job.inputdir=/path/to/input/data 设置输入目录。
-D mapreduce.job.outputdir=/path/to/output/directory 设置输出目录。注意，这个目录在作业运行前应该不存在，因为Hadoop会尝试创建它。
arg1 arg2 arg3 是传递给main方法的参数。

注意，上面通过-d来指定参数的方式，只能指定作业的通用配置，而那些详细的，比如你要用多少个map？在你的MapReduce作业代码中，你可以通过调用job.setNumMapTasks(int num)来设置Map任务的个数。这个num参数就是你想要的Map任务的数量。reduce个数也是一样的通过job.setNumReduceTasks(5)修改。以及如果你想要大概的控制任务所用到的总资源，那还要配和集群的配置文件完成。所以，在控制资源上MR任务本身就比较麻烦，不像其他的框架提交yarn那样可以直接指定运行资源

相关阅读:
解决 Spark2.X 查询Hive分区表修改后的字段为null？
一种基于Redis时间和权重关联的分布式优先级队列方法
【MVP争夺战】python实现-附ChatGPT解析
b站黑马JavaScript的Ajax案例代码——新闻列表案例
408-2012真题
5. 堪比JMeter的.Net压测工具 - Crank 实战篇 - 接口以及场景压测
python制作小游戏之二2048第二部分
PromptScript：轻量级 DSL 脚本，加速多样化的 LLM 测试与验证
1、CsvHelper使用小记一
cpu设计和实现（数据访问）

原文地址：https://blog.csdn.net/dudadudadd/article/details/139680317