• MapReduce的编程开发-合并


    第1关:MapReduce的编程开发-合并

    任务描述
    本关任务:根据课程信息数据、学生信息数据与学员成绩数据,编写 MapReduce 程序来将三个数据文件合并为一个文件。

    相关知识
    合并概述
    合并是 MapReduce 最为常见的操作,将多个文件合并为一个文件或者将多个文件进行连接操作,最终返回一个文件。使用 map 端合并或者使用 reduce 端合并都是可以进行合并操作。

    使用 map 端合并,先在 setup() 方法中读取文件,循环读取文件内容并切割,将切割后的数据存入集合中,在 map 方法中获取文件内容并切割,通过切割后的数据去匹配集合中的数据,达到替换操作。

    使用 reduce 端合并,在 map 方法中读取数据,通过不同文件将数据标明 key 值传入 reduce 端,reduce 通过 key 值不同去处理数据,将需要匹配的到的数据放入集合中,需要转换的数据匹配集合中的数据,达到替换操作。这种方式中,合并的操作是在 reduce 阶段完成,reduce 端的处理压力太大,map 节点的运算负载则很低,资源利用率不高,且在reduce阶段极易产生数据倾斜

    数据文件格式说明
    这是编程中用到的数据,为 txt 格式,文件名score.txt、student.txt、course.txt。
    数据文件位置:/data/workspace/myshixun/data
    学生信息文件student.txt前几行示例如下:

    3108001,wang min,21,f,computer-tec,zhongshan road,jiangsu
    3108002,jidu,20,m,engli

  • 相关阅读:
    3.02_python+Django+mysql实现pdf转word项目_项目部署-Apache下载安装
    加强堆结构说明
    springboot远程执行服务器指令
    链表经典面试题(二)
    docker登陆mysql,密码正确却提示错误
    网络编程(七)网络超时检测
    Linux01(VM)
    httpsok-v1.13.0支持nginx证书部署管理
    支持JDK19虚拟线程的web框架,之一:体验
    Vue3 Composition API(案例)
  • 原文地址:https://blog.csdn.net/Junds0/article/details/127954740