码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 《大数据:互联网大规模数据挖掘与分布式处理》(第2版)习题2.2.1解析


    《大数据:互联网大规模数据挖掘与分布式处理》(第2版)习题2.2.1解析

    • 互联网大规模数据挖掘与分布式处理(第2版)习题6.1.1-6.1.3解析
    • 问题描述
    • MapReduce经典案例
    • 解答
      • 第一问
      • 第二问
      • 第三问

    互联网大规模数据挖掘与分布式处理(第2版)习题6.1.1-6.1.3解析

    电子科技大学课程《大数据分析与挖掘》(2022秋)第一次作业。

    问题描述

    在这里插入图片描述

    MapReduce经典案例

    经典案例

    解答

    第一问

    不同的Reducer的时间差异会很大,因为在Map任务中不使用组合器的话,所有Map任务的输出都是键-值对:(w1,1), (w2,1),…,(wn,1),在Shuffle操作后,相同键的键-值对完成分区,排序、分组后作为中间文件成为Reduce任务的输入,通常来说不同键的值表大小差距很大(频繁词汇和冷门词汇),导致不同的Reducer的时间差异会很大。

    第二问

    如果将Reducer组合成随机的10个任务,时间差距不会十分显著,因为通过使用比Reducer数目更少的Reduce任务,可以减少偏斜性(skew)带来的影响。通过使用比计算节点数目更多的Reduce任务,可以进一步减少偏斜性(skew),在这种情况下,长的Reduce任务可能占满某个计算节点,而几个更短的Reduce任务可以在单个计算节点上串行运行;而如果将Reducer组合成10000个Reduce任务,首先,增加Reduce任务数目会增加整个框架的开销,其次,每一个Reduce任务都要对应一个中间文件,这也会增加存储空间的开销,最后,通常来说不同键的值表大小差距很大,如果每一个Reducer都用一个单独的Reduce任务来完成,那么任务本身会表现出偏斜性(skew),即任务的完成时间差异很大。

    第三问

    假设我们在100个Map任务中使用组合器,那么上述时间的差异不会很显著。因为我们在对键-值对(w1,1), (w2,1),…,(wn,1)进行分组和聚合之前就应用了Reduce函数,单个Map任务产生的包含键w的键-值对可以组合成一个对(w,m),其中m为w在该Map任务所处理文档集中的出现次数。由此可见,组合器通过减少需要发送到Reduce的数据量和所需时间来帮助提高MapReduce的效率。

  • 相关阅读:
    再探格林公式、斯托克斯公式、高斯公式
    redo丢失的各种情况处理
    损失函数-交叉熵的原理及实现
    小编闲谈——刷题网站
    KBP310-ASEMI开关电源整流桥KBP310
    【Meetup预告】OpenMLDB+OneFlow:链接特征工程到模型训练,加速机器学习模型开发
    护眼灯亮度多少合适?2023最专业的护眼灯品牌推荐
    【测试开发】几种常见的自动化测试框架
    网络协议:TCP/IP协议
    [Angular 基础] - routing 路由(上)
  • 原文地址:https://blog.csdn.net/ProgramNovice/article/details/126821718
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号