码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 比较 Spark 和 MapReduce 执行迭代应用Pagerank的性能差异


    1. 设计思路

    a) MapReduce 执行迭代计算过程中会反复读写 HDFS,因此可以在 HDFS 中观察到每一轮迭代的输出结果。
    b) MapReduce 会提交一系列的作业,而 spark 仅有一个应用,在 Yarn 的 UI 显示会不一样。
    c) 对于同样规模的数据集,spark 执行时间应当更短。

    2. 实验设置

    1)Ubuntu18.04、jdk1.8、云主机、IDEA2020.3.4
    2) Hadoop2.10.1、Spark2.4.7、Scala2.11.12
    3) 数据集:web-google.txt;因为数据集太大了,换成了 mini-web-google.txt,一共有十个结点,并做了一些改动 page.txt
    4) 迭代次数:20
    5) 阻尼系数:0.85

    3.实验过程

    1、编写一个 PageRank 应用,观察 HDFS 中的文件。
    2、分别基于 MapReduce 和 Spark 编写一个 PageRank 应用,并通过 Yarn 进行提交,观察 Yarn 界面的区别。
    3、针对改进的 min-web-google 数据集,分别在 MapReduce 和 Spark 中运行,统计二者的运行时间,并绘制成图表。

    4.代码

    1、MapReduce
    PageRankMapper.java

    package 
    • 相关阅读:
      金仓KFS数据双向同步场景部署
      C语⾔内存函数
      智能合约编写高级篇(二)区块哈希介绍
      exploit-db图文教程
      elementUI 常遇问题
      如何将前后端分离项目部署到本地的Docker Desktop容器运行并且访问
      【附源码】计算机毕业设计JAVA校园绿化管理系统
      基于4G智能网关的野外光伏逆变器数据采集方案
      空气温湿度、光照度、二氧化碳传感器
      RedisTemplate出现\xac\xed\x00\x05t\x00\x0f前缀解决
    • 原文地址:https://blog.csdn.net/weixin_45975575/article/details/125446602
    • 最新文章
    • 攻防演习之三天拿下官网站群
      数据安全治理学习——前期安全规划和安全管理体系建设
      企业安全 | 企业内一次钓鱼演练准备过程
      内网渗透测试 | Kerberos协议及其部分攻击手法
      0day的产生 | 不懂代码的"代码审计"
      安装scrcpy-client模块av模块异常,环境问题解决方案
      leetcode hot100【LeetCode 279. 完全平方数】java实现
      OpenWrt下安装Mosquitto
      AnatoMask论文汇总
      【AI日记】24.11.01 LangChain、openai api和github copilot
    • 热门文章
    • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
      奉劝各位学弟学妹们,该打造你的技术影响力了!
      五年了,我在 CSDN 的两个一百万。
      Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
      面试官都震惊,你这网络基础可以啊!
      你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
      心情不好的时候,用 Python 画棵樱花树送给自己吧
      通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
      13 万字 C 语言从入门到精通保姆级教程2021 年版
      10行代码集2000张美女图,Python爬虫120例,再上征途
    Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
    正则表达式工具 cron表达式工具 密码生成工具

    京公网安备 11010502049817号