码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 云计算 - 4 - Spark的安装与应用


    云计算 - 4 - Spark的安装与应用

      • 目标
      • Spark 的安装:
        • 1、下载配置 Scala
          • 1.1 下载 Scala
          • 1.2 配置 Scala 的路径
          • 1.3 测试 Scala 是否安装完成
        • 2、下载配置Spark
          • 2.1 下载Spark
          • 2.2 配置 Spark 的路径
          • 2.3 修改 Spark 的配置文件
        • 3、将文件复制到子节点
        • 4、启动Spark
        • 5、测试Spark
          • 5.1 创建测试文件
          • 5.2 运行 WordCount 程序,得到结果
      • Spark 的应用:
        • 1、计算 pagerank
          • 1.1 进入 spark-shell 交互式环境
          • 1.2 编写程序
          • 1.3 记录结果
        • 2、WordCount
          • 2.1 编写测试文件
          • 2.2 进入 spark-shell 交互式环境
          • 2.3 输入 WordCount 程序
          • 2.4 记录结果


    目标

    实现 Linux 中 Spark 的安装与应用。

    Spark 的安装:

    1、下载配置 Scala

    1.1 下载 Scala

    创建文件夹 scala 用于安装 scala,通过 wget 下载 tar 包,然后解包安装 scala。
    wget https://downloads.lightbend.com/scala/2.10.7/scala-2.10.7.tgz
    在这里插入图片描述
    tar -zxvf scala-2.10.7.taz
    在这里插入图片描述

    1.2 配置 Scala 的路径

    通过修改 .bash_profile 文件来配置 Scala 路径,并使用 source 命令使其生效。
    在这里插入图片描述
    在这里插入图片描述

    1.3 测试 Scala 是否安装完成

    使用 scala -version 命令,若能正常显示,即说明安装配置成功。

    在这里插入图片描述

    2、下载配置Spark

    2.1 下载Spark

    类似于 Scala 的下载安装方式,同样使用 wget 下载 tar 包,然后解包,安装 Spark。
    因下载时间过长,后面改为导入 tar 包安装。
    wget https://archive.apache.org/dist/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz
    在这里插入图片描述
    tar -zvxf spark-1.6.1-bin-hadoop2.6.tgz
    在这里插入图片描述

    2.2 配置 Spark 的路径

    通过修改 .bash_profile 文件来配置 Spark 路径,并使用 source 命令使其生效
    在这里插入图片描述
    在这里插入图片描述

    2.3 修改 Spark 的配置文件

    进入spark 的安装目录,转到 conf 目录中,创建并修改 slaves 文件,默认数据节点改为 DataNode-1

    cd conf/
    mv slaves.template slaves
    vi slaves
    
    • 1
    • 2
    • 3

    在这里插入图片描述

    mv spark-env.sh.template spark-env.sh
    vi	spark-env.sh
    
    • 1
    • 2

    在这里插入图片描述

    3、将文件复制到子节点

    scp -r /home/spark/spark-1.6.1-bin-hadoop2.6 root@DataNode-1:/home/spark/
    scp -r /home/scala/scala-2.10.7 root@DataNode-1:/home/scala/
    scp ~/.bash_profile root@DataNode-1:~/.bash_profile
    
    • 1
    • 2
    • 3

    在这里插入图片描述
    在这里插入图片描述

    4、启动Spark

    在这里插入图片描述

    5、测试Spark

    运行 spark 自带的 wordcount 程序进行测试

    5.1 创建测试文件

    创建一个 .txt 文件,输入一些字符,传入 HDFS 文件系统作为测试
    在这里插入图片描述

    5.2 运行 WordCount 程序,得到结果
    /home/spark/spark-1.6.1-bin-hadoop2.6/bin/run-exampleorg.apache.spark.examples.JavaWordCount hdfs://NameNode-1:9000/test111.txt
    
    • 1

    在这里插入图片描述

    Spark 的应用:

    1、计算 pagerank

    1.1 进入 spark-shell 交互式环境

    在这里插入图片描述

    1.2 编写程序

    输入pagerank计算程序,如下:

    import org.apache.spark.HashPartitioner
     
    val links = sc.parallelize(List(("A",List("B","C")),("B",List("A","C")),("C",List("A","B", "D")),("D",List("C")))).partitionBy(new HashPartitioner(100)).persist()
     
    var ranks=links.mapValues(v=>1.0)
     
    for (i <- 0 until 10) {
    val contributions=links.join(ranks).flatMap {
    case (pageId,(links,rank)) => links.map(dest=>(dest,rank/links.size))
    }
    ranks=contributions.reduceByKey((x,y)=>x+y).mapValues(v=>0.15+0.85*v)
    }
     
    ranks.sortByKey().collect()
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    1.3 记录结果

    运行程序,查看结果。
    在这里插入图片描述
    即:

    (A,0.9850243302878132), 
    (B,0.9850243302878132), 
    (C,1.4621033282930214), 
    (D,0.5678480111313515)
    
    • 1
    • 2
    • 3
    • 4

    符合预期。

    2、WordCount

    2.1 编写测试文件

    编写一个 .txt 文件作为 WordCount 的输入,传入 hdfs 文件系统中。
    在这里插入图片描述

    2.2 进入 spark-shell 交互式环境

    同上一步 pagerank 1.1 中,进入 spark-shell 交互式环境。

    2.3 输入 WordCount 程序
    var input = sc.textFile("/NOTICE.txt")
    input.flatMap(x=>x.split(" ")).countByValue()
    
    • 1
    • 2

    在这里插入图片描述

    2.4 记录结果

    运行程序,查看结果。
    在这里插入图片描述
    即:world -> 2, a -> 1, java -> 2, b -> 1, python -> 2, c -> 1, hello -> 2, d -> 1
    符合预期。

  • 相关阅读:
    跨境流量新入口Discord,如何利用他进行海外营销?
    CCAA 认证通用基础卷之(一)合格评定基础 第二章合格评定与国家质量基础设施 NQI (National Quality Infrastructure)
    使用持久卷部署 WordPress 和 MySQL
    LeetCode刷题---简单组(四)
    Linux —— 线程
    多叉树组合运算(未完待续)
    centos安装kingbase(人大进仓)数据库
    NEFTune: 通过简单的噪声提升指令精调效果
    Vue太难啦!从入门到放弃day02——vue常用特性
    规则引擎Drools使用,0基础入门规则引擎Drools(一)基础入门
  • 原文地址:https://blog.csdn.net/qq_45438600/article/details/127826306
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号