• Spark本地环境搭建(local模式)



    原创申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址
    全文共计2772字,阅读大概需要3分钟
    欢迎关注我的个人公众号:不懂开发的程序猿

    1. 实验室名称:

    大数据实验教学系统

    2. 实验项目名称:

    Spark本地环境搭建(local模式)

    3. 实验学时:

    4. 实验原理:

    spark有以下几种运行模式,每种运行模式都有自己不同的优点和长处。

    nameValue
    • local(本地模式)常用于本地开发测试,本地还分为local单线程和local-cluster多线程;
    • standalone(集群模式)典型的Mater/slave模式,Master可能有单点故障的;Spark支持ZooKeeper来实现 HA。
    • on yarn(集群模式)运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算。
    • on mesos(集群模式)运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算。

    5. 实验目的:

    了解Spark不同安装包之间的区别
      安装和配置Spark环境(本地模式)
      测试Spark安装是否成功。

    6. 实验内容:

    1、安装和配置Spark环境(本地模式)
      2、测试Spark。

    7. 实验器材(设备、虚拟机名称):

    硬件:x86_64 ubuntu 16.04服务器
      软件:JDK1.8,Spark-2.3.2,Hadoop-2.7.3
      在本实验环境中,Spark安装包位于以下位置:/data/software/spark-2.3.2-bin-hadoop2.7.tgz
      在本实验环境中,JDK已安装在以下位置:/opt/jdk
      在本实验环境中,Hadoop已安装在以下位置:/opt/hadoop器

    8. 实验步骤:

    8.1 验证是否已经正确地安装了JDK

    Spark程序运行在JVM之上,因此在安装Spark之前,要确保已经安装了JDK 8,并正确配置了环境变量。
      启动一个终端窗口,键入如下的命令:

    1.	$ java -version
    2.	$ javac -version
    
    • 1
    • 2

    如果在终端窗口中输出了JDK的版本号,说明已经安装好了JDK并正确配置了环境变量。否则,在继续后面的步骤之前,请先安装JDK并配置好环境变量。

    8.2 安装Spark

    请按以下步骤操作:
      1. 将安装包解压缩到/data/bigdata/目录下,并改名为spark-2.3.2。打开终端窗口,执行以下命令:

    1.	$ cd /data/bigdata
    2.	$ tar xvf /data/software/spark-2.3.2-bin-hadoop2.7.tgz
    3.	$ mv spark-2.3.2-bin-hadoop2.7 spark-2.3.2
    
    • 1
    • 2
    • 3

    2. 配置系统环境变量。在终端窗口中,执行以下命令:

    1.	$ cd
    2.	$ vim /etc/profile
    
    • 1
    • 2

    在打开的文件最后,添加如下内容:

    1.	export SPARK_HOME=/data/bigdata/spark-2.3.2
    2.	export PATH=$SPARK_HOME/bin:$PATH
    
    • 1
    • 2

    然后保存文件并关闭。
      2. 执行/etc/profile文件使得配置生效。在终端窗口中,执行以下命令:

    1.	$ source /etc/profile
    
    • 1

    8.3 设置spark运行环境和配置参数

    1. 在终端窗口中,执行如下的命令,进入到Spark的conf目录下:

    1.	$ cd /data/bigdata/spark-2.3.2/conf
    
    • 1

    2. 打开spark-env.sh文件配置(默认没有,需拷贝模板文件并改名)。在终端窗口中,执行以下命令:

    1.	$ cp spark-env.sh.template spark-env.sh
    2.	$ vim spark-env.sh
    
    • 1
    • 2

    3. 在打开的spark-env.sh文件中,加入以下内容,并保存:

    1.	export JAVA_HOME=/opt/jdk
    2.	export HADOOP_CONF_DIR=/opt/hadoop-2.7.3/etc/hadoop
    3.	export SPARK_DIST_CLASSPATH=$(/opt/hadoop-2.7.3/bin/hadoop classpath)
    
    • 1
    • 2
    • 3

    8.4 测试spark是否安装正确

    Spark本地模式安装时,配置完成后就可以直接使用,不需要像Hadoop运行启动命令。
      如果Spark不使用HDFS和YARN,那么就不用启动Hadoop也可以正常使用Spark。如果在使用Spark的过程中需要用到 HDFS,就要首先启动 Hadoop/HDFS
      接下来,我们通过运行Spark自带的示例程序,来验证Spark是否安装成功。在终端窗口中,执行以下命令:

    1.	$ cd /data/bigdata/spark-2.3.2
    2.	$ ./bin/run-example SparkPi
    
    • 1
    • 2

    同时按下Shift+Enter,执行以上代码。执行时会输出很多运行信息,从中可以找到如下的输出结果:

    Pi is roughly 3.140675703378517
    
    • 1

    由以上输出内容可以看出,我们的Spark本地模式环境搭建成功。

    9. 实验结果及分析:

    实验结果运行准确,无误

    10. 实验结论:

    经过本节实验的学习,通过学习Scala词频统计,进一步巩固了我们的scala基础。

    11. 总结及心得体会:

    Spark 本地模式(local模式):常用于本地开发测试。
      在安装Spark之前,要确保已经安装了JDK 8并正确地配置了环境变量。
      另外需要在Spark的conf/spark-env.sh文件中配置HADOOP_CONF_DIR和SPARK_DIST_CLASSPATH。有了这些配置信息以后,Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据。如果没有配置这些信息,那么Spark就只能读写本地数据,无法读写HDFS数据。

    12、实验知识测试

    1.Spark 支持的分布式部署方式中哪个是错误的 ( D )
    • A.standalone
    • B.spark on mesos
    • C.spark on YARN
    • D.Spark on local

    13、实验拓展

    用自己的语言描述standalone、spark on YARN、Spark on local各个部署的区别和要求?

    在这里插入图片描述

  • 相关阅读:
    我国农业科学数据共享协议
    nginx配置文件详解
    Python 如何使用 csv、openpyxl 库进行读写 Excel 文件详细教程(更新中)
    nginx的location指令(实战示例、匹配顺序、匹配冲突)
    记一次 .NET 某企业内部系统 崩溃分析
    GIS之深度学习03:Anaconda无法正常启动问题汇总(更新)
    Java:如何加速Java中的大型集合处理
    OPC UA协议基础
    [附源码]java毕业设计小说网站的设计与实现1
    thinkphp5 URL和路由的功能详解与实例
  • 原文地址:https://blog.csdn.net/qq_44807756/article/details/125551698