• Spark集群安装


    一、概念

    • Spark是一个用于大规模数据处理的统一计算引擎,Spark是一个基于内存的计算引擎。
    • Spark生态系统包括Spark SQL、Spark Core、Spark Stream、MLIib、GraphX及独立调度器
    • Spark部署模式分为Local模式、Standalone模式(集群单机模式)、Yarn模式
    • yarn模式把spark作为一个客户端,将作业提交给yarn服务,由于在生产环境中,很多时候要和hadoop使用同一个集群,因此采用yarn来管理资源调度,可以有效提高资源利用率

    二、解压并修改配置文件

    2.1 上传解压安装包

    把spark-2.4.3-bin-hadoop2.7.tgz   上传到/data/soft目录下进行解压 :

    进行解压 :tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz

    其中安装包:链接:https://pan.baidu.com/s/1QzVN_mjvs-Cq6jcWCqTS0A?pwd=plz2 
    提取码:plz2 

    2.2 修改spark-env.sh配置文件

    cp spark-env.sh.template spark-env.sh  并在文件中添加如下内容

    三、使用 spark-submit 启动应用程序

    捆绑用户应用程序后,可以使用bin/spark-submit脚本启动。此脚本负责使用Spark及其依赖关系设置类路径,并可支持Spark支持的不同群集管理器和部署模式:

    bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn  /data/soft/spark-2.4.3-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.3.jar 2

    运行结果

    四、 启动命令解析

    1. # Run on a Spark standalone cluster in client deploy mode
    2. ./bin/spark-submit \
    3. --class org.apache.spark.examples.SparkPi \
    4. --master spark://207.184.161.138:7077 \
    5. --executor-memory 20G \
    6. --total-executor-cores 100 \
    7. /path/to/examples.jar \
    8. 1000
    1. # Run on a YARN cluster
    2. export HADOOP_CONF_DIR=XXX
    3. ./bin/spark-submit \
    4. --class org.apache.spark.examples.SparkPi \
    5. --master yarn \
    6. --deploy-mode cluster \ # can be client for client mode
    7. --executor-memory 20G \
    8. --num-executors 50 \
    9. /path/to/examples.jar \
    10. 1000
    • --class:应用程序的入口点,main函数所在的类(例org.apache.spark.examples.SparkPi
    • --master:群集的主网址(例如spark://23.195.26.187:7077
    • --executor-memory 指定每个executor的可用内存
    • --total-executor-cores 指定每个executor使用的CPU核心数
    • --deploy-mode:是否将驱动程序部署在工作节点(cluster)上,或作为外部客户机(client)本地部署(默认值:client
    • --application-jar: 包含您的应用程序和所有依赖项的捆绑 jar 的路径。URL 必须在集群内全局可见,例如,hdfs://路径或file://所有节点上都存在的路径。
    • --application-arguments: 传递给你的主类的主方法的参数,如果有的话,比如:1000

    五、启动异常处理

    异常: ERROR yarn.Client: Failed to contact YARN for application application_1660522349699_0007.

     解决:在spark-env.sh中指定

    export YARN_CONF_DIR=/data/soft/hadoop-3.2.0/etc/hadoop

  • 相关阅读:
    基础MySQL的语法练习
    还没弄明白微服务数据架构事务管理+ACID+一致性+CAP+BASE理论吗,看完彻底解决疑惑
    linux-磁盘应用
    多旋翼无人机仿真 rotors_simulator:基于PID控制器的速度控制
    如何成为开源组件库NutUI的contributor:解决issue并提交PR
    Supervisor进程管理
    怒刷LeetCode的第25天(Java版)
    【零基础学Python】后端开发篇 第二十一节--Python Web开发二:Django的安装和运行
    Spring bean的生命周期
    Redis原理再学习04:数据结构-哈希表hash表(dict字典)
  • 原文地址:https://blog.csdn.net/libaowen609/article/details/126378634