把spark-2.4.3-bin-hadoop2.7.tgz 上传到/data/soft目录下进行解压 :
进行解压 :tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz
其中安装包:链接:https://pan.baidu.com/s/1QzVN_mjvs-Cq6jcWCqTS0A?pwd=plz2
提取码:plz2
cp spark-env.sh.template spark-env.sh 并在文件中添加如下内容
捆绑用户应用程序后,可以使用bin/spark-submit
脚本启动。此脚本负责使用Spark及其依赖关系设置类路径,并可支持Spark支持的不同群集管理器和部署模式:
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn /data/soft/spark-2.4.3-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.3.jar 2
运行结果
- # Run on a Spark standalone cluster in client deploy mode
- ./bin/spark-submit \
- --class org.apache.spark.examples.SparkPi \
- --master spark://207.184.161.138:7077 \
- --executor-memory 20G \
- --total-executor-cores 100 \
- /path/to/examples.jar \
- 1000
- # Run on a YARN cluster
- export HADOOP_CONF_DIR=XXX
- ./bin/spark-submit \
- --class org.apache.spark.examples.SparkPi \
- --master yarn \
- --deploy-mode cluster \ # can be client for client mode
- --executor-memory 20G \
- --num-executors 50 \
- /path/to/examples.jar \
- 1000
--class
:应用程序的入口点,main函数所在的类(例org.apache.spark.examples.SparkPi
)--master
:群集的主网址(例如spark://23.195.26.187:7077
)--
executor-memory 指定每个executor的可用内存
--
total-executor-cores 指定每个executor使用的CPU核心数--deploy-mode
:是否将驱动程序部署在工作节点(cluster
)上,或作为外部客户机(client
)本地部署(默认值:client
)--application-jar
: 包含您的应用程序和所有依赖项的捆绑 jar 的路径。URL 必须在集群内全局可见,例如,hdfs://
路径或file://
所有节点上都存在的路径。--application-arguments
: 传递给你的主类的主方法的参数,如果有的话,比如:1000异常: ERROR yarn.Client: Failed to contact YARN for application application_1660522349699_0007.
解决:在spark-env.sh中指定
export YARN_CONF_DIR=/data/soft/hadoop-3.2.0/etc/hadoop