#具体环境变量根据自己系统来设定
HADOOP_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop
YARN_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop
# --deploy-mode 选项是指定部署模式, 默认是 客户端模式
# client就是客户端模式
# cluster就是集群模式
# --deploy-mode 仅可以用在YARN模式下
bin/pyspark --master yarn --deploy-mode client|cluster
我们可以在Yarn资源管理界面中查看这个任务,输入http://node1:8088
sc.parallelize([1,2,3,4,5]).map(lambda x: 2*x+1).collect()
如何查看子任务
输入node1:4040或点击如下图所示即可进入任务界面
退出pyspark之后yarn程序状态显示FINISHED
spark-submit提交到Yarn中,使用以下命令:
bin/spark-submit --master yarn /export/server/spark-3.2.0/examples/src/main/python/pi.py 100