前提是要安装好hadoop集群+spark集群,参考地址Ubuntu安装hadoop集群 hive spark scala_ROBOT玲玉的博客-CSDN博客
下载Anaconda3-2021.05-Linux-x86_64.sh
下载地址:https://repo.anaconda.com/archive/index.html
执行命令:bash Anaconda3-2021.05-Linux-x86_64.sh -b
设置环境变量 vi /etc/profile,添加如下
#anaconda3
export PATH=/home/cyuser/anaconda3/bin:$PATH
export ANACONDA_PATH=/home/cyuser/anaconda3
export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython
export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python
生效环境变量source /etc/profile
注意:三个节点的服务器均要进行以上设置
验证设置是否成功
执行python –version
注意:有时环境变量设置不成功,也能显示python版本,要进入到如下目录,执行./python --version确定一下,版本是否一致
修改jupyter_notebook_config.py
添加如下:c.NotebookApp.ip='server1'
说明:其中server1表示的为服务器的名称
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
测试:访问地址http://server1:8888/
新建python文件
打开python文件,执行如下:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("yarn").enableHiveSupport().appName("Correlation").getOrCreate()
#日志输出级别
spark.sparkContext.setLogLevel("Error")
f=spark.sparkContext.textFile("hdfs://server1:9000/input/test.txt")
f.count()
spark.sparkContext.master
说明:输出local[*]表示此时的spark运行模式
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" SPARK_HOME=/home/cyuser/spark-3.0.0-bin-hadoop3.2 HADOOP_CONF_DIR=/home/cyuser/hadoop3.1.0/etc/hadoop MASTER=yarn-client pyspark
再次执行上面的notebook中的python,内容,其中spark.sparkContext.master输出的为yarn,表示已经成功使用yarn模式执行。