目录
2.3【node1执行】修改配置文件,spark-env.sh
2. 2【node1操作】修改配置文件,conf/flink-conf.yaml
2.3 【node1操作】,修改配置文件,conf/slaves
注意:
本小节的操作,基于:大数据集群(Hadoop生态)安装部署环节中所构建的Hadoop集群,如果没有Hadoop集群,请参阅前置内容,部署好环境。
大数据集群(Hadoop生态)安装部署:
大数据集群(Hadoop生态)安装部署_时光の尘的博客-CSDN博客
大数据NoSQL数据库HBase集群部署:
Spark是一款分布式内存计算引擎,可以支撑海量数据的分布式计算。
Spark在大数据体系是明星产品,作为最新一代的综合计算引擎,支持离线计算和实时计算。
在大数据领域广泛应用,是目前世界上使用最多的大数据分布式计算引擎。
我们将基于前面构建的Hadoop集群,部署Spark Standalone集群。
- wget https: / archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz
-
- # 解压
- tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /export/server/
-
- # 软链接
- ln -s /export/server/spark-2.4.5-bin-hadoop2.7 /export/server/spark
- # 改名
- cd /export/server/spark/conf
- mv spark-env.sh.template spark-env.sh
- mv slaves.template slaves
- #设置JAVA安装目录
- JAVA_HOME=/export/server/jdk
-
- #HADOOP软件配置文件目录,读取HDFS上文件和运行YARN集群
- HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
- YARN_CONF_DIR=/export/server/hadoop/etc/hadoop
-
- #指定spark老大Master的IP和提交任务的通信端口
- export SPARK_MASTER_HOST=node1
- export SPARK_MASTER_PORT=7077
-
- SPARK_MASTER_WEBUI_PORT=8080
- SPARK_WORKER_CORES=1
- SPARK_WORKER_MEMORY=1g
- node1
- node2
- node3
- scp -r spark-2.4.5-bin-hadoop2.7 node2:$PWD
- scp -r spark-2.4.5-bin-hadoop2.7 node3:$PWD
ln -s /export/server/spark-2.4.5-bin-hadoop2.7 /export/server/spark
- /export/server/spark/sbin/start-all.sh
-
- # 如需停止,可以
- /export/server/spark/sbin/stop-all.sh
http://node1:8081
- /export/server/spark/bin/spark-submit --master
- spark: / node1:7077 - class
- org.apache.spark.examples.SparkPi
- /export/server/spark/examples/jars/spark-examples_2.11-2.4.5.jar
Flink同Spark一样,是一款分布式内存计算引擎,可以支撑海量数据的分布式计算。
Flink在大数据体系同样是明星产品,作为最新一代的综合计算引擎,支持离线计算和实时计算。
在大数据领域广泛应用,是目前世界上除去Spark以外,应用最为广泛的分布式计算引擎。
我们将基于前面构建的Hadoop集群,部署Flink Standalone集群
Spark更加偏向于离线计算而Flink更加偏向于实时计算。
- wget https: / archive.apache.org/dist/flink/flink-1.10.0/flink-1.10.0-bin-scala_2.11.tgz
-
- # 解压
- tar -zxvf flink-1.10.0-bin-scala_2.11.tgz -C
- /export/server/
-
- # 软链接
- ln -s /export/server/flink-1.10.0
- /export/server/flink
- # jobManager 的IP地址
- jobmanager.rpc.address: node1
- # JobManager 的端口号
- jobmanager.rpc.port: 6123
- # JobManager JVM heap 内存大小
- jobmanager.heap.size: 1024m
- # TaskManager JVM heap 内存大小
- taskmanager.heap.size: 1024m
- # 每个 TaskManager 提供的任务 slots 数量大小
- taskmanager.numberOfTaskSlots: 2
-
- #是否进行预分配内存,默认不进行预分配,这样在我们不使用flink集群时候不会占用集群资源
- taskmanager.memory.preallocate: false
- # 程序默认并行计算的个数
- parallelism.default: 1
- #JobManager的Web界面的端口(默认:8081)
- jobmanager.web.port: 8081
- node1
- node2
- node3
- cd /export/server
- scp -r flink-1.10.0 node2:`pwd`/
- scp -r flink-1.10.0 node3:`pwd`/
- # 配置软链接
- ln -s /export/server/flink-1.10.0
- /export/server/flink
/export/server/flink/bin/start-cluster.sh
- # 浏览器打开
- http://node1:8081
【node1执行】
- /export/server/flink/bin/flink run
- /export/server/flink-1.10.0/examples/batch/WordCount.jar
更多环境部署:
MySQL5.7版本与8.0版本在CentOS系统安装:
MySQL5.7版本与8.0版本在Ubuntu(WSL环境)系统安装:
Tomcat在CentOS上的安装部署:
Nginx在CentOS上的安装部署、RabbitMQ在CentOS上安装部署:
集群化环境前置准备:
Zookeeper集群安装部署、Kafka集群安装部署: