码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 分布式内存计算Spark环境部署与分布式内存计算Flink环境部署


    目录

    分布式内存计算Spark环境部署

    1.  简介

    2.  安装

    2.1【node1执行】下载并解压

    2.2【node1执行】修改配置文件名称

    2.3【node1执行】修改配置文件,spark-env.sh

    2.4 【node1执行】修改配置文件,slaves

    2.5【node1执行】分发

    2.6【node2、node3执行】设置软链接

    2.7【node1执行】启动Spark集群

    2.8  打开Spark监控页面,浏览器打开:

    2.9【node1执行】提交测试任务

    分布式内存计算Flink环境部署

    1.  简介

    2.  安装

    2.1【node1操作】下载安装包

    2. 2【node1操作】修改配置文件,conf/flink-conf.yaml

    2.3 【node1操作】,修改配置文件,conf/slaves

    2.4【node1操作】分发Flink安装包到其它机器

    2.5 【node2、node3操作】

    2.6 【node1操作】,启动Flink

    2.7   验证Flink启动

    2.8   提交测试任务


    注意:

    本小节的操作,基于:大数据集群(Hadoop生态)安装部署环节中所构建的Hadoop集群,如果没有Hadoop集群,请参阅前置内容,部署好环境。

    大数据集群(Hadoop生态)安装部署:

    大数据集群(Hadoop生态)安装部署_时光の尘的博客-CSDN博客

    大数据NoSQL数据库HBase集群部署:

    大数据NoSQL数据库HBase集群部署-CSDN博客

    分布式内存计算Spark环境部署

    1.  简介

    Spark是一款分布式内存计算引擎,可以支撑海量数据的分布式计算。

    Spark在大数据体系是明星产品,作为最新一代的综合计算引擎,支持离线计算和实时计算。

    在大数据领域广泛应用,是目前世界上使用最多的大数据分布式计算引擎。

    我们将基于前面构建的Hadoop集群,部署Spark Standalone集群。

    2.  安装

    2.1【node1执行】下载并解压

    1. wget https: / archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz
    2. # 解压
    3. tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /export/server/
    4. # 软链接
    5. ln -s /export/server/spark-2.4.5-bin-hadoop2.7 /export/server/spark

    2.2【node1执行】修改配置文件名称

    1. # 改名
    2. cd /export/server/spark/conf
    3. mv spark-env.sh.template spark-env.sh
    4. mv slaves.template slaves

    2.3【node1执行】修改配置文件,spark-env.sh

    1. #设置JAVA安装目录
    2. JAVA_HOME=/export/server/jdk
    3. #HADOOP软件配置文件目录,读取HDFS上文件和运行YARN集群
    4. HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
    5. YARN_CONF_DIR=/export/server/hadoop/etc/hadoop
    6. #指定spark老大Master的IP和提交任务的通信端口
    7. export SPARK_MASTER_HOST=node1
    8. export SPARK_MASTER_PORT=7077
    9. SPARK_MASTER_WEBUI_PORT=8080
    10. SPARK_WORKER_CORES=1
    11. SPARK_WORKER_MEMORY=1g

    2.4 【node1执行】修改配置文件,slaves

    1. node1
    2. node2
    3. node3

    2.5【node1执行】分发

    1. scp -r spark-2.4.5-bin-hadoop2.7 node2:$PWD
    2. scp -r spark-2.4.5-bin-hadoop2.7 node3:$PWD

    2.6【node2、node3执行】设置软链接

     ln -s /export/server/spark-2.4.5-bin-hadoop2.7 /export/server/spark

    2.7【node1执行】启动Spark集群

    1. /export/server/spark/sbin/start-all.sh
    2. # 如需停止,可以
    3. /export/server/spark/sbin/stop-all.sh

    2.8  打开Spark监控页面,浏览器打开:

    http://node1:8081

    2.9【node1执行】提交测试任务

    1. /export/server/spark/bin/spark-submit --master
    2. spark: / node1:7077 - class
    3. org.apache.spark.examples.SparkPi
    4. /export/server/spark/examples/jars/spark-examples_2.11-2.4.5.jar

    分布式内存计算Flink环境部署

    1.  简介

    Flink同Spark一样,是一款分布式内存计算引擎,可以支撑海量数据的分布式计算。

    Flink在大数据体系同样是明星产品,作为最新一代的综合计算引擎,支持离线计算和实时计算。

    在大数据领域广泛应用,是目前世界上除去Spark以外,应用最为广泛的分布式计算引擎。

    我们将基于前面构建的Hadoop集群,部署Flink Standalone集群

    Spark更加偏向于离线计算而Flink更加偏向于实时计算。

    2.  安装

    2.1【node1操作】下载安装包

    1. wget https: / archive.apache.org/dist/flink/flink-1.10.0/flink-1.10.0-bin-scala_2.11.tgz
    2. # 解压
    3. tar -zxvf flink-1.10.0-bin-scala_2.11.tgz -C
    4. /export/server/
    5. # 软链接
    6. ln -s /export/server/flink-1.10.0
    7. /export/server/flink

    2. 2【node1操作】修改配置文件,conf/flink-conf.yaml

    1. # jobManager 的IP地址
    2. jobmanager.rpc.address: node1
    3. # JobManager 的端口号
    4. jobmanager.rpc.port: 6123
    5. # JobManager JVM heap 内存大小
    6. jobmanager.heap.size: 1024m
    7. # TaskManager JVM heap 内存大小
    8. taskmanager.heap.size: 1024m
    9. # 每个 TaskManager 提供的任务 slots 数量大小
    10. taskmanager.numberOfTaskSlots: 2
    11. #是否进行预分配内存,默认不进行预分配,这样在我们不使用flink集群时候不会占用集群资源
    12. taskmanager.memory.preallocate: false
    13. # 程序默认并行计算的个数
    14. parallelism.default: 1
    15. #JobManager的Web界面的端口(默认:8081)
    16. jobmanager.web.port: 8081

    2.3 【node1操作】,修改配置文件,conf/slaves

    1. node1
    2. node2
    3. node3

    2.4【node1操作】分发Flink安装包到其它机器

    1. cd /export/server
    2. scp -r flink-1.10.0 node2:`pwd`/
    3. scp -r flink-1.10.0 node3:`pwd`/

    2.5 【node2、node3操作】

    1. # 配置软链接
    2. ln -s /export/server/flink-1.10.0
    3. /export/server/flink

    2.6 【node1操作】,启动Flink

    /export/server/flink/bin/start-cluster.sh

    2.7   验证Flink启动

    1. # 浏览器打开
    2. http://node1:8081

    2.8   提交测试任务

    【node1执行】

    1. /export/server/flink/bin/flink run
    2. /export/server/flink-1.10.0/examples/batch/WordCount.jar

    更多环境部署:

    MySQL5.7版本与8.0版本在CentOS系统安装:

    MySQL5.7版本与8.0版本在CentOS系统安装_时光の尘的博客-CSDN博客

    MySQL5.7版本与8.0版本在Ubuntu(WSL环境)系统安装:

    MySQL5.7版本与8.0版本在Ubuntu(WSL环境)系统安装-CSDN博客

    Tomcat在CentOS上的安装部署:

    Tomcat在CentOS上的安装部署-CSDN博客

    Nginx在CentOS上的安装部署、RabbitMQ在CentOS上安装部署:

    Nginx在CentOS上的安装部署、RabbitMQ在CentOS上安装部署-CSDN博客

    集群化环境前置准备:

    集群化环境前置准备_时光の尘的博客-CSDN博客

    Zookeeper集群安装部署、Kafka集群安装部署:

    Zookeeper集群安装部署、Kafka集群安装部署_时光の尘的博客-CSDN博客

  • 相关阅读:
    安卓快速实现流式布局(RecyclerView+ FlexboxLayout)
    Vue2.7 setup 中使用vue-router、vuex
    vim程序编辑器
    Js里面无法调用contains
    挂件板死机刷固件
    使用watch和tail命令监控文件内容的变化
    基于STM32单片机的篮球计时记分器proteus仿真原理图PCB
    封装一个vue3 Toast组件,支持组件和api调用
    1. Nginx 基本功能配置
    【牛客网面试必刷TOP101】链表篇(三)
  • 原文地址:https://blog.csdn.net/MANONGDKY/article/details/133898998
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号