码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 大数据基础设施搭建 - Spark


    文章目录

    • 一、解压压缩包
    • 二、修改配置文件conf/spark-env.sh
    • 三、测试提交Spark任务
    • 四、Spark on Hive配置
      • 4.1 创建hive-site.xml(spark/conf目录)
      • 4.2 查看hive的hive-site.xml配置与3.1配置的是否一致
      • 4.3 测试SparkSQL
        • 4.3.1 启动SparkSQL客户端(Yarn方式)
        • 4.3.2 启动Hive客户端
    • 五、通过Spark Web-UI分析SQL执行过程(TODO)
    • 六、集群化(TODO)

    一、解压压缩包

    [hadoop@hadoop102 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
    
    • 1

    二、修改配置文件conf/spark-env.sh

    cd /opt/module/spark-3.0.0-bin-hadoop3.2/conf
    [hadoop@hadoop102 conf]$ cp spark-env.sh.template spark-env.sh
    [hadoop@hadoop102 conf]$ vim spark-env.sh
    
    • 1
    • 2
    • 3

    内容:

    export JAVA_HOME=/opt/module/jdk1.8.0_291
    YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop
    
    • 1
    • 2

    三、测试提交Spark任务

    [hadoop@hadoop102 ~]$ cd /opt/module/spark-3.0.0-bin-hadoop3.2/
    [hadoop@hadoop102 spark-3.0.0-bin-hadoop3.2]$ bin/spark-submit \
    > --class org.apache.spark.examples.SparkPi \
    > --master yarn \
    > --deploy-mode cluster \
    > ./examples/jars/spark-examples_2.12-3.0.0.jar \
    > 10
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    到YARN WEB页面查看任务提交情况

    四、Spark on Hive配置

    4.1 创建hive-site.xml(spark/conf目录)

    [hadoop@hadoop102 conf]$ cd /opt/module/spark-3.0.0-bin-hadoop3.2/conf/
    [hadoop@hadoop102 conf]$ vim hive-site.xml
    
    • 1
    • 2

    内容:

    
    
    <configuration>
        
        <property>
          <name>hive.metastore.warehouse.dirname>
          <value>/warehousevalue>
        property>
        
        <property>
          <name>hive.metastore.localname>
          <value>falsevalue>
        property>
        
        <property>
          <name>hive.metastore.urisname>
          <value>thrift://hadoop102:9083value>
        property>
      
    configuration>
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20

    4.2 查看hive的hive-site.xml配置与3.1配置的是否一致

    cd /opt/module/apache-hive-3.1.2-bin/conf
    vim hive-site.xml
    
    • 1
    • 2

    4.3 测试SparkSQL

    4.3.1 启动SparkSQL客户端(Yarn方式)

    [hadoop@hadoop102 spark-3.0.0-bin-hadoop3.2]$ bin/spark-sql --master yarn
    
    • 1
    spark-sql> show databases;
    spark-sql> select count(1)
             > from dw_ods.ods_activity_info_full 
             > where dt='2023-12-07';
    
    • 1
    • 2
    • 3
    • 4

    4.3.2 启动Hive客户端

    [hadoop@hadoop102 apache-hive-3.1.2-bin]$ bin/hive
    
    • 1
    hive> show databases;
    hive> select count(1)
        > from dw_ods.ods_activity_info_full 
        > where dt='2023-12-07';
    
    • 1
    • 2
    • 3
    • 4

    五、通过Spark Web-UI分析SQL执行过程(TODO)

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    六、集群化(TODO)

    优势在哪里??

  • 相关阅读:
    windows11本地深度学习环境搭建Anacond,keras,tensorflow,pytorch, jupyter notebook
    `Target Support Files/Pods-Runner/Pods-Runner.debug.xcconfig`
    2023最新Office2021专业增强版安装使用教程
    tree命令详解(输出目录树层结构,显示目录和文件)
    node.js的pat/fs/events模块以及磁盘遍历的实现
    【车间调度】基于模拟退火优化算法的的并行车间机器优化调度(Matlab代码实现)
    聊聊 flink 的时间窗口
    TI DSP的中断
    SpringMVC 04(JSON和全局异常处理)
    向excel中导入mysql中的数据表
  • 原文地址:https://blog.csdn.net/m0_46218511/article/details/137245457
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号