• Linux和Hadoop的学习


    1. Linux的常用快捷键

    复制:Ctrl+shift+C
    粘贴:Ctrl+shift+V
    TAB:补全命令
    编写输入:i
    退出编写:esc
    保存并退出:shift+:

    2. Hadoop集群部署问题汇总

    1.常见出错点:

    • 权限未正确设置
    • 配置文件错误
    • 未格式化

    2.解决问题思路:看日志log
    步骤1:
    cd /export/server/hadoop/logs/
    步骤2:(也可以查看secondarynamenode的日志,视情况而定)
    tail -100 hadoop-hadoop-namenode-node1.log

    在这里插入图片描述
    3.错误举例
    问题1:Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password)
    这是免密互通没有设置成功,可以通过ssh [节点]来查看是具体哪个节点没有设置成功,然后就对应的节点的免密通信进行重新设置。

    第一步:切换到需要设置免密通信的用户

    su - [用户]
    
    • 1

    第二步:生成公钥私钥

    ssh-keygen -t rsa -b 4096
    
    • 1

    第三步:将SSH公钥信息复制给对应服务器

    ssh-copy-id node1
    ssh-copy-id node2
    ssh-copy-id node3
    
    • 1
    • 2
    • 3

    Hive问题的集合

    在这里插入图片描述

    1. 什么是hive?

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

    hive架构

    在这里插入图片描述

    MetaStore:元数据(hive中的表的存在hdfs上的存储位置、这些表中有那些列、Partition(分区)、BUCKETS(分桶)),元数据的存储是存储在关系型数据库中的。
    Driver:管理HiveQL执行的生命周期,贯穿Hive任务整个执行期间(包括:Compiler、Optimizer、Executor)
    Compiler:将HQL转换为Map/Reduce任务(编译器)
    Optimizer:优化HiveQL生成的执行计划和MapReduce任务进行优化(优化器)
    Executor:执行Map/Reduce任务(执行器)
    ThriftServer:提供thrift接口,将Hive作为一个服务端(服务器)其它访问(通过JDBC/ODBC访问)的机器作为客服端
    Clients:Hive客户端,为用户访问提供接口。

    1. hive如何将结构化的数据文件映射为一张数据库表?
      结构化的数据 -------> 数据库的表
      在这里插入图片描述
      在这里插入图片描述

    2. 提供类SQL查询功能
      Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。使用者只要会写SQL就行,不用掌握Mapreduce的原理。

    3. 优点
      ①可扩展
      Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
      ②延展性
      Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
      ③容错
      良好的容错性,节点出现问题SQL仍可完成执行。

    4. 缺点
      不适合联机事务处理(OLTP) ,不适合对实时性要求高的数据分析场景。

    联机事务处理(OLTP) 和 联机分析处理(OLAP)
    OLTP是对数据库联机的日常操作,通常是对一条记录的査询和修改,要求快速响应用户的请求,对数据的安全性、完整性及事物吞吐量要求很高。
    OLAP是对数据的査询和分析操作,通常是对海量历史数据的査询和分析,要访问的数据量非常大,査询和分析操作十分复杂。。
    OLTP要求系统必须具有很高的响应速度,而OLAP对系统响应速度的要求较为宽松

    2. 怎么解决数据倾斜?

  • 相关阅读:
    Flutter入门-与原生数据传递
    某高品质房产企业:借助NineData平台,统一数据库访问权限,保障业务安全
    5款好用的工具软件推荐给你
    ubuntu安装Anaconda 以及 dataspell配置jupyter
    18.5.4 分布式恢复
    Learn Prompt-ChatGPT 精选案例:学习助理
    软件测试之概念篇(需求,测试用例,BUG描述,产品的生命周期)
    [附源码]java毕业设计基于ssm的电子网上商城
    安防监控/视频汇聚/云存储/AI智能视频分析平台EasyCVR下级海康设备无法级联是什么原因?
    Prometheus的remotewrite for java
  • 原文地址:https://blog.csdn.net/qq_43349542/article/details/133625143