• Hbase


    14.1.1. 概念
    base 是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS 为 Hbase 提供可靠的
    底层数据存储服务,MapReduce 为 Hbase 提供高性能的计算能力,Zookeeper 为 Hbase 提供
    稳定服务和 Failover 机制,因此我们说 Hbase 是一个通过大量廉价的机器解决海量数据的高速存
    储和读取的分布式数据库解决方案。
    14.1.2. 列式存储
    列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因此整个数据库
    是自动索引化的。
    这里的列式存储其实说的是列族存储,Hbase 是根据列族来存储数据的。列族下面可以有非常多
    的列,列族在创建表的时候就必须指定。为了加深对 Hbase 列族的理解,下面是一个简单的关系
    型数据库的表和 Hbase 数据库的表:

     

    14.1.3. Hbase 核心概念
    14.1.3.1. Column Family 列族
    Column Family 又叫列族,Hbase 通过列族划分数据的存储,列族下面可以包含任意多的列,实
    现灵活的数据存取。Hbase 表的创建的时候就必须指定列族。就像关系型数据库创建的时候必须
    指定具体的列是一样的。Hbase 的列族不是越多越好,官方推荐的是列族最好小于或者等于 3。我
    们使用的场景一般是 1 个列族。
    14.1.3.2. Rowkey( Rowkey 查询,Rowkey 范围扫描,全表扫描
    Rowkey 的概念和 mysql 中的主键是完全一样的,Hbase 使用 Rowkey 来唯一的区分某一行的数
    据。 Hbase 只支持 3 中查询方式:基于 Rowkey 的单行查询,基于 Rowkey 的范围扫描,全表扫
    描。
    14.1.3.3. Region 分区
    Region :Region 的概念和关系型数据库的分区或者分片差不多。Hbase 会将一个大表的数
    据基于 Rowkey 的不同范围分配到不通的 Region 中 ,每个 Region 负责一定范围的数据访问
    和存储。这样即使是一张巨大的表,由于被切割到不通的 region,访问起来的时延也很低。
    14.1.3.4. TimeStamp 多版本
    TimeStamp 是实现 Hbase 多版本的关键。在 Hbase 中使用不同的 timestame 来标识相同
    rowkey 行对应的不通版本的数据。在写入数据的时候,如果用户没有指定对应的
    timestamp,Hbase 会自动添加一个 timestamp,timestamp 和服务器时间保持一致。
    Hbase 中,相同 rowkey 的数据按照 timestamp 倒序排列。默认查询的是最新的版本,用户
    可同指定 timestamp 的值来读取旧版本的数据
    14.1.4. Hbase 核心架构
    Hbase 是由 Client、Zookeeper、Master、HRegionServer、HDFS 等几个组建组成。
    14.1.4.1. Client:
    Client 包含了访问 Hbase 的接口,另外 Client 还维护了对应的 cache 来加速 Hbase 的
    访问,比如 cache 的.META.元数据的信息。
    14.1.4.2. Zookeeper:
    Hbase 通过 Zookeeper 来做 master 的高可用、RegionServer 的监控、元数据的入口
    以及集群配置的维护等工作。具体工作如下:
    1. 通过 Zoopkeeper 来保证集群中只有 1 个 master 在运行,如果 master 异
    常,会通过竞争机制产生新的 master 提供服务
    2. 通过 Zoopkeeper 来监控 RegionServer 的状态,当 RegionSevrer 有异常的
    时候,通过回调的形式通知 Master RegionServer 上下限的信息
    3. 通过 Zoopkeeper 存储元数据的统一入口地址。
    14.1.4.3. Hmaster
    master 节点的主要职责如下:
    1. 为 RegionServer 分配 Region
    2. 维护整个集群的负载均衡
    3. 维护集群的元数据信息发现失效的 Region,并将失效的 Region 分配到正常
    RegionServer 上当 RegionSever 失效的时候,协调对应 Hlog 的拆分
    14.1.4.4. HregionServer
    HregionServer 直接对接用户的读写请求,是真正的“干活”的节点。它的功能概括如
    下:
    1. 管理 master 为其分配的 Region
    2. 处理来自客户端的读写请求
    3. 负责和底层 HDFS 的交互,存储数据到 HDFS
    4. 负责 Region 变大以后的拆分
    5. 负责 Storefile 的合并工作
    14.1.4.5. Region 寻址方式(通过 zookeeper .META)
    第 1 步:Client 请求 ZK 获取.META.所在的 RegionServer 的地址。
    第 2 步:Client 请求.META.所在的 RegionServer 获取访问数据所在的 RegionServer 地
    址,client 会将.META.的相关信息 cache 下来,以便下一次快速访问。
    第 3 步:Client 请求数据所在的 RegionServer,获取所需要的数据。
  • 相关阅读:
    用async函数和await解决回调函数地狱
    第6章 - 多无人车系统的协同控制 --> 多无人车系统建模
    SSM学习
    网安之PHP基础作业(5)
    高阶 DS --- AVL 树
    破解35岁中年危机
    Apache Maven是什么?|Maven安装
    Git学习笔记2
    《机器人学导论》——探究未来世界的奇妙之旅
    集合深度学习07—Set、HashSet、LinkedHashSet、TreeSet、 底层原理 & 源码解析
  • 原文地址:https://blog.csdn.net/Theshy08/article/details/126057526