-
走进HBase
- 什么是Hbase
- 建立在Hadoop之上HDFS分布式文件系统,面向列的存储系统
- 列式数据库是针对行数据库而言的,行式数据库是以一行数据作为一个存储单元,而列式数据库是以一列数据为一个存储单元,针对HBase来说,一行数据的某一个列值就是一个存储单元
- HBase表中的字段是可以动态增加的,因此HBase数据库是NoSQL数据库
- 优缺点
- 优点
- HDFS有高容错,高扩展的特点,而Hbase基于HDFS实现数据的存储,因此Hbase拥有与生俱来的超强的扩展性和吞吐量。
- HBase采用的是Key/Value的存储方式,这意味着,即便面临海量数据的增长,也几乎不会导致查询性能下降。
- HBase是一个列式数据库,相对于于传统的行式数据库而言。当你的单张表字段很多的时候,可以将相同的列(以regin为单位)存在到不同的服务实例上,分散负载压力。
- 缺点
- 架构设计复杂,且使用HDFS作为分布式存储,因此只是存储少量数据,它也不会很快。在大数据量时,它慢的不会很明显
- Hbase不支持表的关联操作,因此数据分析是HBase的弱项
- HBaseACID性质
- 原子性:所有对于一个HBase行的操作都是原子的,也即在HBase的table中加入,更新一行要不成功要不失败,不会部分成功部分失败。特别说明的是,如果客户端(API)操作超时的话,该操作也是全部成功或全部失败,不会有部分成功的情况出现。这个是HBase在行上的原子操作的保证。但是跨多行的批量操作是不能保证原子性的。
- 一致性:HBase虽然是一个分布式数据库,但它的数据存储格式是按照Key-Value进行的,因此,它的数据存储的一致性也是Key-Value形式。
- 隔离性:HBase中的数据以列簇的形式进行存储,一个列簇可以跨多个行,因此,HBase的隔离级别是行级别。
- 持久性:一旦事务提交,则其结果永久保存在数据库中,即使系统崩溃也不应该丢失。
- 应用场景
- 海量数据存储:HBase可以处理PB级别(1024Tb)的数据量,适合于存储大规模的数据,例如日志数据、监控数据、交易数据等。
- 低延迟读写: HBase支持高效的随机读写操作,可以在毫秒级别内完成数据访问,适合于需要实时访问和查询数据的场景。
- 高并发读写: HBase可以支持大量的并发读写操作,可以处理数百万级别的并发访问请求,适合于需要处理高并发访问的场景。
- 系统架构组件
- HMaster:是HBase集群的主节点,负责整个集群的管理工作,主要工作职责如下:分配Region;负载均衡;维护集群的元数据信息和负载均衡。
- HBase Client:为用户提供了访问HBase的接口,可以通过元数据表来定位到目标数据的RegionServer,另外HBase Client还维护了对应的cache来加速HBase的访问,比如缓存元数据的信息。
- Zookeeper:保存HMaster的地址和backup-master地址,能保证集群中只有1个master在运行。监控RegionServer的状态,当RegionSevrer有异常的时候,通过回调的形式通知Master。
- 俗语:Hbase中的老大叫Hmaster,小弟叫RegionServer,客户端叫Client,Zookeepr为hbase提供集群协调。
- HBase原理组件
- Region: HBase表中的数据按照行键的字典顺序排序,HBase表中的数据按照行的方向切分为多个Region,最开始只有一个Region,随着数据量的增加,产生分裂,这个过程不断进行,一个表可能对应一个或多个Region,一个表的多个Region可能分布在多台HRegionServer上
- Store:region是分布式存储的基本单元,但不是存储的基本单元,其内部还具有结构。一个region由多个Store来组成。有几个store取决于表的列族的数量,一个列族对应一个store。之所以这么设计,是因为一个列族中的数据往往数据很类似,方便进行压缩,节省存储空间。
- memStore:表的一个列族对应一个store,store的数量由表中列族的数量来决定。一个store由一个memstore和零个或多个storefile组成。memStore负责保存内存中的数据
- storefile:storefile其实就是hdfs中的hfile只能写入不能修改,所以hbase写入数据到hdfs的过程其实是不断追加hfile的过程。
- 基本概念
- 表(Table):HBase在逻辑上是个二维的稀疏映射,这个映射的键(Key)是行健(Row Key),值(Value)是一个列族(Column Family)的映射。
- 行(Row):在HBase中,表按照行进行数据的存储和管理,每个行由一个唯一的行健(Row Key)标识。
- 列族(Column Family):列族是HBase中列的集合,每个列都属于一个特定的列族。
- 列(Column):列由列族和列限定符(Qualifier)组成,用于标识表中的数据。
- 单元格(Cell):单元格是HBase中存储数据的最小单位,每个单元格都保存了一个特定版本的数据。
- 版本(Version):每个单元格保存了同一行、同一列、同一时间的数据,也就是所谓的同一数据的不同版本。
- 与nosql数据库一样,row key是用来表示唯一一行记录的主键,HBase的数据时按照RowKey的字典顺序进行全局排序的,所有的查询都只能依赖于这一个排序维度
- 常踩的坑
- HBase写操作尽量采用批量写入操作。由于HBase的存储是按照字典顺序排序的,某一时刻相似规则的数据会落入同一个region上,造成数据热点,所以HBase写操作尽量采用批量写入操作。
- 禁用预写日志。由于历史数据的消费过程是将数据写入HBase,但写入HBase过慢,容易造成消费不过来,产生数据堆积,影响Kafka拉取数据消费发送心跳的超时,所以禁用预写日志。
- HFile
- 结构
- Data Block段–保存表中的数据,这部分可以被压缩
- Meta Block 段(可选的)–保存用户自定义的kv对,可以被压缩。
- File Info段–Hfile的元信息,不被压缩,用户也可以在这一部分添加自己的元信息。
- Data Block Index段–Data Block的索引。每条索引的key是被索引的block的第一条记录的key。
- Meta Block Index段(可选的)–Meta Block的索引。
- Trailer–这一段是定长的。保存了每一段的偏移量,读取一个HFile时,会首先 读取Trailer,Trailer保存了每个段的起始位置(段的Magic Number用来做安全check),然后,DataBlock Index会被读取到内存中,这样,当检索某个key时,不需要扫描整个HFile,而只需从内存中找到key所在的block,通过一次磁盘io将整个 block读取到内存中,再找到需要的key。DataBlock Index采用LRU机制淘汰
- 语法
- 查看Hbase的版本:hbase version。
- 获取表中的一条数据:get 'tableName', 'rowkey'。
- 使用
- 1. 创建表:创建表时需要指定表名和列族名。HBase的表是由一个或多个列族组成的,每个列族包含一个或多个列。
- create 'tableName', 'columnFamily1', 'columnFamily2'...
- 2. 插入数据:插入数据时需要指定表名、行键、列族、列和值。
- put 'tableName', 'rowKey', 'columnFamily:column', 'value'
- 3. 查询数据:查询数据时可以使用scan命令来遍历整个表,也可以使用get命令来获取指定行键的数据。
- get 'tableName', 'rowKey'
- 4. 删除数据:删除数据时需要指定表名、行键和列族。如果要删除整个表,要先disable(禁用)和drop(删除)命令。
- delete 'tableName', 'rowKey', 'columnFamily:column'
- 存储系统三种结构
- hash存储
- 哈希存储引擎是哈希表的持久化实现,支持增、删、改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系统。对于key-value的插入以及查询,哈希表的复杂度都是O(1),明显比树的操作O(n)快,如果不需要有序的遍历数据,哈希表就是your Mr.Right。
- B树
- B树存储引擎是B树的持久化实现,支持单条记录的增、删、读、改操作,还支持顺序扫描(B+树的叶子节点之间的指针),对应的存储系统就是关系数据库(Mysql等)。
- LSM树
- LSM树(Log-Structured Merge Tree)存储引擎和B树存储引擎一样,同样支持增、删、读、改、顺序扫描操作。而且通过批量存储技术规避磁盘随机写入问题。当然凡事有利有弊,LSM树和B+树相比,LSM树牺牲了部分读性能,用来大幅提高写性能。
- 总结
- HBase快的原因
- 逻辑上
- 表按照行键进行了排序,而且加了索引,所以查询时可以很快定位。
- 数据按照行键切分为多个HRegion,分布在多个RegionServer中,查询大量数据时,多个RegionServer可以一起工作,从而提高速度。
- 物理上
- HRegion是存活在RegionServer的内存中的,读写会非常的高效。
- 还有HFile的支持保证大量的数据可以持久化的保存。
- 数据最终落地到HDFS中,分布式的存储,保证数据段可靠性和可扩展性。
- HBase存储很多数据
- 基于hdfs,所以支持可扩展性,可以通过增加大量的廉价的硬件提高存储容量(不需要考虑性能的廉价硬件)
- 按列存储,空的数据不占用空间,当存储稀疏数据时,不会浪费空间。
- 按例存储,同一列的数据存放在一起,而同一列的数据一般都是同样的类型的内容相似的数据,可以实现非常高效的压缩,节省空间。
- Hbase的数据是可靠
- 基于hdfs,由hdfs的可靠性保证了hbase的可靠性,即数据可以有多个备份。(即使HBase挂了,数据也还在,因为数据最终落到hadoop的HDFS文件系统中)
- 利用zookeeper实现了HA(高可用集群),即使某一台机器挂掉另外的机器也可以很快的替换它。
- HBase的表设计
- HBase表的设计会直接影响hbase使用的效率和使用的便利性。
- HBase表的设计主要是列族的设计和行键的设计。
- 列族
- 1.列族不宜过多,越少越好,官方推荐hbase表的列族不宜超过3个。列族设计过多,会非常消耗内存。
- 2.经常要在一起查询的数据最好放在一个列族中,尽量的减少跨列族的数据访问。
- 3.如果有多个列族,多个列族中的数据应该设计的比较均匀。
- 行键
- hbase表中行键是唯一标识一个表中行的字段,所以行键设计的好不好将会直接影响未来对hbase的查询的性能和查询的便利性,所以hbase中的行键是需要进行设计的。
-
相关阅读:
2个月的flag---拿下软考---计划考软件设计师
模型部署笔记--Pytorch-FX量化
【控制台】 \xce\xde\xb7\xa8\xb4\xf2\xbf\xaa
EdgeX Foundry 架构介绍
LC117A泛海微马达驱动IC SOP-8
MATLAB算法实战应用案例精讲-【回归算法】LightGBM算法(附Java、Python和R语言代码)
FLOPS
总结:Springboot工作记录
一个Qt鼠标透传场景与事件过滤器的用法
Python 小知识,wheel 文件的说明与使用
-
原文地址:https://blog.csdn.net/qq_36204764/article/details/133805979