Hbase 面试题（五）

Hbase 面试题（五）
1. 简述什么是WAL(Write Ahead Log)预写日志？

WAL（Write Ahead Log），即预写日志，是HBase中用于保证数据持久性和一致性的关键机制。以下是WAL的简要概述：
1. 目的：
  - WAL的主要目的是在数据实际写入到MemStore之前，先将其记录到一个日志中。这样即使在系统崩溃或故障的情况下，也能够从日志中恢复数据。
2. 写入流程：
  - 在HBase中，每次数据更新（包括插入、更新或删除操作）首先会被写入到WAL中。
  - 只有当WAL写入成功后，数据才会被写入到MemStore。
3. 数据恢复：
  - 如果HBase服务器发生故障，系统会使用WAL中的日志来重建MemStore，确保数据不会丢失。
4. 异步写入：
  - WAL的写入通常是异步进行的，这意味着它不会阻塞数据写入操作，从而保证了写操作的性能。
5. 存储位置：
  - WAL文件存储在HDFS上，与HBase的数据文件分开，以提高容错能力。
6. 滚动和归档：
  - 随着时间的推移，WAL文件会不断增长。当达到一定大小时，当前的WAL会关闭并归档，然后开启新的WAL文件。
7. 清理策略：
  - 当数据已经被成功刷新到HFile，并且没有被任何Region的MemStore使用时，相关的WAL文件可以被安全删除。
8. 性能影响：
  - 虽然WAL写入是异步的，但它仍然需要消耗I/O资源。在高负载情况下，WAL的性能可能会成为瓶颈。
9. 配置和优化：
  - 管理员可以根据系统的需求配置WAL的相关参数，如滚动策略、归档策略等。
10. 多副本：
  - 为了进一步提高数据的可靠性，WAL可以配置为在多个HDFS节点上存储多副本。
WAL是HBase中实现ACID（原子性、一致性、隔离性、持久性）特性的基础之一。通过先写日志再写内存的方式，WAL确保了即使在系统故障的情况下，用户的数据也不会丢失，从而提供了强大的数据一致性和持久性保证。

2. 详细阐述Hase的数据模型？

HBase是一个分布式的、面向列的NoSQL数据库，其数据模型主要基于以下几个核心概念：
1. 表（Table）：
  - 表是数据的集合，类似于关系型数据库中的表，但在HBase中，表的结构更加灵活。
2. 行键（Row Key）：
  - 行键是表中每一行数据的唯一标识符。数据在HBase中按照行键的字典序进行排序和存储。
  - 行键可以是任意的字节数组，通常设计为一个可排序的格式，以优化数据的读取。
3. 列族（Column Family）：
  - 列族是HBase中的一个逻辑概念，一组具有相似特性的列被归并为一个列族。
  - 列族内的列在物理存储上是聚合在一起的，共享相同的存储结构和访问模式。
4. 列限定符（Column Qualifier）：
  - 列限定符是列族内具体列的标识符。在HBase中，列族和列限定符一起构成了表中的列。
5. 版本（Version）：
  - HBase支持多版本数据，即同一行同一列可以存储多个版本的数据。
  - 默认情况下，HBase会根据时间戳保留最新的几个版本，但也可以根据需要配置更多的版本。
6. 时间戳（Timestamp）：
  - 每个单元格的写入操作都会被赋予一个时间戳，这通常是由HBase集群的协调服务ZooKeeper提供的。
  - 时间戳用于数据版本控制，也用于在读取操作中指定要读取的数据版本。
7. 单元格（Cell）：
  - 单元格是HBase中存储数据的基本单元，由行键、列族、列限定符和时间戳共同确定。
  - 单元格中的数据包括值（Value）和时间戳（Timestamp）。
8. Region：
  - HBase表的水平分片称为Region。每个Region由一个起始行键和终止行键定义，包含了一定范围的行。
  - 当表中的数据量增长到一定程度时，Region会自动分裂成新的Region。
9. Store：
  - Store是Region中针对每个列族的数据存储单元。每个Store由一个MemStore（内存中的数据缓存）和一个或多个HFile（磁盘上的文件存储）组成。
10. RegionServer：
  - RegionServer是HBase中的工作节点，负责管理一个或多个Region，处理客户端的读写请求。
HBase的数据模型设计为易于扩展，适合处理大规模数据集，并且能够提供高性能的读写访问。面向列的存储方式使得HBase在处理大量稀疏数据时特别有效，因为只有需要的列族会被读取和处理。此外，HBase的数据模型支持灵活的schema设计，允许在运行时动态添加列和列族，这使得HBase能够适应不断变化的数据需求。

3. 简述Hbase 构建Scanner体系？

HBase中的Scanner是一种用于遍历表中数据的机制，它允许用户执行范围查询和迭代读取。构建一个高效的Scanner体系涉及以下几个关键方面：
1. 创建Scanner：
  - Scanner通过指定表和起始行键创建。用户可以设置结束行键来定义扫描的范围。
2. 列选择：
  - 在创建Scanner时，可以指定需要检索的列。这有助于减少数据传输和处理的开销。
3. 过滤器：
  - 可以为Scanner设置过滤器，以在服务器端进行数据的过滤，只返回满足特定条件的数据。
4. 缓存行：
  - HBase允许配置Scanner的缓存行数，这可以减少RPC调用的次数，通过一次调用检索多行数据。
5. 预取：
  - HBase客户端可以预取Scanner的下一批数据，这样当用户请求下一行数据时，它可能已经被预先加载并准备好了。
6. 服务器端扫描：
  - Scanner可以在服务器端进行，减少了数据在网络中的传输量，尤其是在处理大量数据时。
7. 内存使用：
  - 在使用Scanner时，需要注意内存的使用，尤其是在处理大量数据时，避免内存溢出。
8. BlockCache利用：
  - Scanner可以利用BlockCache来加速数据的读取，特别是对于频繁访问的数据。
9. 扫描顺序：
  - 可以指定Scanner是按照升序还是降序遍历数据。
10. 关闭Scanner：
  - 完成数据检索后，应当关闭Scanner以释放服务器和客户端的资源。
11. 性能优化：
  - 可以通过调整Scanner的参数，如缓存行数、过滤器等，来优化扫描性能。
12. 一致性：
  - Scanner可以保证在扫描过程中数据的一致性视图，即使在数据不断变化的情况下。
13. 错误处理：
  - 在构建Scanner体系时，需要考虑错误处理机制，确保在遇到错误时能够恰当地恢复或重试。
14. 并发扫描：
  - 在多用户环境中，HBase可以支持多个Scanner并发运行，但需要注意资源的合理分配。
构建一个高效的Scanner体系对于提高HBase中数据检索的性能至关重要。通过合理配置和优化Scanner的使用，可以显著提高查询效率和系统的整体性能。

4. HBase 如何将某个表内存中的所有数据刷写到磁盘？

在HBase中，数据最初写入到内存中的MemStore。随着MemStore中数据量的增加，这些数据最终需要被刷新（flush）到磁盘上的StoreFile中。以下是HBase将表内存中的数据刷新到磁盘的步骤：
1. 达到刷新阈值：
  - 当MemStore中的数据量达到一定阈值时（基于内存使用量或时间），HBase会触发刷新操作。
2. 刷新操作：
  - 刷新操作会将MemStore中的数据持久化到磁盘上的StoreFile中。这个过程是自动进行的，并且是后台操作。
3. 写入StoreFile：
  - 刷新过程中，数据被写入到一个新的StoreFile中，这个文件存储在HDFS上。
4. 更新引用：
  - 一旦数据被写入StoreFile，MemStore会被清空，并且StoreFile会被添加到对应列族的Store中。
5. 关闭MemStore：
  - 在刷新操作完成后，旧的MemStore会被关闭，并且一个新的MemStore会被创建以接收新的写入。
6. 可选的Compaction：
  - 随着时间的推移，如果Store中存在多个StoreFile，HBase可能会执行Compaction操作，合并这些文件以优化存储和查询性能。
要手动触发刷新操作，可以使用HBase shell或Admin API：
- 使用HBase Shell：
  在HBase shell中，可以使用flush 'table_name'命令来刷新指定表的数据。
- 使用Admin API：
  通过HBase的Admin Java API，可以调用flush方法来刷新特定表的数据。
需要注意的是，强制刷新MemStore可能会导致短暂的性能下降，因为刷新操作涉及到磁盘I/O。因此，在生产环境中，通常建议让HBase自动管理刷新操作，以避免不必要的性能冲击。

此外，HBase还提供了一些配置参数，允许管理员调整刷新策略，例如设置MemStore的大小阈值，或者在低负载时执行刷新操作，以优化整体性能。

5. HBase中有哪些不同的压缩类型？

HBase支持多种压缩类型以优化存储和I/O性能，不同的压缩算法根据其特点适用于不同的场景。以下是HBase中常见的几种压缩类型：
1. GZIP (GZ)：
  - GZIP提供较高的压缩率，适合冷数据存储，即数据访问不频繁的场景。
  - 压缩和解压速度相对较慢，且更消耗CPU资源。
2. LZO (Hadoop LZO)：
  - LZO提供中等压缩率，压缩和解压速度较快。
  - 适用于热数据存储，即数据访问频繁的场景。
3. Snappy：
  - Snappy的压缩率比LZO低，但提供更快的压缩和解压速度。
  - 同样适用于热数据存储，且整体性能优于LZO。
4. LZ4：
  - LZ4与LZO的压缩率相近，但提供更快的压缩和解压速度。
5. ZSTD：
  - ZSTD是一种较新的压缩算法，提供高压缩率和较快的解压速度。
  - 适用于需要较高压缩率和快速解压的场景。
6. NONE：
  - 不使用压缩，适用于不需要压缩存储的场景。
每种压缩算法都有其特点，用户需要根据业务需求（如压缩率、压缩和解压速率等）选择最合适的压缩格式。通常情况下，选择Snappy或LZO是比较好的选择，因为它们的压缩开销较低，能节省存储空间同时保持较高的访问性能。

6. HBase中的墓碑标记（tombstone ）是什么？HBase中有多少个墓碑标记？

在HBase中，墓碑标记（tombstone）是一种特殊的标记，用于指示某个单元格（cell）或一组单元格已被逻辑上删除。HBase是一个基于Hadoop的分布式列存储系统，它不会真正从磁盘上删除数据，而是使用墓碑标记来标识数据已经被删除。在后续的Compaction操作中，被标记的这些数据会被清理掉。

HBase中并没有一个固定的墓碑标记数量，因为墓碑的生成与删除操作相关，每当执行删除操作时，就会在相应的位置创建一个墓碑标记。这些标记会保留在系统中，直到经过major compaction操作时才被清除。在HBase中，有三种类型的删除操作，它们分别是：
1. 删除特定版本的单元格（Delete）
2. 删除某一列的所有版本（DeleteColumn）
3. 删除某一列族的所有列（DeleteFamily）
每次执行这些删除操作时，HBase都会在相应的位置放置墓碑标记，而不是立即从磁盘上删除数据。这样做的好处是可以保持数据的一致性，并且可以优化磁盘空间的使用，因为不需要立即重写整个存储文件（HFile）。

由于HBase的删除操作只是增加了墓碑标记，并没有真正删除数据，所以系统中的墓碑标记数量是动态变化的，与执行的删除操作数量相关。只有在执行了major compaction操作之后，这些标记才会被清除，释放空间。

7. 解释Hbase如何实际删除一行？

在HBase中，"删除一行"这个操作与传统的关系型数据库中的删除操作有所不同。HBase是一个基于LSM树（Log-Structured Merge-tree）的NoSQL数据库，其设计目标是优化写入性能和存储效率。因此，HBase采用了一种特殊的机制来处理删除操作，这就是墓碑标记（tombstone）。

以下是HBase中删除一行数据的实际过程：
1. 写入删除标记：
  当客户端发起删除一行数据的请求时，HBase不会立即从磁盘上删除这些数据。相反，它在表中为这一行写入一个墓碑标记。这个墓碑标记指示这一行已经被逻辑上删除。
2. 继续保留数据：
  尽管一行数据被标记为已删除，它的数据仍然保留在HBase的存储文件（HFile）中。这是因为HBase的数据是不可变的，一旦写入，就不会被直接修改或删除。
3. 读取时过滤：
  当读取数据时，HBase会根据墓碑标记过滤掉已被逻辑删除的行。这意味着即使数据仍然存在于磁盘上，它也不会被返回给客户端。
4. Compaction操作：
  随着时间的推移，HBase会定期进行一种称为Compaction的后台操作。Compaction是LSM树中的一个过程，它合并多个较小的HFile文件，删除标记为删除的数据，并优化存储结构。
5. Major Compaction：
  在Major Compaction过程中，HBase会执行更彻底的文件合并，这可能涉及到删除整个文件或文件的大部分。在这个阶段，带有墓碑标记的行将从文件中完全移除，并且相关的空间会被回收。
6. 释放空间：
  一旦墓碑标记的行数据在Major Compaction中被清理，它们占用的空间会被释放，并且这些数据将不再占用存储空间。
7. 更新元数据：
  删除操作和Compaction操作都会更新HBase的元数据，确保系统的状态与实际存储的数据保持一致。
通过这种方式，HBase实现了一种空间和性能效率都很高的删除机制。虽然数据在逻辑上被立即删除，但物理删除会在后续的Compaction操作中进行，这样可以减少对磁盘I/O的频繁操作，提高系统的整体性能。
相关阅读:
operator简介
 数据结构 | Python实现列表队列 | 源码和示例
 307 week contest
LeetCode--179. 最大数（C++描述）
shopee马来西亚和菲律宾站哪个好做？做shopee跨境如何选择站点？
Python机器学习、深度学习提升气象、海洋、水文领域实践应用
 Tomcat 接收请求并传递给工作线程池流程
 Kotlin 预备知识
 coroot配置opentelemetry无效
 从tushare建立自己的A股 qlib数据库
原文地址：https://blog.csdn.net/jianing1018/article/details/139336983

1. 简述什么是WAL(Write Ahead Log)预写日志 ？

2. 详细阐述Hase的数据模型 ？

3. 简述Hbase 构建Scanner体系 ？

4. HBase 如何将某个表内存中的所有数据刷写到磁盘？

5. HBase中有哪些不同的压缩类型？

6. HBase中的墓碑标记（tombstone ）是什么？HBase中有多少个墓碑标记？

7. 解释Hbase如何实际删除一行？

1. 简述什么是WAL(Write Ahead Log)预写日志？

2. 详细阐述Hase的数据模型？

3. 简述Hbase 构建Scanner体系？