大厂面试题-b树和b+树的理解

为了更清晰的解答这个问题，从三个方面来回答：

a.了解二叉树、AVL树、B树的概念

b.B树和B+树的应用场景

1.B树是一种多路平衡查找树，为了更形象的理解，我们来看这张图。

二叉树，每个节点支持两个分支的树结构，相比于单向链表，多了一个分支。

二叉查找树，在二叉树的基础上增加了一个规则，左子树的所有节点的值都小于它的根节点，右子树的所有子节点都大于它的根节点。

(如图)，二叉查找树会出现斜树问题，导致时间复杂度增加，因此又引入了一种平衡二叉树，它具有二叉查找树的所有特点，同时增加了一个规则：”它的左右两个子树的高度差的绝对值不超过1“。平衡二叉树会采用左旋、右旋的方式来实现平衡。

(如图)，而B树是一种多路平衡查找树，它满足平衡二叉树的规则，但是它可以有多个子树，子树的数量取决于关键字的数量，比如这个图中根节点有两个关键字3和5，那么它能够拥有的子路数量=关键字数+1。

因此从这个特征来看，在存储同样数据量的情况下，平衡二叉树的高度要大于B树。

B+树，其实是在B树的基础上做的增强，最大的区别有两个：

a.B树的数据存储在每个节点上，而B+树中的数据是存储在叶子节点，并且通过链表的方式把叶子节点中的数据进行连接。

b.B+树的子路数量等于关键字数

(如图所示)这个是B树的存储结构，从B树上可以看到每个节点会存储数据。

(如图所示)这个是B+树，B+树的所有数据是存储在叶子节点，并且叶子节点的数据是用双向链表关联的。

2.B树和B+树，一般都是应用在文件系统和数据库系统中，用来减少磁盘IO带来的性能损耗。

以Mysql中的InnoDB为例，当我们通过select语句去查询一条数据时，InnoDB需要从磁盘上去读取数据，这个过程会涉及到磁盘IO以及磁盘的随机IO(如图所示)我们知道磁盘IO的性能是特别低的，特别是随机磁盘IO。

因为磁盘IO的工作原理是，首先系统会把数据逻辑地址传给磁盘，磁盘控制电路按照寻址逻辑把逻辑地址翻译成物理地址，也就是确定要读取的数据在哪个磁道，哪个扇区。

为了读取这个扇区的数据，需要把磁头放在这个扇区的上面，为了实现这一个点，磁盘会不断旋转，把目标扇区旋转到磁头下面，使得磁头找到对应的磁道，这里涉及到寻道事件以及旋转时间。

很明显磁盘IO这个过程的性能开销是非常大的，特别是查询的数据量比较多的情况下。

所以在InnoDB中，干脆对存储在磁盘块上的数据建立一个索引，然后把索引数据以及索引列对应的磁盘地址，以B+树的方式来存储。

如图所示，当我们需要查询目标数据的时候，根据索引从B+树中查找目标数据即可，由于B+树分路较多，所以只需要较少次数的磁盘IO就能查找到。

3.为什么用B树或者B+树来做索引结构？原因是AVL树的高度要比B树的高度要高，而高度就意味着磁盘IO的数量。所以为了减少磁盘IO的次数，文件系统或者数据库才会采用B树或者B+树。

相关阅读:
匿名内部类的使用：（一看就会！！！）
std::logic_error 错误的解决
数据质量问题根源剖析
10个 Istio 流量管理最常用的例子，你知道几个？
前端开发：JS中向对象中添加对象的方法
11-13 /11-14代理模式 AOP
基于动态时间规整算法(DTW)的语音识别技术研究-含Matlab代码
全面认识redux应用
LeetCode 541. 反转字符串 II
电子元器件企业面临缺货涨价，SRM协同系统助力企业采购数字化智慧升级

原文地址：https://blog.csdn.net/gnwu1111/article/details/134251514