【MySQL系统架构设计】
【MySQL索引设计与选择】
【MySQL事务底层原理】
在日常生活中,存在很多用到“索引”的地方,比如中华字典目录,图书馆分类,一本书籍目录,等待。那什么是索引?
索引是一种用于快速查找的数据结构。
索引是一种数据结构,那选择什么样的数据结构来构建索引呢? 数据结构的选择,无非就是查找算法的选择,可以从两个维度来进行权衡:时间复杂度 和 空间复杂度。常见的非O(n)数据结构有:
B-Tree 是一种自平衡的查找树,通常用于数据库和文件系统等需要高效地插入、删除和查找数据的应用中。B Tree 的名称中的“B”代表“平衡”(Balance),它的设计目标是确保树的高度保持平衡,从而保持快速的数据检索性能。下面是一个三路(分叉树)的平衡查找树。
可以看到 B Tree 具体以下特点:
上面的三路平衡查找树中,节点存储了两个键值(key-关键词,value-数据),三个指向子节点的指针,指针存储的是子节点所在磁盘块的地址。两个关键词划分成的三个范围域对应三个指针指向的子树的数据的范围域。以根节点为例,关键字为17和35,P1指针指向的子树的数据范围为小于17,P2指针指向的子树的数据范围为17~35,P3指针指向的子树的数据范围为大于35。
模拟查找关键字29的过程:
分析上面过程,发现需要3次磁盘 I/O 操作,和3次内存查找操作。由于内存中的关键字是一个有序表结构,可以利用二分法查找提高效率。而3次磁盘 I/O 操作是影响整个 B-Tree 查找效率的决定因素。
B Tree的优势
相比于二叉树,B树的深度远远小于二叉树,所以查找效率远远大于二叉树
B Tree的弊端
B Tree在做检索时,检索效率非常高,但是在做数据插入和删除时,会破坏 B Tree 的平衡,所以需要对节点进行分裂、 合并、转移等操作,而这个操作在节点数量较多的情况下性能影响较大。所以这也是为什么我们在使用B Tree为索引数据结构时,索引的创建和更改性能较慢的原因。
B+ 树是一种加强版多路平衡查找树。它的存储结构如下图所示:
B+ Tree 相比于 B Tree,主要优化点如下:
在B+ Tree数据结构下,模拟查找关键字29的过程:
MySQL为什么最终要去选择B+Tree?
在 MyISAM 存储引擎中,数据存储包括两个文件:
在MyISAM里面,索引和数据是两个独立的文件。 那我们怎么根据索引找到数据呢?实现机制如下图所示:
从MyISAM引擎中索引的实现来看,由于索引文件和数据文件是分离的,叶 子节点存储的是数据文件对应的磁盘地址,从索引文件.MYI中找到键值后, 会到数据文件.MYD中获取相应的数据记录。
注意:在MyISAM引擎中,主键索引和辅助索引在结构上没有任何区别。
只是主键索引要求key是唯一的,而辅助索引的key允许重复。
在InnoDB中,只有一个ibd文件,里面包含索引和数据。
同时,在B + Tree中的叶子节点存储了索引对应的数据行,所以我们称 InnoDB中索引即数据、数据即索引,它的整体结构如下图所示:
如上图中,叶子节点的数据区保存的就是真实的数据,在通过索引进行检索的时候,命中叶子节点,就可以直接从叶子节点中取出行数据。
聚簇索引:所谓的聚簇索引,就是指索引键值的逻辑顺序和表数据行的物理存储顺序一 致。只有聚簇索引才会在叶子节点缓存表中的数据。在InnoDB中,组织数据的方式就是用聚簇索引组织表(Clustered Index Organize Table),所以一张表创建了主键索引,那么这个主键索引就是聚集索引。
非聚簇索引:除了主键索引以外,其他索引均属于非聚簇索引,非聚簇索引的叶子节点不 会存储表数据。
查询一个非聚簇索引的字段,怎么去获取到数据的值呢?
从上面这个图可以看到,真正的数据仍然是保存到主键索引的叶子节点(这也就是为什么InnoDB表必须要有主键的原因),而辅助索引的叶子节点的数据区保存的是主键索引的关键字的值(非主键索引叶子节点的逻辑顺序和磁盘顺序不一致)。
参考文献:
BTree和B+Tree详解