索引是通过某种算法,构建出一个数据模型,用于快速找出在某个列中有一特定值的行
就像新华字典的根据拼音查询一个字一样,如果没有索引就需要一页一页查找,效率极慢,这样表数据越多,查询的时间就会越长。
如果表中查询的列有一个索引,MySQL能够快速到达一个位置去搜索数据文件,而不必查看所有数据,那么将会节省很大一部分时间。
根据实现方式分类,可以分为 Hash索引 与 B+Tree索引
按照功能来分,索引划分为以下分类:
**单列索引:一个索引只包含单个列,但一个表中可以有多个单列索引
什么是最左原则?
-- 创建索引的基本语法
create index index_phone_name on student(phone_num,name);
就比如说这里索引有两个字段phone_num和name
select * from student where name = '张三';
select * from student where phone_num = '15100046637';
select * from student where phone_num = '15100046637' and name = '张三';
select * from student where name = '张三' and phone_num = '15100046637';
三条sql只有 2 、 3、4能使用的到索引idx_phone_name,因为条件里面必须包含索引前面的字段 才能够进行匹配。
而3和4相比where条件的顺序不一样,为什么4可以用到索引呢?
是因为mysql本身就有一层sql优化,他会根据sql来识别出来该用哪个索引,我们可以理解为3和4在mysql眼中是等价的。
用 like + % 就可以实现模糊匹配了,为什么还要全文索引?
like + % 在文本比较少时是合适的,但是对于大量的文本数据检索,是不可想象的。全文索引在大量的数据面前,能比 like + % 快 N 倍,速度不是一个数量级,但是全文索引可能存在精度问题。
但是有些mysql版本是不支持全文索引的
- MySQL 5.6 以前的版本,只有 MyISAM 存储引擎支持全文索引;
- MySQL 5.6 及以后的版本,MyISAM 和 InnoDB 存储引擎均支持全文索引;
- 只有字段的数据类型为 char、varchar、text 及其系列才可以建全文索引;
在数据量较大时候,现将数据放入一个没有全局索引的表中,然后再用create index创建fulltext索引,要比先为一张表建立fulltext然后再将数据写入的速度快很多;
MySQL 中的全文索引,有两个变量,最小搜索长度和最大搜索长度
对于长度小于最小搜索长度和大于最大搜索长度的词语,都不会被索引。
通俗点就是说,想对一个词语使用全文索引搜索,那么这个词语的长度必须在以上两个变量的区间内。这两个的默认值可以使用以下命令查看:
show variables like '%ft%';
# | 参数名称 | 默认值 | 最小值 | 最大值 | 作用 |
---|---|---|---|---|---|
1 | ft_min_word_len | 4 | 1 | 3600 | MyISAM 引擎表全文索引包含的最小词长度 |
2 | ft_query_expansion_limit | 20 | 0 | 1000 | MyISAM引擎表使用 with query expansion 进行全文搜索的最大匹配数 |
3 | innodb_ft_min_token_size | 3 | 0 | 16 | InnoDB 引擎表全文索引包含的最小词长度 |
4 | innodb_ft_max_token_size | 84 | 10 | 84 | InnoDB 引擎表全文索引包含的最大词长度 |
和常用的模糊匹配使用 like + % 不同,全文索引有自己的语法格式,使用 match 和 against 关键字,格式:
match (col1,col2,...) against(expr [search_modifier])
select * from t_article where match(content) against('yo’); -- 没有结果 单词数需要大于等于3
select * from t_article where match(content) against('you'); -- 有结果
类型 | 含义 | 说明 |
---|---|---|
Geometry | 空间数据 | 任何一种空间类型 |
Point | 点 | 坐标值 |
LineString | 线 | 有一系列点连接而成 |
Polygon | 多边形 | 由多条线组成 |
create table shop_info (
id int primary key auto_increment comment 'id',
shop_name varchar(64) not null comment '门店名称',
geom_point geometry not null comment '经纬度’,
spatial key geom_index(geom_point)
);
索引其内部有Hash算法与B+Tree
通过某一个公式算出hashCode,然后通过hashCode快速找到需要的数据
**优点:**通过字段的值计算的hash值,定位数据非常快。
**缺点:**不能进行范围查找,因为散列表中的值是无序的,无法进行大小的比较。
目前大部分数据库系统及文件系统都采用B-Tree或其变种B+Tree作为索引结构,Btree结构可以有效的解决之前的相关算法遇到的问题。
可以通过下面的这个网站可视化理解B+TREE的插入查询删除数据的流程
3是指三阶,当数据等于三个之后,就会变成树木,第二个数据就会父节点,以此类推