MySQL 45 讲 | 16 “order by”是怎么工作的？ - 码农知识堂

MySQL 45 讲 | 16 “order by”是怎么工作的？
16 | “order by”是怎么工作的？

order by的执行流程；有什么参数会影响执行的行为

假设你要查询城市是“杭州”的所有人名字，并且按照姓名排序返回前1000个人的姓名、年龄。

SQL语句可以这么写： select city,name,age from t where city='杭州' order by name limit 1000 ;

全字段排序
- 为避免全表扫描，需要在city字段加上索引。
- 在city字段上创建索引之后，用explain命令来看这个语句的执行情况。请添加图片描述
- Extra这个字段中的“Using filesort”表示的就是需要排序，MySQL会给每个线程分配一块内存用于排序，称为sort_buffer。
这个语句执行流程如下所示：
1. 初始化sort_buffer，确定放入name、city、age这三个字段；
2. 从索引city找到第一个满足city='杭州’条件的主键id，也就是图中的ID_X；
3. 到主键id索引取出整行，取name、city、age三个字段的值，存入sort_buffer中；
4. 从索引city取下一个记录的主键id；
5. 重复步骤3、4直到city的值不满足查询条件为止，对应的主键id也就是图中的ID_Y；
6. 对sort_buffer中的数据按照字段name做快速排序；
7. 按照排序结果取前1000行返回给客户端。
暂且把这个排序过程，称为全字段排序
- 其中**“按name排序”这个动作，可能在内存中完成，也可能需要使用外部排序**，这取决于排序所需的内存和参数sort_buffer_size。
- sort_buffer_size，是MySQL为排序开辟的内存（sort_buffer）的大小。如果排序数据量太大，内存放不下，则不得不利用磁盘临时文件辅助排序。
- 是否使用了临时文件。：通过查看 OPTIMIZER_TRACE 的结果；从 number_of_tmp_files中看到。
外部排序一般使用归并排序算法
- number_of_tmp_files表示排序过程中使用的临时文件数。图中12表示：MySQL将需要排序的数据分成12份，每一份单独排序后存在这些临时文件中。然后把这12个有序文件再合并成一个有序的大文件。
- 示例表中有4000条满足city='杭州’的记录，所以可以看到 examined_rows=4000，表示参与排序的行数是4000行。
- sort_mode 里面的packed_additional_fields的意思是，排序过程对字符串做了**“紧凑”处理**。即使 name字段的定义是varchar(16)，在排序过程中还是要按照实际长度来分配空间的。
rowid排序

如果单行很大，全字段排序这个方法效率不够好。那么，如果MySQL认为排序的单行长度太大会怎么做呢？

修改一个参数，让MySQL采用另外一种算法。

SETmax_length_for_sort_data = 16;
- max_length_for_sort_data，是MySQL中专门控制用于排序的行数据的长度的一个参数。它的意思是，如果单行的长度超过这个值，MySQL就认为单行太大，要换一个算法。
设置上述参数后计算过程的改变
- 新的算法放入sort_buffer的字段，只有要排序的列（即name字段）和主键id。
排序的结果就因为少了city和age字段的值，不能直接返回了，整个执行流程就变成：
1. 初始化sort_buffer，确定放入两个字段，即name和id；
2. 从索引city找到第一个满足city='杭州’条件的主键id，也就是图中的ID_X；
3. 到主键id索引取出整行，取name、id这两个字段，存入sort_buffer中；
4. 从索引city取下一个记录的主键id；
5. 重复步骤3、4直到不满足city='杭州’条件为止，也就是图中的ID_Y；
6. 对sort_buffer中的数据按照字段name进行排序；
7. 遍历排序结果，取前1000行，并按照id的值回到原表中取出city、name和age三个字段返回给客户端。
把它称为rowid排序。
- rowid排序多访问了一次表t的主键索引，就是步骤7。
- 最后的**“结果集”是一个逻辑概念**， MySQL服务端从排序后的sort_buffer中依次取出id，然后到原表查到city、name和age这三个字段的结果，不需要在服务端再耗费内存存储结果，是直接返回给客户端的。
- 从OPTIMIZER_TRACE的结果中，你还能看到另外两个信息也变了
  1. sort_mode变成了，表示参与排序的只有name和id这两个字段。
  2. number_of_tmp_files变成10了，是因为这时候参与排序的行数虽然仍然是4000行，但是每一行都变小了，因此需要排序的总数据量就变小了，需要的临时文件也相应地变少了。
全字段排序 VS rowid排序
- 如果MySQL认为内存足够大，会优先选择全字段排序，把需要的字段都放到sort_buffer中，这样排序后就会直接从内存里面返回查询结果了，不用再回到原表去取数据。
  
  体现了MySQL的一个设计思想：如果内存够，就要多利用内存，尽量减少磁盘访问。
- rowid排序会要求回表多造成磁盘读，因此不会被优先选择。
- 并不是所有的order by语句，都需要排序操作的。MySQL之所以需要生成临时表，并且在临时表上做排序操作，其原因是原来的数据都是无序的。
如果能够保证从city这个索引上取出来的行，就是按照name递增排序的话，是不是就可以不用再排序了呢？是的！
- 在这个市民表上创建一个city和name的联合索引，对应的SQL语句是： alter table t add index city_user(city, name)
查询过程的流程就变成了：
1. 从索引(city,name)找到第一个满足city='杭州’条件的主键id；
2. 到主键id索引取出整行，取name、city、age三个字段的值，作为结果集的一部分直接返回；
3. 从索引(city,name)取下一个记录主键id； alter table t add index city_user(city, name);
4. 重复步骤2、3，直到查到第1000条记录，或者是不满足city='杭州’条件时循环结束。
这个查询过程不需要临时表，也不需要排序 。

这个语句的执行流程有没有可能进一步简化呢？覆盖索引。
- 覆盖索引是指，索引上的信息足够满足查询请求，不需要再回到主键索引上去取数据 。
- 可以创建一个city、name和age的联合索引，对应的SQL语句就是 alter table t add index city_user_age(city, name, age)
对于city字段的值相同的行来说，还是按照name字段的值递增排序的，此时的查询语句也就不再需要排序了。这样整个查询语句的执行流程就变成了：
1. **从索引(city,name,age)**找到第一个满足city='杭州’条件的记录，取出其中的city、name和age 这三个字段的值，作为结果集的一部分直接返回；
2. 从索引(city,name,age)取下一个记录，同样取出这三个字段的值，作为结果集的一部分直接返回；
3. 重复执行步骤2，直到查到第1000条记录，或者是不满足city='杭州’条件时循环结束。
- 索引还是有维护代价的。这是一个需要权衡的决定。
小结
- order by语句的几种算法流程
- 全字段排序，可能会用到外部排序
- rowid排序
- 如果MySQL认为内存足够大，会优先选择全字段排序
- 使用索引可以提高效率，不需要临时表，不需要排序
相关阅读:
GBASE 8C——SQL参考6 sql语法（6）
iApp祁天社区UI成品源码功能齐全的社区应用
 JVM学习四
 阿里巴巴 CTO 程立：开源是基础软件的源头！
c# PDFSharp 给已有的pdf文件添加文字页脚（文字水印）
NOIP2023模拟15联测36 均分财产
 笔试题【day30】
力扣--找不同
 通过动态IP解决网络数据采集问题
 Linux服务器中安装Anaconda+Tensorflow+Keras
原文地址：https://blog.csdn.net/weixin_43806049/article/details/126903918

MySQL 45 讲 | 16 “order by”是怎么工作的？

16 | “order by”是怎么工作的？

全字段排序

这个语句执行流程如下所示：

外部排序一般使用归并排序算法

rowid排序

全字段排序 VS rowid排序

小结

MySQL 45 讲 | 16 “order by”是怎么工作的？

16 | “order by”是怎么工作的？

全字段排序

这个语句执行流程如下所示 ：

外部排序一般使用归并排序算法

rowid排序

全字段排序 VS rowid排序

小结

这个语句执行流程如下所示：