CREATE TABLE `detail` (
`id` bigint(20) unsigned NOT NULL COMMENT 'ID',
`batch_id` bigint(20) unsigned NOT NULL DEFAULT '0' COMMENT 'batch_id',
PRIMARY KEY (`id`),
KEY `idx_batch_id` (`batch_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='detail'
SELECT * FROM detail ORDER BY batch_id asc LIMIT 100 OFFSET 0;
SELECT * FROM detail ORDER BY batch_id asc LIMIT 100 OFFSET 100;
同一条记录在上述两种查询中都出现了
在有limit的情况下,order by的元素并不能唯一区分一个记录。
分页重复数据是否出现与排序字段数据唯一性有关,与排序字段是否有序无关,换句话说,只要排序字段的数据能够保证唯一性(如主键、唯一索引、不重复的普通字段),那么分页就不会存在重复数据,否则会有可能出现重复数据在不同分页中。
SELECT * FROM detail ORDER BY batch_id, id asc LIMIT 100 OFFSET 0;
在MySQL 5.6的版本上,优化器在遇到order by x limit m,n语句的时使用priority queue进行了优化。
使用优先级队列priority queue的目的,就是在不能使用索引有序性的时候,如果要排序,并且使用了limit n,那么只需要在排序的过程中,保留n条记录即可,这样虽然不能解决所有记录都需要排序的开销,但是只需要少量的内存就可以完成排序,也就是说优先级队列priority queue中只保留需要的最终返回的limit n即可。
之所以MySQL 5.6出现了第二页数据重复的问题,是因为priority queue使用了堆排序的排序方法,而堆排序是一个不稳定的排序方法,也就是相同的值可能排序出来的结果和读出来的数据顺序不一致。