2022-08-19 mysql/stonedb聚合aggregate多线程并行化-概要设计

2022-08-19 mysql/stonedb聚合aggregate多线程并行化-概要设计
摘要:

对聚合的多线程并行化做概要设计

https://github.com/stoneatom/stonedb/issues/422

需求分析:

功能需求:
1. 与现有逻辑处理的聚合条件保持一致
2. 以Aggregate函数为入口, 以ResultSender为结果输出
性能需求:

表的数据量限制:
1. 物理磁盘能容纳的上限
2. 存在超出内存限制
内存占用限制:
1. 添加参数控制聚合时候可使用的最大的内存
2. 超出限制则用临时磁盘文件
执行耗时限制:
1. 相同条件下，最多与innodb的聚合查询处于相同数量级
2. 以小于innodb的聚合查询耗时为目标
概要功能细分:

表元组分割:

分割目标:
1. 将单线程遍历的处理的表数据，均匀的分为不同的区间, 使不同的工作线程可以独立的处理某个区间的数据
2. 正确处理不同的工作线程所面临的内存可见性, 确保工作线程本身功能的完整与正确，而不会由于临界区的重叠导致不同线程工作时互相影响
面临问题:
1. 如何拿到表元组的描述信息, 一共多少行,多少列,有多少个pack?
2. 将表元组分区间的规则是什么, 要启动多少个工作线程, 每个工作线程处理多少区间?
3. GroupByWrapper当前保存了表的完整的信息, 并且持有列的某一行是否有数据的block的标识信息, 导致无法多线程并行处理该
相关阅读:
R语言绘制时间序列的偏自相关函数图：使用pacf函数可视化时间序列数据的偏自相关系数图、分析是否存在自相关性以及显著相关的个数
 在易语言中调用MS SQL SERVER数据库存储过程方法总结
 马尔可夫链文本生成预测
 超级细胞丨爆款游戏公司Supercell组织敏捷化是如何实现的
 zabbix触发器与动作
 我们对 .NET 9 的愿景
 初学者学习JS很吃力怎么办？到底该如何学习JS？
人工智能轨道交通行业周刊-第9期（2022.8.8-8.14）
【Unity-Cinemachine相机】虚拟相机（Virtual Camera）的本质与基本属性
 【pwn】2022 极客大挑战
原文地址：https://blog.csdn.net/adofsauron/article/details/126426197

摘要:

需求分析:

功能需求:

性能需求:

表的数据量限制:

内存占用限制:

执行耗时限制:

概要功能细分:

表元组分割:

分割目标:

面临问题: