由于业务涉及到数据比较大,用户对导出功能使用频繁,每次导出数据两10万以上。
为了减少数据库压力,及应用服务器性能压力。
在此记录一下大数据导出解决方案。
数据周期: 一天内数据不变,即:数据一天首次更新后,要到第二天才会变动。
摘要ID: 如果ID相同,说明是相同的导出任务,可以重用,没必要开启新的导出任务。
message: URI + 关键参数字符串 + 当天时间
针对大数据导出,大家都说好。此次省略好多字
附件存贮服务。
各有喜好,我就用了这个。
相关桶主备功能可以参阅我的另一篇文章:Minio桶复制(Bucket Replication)
主要功能:数据以流的方式有结果,一条一条的处理。
以前是先查询所有数据,再封装到 SXSSFWorkbook, 现在改成每来一条就添加一条到SXSSFWorkbook,所以SXSSFWorkbook需要做好封装。
关键代码:
@Autowired
private SqlSessionFactory sqlSessionFactory;
SqlSession sqlSession = sqlSessionFactory.openSession();
这里注意: void
优化前
// 问题:
// 1. XSSFWorkbook 不适合大数据导出
// 2. bos.toByteArray() 会造成内存溢出
XSSFWorkbook xwb = new XSSFWorkbook();
...........
......
ByteArrayOutputStream bos = new ByteArrayOutputStream();
wb.write(bos);
byte[] bytes = bos.toByteArray();
........
// 使用 bytes 上传到 minio
优化后:
使用 PipedInputStream 直接上传到 minio
这里注意:
1.
// 一定要有
// 新手包括我自己,平时写代码没有关闭连接的习惯,很多连接不关闭短时间是没有问题的
// 但是!在这里必须有,不然PipedInputStream 会一直堵塞,minio 上传无法完成。
out.close();
executor: 线程池
PipedInputStream , PipedOutputStream 两者不能在同一线程里, 大家都这么说。
SXSSFWorkbook wb = new SXSSFWorkbook();
.............
需要根据自己的业务情况考虑。
改造 SXSSFWorkbook 需要做好封装。
对 PipedInputStream ,PipedOutputStream 需要有一定了解,起初没有正确关闭流,导致bug调试很久。
—————— 但行好事莫问前程,你若盛开蝴蝶自来