pg中的长事务会影响表中垃圾回收,导致表的年龄增长无法freeze。从我上一篇文章种可以看到select并不会消耗事务,所以能消耗事务的只有当执行了一些DML或者DDL操作后才能算是我们通常说的长事务。否则只能算是我们常说的长连接,当然长连接也有很多弊端,例如占用内存、cpu等资源。
之所以会导致表膨胀之类的问题,主要是在于backend_xid和backend_xmin两个字段。
backend_xid表示已申请事务号的事务,例如有增删改,DDL等操作的事务。backend_xid从申请事务号开始持续到事务结束。
backend_xmin表示SQL执行时的snapshot,即可见的最大已提交事务,。
而表膨胀的原因是什么呢?当数据库中存在未结束的SQL语句或者未结束的持有事务ID的事务,在此事务过程中,或在此SQL执行时间范围内产生垃圾的话,这些垃圾无法回收,导致数据库膨胀。
也就是判断当前数据库中backend_xid和backend_xmin最小的值,凡是超过这个最小值的事务产生的垃圾都不能回收。
比如如下事务505删除表操作
即使有506事务,backend_xmin能看到的事务也还是505
select * from pg_stat_activity where state <> 'idle' and (backend_xid is not null or backend_xmin is not null) ;
不管我505之后提交了多少事务,但是backend_xmin所能见到的最大事务也还是505,如果505到510执行了大量的批量dml语句,无法对505到510之间的数据进行vacuum,这个时候就会导致表膨胀
当我把505rollback之后,长事务才算结束,所以能看到的最大事务是510,即510之前的事务都可以做vacuum操作。
参考链接:https://blog.csdn.net/weixin_39540651/article/details/123230865