算术编码是图像压缩的主要算法之一。 是一种无损数据压缩方法,也是一种熵编码的方法。和其它熵编码方法不同的地方在于,其他的熵编码方法通常是把输入的消息分割为符号,然后对每个符号进行编码,而算术编码是直接把整个输入的消息编码为一个数,一个满足(0.0 ≤ n < 1.0)的小数n。
算术编码(Arithmetic coding)的本质思想也是对于高频字符进行短编码。
编码过程:
对于字符AABABCABAB有P(A) = 0.5,P(B) = 0.4,P( C ) = 0.1。那么算术编码会对0-1进行区间划分。
A:[0, 0.5), B:[0.5, 0.9), C:[0.9, 1)
AABABCABAB的第1个字符为A,那么我们选中了A的区间[0, 0.5)作为新的目标区间。我们对新目标区间,再按照ABC的概率占比进行划分:
A:[0, 0.25), B:[0.25, 0.45), C:[0.45, 0.5)
AABABCABAB的第2个字符为A,那么我们选中了A的区间[0, 0.25)作为新的目标区间。我们对新目标区间,再按照ABC的概率占比进行划分:
A:[0, 0.125), B:[0.125, 0.225), C:[0.225, 0.25)
AABABCABAB的第3个字符为B,那么我们选中了B的区间[0.125, 0.225)作为新的目标区间。我们对新目标区间,再按照ABC的概率占比进行划分:
A:[0.125, 0.175), B:[0.175, 0.215), C:[0.215, 0.225)
我们重复上面的操作,一直到最后一个字符。
当前字符 | 当前目标区间 |
---|---|
A | [0, 0.5) |
A | [0, 0.25) |
B | [0.125, 0.225) |
A | [0.125, 0.175) |
B | [0.15, 0.17) |
C | [0.168, 0.17) |
A | [0.168, 0.169) |
B | [0.1685, 0.1689) |
A | [0.1685, 0.1687) |
B | [0.1686, 0.16868) |
完成上面的操作后,最终的目标区间为:[0.1686, 0.16868),我们在这个区间内,任意选一个小数,便可以作为最终的编码小数。但是计算机只能识别0和1,所以我们再将小数转成二进制。我们的诉求是进行最短压缩,所以我们从[0.1686, 0.16868)选一个二进制表示最短的小数。这里我们选定0.16864013671875,二进制为:0.00101011001011,去掉整数位0以及小数点后,最终的二进制编码为00101011001011,长度为14位,比哈夫曼编码更短1位。
算术编码的解码过程:
二进制编码为00101011001011,加上小数点后还原为 0.00101011001011,对应的十进制编码小数是0.16864013671875。
我们先从初始区间中定位第一个字符:
A:[0, 0.5), B:[0.5, 0.9), C:[0.9, 1)
0.16864013671875位于A区间,所以第一个字符为A。我们接着对A:[0, 0.5) 进行划分:
A:[0, 0.25), B:[0.25, 0.45), C:[0.45, 0.5)
0.16864013671875仍然位于A区间,所以第二个字符仍然为A。我们接着对A:[0, 0.25)再进行划分:
A:[0, 0.125), B:[0.125, 0.225), C:[0.225, 0.25)
0.16864013671875位于B区间,所以第三个字符为B。我们接着对B:[0.125, 0.225)再进行划分:
A:[0.125, 0.175), B:[0.175, 0.215), C:[0.215, 0.225)
0.16864013671875 位于 A 区间,所以第四个字符为 A。
依次类推,我们可以从0.16864013671875将整个字符解码出来,得到AABABCABAB。
算术编码的压缩本质,就是保留字符排列顺序的同时,对于更高频出现的字符,也就是概率更大的字符,赋予更大的小数区间。
为什么要这样划分区间呢?
因为算术编码的目的,是要在最终的目标区间内,找一个二进制最短的小数作为最终编码。那怎么去找到这样一个目标区间呢?最终目标区间的范围更大,可容纳的小数精度就越低,意味着我们最终的二进制编码就更短。