Tensor Rt的int8量化原理

量化的目标

把神经网络运算的32浮点表示的权重，变成8为的Int整数，并且希望没有显著的准确率下降
为什么要采用In8,因为它可以带来更高的吞吐率，并且更少的内存占用
但是也面临挑战,Int8有更低的精度，并且有更小的动态范围
如何保证量化后的准确率呢，解决方案 ：对Int8量化后的模型权重和激活函数，进行最小化信息损失。
Tensor RT采用的方法，不需要额外的fine tuning 或重新训练。

In8推理

挑战

INT8 相对于FP32具有较低的精度和动态范围
从表中可以看出32位浮点，16位浮点,INT8 的动态范围有很大的不同，比如16位点是-65504 ~ +65504 ，32为浮点具有最大的动态范围是-3.4 * 10^(38) ~3.4 x10^(38)，而INT8的动态范围就小的多-128 ~ 127
所以我们不能通过简单的类型转换，将32位浮点，转换为8位的整数，否则就会带来很大的性能损失。

线性量化(Linear quartization)

int8 和张量的关系如下
Tensor Values =FP32 scale factor *int8 array +FP32 bias
其中FP32 bias经过研究对性能影响不大，可以去掉

Symmetric linear quartization

表示为:
Tensor Values =FP32 scale factor *int8 array
对于所有的int 8array 只要一个 FP32 scale factor

量化方法

有两种量化方式：非饱和的量化、饱和的量化

非饱和的量化方式

将上面浮点数的运算范围，映射到-127 ~127，通过把负的最大值映射到-127，正的最大值映射到127。但是这会导致显著的准确率下降。
饱和的量化方式

通过设定一个阈值T ,将-T到T这个范围内的映射到-127~127 ,小于-T映射到-127，大于T映射到127 。所以这种就是饱和的量化
如果我们能够很好的确定阈值T的话，就能很好的提高准确率，关键点是如何选取合适的阈值。

如何优化阈值选择

对In8的表示需要权衡动态范围和精度
在这里插入图片描述
上图是不同的网络，横轴是是activation value，纵轴是归一化数出现的次数，从第一张图可以看出，vgg19 conv3_4大的激活值出现的次数比较少，其他两幅图分别是resnet152的激活值分布,和googlenet:inception_3a的激活值分布。

我们想要考虑最小化信息损失，就要考虑32位浮点数转为8位整数只是重新对信息进行编码

相对熵

- 我们所希望的Int8 model 和最初的FP32的模型所表达的信息一样，如果做不到的话，我们希望最小化信息损失。
信息的损失通过KL散度进行度量，KL散度是度量两个概率分布之间的差异，从而度量新的编码方式带来的信息损失。

解决方案：Calibration

FP32 模型在校准数据集上推理，校准数据集从训练集中抽取一部分图片。
对于每一层：

收集激活值的分布(histograms)
用不同的饱和阈值产生不同的量化分布(quantized distributions)
从阈值中选择一个，使得对应的量化分布和激活值的分布，可以最小化KL散度。
$KL\_divergence(ref\_distr, quant\_distr)$ , 通过迭代就能得到一个最合适的饱和阈值

在这里插入图片描述

校准算法

calibration: 基于实验的迭代搜索阈值

提供一个样本数据集（最好是验证集的子集），称为“”校准数据集“”，称为"校准数据集"，用来做校准
在校准数据集上运行FP32推理。收集权重、激活的直方图，并生成一组具有不同阈值的8位表示法，并选择具有最少KL散度的表示。
KL散度利用参考分布（FP32分布）和量化分布之间（即8位量化激活）之间

TRT 提供了Int8EntropyCalibrator，该接口需要由回归端实现，以提供校准数据集合一些用于缓存结果的样本代码。

如何利用KL散度选择合适的阈值

Nvidia选择的是KL-divergence，其实就是相对熵。相对熵表述的就是两个分布的差异程度，这里就是量化前后两个分布的差异程度。差异最小就是最好的了，因此问题转换为求相对熵的最小值
在这里插入图片描述
KL散度就是精确度量这种最优和次优之间的差异。

FP32就是原来最优的编码，INT8就是次优的编码，用KL散度来描述这两种之间的差异。

Tensor RT量化的流程(workflow)

前提

FP32的训练Model
校准数据集

TensorRT所做的工作

用FP32的模型在校准数据集上做推理
收集不同阈值下权重、激活值的统计量（直方图）
执行校准算法得到最优的Scale factors
然后可以将FP32的权重量化到INT8
最终生成一个Calibration table（校准表）和INT8 可执行的推理引擎

在这里插入图片描述
左图是没有考虑饱和的，右图是考虑饱和的，图中白线位置为饱和阈值的位置，小于阈值部分保持不变，大于阈值部分都会量化到一个值上。

相关阅读:
可自由搭建的能源管理平台，轻松实现高效节能
树莓派开机教程
《发现的乐趣》作者费曼（读书笔记）
Linux网络驱动
驱动文件讲解
Vue 之 vue3 与 TS 的配合使用整理
(四):jenkins git插件安装+配置
【强化学习】Sarsa算法求解悬崖行走问题 + Python代码实战
【毕业设计】深度学习手势识别检测系统 - python
LeetCode515. Find Largest Value in Each Tree Row

原文地址：https://blog.csdn.net/weixin_38346042/article/details/125990927