• Q格式的数据


    1 前言

    Q格式是的定二进制点数格式,相对于浮点数,Q格式指定了相应的小数位数和整数位数,在没有浮点运算的平台上,可以更快地对浮点数据进行处理,以及应用在需要恒定分辨率的程序中(浮点数的精度是会变化的)。

    需要注意的是,Q格式是概念上小数定点,通过选择常规的二进制数整数位数和小数位数,从而达到所需要的数值范围和精度,这里可能有点抽象,下面继续看介绍。

    2 Q数据的表示

    2.1 范围和精度

    定点数通常表示为,其中m为整数个数,n为小数个数,其中最高位位符号位并且以二进制补码的形式存储:

    • 范围:,
    • 精度:

    无符号的用表示:

    • 范围:,
    • 精度:

    2.2 推导

    无符号Q格式数据的推导这里以一个16位无符号整数为例,所能表示的最大数据的二进制形式,如下图所示:

    所以不难看出,的范围大小和精度;根据等比数列求和公式得到,整数域最大值如下:

     

    小数域最大值如下:

    因此的范围满足 ,;

    有符号Q格式数据的推导这里以一个16位有符号整数为例,所能表示的最大数据的二进制形式,如下图所示:

    所以不难求出,的范围大小和精度;根据等比数列求和公式得到,整数域最大值如下:

    小数域最大值如下:

    因此最大能表示的数为:;

    所能表示的最小数据的二进制形式,如下图所示:

    可以从图中看到,该数表示为;

    补充一下:负数在计算机中是补码的形式存在的, 补码=反码+1,符号位为 1则表示为负数;
    那么 -4该如何表示呢?
    8 bit数据为例,如下所示;
    原码: 0B 0000 100
    反码: 0B 1111 011
    补码: 0B 1111 100

    综上,可以得到有符号的范围是:,

    3 Q数据的运算

    3.1 0x7FFF

    最大数的十六进制为0x7FFF,如下图所示:

    3.2 0x8000

    最小数的十六进制为0X8000,如下图所示:

    上述这两种情况,下面都会用到。

    3.3 加法

    加法和减法需要两个Q格式的数据定标相同,即和满足以下条件:

    1. int16_t q_add(int16_t a, int16_t b)
    2. {
    3. return a + b;
    4. }

    上面的程序其实并不安全,在一般的DSP芯片具有防止溢出的指令,但是通常需要做一下溢出检测,具体如下所示:

    1. //https://great.blog.csdn.net/
    2. int16_t q_add_sat(int16_t a, int16_t b)
    3. {
    4. int16_t result;
    5. int32_t tmp;
    6. tmp = (int32_t)a + (int32_t)b;
    7. if (tmp > 0x7FFF)
    8. tmp = 0x7FFF;
    9. if (tmp < -1 * 0x8000)
    10. tmp = -1 * 0x8000;
    11. result = (int16_t)tmp;
    12. return result;
    13. }

    3.4 减法

    类似于加法的操作,需要相同定标的两个Q格式数进行相减,但是不会存在溢出的情况。

    1. //https://great.blog.csdn.net/
    2. int16_t q_sub(int16_t a, int16_t b)
    3. {
    4. return a - b;
    5. }

    3.5 乘法

    乘法同样需要考虑溢出的问题,这里通过sat16函数,对溢出做了处理。

    1. //https://great.blog.csdn.net/
    2. // precomputed value:
    3. #define K (1 << (Q - 1))
    4. // saturate to range of int16_t
    5. int16_t sat16(int32_t x)
    6. {
    7. if (x > 0x7FFF) return 0x7FFF;
    8. else if (x < -0x8000) return -0x8000;
    9. else return (int16_t)x;
    10. }
    11. int16_t q_mul(int16_t a, int16_t b)
    12. {
    13. int16_t result;
    14. int32_t temp;
    15. temp = (int32_t)a * (int32_t)b; // result type is operand's type
    16. // Rounding; mid values are rounded up
    17. temp += K;
    18. // Correct by dividing by base and saturate result
    19. result = sat16(temp >> Q);
    20. return result;
    21. }

    3.6 除法

    1. //https://great.blog.csdn.net/
    2. int16_t q_div(int16_t a, int16_t b)
    3. {
    4. /* pre-multiply by the base (Upscale to Q16 so that the result will be in Q8 format) */
    5. int32_t temp = (int32_t)a << Q;
    6. /* Rounding: mid values are rounded up (down for negative values). */
    7. /* OR compare most significant bits i.e. if (((temp >> 31) & 1) == ((b >> 15) & 1)) */
    8. if ((temp >= 0 && b >= 0) || (temp < 0 && b < 0)) {
    9. temp += b / 2; /* OR shift 1 bit i.e. temp += (b >> 1); */
    10. } else {
    11. temp -= b / 2; /* OR shift 1 bit i.e. temp -= (b >> 1); */
    12. }
    13. return (int16_t)(temp / b);
    14. }

    4 常见Q格式的数据范围

    定点数和浮点数转换的关系满足以下公式:

    其中为, m表示整数位数, n表示小数位数;
    1. #include <stdio.h>
    2. #include <stdint.h>
    3. #include <math.h>
    4. int main()
    5. {
    6. // 0111 1111 1111 1111
    7. int16_t q_max = 32767; // 0x7FFF
    8. // 1000 0000 0000 0000
    9. int16_t q_min = -32768; // 0x8000
    10. float f_max = 0;
    11. float f_min = 0;
    12. printf("\r\n");
    13. for (int8_t i = 15; i>=0; i--) {
    14. f_max = (float)q_max / pow(2,i);
    15. f_min = (float)q_min / pow(2,i);
    16. printf("\t| Q %d | Q %d.%d| %f | %f |\r\n",
    17. i,(15-i),i,f_max,f_min);
    18. }
    19. return 0;
    20. }
  • 相关阅读:
    vant组件安装之后导入所有组件报错
    探索Netty的EventLoop
    cuda系列详细教程-花絮
    轻量封装WebGPU渲染系统示例<4>-CubeMap/天空盒(源码)
    FlinkSQL自定义UDATF实现TopN
    短视频平台如何保证内容安全问题?
    Linux命令大全
    Efficient Large-Scale Language Model Training on GPU ClustersUsing Megatron-LM
    GBase 8c V3.0.0数据类型——网络地址函数和操作符(cidr和inet操作符)
    8位二进制cpu的设计和制作(三)
  • 原文地址:https://blog.csdn.net/lbaihao/article/details/126531259