• protobuf 中数据编码规则


    背景

    protobuf 是一种跨平台的序列化结构数据的方法,可用于网络数据传输及存储;protobuf 在生成的 C++ 代码中为 .proto 文件中的每个 message 生成了对应的 C++ 类,并提供了数据成员的读写方法。

    本文对 protobuf 中数据编码规则进行总结,以知其然也知其所以然。

    基本概念
    ①.wire-type

    wire-type 指编码类型,如下表所示

    wire-type名称说明
    0Varint变长整形
    164-bits固定 8 个字节
    2Length-delimitedLength+Body 方式
    532-bits固定 4 个字节

    ②.field-number

    field-number 即字段的数字标识符,表示字段的唯一性。

    ③.msb

    msb 指每个字节的最高位,Varint 中用来标记后续是否有更多的字节需要读取。

    消息结构

    ①.概述

    protobuf 消息的二进制数据是由一系列的键值对依次排列构成:

    在这里插入图片描述

    其中:Tag 信息:存储 wire-type 和 field-number,用来标识每一个字段;Data 信息:存储字段值编码后的二进制序列。

    ②.Tag 生成规则

    Tag 用一个字节表示,其中低 3 个字节标识 wire-type,生成规则如下:

    Tag = field-number << 3 | wire-type
    
    • 1

    Varint 编码 ①.概述

    Varint 编码是一种可变长的编码方式。Varint 每个字节使用低 7 位存储数值,采用小段存储。

    ②.内存中 int 编码

    C++int4 个字节,以整数 200 为例:
    
    std::cout << std::bitset<32>(200) << endl;
    
    • 1
    • 2
    • 3

    在这里插入图片描述

    ③.protobuf 中 int 编码

    示例 message 中定义一个 int32 成员:

    message DemoMsg
    {
       int32 a = 1;
    }
    
    • 1
    • 2
    • 3
    • 4

    序列化后结果如下:

    void printStringByBin(const std::string& s)
    {
        for (auto& c : s)
        {
            std::cout << std::bitset<8>(  static_cast<short>(c)) << " ";
        }
        std::cout << std::endl;
    }
    int main()
    {
        protoTest::DemoMsg msg;  
        msg.set_a(200);
        string s = msg.SerializeAsString();
        printStringByBin(s);
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15

    在这里插入图片描述

    整数 200 在经 protobuf 序列化后只需要 2 个字节(仅 Data 部分),Varint 编码中数值越小需要的字节数越少。比如整数 2 只需要 1 个字节:

    在这里插入图片描述

    ④.Varint 编码过程示例

    以整数 200 为例 Varint 编码规则如下:

    在这里插入图片描述

    Length-delimited 编码

    ①.概述

    字符串编码的数据部分由长度和字符序列构成,其中长度采用 Varint 方式编码。string 类型以及 message 、map 等复合类型的字段都是采用 Length-delimited 方式编码,先指定数据长度,然后后面依次是内部各字段的编码。

    ②.string 编码示例

    示例 message 中定义一个 string 成员:

    message DemoMsg
    {
       string a = 1;
    }
    
    • 1
    • 2
    • 3
    • 4

    序列化后结果如下:

    void printStringByHex(const std::string& s)
    {
        for (auto& c : s)
        {
            std::cout << std::hex <<std::setfill('0') << std::setw(2) << static_cast<short>(c) << " ";
        }
        std::cout << std::endl;
    }
    
    int main()
    {
        protoTest::DemoMsg msg;  
        msg.set_a("abcd");
        string s = msg.SerializeAsString();
        printStringByHex(s);
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16

    在这里插入图片描述

    固定长度编码

    ①.概述

    固定长度编码方式 Data 部分采用固定的长度编码,如 fixed32 采用固定 4 个字节表示数字。

    ②.fixed32 编码示例

    示例 message 中定义一个 fixed32 成员:

    message DemoMsg
    {
       fixed32  a = 1;
    }
    
    • 1
    • 2
    • 3
    • 4

    序列化后结果如下:

    int main()
    {
        protoTest::DemoMsg msg;  
        msg.set_a(200);
        string s = msg.SerializeAsString();
        printStringByBin(s);
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    在这里插入图片描述

    数据类型选择

    ①.概述

    由于不同的编码方式所需要的字节数不一样,为提高数据编码及传输效率,要为 message 中每个字段选择合适的类型。

    ②.正整数

    如果数值是正数,根据值的范围大小使用 uint32 \ uint64 类型,但如果数值总是比较大的话选择 fixed32 \ fixed64。

    ③.负整数

    如果数值可能是负数,根据值的范围大小使用 int32 \ int64 类型;但如果数值总是比较大的话选择 sfixed32 \ sfixed64;

    ④.浮点数

    float \ double 是固定使用 4 \ 8个字节编码,为提高效率可以把浮点数转为整形进行传输;

    ⑤.字符串

    string 和 bytes 都是字符串,但 string 仅支持 UTF-8 或者 7-bit ASCII 编码的文本。

    在这里插入图片描述

  • 相关阅读:
    图解:Elasticsearch 8.X 如何求解环比上升比例?
    Day01 SpringBoot第一次笔记---运维实用篇
    C++标准模板(STL)- 类型支持 (数值极限,has_signaling_NaN,has_denorm,has_denorm_loss)
    kubeadm init失败
    奇瑞新能源旗下新车——无界Pro上市,雷霆机甲炫酷登场
    flume安装
    C的char溢出
    如何利用 RPA 实现自动化获客?
    【云原生】DevOps之使用Gitlab Runner进行CICD
    如何判断用户的密码是否为强密码?
  • 原文地址:https://blog.csdn.net/lizhichao410/article/details/126114971