protobuf 中数据编码规则

protobuf 中数据编码规则
背景

protobuf 是一种跨平台的序列化结构数据的方法，可用于网络数据传输及存储；protobuf 在生成的 C++ 代码中为 .proto 文件中的每个 message 生成了对应的 C++ 类，并提供了数据成员的读写方法。

本文对 protobuf 中数据编码规则进行总结，以知其然也知其所以然。

基本概念
①．wire-type

wire-type 指编码类型，如下表所示

wire-type 名称说明
0 Varint 变长整形
1 64-bits 固定 8 个字节
2 Length-delimited Length+Body 方式
5 32-bits 固定 4 个字节

②．field-number

field-number 即字段的数字标识符，表示字段的唯一性。

③．msb

msb 指每个字节的最高位，Varint 中用来标记后续是否有更多的字节需要读取。

消息结构

①．概述

protobuf 消息的二进制数据是由一系列的键值对依次排列构成：

其中：Tag 信息：存储 wire-type 和 field-number，用来标识每一个字段；Data 信息：存储字段值编码后的二进制序列。

②．Tag 生成规则

Tag 用一个字节表示，其中低 3 个字节标识 wire-type，生成规则如下：
```
Tag = field-number << 3 | wire-type
1
```
Varint 编码 ①．概述

Varint 编码是一种可变长的编码方式。Varint 每个字节使用低 7 位存储数值，采用小段存储。

②．内存中 int 编码
```
C++ 中 int 为 4 个字节，以整数 200 为例：

std::cout << std::bitset<32>(200) << endl;
1
2
3
```
③．protobuf 中 int 编码

示例 message 中定义一个 int32 成员：
```
message DemoMsg
{
   int32 a = 1;
}
1
2
3
4
```
序列化后结果如下：
```
void printStringByBin(const std::string& s)
{
    for (auto& c : s)
    {
        std::cout << std::bitset<8>(  static_cast<short>(c)) << " ";
    }
    std::cout << std::endl;
}
int main()
{
    protoTest::DemoMsg msg;  
    msg.set_a(200);
    string s = msg.SerializeAsString();
    printStringByBin(s);
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
```
整数 200 在经 protobuf 序列化后只需要 2 个字节（仅 Data 部分），Varint 编码中数值越小需要的字节数越少。比如整数 2 只需要 1 个字节：

④．Varint 编码过程示例

以整数 200 为例 Varint 编码规则如下：

Length-delimited 编码

①．概述

字符串编码的数据部分由长度和字符序列构成，其中长度采用 Varint 方式编码。string 类型以及 message 、map 等复合类型的字段都是采用 Length-delimited 方式编码，先指定数据长度，然后后面依次是内部各字段的编码。

②．string 编码示例

示例 message 中定义一个 string 成员：
```
message DemoMsg
{
   string a = 1;
}
1
2
3
4
```
序列化后结果如下：
```
void printStringByHex(const std::string& s)
{
    for (auto& c : s)
    {
        std::cout << std::hex <<std::setfill('0') << std::setw(2) << static_cast<short>(c) << " ";
    }
    std::cout << std::endl;
}

int main()
{
    protoTest::DemoMsg msg;  
    msg.set_a("abcd");
    string s = msg.SerializeAsString();
    printStringByHex(s);
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
```
固定长度编码

①．概述

固定长度编码方式 Data 部分采用固定的长度编码，如 fixed32 采用固定 4 个字节表示数字。

②．fixed32 编码示例

示例 message 中定义一个 fixed32 成员：
```
message DemoMsg
{
   fixed32  a = 1;
}
1
2
3
4
```
序列化后结果如下：
```
int main()
{
    protoTest::DemoMsg msg;  
    msg.set_a(200);
    string s = msg.SerializeAsString();
    printStringByBin(s);
}
1
2
3
4
5
6
7
```
数据类型选择

①．概述

由于不同的编码方式所需要的字节数不一样，为提高数据编码及传输效率，要为 message 中每个字段选择合适的类型。

②．正整数

如果数值是正数，根据值的范围大小使用 uint32 \ uint64 类型，但如果数值总是比较大的话选择 fixed32 \ fixed64。

③．负整数

如果数值可能是负数，根据值的范围大小使用 int32 \ int64 类型；但如果数值总是比较大的话选择 sfixed32 \ sfixed64;

④．浮点数

float \ double 是固定使用 4 \ 8个字节编码，为提高效率可以把浮点数转为整形进行传输；

⑤．字符串

string 和 bytes 都是字符串，但 string 仅支持 UTF-8 或者 7-bit ASCII 编码的文本。
相关阅读:
未整理的知识链接
 第06章数据缺失值处理与归一化
 将视频中的语音转换为文字：使用Python实现自动字幕
 基于ssm高校档案管理系统源码
 【PyTorch】深度学习实践之 CNN基础篇——卷积神经网络跑Minst数据集
 如何做好一道数学题
 018-第三代软件开发-整体介绍
 经验分享：产品经理面试的5大技巧
 一体化办公平台，办公效率就一个字：高
 机器学习——集成学习和梯度提升决策树
原文地址：https://blog.csdn.net/lizhichao410/article/details/126114971

wire-type	名称	说明
0	Varint	变长整形
1	64-bits	固定 8 个字节
2	Length-delimited	Length+Body 方式
5	32-bits	固定 4 个字节

背景

消息结构

Varint 编码 ①．概述

Length-delimited 编码

固定长度编码

数据类型选择