在 Redis 中,任意数据类型的键和值都会被封装为一个 RedisObject ,也叫做Redis对象,源码如下
c
复制代码
/*server.h*/ typedef struct redisObject { unsigned type:4; unsigned encoding:4; unsigned lru:LRU_BITS; /* LRU time (relative to global lru_clock) or * LFU data (least significant 8 bits frequency * and most significant 16 bits access time). */ int refcount; void *ptr; } robj;
我们来看一下这个结构体中的成员变量分别代表什么:
unsigned type:4 :对象类型,分别是 string hash list set zset ,占 4 个 bit 位,如下所示
复制代码
#define OBJ_STRING 0 /* String object. */ #define OBJ_LIST 1 /* List object. */ #define OBJ_SET 2 /* Set object. */ #define OBJ_ZSET 3 /* Sorted set object. */ #define OBJ_HASH 4 /* Hash object. */ unsigned encoding:4: 底层编码方式,共有 11 种,4 个 bit 位
unsigned lru:LRU_BITS :该对象最后一次被访问的时间,占 24 个 bit ,在 Redis 内存回收中起到关键作用
int refcount :对象引用计数器,计数器为 0 则说明对象无人引用,可以被回收
void *ptr:指针,指向存放实际数据的空间
我们注意到,在 Redis 中有 5 中数据结构(用户使用的),但在底层却有 11 种编码方式,Redis 会根据存储的数据类型、存储数据的大小,选择不同的编码方式,以获得最优的性能。一种数据结构会对应多种数据结构,如下表所示。
| 数据类型 | 编码方式 |
|---|---|
| OBJ_STRING | int、embstr、raw |
| OBJ_LIST | LinkedList和ZipList(3.2以前)、QuickList(3.2以后) |
| OBJ_SET | intset、HT |
| OBJ_ZSET | ZipList、HT、SkipList |
| OBJ_HASH | ZipList、HT |
下面,我们现在介绍以下 String 数据类型,及其底层的编码方式。
String 类型,也就是字符串类型,是Redis中最简单的存储类型。它可以存储字符串、整数或浮点数。下面是一些 String 类型常用的命令
SET key value:设置指定 key 的值为指定的字符串或数字。
GET key:获取指定 key 的值。
复制代码
本地虚拟机redis:0>set key01 value01 "OK" 本地虚拟机redis:0>get key01 "value01" INCR key:将指定 key 的值加 1,如果该 key 不存在,则先将其设置为 0,再进行加 1 操作。
DECR key:将指定 key 的值减 1,如果该 key 不存在,则先将其设置为 0,再进行减 1 操作。
INCRBY key increment:将指定 key 的值增加指定的增量。
DECRBY key decrement:将指定 key 的值减少指定的减量。
APPEND key value:将指定的值追加到指定 key 的值的末尾。
STRLEN key:返回指定 key 的值的长度。
GETRANGE key start end:返回指定 key 的值的子字符串,根据起始位置和结束位置指定。
SETRANGE key offset value:将指定 key 的值从指定偏移位置开始,替换为指定的字符串。
MSET key1 value1 [key2 value2 ...]:同时设置多个 key 的值。(”[ ]” 中括号内表示可选)
MGET key1 [key2 ...]:获取多个 key 的值。
💡 这里仅给出 SET、GET 命令,其他的请自行测试。这些命令只是 Redis String 类型命令的一小部分,Redis 还提供了其他更多的命令来处理 String 类型的数据。你可以参考 Redis 官方文档以获取完整的命令列表和详细的命令说明。
在 Redis 中,String 类型的数据结构并不是采用 C 语言中自带的字符串类型,C 语言中的数据结构存在很多问题,比如:
因此,String 在 Redis 中有其他三种编码方式: int、embstr、raw 。其中, raw 和 embstr 类型,都是基于动态字符串(SDS)实现的,下面我们先来看看动态字符串的结构是怎样的。
动态字符串的结构体如下
c
复制代码
struct __attribute__ ((__packed__)) hisdshdr8 { uint8_t len; /* used */ uint8_t alloc; /* excluding the header and null terminator */ unsigned char flags; /* 3 lsb of type, 5 unused bits */ char buf[]; };
这里解释一下结构体中各个成员变量的作用:
len:已经保存的字符串字节数,不包含结束标示alloc:申请的总的字节数,不包含结束标示flags:不同的 SDS 的头类型,用来控制 SDS 的头大小buf[]:真正存储数据我们先来聊一下 flags 这个成员变量。在 redis 中其实定义了 5 个 SDS结构体(其中 hisdshdr5 已经弃用)如图所示。他们之间的主要区别在于 len 和 alloc 的长度不同。
在 redis 中,为了尽可能地节省内存空间,当字符串长度在不同的区间时,会选择不同的结构体,例如:

例如,一个包含字符串“name”的 sds 结构如下:

SDS之所以叫做动态字符串,是因为它具备动态扩容的能力,例如一个内容为 “hello” 的 SDS,假如我们要给这个 SDS 追加一段字符串 ”world” ,这里首先会申请新内存空间:
这种机制称为内存预分配。内存预分配可以减少进行内存重新分配的开销,减少内存碎片,使得 redis 的性能得到提高,空间利用率也得到提高。
RAW

EMBSTR

💡 为什么是 44 字节?Redis 默认的内存分配器 jemalloc 分配内存大小的单位是 $2^n$ ,因此,如果分配的空间大小为 2、4 、8 … 字节等 $2^n$ 字节,就不会产生内存碎片。
而 redisObject 和 hisdshdr8 中 len alloc flags三个成员变量加起来刚刚好是 16 + 4 = 20 字节,如果 char[] (数据大小)的大小为 44 字节时,加起来刚刚好是 64 字节,也即 262^626 不会产生内存碎片。
c
复制代码
/* 44个v,采用embstr编码*/ 本地虚拟机redis:0>set key vvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvv "OK" 本地虚拟机redis:0>object encoding key "embstr" /* 45个v,采用embstr编码*/ 本地虚拟机redis:0>set key vvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvv "OK" 本地虚拟机redis:0>object encoding key "raw"
INT

c
复制代码
本地虚拟机redis:0>set key 12 "OK" 本地虚拟机redis:0>object encoding key "int"
写在最后:在使用 string 类型时,尽可能让其长度小于 44 字节,或者使用整数表示,使其使用 EMBSTR 和 INT 编码