分布式缓存-Redis分片集群

分布式缓存-Redis分片集群
一、分片集群结构

主从和哨兵可以解决高可用、高并发读的问题，但是依然有两个问题没有解决：
- 海量数据存储问题
- 高并发写的问题
使用分片集群可以解决上述问题，分片集群特征：
- 集群中有多个 master，每个 master 保存不同数据（可解决高并发写的问题）
- 每个 master 都可以有多个 slave 节点（解决高并发读的问题）
- master 之间通过 ping 监测彼此健康状态（类似于哨兵机制）
- 客户端请求可以访问集群任意节点，最终都会被转发到正确节点
二、搭建分片集群

 2.1 集群结构

分片集群需要的节点数量较多，这里我们搭建一个最小的分片集群，包含3个master节点，每个master包含一个slave节点，结构如下：

这里我们会在同一台虚拟机中开启6个redis实例，模拟分片集群，信息如下：

IP PORT 角色
192.168.150.101 7001 master
192.168.150.101 7002 master
192.168.150.101 7003 master
192.168.150.101 8001 slave
192.168.150.101 8002 slave
192.168.150.101 8003 slave

2.2 准备实例和配置

删除之前的7001、7002、7003这几个目录，重新创建出7001、7002、7003、8001、8002、8003目录：
```
# 进入/tmp目录
cd /tmp
# 删除旧的，避免配置干扰
rm -rf 7001 7002 7003
# 创建目录
mkdir 7001 7002 7003 8001 8002 8003
1
2
3
4
5
6
```
在/usr/local/src/myredis下准备一个新的redis.conf文件，内容如下：
```
port 6379
# 开启集群功能
cluster-enabled yes
# 集群的配置文件名称，不需要我们创建，由redis自己维护
cluster-config-file /usr/local/src/myredis/6379/nodes.conf
# 节点心跳失败的超时时间
cluster-node-timeout 5000
# 持久化文件存放目录
dir /usr/local/src/myredis/6379
# 绑定地址
bind 0.0.0.0
# 让redis后台运行
daemonize yes
# 注册的实例ip
replica-announce-ip 192.168.150.101
# 保护模式
protected-mode no
# 数据库数量
databases 1
# 日志
logfile /usr/local/src/myredis/6379/run.log
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
```
将这个文件拷贝到每个目录下：
```
# 进入/usr/local/src/myredis目录
cd /usr/local/src/myredis
# 执行拷贝
echo 7001 7002 7003 8001 8002 8003 | xargs -t -n 1 cp redis.conf
1
2
3
4
```
修改每个目录下的redis.conf，将其中的6379修改为与所在目录一致：
```
# 进入/tmp目录
cd /usr/local/src/myredis
# 修改配置文件
printf '%s\n' 7001 7002 7003 8001 8002 8003 | xargs -I{} -t sed -i 's/6379/{}/g' {}/redis.conf
1
2
3
4
```
2.3 启动

因为已经配置了后台启动模式，所以可以直接启动服务：
```
# 进入/tmp目录
cd /usr/local/src/myredis
# 一键启动所有服务
printf '%s\n' 7001 7002 7003 8001 8002 8003 | xargs -I{} -t redis-server {}/redis.conf
1
2
3
4
```
通过ps查看状态：
```
ps -ef | grep redis
1
```
发现服务都已经正常启动：

如果要关闭所有进程，可以执行命令：
```
ps -ef | grep redis | awk '{print $2}' | xargs kill
1
```
或者（推荐这种方式）：
```
printf '%s\n' 7001 7002 7003 8001 8002 8003 | xargs -I{} -t redis-cli -p {} shutdown
1
```
2.4 创建集群

虽然服务启动了，但是目前每个服务之间都是独立的，没有任何关联。

我们需要执行命令来创建集群，在Redis5.0之前创建集群比较麻烦，5.0之后集群管理命令都集成到了redis-cli中。

1）Redis5.0之前
Redis5.0之前集群命令都是用redis安装包下的src/redis-trib.rb来实现的。因为redis-trib.rb是有ruby语言编写的所以需要安装ruby环境。
```
# 安装依赖
yum -y install zlib ruby rubygems
gem install redis
1
2
3
```
然后通过命令来管理集群：
```
# 进入redis的src目录
cd /usr/local/src/redis-6.2.6/src
# 创建集群
./redis-trib.rb create --replicas 1 192.168.150.101:7001 192.168.150.101:7002 192.168.150.101:7003 192.168.150.101:8001 192.168.150.101:8002 192.168.150.101:8003
1
2
3
4
```
2）Redis5.0以后

我们使用的是Redis6.2.6版本，集群管理以及集成到了redis-cli中，格式如下：
在 /usr/local/src/myredis/ 目录下执行下述命令：
```
redis-cli --cluster create --cluster-replicas 1 192.168.150.101:7001 192.168.150.101:7002 192.168.150.101:7003 192.168.150.101:8001 192.168.150.101:8002 192.168.150.101:8003
1
```
命令说明：
- redis-cli --cluster或者./redis-trib.rb：代表集群操作命令
- create：代表是创建集群
- --replicas 1或者--cluster-replicas 1 ：指定集群中每个master的副本个数为1，此时节点总数 ÷ (replicas + 1) 得到的就是master的数量。因此节点列表中的前n个就是master，其它节点都是slave节点，随机分配到不同master
运行后的样子：

这里输入yes，则集群开始创建：

通过命令可以查看集群状态：
```
redis-cli -p 7001 cluster nodes
1
```
2.5 测试

尝试连接7001节点，存储一个数据：
```
# 连接
redis-cli -p 7001
# 存储数据
set num 123
# 读取数据
get num
# 再次存储
set a 1
1
2
3
4
5
6
7
8
```
结果悲剧了：

集群操作时，需要给redis-cli加上-c参数才可以：
```
redis-cli -c -p 7001
1
```
这次可以了：

三、散列插槽

 3.1 散列插槽原理

Redis 会把每一个 master 节点映射到 0~16383 共 16384 个插槽（hash slot）上，查看集群信息时就能看到：

数据 key 不是与节点绑定，而是与插槽绑定。Redis 会根据 key 的有效部分计算插槽值，分两种情况：
- key 中包含”{}“，且”{}“中至少包含一个字符，”{}“中的部分是有效部分
- key 中不包含”{}“，整个 key 都是有效部分
例如：key 是 num，那么有效部分就是 num，所以就会根据 num 来计算插槽值。如果 key 是 {itcast}num，那么有效部分就是 itcast，就会根据 itcast 来计算插槽值。计算方式是利用 CRC16 算法得到一个 hash 值，然后对 16384 取余，得到的结果就是 slot 值。

为什么数据 key 要与插槽绑定，而不是与节点绑定呢？这是因为 Redis 的主节点有可能会出现宕机情况，也有可能由于集群伸缩而被删除，当节点删除或者发生宕机，节点上保存的数据也就丢失了，但如果数据是跟插槽绑定，那么当出现上述情况时，就可以将发生故障的节点上的插槽转移至活着的节点上。这样，数据跟插槽绑定，就永远都能够找到数据所在位置。

如图，在7001这个节点执行set a 1时，对a做hash运算，对16384取余，得到的结果是15495，因此要存储到7003节点。
到了7003后，执行get num时，对num做hash运算，对16384取余，得到的结果是2765，因此需要切换到7001节点

 3.2 总结

Redis 如何判断某个 key 应该在哪个实例？
- 将 16384 个插槽分配到不同的实例
- 根据 key 的有效部分计算哈希值，对 16384 取余
- 余数作为插槽，寻找插槽所在实例即可
如何将同一类数据固定的保存在同一个 Redis 实例？
这一类数据使用相同的有效部分，例如 key 都以{typeId}为前缀

 四、集群伸缩

redis-cli --cluster 提供了很多操作集群的命令，可以通过下面的方式查看：

add-node 命令在添加节点时，如果没有指定 --cluster-slave 以及 --cluster-master-id，那么这个节点默认就是一个主节点，cluster-slave 指定该节点为从节点，cluster-master-id 指定主节点 id。

4.1 需求分析

案例：向集群中添加一个新的 master 节点，并向其中存储 num=10。
需求：
- 启动一个新的 Redis 实例，端口为 7004
- 添加 7004 到之前的集群，并作为一个 master 节点
- 给 7004 节点分配插槽，使得 num 这个 key 可以存储到 7004 实例
这里需要两个新的功能：
- 添加一个节点到集群中
- 将部分插槽分配到新插槽
4.2 功能实现

 4.2.1 创建新的redis实例

创建一个文件夹：
```
mkdir 7004
1
```
拷贝配置文件：
```
cp redis.conf /7004
1
```
修改配置文件：
```
sed -i /s/6379/7004/g 7004/redis.conf
1
```
启动
```
redis-server 7004/redis.conf
1
```
4.2.2 添加新节点到redis

添加节点的语法如下：

执行命令：
```
redis-cli --cluster add-node  192.168.150.101:7004 192.168.150.101:7001
1
```
通过命令查看集群状态：
```
redis-cli -p 7001 cluster nodes
1
```
如图，7004加入了集群，并且默认是一个master节点：

但是，可以看到7004节点的插槽数量为0，因此没有任何数据可以存储到7004上

 4.2.3 转移插槽

我们要将num存储到7004节点，因此需要先看看num的插槽是多少：

如上图所示，num的插槽为2765.

我们可以将0~3000的插槽从7001转移到7004，命令格式如下：

具体命令如下：

建立连接：

得到下面的反馈：

询问要移动多少个插槽，我们计划是3000个：
新的问题来了：

哪个node来接收这些插槽？？
显然是7004，那么7004节点的id是多少呢？

复制这个id，然后拷贝到刚才的控制台后：

这里询问，你的插槽是从哪里移动过来的？
- all：代表全部，也就是三个节点各转移一部分
- 具体的id：目标节点的id
- done：没有了
这里我们要从7001获取，因此填写7001的id：

填完后，点击done，这样插槽转移就准备好了：

确认要转移吗？输入yes：

然后，通过命令查看结果：

可以看到：

目的达成。

4.3 练习：删除集群中的一个节点

需求：删除7004这个实例
具体步骤：
- 先将 7004 分配的插槽转移至其他节点，比如：7001 节点，具体可参照 4.2.3 操作步骤
- 执行删除节点命令redis-cli --cluster del-node host:port node_id
- 通过命令查询结果redis-cli -p 7001 cluster nodes
五、故障转移

集群初始状态是这样的：

其中7001、7002、7003都是master，我们计划让7002宕机。

5.1 自动故障转移

当集群中有一个master宕机会发生什么呢？
直接停止一个redis实例，例如7002：
```
redis-cli -p 7002 shutdown
1
```
可使用 watch redis-cli -p 7001 cluster nodes命令来实时监控集群中节点的状态变化

1）首先是该实例与其它实例失去连接
2）然后是疑似宕机：

3）最后是确定下线，自动提升一个slave为新的master：

4）当7002再次启动，就会变为一个slave节点了：

5.2 手动故障转移

利用 cluster failover 命令可以手动让集群中的某个 master 宕机，切换到 cluster failover 命令的这个 slave 节点，实现无感知的数据迁移。其流程如下：

当 slave 执行 cluster failover 命令时，slave 节点就会向 master 节点发送节点替换通知，为了避免数据的丢失，master 接收到 slave 节点发送过来的通知后，就会拒绝任何客户端的请求。然后，master 会返回当前的数据 offset 给 slave，slave 接收到后会判断自身数据中的 offset 与 master 中 offset 是否一致，如果不一致，则需要进行数据同步。由于 master 已经拒绝了客户端的所有请求，那么一旦 slave 完成数据同步，也就表示 slave 与 master 之间数据是完全一致的。之后，便开始进行故障转移，即 slave 与 master 进行角色互换，让 slave 成为新的 master，而旧的 master 则转变为新的 slave。转移结束后，slave 便会标记自己为 master，并向集群中每一个节点广播故障转移的结果。当集群中节点收到广播后，后续的所有交互便转移至新的master。

手动的 Failover 支持三种不同模式：
- 缺省：默认的流程，如图 1~6 步
- force：省略了对 offset 的一致性校验
- takeover：直接执行第 5 步，忽略数据一致性、忽略 master 状态和其他 master 的意见
5.2.1 案例需求

需求：在7002这个slave节点执行手动故障转移，重新夺回master地位

步骤如下：

1）利用redis-cli连接7002这个节点

2）执行cluster failover命令

 五、RedisTemplate 访问分片集群

RedisTemplate 底层同样基于 Lettuce 实现了分片集群的支持，而使用的步骤与哨兵模式基本一致：
1、引入 Redis 的 starter 依赖
2、配置分片集群地址
3、配置读写分离
与哨兵模式相比，其中只有分片集群的配置方式略有差异，如下：
```
spring:
  redis:
    cluster:
      nodes:
        - 192.168.150.101:7001
        - 192.168.150.101:7002
        - 192.168.150.101:7003
        - 192.168.150.101:8001
        - 192.168.150.101:8002
        - 192.168.150.101:8003
1
2
3
4
5
6
7
8
9
10
```
具体代码以及配置可以参照分布式缓存-Redis 哨兵中的第三部分使用 RedisTemplate 连接哨兵
相关阅读:
Mybatis-plus 用法
 大数据应用概览（林子雨慕课课程）
同志们，都开什么题啊？
vim入门
 【华为机试真题 JAVA】事件推送-100
Citespace、vosviewer、R语言的文献计量学、SCI
【Windows安装RabbitMQ详细教程】
微软行星云计算——使用leafmap进行交互式操作
 【Flink源码】再谈Flink程序提交流程（中）
JPEG算法及例程
原文地址：https://blog.csdn.net/dingd1234/article/details/124830099

IP	PORT	角色
192.168.150.101	7001	master
192.168.150.101	7002	master
192.168.150.101	7003	master
192.168.150.101	8001	slave
192.168.150.101	8002	slave
192.168.150.101	8003	slave

一、分片集群结构

二、搭建分片集群

2.1 集群结构

2.2 准备实例和配置

2.3 启动

2.4 创建集群

2.5 测试

三、散列插槽

3.1 散列插槽原理

3.2 总结

四、集群伸缩

4.1 需求分析

4.2 功能实现

4.2.1 创建新的redis实例

4.2.2 添加新节点到redis

4.2.3 转移插槽

4.3 练习：删除集群中的一个节点

五、故障转移

5.1 自动故障转移

5.2 手动故障转移

5.2.1 案例需求

五、RedisTemplate 访问分片集群