哨兵(sentinel)是Redis的高可用性(High Availability)的解决方案:
- #1 安装redis5.0
- mkdir redis-master
- cd /var/redis-5.0.5/src/
- make install PREFIX=/var/redis-ms/redis-master
- cp /var/redis-5.0.5/redis.conf /var/redis-ms/redis-master/bin
-
- #2 修改redis.conf
- # 将`daemonize`由`no`改为`yes`
- daemonize yes
- # 默认绑定的是回环地址,默认不能被其他机器访问
- # bind 127.0.0.1
- # 是否开启保护模式,由yes该为no
- protected-mode no
Redis-Slaver1:127.0.0.1 6380
- #安装redis-slaver1
- mkdir redis-slaver1
- cp -r /var/redis-ms/redis-master/* /var/redis-ms/redis-slaver1
-
- #修改配置文件
- vim /var/redis-ms/redis-slaver1/redis.conf
- # 在配置文件中添加如下内容
- port 6380
- replicaof 127.0.0.1 6379
Redis-Slaver2:127.0.0.1 6381
- #安装redis-slaver2
- mkdir redis-slaver2
- cp -r /var/redis-ms/redis-master/* /var/redis-ms/redis-slaver2
-
- #修改配置文件
- vim /var/redis-ms/redis-slaver2/redis.conf
- port 6381
- replicaof 127.0.0.1 6379
Redis-Sentinel1:127.0.0.1 26379
- #安装redis-sentinel1
- mkdir redis-sentinel1
- cp -r /var/redis-ms/redis-master/* /var/redis-ms/redis-sentinel1
-
- #拷贝sentinel.conf 配置文件并修改
- cp /var/redis-5.0.5/sentinel.conf /var/redis-ms/redis-sentinel1
-
- # 哨兵sentinel实例运行的端口 默认26379
- port 26379
- # 将`daemonize`由`no`改为`yes`
- daemonize yes
-
- # 哨兵sentinel监控的redis主节点的 ip port
- # master-name 可以自己命名的主节点名字 只能由字母A-z、数字0-9 、这三个字符".-_"组成。
- # quorum 当这些quorum个数sentinel哨兵认为master主节点失联 那么这时 客观上认为主节点失联了
- # sentinel monitor <master-name> <ip> <redis-port> <quorum>
- sentinel monitor mymaster 127.0.0.1 6379 2
-
- # 当在Redis实例中开启了requirepass foobared 授权密码 这样所有连接Redis实例的客户端都要提供密码
- # 设置哨兵sentinel 连接主从的密码 注意必须为主从设置一样的验证密码
- # sentinel auth-pass <master-name> <password>
- sentinel auth-pass mymaster MySUPER--secret-0123passw0rd
-
- # 指定多少毫秒之后 主节点没有应答哨兵sentinel 此时 哨兵主观上认为主节点下线 默认30秒,改成3秒
- # sentinel down-after-milliseconds <master-name> <milliseconds>
- sentinel down-after-milliseconds mymaster 3000
-
- # 这个配置项指定了在发生failover主备切换时最多可以有多少个slave同时对新的master进行同步,
- # 这个数字越小,完成failover所需的时间就越长,
- # 但是如果这个数字越大,就意味着越 多的slave因为replication而不可用。
- # 可以通过将这个值设为 1 来保证每次只有一个slave 处于不能处理命令请求的状态。
- # sentinel parallel-syncs <master-name> <numslaves>
- sentinel parallel-syncs mymaster 1
-
- # 故障转移的超时时间 failover-timeout 可以用在以下这些方面:
- #1. 同一个sentinel对同一个master两次failover之间的间隔时间。
- #2. 当一个slave从一个错误的master那里同步数据开始计算时间。直到slave被纠正为向正确的master那里同步数据时。
- #3.当想要取消一个正在进行的failover所需要的时间。
- #4.当进行failover时,配置所有slaves指向新的master所需的最大时间。不过,即使过了这个超时,slaves依然会被正确配置为指向master,但是就不按parallel-syncs所配置的规则来了
- # 默认三分钟
- # sentinel failover-timeout <master-name> <milliseconds>
- sentinel failover-timeout mymaster 180000
Redis-Sentinel2:127.0.0.1 26380
- #安装redis-sentinel2
- mkdir redis-sentinel2
- cp -r /var/redis-ms/redis-sentinel1/* /var/redis-ms/redis-sentinel2
-
- #修改sentinel.conf
- vim /var/redis-ms/redis-sentinel2/sentinel.conf
- port 26380
Redis-Sentinel3:127.0.0.1 26381
- #安装redis-sentinel3
- mkdir redis-sentinel3
- cp -r /var/redis-ms/redis-sentinel1/* /var/redis-ms/redis-sentinel3
-
- #修改sentinel.conf
- vim /var/redis-ms/redis-sentinel3/sentinel.conf
- port 26381
配置好后依次执行
redis-master、redis-slaver1、redis-slaver2、redis-sentinel1、redis-sentinel2、redis-sentinel3
- #启动redis-master和redis-slaver
- 在redis-master目录下 ./redis-server redis.conf
- 在redis-slaver1目录下 ./redis-server redis.conf
- 在redis-slaver2目录下 ./redis-server redis.conf
- #启动redis-sentinel
- 在redis-sentinel1目录下 ./redis-sentinel sentinel.conf
- 在redis-sentinel2目录下 ./redis-sentinel sentinel.conf
- 在redis-sentinel3目录下 ./redis-sentinel sentinel.conf
启动并初始化Sentinel
获取主服务器信息:Sentinel默认每10s一次,向被监控的主服务器发送info命令,获取主服务器和其下属从服务器的信息。
- 127.0.0.1:6379> info
- # Server
- redis_version:5.0.5
- os:Linux 3.10.0-229.el7.x86_64 x86_64
- run_id:a4e06ab61b4116660aa37b85079ed482b0b695b1
-
- # Replication
- role:master
- connected_slaves:2
- slave0:ip=127.0.0.1,port=6380,state=online,offset=1571684,lag=1
- slave1:ip=127.0.0.1,port=6381,state=online,offset=1571551,lag=1
- master_replid:366322125dd7dc9bc95ed3467cfec841c112e207
- master_replid2:0000000000000000000000000000000000000000
- master_repl_offset:1571684
- second_repl_offset:-1
- repl_backlog_active:1
- repl_backlog_size:1048576
- repl_backlog_first_byte_offset:523109
- repl_backlog_histlen:1048576
获取从服务器信息:
当Sentinel发现主服务器有新的从服务器出现时,Sentinel还会向从服务器建立命令连接和订阅连接。在命令连接建立之后,Sentinel还是默认10s一次,向从服务器发送info命令,并记录从服务器的信息。
- # Server
- redis_version:5.0.5
- os:Linux 3.10.0-229.el7.x86_64 x86_64
- run_id:e289b3286352aaf8cc9f1ac7ebcc6d36131b8321
-
- # Replication
- role:slave
- master_host:127.0.0.1
- master_port:6379
- master_link_status:up
- master_last_io_seconds_ago:0
- master_sync_in_progress:0
- slave_repl_offset:1699595
- slave_priority:100
- slave_read_only:1
- connected_slaves:0
- master_replid:366322125dd7dc9bc95ed3467cfec841c112e207
- master_replid2:0000000000000000000000000000000000000000
- master_repl_offset:1699595
- second_repl_offset:-1
- repl_backlog_active:1
- repl_backlog_size:1048576
- repl_backlog_first_byte_offset:651020
- repl_backlog_histlen:1048576
向主服务器和从服务器发送消息(以订阅的方式)
默认情况下,Sentinel每2s一次,向所有被监视的主服务器和从服务器所订阅的—sentinel—:hello频道上发送消息,消息中会携带Sentinel自身的信息和主服务器的信息。
PUBLISH _sentinel_:hello "< s_ip > < s_port >< s_runid >< s_epoch > < m_name > < m_ip >< m_port ><m_epoch>"
接收来自主服务器和从服务器的频道信息
当Sentinel与主服务器或者从服务器建立起订阅连接之后,Sentinel就会通过订阅连接,向服务器发送以下命令:
subscribe —sentinel—:hello
Sentinel彼此之间只创建命令连接,而不创建订阅连接,因为Sentinel通过订阅主服务器或从服务器,就可以感知到新的Sentinel的加入,而一旦新Sentinel加入后,相互感知的Sentinel通过命令连接来通信就可以了。
检测主观下线状态
检查客观下线状态
主机的:
SENTINEL is-master-down-by-addr <ip> <port> <current_epoch> <runid>
其他Sentinel回复:
<down_state>< leader_runid >< leader_epoch >
判断它们是否也认为主服务器下线。如果达到Sentinel配置中的quorum数量的Sentinel实例都判断主服务器为主观下线,则该主服务器就会被判定为客观下线(ODown)。
选举Leader Sentinel
当一个主服务器被判定为客观下线后,监视这个主服务器的所有Sentinel会通过选举算法(raft),选出一个Leader Sentinel去执行failover(故障转移)操作。
Raft
选举流程:
一旦转化为Candidate,该节点立即开始下面几件事情:
- 如果在计时器超时前,节点收到多数节点的同意投票,就转换成Leader。同时向所有其他节点发送AppendEntries,告知自己成为了Leader。
- 每个节点在一个term内只能投一票,采取先到先得的策略,Candidate前面说到已经投给了自己,Follower会投给第一个收到RequestVote的节点。
- Raft协议的定时器采取随机超时时间,这是选举Leader的关键。
- 在同一个term内,先转为Candidate的节点会先发起投票,从而获得多数票。
Sentinel的leader选举流程
故障转移
当选举出Leader Sentinel后,Leader Sentinel会对下线的主服务器执行故障转移操作,主要有三个步骤:
哨兵leader根据以下规则从客观下线的主服务器的从服务器中选择出新的主服务器。