• MongoDB集群之分片集群 Shard Cluster


    1、什么是分片

            分片(sharding)是MongoDB用来将大型集合水平分割到不同服务器(或者复制集)上所采用的方法。不需要功能强大的大型计算机就可以存储更多的数据,处理更大的负载。

    2、为什么要分片

    1. 存储容量需求超出单机磁盘容量。
    2. 活跃的数据集超出单机内存容量,导致很多请求都要从磁盘读取数据,影响性能。
    3. IOPS超出单个MongoDB节点的服务能力,随着数据的增长,单机实例的瓶颈会越来越明显。
    4. 副本集具有节点数量限制。

    垂直扩展:增加更多的CPU和存储资源来扩展容量。
    水平扩展:将数据集分布在多个服务器上。水平扩展即分片。

    3、分片的工作原理

    分片集群由以下3个服务组成:
    Shards Server: 每个shard由一个或多个mongod进程组成,用于存储数据。
    Router Server: 数据库集群的请求入口,所有请求都通过Router(mongos)进行协调,不需要在应用程序添加一个路由选择器,Router(mongos)就是一个请求分发中心它负责把应用程序的请求转发到对应的Shard服务器上。
    Config Server: 配置服务器。存储所有数据库元信息(路由、分片)的配置。 

    片键(shard key)

            为了在数据集合中分配文档,MongoDB使用分片主键分割集合。

    区块(chunk)

            在一个shard server内部,MongoDB还是会把数据分为chunks,每个chunk代表这个shard server内部一部分数据。MongoDB分割分片数据到区块,每一个区块包含基于分片主键的左闭右开的区间范围。

    分片策略

    范围分片(Range based sharding)

    • 范围分片是基于分片主键的值切分数据,每一个区块将会分配到一个范围。
    • 范围分片适合满足在一定范围内的查找,例如查找X的值在[20,30)之间的数据,mongo 路由根据Config server中存储的元数据,可以直接定位到指定的shard的Chunk中。
    • 缺点: 如果shard key有明显递增(或者递减)趋势,则新插入的文档多会分布到同一个chunk,无法扩展写的能力。 

    hash分片(Hash based sharding)

    • Hash分片是计算一个分片主键的hash值,每一个区块将分配一个范围的hash值。
    • Hash分片与范围分片互补,能将文档随机的分散到各个chunk,充分的扩展写能力,弥补了范围分片的不足,缺点是不能高效的服务范围查询,所有的范围查询要分发到后端所有的Shard才能找出满足条件的文档。 

    组合片键 A + B(散列思想 不能是直接hash)

    数据库中没有比较合适的片键供选择,或者是打算使用的片键基数太小(即变化少如星期只有7天可变化),可以选另一个字段使用组合片键,甚至可以添加冗余字段来组合。一般是粗粒度+细粒度进行组合

    合理的选择shard key

            无非从两个方面考虑,数据的查询和写入,最好的效果就是数据查询时能命中更少的分片,数据写入时能够随机的写入每个分片,关键在于如何权衡性能和负载。

    4、分片集群的搭建过程

    (1) 配置 并启动config 节点集群

    节点1 config-17017.conf

    # 数据库文件位置
    dbpath=config/config1
    # 日志文件位置
    logpath=config/logs/config1.log
    # 以追加方式写入日志
    logappend=true
    # 是否以守护进程方式运行
    fork = true
    bind_ip=0.0.0.0
    port = 17017
    # 表示是一个配置服务器
    configsvr=true
    # 配置服务器副本集名称
    replSet=configsvr

    节点2 config-17018.conf

    # 数据库文件位置

    dbpath=config/config2
    #日志文件位置
    logpath=config/logs/config.log
    # 以追加方式写入日志
    logappend=true
    # 是否以守护进程方式运行
    fork = true
    bind_ip=0.0.0.0
    port = 17018
    # 表示是一个配置服务器
    configsvr=true
    #配置服务器副本集名称
    replSet=configsvr

    节点3 config-17019.conf

    # 数据库文件位置
    dbpath=config/config3
    #日志文件位置
    logpath=config/logs/config3.log
    # 以追加方式写入日志
    logappend=true
    # 是否以守护进程方式运行
    fork = true
    bind_ip=0.0.0.0
    port = 17019
    # 表示是一个配置服务器
    configsvr=true
    #配置服务器副本集名称
    replSet=configsvr

    启动配置节点

    ./bin/mongod -f config/config-17017.conf
    ./bin/mongod -f config/config-17018.conf
    ./bin/mongod -f config/config-17019.conf

    进入任意节点的mongo shell 并添加 配置节点集群注意use admin

    ./bin/mongo --port 17017
    use admin
    var cfg ={"_id":"configsvr",
            "members":[
                    {"_id":1,"host":"192.168.211.133:17017"},
                    {"_id":2,"host":"192.168.211.133:17018"},
                    {"_id":3,"host":"192.168.211.133:17019"}]
            };
    rs.initiate(cfg)

    (2)配置shard集群

    shard1集群搭建37017到37019

    # 节点1 shard1-17017.conf

    dbpath=shard/shard1/shard1-37017
    bind_ip=0.0.0.0
    port=37017
    fork=true
    logpath=shard/shard1/shard1-37017.log
    replSet=shard1
    shardsvr=true

    # 节点2 shard2-17018.conf
    dbpath=shard/shard1/shard1-37018
    bind_ip=0.0.0.0
    port=37018
    fork=true
    logpath=shard/shard1/logs/shard1-37018.log
    replSet=shard1
    shardsvr=true

    # 节点3 shard3-17019.conf
    dbpath=shard/shard1/shard1-37019
    bind_ip=0.0.0.0
    port=37019
    fork=true
    logpath=shard/shard1/logs/shard1-37019.log
    replSet=shard1
    shardsvr=true

    # 启动每个mongod 然后进入其中一个进行集群配置
    var cfg ={"_id":"shard1",
            "protocolVersion" : 1,
            "members":[
                    {"_id":1,"host":"192.168.211.133:37017"},
                    {"_id":2,"host":"192.168.211.133:37018"},
                    {"_id":3,"host":"192.168.211.133:37019"}
                    ]
            };
    rs.initiate(cfg)
    rs.status()

    shard2集群搭建47017到47019

    # 节点1

    dbpath=shard/shard2/shard2-47017
    bind_ip=0.0.0.0
    port=47017
    fork=true
    logpath=shard/shard2/logs/shard2-47017.log
    replSet=shard2
    shardsvr=true

    # 节点2

    dbpath=shard/shard2/shard2-47018

    bind_ip=0.0.0.0
    port=47018
    fork=true
    logpath=shard/shard2/logs/shard2-47018.log
    replSet=shard2
    shardsvr=true

    # 节点3

    dbpath=shard/shard2/shard2-47019
    bind_ip=0.0.0.0
    port=47019
    fork=true
    logpath=shard/shard2/logs/shard2-47019.log
    replSet=shard2
    shardsvr=true

    启动每个mongod 然后进入其中一个进行集群配置
    var cfg ={"_id":"shard2",
            "protocolVersion" : 1,
            "members":[
                            {"_id":1,"host":"192.168.211.133:47017"},
                            {"_id":2,"host":"192.168.211.133:47018"},
                            {"_id":3,"host":"192.168.211.133:47019"}
                    ]
            };
    rs.initiate(cfg)
    rs.status()

    (3)配置和启动路由节点

    route-27017.conf

    port=27017
    bind_ip=0.0.0.0
    fork=true
    logpath=route/logs/route.log
    configdb=configsvr/192.168.211.133:17017,192.168.211.133:17018,192.168.211.133:17019

    启动路由节点使用 mongos (注意不是mongod

    ./bin/mongos -f route/route-27017.conf

    (4)mongos(路由)中添加分片节点

    进入路由mongos

    mongo --port 27017
    sh.status()
    sh.addShard("shard1/192.168.211.133:37017,192.168.211.133:37018,192.168.211.133:37019");
    sh.addShard("shard2/192.168.211.133:47017,192.168.211.133:47018,192.168.211.133:47019");
    sh.status()

    (5)开启数据库和集合分片(指定片键)

    继续使用mongos完成分片开启和分片大小设置

    # 为数据库开启分片功能
    sh.enableSharding("lagou_resume")
    # 为指定集合开启分片功能
    sh.shardCollection("lagou_resume.lagou_resume_datas",{"片键字段名如 name":索引说明})

    # 索引说明里面填写的是分片策略

    例如使用hash分片策略:

    sh.shardCollection("lagou_resume.lagou_resume_datas",{"name":hashed})

    (6)向集合中插入数据测试

    通过路由循环向集合中添加数

    use lagou_resume;
    for(var i=1;i<= 1000;i++){
            db.lagou_resume_datas.insert({"name":"test"+i,
            salary:(Math.random()*20000).toFixed(2)});
    }

    (7)验证分片效果

    分别进入 shard1 和 shard2 中的数据库,进行验证。

  • 相关阅读:
    css点击文字(非按钮) 能自动改变颜色。
    docker desktop无法启动问题
    【dubbo3.x trace组件分享】
    【老生谈算法】matlab实现三项桥式全控整流的性能研究——全控整流
    再见了,收费的云笔记,自己搭建的就是好用
    Guitar Pro8吉他打谱下载自学制作教程
    KVM管理平台选型与开源企业级虚拟化平台oVirt详解
    【QT】创建第一个QT程序
    如何卸载在linux下通过rpm安装的mysql
    SQL注入漏洞代码分析
  • 原文地址:https://blog.csdn.net/weixin_52851967/article/details/126871645