• 【星海出品】云存储 ceph


    在这里插入图片描述
    在这里插入图片描述

    https://ceph.com/en/

    ceph组件介绍

    Monitor

    一个Ceph集群需要多个Monitor组成的小集群,它们通过Paxos同步数据,用来保存OSD的元数据。

    OSD

    OSD全称Object Storage Device,也就是负责响应客户端请求返回具体数据的进程。一个Ceph集群一般都有很多个OSD。

    MDS

    MDS全称Ceph Metadata Server,是CephFS服务依赖的元数据服务。

    Object

    Ceph最底层的存储单元是Object对象,每个Object包含元数据和原始数据。

    PG

    PG全称Placement Grouops,是一个逻辑的概念,一个PG包含多个OSD。引入PG这一层其实是为了更好的分配数据和定位数据。

    RADOS

    RADOS全称Reliable Autonomic Distributed Object Store,是Ceph集群的精华,用户实现数据分配、Failover等集群操作。

    Libradio

    Librados是Rados提供库,因为RADOS是协议很难直接访问,因此上层的RBD、RGW和CephFS都是通过librados访问的,目前提供PHP、Ruby、Java、Python、C和C++支持。

    CRUSH

    CRUSH是Ceph使用的数据分布算法,类似一致性哈希,让数据分配到预期的地方。

    RBD

    RBD全称RADOS block device,是Ceph对外提供的块设备服务。

    RGW

    RGW全称RADOS gateway,是Ceph对外提供的对象存储服务,接口与S3和Swift兼容。

    CephFS

    CephFS全称Ceph File System,是Ceph对外提供的文件系统服务。

    建议运行带有两个网络的Ceph存储集群:公共(前端)网络和集群(后端)网络。为了支持两个网络,每个Ceph节点都需要有多个NIC。
    在这里插入图片描述
    为什么要做内外网分离
    Ceph 的客户端,如RBD,会直接和 OSD 互联,以上传和下载数据,这部分是直接提供对外下载上传能力的;Ceph 一个基本功能是提供数据的冗余备份,OSD 负责数据的备份,跨主机间的数据备份当然要占用带宽,而且这部分带宽是无益于 Ceph 集群的吞吐量的。只有一个网络,尤其是有新的存储节点加入时,Ceph 集群的性能会因为大量的数据拷贝而变得很糟糕。建立内网是为了降低 OSD 节点间数据复制对 Ceph 整体的影响,那么只要在 OSD 节点上加内网就可以了,上图非常清晰的描述了内网和外网覆盖的范围。
    做内外网分离,必不可少的前提条件是 OSD 服务器上必须有两张可用的网卡,并且网络互通,确保这点我们就可以开始了。所以对于性能有一定要求的用户,还是有必要配置内外网分离的。

    在这里插入图片描述

    步骤:

    1. 客户端创建一个pool,需要为这个pool指定pg的数量。
    2. 创建pool/image rbd设备进行挂载。
    3. 用户写入的数据进行切块,每个块的大小默认为4M,并且每个块都有一个名字,名字就是object+序号。
    4. 将每个object通过pg进行副本位置的分配。
    5. pg根据cursh算法会寻找3个osd,把这个object分别保存在这三个osd上。
    6. osd上实际是把底层的disk进行了格式化操作,一般部署工具会将它格式化为xfs文件系统。
    7. object的存储就变成了存储一个文rbd0.object1.file。
    8. 在这里插入图片描述

    在这里插入图片描述

    用简单hash解决对象obj到虚拟节点pg的映射,但是为了解决pg到实际物理节点osd的映射问题,ceph提出了crush算法。
    crush算法是一个伪随机的路由选择算法,输入pg的id,osdmap等元信息,通过crush根据这个pool配置的crush rule规则的伪随机计算,最终输出存储这个pg的副本的osd列表。由于是伪随机的,只要CRUSH Map、crush rule规则相同,在任意的机器上,针对某个pg id,计算的最终的osd列表都是相同的。

    CRUSH算法的全称为:Controlled Scalable Decentralized Placement of Replicated Data,可控的、可扩展的、分布式的副本数据放置算法。

    pg到OSD的映射的过程算法叫做CRUSH 算法。(一个Object需要保存三个副本,也就是需要保存在三个osd上)。

    CRUSH算法是一个伪随机的过程,他可以从所有的OSD中,随机性选择一个OSD集合,但是同一个PG每次随机选择的结果是不变的,也就是映射的OSD集合是固定的。

    Pg id由简单hash算法求出,计算公式如下:
    Id = Int(Hash(object_name)%PG_num)

    Ceph通信框架设计模式

    订阅发布模式又名观察者模式,它意图是“定义对象间的一种一对多的依赖关系,
    当一个对象的状态发生改变时,所有依赖于它的对象都得到通知并被自动更新”。
    在这里插入图片描述
    步骤:
    Accepter监听peer的请求, 调用 SimpleMessenger::add_accept_pipe() 创建新的 Pipe 到 SimpleMessenger::pipes 来处理该请求。

    Pipe用于消息的读取和发送。该类主要有两个组件,Pipe::Reader,Pipe::Writer用来处理消息读取和发送。

    Messenger作为消息的发布者, 各个 Dispatcher 子类作为消息的订阅者, Messenger 收到消息之后, 通过 Pipe 读取消息,然后转给 Dispatcher 处理。

    Dispatcher是订阅者的基类,具体的订阅后端继承该类,初始化的时候通过 Messenger::add_dispatcher_tail/head 注册到 Messenger::dispatchers. 收到消息后,通知该类处理。

    DispatchQueue该类用来缓存收到的消息, 然后唤醒 DispatchQueue::dispatch_thread 线程找到后端的 Dispatch 处理消息。
    在这里插入图片描述

    令牌桶限流模型

    用户发起请求异步IO到达Image中。
    请求到达ImageRequestWQ队列中。
    在ImageRequestWQ出队列的时候加入令牌桶算法TokenBucket。
    通过令牌桶算法进行限速,然后发送给ImageRequest进行处理。
    在这里插入图片描述

    资料来源
    https://docs.ceph.com/en/latest/rados/configuration/mon-osd-interaction/
    https://www.cnblogs.com/djoker/p/15955734.html
    https://blog.csdn.net/uxiAD7442KMy1X86DtM3/article/details/81059215
    http://www.51niux.com/?id=164
    https://blog.csdn.net/easonwx/article/details/124306477
    https://zhuanlan.zhihu.com/p/647566166

  • 相关阅读:
    SQL 序列生成器
    SpringMvc(四、统一异常处理
    深度链接和延迟深度链接的学习
    LSMT 实战-python
    Learn Prompt-提供示例
    VRRP的工作原理和实验详解
    SQL 行转列
    数据结构学习-迷宫问题
    uiautomator2遍历子元素.all()
    webfunny埋点漏斗功能
  • 原文地址:https://blog.csdn.net/weixin_41997073/article/details/134333782