• 第六课 ceph基础学习-Ceph的管理监控和故障排查


    第六课 ceph基础学习-Ceph的管理监控和故障排查

    第一节 dashboard安装和使用

    yum isntall ceph-mgr-dashboard
    # 启动dashboard
    ceph mgr module enable dashboard 
    ceph mgr module enable dashboard --force 
    # 看下启动状态
    ceph mgr module ls |less
    # 使用内部认证证书
    ceph dashboard create-self-signed-cert
    # 主机名和端口配置
    ceph config set mgr mgr/dashboard/server_addr 192.168.44.139
    ceph config set mgr mgr/dashboard/server_port 8080
    ceph config set mgr mgr/dashboard/ssl_server_port 8443
    # 查看配置
    ceph config ls
    ceph config ls mgr/dashboard/server addr
    # 查看服务
    ceph mgr services
    # 启动用户设置角色
    ceph dashboard ac-user-create cephadmin cephpassword administrator
    # 登陆一下
    192.168.44.139:8443
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21

    第二节 Manager插件的介绍

    1. ceph manager daemon
      • Dashboard module 面板
      • Alerts module告警
      • zabbix module集成zabbix
      • Prometheus module 集成Prometheus
      • Influx module采集数据到influx
      • iostat module想iostat命令一样监控
      • Crash module 上报crush dump可以分析
      • Insights module 巡检健康报告和crush报告
    # 启动模块zabbix
    ceph mgr module enable zabbix
    # 启动模块zabbix
    ceph mgr module enable zabbix
    # zabbix采集配置查看 根据官网进行配置
    ceph zabbix config-show
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    第三节 Prometheus模块监控

    1. ceph的promethues模块开启
    ceph mgr module enable prometheus
    # 查看模块启动 
    ceph mgr module ls |less
    # 默认打开9283的监听端口 页面打开后可以看到一系列指标
    netstat -ntlp | grep 9283
    
    • 1
    • 2
    • 3
    • 4
    • 5
    1. promethues和granfa安装。配置模板展示就好了。

    第四节 SDK开发借鉴

    1. Ceph Storage Cluster下的API存储级别的API:https://docs.ceph.com/en/quincy/rados/api/
    2. Ceph RDB API: https://docs.ceph.com/en/quincy/rbd/api/librbdpy/#module-rbd
    3. S3对象存储的API: https://docs.ceph.com/en/quincy/radosgw/s3/
    4. swift相关API: https://docs.ceph.com/en/quincy/radosgw/swift/

    第五节 常见故障分析

    1. 时钟偏移告警。
    ceph -s
    # clock skew detected on mon.node-2, mon. node-3
    ceph health detail
    
    # 查看配置超过多少秒报出警告
    ceph --admin-daemon /var/run/ceph/ceph-mon.node-1.asok config show |grep clock
    
    # 修改时间
    systemctl stop ntpd
    ntpdate 自己服务器ip
    hwclock -w # 写到硬时钟里 重启不变
    systemctl start ntpd
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    1. 服务crash归档排查归档
    ceph -s
    # Long heartbeat ping times on back interface seen,longest is 9463.023 msec
    #Long heartbeat ping times on front interface seen,longest is 9449.712 
    # msec3 daemons have recently crashed
    ceph health detail # 详细告警
    # 查看详细告警中的时间的日志 用vim / 过滤
    vim /var/log/ceph/ceph-client.rgw.node-1.log
    # 虽然现在服务正常 告警还是存在
    ceph -h | grep  crash
    ceph crash ls
    ceph crash info + crash的id 
    # 删除或归档crash信息
    ceph crash archive + crash的id 
    ceph crash rm + crash的id 
    # 全部打包
    ceph crash archive-all
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    1. mon空间不足排障
    ceph -s
    # mons node-1,node-2 are low on available space
    ceph health detail
    # 查看告警配置 达到多少开始报警
    ceph daemon mon.node-1 config show |grep mon |grep data
    # 扩展磁盘解决
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    1. ceph集群阻塞排查
    ceph -s # 一直卡住
    # 查看日志 搜索error
    tail -f /var/log/ceph/ceph-mon.node-1.log
    
    • 1
    • 2
    • 3
  • 相关阅读:
    rancher或者其他容器平台使用非root用户启动jar
    TOGAF标准第10版读书会第14场—加速数字化政府建设,离不开这个参考指导模型
    统计学习方法 决策树
    [LabVIEW]圖像內的物件計算_Count objects
    字符集编码(三):Unicode
    用 Rust 和 cURL 库制作一个有趣的爬虫
    医院住院管理系统(Java+Web+JSP+MySQL)
    【操作系统】2.2 操作系统的调度
    数据链路层——MAC帧、ARP协议详解
    MySql数据恢复方法个人总结
  • 原文地址:https://blog.csdn.net/aa18855953229/article/details/127399801