• 替代ELK:ClickHouse+Kafka+FlieBeat


    目录

    • 背景

    • Elasticsearch vs ClickHouse

    • 成本分析

    • 环境部署

    • 总结

    背景

    saas 服务未来会面临数据安全、合规等问题。公司的业务需要沉淀一套私有化部署能力,帮助业务提升行业竞争力。

    为了完善平台系统能力、我们需要沉淀一套数据体系帮助运营分析活动效果、提升运营能力。

    然而在实际的开发过程中,如果直接部署一套大数据体系,对于使用者来说将是一笔比较大的服务器开销。为此我们选用折中方案完善数据分析能力。

    Elasticsearch vs ClickHouse

    ClickHouse 是一款高性能列式分布式数据库管理系统,我们对 ClickHouse 进行了测试,发现有下列优势:

    ①ClickHouse 写入吞吐量大

    单服务器日志写入量在 50MB 到 200MB/s,每秒写入超过 60w 记录数,是 ES 的 5 倍以上。

    在 ES 中比较常见的写 Rejected 导致数据丢失、写入延迟等问题,在 ClickHouse 中不容易发生。

    ②查询速度快

    官方宣称数据在 pagecache 中,单服务器查询速率大约在 2-30GB/s;没在 pagecache 的情况下,查询速度取决于磁盘的读取速率和数据的压缩率。经测试 ClickHouse 的查询速度比 ES 快 5-30 倍以上。

    ③ClickHouse 比 ES 服务器成本更低

    一方面 ClickHouse 的数据压缩比比 ES 高,相同数据占用的磁盘空间只有 ES 的 1/3 到 1/30,节省了磁盘空间的同时,也能有效的减少磁盘 IO,这也是ClickHouse查询效率更高的原因之一。

     

    另一方面 ClickHouse 比 ES 占用更少的内存,消耗更少的 CPU 资源。我们预估用 ClickHouse 处理日志可以将服务器成本降低一半。

    成本分析

    备注:在没有任何折扣的情况下,基于 aliyun 分析。

    环境部署

    | zookeeper 集群部署

     

    1. yum install java-1.8.0-openjdk-devel.x86_64
    2. /etc/profile 配置环境变量
    3. 更新系统时间
    4. yum install  ntpdate
    5. ntpdate asia.pool.ntp.org
    6. mkdir zookeeper
    7. mkdir ./zookeeper/data
    8. mkdir ./zookeeper/logs
    9. wget  --no-check-certificate https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.7.1/apache-zookeeper-3.7.1-bin.tar.gz
    10. tar -zvxf apache-zookeeper-3.7.1-bin.tar.gz -C /usr/zookeeper
    11. export ZOOKEEPER_HOME=/usr/zookeeper/apache-zookeeper-3.7.1-bin
    12. export PATH=$ZOOKEEPER_HOME/bin:$PATH
    13. 进入ZooKeeper配置目录
    14. cd $ZOOKEEPER_HOME/conf
    15. 新建配置文件
    16. vi zoo.cfg
    17. tickTime=2000
    18. initLimit=10
    19. syncLimit=5
    20. dataDir=/usr/zookeeper/data
    21. dataLogDir=/usr/zookeeper/logs
    22. clientPort=2181
    23. server.1=zk1:2888:3888
    24. server.2=zk2:2888:3888
    25. server.3=zk3:2888:3888
    26. 在每台服务器上执行,给zookeeper创建myid
    27. echo "1" > /usr/zookeeper/data/myid
    28. echo "2" > /usr/zookeeper/data/myid
    29. echo "3" > /usr/zookeeper/data/myid
    30. 进入ZooKeeper bin目录
    31. cd $ZOOKEEPER_HOME/bin
    32. sh zkServer.sh start

    | Kafka 集群部署

    1. mkdir -p /usr/kafka
    2. chmod 777 -R /usr/kafka
    3. wget  --no-check-certificate https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/3.2.0/kafka_2.12-3.2.0.tgz
    4. tar -zvxf kafka_2.12-3.2.0.tgz -C /usr/kafka
    5. 不同的broker Id 设置不一样,比如 1,2,3
    6. broker.id=1
    7. listeners=PLAINTEXT://ip:9092
    8. socket.send.buffer.bytes=102400
    9. socket.receive.buffer.bytes=102400
    10. socket.request.max.bytes=104857600
    11. log.dir=/usr/kafka/logs
    12. num.partitions=5
    13. num.recovery.threads.per.data.dir=3
    14. offsets.topic.replication.factor=2
    15. transaction.state.log.replication.factor=3
    16. transaction.state.log.min.isr=3
    17. log.retention.hours=168
    18. log.segment.bytes=1073741824
    19. log.retention.check.interval.ms=300000
    20. zookeeper.connect=zk1:2181,zk2:2181,zk3:2181
    21. zookeeper.connection.timeout.ms=30000
    22. group.initial.rebalance.delay.ms=0
    23. 后台常驻进程启动kafka
    24. nohup /usr/kafka/kafka_2.12-3.2.0/bin/kafka-server-start.sh /usr/kafka/kafka_2.12-3.2.0/config/server.properties   >/usr/kafka/logs/kafka.log >&1 &
    25. /usr/kafka/kafka_2.12-3.2.0/bin/kafka-server-stop.sh
    26. $KAFKA_HOME/bin/kafka-topics.sh --list --bootstrap-server  ip:9092
    27. $KAFKA_HOME/bin/kafka-console-consumer.sh --bootstrap-server ip:9092 --topic test --from-beginning
    28. $KAFKA_HOME/bin/kafka-topics.sh  --create --bootstrap-server  ip:9092  --replication-factor 2 --partitions 3 --topic xxx_data

    | FileBeat 部署

    1. sudo rpm --import https://packages.elastic.co/GPG-KEY-elasticsearch
    2. Create a file with a .repo extension (for example, elastic.repo) in your /etc/yum.repos.d/ directory and add the following lines:
    3. 在/etc/yum.repos.d/ 目录下创建elastic.repo
    4. [elastic-8.x]
    5. name=Elastic repository for 8.x packages
    6. baseurl=https://artifacts.elastic.co/packages/8.x/yum
    7. gpgcheck=1
    8. gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
    9. enabled=1
    10. autorefresh=1
    11. type=rpm-md
    12. yum install filebeat
    13. systemctl enable filebeat
    14. chkconfig --add filebeat

    FileBeat 配置文件说明,坑点 1(需设置 keys_under_root: true)。 如果不设置kafka 的消息字段如下:

     

    1. 文件目录: /etc/filebeat/filebeat.yml
    2. filebeat.inputs:
    3. typelog
    4.   enabled: true
    5.   paths:
    6.     - /root/logs/xxx/inner/*.log
    7.   json:  
    8. 如果不设置该索性,所有的数据都存储在message里面,这样设置以后数据会平铺。
    9.        keys_under_root: true 
    10. output.kafka:
    11.   hosts: ["kafka1:9092""kafka2:9092""kafka3:9092"]
    12.   topic: 'xxx_data_clickhouse'
    13.   partition.round_robin:
    14.             reachable_only: false
    15.             required_acks: 1
    16.             compression: gzip
    17. processors: 
    18. 剔除filebeat 无效的字段数据
    19.     - drop_fields:  
    20.         fields: ["input""agent""ecs""log""metadata""timestamp"]
    21.         ignore_missing: false
    22. nohup ./filebeat -e -c /etc/filebeat/filebeat.yml > /user/filebeat/filebeat.log & 
    23. 输出到filebeat.log文件中,方便排查

    | clickhouse 部署

     

    1. 检查当前CPU是否支持SSE 4.2,如果不支持,需要通过源代码编译构建
    2. grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"
    3. 返回 "SSE 4.2 supported" 表示支持,返回 "SSE 4.2 not supported" 表示不支持
    4. 创建数据保存目录,将它创建到大容量磁盘挂载的路径
    5. mkdir -p /data/clickhouse
    6. 修改/etc/hosts文件,添加clickhouse节点
    7. 举例:
    8. 10.190.85.92 bigdata-clickhouse-01
    9. 10.190.85.93 bigdata-clickhouse-02
    10. 服务器性能参数设置:
    11. cpu频率调节,将CPU频率固定工作在其支持的最高运行频率上,而不动态调节,性能最好
    12. echo 'performance' | tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
    13. 内存调节,不要禁用 overcommit
    14. echo 0 | tee /proc/sys/vm/overcommit_memory
    15. 始终禁用透明大页(transparent huge pages)。 它会干扰内存分配器,从而导致显着的性能下降
    16. echo 'never' | tee /sys/kernel/mm/transparent_hugepage/enabled
    17. 首先,需要添加官方存储库:
    18. yum install yum-utils
    19. rpm --import 
    20. yum-config-manager --add-repo 
    21. 查看clickhouse可安装的版本:
    22. yum list | grep clickhouse
    23. 运行安装命令:
    24. yum -y install clickhouse-server clickhouse-client
    25. 修改/etc/clickhouse-server/config.xml配置文件,修改日志级别为information,默认是trace
    26. information
    27. 执行日志所在目录:
    28. 正常日志
    29. /var/log/clickhouse-server/clickhouse-server.log
    30. 异常错误日志
    31. /var/log/clickhouse-server/clickhouse-server.err.log
    32. 查看安装的clickhouse版本:
    33. clickhouse-server --version
    34. clickhouse-client --password
    35. sudo clickhouse stop
    36. sudo clickhouse tart
    37. sudo clickhouse start

    clickhouse 部署过程中遇到的一些问题如下:

     

    ①clickhouse 创建 kafka 引擎表:

    1. CREATE TABLE default.kafka_clickhouse_inner_log ON CLUSTER clickhouse_cluster (
    2.     log_uuid   String ,
    3.     date_partition   UInt32 ,
    4.     event_name   String ,
    5.     activity_name   String ,
    6.     activity_type   String ,
    7.     activity_id   UInt16 
    8. ) ENGINE = Kafka SETTINGS
    9.     kafka_broker_list = 'kafka1:9092,kafka2:9092,kafka3:9092',
    10.     kafka_topic_list = 'data_clickhouse',
    11.     kafka_group_name = 'clickhouse_xxx',
    12.     kafka_format = 'JSONEachRow',
    13.     kafka_row_delimiter = '\n',
    14.     kafka_num_consumers = 1;

    问题 1:clikhouse 客户端无法查询 kafka 引擎表

    Direct select is not allowed. To enable use setting stream_like_engine_allow_direct_select.(QUERY_NOT_ALLOWED) (version 22.5.2.53 (official build))

    解决方案:

    1.  需要在clickhouse client 创建加上 --stream_like_engine_allow_direct_select 1
    2.  clickhouse-client --stream_like_engine_allow_direct_select 1 --password xxxxx

    ②clickhouse 创建本地节点表

     

    问题 2:无法开启本地表 macro

    Code: 62. DB::Exception: There was an error on [10.74.244.57:9000]: Code: 62. DB::Exception: No macro 'shard' in config while processing substitutions in '/clickhouse/tables/default/bi_inner_log_local/{shard}' at '50' or macro is not supported here. (SYNTAX_ERROR) (version 22.5.2.53 (official build)). (SYNTAX_ERROR) (version 22.5.2.53 (official build))

    1. 创建本地表(使用复制去重表引擎)
    2. create table default.bi_inner_log_local ON CLUSTER clickhouse_cluster (
    3.     log_uuid   String ,
    4.     date_partition   UInt32 ,
    5.     event_name   String ,
    6.     activity_name   String ,
    7.     credits_bring   Int16 ,
    8.     activity_type   String ,
    9.     activity_id   UInt16 
    10. ) ENGINE = ReplicatedReplacingMergeTree('/clickhouse/tables/default/bi_inner_log_local/{shard}','{replica}')
    11.   PARTITION BY date_partition
    12.   ORDER BY (event_name,date_partition,log_uuid)
    13.    SETTINGS index_granularity = 8192;

    解决方案:在不同的 clickhouse 节点上配置不同的 shard,每一个节点的 shard 名称不能一致。

    1.  <macros>
    2.         <shard>01shard>
    3.         <replica>example01-01-1replica>
    4.     macros>

     

     

    问题 3:clickhouse 中节点数据已经存在

    Code: 253. DB::Exception: There was an error on : Code: 253. DB::Exception: Replica /clickhouse/tables/default/bi_inner_log_local/01/replicas/example01-01-1 already exists. (REPLICA_IS_ALREADY_EXIST) (version 22.5.2.53 (official build)). (REPLICA_IS_ALREADY_EXIST) (version 22.5.2.53 (official build))

    解决方案:进入 zookeeper 客户端删除相关节点,然后再重新创建 ReplicatedReplacingMergeTree 表。这样可以保障每一个 clickhouse 节点都会去消费 kafka partition 的数据。

    ③clickhouse 创建集群表

    创建分布式表(根据 log_uuid 对数据进行分发,相同的 log_uuid 会发送到同一个 shard 分片上,用于后续合并时的数据去重):

    1. CREATE TABLE default.bi_inner_log_all ON CLUSTER clickhouse_cluster AS default.bi_inner_log_local
    2. ENGINE = Distributed(clickhouse_cluster, default, bi_inner_log_local, xxHash32(log_uuid));

    问题 4:分布式集群表无法查询

    Code: 516. DB::Exception: Received from 10.74.244.57:9000. DB::Exception: default: Authentication failed: password is incorrect or there is no user with such name. (AUTHENTICATION_FAILED) (version 22.5.2.53 (official build))

    解决方案:

    1.  
    2.  <remote_servers>
    3.        <clickhouse_cluster> 
    4.      <shard>
    5.     
    6.                         
    7.                         <internal_replication>trueinternal_replication>
    8.                         <replica>
    9.                             <host>ip1host>
    10.                             <port>9000port>
    11.                                     <user>defaultuser>
    12.                                     <password>xxxxpassword>
    13.                         replica>
    14.                     shard>
    15.                     <shard>
    16.                         <internal_replication>trueinternal_replication>
    17.                         <replica>
    18.                             <host>ip2host>
    19.                             <port>9000port>
    20.                                     <user>defaultuser>
    21.                                     <password>xxxxpassword>
    22.                         replica>
    23.                     shard>
    24.                 clickhouse_cluster>
    25.         remote_servers>

    ④clickhouse 创建物化视图

    创建物化视图,把 Kafka 消费表消费的数据同步到 ClickHouse 分布式表。

    小结:功夫不负有心人,解决完以上所有的问题。数据流转通了!本文所有组件都是比较新的版本,所以过程中问题的解决基本都是官方文档或操作手册一步一步的解决。

    总结一句话:遇到问题去官方文档或--help 去尝试解决,慢慢的你就会升华。

    总结

    整个部署的过程踩了不少坑,尤其是 filebeat yml 的参数设置和 clickhouse 的配置说明。

    很久没有更新博客了,经常看到博客 35 岁以后怎么办的问题。说实话我自己也没想好以后怎么办,核心还是持续的学习&输出。不断的构建自己的护城河,不管是技术专家、业务专家、架构、管理等。

    个人建议如果能持续写代码就奋战在一线,管理彻底与公司绑定。除非你是有名的大厂,这另外看。

    如果所在的公司缺乏较大的行业影响力,个人感觉可以奋战在一线,未来选择新的工作。考量更多的还是行业影响、商业 sense、技术架构能力。现在的我已 35,从容的面对每一天。

  • 相关阅读:
    【Numpy】一篇文章讲解常用的numpy.random()函数(含Python代码理解)
    23-properties文件和xml文件以及dom4j的基本使用操作
    一个超好看的音乐网站设计与实现(HTML+CSS)
    信息化发展64
    『现学现忘』Docker命令 — 18、镜像常用命令
    Ops实践 | 云原生Prometheus监控之企业网站指标采集预警及可视化大盘展示
    【操作系统笔记十】缓存一致性
    Android 11 定制系统全局监听触摸事件接口
    潘多尼亚精灵 VoxEdit 创作大赛
    【LSTM】北京pm2.5 天气预测--pytorch版本,有代码可以跑通-LSTM回归问题,工程落地一网打尽
  • 原文地址:https://blog.csdn.net/qq_45637260/article/details/126159509