大家好,我是rainbowzhou。
在【rainbowzhou 面试8/101】技术提问–如何进行大数据基准测试?
中,我介绍了如何进行大数据基准测试。本篇来说说常见的一些大数据基准测试工具,希望对大家有所帮助。
目前,大数据基准测试工具种类丰富,大致可以划分为3类:微型负载专用工具、综合类测试工具和端到端的测试工具。下表列举了这3类常用基准测试工具。
分类 | 工具名称 | 测试场景 | 备注 |
---|---|---|---|
微型负载专用工具 | TeraSort | 文本数据排序 | Hadoop自带的工具 |
微型负载专用工具 | Gridmix | Hadoop集群性能 | Hadoop自带的工具 |
微型负载专用工具 | TestDFSIO | HDFS基准性能测试 | Hadoop自带的工具 |
微型负载专用工具 | PerformanceEvaluation | HBase性能测试 | Hadoop自带的工具 |
微型负载专用工具 | NNBench | NameNode硬件加载过程 | Hadoop自带的工具 |
微型负载专用工具 | MRBench | MapReduce小型作业的快速响应能力 | Hadoop自带的工具 |
微型负载专用工具 | YCSB | NoSQL数据库性能 | Yahoo |
微型负载专用工具 | sysbench | MySQL基准测试工具 | 开源工具 |
综合类测试工具 | HiBench | 微型负载搜索业务、机器学习和分析请求 | 英特尔 |
综合类测试工具 | CloudBM | 云数据管理系统基准测试 | CloudBM Web Solution |
综合类测试工具 | TPCx-HS kit | 在MapReduce或Spark流基础上的实时分析 | TPC |
端到端的测试工具 | BigBench | 大数据离线分析 | TPC |
以上三类基准测试工具优缺点如下表:
分类 | 优点 | 缺点 |
---|---|---|
微型负载专用工具 | 效率高、成本低 | 应用场景单一,无法衡量大数据平台性能 |
综合类测试工具 | 覆盖面较广,通用性好 | 无特定业务场景 |
端到端的测试工具 | 与企业的应用场景结合紧密 | 暂无 |
Hibench是英特尔推出的一款大数据基准测试套件,有助于在速度、吞吐量和系统资源利用率方面评估不同的大数据框架。它包含一组Hadoop、Spark和流媒体工作负载,包括Sort、WordCount、TeraSort、Repartition、Sleep、SQL、PageRank、Nutch索引、Bayes、Kmeans、NWeight和增强的DFSIO等。它还包含Spark Streaming、Flink、Storm和Gearpump的几个流媒体工作负载。它是一个非常好用的测试大数据平台工具。HiBench的使用非常简单,只需以下3步:
测试目标集群:AWS EMR 5.32.0
多主集群:
master 3个节点,配置 m5.xlarge 4核16G,64G ssd通用存储
code 2个节点,配置 m5.xlarge 4核16G,64G ssd通用存储
集群安装软件:
Hive 2.3.7, Spark 2.4.7, HBase 1.4.13, Flink 1.11.2, ZooKeeper 3.4.14, Sqoop 1.4.7,Hadoop 发行版:Amazon 2.10.1
Core节点用于存储数据,运行数据。
Master 用于namenode等程序调度。
Yarn集群配置:
hibeach依赖:
hibeach 7.1.1
scala: 2.11.12
apache-maven-3.8.1
YARN:
mapreduce.map.java.opts -Xmx2458m
mapreduce.reduce.java.opts -Xmx4916m
mapreduce.map.memory.mb 3072
mapreduce.reduce.memory.mb 6144
yarn.app.mapreduce.am.resource.mb 6144
yarn.scheduler.minimum-allocation-mb 32
yarn.scheduler.maximum-allocation-mb 6144
yarn.nodemanager.resource.memory-mb 6144
HADOOP:
YARN_RESOURCEMANAGER_HEAPSIZE 2416
YARN_PROXYSERVER_HEAPSIZE 2416
YARN_NODEMANAGER_HEAPSIZE 2048
HADOOP_JOB_HISTORYSERVER_HEAPSIZE 2416
HADOOP_NAMENODE_HEAPSIZE 1843
HADOOP_DATANODE_HEAPSIZE 778
以上对常见的大数据基准测试工具进行了介绍,并且进行了案例介绍:使用Hibench基准测试工具,对EMR进行了部分基准测试。
参考资源:
看完今天的分享对你是不是有所启发呢,有任何想法都欢迎大家后台私信我,一起探讨交流。
如果文章对你有帮助,欢迎扫码关注,记得在看、点赞、转发、加关注哦!