HBase 是一个面向列式存储的分布式数据库,其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。HBase 良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能,基于数据副本机制和分区机制可以轻松实现在线扩容、缩容和数据容灾,是大数据领域中 Key-Value 数据结构存储最常用的数据库方案。
官方文档:https://hbase.apache.org/book.html
GitHub地址:https://github.com/apache/hbase
HBase特点:
HBase是运行在Hadoop集群上的一个数据库,与传统的数据库有严格的ACID(原子性、一致性、隔离性、持久性)要求不一样,HBase降低了这些要求从而获得更好的扩展性,它更适合存储一些非结构化和半结构化的数据。
以上几个概念以及它们之间的关系可以用下图表示:
实际存储方式:每个Region由多个Store构成,每个Store保存一个column family。
逻辑数据模型中空白cell在物理上是不存储的,因此若一个请求为要获取t8时间的contents:html,他的结果就是空。相似的,若请求为获取t9时间的anchor:my.look.ca,结果也是空。但是,如果不指明时间,将会返回最新时间的行,每个最新的都会返回。
在一个HBase中,存储了很多HBase表,当表中包含的行数量非常庞大,无法在一台机器上存储时,需要分布存储到多台机器上,需要根据行键的值对表中进行分区,每个行分区被称为“Region”。
Master主服务器把不同的Region分配到不同的Region服务器上,同一个Region不会拆分到多个Region服务器上,每个Region服务器负责管理一个Region集合,通常每个Region服务器上会放置10~1000个Region。
数据flush过程
数据合并过程
【温馨提示】HLog会同步到HDFS。
HBase有三种运行模式:
主机名 | IP | 角色 |
---|---|---|
local-168-182-110 | 192.168.182.110 | NodeManager、QuorumPeerMain、HMaster、DataNode、HRegionServer |
local-168-182-111 | 192.168.182.111 | DataNode、HRegionServer、SecondaryNameNode、NodeManager、QuorumPeerMain |
local-168-182-112 | 192.168.182.112 | NodeManager、HRegionServer、DataNode、QuorumPeerMain |
官网下载:https://www.oracle.com/java/technologies/downloads/
百度云下载
链接:https://pan.baidu.com/s/1-rgW-Z-syv24vU15bmMg1w
提取码:8888
cd /opt/
tar -xf jdk-8u212-linux-x64.tar.gz
# 在文件加入环境变量/etc/profile
export JAVA_HOME=/opt/jdk1.8.0_212
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
# source加载
source /etc/profile
# 查看jdk版本
java -version
也可以参考我之前的文章:分布式开源协调服务——Zookeeper
下载地址:https://zookeeper.apache.org/releases.html
cd /opt/bigdata/
wget https://dlcdn.apache.org/zookeeper/zookeeper-3.8.0/apache-zookeeper-3.8.0-bin.tar.gz --no-check-certificate
tar -xf apache-zookeeper-3.8.0-bin.tar.gz
vi /etc/profile
export ZOOKEEPER_HOME=/opt/bigdata/apache-zookeeper-3.8.0-bin/
export PATH=$ZOOKEEPER_HOME/bin:$PATH
# 加载生效
source /etc/profile
cd $ZOOKEEPER_HOME
cp conf/zoo_sample.cfg conf/zoo.cfg
mkdir $ZOOKEEPER_HOME/data
cat >conf/zoo.cfg<<EOF
# tickTime:Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳。tickTime以毫秒为单位。session最小有效时间为tickTime*2
tickTime=2000
# Zookeeper保存数据的目录,默认情况下,Zookeeper将写数据的日志文件也保存在这个目录里。不要使用/tmp目录
dataDir=/opt/bigdata/apache-zookeeper-3.8.0-bin/data
# 端口,默认就是2181
clientPort=2181
# 集群中的follower服务器(F)与leader服务器(L)之间初始连接时能容忍的最多心跳数(tickTime的数量),超过此数量没有回复会断开链接
initLimit=10
# 集群中的follower服务器与leader服务器之间请求和应答之间能容忍的最多心跳数(tickTime的数量)
syncLimit=5
# 最大客户端链接数量,0不限制,默认是0
maxClientCnxns=60
# zookeeper集群配置项,server.1,server.2,server.3是zk集群节点;hadoop-node1,hadoop-node2,hadoop-node3是主机名称;2888是主从通信端口;3888用来选举leader
server.1=local-168-182-110:2888:3888
server.2=local-168-182-111:2888:3888
server.3=local-168-182-112:2888:3888
EOF
echo 1 > $ZOOKEEPER_HOME/data/myid
scp -r $ZOOKEEPER_HOME local-168-182-111:/opt/bigdata/
scp -r $ZOOKEEPER_HOME local-168-182-112:/opt/bigdata/
# 也需要添加环境变量和修改myid,local-168-182-111的myid设置2,local-168-182-112的myid设置3
cd $ZOOKEEPER_HOME
# 启动
./bin/zkServer.sh start
# 查看状态
./bin/zkServer.sh status
也可以参考我之前的文章:大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+MapReduce)
下载地址:https://dlcdn.apache.org/hadoop/common/
mkdir -p /opt/bigdata/hadoop && cd /opt/bigdata/hadoop
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz --no-check-certificate
# 解压
tar -zvxf hadoop-3.3.4.tar.gz
配置环境变量
vi /etc/profile
export HADOOP_HOME=/opt/bigdata/hadoop/hadoop-3.3.4
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
# 加载生效
source /etc/profile
$HADOOP_HOME/etc/hadoop/hadoop-env.sh
# 在hadoop-env.sh文件末尾追加
export JAVA_HOME=/opt/jdk1.8.0_212
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
$HADOOP_HOME/etc/hadoop/core-site.xml
#核心模块配置# 创建存储目录
mkdir -p /opt/bigdata/hadoop/data/hadoop-3.3.4
<property>
<name>fs.defaultFSname>
<value>hdfs://local-168-182-110:8082value>
property>
<property>
<name>hadoop.tmp.dirname>
<value>/opt/bigdata/hadoop/data/hadoop-3.3.4value>
property>
<property>
<name>hadoop.http.staticuser.username>
<value>rootvalue>
property>
<property>
<name>hadoop.proxyuser.hostsname>
<value>*value>
property>
<property>
<name>hadoop.proxyuser.root.groupsname>
<value>*value>
property>
<property>
<name>fs.trash.intervalname>
<value>1440value>
property>
$HADOOP_HOME/etc/hadoop/hdfs-site.xml
#hdfs文件系统模块配置
<property>
<name>dfs.namenode.secondary.http-addressname>
<value>local-168-182-111:9868value>
property>
<property>
<name>dfs.webhdfs.enabledname>
<value>truevalue>
property>
<property>
<name>dfs.nameservicesname>
<value>ns1value>
property>
$HADOOP_HOME/etc/hadoop/mapred.xml
#MapReduce模块配置
<property>
<name>mapreduce.framework.namename>
<value>yarnvalue>
property>
<property>
<name>mapreduce.jobhistory.addressname>
<value>local-168-182-110:10020value>
property>
<property>
<name>mapreduce.jobhistory.webapp.addressname>
<value>local-168-182-110:19888value>
property>
<property>
<name>yarn.app.mapreduce.am.envname>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}value>
property>
<property>
<name>mapreduce.map.envname>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}value>
property>
<property>
<name>mapreduce.reduce.envname>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}value>
property>
$HADOOP_HOME/etc/hadoop/yarn-site.xml
#yarn模块配置
<property>
<name>yarn.resourcemanager.hostnamename>
<value>local-168-182-110value>
property>
<property>
<name>yarn.nodemanager.aux-servicesname>
<value>mapreduce_shufflevalue>
property>
<property>
<name>yarn.nodemanager.pmem-check-enabledname>
<value>falsevalue>
property>
<property>
<name>yarn.nodemanager.vmem-check-enabledname>
<value>falsevalue>
property>
<property>
<name>yarn.log-aggregation-enablename>
<value>truevalue>
property>
<property>
<name>yarn.log.server.urlname>
<value>http://local-168-182-110:19888/jobhistory/logsvalue>
property>
<property>
<name>yarn.log-aggregation.retain-secondsname>
<value>604880value>
property>
修改$HADOOP_HOME/etc/hadoop/workers
local-168-182-110
local-168-182-111
local-168-182-112
scp -r $HADOOP_HOME local-168-182-111:/opt/bigdata/hadoop/
scp -r $HADOOP_HOME local-168-182-112:/opt/bigdata/hadoop/
# 注意也需要设置环境变量
vi /etc/profile
export HADOOP_HOME=/opt/bigdata/hadoop/hadoop-3.3.4
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
# 加载
source /etc/profile
hdfs namenode -format
# HDFS集群启动
hdfs --daemon [start|stop] [namenode|datanode|secondarynamenode]
# YARN集群启动
yarn --daemon [start|stop] [resourcemanager|nodemanager]
在local-168-182-110上,使用软件自带的shell脚本一键启动。前提:配置好机器之间的SSH免密登录和works文件
start-dfs.sh
stop-dfs.sh #这里不执行
# YARN集群启停
start-yarn.sh
stop-yarn.sh # 这里不执行
# Hadoop集群启停(HDFS+YARN)
start-all.sh
stop-all.sh # 这里不执行
# 查看
jps
HDFS集群访问:http://local-168-182-110:9870
YARN集群访问:http://local-168-182-110:8088
下载地址:http://hbase.apache.org/downloads.html
cd /opt/bigdata
wget https://dlcdn.apache.org/hbase/2.4.13/hbase-2.4.13-bin.tar.gz --no-check-certificate
# 解压
tar -xf hbase-2.4.13-bin.tar.gz
# 配置环境变量
vi /etc/profile
export HBASE_HOME=/opt/bigdata/hbase-2.4.13
export PATH=$HBASE_HOME/bin:$PATH
source /etc/profile
$HBASE_HOME/conf/hbase-env.sh
,添加或修改以下内容:export JAVA_HOME=/opt/jdk1.8.0_212
export HBASE_CLASSPATH=/opt/bigdata/hbase-2.4.13/conf
export HBASE_MANAGES_ZK=false
$HBASE_HOME/conf/hbase-site.xml
<configuration>
<property>
<name>hbase.rootdirname>
<value>hdfs://local-168-182-110:8082/hbasevalue>
property>
<property>
<name>hbase.cluster.distributedname>
<value>truevalue>
property>
<property>
<name>hbase.zookeeper.quorumname>
<value>local-168-182-110,local-168-182-111,local-168-182-112value>
property>
<property>
<name>hbase.zookeeper.property.clientPortname>
<value>2181value>
property>
<property>
<name>hbase.mastername>
<value>60000value>
<description>单机版需要配主机名/IP和端口,HA方式只需要配端口description>
property>
<property>
<name>hbase.master.info.bindAddressname>
<value>0.0.0.0value>
property>
<property>
<name>hbase.master.portname>
<value>16000value>
property>
<property>
<name>hbase.master.info.portname>
<value>16010value>
property>
<property>
<name>hbase.regionserver.portname>
<value>16020value>
property>
<property>
<name>hbase.regionserver.info.portname>
<value>16030value>
property>
<property>
<name>hbase.wal.providername>
<value>filesystemvalue>
property>
configuration>
hbase-site.xml参数说明:
1. hbase.rootdir
:这个目录是 RegionServer 的共享目录,用来持久化 HBase。特别注意的是 hbase.rootdir 里面的 HDFS 地址是要跟 Hadoop 的 core-site.xml 里面的 fs.defaultFS 的 HDFS 的 IP 地址或者域名、端口必须一致。(HA环境下,dfs.nameservices 是由zookeeper来决定的)。
2. hbase.cluster.distributed
:HBase 的运行模式。为 false 表示单机模式,为 true 表示分布式模式。若为 false,HBase 和 ZooKeeper 会运行在同一个 JVM 中。
3. hbase.master
:如果只设置单个 Hmaster,那么 hbase.master 属性参数需要设置为 master:60000 (主机名:60000);如果要设置多个 Hmaster,那么我们只需要提供端口 60000,因为选择真正的 master 的事情会有 zookeeper 去处理。
4. hbase.tmp.dir
:本地文件系统的临时文件夹。可以修改到一个更为持久的目录上(/tmp会在重启时清除)。
5. hbase.zookeeper.quorum
:对于 ZooKeeper 的配置。至少要在 hbase.zookeeper.quorum 参数中列出全部的 ZooKeeper 的主机,用逗号隔开。该属性值的默认值为 localhost,这个值显然不能用于分布式应用中。
6. hbase.zookeeper.property.dataDir
:这个参数用户设置 ZooKeeper 快照的存储位置,默认值为 /tmp,显然在重启的时候会清空。因为笔者的 ZooKeeper 是独立安装的,所以这里路径是指向了$ZOOKEEPER_HOME/conf/zoo.cfg
中 dataDir 所设定的位置。
7. hbase.zookeeper.property.clientPort
:客户端连接 ZooKeeper 的端口。默认是2181。
8. zookeeper.session.timeout
:ZooKeeper 会话超时。Hbase 把这个值传递改 zk 集群,向它推荐一个会话的最大超时时间。
9. hbase.regionserver.restart.on.zk.expire
:当 regionserver 遇到 ZooKeeper session expired, regionserver 将选择 restart 而不是 abort。
$HBASE_HOME/conf/regionservers
local-168-182-110
local-168-182-111
local-168-182-112
cp $HADOOP_HOME/etc/hadoop/core-site.xml $HADOOP_HOME/etc/hadoop/hdfs-site.xml $HBASE_HOME/conf/
scp -r $HBASE_HOME local-168-182-111:/opt/bigdata/
scp -r $HBASE_HOME local-168-182-112:/opt/bigdata/
# 注意在其它节点也配置环境变量
# 配置环境变量
vi /etc/profile
export HBASE_HOME=/opt/bigdata/hbase-2.4.13
export PATH=$HBASE_HOME/bin:$PATH
source /etc/profile
【温馨提示】在其中一台启动即可,启动其它节点得hbase服务,跟hadoop启动类似
start-hbase.sh
stop-hbase.sh
命令测试
#登入HBase(跟MySQL类似)
hbase shell
web访问:http://local-168-182-110:16010/
环境部署就到这里了,有任何疑问欢迎给我留言哦~
对比项 | Hbase | 传统数据库 |
---|---|---|
数据类型 | Hbase只有简单的数据类型,只保留字符串 | 传统数据库有丰富的数据类型 |
数据操作 | Hbase只有简单的插入、查询、删除、清空等操作,表和表之间是分离的,没有复杂的表和表之间的关系 | 传统数据库通常有各式各样的函数和连接操作 |
存储模式 | Hbase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的,这样的好处是数据即是索引,访问查询涉及的列大量降低系统的I/O,并且每一列由一个线索来处理,可以实现查询的并发处理 | 传统数据库是基于表格结构和行存储,其没有建立索引将耗费大量的I/O并且建立索引和物化试图需要耗费大量的时间和资源 |
数据维护 | Hbase的更新实际上是插入了新的数据 | 传统数据库只是替换和修改 |
可伸缩性 | Hbase可以轻松的增加或减少硬件的数目,并且对错误的兼容性比较高 | 传统数据库需要增加中间层才能实现这样的功能 |
事务 | Hbase只可以实现单行的事务性,意味着行与行之间、表与表之前不必满足事务性 | 传统数据库是可以实现跨行的事务性 |
对比项 | Hbase | Clickhouse |
---|---|---|
数据存储 | Zookeeper保存元数据,数据写入HDFS(非结构化数据) | Zookeeper保存元数据,数据存储在本地,且会压缩 |
查询 | 不支持标准sql,需要集成Phoenix插件。Hbase自身有Scan操作,但是不建议执行,一般会全量扫描导致集群崩溃 | 支持sql,拥有高效的查询能力 |
数据读写 | 支持随机读写,删除。更新操作是插入一条新timestamp的数据 | 支持读写,但不能删除和更新 |
维护 | 需要同时维护HDFS、Zookeeper和Hbase(甚至于Phoenix) | 额外维护Zookeeper |
Hbase更适合非结构化的数据存储,ClickHouse拥有高效的查询能力。
关于HBase的介绍和环境部署就先到这里了,后面会分享HBase的实战操作,请小伙伴耐心等待,有疑问的小伙伴欢迎给我留言哦~