加入收藏 | 设为首页 | 会员中心 | 我要投稿鞍山站长网（https://www.0412zz.com/）- 应用安全、运维、云计算、5G、云通信!

当前位置：首页 > 运营中心 > 网站设计 > 教程 > 正文

图解HBase--大数据平台技术栈

发布时间：2019-08-01 07:51:37 所属栏目：教程来源：架构师公社

导读：HBase简介 HBase是一个分布式的、面向列的开源数据库存储系统，是对Google论文BigTable的实现，具有高可靠性、高性能和可伸缩性，它可以处理分布在数千台通用服务器上的PB级的海量数据。BigTable的底层是通过GFS(Google文件系统)来存储数据，而HBase对应的

Client使用HBase的RPC机制与HMaster、RegionServer进行通信，Client与Master进行管理类通信，与RegionServer进行数据操作类通信。Client包含了访问HBase的接口，另外Client还维护了对应的cache来加速HBase的访问，比如.META.元数据信息。

RegionServer内部结构

图解Hbase--大数据平台技术栈

WAL：预写日志(Write Ahead Log)。当操作到达Region的时候，HBase先把数据写到WAL中，再把数据写到MemStore中，等数据达到阈值时才会被刷写(flush)到最终存储的HFile中。WAL是一个保险机制，这样在Region的机器宕机时，由于WAL的数据是存储在HDFS中的，可以从WAL中恢复数据，所以数据并不会丢失。
BlockCache：读缓存，用于在内存中缓存经常被读的数据。Least Recently Used (LRU) 数据在存满时会被失效。
Region：Region相当于一个数据的分片。每一个Region都有起始rowkey和结束rowkey，这表示了Region的存储的row的范围。一个RegionServer包含多个Region，一个表的一段键值在一个RegionServer上会产生一个Region。在一个RegionServer中有一个或多个Region。
Store：一个Region包含多个Store，一个列族分为一个Store，如果一个表只有一个列族，那么这个表在这台机器上的每一个Region里面都只有一个Store。Store是HBase的存储核心，一个Store里面有一个MemStore和一个或多个HFile。
MemStore：有序的内存缓冲区，用于缓存还未被持久化到磁盘的数据，在持久化之前会先将数据排序，每个Region的每个列族(Store)都有一个 MemStore。
HFile：真正存在硬盘上的，对数据按照Rowkey排好序的键值对文件。每次MemStore的flush会产生新的HFile文件。

用户写入的数据先写入WAL，然后写入MemStore，当MemStore满了以后会Flush成一个StoreFile(存储为HFile)，当StoreFile数量到达一定阈值，会触发Compact合并，将多个StoreFile合并成一个StoreFile。StoreFiles合并后会逐渐形成越来越大的StoreFile，当Region内的所有的StoreFiles的总的大小超过阈值(hbase.hregion.max.filesize)会触发Split操作。会把当前Region Split成两个Region，父Region下线，新Split的两个子Region被Master分配到合适的RegionServer上，使得原先一个Region的压力分流到两个Region上。

Region寻址方式

在进行数据操作的时候，首先要定位需要对哪个Region进行操作，或者从哪个Region上读取数据，因此HBase数据读取的第一步是Region寻址。

图解Hbase--大数据平台技术栈

Region寻址步骤：

首先Client请求Zookeeper，获取hbase:meta表所在的RegionServer的地址(/hbase/meta-region-server)。
Client连接hbase:meta表所在的RegionServer，获取需要访问的数据所在的RegionServer地址。Client会将hbase:meta表的相关信息缓存起来，以便下一次能够快速访问。hbase:meta表存储了所有Region的行键范围信息，通过这个表可以查询出你要操作的Rowkey属于哪个Region的范围里面，以及这个Region是属于哪个RegionServer。
Client请求数据所在的RegionServer，获取所需要的数据

HBase读写流程

HBase写流程

图解Hbase--大数据平台技术栈

Client通过Region寻址定位到需要访问的RegionServer;
将更新写入WAL HLog，然后将更新写入MemStore，两者写入完成即返回ACK到Client;
判断MemStore的大小是否达到阈值，是否需要flush为StoreFile。

细节：

HBase使用MemStore和StoreFile存储对象表的更新，数据在更新的时候首先写入HLog和MemStore。MemStore中的数据时排序的，当MemStore累积到一定阈值时，就会创建一个新的MemStore并将老的MemStore添加到flush队列，由单独的线程flush到磁盘上，成为一个StoreFile。同时，系统会在Zookeeper中记录一个checkpoint，表示这个时刻之前的更新已经持久化了，当系统出现意外时，可能导致MemStore中的数据丢失，此时使用HLog来恢复chckpoint之后的数据。

HBase读流程

图解Hbase--大数据平台技术栈

Client通过Region寻址定位到需要访问的RegionServer
先从BlockCache中查找数据，找不到再去MemStore和StoreFile中查询数据

在对HBase进行写操作的时候，进行Put和Update操作的时候，其实是新增了一条数据，即使是在进行Delete操作的时候，也是新增一条数据，只是这条数据没有value，类型为DELETE，这条数据叫做墓碑标记(Tobstone)。数据的真正删除是在compact操作时进行的。

WAL机制

WAL(Write-Ahead Log，预写日志)主要用来来解决宕机之后的操作恢复问题的。数据到达Region的时候会先写入WAL，然后再被写入MemStore。就算Region的机器宕掉了，由于WAL的数据时存储在HDFS中的，所以数据并不会丢失，还可以从WAL中恢复。

HLog的生命周期

产生

所有涉及到数据的变更都会先写到HLog中，除非是关闭了HLog。

滚动

HLog的大小可以通过参数hbase.regionserver.logroll.period来控制，默认是1小时，时间达到该参数设置的时间，HBase会创建一个新的HLog文件。这就实现了HLog滚动的目的。HBase通过hbase.regionserver.maxlogs参数控制HLog的个数。滚动的目的是为了避免单个HLog文件过大的情况，方便后续的过期和删除。

过期

（编辑：鞍山站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3

相关内容

推荐文章

站长推荐

热点阅读