1hbase简介

格式：pptx
大小：561.07 KB
文档页数：21

下载文档原格式

/ 21

hbase基本原理

hbase基本原理
HBase是一个基于Hadoop的分布式列式数据库，它的设计目标
是存储大规模的结构化和半结构化数据。

HBase采用了Google Bigtable的设计思想，将数据存储在一个大的分布式表中，可以动
态地添加新的列和行。

HBase还提供了强大的数据访问能力，支持高效的随机读写和范围查询。

HBase的数据模型是基于行的，每一行由一个行键和多个列组成。

每个列都有一个唯一的列名和一个对应的值，可以动态地添加新的列。

HBase的数据存储是按照行键的字典序排序的，因此可以高效地进行范围查询。

HBase的存储结构是基于Hadoop的HDFS文件系统的，数据会被分成多个块并在多个节点上进行存储。

每个块都有一个块号，可以通过这个块号来查找数据。

HBase还提供了容错机制，可以自动进行数据备份和恢复。

HBase还提供了强大的数据访问接口，包括Java API、REST API 和Thrift API等。

用户可以通过这些接口来访问HBase中的数据，
并进行高效的读写操作。

总的来说，HBase是一个高性能、可扩展和容错性强的分布式列式数据库，能够处理大规模的结构化和半结构化数据。

它的数据模型基于行，存储结构基于HDFS文件系统，提供了强大的数据访问接口。

- 1 -。

01_尚硅谷大数据之HBase简介

第1章HBase简介1.1 什么是HBaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE 技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。

HBASE是Google Bigtable的开源实现，但是也有很多不同之处。

比如：Google Bigtable 利用GFS作为其文件存储系统，HBASE利用Hadoop HDFS作为其文件存储系统；Google 运行MAPREDUCE来处理Bigtable中的海量数据，HBASE同样利用Hadoop MapReduce来处理HBASE中的海量数据；Google Bigtable利用Chubby作为协同服务，HBASE利用Zookeeper作为对应。

1.2 HBase中的角色1.2.1 HMaster功能：1) 监控RegionServer2) 处理RegionServer故障转移3) 处理元数据的变更4) 处理region的分配或移除5) 在空闲时间进行数据的负载均衡6) 通过Zookeeper发布自己的位置给客户端1.2.2 RegionServer功能：1) 负责存储HBase的实际数据2) 处理分配给它的Region3) 刷新缓存到HDFS4) 维护HLog5) 执行压缩6) 负责处理Region分片1.2.3 其他组件：1) Write-Ahead logsHBase的修改记录，当对HBase读写数据的时候，数据不是直接写进磁盘，它会在内存中保留一段时间（时间以及数据量阈值可以设定）。

但把数据保存在内存中可能有更高的概率引起数据丢失，为了解决这个问题，数据会先写在一个叫做Write-Ahead logfile的文件中，然后再写入内存中。

所以在系统出现故障的时候，数据可以通过这个日志文件重建。

hbase使用场景和成功案例

hbase使用场景和成功案例【实用版】目录1.HBase 简介2.HBase 使用场景3.HBase 成功案例4.HBase 的优势与不足5.总结正文一、HBase 简介HBase 是一个分布式、可扩展、高可靠性的列式 NoSQL 数据库，作为 Apache Hadoop 生态系统的一部分，它旨在提供可扩展、高可靠性的数据存储。

HBase 具有面向列（族）的存储和权限控制，适用于存储和处理大型的结构化和半结构化数据。

二、HBase 使用场景1.半结构化或非结构化数据：当数据结构字段不够确定或杂乱无章时，HBase 是一个很好的选择，因为它可以动态增加列。

2.记录非常稀疏：传统的关系型数据库中，为 null 的列会浪费存储空间，而 HBase 只会存储非空列，既节省了空间又提高了读性能。

3.多版本数据：HBase 可以存储任意数量的版本值，方便存储变动历史记录。

4.超大数据量：HBase 可在廉价 PC 服务器上搭建大规模结构化存储集群，处理由成千上万的行和列组成的大型数据。

三、HBase 成功案例1.Google Bigtable：Google Bigtable 是 HBase 的灵感来源，它成功地应用于 Google 的广告系统等大型数据处理场景。

2.Facebook HBase：Facebook 使用 HBase 作为其社交图谱的数据存储后端，成功地支持了 Facebook 的实时数据分析和广告推荐业务。

四、HBase 的优势与不足1.优势：- 可扩展性强：HBase 可以水平扩展，支持大规模数据存储。

- 高可靠性：作为 Hadoop 生态系统的一部分，HBase 具有故障恢复和数据备份功能。

- 面向列存储：灵活的列式存储结构，易于扩展和调整。

2.不足：- 复杂度高：相较于关系型数据库，HBase 的编程模型较为复杂。

- 事务支持有限：HBase 支持基于乐观锁的事务处理，但不支持ACID 事务。

什么是HBase？

什么是HBase？HBase 介绍⼀、什么是HBase？1.HBase – Hadoop Database，是⼀个⾼可靠性、⾼性能、⾯向列、可伸缩、实时读写的分布式数据库2. HBASE是Google Bigtable的开源实现，但是也有很多不同之处。

⽐如：Google Bigtable使⽤GFS作为其⽂件存储系统，HBASE利⽤Hadoop HDFS作为其⽂件存储系统；Google运⾏MAPREDUCE来处理Bigtable中的海量数据，HBASE同样利⽤Hadoop MapReduce来处理HBASE中的海量数据；Google Bigtable利⽤Chubby作为协同服务，HBASE利⽤Zookeeper作为协同服务。

3.HBase是⼀个分布式存储、数据库引擎，可以⽀持千万的QPS、PB级别的存储，这些都已经在⽣产环境验证，并且在⼴⼤的公司已经验证。

特别是阿⾥（淘宝、天猫、蚂蚁⾦服）、⼩⽶⽶聊、⼩⽶云、⼩⽶推送服务）、京东、滴滴内部都有数千、上万台的HBase集群。

Hbase PMC。

阿⾥1个。

Hbase Committer。

阿⾥4个，⼩⽶4个。

2016年双11，HBase承载访问量达到了上百GB/秒(写⼊)与上百GB/秒(读取)，相当于全国⼈民⼀秒收发⼀条短信，在业务记录、安全风控、实时计算、⽇志监控、消息聊天等多个场景发挥重要价值。

⼆、哪些是HBase的特点？1.存储数据量⼤：⼀个表可以有上亿⾏，上百万列。

2.⾯向列：⾯向列表（簇）的存储和权限控制，列（簇）独⽴检索。

3.稀疏：对于为空（NULL）的列，并不占⽤存储空间，因此，表可以设计的⾮常稀疏。

4.⽆模式：每⼀⾏都有⼀个可以排序的主键和任意多的列，列可以根据需要动态增加，同⼀张表中不同的⾏可以有截然不同的列。

5.数据多版本：每个单元中的数据可以有多个版本，默认情况下，版本号⾃动分配，版本号就是单元格插⼊时的时间戳。

6.数据类型单⼀：HBase中的数据都是字符串，没有类型。

hbase基础操作

hbase基础操作（最新版）目录1.HBase 简介2.HBase 基本操作2.1 创建表2.2 删除表2.3 插入数据2.4 查询数据2.5 更新数据2.6 删除数据正文【HBase 简介】HBase 是一个分布式、可扩展、高性能的列式存储系统，它基于 Google 的Bigtable 设计，是 Apache Hadoop 的一个子项目。

HBase 适用于海量数据的存储和实时读写操作，被广泛应用于大数据处理领域。

【HBase 基本操作】HBase 的基本操作主要包括创建表、删除表、插入数据、查询数据、更新数据和删除数据。

【创建表】在 HBase 中，表是由行和列组成的，表的结构是灵活可变的。

创建表时需要指定表名、列族和列。

例如，创建一个名为“user”的表，包含“id”、“name”和“age”三个列，可以使用如下命令：```create "user", "id", "name", "age"```【删除表】删除表时，需要使用“drop”命令，指定表名。

例如，删除名为“user”的表，可以使用如下命令：```drop "user"```【插入数据】在 HBase 中，数据以行形式存储，每行包含一个或多个列。

插入数据时，需要指定表名和行键。

例如，向名为“user”的表插入一条数据，行键为“1”，列族为“name”，列值为“张三”，可以使用如下命令：```put "user", "1", "name", "张三"```【查询数据】HBase 提供了多种查询数据的方法，如 get、scan 和 range 扫查等。

例如，查询名为“user”的表中行键为“1”的数据，可以使用如下命令：```get "user", "1"```【更新数据】在 HBase 中，可以通过 put 命令更新数据。

Hbase简介

目录1、前言........................................................................................ 错误！未定义书签。

2、Hbase的体系结构................................................................. 错误！未定义书签。

2.1 HBase的服务器体系结构......................................... 错误！未定义书签。

2.1.1 HBase的服务器的构架.................................. 错误！未定义书签。

2.1.2 数据的更新...................................................... 错误！未定义书签。

2、2 HRegion和HMaster的关系 .................................. 错误！未定义书签。

2.2.1 HMaster的主要任务....................................... 错误！未定义书签。

2.2.2 HMaster的管理............................................... 错误！未定义书签。

2.3逻辑视图........................................................................ 错误！未定义书签。

2.3.1 Row Key .......................................................... 错误！未定义书签。

2.3.2 列族.................................................................. 错误！未定义书签。

HBase架构简介

HBase架构简介一、概览图1图1指出了在HBase中其实有两种文件，一种是write-ahead log，而另一种则是真正存储数据的地方。

而这些文件都被HRegionServers来处理。

从图中可以看出，文件最后在HDFS中存在不同的block中。

基本的通信流程是这样的：当一个client需要查询某一特点的row时，它会先连到Zookeeper（事实上是ZK管理的集群），并且从zookeeper获取持有-ROOT-的region的server name，有了这个信息以后，我们就可以去寻找包含刚刚我们查询的row的.META.的region的server name。

这些信息都会被客户端缓存下来。

最后，我们可以通过.META.找到持有我们所查询的rowkey的region。

一旦获取了这个row在哪个region中，这个信息也会被客户端缓存下来，所以下次再访问的时候，就可以直接访问那个region了。

过了一段时间后，客户端就会搜集到相当全面的信息：查询某row时应到哪个region去找，从而不需要去查询.META.了。

当HBase启动时，HMaster负责向各个RS分配region，其中当然也包括了-ROOT-和.META.某RS打开一个Region，这时会创建一个相应的HRegion对象，当HRegion打开时，它会为每一个HColumnFamily创建一个Store，每一个Store 都会有一个或者多个StoreFile的实例，它是对真正的存储文件HFile的轻量级封装。

每一个Store都会有一个MemStore，并且整个RS会共享一个HLog实例。

二、写当一个client向RS发起一个HTable.put(Put)的请求时，第一步先把数据写入write-ahead-log(WAL),被HLog所表示，这个WAL是一个标准的Hadoo SequenceFile，当Server挂掉以后再重启，WAL可以继续将未被持久化的数据持久化。

hbase名词解释

HBase名词解释1. 什么是HBase？HBase是一个基于Hadoop的分布式、面向列的非关系型数据库。

它是Apache软件基金会的一个开源项目，被设计用于处理大规模数据集。

HBase提供了高可靠性、高性能和高可扩展性，并且具有强大的数据模型。

2. HBase的特点2.1 列存储HBase以列族（Column Family）的形式存储数据，而不是以行的形式。

每个列族包含多个列限定符（Column Qualifier），这些列限定符可以动态地定义。

这种列存储的方式使得HBase能够高效地存储稀疏数据。

2.2 分布式HBase基于Hadoop的分布式文件系统（HDFS）进行数据存储，数据被分散存储在多个节点上，可以实现水平扩展，处理大规模数据集。

2.3 高可靠性HBase通过数据的冗余复制提供了高可靠性。

数据被复制到多个节点上，当某个节点出现故障时，可以从其他节点恢复数据。

2.4 高性能HBase通过将数据存储在内存中，并使用B树索引来提供高性能的数据访问。

此外，HBase还支持在列族级别进行数据压缩，减少了存储空间的占用。

2.5 强一致性HBase提供了强一致性的读写操作。

当数据被写入或读取时，HBase会确保数据的一致性，避免出现数据不一致的情况。

2.6 支持在线扩容HBase支持在线扩容，可以动态地添加或删除节点，以适应数据量的增长或减少。

这种扩容方式不会影响正在进行的读写操作。

2.7 支持复杂的查询HBase支持针对单行或范围的查询操作，可以根据行键（Row Key）或列限定符进行查询。

此外，HBase还支持过滤器（Filter）的使用，可以进行更复杂的查询。

3. HBase的数据模型HBase的数据模型是基于行的，每一行由一个唯一的行键标识。

行键是按照字典顺序进行排序的，可以使用任意的字节序列作为行键。

HBase的数据是以列族的形式进行组织的。

每个列族可以包含多个列限定符，列限定符是列族内的列的唯一标识。

HBase简介

HBase简介什么是HBase？HBase，是Hadoop Database，是⼀个⾼可靠性、⾼性能、⾯向列、可伸缩的分布式存储系统。

使⽤HBase技术可以在廉价的PC服务器上搭建起⼤规模结构化的存储集群。

它底层的⽂件系统使⽤HDFS，使⽤Zookeeper来管理集群的HMaster和各Region server 之间的通信，监控各Region server的状态，存储各Region的⼊⼝地址等。

何时⽤HBase？⾸先想想传统的关系型数据库都有哪些特点，⼤概的特点有：⽀持事务，ACID（原⼦性、⼀致性、隔离性和持久性）特性；⾏式存储；SQL语句使⽤起来⽐较⽅便；⽀持索引、视图等；接下来我们考虑⼀个场景：我们想要构建⼀个社交⽹站，我们可能会选择易于操作的LAMP（Linux、Apache、Mysql、PHP）模型来快速的搭建⼀个原型。

随着⽤户数的不断增加，每天有越来越多的⼈开始访问，这时候，共享的数据库服务器压⼒会越来越⼤，可以选择增加应⽤服务器，但因为这些应⽤服务器共享中央数据库，所以，随着数据库的CPU 和I/O负载升⾼，这种⽅案势必不可长久。

这时候，我们可能会增加从服务器，以便并⾏读取，将读写分离。

这样做是因为考虑到⽤户访问产⽣的读次数⽐写⼊次数更多，但是如果⽤户数⽬增加很快，产⽣的内容越来越多，导致读写数⽬相差没那么⼤，这种⽅案也就不能长久。

接下来的常见做法就是增加缓存，⽐如使⽤Memcached。

这样，读操作存⼊到内存中的数据库系统中，但⼜没办法保证数据⼀致性，因为⽤户更新数据到数据库，⽽数据库不会主动更新缓存中的数据，⽽且，这种⽅案只能解决读请求的压⼒，对于写请求，还是没有解决。

所以需要更多的服务器，更快的磁盘，会导致硬件成本快速升⾼。

⽽且，随着⽤户的增多，⽹站功能势必增加，业务功能都会使⽤sql语句进⾏查询，⽽表数据过多会导致join操作变慢，所以会不得不采⽤⼀些逆范式的⽅式来设计数据库，这样导致⽆法使⽤存储过程。

hbase snapshot 原理-概述说明以及解释

hbase snapshot 原理-概述说明以及解释1.引言1.1 概述HBase是一个开源的分布式列存数据库，运行在Hadoop的HDFS 文件系统之上。

它以提供高可靠性、高性能和可伸缩性为目标，被广泛应用于海量数据的存储和实时读写。

HBase的快照（Snapshot）是一项重要功能，可以提供数据备份、恢复和数据分析等方面的支持。

在HBase中，快照是对表或者表的特定时间点的一个一致性视图。

通过创建快照，我们可以在某个特定时间点上固定当前表的状态，保护数据免受误操作或数据损坏的影响。

创建快照的过程包括两个关键步骤：首先，HBase会将当前表的元数据（Metadata）以及所关联的HFile等数据文件进行复制，并将其保存到一个特定的目录中；其次，HBase会记录下当前表状态的一个标记点，以便在后续需要恢复数据时能够快速找到该标记点，并将之后的变更操作应用于快照文件上。

HBase快照的应用场景非常广泛。

在开发和测试环境中，我们可以使用快照来避免因误操作而导致数据不一致或者数据丢失。

此外，快照还可以用于数据的备份和恢复，可以方便地创建某个时间点的数据备份，并在需要时进行数据的快速恢复。

此外，快照还可以用于数据分析和测试验证，通过创建快照，我们可以在快照上执行各种查询和分析操作，而不会影响线上生产环境的数据。

综上所述，HBase的快照是一项重要的功能，可以提供对数据的备份、恢复和数据分析等方面的支持。

在本文接下来的内容中，我们将深入探讨HBase快照的具体概念、创建过程以及应用场景，并对快照在未来的发展和应用进行展望。

文章结构是指文章的组织和布局方式，它决定了文章的逻辑结构和内容安排。

一个良好的文章结构可以使读者更好地理解文章的主题和内容，并且能够有条理地表达作者的观点和论证。

在本文中，文章结构如下：1. 引言1.1 概述引言部分概述了本文要讨论的主题——HBase的快照（Snapshot）原理。

介绍了HBase是什么、它的基本特性和作用，并引出了本文的目的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

表有多个列族，数据的存储是不平均的，当数据切分的时候会出现数据倾斜，在 HDFS 上还会出现很多小文件，而文件的合并级别是 Store 级别的。
19
HBase 中的角色
▪ HMaster 功能：
• RegionServer 功能：
1．监控 RegionServer
• 1．负责存储 HBase 的实际数据
14
▪ 用惯了Oracle/MySQL的同学们，心目中的数据表，应该是长成这样的：
▪ 这种表结构规整，每一行都有固定的列构成，因此，非常适合结构化数据的存储。但在NoSQL领域，数据表的模样却往往换成了另外一种"画风"：
▪ 行由看似"杂乱无章"的列组成，行与行之间也无须遵循一致的定义，而这种定义恰好符合半结构化数据或非结构化数据的特点。这些"杂乱无章"的列所构成的多行数据，被称之为一个"稀疏矩阵"，而图中的每一个"黑块块"，在HBase中称之为一个KeyValue。
15
HBase 架构
16
▪ Hbase 是由 Client、Zookeeper、Master、HRegionServer、HDFS 等几个组件组成，下面来介绍一下几个组件的相关功能：
• 1）Client • 包含了访问 Hbase 的接口，另外 Client 还维护了对应的 cache 来加速 Hbase 的访问，比
4
应用场景
▪ Facebook用户交互数据
• Like按钮——统计
▪ 淘宝Tlog
• Tlog是一个分布式、可靠的、对大量数据进行收集、分析和展现的系统。（鹰眼系统）
▪ 小米云服务
• 数据以用户为隔离，契合Hbase的分片自动负载均衡。
▪ 用户行为数据存储
• 为用户构建立体画像，实时分析用户行为，了解用户需求，实现精准营销。
17
▪ 3）Hmaster
• master 节点的主要职责如下： • 为 RegionServer 分配 Region。 • 维护整个集群的负载均衡。 • 维护集群的元数据信息。 • 发现失效的 Region，并将失效的 Region 分配到正常的 RegionServer 上。 • 当 RegionSever 失效的时候，协调对应 Hlog 的拆分。
kilo[千]，K.10^3 mega, [兆]，M. 10^6. giga, [吉]咖, G. 10^9, tera, [太]拉, T. 10^12, peta, [拍]它, P. 10^15, exa, [艾]可萨, E. 10^18, zetta, [泽]它, Z. 10^21, yotta, [尧]它, Y. 10^24,
▪ MapReduce可以帮助用户在需要的时候利用集群中每台机器的能力“分而治之”，恰当的分析数据，提供海量数据核心价值。
▪ 目前，Hbase在各大公司使用，如Facebook的消息平台，小米的云服务、阿里的 Tlog等服务组件
3
NoSQL与传统RDBMS
▪ NoSQL是Not only SQL的缩写，泛指非关系型数据库，如Hbase、MangoDB、 Cassandra等。
HDFS提供的数据只能顺序访问。
HBase内部使用哈希表和提供随机接入，并且其存储索引，可将在HDFS文件中的数据进行
快速查找。
10
HBase 特点
▪ 1）海量存储
• Hbase 适合存储 PB 级别的海量数据，在 PB 级别的数据以及采用廉价 PC 存储的情况下，能在几十到百毫秒内返回数据。这与 Hbase 的极易扩展性息息相关。正式因为 Hbase 良好的扩展性，才为海量数据的存储提供了便利。
2．处理 RegionServer 故障转移
2
▪ Google内部使用的GFS以及MapReduce解决了大量数据存储以及分析的问题，开源社区是基于Google描述的基于商业硬件集群构建分布式、可扩展的存储和处理系统思想，实现开源项目Hadoop的两个模块，即HDFS和MapReduce。
▪ HDFS适合存储任意的非结构化或者半结构化的数据，其分布式架构以及简单的扩展方式，可以对数据存储提供“无限”的支持，可以部署在普通的商业机器集群上，使得存储成本低廉。
▪ 4）HregionServer
• HregionServer 直接对接用户的读写请求。它的功能概括如下： • 管理 master 为其分配的 Region。 • 处理来自客户端的读写请求。 • 负责和底层 HDFS 的交互，存储数据到 HDFS。 • 负责 Region 变大以后的拆分。 • 负责 StoreFile 的合并工作。
8
HBase处理数据
▪ 虽然Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统，但是它不适用于提供实时计算；HBase是可以提供实时计算的分布式数据库，数据被保存在HDFS分布式文件系统上，由HDFS保证期高容错性，HBase上的数据是以 StoreFile(HFile)二进制流的形式存储在HDFS上block块儿中；但是HDFS并不知道的HBase用于存储什么，它只把存储文件认为是二进制文件，也就是说，HBase的存储数据对于HDFS文件系统是透明的。
如 cache 的 .META.元数据的信息。 • 2）Zookeeper • HBase 通过 Zookeeper 来做 master 的高可用、RegionServer 的监控、元数据的入口以及集
群配置的维护等工作。具体工作如下： • 通过 Zoopkeeper 来保证集群中只有 1 个 master 在运行，如果 master 异常，会通过竞争机制产生新的 master 提供服务。 • 通过 Zoopkeeper 来监控 RegionServer 的状态，当 RegionSevrer 有异常的时候，通过回调的形式通知 Master RegionServer 上下线的信息。 • 通过 Zoopkeeper 存储元数据的统一入口地址。
事件
谷歌公布 BigTable 文件最初的HBase原型创建由 Hadoop 贡献随着Hadoop 0.15.0，第一个可用的HBase也发布了 HBase成为 Hadoop 的子项目 HBase 0.18.1 发布 HBase 0.19 发布 HBase 0.20.0 发布 HBase 成为 Apache 的顶级项目
11
▪ 4）高并发
• 由于目前大部分使用 Hbase 的架构，都是采用的廉价 PC，因此单个IO的延迟其实并不小，一般在几十到上百ms之间。这里说的高并发，主要是在并发的情况下，Hbase 的单个IO延迟下降并不多。能获得高并发、低延迟的服务。
▪ 5）稀疏
• 稀疏主要是针对 Hbase 列的灵活性，在列族中，你可以指定任意多的列，在列数据为空的情况下，是不会占用存储空间的。
18
▪ 5）HDFS ▪ HDFS 为 Hbase 提供最终的底层数据存储服务，同时为 HBase 提供高可用（Hlog
存储在 HDFS）的支持，具体功能概括如下：
• 提供元数据和表数据的底层分布式存储服务。 • 数据多副本，保证的高可靠和高可用性。 • 注意：官方建议一张表建一个列族。因为一个列族很大，有很多个列，够存数据了。如果一张
5
பைடு நூலகம்
▪ HBase是Apache的Hadoop项目的子项目，是Hadoop Database的简称。 ▪ HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技
术可在廉价PC Server上搭建起大规模结构化存储集群。 ▪ HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库，
▪ 2）列式存储
• 这里的列式存储其实说的是列族存储，Hbase 是根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。
• 3）极易扩展
• Hbase 的扩展性主要体现在两个方面，一个是基于上层处理能力（RegionServer）的扩展，一个是基于存储的扩展（HDFS）。通过横向添加 RegionSever 的机器，进行水平扩展，提升 Hbase 上层的处理能力，提升 Hbsae 服务更多 Region 的能力。
1
第一章 Hbase简介
▪ 背景
• 随着计算机科技水平的发展，未来全球每年数据量的增长率将达到40%。2020年，全球数据总量将超过50ZB。（zb，中文名是泽字节，外文名是Zettabyte，是计算机术语，代表的是十万亿亿字节。）
1KB (Kilobyte 千字节)=1024B, 1MB (Megabyte 兆字节简称“兆”)=1024KB， 1GB (Gigabyte 吉字节又称“千兆”)=1024MB, 1TB (Terabyte 万亿字节太字节)=1024GB, 1PB (Petabyte 千万亿字节拍字节)=1024TB, 1EB (Exabyte 百亿亿字节艾字节)=1024PB, 1ZB (Zettabyte 十万亿亿字节泽字节)= 1024 EB, 1YB (Yottabyte 一亿亿亿字节尧字节)= 1024 ZB, 1BB (Brontobyte 一千亿亿亿字节)= 1024 YB.
9
HBase与HDFS
HDFS
HBase
HDFS适于存储大容量文件的分布式文件系统。HBase是建立在HDFS之上的数据库。
HDFS不支持快速单独记录查找。
HBase提供在较大的表快速查找
HDFS提供了高延迟批量处理;没有批处理概念。HBase提供了数十亿条记录低延迟访问单个行记录（随机存取）。
7
HBase 概述
▪ HBase是Hadoop的生态系统，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系统提供容错能力。