经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 大数据/云/AI » Hadoop » 查看文章
Hbase入门(三)——数据模型
来源:cnblogs  作者:独孤风  时间:2019/9/30 9:41:03  对本文有异议

file

Hbase最核心但也是最难理解的就是数据模型,由于与传统的关系型数据库不同,虽然Hbase也有表(Table),也有行(Row)和列(Column),但是与关系型数据库不同的是Hbase有一个列族(Column Family)的概念,它将一列或者多列组织在一起,HBase必须属于某一个列族。

行和列交叉点称为单元格(Cell),单元格时版本化的。单元格的内容,也就是列的值是不可分割的字节数组。

HBase没有数据类型,任何列值都被转换成字节数组进行存储。

HBase表中的行是通过行键(Rowkey)进行区分的。行键也是用来唯一确定一行的标识。

HBase中的行按Rowkey排序,排序方式采用字典顺序。

这些都是HBase的逻辑结果,他的物理结构也和传统关系型数据库有很大不同。

file

逻辑模型

HBase的逻辑模型源自Google的BigTable模型。可以理解为一个稀疏的,长期存储的,多维度的和排序的映射表。

以下示例是 BigTable 论文第 2 页上的一个略微修改的形式。有一个名为webtable的表包含两行(com.cnn.wwwcom.example.www)和三个列族,名为contentsanchorpeople

file

在此示例中,对于第一行(com.cnn.www),anchor包含两列(anchor:cssnsi.comanchor:my.look.ca),contents包含一列(contents:html)。此示例包含具有行键com.cnn.www的行的 5 个版本,以及具有行键com.example.www的行的一个版本。 contents:html列限定符包含给定网站的整个HTML。 anchor列族的限定符每个都包含指向该行所代表的站点的外部站点的链接,以及它在其链接的anchor中使用的文本。 people列系列表示与该站点关联的人员。

此表中看起来为空的单元格在 HBase 中不占用空间,或实际上不存在。这就是HBase“稀疏”的原因。表格视图不是查看 HBase 中数据的唯一方法,甚至也不是最准确的方法。以下表示与多维映射相同的信息。这只是一个出于演示目的的模型,可能并不完全准确。

  1. {
  2. "com.cnn.www": {
  3. contents: {
  4. t6: contents:html: "<html>..."
  5. t5: contents:html: "<html>..."
  6. t3: contents:html: "<html>..."
  7. }
  8. anchor: {
  9. t9: anchor:cnnsi.com = "CNN"
  10. t8: anchor:my.look.ca = "CNN.com"
  11. }
  12. people: {}
  13. }
  14. "com.example.www": {
  15. contents: {
  16. t5: contents:html: "<html>..."
  17. }
  18. anchor: {}
  19. people: {
  20. t5: people:author: "John Doe"
  21. }
  22. }
  23. }

物理模型

虽然Hbase表可以看作一组稀疏的行,但在物理意义上它们是按照列族存储的。所以列是可以随时添加的。

file

Hbase是面向列的,存放行的不同列的物理文件,一个列族存放在多个HFile中,最重要的是一个列族的数据会被同一个Region管理。

file

空单元格不占据物理存储空间。因此,在时间戳t8处对contents:html列的值的请求将不返回任何值。类似地,在时间戳t9处对anchor:my.look.ca值的请求将不返回任何值。但是,如果未提供时间戳,则将返回特定列的最新值。给定多个版本,最新版本也是第一个版本,因为时间戳按降序存储。因此,如果没有指定时间戳,则对行com.cnn.www中所有列的值的请求将是:来自时间戳t6contents:html的值,来自时间戳t9anchor:cnnsi.com的值,来自时间戳t8anchor:my.look.ca

数据模型操作

四个主要的数据模型操作是 Get,Put,Scan 和 Delete。通过实例化Table进行操作。

版本问题: Rowkey、Column(列族和列)、Version组合在一起称为Hbase中的一个单元格。

Rowkey和Column的值是用字节数组表示的,Version则是用一个长整型表示的。

Get

操作返回指定行的属性,Get是在Scan基础上实现的。在默认情况下,如果没有指定版本,一旦使用Get操作,会返回最近版本的Cell。

要返回多个版本,需要设置Get.setMaxVersions()

要返回最新版本以外的其他版本,请参见 Get.setTimeRange()

默认版本Get示例

  1. public static final byte[] CF = "cf".getBytes();
  2. public static final byte[] ATTR = "attr".getBytes();
  3. ...
  4. Get get = new Get(Bytes.toBytes("row1"));
  5. Result r = table.get(get);
  6. byte[] b = r.getValue(CF, ATTR); // returns current version of value

给定版本的Get示例

  1. public static final byte[] CF = "cf".getBytes();
  2. public static final byte[] ATTR = "attr".getBytes();
  3. ...
  4. Get get = new Get(Bytes.toBytes("row1"));
  5. get.setMaxVersions(3); // will return last 3 versions of row
  6. Result r = table.get(get);
  7. byte[] b = r.getValue(CF, ATTR); // returns current version of value
  8. List<KeyValue> kv = r.getColumn(CF, ATTR); // returns all versions of this column

PUT

执行 put 总是在某个时间戳创建cell的新版本。默认情况下,系统使用服务器的currentTimeMillis,但您可以在针对每一列指定版本(=长整数)。这意味着您可以在过去或将来指定时间,或者将long值用于非时间目的。

隐式版本示例

HBase 将使用当前时间隐式地对以下 Put 进行版本控制。

  1. public static final byte[] CF = "cf".getBytes();
  2. public static final byte[] ATTR = "attr".getBytes();
  3. ...
  4. Put put = new Put(Bytes.toBytes(row));
  5. put.add(CF, ATTR, Bytes.toBytes( data));
  6. table.put(put);

显式版本示例

  1. public static final byte[] CF = "cf".getBytes();
  2. public static final byte[] ATTR = "attr".getBytes();
  3. ...
  4. Put put = new Put( Bytes.toBytes(row));
  5. long explicitTimeInMs = 555; // just an example
  6. put.add(CF, ATTR, explicitTimeInMs, Bytes.toBytes(data));
  7. table.put(put);

DELETE

删除通过 Table.delete]执行。

有三种不同类型的内部删除标记。

  • 删除:对于特定版本的列。
  • 删除列:适用于列的所有版本。
  • 删除系列:适用于特定 ColumnFamily 的所有列

SCAN

扫描表

下面是对表进行扫描的示例。假设一个表填充了具有键“row1”,“row2”,“row3”的行,然后另一组是具有键“abc1”,“abc2”和“abc3”的行。以下示例将展示如何设置 Scan 实例以返回以“row”开头的行。

  1. public static final byte[] CF = "cf".getBytes();
  2. public static final byte[] ATTR = "attr".getBytes();
  3. ...
  4. Table table = ... // instantiate a Table instance
  5. Scan scan = new Scan();
  6. scan.addColumn(CF, ATTR);
  7. scan.setRowPrefixFilter(Bytes.toBytes("row"));
  8. ResultScanner rs = table.getScanner(scan);
  9. try {
  10. for (Result r = rs.next(); r != null; r = rs.next()) {
  11. // process result...
  12. }
  13. } finally {
  14. rs.close(); // always close the ResultScanner!
  15. }

更多实时计算,Hbase,Flink,Kafka等相关技术博文,欢迎关注实时流式计算

file

原文链接:http://www.cnblogs.com/tree1123/p/11611062.html

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号