hbase安装包_HBase集成Phoenix构建二级索引实践

作者：川川shilohjr_993 | 来源：互联网 | 2023-08-28 17:34

Phoenix在HBase生态系统中占据了非常重要的地位，本文主要包括以下几方面内容：Phoenix介绍CDHHBase集成Phoenix使用Phoen

Phoenix 在 HBase 生态系统中占据了非常重要的地位&＃xff0c;本文主要包括以下几方面内容&＃xff1a;

Phoenix 介绍
CDH HBase 集成 Phoenix
使用 Phoenix 创建 HBase 二级索引
Phoenix 索引类型介绍

Phoenix 介绍

Phoenix 是构建在 HBase 之上的高效的 SQL 引擎&＃xff0c;同时具备 OLTP 和 OLAP 能力&＃xff0c;作为 HBase 生态系统中非常重要的组件&＃xff0c;重点的特性包括&＃xff1a;

底层存储基于 HBase&＃xff0c;并提供一套标准的 JDBC API 作为 HBase SQL 层&＃xff1b;
支持标准 SQL&＃xff0c;以及完整 ACID 事务特性&＃xff1b;
为 HBase 提供了二级索引解决方案&＃xff1b;

此外&＃xff0c;Phoenix 还和很多其他组件做了集成&＃xff0c;比如 Spark、Hive、Flume 等。Phoenix 与 HBase 集成&＃xff0c;其最大的特点就是为 HBase 提供了二级索引&＃xff0c;后文会重点介绍。下图是 Phoenix 的基本架构&＃xff1a;

CDH HBase 集成 Phoenix

版本说明

http://phoenix.apache.org/download.html&＃xff1b;
高版本 CDH 安装 Phoenix 可以参考&＃xff1a;产品 | Cloudera正式宣布在CDH中支持Apache Phoenix
http://archive.cloudera.com/cloudera-labs/phoenix/parcels/
此外&＃xff0c;用户还可以自行编译适合自己的Phoenix版本。

安装

首先到官网下载适合自己环境的 Parcel 安装包&＃xff0c;并发布到 httpd 服务&＃xff1a;

[root&＃64;hadoop-01 /var/www/html/phoenix/4.14.0]$ ll total 300524 -rw-r--r-- 1 root root 307722240 Feb 3 19:30 APACHE_PHOENIX-4.14.0-cdh5.11.2.p0.3-el7.parcel -rw-r--r-- 1 root root 178 Feb 3 19:28 APACHE_PHOENIX-4.14.0-cdh5.11.2.p0.3-el7.parcel.sha512 -rw-r--r-- 1 root root 5081 Feb 3 19:30 manifest.json

(可左右滑动)

然后配置成 CDH 远程 Parcel 存储库 url&＃xff1a;

接下来下载&＃xff0c;分配&＃xff0c;激活完成安装即可。

配置

安装完 Phoenix 后&＃xff0c;需要做一些必要配置才能使用 Phoenix&＃xff0c;CDH HBase 配置界面配置如下两处&＃xff1a;

1. hbase-site.xml 的 HBase 服务高级配置代码段(安全阀)

2. hbase-site.xml 的 HBase 客户端高级配置代码段(安全阀)

添加如下参数配置&＃xff1a;

hbase.regionserver.wal.codecorg.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec phoenix.schema.isNamespaceMappingEnabledtrue phoenix.schema.mapSystemTablesToNamespacetrue

(可左右滑动)

然后&＃xff0c;按照提示重启HBase服务并重新部署客户端配置即可。

命令行使用

CDH 安装后环境变量都已经配置好了&＃xff0c;可以直接使用 phoenix-sqlline.py&＃xff0c;如下&＃xff1a;

[root&＃64;hadoop-01 ~]$ phoenix- phoenix-performance.py phoenix-psql.py phoenix-sqlline.py phoenix-utils.py

(可左右滑动)

执行 phoenix-sqlline.py 初始化使用 Phoenix&＃xff1a;

然后我们查看下 HBase 中 Phoenix 的系统表&＃xff1a;

hbase(main):003:0> list SYSTEM:CATALOG SYSTEM:FUNCTION SYSTEM:LOG SYSTEM:MUTEX SYSTEM:SEQUENCE SYSTEM:STATS

(可左右滑动)

接下来看一下如何在 Phoenix 中创建 HBase 表的二级索引。

使用 Phoenix 创建 HBase 二级索引

映射已存在的 HBase 表

1. 查看 HBase 表

当前 HBase 中存在一张操作日志表 ns1000:operate_log&＃xff0c;数据量近280w&＃xff0c;包括14个字段&＃xff0c;如下&＃xff1a;

hbase(main):017:0> count &＃39;ns1000:operate_log&＃39;, INTERVAL &＃61;> 100000 ... 2799827 row(s) in 173.4200 seconds &＃61;> 2799827 hbase(main):018:0> scan &＃39;ns1000:operate_log&＃39;, LIMIT &＃61;> 1 ROW COLUMN&＃43;CELL x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:appVersion, timestamp&＃61;1538216707892, value&＃61;2.22.0 x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:area, timestamp&＃61;1538216707892, value&＃61;xE6xB1x9FxE5x8Cx97xE5x8CxBA x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:authId, timestamp&＃61;1538216707892, value&＃61; x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:city, timestamp&＃61;1538216707892, value&＃61;xE9x87x8DxE5xBAx86xE5xB8x82 x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:imei, timestamp&＃61;1538216707892, value&＃61;AF36147F-8106-47F0-B58F-A3FB75DBE325 x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:lat, timestamp&＃61;1538216707892, value&＃61;29.577587127685547 x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:lon, timestamp&＃61;1538216707892, value&＃61;106.50493621826172 x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:memberType, timestamp&＃61;1538216707892, value&＃61;0 x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:mobileManufacturer, timestamp&＃61;1538216707892, value&＃61;iPhone x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:mobileModel, timestamp&＃61;1538216707892, value&＃61;iPhone 6 Plus x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:province, timestamp&＃61;1538216707892, value&＃61;xE9x87x8DxE5xBAx86xE5xB8x82 x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:systemType, timestamp&＃61;1538216707892, value&＃61;1 x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:systemVersion, timestamp&＃61;1538216707892, value&＃61;12.0 x00x00x12x12x00x00x00x0D1538216707720 column&＃61;f:time, timestamp&＃61;1538216707892, value&＃61;1538216707720 1 row(s) in 0.0460 seconds

(可左右滑动)

2. Phoenix 中创建与 namespace 名称一致的 schema

0: jdbc:phoenix:> create schema if not exists "ns1000"; No rows affected (0.012 seconds)

(可左右滑动)

3. Phoenix 中创建视图&＃xff0c;并查询数据及条数

(可左右滑动)

4. 根据字段 time 进行时间范围查询&＃xff1a;

0: jdbc:phoenix:> select count(*) from "operate_log" where "f"."time" between &＃39;1538216707720&＃39; and &＃39;1538223834000&＃39;; &＃43;-----------&＃43; | COUNT(1) | &＃43;-----------&＃43; | 5883 | &＃43;-----------&＃43; 1 row selected (5.241 seconds)

(可左右滑动)

这种情况下&＃xff0c;基本上查询都在 5s 左右。

这里还要有两点说明&＃xff1a;

Phoenix 会自动将表名、字段名都转成大写&＃xff0c;如果要区分大小写使用双引号括起来即可。
这里我们创建的是视图&＃xff0c;相当于外部表&＃xff0c;也可以 create table 创建表&＃xff0c;视图的特点是删除时不会删除 HBase 表&＃xff0c;但是视图创建的二级索引不会自动更新&＃xff0c;如果要实时更新的话&＃xff0c;只能使用 create table&＃xff0c;然后通过 Phoenix jdbc 的方式写入数据&＃xff0c;只有通过 Phoenix 写&＃xff0c;然后用 Phoenix 实现的协处理器才能实现实时更新的索引。

使用 Phoenix 创建二级索引

1. 使用 Phoenix 对 time 字段创建索引

0: jdbc:phoenix:> create index index_operate_log_time on "operate_log" ("f"."time"); 2,799,827 rows affected (95.814 seconds)

(可左右滑动)

2. 再次根据 time 字段做范围查询

00: jdbc:phoenix:> select count(*) from "operate_log" where "f"."time" between &＃39;1538216707720&＃39; and &＃39;1538223834000&＃39;; &＃43;-----------&＃43; | COUNT(1) | &＃43;-----------&＃43; | 5883 | &＃43;-----------&＃43; 1 row selected (0.049 seconds)

(可左右滑动)

这里基本上查询都在 50 ms 左右。这就是通过 Phoenix 的二级索引带来的性能提升。

Phoenix 索引类型介绍

Phoenix 提供了多种索引类型&＃xff0c;包括覆盖索引、函数索引&＃xff0c;以及全局索引与本地索引等&＃xff0c;具体介绍如下。

Covered Indexes(覆盖索引)

覆盖索引是在索引表中直接存储某些常用字段&＃xff0c;当查询时所有字段仅涉及索引表中包含的字段时&＃xff0c;则无需再在基于 rowkey 索引的数据表中查询&＃xff0c;提高了查询的效率。

比如&＃xff0c;我们在operate_log 表 "f"."time" 列上创建一个索引&＃xff0c;并在索引中包含 "f"."lat

推荐阅读

text
t-io 2.0.0发布-法网天眼第一版的回顾和更新说明

本文回顾了t-io 1.x版本的工程结构和性能数据，并介绍了t-io在码云上的成绩和用户反馈。同时，还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后，详细介绍了t-io 2.0.0版本的更新内容，包括更简洁的使用方式和内置的httpsession功能。 ... [详细]

蜡笔小新 2023-12-14 10:17:48
get
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新 2023-12-13 17:08:24
get
单点登录原理及实现方案详解

本文详细介绍了单点登录的原理及实现方案，其中包括共享Session的方式，以及基于Redis的Session共享方案。同时，还分享了作者在应用环境中所遇到的问题和经验，希望对读者有所帮助。 ... [详细]

蜡笔小新 2023-12-12 19:23:28
solr
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
search
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
search
CDH4简介

原文地址：CDH4简介作者：HadoopChinaWebelievethatduring2012,enterprisedistributionsofHa ... [详细]

蜡笔小新 2023-10-11 12:53:33
search
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
bash
Hyperledger Fabric外部链码构建与运行的开发笔记

本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识，包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性，外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍，读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行，并且不再受限于特定的语言和部署环境。 ... [详细]

蜡笔小新 2023-12-13 21:47:39
bash
如何在服务器主机上实现文件共享的方法和工具

本文介绍了在服务器主机上实现文件共享的方法和工具，包括Linux主机和Windows主机的文件传输方式，Web运维和FTP/SFTP客户端运维两种方式，以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外，还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK，以及主机迁移服务会收集的源端服务器信息。 ... [详细]

蜡笔小新 2023-12-13 13:23:48
数组
深入理解Kafka服务端请求队列中请求的处理

本文深入分析了Kafka服务端请求队列中请求的处理过程，详细介绍了请求的封装和放入请求队列的过程，以及处理请求的线程池的创建和容量设置。通过场景分析、图示说明和源码分析，帮助读者更好地理解Kafka服务端的工作原理。 ... [详细]

蜡笔小新 2023-12-12 16:14:59
get
Hbase Region Server和Hbase Master启动报错 Direct buffer memory

2018-02-1420:07:13,610ERROR[main]regionserver.HRegionServerCommandLine:Regionserverexiting ... [详细]

蜡笔小新 2023-10-16 20:08:57
client
Hbase 进阶

一、RegionServer架构1）StoreFile保存实际数据的物理文件，StoreFile以Hfile的形式存储在HDFS上。每个Store会有一 ... [详细]

蜡笔小新 2023-10-13 13:50:41
java
Ubuntu16.04安装CDH5.14.2

一、安装clouderamanager（下文简称cm）（一）.环境及软件准备：1.环境：Ubuntu16.04desktopx3台ip分别为：10.132.226.121，10.1 ... [详细]

蜡笔小新 2023-10-11 13:46:39
solr
Flume 开源分布式日志收集系统

为什么80%的码农都做不了架构师？Flume--开源分布式日志收集系统Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统 ... [详细]

蜡笔小新 2023-10-11 13:45:25
solr
Spark学习之路(一)Spark概述

一,什么是spark定义:Spark一种基于内存的快速,通用,可扩展的大数据分析引擎.官网地址：http:spark.apache.org历史:2009年诞生于加州伯 ... [详细]

蜡笔小新 2023-10-10 18:42:22

川川shilohjr_993

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章