AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

HBase的RowKey设计原则以及预分区操作避免热点问题

时间：2022-09-01分类：HBase作者：编程之家原文地址

　　但凡使用到HBase，数据量绝对不会少，这时候就需要考虑到查询的效率问题，以及可能出现的数据倾斜问题（热点问题）。我们可以同过对rowkey进行设计，规划一个合理的预分区，让数据散列的分布在各个分区上。

　　因此：rowkey设计时就要考虑到一个预分区的问题；同样，预分区也不可背离开rowkey而随意设置

　　预分区的个数大体上取决于两个方面：

集群规模大小；（一般一个节点上三个分区）
数据量的大小；（主要是估算以后的数据）

　　RowKey设计原则：

散列性（重点）
唯一性（rowkey唯一）
长度原则（生产环境中一般70-100位）

散列性：

1. 生成随机数、hash值、散列值
2. 字符串反转
3. 字符串拼接

　　由此可见，避免热点的关键操作：

　　　　　　1.预分区　　　　2.rowkey设计

1.预分区

　　　　在创建表的时候，配置一些策略，让一张表有多个region，分布在不同的regionserver上；

　　　 HBase自身会进行split，默认一个region，当他过大超过阈值（默认10G），会切分为两个Region，分布到新的regionserver上，父region下线。

2.rowkey设计

反转：例如时间戳，手机号。（缺点：将原表数据打乱分布在不同region上，进行全表扫描时，会从多个甚至所有region来获取数据）
加盐：在rowkey前面增加随机数。（缺点：无法指定rowkey进行查询，因为你不知道rowkey前面增加的随机数是什么）
Hash：根据rowkey中的某个部分或全部取hash，这样即便之后我们需要指定rowkey查询，也可以先进性hash得出新的rowkey来查找。（但也会造成全表扫描时，会从多个甚至所有region来获取数据）

　　综上：以上的rowkey设计原则，都是为了将数据离散、均匀地分布在集群中的每个regionserver上，对rowkey进行打散，势必会造成原表中的数据在存储时不再有序，导致scan全表扫描性能下降。

　　所以我们通常会添加二级索引进来，弥补以上设计原则带来的不便。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

Hbase集群搭建超详细教程

超详细的记录了HBase 集群搭建的整个过程，以及搭建过程出现的问题和解决办法！

作者：笑看风云路时间：2022-12-20

头歌 HBase相关的五个实验

头歌 HBase（相关的五个实验）

作者：海浪～& 时间：2022-12-19

Java 操作HBase

1.创建一个学生信息表，用来存储学生的姓名（姓名作为行键，且假设姓名不会重复）以及考试成绩，其中考试成绩（score）是一个列族，存储了各个科目的考试成绩。HTableDescriptor包含了HBase中的表格的详细信息（例如...

作者：叶子上的考拉时间：2022-12-06

大数据课程综合实验案例：网站用户行为分析

大数据课程综合实验案例1 案例简介1.1 案例目的1.2 适用对象1.3 时间安排1.4 预备知识1.5 硬件要求1.6 软件工具1.7 数据集1.8 案例任务1.9 实验步骤2 本地数据上传到数据仓库Hive2.1 实验数据集的下载2.2 数据集的预...

作者：刷题致富时间：2022-12-06

大数据技术之HBase

HBase从浅入深，（初级）什么是HBase，模型，NOSQL，架构，nosql，（进阶）Master，RegionServer架构，HBase读写流程

作者：Red-P 时间：2022-12-06

Hadoop之Hbase安装和配置

Hadoop之Hbase安装和配置

作者：LeoATLiang 时间：2022-11-22

windows 10 HBase保姆级安装教程

写在前面    不少小伙伴在学习分布式数据库时上来就卡在了分布式数据库HBase的安装和环境配置，所谓磨刀不误砍柴工，今天我就带着大家一起来看看HBase的安装吧~准备工作主要需要...

作者：专业bug开发时间：2022-11-18

4.1 Hbase的安装与简单操作

第一关 Hbase数据库的安装1.首先要在官网下载好Hbase的安装包（educoder已装到/opt目录下）2.将安装包解压到/app目录下mkdir /appcd /optulimit -f 1000000tar -zxvf hbase-2.1.1-bin.tar.gz -C /app3.查询JAVA_HOME...

作者：Agoni_u 时间：2022-11-18

HBase的编程实践实验3_熟悉常用的HBase操作

HBase的编程实践（实验3_熟悉常用的HBase操作）

作者：一乐时间：2022-11-18

实验四 HBase开发:使用java操作HBase

一、实验目的熟悉HBase数据库操作常用的Java API二、实验平台操作系统：CentOS 8Hadoop版本：3.2.3HBase版本：2.4.12jdk版本：1.8Java IDE：eclipse三、实验过程1. 创建表

作者：Lilianac 时间：2022-11-18