Hadoop学习之用过滤器筛选数据

我爱海鲸 2022-04-16 17:36:59 暂无标签

简介filter

1、介绍

HBase为筛选数据提供了一组过滤器,通过过滤器可以在HBase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作

通常来说,通过行键、列来筛选数据的应用场景较多

2、基于行的过滤器

PrefixFilter:行的前缀匹配

PageFilter:基于行的分页

3、基于列的过滤器

ColumnPrefixFilter:列前缀匹配

FirstKeyOnlyFilter:只返回每一行的第一列

4、基于单元值的过滤器

KeyOnlyFilter:返回的数据不包括单元值,只包含行键与列

TimestampsFilter:根据数据的时间戳版本进行过滤

5、基于列和单元值的过滤器

SingleColumnValueFilter:对该列的单元值进行比较过滤

SingleColumnValueExcludeFilter:对该列的单元值进行比较过滤

6、比较过滤器

比较过滤器通常需要一个比较运算符以及一个比较器来实现过滤

RowFilter、FamilyFilter、QualifierFilter、ValueFilter

7、常用的过滤器

过滤器( Filter) 功能
RowFilter 筛选出匹配的所有的行
PrefixFilter 筛选出具有特定前缀的行键的数据
KeyOnlyFilter 只返回每行的行键,值全部为空
ColumnPrefixFilter 按照列名的前缀来筛选单元格
ValueFilter 按照具体的值来筛选单元格的过滤器
TimestampsFilter 根据数据的时间戳版本进行过滤
FilterList 用于综合使用多个过滤器

8、操作代码

请参考:

Hadoop学习之通过java API操作HBase

 

你好:我的2025