logo头像
Snippet 博客主题

Hbase中批量删除RowKey

问题在使用Hbase的时候常常遇到这样的情况:需要删除一段RowKey区间范围的数据,而不想truncate清空所有的数据。但Hbase只提供了删除一行RowKey的接口deleteall ‘<table name>’, ...

对海量数据进行去重的方法

一、数字型数据去重:采用Bitmap数据结构:数据中的数字作为数组的下标,该下标对应的数组的值为0或者1,0表示该下标对应的数字不存在,1表示该下标对应的数字存在。 具体做法: 初始化bits[capacity]为0; 遍历数据...

Xshell添加隧道,浏览器设置代理

Xshell添加隧道,浏览器设置代理

一、问题描述 由于考虑安全因素和避免繁琐操作的原因,阿里云服务器上的端口没有对外开放。但很多时候有在本地访问的需要。 二、解决方法 Xshell添加隧道,浏览器设置代理 三、设置步骤Xshell添加隧道 1.先正确配置成能够登录到...

Spark大数据开发之一:给会员打标签

Spark大数据开发之一:给会员打标签

一、开发需求 根据会员的基础信息(性别、年龄、生日等)和Pos消费记录,给每个会员打标签。 标签分为如下几类:人口属性、地域属性、购物偏好、RFM基础标签、购物行为。 二、数据准备 生成hive宽表:会员基础信息表左关联P...