![2024Bit Map在大数据精准营销中的应用_第1页](http://file4.renrendoc.com/view8/M01/23/1C/wKhkGWb609iAUAsNAAGhnq7rnAE465.jpg)
![2024Bit Map在大数据精准营销中的应用_第2页](http://file4.renrendoc.com/view8/M01/23/1C/wKhkGWb609iAUAsNAAGhnq7rnAE4652.jpg)
![2024Bit Map在大数据精准营销中的应用_第3页](http://file4.renrendoc.com/view8/M01/23/1C/wKhkGWb609iAUAsNAAGhnq7rnAE4653.jpg)
![2024Bit Map在大数据精准营销中的应用_第4页](http://file4.renrendoc.com/view8/M01/23/1C/wKhkGWb609iAUAsNAAGhnq7rnAE4654.jpg)
![2024Bit Map在大数据精准营销中的应用_第5页](http://file4.renrendoc.com/view8/M01/23/1C/wKhkGWb609iAUAsNAAGhnq7rnAE4655.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
BitMapuid,用户设备号等。还有就是用户标签数据,也达到千万级,包含数据用的社会属性,olap中的概念。除了数据之外还有产品要求,需要在线应用,性能要求较高,必须做到毫HBaseDruid但是我们选用Bit,因为依据数据需求简单而且Bit只有维度没有度量,还有就是维度个数KylinDruiduid4G,因此在几百上千维度查询效率会降低;还有一个就是uid用户量大,Kylin和Druid会将uid和其他维度进行组合会出现很多情况,会额外增加数据量,因此这种请款也不适合用HBASE+BitMapHBASE做数据存储,将HBASE做处理器做并行计算,BitMap构建索引。HBASEactiveregionmasterHfileregionserverHDFSregionserverregionregion一个region会有管理范围,分区是用regionserver管理。HBASE有很多特点,第一个就是海量存储,其底层是基于HDFS,是横向存储,可以加很PB能在2w+;第五个就是稀疏,当列中属性为空,不占用存储空间。前面讲存储是HBASE,计算是HBASE协处理器,HBASE协处理器分为两种,一种是countregion由于串行计算,同时会将数据从服务端加载到客户端。Endpoint会以并行方式实现,会将客户端请求发送到所有region上,每个region分担数据量,最后将数据返回协处理器客可能你们会对BitMap了解很少,其应用场景比较单一,但是在某些方面效果比较好。BitMap底层实现是一个位数组,位数组的value取值只能是0或1,因为是数组,数组下214748364710BitMapBitMapapi1,如图中63571BitMapBitMapBloomfilter,是对应于一组hashmap对应一个BitMap,是牺牲一定错误率来释放存储空间,如在HBASE的索引和爬虫URL判重。但是重点是作为索引,其实它在数据库、搜索引擎和OLAP应用很多。状况两个维度,性别有两个取值,婚姻状况有三个取值,BitMap首先会在维度里面构建BitMap,第一步如何构建性别的BitMap,对于性别这个列,位图索引形成两个向量,男1010010,同理,女向量110000010000010BitMap,首BitMap有很多实现方式,构建框架也有很多。最后我们选用RoaringBitmap,选择的原因在于:我们存储的是整数,将下标标签取值设为1,该框架将整数i的高16位会被用于构造块,存储到keys中,低16位则被看做value,存储到Container[]values中的某个BitMap压。RoaringBitmap在开源框架里应用很多,如olap中有kylin、Druid、piont等,搜索引擎方面有Lucene、slor、Elasticserach等,还有spark、hive、tez等。也有很多实现语言,比如Java、C、C++、Python等。HBASEBitMap化层,给用户提供页面,选择标签,然后接口层传入标签,提供API服务,将选择标签传大(十亿级标签)BitMapMRuid桶、gididbulkloadBitMapregionserveruidididBitMap列化后生成HFile,BulkloadBitMap索引。存储计算层完成Hbase:存储索引数据,Hbasecop:分布式计算,RoaringBitmap计算请求参数:新客营销、存客营销,将请求通过copRegionServer。接口层完nettyhttp接下来讲一下第四部分实现细节,讲几个关键重点:id分区,分区构建BitMap索引,coprocessor实现。用户有十亿,并不是直接将数据构建BitMap,会对id进行分区,依Idididbitmap10存储开销大;id不分区,如果id超过了整数最大范围,无法构建bitmap索引。id,idhbase10id200500idhbaseregionstartkey/endkeyregionrowkey,0-500regionhbaseregion500rowkeyhbasehbaseregion'index',{METHOD=>'table_att',METADATA=>{'SPLIT_POLICY'=> Policy'}},{NAME=>'d',COMPRESSION=>'SNAPPY'},SPLITS=>[‘0005000000’,000,000,000,000 ,'10000000000
000,500roamBitMap会输出rowkey和value。将每一个region里面的标签设为key,标签会对应BitMap,region有范围只会生成相应的BitMap。如第一个region,startkey为0,构建的标签为200500region5005001000id,BitMap有几个特点:每个分区包含部分id,每个分区包含所有标签,Rowkeystartkey_tag,Value:BitMap索引,BitMap下标范围[0,500万)。在后续分区可能idstartkeyidsetid0-500万,避idBitMapregion3BitMap的例子,startkey是1500万,每一个标签对应一个索引。建完索引,接着就是协处理器实现——coprocessor实现,这个其实比较关键,扮演着并regionserver,传给协处理器的服务端,传入Cop-server,比如查询selectidfromtablewhereDim1=tag1_3and(Dim3=tag3_1orDim3=tag3_2orDim3=tag3_3or…)and…and(Dim..n=tagn_1orDim..n=tagn_2or…);用户选择相应维度,返回标签,协处理器客户端会将标签重新组织,变成相关关系tag1_3and(tag3_1ortag3_2ortag3_3or…)and…and(tagn_1ortagn_2or…),发标
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三方商铺租赁合同书
- 产品委托生产加工协议书范本
- 门头房房屋租赁合同范本
- 供应商产品更改PCN协议书范本
- 房子买卖居间合同书
- 锅炉维保承包合同
- 农民工劳动合同
- 宾馆简易装修合同样本
- 公司内部审计实务作业指导书
- 前期物业管理委托协议书
- TCCEAS001-2022建设项目工程总承包计价规范
- 2024.8.1十七个岗位安全操作规程手册(值得借鉴)
- 二次供水卫生管理制度及办法(4篇)
- 电影《白日梦想家》课件
- 妇产科产后虚脱患者的应急预案及程序
- DB11∕T 446-2015 建筑施工测量技术规程
- 运输车辆挂靠协议书(15篇)
- 完整版:美制螺纹尺寸对照表(牙数、牙高、螺距、小径、中径外径、钻孔)
- 绘本阅读促进幼儿分享与合作行为发展的研究分析-以中班为例 学前教育专业
- 医院医疗质量管理制度完整版
- 粤剧课程设计
评论
0/150
提交评论