




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、天下营销,唯快不破TalkingData营销云实时计算框架智能数据时代的来临VolumeVelocityValueVeracityVariety数据数据体量数据多样性数据时效性数据准确性数据价值不“快”不“行”处理服务收集为什么要“快”?什 么 叫 “ 快 ”? “快”的代价是什么?智能数据在广告行业的实践-营销云客群构建上传构建人群POI构建人群标签构建人群Lookalike画像洞察人口属性终端属性地理位置属性行业指数客群营销广告投放平台EDMSMSCall Center效果评估触达分析效果监测营销云-挑战数据的组织和规划CollectbatchstreamIngest- magpiePre
2、pare- labelingserviceAnalyze- sampling servicePublishseagullsnipeAct- injecting serviceTalkingData 标签体系人口属性:包含性别、年龄等人的基本特征 资产情况:车辆、房产、收入等资产特征 兴趣特征:阅读资讯、运劢健康等兴趣偏好 消费特征:网上/线下消费类别品牌等特征 位置特征:常驻城市、职住距离等设备属性:所使用终端的特性等共有6大类,超过800个受众定向标签,这些标签关联的设备累加起来超过700亿。如何利用这些标签为用户提供快速的标签人群构建,对人群进行多维度的快速画像是一个挑战数据的BitMap
3、化Atom OLAP Cube:OLAP-Cube: multi-dimensional array of data数据的BitMap化计算:标签的BitMap运算cityBitmap北京bitmap1天津bitmap2deviceBitmap苹果bitmap3华为bitmap4计算:SELECT Device Where city=北京 and device=苹果 运算转变成:Bitmap1 and bitmap3优势:存储减少计算快支持join使用Spark做人群构建,画像TalkingData是把设备标签数据进行了BitMap化处理,利用BitMap的快速And, Or运算能力来做标签人
4、群构 建和人群画像。虽然Bitmap对数据有很好的压缩能力,但是因为TalkingData积累的移劢设备数量庞大,生成的Bitmap很多都是几百兆, 用来构建、画像的的Bitmap数据依然很大。最开始的实现方案是把生成的Bitmap存在HDFS上,使用Spark集群来做这些运算,但是运算速递,特别是 画像速递幵丌理想。 一个一千万人群构建大概需要5分钟, 画像常常需要1个小时才完成。RocksDB是一个高性能的KV存储系统,读写性能很优越,使用磁盘做存储。比较适合我们这种Bitmap数量比 较多,总数据量大,又需要快速读写的场景。 于是我们开始调研RocksDB, 尝试使用RocksDB来解决
5、人群构建 和画像的性能问题。RocksDB计算引擎 架构Bitmap Proxy(app layer proxy)Round-Robin机制发送请求;Rest Service(computing layer proxy) 提供基于表达式的bitmap的and,or,xor, count等REST服务接口;Bitmap Server(computing engine) 提供分布式bitmap计算能力,计算完成时同时 将操作结果进行存储;RocksDB(persistence layer)Key-Value存储系统Rest ServiceBitmap ServerRocksDBRest Servi
6、ceBitmap ServerBitmap ProxyRocksDBRocksDBRocksDBRocksDBRocksDBRocksDBRocksDBRocksDB计算引擎 bitmap数据分片offset10001.10001.00011.11100.00010.2000000004000000006000000008000000001000000000 1200000000 1400000000 1600000000 1800000000000011.01010.10001.01000.11100.01010.10001.00110.00010.11100. 20000000000100
7、0.00110.01010.01010.11100.Horizontal ShardingRocksDB计算引擎 bitmap抽样能力10亿15亿25亿30亿35亿40亿offset数量5亿20亿数据体量庞大,单一维度精度要求相对不高服务场景(例如数据交叉比对)某维度原始数据分布曲线抽样后的数据分布曲线地理围栏人群预估能力geo-fencegeohash-1bitmap-1geohash-2bitmap-2geohash-nbitmap-n实时广告投放查询构建的人群BitMapVertica设备匘配服务BloomFilter媒体设备归属人群查询归属人群列表营销云技术指标功能模块功能描述数据量处理时间人群构建服务标签构建1 亿设备 5 secs上传构建1 亿设备100万2000万 15 mins人群预估方圆5公里(1百万设备量) 1 sec人群画像服务15个维度(1亿设备量) 2 mins数据投放服务5种ID类型(1 亿设备量) 10 mins前置机服务RTB查询5亿设备 5 ms(6000
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 激光加工技术试题及答案
- 应对疫情的公共卫生政策复盘试题及答案
- 西方政治制度与城市治理的协调性试题及答案
- 机器人搭建与竞技比赛行业深度调研及发展项目商业计划书
- 滑沙及类似休闲运动在线平台行业跨境出海项目商业计划书
- 学校教育在线平台行业跨境出海项目商业计划书
- 定制化握笔辅助器企业制定与实施新质生产力项目商业计划书
- 滑翔伞赛事行业深度调研及发展项目商业计划书
- 电子音乐制作与演出行业跨境出海项目商业计划书
- 企业法律风险防范与合规管理指南
- 烟道内喷涂施工方案
- 高考专题复习:辨析歧义句的常见方法
- 2021年京东物流详细报告ppt
- 口腔影像学名词解释
- 水电站运维管理
- 高填方路基施工危险源辨识及风险评价
- 小学语文教学研究(有答案)-国家开放大学2022年1月(2020秋)期末考试复习资料、试题及答案
- 描述性分析与不平等的度量方法(1)
- 微积分基本公式
- 国科大叶齐祥机器学习期末考试
- 高新区孵化器亮化工程投标文件商务标格式
评论
0/150
提交评论