版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
腾讯个性化精准推荐目录p推荐业务介绍p精准推荐架构的演进p推荐引擎设计与实现p总结与未来展望推荐业务介绍推荐业务介绍我们所做的Ø
预测未来Ø
预测每个人的未来Ø
实时预测每个人的未来核心技术挑战:如何在100ms的时间内,
面对8亿活跃用户中的任意一人,预测其在未来下一秒内,最可能点击10,000个广告主提供的250,000个广告中的哪一个?难点:1、从1万个广告主、25万个广告中挑出最合适的一个。最合适?2、8亿活跃用户,
每个人的结果都是个性化的。为什么?3、100ms内完成,移动端50ms4、效果广告-广点通每天即执行120亿次实时预测请求仅为了这120亿次预测:1、每天仅实时点击预估算法预测的广告数即超过12000亿个2、每天实时接入2PB
、50000亿条数据3、每天流式计算的事件数超过36000亿次4、每天实时数据存储层访问超过5000亿次精准推荐第一代架构p核心特征:l离线文件传输l批量暴力计算l实时匹配查询p存在的问题:l数据时延高l人群聚类粗l扩展性差广告投放系统精准推荐第二代架构p特征:广告投放系统l
实时数据传输l
在线实时计算流式计算
推荐引擎S4
TREV1实时接入HINAp
优点:l
秒级延迟l
低耦合l
易扩展分布式cacheHOLD分布式计算平台算法模型+用户画像精准推荐第三代架构业务侧广告投放系统TDProcess流式计算TREV2实时推荐实时TDEngine实时存储引擎采集Spark
实时建模平台Mariana深度学习平台TDW用户画像设备属性手机品牌、app偏好...自然属性年龄、性别、学历等p
用户群体l
QQ月活8.5El
QQ智能终端月活6.42El
微信和WeChat月活6.97EQQ空间活跃6.4E内容兴趣腾讯网、视频、音乐、公众号..社会属性用户画像l职业、人生状态等l
QQ空间智能终端月活5.73Ep
用户画像l
用户基础属性l
行为兴趣属性社交属性QQ,Qzone,微信...广告兴趣广告点击...TDBank实时接入消息文件DB其他TDBankp
核心需求业务数据源业务管理系统l
海量数据接入Agent(binlog解析/打包/压缩…)l
秒级接入延时l
低成本、高效率、强安全l
方便数据管理和使用元数据管理业务配置权限管理运营操作数据接入中心数据存储中心Bus(协议解析/
解压/
滤重…)p
主要难点TRC……l
数据总量巨大l
数据源种类繁多l
数据格式各异l
数据分布IDC众多Tube/Hippo(消息订阅/推送…)p
特色功能数据分拣中心Sort(协议转换/分拣…)l
配置驱动l
多种数据源适配l
平衡读写数据存储层HDFSl
支持多种序列化协议MySQLTDWHBase……l
Hippo支持事务TDProcess流式处理预测用户A最可能点击广告,如何准备好预测相关数据?•
对每个广告,实时计算“用户*广告*时间”多个不同维度组合的指标用户项目上下文反馈特征滑动时间窗广告位广告广告类目所属行业素材特征…地理位置时间天气节假日…1分钟1小时1天千万级特征向量千亿级向量空间点击曝光浏览转发点赞…基础属性行为属性兴趣标签关系链…7天1个月…交叉维度的动态反馈特征Ø
广点通120亿请求对应的每1条曝光日志,
平均计算50多种交叉特征Ø
仅广点通业务每天实时计算量超过6000亿次Ø
整个集群的计算量超过36000亿次Ø
秒级滑动时间窗,每一秒的数据都在变化TDProcess流式处理p
核心需求l
基于消息的流式处理l
分布式(方便线性扩展,应对数据的爆炸式增长计算)l
实时(数据消费计算延时毫秒级)p
难点挑战l
高度容错(分布式系统,宕机是常态)l
任务间资源隔离(多任务并发不相互影响)l
基于资源消耗自动扩容/缩容l
业界无成熟方案p
特色功能l
服务级功能抽象l
统一的资源管理l
多种编程接口TDEngine存储引擎Keeperp
核心需求状态管理路由管理MABCBSDataNode1l
高并发,低延迟l
高可用性,数据安全l
关注成本,关注资源利用率l
线性扩展下发路由1234...CADDDataNode2…扩容管理...
...DataNodeN1024
...
...ReadCClliieennttꢀꢀ
bucket1心跳状态上报DataNodeꢀADataNodeꢀBDataNodeꢀCDataNodeꢀDWritebucket1数据块数据块数据块数据块Bucket1Bucketꢀ4Bucket1Bucketꢀ2Bucketꢀ2数据复制Bucketꢀ4Bucketꢀ3Bucketꢀ3数据迁移数据迁移分布式集群管理p特色功能l
支持多副本数据备份,确保数据安全l
主备机同时提供服务,提升集群资源利用率l
集群高可用,容灾切换过程中仍然提供读写服务l
全内存设计,多引擎支持每天支撑5000亿数据访问请求TRE推荐引擎挑战效果广告推荐的核心技术挑战:如何在100ms的时间内,
面对8亿活跃用户中的任意一人,预测其在未来下一秒内,最可能点击10,000个广告主提供的250,000个广告中的哪一个?Ø
“8亿用户↔25万实时变化广告”的相关度计算非常复杂Ø
100ms内完成,移动端50msØ
广点通每天执行120亿次这样的预测pctr曝光请求广告展示广告粗选广告精选广告预测广告排序•
定向条件•
25w-1w•
1w-100••100广告点击预估排序策略投放策略••广告广告主数据用户画像关系链数据动态反馈特征数据用户标识(QQ等),场景(广告位)前端投放页面广告主投放广告,设定广告定向条件。涉及年龄,性别,地域,投放金额等获取用户画像信息,场景信息27岁男
广东
本科...广告索引对广告分类
分桶处理保证每类广告召回广告检索:检索该用户,该场景下可投广告列表25w广告信息,粗CTR等信息每15分钟内被索引打分公式计算广告总分筛选出符合广告主定向条件可投的10000个订单实时更新上下架广告根据广告分值取TOP100个广告实时更新用户点击反馈数据6000亿/天更量广告初选:尽可能满足多种条件的100个广告实时点击反馈:一笔请求经过704次查询和计算20s内将100M模型更新到整个集群模型数据15分钟一致性更新广告预估:针对每个广告单独计算用户-广告点击概率逻辑回归:10次与广告无关纬度+100广告
*
10与广告相关纬度点击率实时更新用户行为数据用户对100个广告,每个广告可能的点击率0.352%用户画像基础数据源深度神经网络:一笔请求查询3000+特征及广告数据转化率预估:竞0.339%0.288%价排名等广告重排:预估后的广告进行多样性,新鲜度控制等广告订单基础数据多样性控制:广告类目多样性等,控制同一类广告出现次数等新鲜度控制:对该用户一天内展示过几次的不再展示所有这一切在100ms内完成,支持每天120亿次广告推荐最终投放TOP1-5的广告TRE推荐引擎难点业务逻辑复杂每次请求,经过实时检索,初选,精选,重排等多个业务流程分布式任务管理,调度每次请求,对100个广告进行精确预测、排序预测每个广告点击率,需要访问30多种数据每秒9亿次数据访问量每个请求100ms返回移动端要求50ms业务流量大每天为8亿用户执行预测120亿次预测,峰值每秒30万次每天执行12000亿“用户↔广告”相关度预测(精排序),峰值每秒3000万次算法管理在线和实验算法100多个,15分钟模型数据迭代更新一次,每天更新9600多次集群管理上千台在线计算服务器的管理TRE一代架构p
核心需求l
海量+实时:广告计算复杂响应时耗要求高Client应用客户端l
大规模分布式系统流量、算法和数据管理Access
SvrScoringp
主要痛点l
扩展难:业务定制化,分支版本众多,管理困难;数据层层传递,下游变更,所有上游计算层都跟着变;质量监控依赖外部系统join,成本很高Compute
SvrCompute
Svr推荐逻辑PCTRl
静态路由,关联系统各自为政:路由事先静态生成,无法动态变化;系统模块增加,但相互独立;配置繁多,依赖性配置人工出错频繁l
可运营性差:加载算法状态,缓存状态不透明;更新算法子系统配置需重启,集群无法动态扩缩容。RerankingL2cache推荐数据数据服务TRE二代架构p
主要优点l
易扩展:通过中心节点Router进行不同的业务流程控制,数据管理,多模块日志joinl
动态智能路由:集群管理中心提供动态路由,关联系统根据同一份路由数据进行数据和请求的联动变更l
集群透明:集群管理中心收集节点元数据,包括配置,算法,节点状态等,前台可展示,运维监控更方便TRE算法管理ZooKeeper集群快照StaticSnapshotDynamicSnapshotp
核心需求l
针对不同流量建模l
支持100+在线,实验算法效果调优,频繁更新,上下架RouterStageRoutel
支持多种业务流程ManagerManagerp
特色功能l
插件式管理l
支持动态上下架l
算法作为系统调度的路由依据l
接口解耦,状态机分离l
配置驱动流程调度机器节点1机器节点2机器节点N算法A算法C算法Jꢀꢀꢀꢀꢀꢀ……算法B算法D算法KTR
E实时数据更新ZooKeeper集群快照p
核心需求StaticDynamicSnapshotSnapshotl
保证算法模型一致性l
支持100+在线实验算法模型数据推送Set1共享内存AlgAAlgCAlgBl
每15分钟粒度定期推送到线上几百台服务器l
保证关键性数据查询命中L2缓存…文件FileSchedulerPushServerSet1IP1Set1路由管理SetN……文件管理共享内存AlgAAlgCAlgBp
特色功能RTScheduler推送路由数据流L2缓存…l
文件Pipeline任务调度l
100MB文件,10S内发送到集群所有集群上路由管理IP1IP2…数据快照Set1l
实时流数据毫秒级更新到server缓存l
数据快照,支持计算节点快速恢复共享内存AlgAAlgCAlgBL2缓存…TRE集群管理请求/回复公共调度p
核心需求l
平行可扩容l
负载均衡管理l
路由管理ConfigServer请求/回复p
特色功能l
智能路由管理整理/配置l
set/ip级别的负载均衡l
动态扩缩容,算法/模型/文件延迟删除机制ZooKeeper拉取配置集群快照StaticSnapshotDynamicSnapshotl
状态上报,收集整理注册/上报数据推送FileSchedulerRTSchedulerRTSchedulerPushServerPushServerTRE多地容灾Router深圳实验集群沙箱集群模型推送Master实时数据推送HDFS深圳Set1LR/DNN/FMLR/DNN/FMLR流量深圳Set2数据访问DNN流量Spark模型训练Mariana模型训练数据访问TDE主TDE备TDP流式计算模型推送数据推送模型推送数据推送上海天津RouterRouter实验集群实验集群上海Set1天津Set1LR/DNN/FMLR/DNN/FMLR流量LR流
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年中外合作研发协议
- 2024年人力资源与雇佣合同
- 小学班主任心理辅导经验交流发言稿
- 2024年化工生产设备采购与安装合同
- 电子产品制造厂施工方案
- 2024年住房转让协议:补偿与赔偿责任详解
- 卧式自动翻洗过滤机相关项目投资计划书范本
- 2024年二手房买卖合同中的付款方式与时间
- (2024版)融合车联网技术的出租车承包合同协议书
- 2024年大数据中心信息安全运维合同
- 光纤电缆安装指南
- 2023北京海淀区高二上学期期末语文试题及答案
- 河南省郑州市中原区2023-2024学年九年级上学期期中数学试卷(含解析)
- 高标准农田蓄水池施工方案
- 铁塔认证考试题库大全-3动环专业部分
- 药学职业生涯人物访谈
- 羟亚胺的Semipinacol重排反应与改进探究
- 单位职工独生子女父母一次性退休补贴申请表
- 国有集团公司中层及员工履职追责问责处理办法模版
- 管理学-第6章-组织设计
- 2020医用氧药典标准
评论
0/150
提交评论