专21-2-腾讯个性化精准推荐-对外_第1页
专21-2-腾讯个性化精准推荐-对外_第2页
专21-2-腾讯个性化精准推荐-对外_第3页
专21-2-腾讯个性化精准推荐-对外_第4页
专21-2-腾讯个性化精准推荐-对外_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

腾腾讯个性化精准推荐TEG/数据平台部/实时计算中心regzhang(张磊)p推荐业务介绍p精准推荐架构的演进p推荐引擎设计与实现p总结与未来展望推荐业务介绍推荐业务介绍推荐业务介绍推荐业务介绍我们所做的核心技术挑战:如何在100ms的时间内,面对8亿活跃用户中的任意一人,预测其在未来下一秒内,最可能点击10,000个广告主提供的250,000个广告中的哪一个?难点:4、效果广告-广点通每天即执行120亿次实时预测请求仅为了这120亿次预测:1、每天仅实时点击预估算法预测的广告数即超过12000亿个3、每天流式计算的事件数超过36000亿次4、每天实时数据存储层访问超过5000亿次分布式计算平台算法模型+用户画像分布式计算平台算法模型+用户画像实时查询引擎p核心特征:l离线文件传输lp核心特征:l离线文件传输l批量暴力计算l实时匹配查询p存在的问题:l数据时延高l人群聚类粗l扩展性差文件传输精准推荐第一代架构广广告投放系统实时接入推荐引擎TREV1精准推荐第二代架构实时接入推荐引擎TREV1精准推荐第二代架构广广告投放系统流流式计算分布式分布式cache分布式计算平台算法模型+用户画像精准推荐第三代架构业务侧广告投放系统TDBank实时采集TDBank实时采集TREV2实TREV2实时推荐流式计算TDEngine实时存储引擎Spark实时建模平台Mariana深度学习平台TDTDW社会属性职业、人生状态等内容兴趣腾讯网、视社会属性职业、人生状态等内容兴趣腾讯网、视公众号..设备属性app偏好...自然属性学历等用户画像广告兴趣广广告兴趣广告点击...zone信...lQQ月活8.5ElQQ智能终端月活6.42El微信和WeChat月活6.97ElQQ空间活跃6.4ElQQ空间智能终端月活5.73El用户基础属性l行为兴趣属性元数据管理业务配置权限管理运营操作TDBank业务管理系统l海量数据接入l秒级接入延时元数据管理业务配置权限管理运营操作TDBank业务管理系统l海量数据接入l秒级接入延时强安全l方便数据管理和使用l数据总量巨大l数据源种类繁多l数据格式各异l数据分布IDC众多ll多种数据源适配ll支持多种序列化协议lHippo支持事务……数据接入中心Bus(协议解析/解压/滤重…)TDBank实时接入业务数据源其他其他消息文件AgentAgent(binlog解析/打包/压缩…)数据存储中心Tube/Hippo数据存储中心Tube/Hippo(消息订阅/推数据分拣中心数据分拣中心Sort(协议转换/分拣…)MySQLTDW…MySQLTDW……HDFHDFS用户基础属性行为属性兴趣标签关系链…上下文地理位置时用户基础属性行为属性兴趣标签关系链…上下文地理位置时间天气节假日…反馈特征点击曝光浏览转发点赞…滑动时间窗1分钟1小时7天1个月…千万级特征向量千亿级向量空间交叉维度的动态反馈特征预测用户A最可能点击广告,如何准备好预测相关数据?•对每个广告,实时计算“用户*广告*时间”多个不同维度组合的指标项项目广告位广告广告类目所属行业素材特征…50多种交叉特征通业务每天实时计算量超过6000亿次量超过36000亿次TDProcess流式处理p核心需求l基于消息的流式处理l分布式(方便线性扩展,应对数据的爆炸式增长计算)l实时(数据消费计算延时毫秒级)p难点挑战l高度容错(分布式系统,宕机是常态)l任务间资源隔离(多任务并发不相互影响)l基于资源消耗自动扩容/缩容l业界无成熟方案p特色功能l服务级功能抽象l统一的资源管理l多种编程接口 下发路由扩容管理bucket1DataNodeA数据块Readbucket1心跳状DataNodeC数据块Bucket1Bucket3DataNodeD数据块Bucket4Bucket3Bucket1Bucket2DataNodeB数据块Bucket2Bucket4数据迁移态上报Keeper 下发路由扩容管理bucket1DataNodeA数据块Readbucket1心跳状DataNodeC数据块Bucket1Bucket3DataNodeD数据块Bucket4Bucket3Bucket1Bucket2DataNodeB数据块Bucket2Bucket4数据迁移态上报Keeper路由管理MS1AC2BA3CD4BD.........1024......状态管理DataNode1DataNode2…DataNodeNTDEngine存储引擎l关注成本,关注资源利用率p特色功能数据复制数据迁移数据复制数据迁移l主备机同时提供服务,提升集群资源利用率l集群高可用,容灾切换过程中仍然提供读写服务l全内存设计,多引擎支持每天支撑5000亿数据访问请求TRE推荐引擎挑战效果广告推荐的核心技术挑战:如何在100ms的时间内,面对8亿活跃用户中的任意一人,预测其在未来下一秒内,最可能点击10,000个广告主提供的250,000个广告中Ø“8亿用户↔25万实时变化广告”的相关度计算非常复杂广告展示曝光请求用户画像关系链数广告展示曝光请求用户画像关系链数据动态反馈特征数据效果广告的在线业务流程ppctr•100广告•点击预估•定向条件•25w-1w•1w-100•排序策略•投放策略广告广告广告主数据前端投放页面获取用户画像信息,场景信息27岁男广东本科...对广告分类分桶处理保证每类广告召回广告检索:检索该用户,该场景下可投广告列表广告索引打分公式计算广告总分实时更新上下架广告根据广告分值取TOP100个广告 广告初选:尽可能满足多种条件的100个广告实时点击反馈:一笔请求经过704次查询和计算广告预估前端投放页面获取用户画像信息,场景信息27岁男广东本科...对广告分类分桶处理保证每类广告召回广告检索:检索该用户,该场景下可投广告列表广告索引打分公式计算广告总分实时更新上下架广告根据广告分值取TOP100个广告 广告初选:尽可能满足多种条件的100个广告实时点击反馈:一笔请求经过704次查询和计算广告预估:针对每个广告单独计算用户-广告点击概率实时更新用户行为数据2%9%8%用户对100个广告,每个广告可能的点击率用户画像基础数据源率预估:竞价排名等广告重排:预估后的广告进行多样性,新鲜度控制等广告订单基础数据支持每天120亿次广告推荐 最终投放TOP1-5的广告深度神经网络:一笔请求查询3000+特征及广告数据用户标识(QQ等),场景(广告位)广告主投放广告,设定广告定向条件。涉投放金额等w广告信息,粗CTR等信息每15分钟内被索引筛选出符合广告主定向条件可投的10000个订单实时更新用户点击反馈数据6000亿/天更量模型数据15分钟一致性更新20s内将100M模型更新到整个集群逻辑回归:10次与广告无关纬度+100广告*10与广告相关纬度多多样性控制:广告类目多样性控制同一类广告出现次数等控制控制:对该用户一天内展示过几次的不再TRE推荐引擎难点业务逻辑复杂每次请求,经过实时检索,初选,精选,重排等多个业务流程分布式任务管理,调度每次请求,对100个广告进行精确预测、排序预测每个广告点击率,需要访问30多种数据每秒9亿次数据访问量每个请求100ms返回移动端要求50ms业务流量大每天为8亿用户执行预测120亿次预测,峰值每秒30万次每天执行12000亿“用户↔广告”相关度预测(精排序),峰值每秒3000万次算法管理在线和实验算法100多个,15分钟模型数据迭代更新一次,每天更新9600多次集群管理上千台在线计算服务器的管理TRE一代架构应用客户端推荐逻辑推荐数据ClClientRerankingAccessSvrRerankingAccessSvrScoringPCTRComputeSvrComputeSvrPCTRL2cache数据服务p核心需求l海量+实时:广告计算复杂响应时耗要求高l大规模分布式系统流量、算法和数据管理p主要痛点l扩展难:业务定制化,分支版本众多,管理困难;数据层层传递,下游变更,所有上游计算层都跟着变;质量监控依赖外部系统join,成本很高l静态路由,关联系统各自为政:路由事先静态生成,无法动态变化;系统模块增加,但相互独立;配置繁多,依赖性配置人工出错频繁l运营性差:加载算法状态,缓存状态不透明;更新算法子系统TRE二代架构p主要优点l易扩展:通过中心节点Router进行不同的业务流程控制,数据管理,多模块日志joinl动态智能路由:集群管理中心提供动态路由,关联系统根据同一份路由数据进行数据和请求的联动变更l集群透明:集群管理中心收集节点元数据,包括配置,算法,节点状态等,前台可展示,运维监控更方便::::::::TRE算法管理集群集群快照DynamicSnapshotStaticSnapshotRRouterStageManagerRouteManager::p核心需求l针对不同流量建模l支持100+在线,实验算法效果调优,频繁更新,上下架l支持多种业务流程p特色功能l插件式管理l支持动态上下架l算法作为系统调度的路由依据l接口解耦,状态机分离l配置驱动流程调度件数据流TRE实时数据更新件数据流TRE实时数据更新ZZooKeeper集群快照namicSnapshotStaticSnapshotSetSet1RTScheduler推送路由…FileSchedulerPushServer路由管理文件管理路由管理 SetN… …数据快照共享内存共享内存L2缓存AlgAAlgBAlgC…AAlgAAlgBAlgC…共享内存L2缓存共享内存共享内存L2缓存AlgAAlgBAlgC…p核心需求l保证算法模型一致性l支持100+在线实验算法模型数据推送l每15分钟粒度定期推送到线上几百台服务器l保证关键性数据查询命中p特色功能l文件Pipeline任务调度l100MB文件,10S内发送到集群所有集群上l实时流数据毫秒级更新到server缓存l数据快照,支持计算节点快速恢复ConfigServer算法子系统1tttNode1算法1算法2ConfigServer算法子系统1tttNode1算法1算法2算法2算法1NodeNNode1算法1算法1算法2算法2NodeNNode1算法1算法2算法2算法1NodeNNode1算法1算法1算法2算法2NodeN算法子系统2t整理/配置ZooKeeper集群快照DynamicSnapshotStaticSnapshot拉取配置注册/上报TRE集群管理PushServerlerPushServerPushServerlerPushServer统一接入 统一接入请求/回复共调度请求/回复 数据推送 p核心需求l平行可扩容l负载均衡管理l路由管理p特色功能l智能路由管理lset/ip级别的负载均衡l动态扩缩容,算法/模型/文件延迟删除机制l状态上报,收集整理TRE多地容灾深圳沙箱集群LR/DNN/FM实验集群LR/DNN/FM深圳Set1深圳沙箱集群LR/DNN/FM实验集群LR/DNN/FM深圳Set1LR流量深圳Set2DNN数据访问TDP流式计算数据访问TDE主TDE备模型推送Master实时数据推送Spark模型训练Mariana模型训练模型推送数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论