TalkingData基于Spark的数据挖掘工作PPT课件

上传人：优*** IP属地：广东上传时间：2020-04-24 格式：PPTX 页数：28 大小：1.29MB 积分：35 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

TalkingData基于Spark的数据挖掘工作张夏天腾云天下科技有限公司张夏天机器学习内容 TalkingData简介我们的数据挖掘工作应用广告优化随机决策树算法及其Spark实现 2 TalkingData简介 TalkingData移动大数据生态圈行业透视 DMP数据管理平台数据交易与交换数据监测与预警基础数据服务数据能力开放企业服务 3 内容 TalkingData简介我们的数据挖掘工作应用广告优化随机决策树算法及其Spark实现 4 数据挖掘在TalkingData的应用移动应用推荐广告优化用户画像游戏数据挖掘外包咨询通用推荐同步推机锋开放移动应用通用服务接口 CTR 提升20 50 转化率提升50 100 转化成本降低50 人口属性移动应用兴趣标签行业兴趣标签位置信息付费预测流失预测 5 为什么选择Spark 硬件资源有限人力资源有限任务繁重 6 为什么没有广泛使用MLLib 内存资源有限很多情况下无法把数据放入内存处理因此迭代算法效率还是很低迭代依然是阿格硫斯之蹱我们只能尽可能使用需要迭代次数少甚至不迭代的算法和算法实现 RDT OneIterationLR SimHash 7 内容 TalkingData简介我们的数据挖掘工作应用广告优化随机决策树算法及其Spark实现 8 应用广告优化针对某一应用筛选推广目标人群 9 如何做广告优化分类问题预测每个设备对目标应用的感兴趣程度算法随机决策树一次迭代LR 10 RDT算法简介随机决策树算法 RandomDecsionTrees Fanetal 2003 融合多棵随机构建的决策树的预测结果来进行分类回归特点树的构建完全随机不寻找最优分裂点和分裂值建树的开销低建树的过程不需要使用label信息应用分类多标签分类回归单机开源实现 D 11 RDT的简单例子 P x 30 50 0 6 P x 30 100 0 3 P x P x 2 0 45 12 两种构建随机决策树的方式方式1 方式2 优点随时剪枝缺点需要迭代优点不需要迭代缺点空树占用内存很大限制了树的深度 13 与决策树和随机决策森林的区别 14 为什么RDT有学习能力直观解释 Fanetal 2003 贝叶斯最优分类器解释 Fanetal 2005 DavidsonandFan 2006 矩解释高阶统计 Dhurandhar2010 15 Multi labelRDT算法 Zhangetal 2010 Multi label学习问题 16 Multi labelRDT算法 P L1 x 30 100 0 3 P L1 x 30 50 0 6 P L2 x 50 100 0 5 P L2 x 20 100 0 2 P L1 x P L1 x 2 0 45 P L2 x P L2 x 2 0 35 17 RDT算法在Spark上实现的问题两种方式都存在比较大的缺点方式1 需要多次迭代方式2 空树占用过多内存限制树的深度方式3 不显示构建树结构的随机决策树仅在样本走到某个节点时动态确定当前的节点的feature 优点无需迭代数据内存占用小 18 如何实现不构建树的随机决策树算法一个伪随机数种子就可以确定一棵随机决策树理论上我们仅需要一个伪随机数种子我们就可以计算出这棵树任何一个节点上的feature实践中使用伪随机数发生器效率比较低我们采用Hash函数 19 二叉随机决策树的实现二叉树仅针对binary数据每个节点只需要确定feature可以通过公式推算父节点左右子节点的编号父节点 p 1 2 奇数 p 2 2 偶数左子节点 2 p 1右子节点 2 p 2 20 Spark实现确定节点feature 用Hash函数来确定每个节点的featuref hash p s modM其中 p是节点编码 s是当前树的种子 M是feature数 hash函数是整数hash函数如果在一条路径下重复出现了一个feature 则按如下逻辑处理 while pathcontains f f f 1 modMendwhile 21 样本在树上行走的过程 Hash 0 s mod8 4 Hash 2 s mod8 0 Hash 5 s mod8 0 0 1 mod8 1 2 f0 5 f0 5 f1 2 1 3 4 5 6 0 0 f4 f4 f0 f0 Conflict f1 22 随机决策树Spark实现 Map Data Data Data Data S1 S4 S2 S3 Reduce 23 与MLLib算法的比较数据对RDT算法用SimHash转成512维binary数据 24 与MLLib算法的比较 RDT 深度 30树棵数 50Spark配置 excutors 12worker 1driver mem 2Gexecutor mem 2G MLLib 1 0 算法迭代 10次LogsiticRegressionSVMDecisionTreeSpark配置 excutors 12work

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

TalkingData基于Spark的数据挖掘工作PPT课件

文档简介

温馨提示

最新文档

评论

TalkingData基于Spark的数据挖掘工作PPT课件

文档简介

温馨提示

最新文档

评论

相关文档