腾讯公司培训-关于数据挖掘数据分析的课件_第1页
腾讯公司培训-关于数据挖掘数据分析的课件_第2页
腾讯公司培训-关于数据挖掘数据分析的课件_第3页
腾讯公司培训-关于数据挖掘数据分析的课件_第4页
腾讯公司培训-关于数据挖掘数据分析的课件_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、腾 讯 大 讲 堂研发管理部数据蕴含商机,挖掘决胜千里Agenda数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总结4从运筹帷幄到决胜千里舌战群儒草船借箭巧借东风火烧赤壁赤壁怀古 苏轼羽扇纶巾谈笑间樯橹灰飞烟灭.观日月之行,察天地之变风雷电雨云云多会下雨刮风会下雨下雨会闪电闪电会打雷换成它呢?数据爆炸的时代Data Mining, circa 1963 IBM 7090 600 cases“Machine storage limitationsrestricted the total number ofvariables which could beconsidered at one

2、time to 25.”多学科的融合DatabasesStatisticsPatternRecognitionKDDMachineLearningAINeurocomputingData MiningAgenda数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总结4数据挖掘是一个过程 “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)数据挖掘方法论CRISP_DM (Cross Industry Standard Process for DM)19

3、98年,由NCR、Clementine、OHRA和Daimler-Benz的联合项目组提出SEMMASAS公司提出的方法Sample, Explore, Modify, Model, Assess在战略上使用Crisp_DM方法论,在战术上应用SEMMA方法论工欲善其事必先利其器数据清洗填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题主要分析方法:分箱(Binning)、聚类、回归数据集成多个数据库、数据方或文件的集成数据变换规范化与汇总数据简化减少数据量的同时, 还可以得到相同或相近的分析结果主要分析方法:抽样、主成分分析数据离散化数据简化的一部分, 但非常重要 (尤其

4、对于数值型数据来说)数据挖掘 = 模型 + 算法分类预测关联规则孤立点探测聚类Logistic Regression决策树神经网络K-MeansK-ModeSOM(自组织图)AprioriFP-Growth基于统计基于距离基于偏差你使用过信用卡吗? 卡应该发给谁? 哪些持卡人会拖欠? 哪些拖欠的客户会还款?影响 资产组合(Portfolio)1、根据历史,预测将来2、目标是一个分类变量3、预测结果是一个统计意义下的概率1、哪些人可以发卡,额度是多少。2、持卡人拖欠的概率是多少3、该对谁催收物以类聚,人以群分人为地选取细分维度客户价值地域活跃程度维度灾难的发生维度增长细分数目指数增长人脑仅能处理

5、有限的维度市场聚类示意基于欧氏距离的三维空间中的聚类基于质心的聚类算法(K-Means)A1A2B1xyz发现商品间的关联规则buy(x,”diapers”) buy(x,”beers”)关联规则的量度支持度:Support(A=B)=#AB/#N,表示A和B同时出现的概率期望可信度:Support(A)=#A/#N,表示A出现的概率置信度:Confidence(A=B)=Support(A=B)/Support(B)改善度:Lift(A=B)=Confidence(A=B)/Support(B)名称描述公式支持度X、Y同时出现的频率 P(XY) 期望可信度 Y出现的频率 P(Y) 置信度X出

6、现的前提下,Y出现的频率P(Y|X) 改善度 置信度对期望可信度的比值 P(Y|X)/P(Y) 关联规则的度量发现具有最小置信度和支持度的全部规则 X Y Z 支持度(support), s, 事务中包含X & Y & Z的概率置信度(confidence), c, 事务中包含X & Y的条件下, 包含Z的条件概率令最小支持度为50%, 最小置信度为50%, 则有A C (50%, 66.6%)C A (50%, 100%)顾客购买尿布顾客购买两者顾客购买啤酒从算法到应用Agenda数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总结4看看QQ的流失数据流失率2007年3月2007年4月

7、2007年5月2007年6月当月活跃总帐户数253,668,411255,749,736264,006,894269,060,000当月流失老帐户数6,572,0876,006,5825,466,8078,217,569当月老帐户流失率2.59%2.35%2.07%3.05%每个月5001000万的老用户流失,一年老用户流失接近1亿,实际自然人流失状况虽然没有这么严重,但是仍然是一个惊人的数据。客户流失是每个行业每天都在面对的问题1、建立流失预测模型,回答客户是否要流失,何时流失的问题2、通过预测模型建立客户流失管理机制,更为有效地管理流失,而不是去防止流失打开观测用户的窗口训练样本 测试样本

8、观察窗口: 2007年1月2007年3月表现窗口: 2007年5月2007年6月Time Lag: 2007年4月交叉校验样本观察窗口: 2007年2月2007年4月表现窗口: 2007年6月2007年7月Time Lag: 2007年5月观察窗口表现窗口Time LagMM-1M-2M-3M-4M-5M+1M+2M+31观察窗口:形成自变量的时间段。表现窗口:形成因变量的时间段。23Time Lag:预留给业务部门进行相应操作的时间段。123变化幅度特征变量 描述用户使用量上的变化幅度勾勒出用户行为的特征基本属性变量 描述用户的基本属性产品使用行为特征 描述用户使用产品的情况消息业务使用行为

9、特征 描述用户使用消息业务的情况音频业务使用行为特征 描述用户使用音频业务的情况视频业务使用行为特征 描述用户使用视频业务的情况客户在线的行为特征 从在线时长,登陆次数,登陆频率等角度研究用户的使用行为归属地变化的行为特征 描述用户在某一时间周期内登陆所在地的变化情况中间变量比例特征变量 描述用户业务使用占比基础变量变量描述行为趋势特征变量 描述用户的使用行为变化趋势变量描述黄沙吹尽始到金基础变量和中间变量数目约为224个经过变量变换后的变量数目约为1700个变量筛选使用Logistic回归的Stepwise方法进行下一步拟合卡方统计量 Chi Square信息价值 Information V

10、alue信息增益 Gain Index单变量回归偏相关分析 Partial CorrelationLift曲线十分位样本数量Lift0226,7295.171226,7292.272226,7281.033226,7300.554226,7290.355226,7290.256226,7300.157226,7290.118226,7290.079226,7300.05Total2,267,2931ROC曲线50%75%建立闭环的业务流程流失客户分析数据挖掘数据分析数据采集/ETL现有流程评估计划和设计挽留行动执行挽留行动评估挽留结果调整应用流程Agenda数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总结4几点心得实施数据挖掘是一个战略性举措Business First, Technique Second数据挖掘不是万能的,没有它也不是万

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论