数据蕴含商机挖掘决胜千里.ppt课件_第1页
数据蕴含商机挖掘决胜千里.ppt课件_第2页
数据蕴含商机挖掘决胜千里.ppt课件_第3页
数据蕴含商机挖掘决胜千里.ppt课件_第4页
数据蕴含商机挖掘决胜千里.ppt课件_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、腾 讯 大 讲 堂第五十九期研发管理部数据蕴含商机,发掘决胜千里Agenda数据发掘是什么?1模型+算法2数据发掘实际分享3心得与总结4从运筹帷幄到决胜千里舌战群儒草船借箭巧借东风火烧赤壁赤壁怀古 苏轼羽扇纶巾谈笑间樯橹灰飞烟灭.观日月之行,察天地之变风雷电雨云云多会下雨刮风会下雨下雨会闪电闪电会打雷换成它呢?数据爆炸的时代Data Mining, circa 1963 IBM 7090 600 cases“Machine storage limitationsrestricted the total number ofvariables which could beconsidered at

2、 one time to 25.数据发掘是DataInformationKnowledgeWisdom To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / implicit / actable / meaningful 、 Information / knowledge / patterns / trends / rules / anomalies 、 In massive data / large data set / large database / data warehouse

3、、Data + contextInformation + rulesKnowledge + experience多学科的交融DatabasesStatisticsPatternRecognitionKDDMachineLearningAINeurocomputingData MiningAgenda数据发掘是什么?1模型+算法2数据发掘实际分享3心得与总结4几个根本概念几个根本概念n 模型Model vs 方式Patternn 数据发掘的根本目的就是把样本数据中隐含的构造泛化Generalize到总体Population上去n 模型:对数据集的一种全局性的整体特征的描画或概括,适用于数据空间中

4、的一切点,例如聚类分析n 方式:对数据集的一种部分性的有限特征的描画或概括,适用于数据空间的一个子集,例如关联分析n 算法Algorithm:一个定义完备well-defined的过程,它以数据作为输入并产生模型或方式方式的输出n 描画型发掘Descriptive vs 预测型发掘Predictiven 描画型发掘:对数据进展概括,以方便的方式呈现数据的重要特征n 预测型发掘:根据察看到的对象特征值来预测它的其他特征值n 描画型发掘可以是目的,也可以是手段数据发掘是一个过程- “from data mining to knowledge discovery in database. U. fa

5、yyad, G.P.Shapiro and P.Smyth (1996)数据发掘方法论CRISP_DM Cross Industry Standard Process for DM1998年,由NCR、Clementine、OHRA和Daimler-Benz的结合工程组提出SEMMASAS公司提出的方法Sample, Explore, Modify, Model, Assess在战略上运用Crisp_DM方法论,在战术上运用SEMMA方法论工欲善其事必先利其器n 数据清洗n 填充缺失值, 修均噪声数据, 识别或删除孤立点, 并处理数据不一致问题n 主要分析方法:分箱Binning、聚类、回归n

6、 数据集成n 多个数据库、数据方或文件的集成n 数据变换n 规范化与汇总n 数据简化n 减少数据量的同时, 还可以得到一样或相近的分析结果n 主要分析方法:抽样、主成分分析n 数据离散化n 数据简化的一部分, 但非常重要 (尤其对于数值型数据来说)先来玩玩数据EDAn 探求性数据分析Exploratory Data Analysis, EDAn 探求性地查看数据,概括数据集的构造和关系n 对数据集没有各种严厉假定n 主要义务n 数据可视化a picture is worth a thousand wordsn 残差分析数据拟合 + 残差n 数据的重新表达什么样的尺度对数抑或平方根会简化分析n

7、方法的耐抗性对数据部分不良的不敏感性,如中位数耐抗甚于均值n 常见方法n 统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等n 统计图,如饼图、直方图、散点图、箱尾图等n 模型,如聚类数据发掘 = 模型 + 算法他运用过信誉卡吗? 卡应该发给谁? 哪些持卡人会拖欠? 哪些拖欠的客户会还款?影响 资产组合Portfolio1、根据历史,预测未来2、目的是一个分类变量3、预测结果是一个统计意义下的概率1、哪些人可以发卡,额度是多少。2、持卡人拖欠的概率是多少3、该对谁催收分类过程训练集训练集分类学习分类学习训练集训练集IF rank = professorOR years 6THEN t

8、enured = yesJef is YES!分类器分类器物以类聚,人以群分人为地选取细分维度人为地选取细分维度 客户价值 地域 活泼程度 维度灾难的发生维度灾难的发生 维度增长 细分数目指数增长 人脑仅能处置有限的维度市场市场聚类表示n 基于欧氏间隔的三维空间中的聚类n 基于质心的聚类算法n(K-Means)|(|),(222jzizjyiyjxixjidA1A2B1xyz发现商品间的关联规那么buy(x,diapers) buy(x,beers)关联规那么的量度n 支持度:Support(A=B)=#AB/#N,表示A和B同时出现的概率n 期望可信度:Support(A)=#A/#N,表示

9、A出现的概率n 置信度:Confidence(A=B)=Support(A=B)/Support(B)n 改善度:Lift(A=B)=Confidence(A=B)/Support(B)名称描述公式支持度X、Y同时出现的频率 P(XY) 期望可信度 Y出现的频率 P(Y) 置信度X出现的前提下,Y出现的频率P(Y|X) 改善度 置信度对期望可信度的比值 P(Y|X)/P(Y) 关联规那么的度量n 发现具有最小置信度和支持度的全部规那么 X Y Z n 支持度(support), s, 事务中包含X & Y & Z的概率n 置信度(confidence), c, 事务中包含X &

10、amp; Y的条件下, 包含Z的条件概率n 令最小支持度为50%, 最小置信度为50%, 那么有n A C (50%, 66.6%)n C A (50%, 100%)顾客购买尿布顾客购买尿布顾客购买两者顾客购买两者顾客购买啤酒顾客购买啤酒从算法到运用数据发掘厂商发掘和统计分析平台发掘和统计分析平台SAS EMSPSS ClementineS+MinerStatistic Data Miner与数据库集成发掘平台与数据库集成发掘平台IBM IMOracleNCR Teradata MinerSQL 2005 DM 行业运用及处理方案行业运用及处理方案UnicaKXENHNCAgenda数据发掘是

11、什么?1模型+算法2数据发掘实际分享3心得与总结4看看QQ的流失数据流失率2007年3月2007年4月2007年5月2007年6月当月活跃总帐户数253,668,411255,749,736264,006,894269,060,000当月流失老帐户数6,572,0876,006,5825,466,8078,217,569当月老帐户流失率2.59%2.35%2.07%3.05%每个月每个月50010005001000万的老用户流失,万的老用户流失,一年老用户流失接近一年老用户流失接近1 1亿亿, ,实践自然实践自然人流失情况虽然没有这么严重,但人流失情况虽然没有这么严重,但是依然是一个惊人的数据

12、。是依然是一个惊人的数据。客户流失是每客户流失是每个行业每天都个行业每天都在面对的问题在面对的问题1、建立流失预测模型,回答、建立流失预测模型,回答客户能否要流失,何时流失的客户能否要流失,何时流失的问题问题2、经过预测模型建立客户流、经过预测模型建立客户流失管理机制,更为有效地管理失管理机制,更为有效地管理流失,而不是去防止流失流失,而不是去防止流失一切从目的出发目的变量:即需求根据业务需求确定模型目的变量:即需求根据业务需求确定模型需求预测的对象,在需求预测的对象,在QQQQ客户流失模型中即客户流失模型中即是在业务上对是在业务上对“流失的定义。流失的定义。沉默客户数在4月后区域稳定模型选择

13、延续沉默2个月作为流失的定义目的变量的定义:目的变量的定义:Good:在表现窗口延续两个月有登陆的客户:在表现窗口延续两个月有登陆的客户Bad: 在表现窗口延续两个月都没有登陆的客户在表现窗口延续两个月都没有登陆的客户Intermediate: 在表现窗口其中一个月有登陆的客户在表现窗口其中一个月有登陆的客户翻开观测用户的窗口训练样本 测试样本察看窗口: 2007年1月2007年3月表现窗口: 2007年5月2007年6月Time Lag: 2007年4月交叉校验样本察看窗口: 2007年2月2007年4月表现窗口: 2007年6月2007年7月Time Lag: 2007年5月察看窗口表现窗

14、口Time LagMM-1M-2M-3M-4M-5M+1M+2M+31察看窗口:构成自变量的时间段。察看窗口:构成自变量的时间段。表现窗口:构成因变量的时间段。表现窗口:构成因变量的时间段。23Time Lag:预留给业务部门进展相应操作的时间段。:预留给业务部门进展相应操作的时间段。123变化幅度特征变量 描画用户运用量上的变化幅度勾勒出用户行为的特征根本属性变量 描画用户的根本属性产品运用行为特征 描画用户运用产品的情况音讯业务运用行为特征 描画用户运用音讯业务的情况音频业务运用行为特征 描画用户运用音频业务的情况视频业务运用行为特征 描画用户运用视频业务的情况客户在线的行为特征 从在线时

15、长,登陆次数,登陆频率等角度研讨用户的运用行为归属地变化的行为特征 描画用户在某一时间周期内登陆所在地的变化情况中间变量中间变量比例特征变量 描画用户业务运用占比根底变量根底变量变量描画变量描画行为趋势特征变量 描画用户的运用行为变化趋势变量描画变量描画黄沙吹尽始到金根底变量和中间变量数目约为224个经过变量变换后的变量数目约为1700个变量挑选运用Logistic回归的Stepwise方法进展下一步拟合卡方统计量卡方统计量 Chi Square信息价值信息价值 Information Value信息增益信息增益 Gain Index单变量回归单变量回归偏相关分析偏相关分析 Partial C

16、orrelationLift曲线十分位十分位样本数量样本数量LiftLift0226,7295.171226,7292.272226,7281.033226,7300.554226,7290.355226,7290.256226,7300.157226,7290.118226,7290.079226,7300.05Total2,267,2931ROC曲线50%75%建立闭环的业务流程流失客户分析流失客户分析数据发掘数据发掘数据分析数据分析数据采集数据采集/ETL现有流程评价现有流程评价方案和设计挽留行动方案和设计挽留行动执行挽留行动执行挽留行动评价挽留结果评价挽留结果调整运用流程调整运用流程Agenda数据发掘是什么?1模型+算法2数据发掘实际分享3心得与总结4几点心得实施数据发掘是一个战略性举措Busines

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论