数据挖掘基本概念与应用_第1页
数据挖掘基本概念与应用_第2页
数据挖掘基本概念与应用_第3页
数据挖掘基本概念与应用_第4页
数据挖掘基本概念与应用_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘基本概念与应用第1页,课件共55页,创作于2023年2月报告内容

数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论数据挖掘的基本概念第2页,课件共55页,创作于2023年2月改变未来世界的十大新兴技术《TechnologyReview》(麻省理工学院2002年1月出刊)机器与人脑的接口塑胶晶体管数据挖掘(DataMining)数字权利管理生物测定学(Biometrics)语言识别处理微光学技术(Microphotonics)解开程序代码(UntanglingCode)机器人设计微应用流体学(Microfluidics)第3页,课件共55页,创作于2023年2月什么是数据挖掘?DataInformationKnowledgeWisdom存在太多数据挖掘的定义,但基本上有这样一种描述结构Tofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformation+rulesKnowledge+experience第4页,课件共55页,创作于2023年2月为什么会出现数据挖掘?数据爆炸性增长是数据挖掘技术应运而生的根本原因。只见树木,不见森林(Drowningindatabutstarvingforinformation)计算复杂度数据管理问题数据类型的多样性处理大容量数据是数据挖掘技术区别于其他数据分析方法的唯一标志吗?第5页,课件共55页,创作于2023年2月其他数据分析方法:统计学从处理数据的角度看、、、数据规模不同数据来源不同:观测数据(SecondaryAnalysis)VS试验数据(PrimaryAnalysis)数据类型不同(结构化数据、半结构化数据、非结构化数据)从分析思想的角度看更关注实证性分析(EmpiricalAnalysis)而非探索性分析(ExploratoryAnalysis)更关注模型(Model)而非算法(Algorithm)但二者具有相当密切的联系从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉更加深入的渗透和交叉(如探索性数据分析,EDA)数据挖掘是数据驱动的探索性分析!第6页,课件共55页,创作于2023年2月数据挖掘:多学科的汇合数据挖掘数据库技术统计学其它学科信息科学机器学习可视化人工智能科学计算第7页,课件共55页,创作于2023年2月数据挖掘是一个过程“fromdataminingtoknowledgediscoveryindatabase”.U.fayyad,G.P.ShapiroandP.Smyth(1996)第8页,课件共55页,创作于2023年2月数据挖掘过程中的数据预处理数据清洗填充缺失值,修均噪声数据,识别或删除孤立点,并解决数据不一致问题主要分析方法:分箱(Binning)、聚类、回归数据集成多个数据库、数据方或文件的集成数据变换规范化与汇总数据简化减少数据量的同时,还可以得到相同或相近的分析结果主要分析方法:抽样、主成分分析数据离散化数据简化的一部分,但非常重要(尤其对于数值型数据来说)第9页,课件共55页,创作于2023年2月数据挖掘过程中的数据探索探索性数据分析(ExploratoryDataAnalysis,EDA)探索性地查看数据,概括数据集的结构和关系对数据集没有各种严格假定“玩”数据主要任务数据可视化(apictureisworthathousandwords)残差分析(数据=拟合+残差)数据的重新表达(什么样的尺度-对数抑或平方根-会简化分析?)方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值)常见方法统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等统计图,如饼图、直方图、散点图、箱尾图等模型,如聚类第10页,课件共55页,创作于2023年2月什么不是数据挖掘?定量分析(QuantitativeAnalysis)的需要存在企业管理运行的各个侧面或环节,但并非所有的定量分析问题都可以归结到数据挖掘范畴的问题。简单的报表、图表及多维分析仍是日常分析工作的主要内容小样本数据的分析传统统计分析方法更成熟有效,如趋势预测某些特定业务问题无法用数据挖掘算法加以解决,例如资源最优配置问题是个运筹学问题某些物流管理问题或者供应链管理问题是个随机规划问题营销预演本质是个系统仿真问题第11页,课件共55页,创作于2023年2月报告内容

数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论数据挖掘与统计分析第12页,课件共55页,创作于2023年2月统计学与数据挖掘的联系从处理数据数据挖掘中采用了大量统计学的思想、方法和工具聚类分析(无监督学习过程,统计分析中的主要技术)K-MeansSelfOrganizingMap(SOM)数据分类(有监督学习过程)统计分类技术:距离判别,费雪判别,贝叶斯判别数据挖掘中的分类技术:决策树,神经网络其他方法相关分析主成分分析回归分析序列分析第13页,课件共55页,创作于2023年2月统计学与数据挖掘的区别数据样本数量不同(在统计学中样本数量大于30,则成为大样本)数据来源和质量不同数据挖掘既可以处理结构化数据,也可以处理非结构化和异型数据方法数据挖掘的前提是占有大量数据,统计中的实验设计、抽样设计并不适用有些数据挖掘的分析方法是统计学中没有的,如强调实时分析统计分析方法在对大规模数据处理时占用系统的资源和时间太多,不适宜采用,因此数据挖掘大量采用神经网络、遗传算法等人工智能方法模型(模式)模型(统计学)VS模式(数据挖掘)统计建模强调模型的普适性,数据挖掘强调从数据中发现模式算法统计学强调模型,运算量居于次要地位数据挖掘的精华在于结果的未知性,强调探索性分析,与之对应的是算法而不是模型方法论统计学:以数学为基础,每种方法有严格的证明体系数据挖掘:采用实验方法,不具有很强的严谨性第14页,课件共55页,创作于2023年2月数据挖掘相对于统计学的特点使用数据挖掘工具无须具备太专业的统计知识,处理大量的实际数据更有优势,使得数据挖掘人员可以集中精力在业务建模方面数据挖掘从大型数据库提取所需数据,利用专属计算机软件进行分析,更能满足企业的需求从理论的角度来看,数据挖掘与统计学不同,其目的在于方便企业的末端使用者应用,而非为统计学家提供检验工具

第15页,课件共55页,创作于2023年2月报告内容

数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论数据挖掘的基本算法第16页,课件共55页,创作于2023年2月几个基本概念模型(Model)vs模式(Pattern)数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出描述型挖掘(Descriptive)vs预测型挖掘(Predictive)描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征预测型挖掘:根据观察到的对象特征值来预测它的其他特征值描述型挖掘可以是目的,也可以是手段第17页,课件共55页,创作于2023年2月几类基本的挖掘算法关联规则(模式、描述型)发现数据集中的频繁模式例如:buy(x,”diapers”)buy(x,”beers”)[0.5%,60%]分类与预测(模型、预测型)发现能够区分或预测目标变量(唯一的)的规则或者函数分类的目标变量一般是类别型的,而预测则是数量型的,并不必然带有任何时间延续型的暗示例如:股票市值的预测,病人病情的判断聚类(模型、描述型)对数据分组以形成新类,类标记是未知的例如:市场细分孤立点探测(OutlierDetection)(模式、预测型)分析异常或噪声数据的行为模式例如:欺诈检测第18页,课件共55页,创作于2023年2月广东发展银行信用卡中心的数据挖掘模型申请评分卡(分类模型、Logistic回归算法)计算申请信用卡的人在将来产生坏账的概率自变量是离散型变量评分需要进行标准化处理行为评分卡(分类模型、Logistic回归算法)包括:拖欠、催收、销售等自变量是连续型变量第19页,课件共55页,创作于2023年2月广东移动数据挖掘项目中的数据挖掘算法客户流失(分类模型、Logistic回归算法)彩铃WAP购买倾向预测(分类模型、Logistic回归算法)彩信增量销售预测(分类模型、Logistic回归算法)彩铃用户流失预测(分类模型、Logistic回归算法)客户价值增长预测(分类模型、Logistic回归算法)竞争对手流失预测(分类模型、Logistic回归算法)集团客户分群(聚类模型、K-Means算法)集团客户级别打分(分类模型、Logistic回归算法)产品关联分析(关联规则)个人客户分群分析(聚类模型、K-Means算法)

集团客户流失预警模型(AHP方法+Logistic回归算法)……第20页,课件共55页,创作于2023年2月客户分群(聚类模型、K-Means算法)客户流失(分类模型、Logistic回归算法)潜在用户定位(分类模型、Logistic回归算法)商城的交叉销售(关联规则)产品收入预测(时间序列的预测方法)……腾讯公司中的数据挖掘算法第21页,课件共55页,创作于2023年2月分类问题的基本定义给定一数据集合(训练集)数据记录由一系列变量组成其中有一个变量是目标分类标签寻找一模型,使目标分类变量值是其他变量值的一个函数利用上述函数,一未知分类变量值的数据记录能够尽可能准确地被判定到某一类别中去一般会有另一独立地数据集(测试集)用以验证所构建分类函数的准确性,避免过度拟合第22页,课件共55页,创作于2023年2月分类过程示意训练集分类学习训练集分类器IFrank=‘professor’ORyears>6THENtenured=‘yes’JefisYES!第23页,课件共55页,创作于2023年2月回顾简单的一元线性回归问题

y=b0+b1x+u

y称为被解释变量或者因变量,是一个连续变量

x称为解释变量或者自变量,是一个连续变量

b0

、b1称为回归系数

u是随机误差,一般假设服从标准正态分布yxy=b0+b1x+u........第24页,课件共55页,创作于2023年2月Logistic回归进行分类和预测LOGISTIC回归是一种特殊的回归模型,与古典的线性回归模型不同,其响应变量(ResponseVariable)是一分类变量(CategoricalVariable)而非连续变量(ContinuousVariable)。响应变量是一个二值化的变量,通常以1\0表示某一事件发生或者不发生。应用Logistic回归得到的概率p通常表示在将来某段时间后某一事件发生的概率。Odds:目标事件发生的数量/非目标事件发生的数量.Oddsratio=prob(目标事件)/prob(非目标事件)=p/(1-p)p=prob(目标事件)prob表示事件发生的概率Logit:logofoddsratio=log(p/(1-p))Logistic回归:拟合下面的模型logit=a0+a1*X1+…+ak*Xkp=prob(目标事件)=exp(logit)/(1+exp(logit))p的取值范围:[0,1]p第25页,课件共55页,创作于2023年2月流失类模型案例建模目的:预测某一段时间之后客户流失的概率。确定时间窗口:确定目标变量:定义在DataWindow中正常而在ForecastWindow中流失的客户为0,而没有流失的客户为1。选择自变量:在电信的客户流失模型中,我们一般使用下面几种类型的变量。客户流失指标客户信息数据(人口统计学数据、合同数据)呼叫数据计费和支持数据一些转换之后得到的变量其它数据DataWindowForecastWindowTimeLagMM-1M-2M-3MM-5M+1M+2第26页,课件共55页,创作于2023年2月流失类模型案例

模型的评价Lift值R方ROC曲线K-S值

模型的应用P值大的客户具有更高的流失倾向模型的评分分布划定CutOffLine。对CutOffLine的划定可以采用更多的市场数据进行参考,如正确挽留一个客户准备的平均收益和成本,错误挽留一个客户的平均成本,客户流失的平均损失等。有了这些数据可以进一步使用贝叶斯方法建立数量化的分类模型,以确定对CutOffLine的划定。频数评分010000CutOffLine非流失流失第27页,课件共55页,创作于2023年2月分类中的决策树(DecisionTree)归纳决策树类似于流程图的树型结构内部节点代表对某个属性的一次测试分支代表测试的输出结果叶节点代表分类标签或分布决策树的生成包括两个阶段树的创建首先,所有训练样本都位于根节点递归地基于选择属性来划分样本集树的修剪识别并删除那些反映噪声或孤立点的分支应用决策树:对未知样本进行分类在决策树上测试样本的各个属性值第28页,课件共55页,创作于2023年2月决策树示意age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40示例:是否购买计算机?第29页,课件共55页,创作于2023年2月决策树在电信客户流失问题中的应用实例结论:ARPU<=120元,租期已满23个月以上,平均拨打电话少于270秒,六个月內账单迟缴4次以上,拨打号码平均少于10个的客户得分770。ARPU租期已满23个月以上六个月內账单迟缴4次以上拨打号码平均少于10个《120〉120是非平均拨打电话少于270秒是非70.0%不退租(1000)是77.0%退租(1200)是非非Etc.Etc.Etc.Etc.第30页,课件共55页,创作于2023年2月聚类的基本概念基本定义将数据对象集划分成事先未知的分组或类别聚类的原则:类内相似度高,类间相似度低相似度一般为某种距离函数D(i,j)聚类既可以作为独立分析工具考察数据分布结构,也可以作为其他分析方法的预处理步骤很不幸,对聚类结果的评价一般都是主观的基本分类将数据对象集划分成事先未知的分组或类别第31页,课件共55页,创作于2023年2月聚类示意基于欧氏距离的三维空间中的聚类基于质心的聚类算法

(K-Means)A1A2B1xyz第32页,课件共55页,创作于2023年2月个人客户分群示例个人客户分群更好地了解客户的手段提高客户的管理和沟通能力提升客户价值CustomerExpenditureCustomerTenureHighLowShortLong分群是根据客户的关键属性将客户分成不同的组别,要求做到组间差异化最大组内相似性最大第33页,课件共55页,创作于2023年2月关联规则的基本概念基本定义给定(1)事务数据集(2)每个事务是数据项的集合,试图发现项集中的频繁模式或关联关系所谓频繁模式或者关联规则就是一个具有“AB”形式的逻辑蕴涵式频繁模式并不必然蕴涵着因果关系或相关关系!算法实现基本上基于APRIORI法则:频繁项集的所有非空子集一定也是频繁(Frequent)的基本分类布尔关联规则vs定量关联规则buy(x,”diapers”)buy(x,”beers”)Age(x,”30..39”)^income(x,”42k..48k”)buy(x,”PC”)单层关联规则vs多层关联规则Age(x,”30..39”)^income(x,”42k..48k”)buy(x,”IBMPC”)序列模式(SequencePattern)数据项是一个包含时间标签的序偶[item(i),t]第34页,课件共55页,创作于2023年2月关联规则的量度支持度:Support(A=>B)=#AB/#N,表示A和B同时出现的概率。期望可信度:Support(A)=#A/#N,表示A出现的概率。置信度:Confidence(A=>B)=Support(A=>B)/Support(B)改善度:Lift(A=>B)=Confidence(A=>B)/Support(B)名称描述公式支持度X、Y同时出现的频率

P(X∩Y)期望可信度

Y出现的频率

P(Y)置信度X出现的前提下,Y出现的频率P(Y|X)改善度

置信度对期望可信度的比值

P(Y|X)/P(Y)第35页,课件共55页,创作于2023年2月关联规则的度量发现具有最小置信度和支持度的全部规则X^YZ支持度(support),s,事务中包含{X&Y&Z}的概率置信度(confidence),c,

事务中包含{X&Y}的条件下,包含Z的条件概率令最小支持度为50%,最小置信度为50%,则有AC(50%,66.6%)CA(50%,100%)顾客购买尿布顾客购买两者顾客购买啤酒第36页,课件共55页,创作于2023年2月对支持度与置信度的批判示例总共5000名学生,其中3000人玩篮球3750人吃谷类食品2000人既玩篮球又吃谷类食品playbasketball

eatcereal[40%,66.7%]是一个误导规则,因为吃谷类食品的学生占学生总数的75%,比66.7%更高playbasketball

noteatcereal[20%,33.3%]其实是一个更精确的规则,尽管它的支持度和置信度都比较低第37页,课件共55页,创作于2023年2月关联规则的应用市场购物篮分析(MarketBasketAnalysis)例如一个事务是客户的一个购物清单,同一客户的两份清单被认为是两个不同的事务数据项是所有可能陈列货物的全集目标是发现同时出现的货品组合间的关联模式应用:商品货价设计、仓储规划、网页布局、产品目录设计等等交叉销售(CrossSelling)客户依次购买不同产品的序列目标是发现在购买某一产品组合之后客户可能购买的另一产品或服务应用:网络故障分析、网站门户设计等第38页,课件共55页,创作于2023年2月关联规则的应用实例(手机邮箱精确营销)我们定义LIFT值大于1的规则为强关联规则。发现这样的关联规则是有价值,有意义的。关联规则是基于统计方法发现的数据当中的内在规律,而这种规律在现实中是否有意义还需要市场业务人员作进一步的验证。业务一业务二LSUPPORTRSUPPORTSUPPORTCONFIDENCELIFTZSCORE彩铃业务手机邮箱0.07340.040320.03220.4386910.88021266.19541梦网短信手机邮箱0.670380.040320.040320.060141.4915740.52694国内自动漫游手机邮箱0.382530.040320.020370.053251.3206819.84956本地普通通话(比例)手机邮箱0.690050.040320.030590.044331.099458.32042第39页,课件共55页,创作于2023年2月从算法到应用第40页,课件共55页,创作于2023年2月广东移动数据挖掘项目的技术特点几种主要的数据挖掘技术都已经得到广泛的应用聚类分析关键规则分类预测模型(决策树,Logistic回归)应用了数据挖掘技术之外的机器学习和统计建模技术KPI预测(混沌时间序列分解预测方法,BP神经网络预测方法)集团客户流失预警(层次分析法)更多的数据分析方法新的挖掘课题更侧重于高级数量分析客户生命周期(管理营销学的实践,多模型支撑的分析过程)响应模型(市场分析模型与数据挖掘模型的应用结合)运筹学模型(应用于经营规划的优化)第41页,课件共55页,创作于2023年2月报告内容

数据挖掘的基本概念数据挖掘与统计分析数据挖掘的基本算法数据挖掘实施方法论总结与讨论数据挖掘实施方法论第42页,课件共55页,创作于2023年2月数据挖掘过程模型(DMProcessModel)用以管理并指导DataMiner有效、准确开展数据挖掘工作以期获得最佳挖掘成果的一系列工作步骤的规范标准。由厂商提出的SPSS的5‘A(Assess,Access,Analysis,Act,Automat)SAS的SEMMA(Sample,Explore,Modify,Model,Assess)MICROSOFE的OLEDBforDM由行业组织提出的CRISP-DM(CrossIndustryStandardProcessforDM)CRISP-DM起源于1998年,当时NCR、Clementine(1998年为SPSS收购)、OHRA和Daimler-Benz(现为Daimler-Chrysler)的联合项目组提出CRISP-DM的六个阶段第43页,课件共55页,创作于2023年2月TERADATA的挖掘方法论ScopeBusinessProblem度量数称胜TeradataDataWarehouseExploreBusinessFactsinDB(EDA)望闻问切Model奇正之变,不可胜穷也Deploy工欲善其事,必先利其器CleanData谨防假做真时真亦假,无为有处有还无Select&Sample必也正名乎第44页,课件共55页,创作于2023年2月C

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论