数据挖掘与决策支持_第1页
数据挖掘与决策支持_第2页
数据挖掘与决策支持_第3页
数据挖掘与决策支持_第4页
数据挖掘与决策支持_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘与决策支持

课程目标数据挖掘的产生与发展数据挖掘与企业决策支持的关系数据挖掘的一些基本工具与算法数据挖掘流程数据挖掘软件1.数据挖掘的产生与发展数据?数据挖掘技术的由来从技术的角度来看:数据挖掘被称为继网络之后的下一个技术热点;从生产的角度来看:由于人工费用提升,产品和服务成本降低,管理和服务过程的信息化是必然的。从数据的管理和利用来看:单纯的存取功能不再适应,待管理的数据量正在以指数增长。

《纽约时报》由60年代的10~20版扩张至现在的100~200版,最高曾达1572版;《北京青年报》也已是16~48版;国家图书馆有1000万册图书,一个公司就可能拥有这些数据;统计流程控制通过成千上万个传感器不断读取和记录数据;电话系统,网络系统一个月的记录可能需要1012条记录超过1000gigabyte。数据的突出特点产生的问题信息过量;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理。

进化阶段商业问题

支持技术

产品厂家产品特点

数据搜集

(60年代)

“过去十年中企业的总收入是多少?”

计算机、磁带和磁盘

IBM,CDC

提供历史性的、静态的数据信息

数据访问

(80年代)

“广州分公司去年三月的销售额是多少?”关系数据库RDBMS,结构化查询语言SQL)ODBCOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息

数据仓库;决策支持

(90年代)

“去年三月深圳的销售是多少?广州据此可得出什么结论?”联机分析处理OLAP多维数据库、数据仓库

Pilot、Comshare、Arbor、Cognos、Microstrategy

在各种层次上提供回溯的、动态的数据信息

数据挖掘

正在流行…

“下个月广州的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库

Pilot、Lockheed、IBM、SGI、其他初创公司

预测模式

数据挖掘的演变过程机器学习类神经网络知识发现数据挖掘60年代70年代80年代90年代数据可以产生商业价值可以想象在老年杂志上登载怎样的广告?如何防止信用卡盗用?地质采矿婴儿纸尿布和啤酒的故事数据挖挖掘的的定义义.Dataminingisthenon-trivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstandablepatternsindata.—Fayyad.Dataminingistheprocessofextractingpreviouslyunknown,comprehensible,andactionableinformationformlargedatabasesandusingittomakecrucialbusinessdecisions.—Zekulin远古至至今即即存在在数据挖挖掘月晕知风晚上起起雾第二天天晴天天看到妈妈妈拿拿鞭子子逃跑這些在在我們們的传传统用用法称称之为为:经验法法则数据挖挖掘--从大量量数据据中寻寻找规规律技技术,,是统统计学学、数数据库库技术术和人人工智智能技技术等等的综综合。。数据挖挖掘的功能能分类:DecisionTree,NeuralNetworketc.推估:Regression&NeuralNetworketc.预测:DecisionTree,NeuralNetworketc.关联分分组:GRI,Apriorietc.聚类:K-means&KohonenNetwork需要数数据挖挖掘的的5条条理由由Largenumberofrecords(cases)(108-1012bytes)Highdimensionaldata(variables)(10-104attributes)Onlyasmallportion,typically5%to10%,ofthecollecteddataiseveranalyzed.Datathatmayneverbeexploredcontinuestobecollectedoutoffearthatsomethingthatmayproveimportantinthefuturemaybemissing.Magnitudeofdataprecludesmosttraditionalanalysis(moreoncomplexitylater).数据挖挖掘的的重要要性TechnologyReview杂志2002年年公布布改变变未来来的十十项新新兴趋趋势::–机器器与人人脑的的接口口–塑料料晶体体管–数据挖挖掘(Datamining)–数字权权利管管理–生物物测量量学(Biometrics)–语音识识别处处理–微光光学技技术(Microphotonics)–破解程程序代代码(Untanglingcode)–机器人人设计计–微应应用流流体学学(Microfluidics)数据挖挖掘与与数据据查询询表面知知识((ShallowKnowledge)::可以利利用数数据库库查询询语言言找到到所有使使用信信用卡卡购买买烤箱箱的某某大型型商场场的客客户列列表。。多维的的知识识(Multidimensionalknowledge)):多表的的连接接操作作跨国电电信公公司的的客户户呼叫叫模式式分析析:话话费清清单,,客户户帐户户数据据等。。隐藏的的知识识(Hiddenknowledge))将不良良风险险的人人和能能按时时还贷贷的人人区分分开来来。地下知知识((Deepknowledge))电信公公司的的长话话业务务数据据分布布数据挖挖掘与与专家家系统统数据挖挖掘并并不总总是有有效,,特别别没有有优质质的数数据来来源,,数据据挖掘掘可以以被由由一个个或多多个模模仿专专家解解决问问题的的程序序部分分代替替。专家系系统数据数据挖挖掘工工具知识,,规则则2.数数据挖挖掘的的应用用数据挖挖掘客户分析析基分因其他保险客客户证券客客户银行客客户电信客客户零售客客户信用卡储蓄卡存折按揭借贷人类类基基因因植物物基基因因动物物基基因因特殊殊群群体体基基因因基因因序序列列基因因表表达达谱谱基因因功功能能基因因制制药药……………...数据据挖挖掘掘在在中中国国内内地地市市场场规规模模未未来来五五年年内内将将达达百百亿亿科学学研研究究天文文学学::SKICAT基因因工工程程::GRAIL,GeneID,Geneparser人类类基基因因植物物基基因因动物物基基因因特殊殊群群体体基基因因基因因序序列列基因因表表达达谱谱基因因功功能能基因因制制药药……………...商业业领领域域的的数数据据挖挖掘掘作为为研研发发工工具具:制制药药业业predicttheeffectivenessofsurgicalproceduremedicaltestmedication改进进生生产产过过程程:6市场场营营销销.客户户关关系系管管理理.金融融投投资资欺诈诈甄甄别别EstablishedLoyalsShareofcustomersShareofprofits3%8%DevelopingLoyalsIDevelopingLoyalsIIBorrowingPotentialsCardbillMultipleaccountholdingiscommonLongrelationshiptimeHightransactionactivitiesHighphonebankingusageShareofcustomersShareofprofits9%44%Highestassetbalanceacrosssegments25%ofsegmenthashighbankassetsLiabilitieslowShareofcustomersShareofprofits12%13%HighestlevelofmultipledepositaccountholdingAverageaccountbalanceveryhighMeanageis45ShareofcustomersShareofprofits10%12%AllholdcreditcardsMosthaveloansinsmallamountsDepositbalancelow客户户细细分分Web挖掘掘文档档的的自自动动分分类类帮助助寻寻找找用用户户感感兴兴趣趣的的新新闻闻设计计电电子子新新闻闻和和垃垃圾圾邮邮件件过过滤滤系系统统市场场营营销销Marketing-who’’slikelytobuy?Forecasts-whatdemandwillwehave?Loyalty-who’’slikelytodefect?Credit-whichloanswereprofitable?Fraud-whendiditoccur?数据据挖挖掘掘与与决决策策支支持持业务务数数据据交易易数数据据外部部数数据据数据据仓仓库库决策策支支持持系系统统MarketingPhoneCentersalesIVR(MDBMS)数据分析顾客客分分析析行销销管管理理挑选选客客户户名名册册产品品分分析析应用用系系统统客服服行行销销3.数数据据挖挖掘掘的的流流程程((6步步法法))如何何定定义义有有兴兴趣趣的的模模式式从人人口口数数据据库库中中很很容容易易得得到到如如下下的的知知识识或或规规则则::如果果““某某人人的的家家庭庭角角色色是是丈丈夫夫””=>““此此人人的的性性别别是是男男性性”;;Datamining=““garbagein,garbageout””?数据据挖挖掘掘流流程程与与美美食食制制作作芦笋笋百百合合六步步之之一一::商商业业理理解解商业业目目标标问题题范范围围可能能的的解解决决方方案案以以及及各各自自的的优优缺缺点点花费费时时间间::20%~30%重要要性性:电信信行行业业几几个个重重要要的的营营销销问问题题:个别别消消费费者者通话话模模式式高利利润润的的服服务务六步步之之二二::数数据据理理解解数据据概概念念描描述述((格格式式等等));;收集数据据;数据探索索性研究究;花费时间间:20%~30%重要性:通话明细细数据可可以从以以下几个个渠道获获得:直接交换换机记录录(directswitchrecording)计费系统统的输入入数据(inputsintothebillingsystem)。数据仓储储提供的的基础数数据(Datawarehousefeeds)。。其他有关关客户的的数据六步之三三:数据据准备花费时间间:50%~70%重要性:数据清理理;数据转换换;数据整合合;格式化数数据六步之四四:建立立模型与与模式数据的描描述与汇汇总细分分类预测关联更深层次次的问题题是:哪哪些客户户对价格格比价敏敏感有监督的的数据挖挖掘(学学习)用归纳形形成概念念模型,,使用模模型帮助助区分结结构相似似的对象象。这类类学习称称为基于于归纳的的有指导导的概念念学习(supervisedlearning)有监督的的数据挖挖掘模型型例根据历史史行销记记录,推推测谁最最有可能能对我们们下一次次推荐产产品做出出响应。根据经验验,最合合适的医医疗处方方是什么么?下一个最最有可能能被淘汰的机器是是哪一种种型号??在未来的的六个月月里,哪哪些客户户最有可可能离开?根据历史史欺诈,,哪些交交易行为为最有可可能发生生欺诈?某人申请请信用卡卡或某项项保险的的资格是是否可以以获批?Diagonosis=咽炎NoYesYesNo淋巴肿发烧感冒敏感症无监督的的数据挖挖掘无监督的的数据挖挖掘是在在数据中中寻找新新的模式式。这些些模式使使我们更更深入地地了解数数据,了了解数据据本身就就有可能能生成有有用的信信息。无监督数数据挖掘掘和有监监督的数数据挖掘掘在数据据挖掘中中是同等等的重要要。无监监督的数数据挖掘掘经常用用于数据据探索阶阶段。比比如,数数据中有有什么??它描述述了怎样样的信息息?数据据中是否否存在不不寻常的的模式??数据对对客户细细分有怎怎样的建建议?哪些产品品应根据据指定目目录放在在一起??找到对书书籍和音音乐方面面,有相相同品位位的读者者和听众众。为市场行行销人员员找到真真正的客客户群体体。35.00<=Age<=43.00andLifeInsPromo=Yes:ruleaccuracy100.00%:rulecoverage100.00%35.00<=Age<=43.00andMagazinePromo=Yes:ruleaccuracy85.71%:rulecoverage85.71%六步之五五:模型型评价累计增益益图ROC曲线错误不对对称六步之六六:结果果发布发布结果果计划监测和维维护模型型计划报表发布布4.一一个目录录直销的的例子目录直销销业常见见的几个个目标增加顾客客响应度度;增加总收收入;降低邮寄寄费用;;增加利润润;激发潜在在顾客的的活力;;较高的订订单金额额和较低低的退货货率;案例背景景SAM是一家从从事礼品品、花卉卉以及提提供园艺艺工具的的目录服服务公司司。这家家企业在在美国有有10年年以上的的成功经经营历史史,积攒攒了35610个客户户,SAM发现最近近目录响响应率在在不断下下降,公公司希望望能找到到影响客客户响应应的关键键因素,,同时希希望扩展展其客户户群体。。RFM分分析R:RecencyF:FrequencyM:Monetary第一步::定义变变量:R:Lstpurch:自最后一一次购买买以来的的月数F:Nunpurch:最近36个月内内购买的的次数M:Totpurch:最近36个月内内消费总总量第二步::客户行行为模式式分布60%以以上的客客户很长长时间没没有购买买产品很大比例例的客户户过去一一年里购购买次数数在2到到4之间间大约85%的客客户少于于5次80%的的年度总总消费金金额在$100以下,,几乎85%的的客户低低于$300。。SAM客户的购购买习惯惯分析第三步::将响应应率与这这些因素素进行比比较:比较的方方法:一一比较较交叉列联联最近购买买行为是是一个影影响响应应率最为为出色的的变量!!第四步::渗透分分析要点:外部数据据(人口口数据)):年龄居住时间间等客户百分比市场百分比X100渗透指数=最后一步步:制订决策策:目标标市场定定位于年年龄在35-44岁的的客户。。AnyProblem??5.数据据挖掘的的基本算算法Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神经网络络NeuralNetworks聚类分析析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析析SequenceAnalysis决策树DecisionTrees倾向性分分析客户保留留客户生命命周期管管理目标市场场价格弹性性分析客户细分分市场细分分倾向性分分析客户保留留目标市场场欺诈检测测关联分析析Association市场组合合分析套装产品品分析目录设计计交叉销售售1)决策策树模型型实例用““属性-值”对对表示的的;目标函数数有离散散的输出出值:分分类问题题;有完整的的规则表表达式,,解释性性强;训练数据据可以允允许有错错误或缺缺失存在在;例:垃圾圾邮件的的识别问问题YYYYYYYYYNNNNNNNNNNNNYYYYYNN¥%#^*~等字符出出现的频频数?!+&等字符符出现的的频数2)关联规则则(AssociationRule)同一个交交易中,,一个item出现也会引起起另一个个item的出现Associationrule例子若顾客购购买面包包,则他他很可能能也会购购买牛奶奶Associationrule:面包=>牛牛奶P(牛奶|面面包)的的概率率值高关联规则则的可信度(Confidence)可信度为为:在A出现的条件下出现B的概率可信度=P(B|A)=P(A,B)/P(A)例如:数据库中中的交易易纪录t1:(…,面包,……,牛奶奶,…)t2:(…,面包,………………..)t3:(…,面包,……,牛奶奶,…)t4:(……………………………)P(牛奶|面面包)=P(面包,牛奶)P(面包)N(面包,牛牛奶)N(面包)=关联规规则的支持度度(Support)关联规规则A=>B支持度度为:A与B同时出出现的概率P(A,B)例子:数数据库库中的的交易易纪录录如下下:t1:(…,面包,…,牛奶奶,……)t2:(…,面包,………………..)t3:(…,面包,…,牛奶奶,……)t4:(………………………………)请问:面包=>牛牛奶的支持度度为多多少?3)序列列模式式顾客通通常在在购买买某类类商品品后,,经过一一段时时间,会再再购买买另一一类商商品例如:买买过““棉被、、枕头头、床床单””之后,,经过过一段段时间间,,通常常会再再购买买“纸尿裤、、奶粉粉”序列模模式例例顾客代号交易时间购买物品代号1190/7/2590/7/303060,9022290/7/1090/7/1590/7/2010,203040,60,70390/7/2530,50,7044490/7/2590/7/3090/8/25203060,70590/7/1290例如:先买20再买30再买60,70203060,704).聚类类5).类神神经网网络好处对问题题的假假定、、要求求较少少。可以实实现特特征空空间较较为复复杂的的划分分缺点训练速速度慢慢需要更更多的的训练练数据据无法对对结果果进行行透彻彻的理理解6.数数据挖挖掘软软件发发展现现状二、数数据挖挖掘软软件的的发展展第一代代系统统与第第二代代相比比因为为不具具有和和数据据管理理系统统之间间有效效的接接口,,所以以在数数据预预处理理方面面有一一定缺缺陷第三、、四代代系统统强调调预言言模型型的使使用和和在操操作型型环境境的部部署第二代代系统统提供供数据据管理理系统统和数数据挖挖掘系系统之之间的的有效效接口口第三代代系统统另外外还提提供数数据挖挖掘系系统和和预言言模型型系统统之间间的有有效的的接口口目前,,随着着新的的挖掘掘算法法的研研究和和开发发,第第一代代数据据挖掘掘系统统仍然然会出出现,,第二二代系系统是是商业业软件件的主主流,,部分分第二二代系系统开开发商商开始始研制制相应应的第第三代代数据据挖掘掘系统统,比比如IBMIntelligentScoreService。第四代代数据据挖掘掘原型型或商商业系系统尚尚未见见报导导第二代代数据据挖掘掘软件件特点与数据据库管管理系系统((DBMS))集成支持数数据库库和数数据仓仓库,,和它它们具具有高高性能能的接接口,,具有有高的的可扩扩展性性能够挖挖掘大大数据据集、、以及及更复复杂的的数据据集通过支支持数数据挖挖掘模模式((dataminingschema))和数据据挖掘掘查询询语言言增加加系统统的灵灵活性性典型的的系统统如DBMiner,能通过过DMQL挖掘语语言进进行挖挖掘操操作缺陷只注重重模型型的生生成,,如何何和预预言模模型系系统集集成导导致了了第三三代数数据挖挖掘系系统的的开发发数据挖挖掘软软件的的发展展数据挖挖掘软软件发发展经经历了了三个个阶段段独立的的数据据挖掘掘软件件横向的的数据据挖掘掘工具具集纵向的的数据据挖掘掘解决决方案案GregoryPiatetsky-Shapiro的观点点独立的的数据据挖掘掘软件件(95年年以前前)特点独立的的数据据挖掘掘软件件对应应第一一代系系统,,出现现在数数据挖挖掘技技术发发展早早期,,研究究人员员开发发出一一种新新型的的数据据挖掘掘算法法,就就形成成一个个软件件。这类软软件要要求用用户对对具体体的算算法和和数据据挖掘掘技术术有相相当的的了解解,还还要负负责大大量的的数据据预处处理工工作。。比如如C4.5决策树树,平行坐坐标可可视化化(parallel-coordinatevisualization)。。通用数数据挖挖掘软软件的的盛行行(95年开开始))发展原原因随着数数据挖挖掘应应用的的发展展,人人们逐逐渐认认识到到数据据挖掘掘软件件需要要和以以下三三个方方面紧紧密结结合::1))数据据库和和数据据仓库库;2)多多种类类型的的数据据挖掘掘算法法;3)数数据清清洗、、转换换等预预处理理工作作。随着数数据量量的增增加,,需要要利用用数据据库或或者数数据仓仓库技技术进进行管管理,,所以以数据据挖掘掘系统统与数数据库库和数数据仓仓库结结合是是自然然的发发展。。现实领领域的的问题题是多多种多多样的的,一一种或或少数数数据据挖掘掘算法法难以以解决决挖掘的的数据据通常常不符符合算算法的的要求求,需需要有有数据据清洗洗、转转换等等数据据预处处理的的配合合,才才能得得出有有价值值的模模型通用数数据挖挖掘工工具集集(95年年开始始)特点提供多多种数数据挖挖掘算算法包括数数据的的转换换和可可视化化典型的的横向向工具具有IBMIntelligentMinerSPSS的ClementineSAS的EnterpriseMinerSGI的MineSetOracleDarwin等第二代数据据挖掘软件件DBMiner第二代软件件SASEnterpriseMiner第三代软件件SPSSClementine以PMML的格式提供供与预言模模型系统的的接口发展原因随着横向的的数据挖掘掘工具的使使用日渐广广泛,人们们也发现这这类工具只只有精通数数数据挖掘掘算法的专专家才能熟熟练使用,,如果对算算法不了解解,难以得得出好的模模型从1999年开始,,大量的数数据挖掘工工具研制者者开始提供供纵向的数数据挖掘解解决方案((VerticalSolution),即针对特定定的应用提提供完整的的数据挖掘掘方案对于纵向的的解决方案案,数据挖挖掘技术的的应用多数数还是为了了解决某些些特定的难难题,而嵌嵌入在应用用系统中行业数据挖挖掘解决方方案(99年开始

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论