数据挖掘软件发展_第1页
数据挖掘软件发展_第2页
数据挖掘软件发展_第3页
数据挖掘软件发展_第4页
数据挖掘软件发展_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲人朱扬勇数据挖掘软件发展分析1一、数据挖掘概念----定义数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘与统计学数据挖掘与人工智能数据挖掘与数据库技术数据挖掘与KDD2一、数据挖掘概念----原由国民经济和社会的信息化社会信息化后,社会的运转是软件的运转社会信息化后,社会的历史是数据的历史因此政府提出“信息化”和“发展软件产业”3一、数据挖掘概念----原由数据挖掘数据库越来越大有价值的知识可怕的数据4一、数据挖掘概念----原由数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期5一、数据挖掘概念----发展1989IJCAI会议:数据库中的知识发现讨论专题KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD讨论专题AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD国际会议(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002会议,以及SIGKDDExplorations数据挖掘方面更多的国际会议PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.6一、数据挖掘概念----技术技术分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在的规律数据挖掘技术关联分析序列模式分类(预言)聚集异常检测7二、数据挖掘软件的发展代特征数据挖掘算法集成分布计算模型数据模型第一代作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据第三代和预言模型系统集成

多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算设备的数据联合

多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型RobertGrossman,NationalCenterforDataMiningUniversityofIllinoisatChicago的观点8二、数据挖掘软件的发展第一代数据挖掘软件9二、数据挖掘软件的发展第一代数据挖掘软件CBA新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测10二、数据挖掘掘软件的发展展第二代数据挖挖掘软件特点与数据库管理理系统(DBMS)集成支持数据库和和数据仓库,,和它们具有有高性能的接接口,具有高高的可扩展性性能够挖掘大数数据集、以及及更复杂的数数据集通过支持数据据挖掘模式((dataminingschema)和数据挖掘查查询语言增加加系统的灵活活性典型的系统如如DBMiner,能通过DMQL挖掘语言进行行挖掘操作缺陷只注重模型的的生成,如何何和预言模型型系统集成导导致了第三代代数据挖掘系系统的开发11二、数据挖掘掘软件的发展展第二代数据挖挖掘软件DBMiner12二、数据挖掘掘软件的发展展第二代软件SASEnterpriseMiner13二、数据挖掘掘软件的发展展第三代数据挖挖掘软件特点和预言模型系系统之间能够够无缝的集成成,使得由数数据挖掘软件件产生的模型型的变化能够够及时反映到到预言模型系系统中由数据挖掘软软件产生的预预言模型能够够自动地被操操作型系统吸吸收,从而与与操作型系统统中的预言模模型相联合提提供决策支持持的功能能够挖掘网络络环境下(Internet/Extranet)的分布式和高高度异质的数数据,并且能能够有效地和和操作型系统统集成缺陷不能支持移动动环境14二、数据挖掘掘软件的发展展第三代软件SPSSClementine以PMML的格式提供与与预言模型系系统的接口15二、数据挖掘掘软件的发展展第四代数据挖挖掘软件特点目前移动计算算越发显得重重要,将数据据挖掘和移动动计算相结合合是当前的一一个研究领域域。第四代软件能能够挖掘嵌入入式系统、移移动系统、和和普遍存在((ubiquitous))计算设备产生生的各种类型型的数据第四代数据挖挖掘原型或商商业系统尚未未见报导,PKDD2001上Kargupta发表了一篇在在移动环境下下挖掘决策树树的论文,Kargupta是马里兰巴尔尔的摩州立大大学(UniversityofMarylandBaltimoreCounty)正在研制的CAREER数据挖掘项目目的负责人,,该项目研究究期限是2001年4月月到2006年4月,目目的是开发挖挖掘分布式和和异质数据((Ubiquitous设备)的第四四代数据挖掘掘系统。16二、数据挖掘掘软件的发展展第一代系统与与第二代相比比因为不具有有和数据管理理系统之间有有效的接口,,所以在数据据预处理方面面有一定缺陷陷第三、四代系系统强调预言言模型的使用用和在操作型型环境的部署署第二代系统提提供数据管理理系统和数据据挖掘系统之之间的有效接接口第三代系统另另外还提供数数据挖掘系统统和预言模型型系统之间的的有效的接口口目前,随着新新的挖掘算法法的研究和开开发,第一代代数据挖掘系系统仍然会出出现,第二代代系统是商业业软件的主流流,部分第二二代系统开发发商开始研制制相应的第三三代数据挖掘掘系统,比如如IBMIntelligentScoreService。第四代数据挖挖掘原型或商商业系统尚未未见报导17二、数据挖掘掘软件的发展展数据挖掘软件件发展的三个个阶段独立的数据挖挖掘软件横向的数据挖挖掘工具集纵向的数据挖挖掘解决方案案GregoryPiatetsky-Shapiro的观点18二、数据挖掘掘软件的发展展独立的数据挖挖掘软件(95年以前前)特点独立的数据挖挖掘软件对应应第一代系统统,出现在数数据挖掘技术术发展早期,,研究人员开开发出一种新新型的数据挖挖掘算法,就就形成一个软软件。这类软件要求求用户对具体体的算法和数数据挖掘技术术有相当的了了解,还要负负责大量的数数据预处理工工作。比如C4.5决策树,平行坐标可视视化(parallel-coordinatevisualization)。19二、数据挖掘掘软件的发展展横向的数据挖挖掘工具集(95年开始始)发展原因随着数据挖掘掘应用的发展展,人们逐渐渐认识到数据据挖掘软件需需要和以下三三个方面紧密密结合:1))数据库和数数据仓库;2)多种类型型的数据挖掘掘算法;3))数据清洗、、转换等预处处理工作。随着数据量的的增加,需要要利用数据库库或者数据仓仓库技术进行行管理,所以以数据挖掘系系统与数据库库和数据仓库库结合是自然然的发展。现实领域的问问题是多种多多样的,一种种或少数数据据挖掘算法难难以解决挖掘的数据通通常不符合算算法的要求,,需要有数据据清洗、转换换等数据预处处理的配合,,才能得出有有价值的模型型20二、数据挖掘掘软件的发展展横向的数据挖挖掘工具集(95年开始始)发展过程随着这些需求求的出现,1995年左左右软件开发发商开始提供供称之为“工工具集”的数数据挖掘软件件特点此类工具集的的特点是提供供多种数据挖挖掘算法包括数据的转转换和可视化化由于此类工具具并非面向特特定的应用,,是通用的算算法集合,可可以称之为横横向的数据挖挖掘工具(HorizontalDataMiningTools)由于此类工具具并非面向特特定的应用,,是通用的算算法集合,所以称之为横向的的数据挖掘工工具典型的横向工工具有IBMIntelligentMiner、SPSS的Clementine、SAS的EnterpriseMiner、、SGI的MineSet、OracleDarwin等21二、数据挖挖掘软件的的发展横向的数据据挖掘工具具集(95年开开始)IBMIntelligentMinerSPSS的ClementineSAS的EnterpriseMinerSGI的MineSetOracleDarwin22二、数据挖挖掘软件的的发展纵向的数据据挖掘解决决方案(99年开开始)发展原因随着横向的的数据挖掘掘工具的使使用日渐广广泛,人们们也发现这这类工具只只有精通数数数据挖掘掘算法的专专家才能熟熟练使用,,如果对算算法不了解解,难以得得出好的模模型从1999年开始,,大量的数数据挖掘工工具研制者者开始提供供纵向的数数据挖掘解解决方案((VerticalSolution),即针对特定定的应用提提供完整的的数据挖掘掘方案对于纵向的的解决方案案,数据挖挖掘技术的的应用多数数还是为了了解决某些些特定的难难题,而嵌嵌入在应用用系统中23二、数据挖挖掘软件的的发展纵向的数据据挖掘解决决方案(99年开开始)在证券系统统中嵌入神神经网络预预测功能在欺诈检测测系统中嵌嵌入欺诈行行为的分类类/识别模模型在客户关系系管理系统统中嵌入客客户成簇/分类功能能或客户行行为分析功功能在机器维护护系统中嵌嵌入监/检检测或识别别难以定性性的设备故故障功能在数据库营营销中嵌入入选择最可可能购买产产品的客户户功能在机场管理理系统中嵌嵌入旅客人人数预测、、货运优化化功能在基因分析析系统中嵌嵌入DNA识别功能在制造/生生产系统中中嵌入质量量控制功能能等24二、数据挖挖掘软件的的发展纵向的数据据挖掘解决决方案(99年开开始)KD1(主要用于零零售业)Options&Choice(主要用于保保险业)HNC(欺诈行为侦侦测)UnicaModel1(主要用于市市场营销)25二、数据挖挖掘软件的的发展综合的数据据挖掘解决决方案(复旦的工工作)各行业电子商务网站算法层商业逻辑层行业应用层商业应用商业模型挖掘算法CRM产品推荐客户细分客户流失客户利润客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析…WEB挖掘网站结构优化网页推荐商品推荐。。。基因挖掘基因表达路径分析基因表达相似性分析基因表达共发生分析。。。银行电信零售保险制药生物信息科学研究。。。相关行业26三、数据挖挖掘软件的的现状27三、数据挖挖掘软件的的现状2001/5/14——2001/5/24((实际)2001/11/26——2001/12/9(预测)28三、数据挖挖掘软件的的现状调查报告((2002.6.3-6.16)29三、数据挖挖掘软件的的现状(国内情况)30四、数据挖挖掘应用调查报告((2002.6.3-6.16)31四、数据挖挖掘应用银行美国银行家家协会(ABA)预测数据仓仓库和数据据挖掘技术术在美国商商业银行的的应用增长长率是14.9%。分析客户使使用分销渠渠道的情况况和分销渠渠道的容量量;建立利润润评测模型型;客户关关系优化;;风险控制制等电子商务网上商品推推荐;个性性化网页;;自适应网网站…生物制药、、基因研究究DNA序列查询和和匹配;识别基因序序列的共发发生性…电信欺诈甄别;;客户流失失…保险、零售售。。。。。。。32四、数据挖挖掘应用数据挖掘客户分析析基分因其他保险客户证券客户银行客户电信客户零售客户信用卡储蓄卡存折按揭借贷人类基因植物基因动物基因特殊群体基基因基因序列基因表达谱谱基因功能基因制药………...数据挖掘中中国内地市市场规模未未来五年内内将达百亿亿33四、数数据挖挖掘应应用为什么么没有有广泛泛使用用?数据挖挖掘正正在快快速的的发展展技术的的研究究和开开发已已经走走在很很前沿沿的地地方数据挖挖掘应应用面面已经经扩充充了很很多但是仍仍然没没有希希望的的高,,为什什么??希望在在多少少年内内达到到数十十亿元元的盈盈利??是一种种增值值服务务(Notbread-and-butter))不能认认为高高不可可攀,,所以以不去去过问问是一门门年轻轻的技技术,,需要要和实实际结结合,,解决决现实实问题题34四、数数据挖挖掘应应用国内应应用存存在的的问题题数据积积累不不充分分、不不全面面业务模模型构构建困困难缺少有有经验验的实实施者者35四、数数据挖挖掘应应用----业业务建建摸Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神经网网络NeuralNetworks聚类分分析ClusteringOpenAccn’’tAddNewProductDecreaseUsage???Time序列分分析SequenceAnalysis决策树树DecisionTrees倾向性性分析析客户保保留客户生生命周周期管管理目标市市场价格弹弹性分分析客户细细分市场细细分倾向性性分析析客户保保留目标市市场欺诈检检测关联分分析Association市场组组合分分析套装产产品分分析目录设设计交叉销销售36四、数数据挖挖掘应应用----业业务建建摸聚集((Cluster)聚集是是把整整个数数据库库分成成不同同的群群组。。它的的目的的是要要群与与群之之间差差别很很明显显,而而同一一个群群之间间的数数据尽尽量相相似。。常用技技术::神经经元网网络、、K均值、、最近近邻…37四、数数据挖挖掘应应用----业业务建建摸异常检检测及时发发现有有欺诈诈嫌疑疑的异异常行行为,,正确确进行行欺诈诈问题题的评评估,,对欺欺诈者者实施施控制制和强强制措措施。。技术::决策策树,,神经经元网网络,,异常常因子子LOF检测客户消费异常行为分析模型38四、数数据挖挖掘应应用----业业务建建摸客户分分析业业务模模型交叉销销售客户响响应客户流流失客户利利润信用卡卡分析析业务务模型型客户信信用等等级评评估客户透透支分分析客户利利润分分析客户消消费行行为分分析客户消消费异异常行行为分分析39四、数数据挖挖掘应应用----业业务建建摸MISERPCRME_BusinessCDW客户数据仓库数据挖掘算法库模型库组件库产品推荐客户细分客户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论