数据挖掘神经网络法的研究现状和发展趋势综述_第1页
数据挖掘神经网络法的研究现状和发展趋势综述_第2页
数据挖掘神经网络法的研究现状和发展趋势综述_第3页
数据挖掘神经网络法的研究现状和发展趋势综述_第4页
数据挖掘神经网络法的研究现状和发展趋势综述_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘神经网络法的研究现状和发展趋势综述摘要:随着计算机技术的迅猛发展,数据挖掘技术越来越受到世界的关注。从数据挖掘的概念出发,介绍了数据挖掘的对象、功能及其挖掘过程,结合数据挖掘的几种常见挖掘算法:决策树法、关联规则法和神经网络法等,对其主要思想及其改进做了相关描述;总结了国内外数据挖掘的研究现状和应用,指出了数据挖掘的发展趋势。关键词:数据挖掘;决策树法;关联规则法;神经网络法;研究现状;发展趋势0引言数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动中扮演着越来越重要的角色。随着信息技术的迅速发展,各行各业都积累了海量异构的数据资料。这些数据往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要将这些数据转化成有用的信息和知识,从而达到为决策服务的目的。数据挖掘分析得到的信息和知识现在已经得到了广泛的应用,例如商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果。本文主要介绍了数据挖掘的几种主要算法及其改进,并对国内外的研究现状及研究热点进行了总结,最后指出其发展趋势<sup>[1]</sup>。1研究背景数据挖掘目前数据挖掘是人工智能和数据库领域的研究热点,数据挖掘是发现数据库中隐含知识的重要步骤。数据挖掘出现于20世纪80年代末,早期主要研究从数据库中发现知识(KnowlegdeDiscoveryinDatabase,KDD),数据挖掘的概念源于1995年在加拿大召开了第一届知识发现和数据挖掘国际会议<sup>[2]</sup>。数据挖掘作为一种多学科综合的产物,综合利用人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,自动分析数据并从中得到潜在隐含的知识,从而帮助决策者做出合理并正确的决策。数据挖掘对象数据挖掘的对象可以是任何类型的数据源,可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至是异构型数据的数据源<sup>[2]</sup>。发现知识的方法可以是数字的、非数字的,也可以是归纳的,最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等<sup>[1]</sup>。数据挖掘功能目前数据挖掘的主要功能包括概念描述、关联分析、分类、聚类和偏差检测等。概念描述主要用于描述对象内涵并且概括此对象相关特征,概念描述分为特征性描述和区别性描述,特征性描述描述对象的相同特征,区别性描述描述对象的不同特征;关联分析主要用来发现数据库中相关的知识以及数据之间的规律,关联分为简单关联、时序关联、因果关联;分类和聚类就是根据需要训练相应的样本来对数据分类和合并;偏差分析用于对对象中异常数据的检测。数据挖掘过程数据挖掘主要分3个阶段:数据准备、数据挖掘、结果的评价和表达。数据准备主要是完成对大量数据的选择、净化、推测、转换、数据的缩减,数据准备阶段的工作好坏将影响到数据挖掘的效率和准确度以及最终模式的有效性,在数据准备阶段可以消除在挖掘过程中无用的数据,从而提高数据挖掘的效率和准确度;数据挖掘的工作首先需要选择相应的挖掘实施算法,例如决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等,然后对数据进行分析,从而得到知识的模型;结果评价和表达主要是确定知识的模式模型是否有效以便发现有意义的模型<sup>[3]</sup>。2数据挖掘主要方法2.1决策树法决策树法是数据挖掘的分类功能中一种比较常用的方法。决策树法起源于概念学习系统CLS,然后发展到ID3方法,ID3算法是由Quinlan首先提出,该算法是以信息论为基础,以信息熵和信息增益度为衡量标准。ID3算法的主要思想是:首先计算各属性的信息增益,然后选取具有最高增益的属性作为给定集合的测试属性。所以造成ID3用信息增益选择属性时偏向选择取值多的属性,但是取值多的属性不一定找到最优解,为了克服此问题,出现了改进算法—一C4.5算法<sup>[4]</sup>。C4.5算法不但克服了ID3偏向选择取值多的属性这一缺点,还实现了对连续属性的离散化处理和对不完整数据的处理。虽然C4.5算法在速度和预测精度等方面占有优势,但是由于C4.5在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,导致该算法在性能方面较为低效。针对C4.5算法效率不高的问题,很多学者提出了针对改进措施:一种有效的C4.5的改进模型R-C4.5,该决策树模型通过合并分类较差的分支,减少了无意义的分支进一步的划分,有效避免了碎片的产生,在保持模型预测准确率的同时,有效改进了树的健壮性<sup>[5]</sup>。而从C4.5在连续值属性离散化方面的局限性来看,C4.5算法在对连续值属性进行离散化处理时,为了找到较好的划分点,C4.5算法需要测试所有潜在的划分信息增益,这样就大大降低了该算法分类的效率。基于Fayyad和Irani对C4.5算法的改进,调整了其对连续值属性惩罚的基础,指定一个阈值a,通过a值的判定与增益率的判定,决定是否继续构造节点<sup>[6]</sup>。此外,考虑到有新样本添加到数据库中的情况,按照C4.5算法,需要对所有的样本进行重新学习,这样会造成大量时间的浪费,所以在此提出一种增量学习方法,最大限度地保留决策树中的原本分支及分类结果,减少了计算量<sup>[7]</sup>。2.2关联规则法关联模式中最著名的是Apriori算法,它是由R.Agrawal等人首先提出来的<sup>[8]</sup>,其算法思想是:首先找出频繁性至少和预定义的最小支持度一样的所有频集,然后由频集产生强关联规则。最典型的例子就是沃尔玛尿布和啤酒事件,在此例中,商家就是利用统计这两种商品在一次购买中共同出现的频数,将出现频数多的搭配转化为关联规则<sup>[9]</sup>。Apriori算法的实现是通过对数据库D的多次扫描来发现所有的频繁项目集。在每一次扫描中只考虑具有同一长度的所有项目集,在进行第一次扫描中,Apriori算法计算D中所有单个项目的支持度,生成所有长度为1的频繁项目集;在后续的每一次扫描中,首先以K-1次扫描所生成的所有项目集为基础产生新的候选项目集,然后扫描数据库D,计算这些候选项目集的支持度,删除其支持度低于用户给定的最小支持度的项目集;最后,生成所有长度为K的频繁项目集。重复以上过程直到再也发现不了新的频繁项目集为止。由此可见,若要提高Apriori算法的效率,可以减少对数据库的扫描次数或者减少不必要的频繁项目集的生成<sup>[10]</sup>,对Apriori算法的改进主要方法有:①基于划分的方法:其基本思想是:对于整个交易数据库而言,如果一个项集是频繁项集,那么它必然有这样的结果,即至少在一个分割的部分内它是频繁的;②基于抽样的方法:首先从数据库中抽取一个样本并生成该样本的候选项集,当然希望这些项集在全局数据库中是频繁的,在接下来的一次扫描中,算法将统计这些项集确切的支持度以及负边界的支持度。如果在负边界中没有一个是频繁的,那么算法将找到所有的频繁项集,否则,负边界中的项集有可能是频繁项集;③增量更新方法:其基本思想是使用该技术来对所发现的频繁项集和相应的关联规则进行维护,以便在数据库发生变化时避免对所有的频繁项集和相应的关联规则重新进行挖掘分析,即只对发生变化的那部分数据进行关联分析;④概念层次的方法;⑤基于散列和压缩技术的方法<sup>[H]</sup>。所以也有很多学者对Apriori算法进行了改进,例如,对Apriori的改进算法AprioriTid算法,在AprioriTid算法中仅在第一次扫描时用事务数据库D计算候选频繁项目集的支持度,其他各次扫描用上一次扫描生成的候选数据库D?来计算候选频繁项目集的支持度,减少了I/O的操作时间,提高了算法的效率<sup>[8]</sup>,此外,在对Apriori的改进算法中,基于新的数据结构和改进了的产生候选集的连接方法,也实现了对事物挖掘上优于Apriori算法的效率<sup>[12]</sup>。针对Apriori算法的固有缺陷,J.Han等提出了不产生候选挖掘频繁项集的方法:FPtree频集算法。FPtree频集算法采用分而治之的策略,第一遍扫描的过程中把数据库中的频集压缩进一棵频繁模式树(FPtree),同时依然保留其中的关联信息,随后再将FPtree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘,当原始数据量很大的时候,才可以结合划分的方法,使得一个FPtree可以放入主存中,实验表明,FPgrowth对不同长度的规则较之Apriori算法有巨大的提高。2.3神经网络法神经网络具有结构复杂、网络训练时间长、结果表示不容易理解等缺点,但其对噪声数据的高承受能力和低错误率,神经网络具有较好的并行性,这些优点是其他方法所不及的,而且各种网络训练算法的陆续提出与优化,尤其是各种网络剪枝算法和规则提取算法的不断提出与完善,使得神经网络在数据挖掘的应用中越来越受到大家的青睐<sup>[13]</sup>。其中使用较为广泛的有多层前馈式(multilayerfeedforward)神经网络和后向传播(backpropagation,BP)神经网络。多层前馈式神经网络迭代学习用于元组类标号预测的一组权重,而BP神经网络搜索一组权重,这组权重可对数据建模,使得神经元组的网络类预测和实际类标号之间的均方距离最小,可用于语言综合、语音识别、自适应控制等<sup>[14]</sup>。现在已经提出来一些神经网络方面的数据挖掘算法改进,用以弥补神经网络结构复杂、网络训练时间长、结构表示不易理解等不足,比如,提出的基于模糊神经网络的数据挖掘算法,把模糊理论和神经网络结合起来构造、训练模糊神经网络<sup>[15]</sup>。3研究现状随着海量数据的增加,大数据时代的到来,导致人们对数据的研究和利用越来越多,其中数据挖掘技术的不断进步和发展也给整个世界信息的发展带来了许多成果。在科学学领域方面,先进的现代化科学观测仪器的使用造成每天都要产生巨量的数据,如各种同步卫星每小时传回地球的遥感图像数据就达50千兆字节。天文学上有一个很著名的应用系统——SKICAT,这是第一个相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功的应用之一。目前,科学家已利用SKICAT发现了16个新的极其遥远的类星体。在市场营销方面,条形码技术在商业上的普遍使用使得很多行业每天都积累了大量数据,从市场营销来说,通过数据分析了解客户购物行为的一些特征,对提高竞争力及促进销售是有很大帮助。在金融投资方面,目前国内有很多进行股票分析的软件,并且定期有专家进行股票交易预测。数据挖掘技术还可以应用在甄别诈骗上,进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特征,这样当某项业务符合这些特征时,可以向决策人员提出警告。这方面比较成功的系统有FALCON和FAIS系统。在Web应用上,世界上最强大的搜索引擎Google相比其他很多搜索引擎,它的搜索结果更让人满意,其中Google使用的搜索算法主要是PageRank算法,在2001年9月被授予美国专利,Google的PageRank是根据网站的外部链接和内部链接的数量和质量两衡量网站的价值。4数据挖掘发展趋势现今,数据挖掘的发展趋势主要在以下几个方面:数据挖掘语言的标准化:语言的标准化对于数据挖掘系统的开发和数据挖掘技术的普遍使用是至关重要的。其可改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。数据挖掘的可视化:可视化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。分布式数据挖掘:分布式技术的到来为日益增长的数据提供了有力支持,而分布式数据挖掘中将分布式技术和数据挖掘技术的结合,也使对分离数据库的可协作数据挖掘工作开发了一个重要领域。数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处理系统的主流。数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合。挖掘复杂数据类型的新方法:挖掘复杂数据类型是数据挖掘的重要前沿研究课题,也有人称复杂类型的数据挖掘是“下一代数据挖掘”。伴随着数据的增多,需要处理的数据类型也变得越来越复杂,例如数据流、时间序列、时间空间、多媒体和文本数据,虽然现在在很多复杂数据类型的挖掘方面取得了一些进展,但是在应用需求和可用技术之间仍然存在较大的距离。数据挖掘中的隐私保护和信息安全:随着信息技术的发展,越来越多的数据涌入了网络,其中包括大量电子形式的个人信息,而挖掘技术的发展和科技的更新,在相反的一面上也使大量的个人信息受到了威胁,因此保护隐私的数据挖掘方法愈显重要<sup>[16]</sup>。5结语Internet的迅猛发展使得网络上的各种资源信息异常丰富,而数据的迅速增加与数据分析方法的滞后之间的矛盾也越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,而数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据分析处理而出现的。数据挖掘技术的发展给科技的发展、经济的推动和每个人的生活都带来了巨大的便利,数据挖掘技术也被越来越多的行业和领域所采用,并取得了很好的效果。参考文献:[1]王惠中,彭安群.数据挖掘研究现状及发展趋势J].工矿自动化,2011(2).[2]潘有能^乂1挖掘:聚类、分类与信息提取[乂].杭州:浙江大学出版社,2012.[3]王桂芹,黄道.数据挖掘技术综述[C].全国第18届计算机技术与应用(CACIS)学术会议论文集,2007.[4]李会,胡笑梅.决策树中ID3算法与C4.5算法分析与比较J].水电能源科学,200

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论