大与数据挖掘技术综述_第1页
大与数据挖掘技术综述_第2页
大与数据挖掘技术综述_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

:近年来,数据量大量增长,像因特网和大型数据库的出现“信息但知识匮乏”挖掘的常用技术算法以及数据挖掘未来的应用。数据挖掘算法,应用 Inrecentyears,withtherapidgrowthofdata,liketheemergenceofInternetandlargedatabases, hasarisenfrom―astronomicalinformationbutpoorknowledge‖.howtodigoutthedatasentbackpotentiallyusefulinformation, eahottopicofconcerntoeverybody,theresultingdataminingtechniques emorepopular,adata-processingtechnology.Thispaperprovidesasurveyfordataminingbrieflyintroducestheconceptofdatamining,classification,method,technology,algorithm,andapplicationinthefuture.Key:datamining,algorithm, 一、数据挖掘(datamining)的基本概念: 消费者喜好和行为。从大量的数据中抽取以前位置并具有潜在可用的模式。二、数据挖掘的主要任务数据挖掘的任务就是发现隐藏在数据中的模式其可以发现的模式一般分为两类:描述性(descriptive)模式和预测型(predictive)模式,描述型模式是对当前数据对于时间序列型数据,根据其历史和当前的值去预测未来的值,细分模式如下1分类模式发现的模式,参照新的数据的变量,将其映射如一直类别中。2聚类用于描述和发现数和模式的数据元组为一类,是类内各元组相似程序最高,类间差异最大。3关联 于发现给定或记录中经常一起发生的项目,由此推断间潜在的关联,识别有可能重复发生的模式。4序列模式 三、数据挖掘的方法: 遗传算法、神经网络、可视化和联机分析等。1决策树:决策树是利用信息论的知识,对数据进行分类的法,广泛应用于商业山个,用于分离和预测,QuinlanID3结果额度高,作用率高。2神经网络:神经网络的数据挖掘方法通过模仿认得神经速拟合非线性数据,因而被广泛的应用于数据挖掘中。3规则归纳:规则归纳是数据挖关的形式表示出了。4遗传算法遗传算法根据生物进化理论,通过模拟自然进化过程,分类挖掘。联机分析处理对数据进行分析、查询和报表时组要通过表的形式。通过对用户现有的和历史的数据精心分析,得出有用的结论,为做出决策提供依据。其应用的对象主要是公司市场策略的制定,银行风险的分析与预测等领域。5传统 传统导向系统是针对专业领域应用的系统。采用的方法从简单的分析直到给予高深数学基础的分形理论和谱分析。这种技术需要有经验模型为前提。6传统统 重复进行一系列操作。7神经元网路技术 法在DM的应用方面,当需要复杂或不精确数据中到处概念和确定比较时刻利用神经网络技术。8数据可视化面对大量的数据,利用数据可视化工具可以通过富有成效持数据甚至提供动画功能,可以从多个方向,不同的层次同时对数据进行分析。四、数据挖掘的算法1.TheApriorialgorithm Apriori算法是一种最有影响的挖掘关联规频集。2.Thek-meansalgorithm即K-Means算法k-meansalgorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k<n。它与处理混合正态分布的最大期望算法且目标是使各个群组内部的均方误差总和最小。3.Supportvectormachines 英文为SupportVectorMachine,简称SV机( SVM的方法,它广泛的应用于统计分类以及回归分析中支持向量机将向量映射到一个更的差距越大,分类器的总误差越小。一个极好的指南是C.J.CBurges的《模式识别支持向量机指南vanderWalt和Barnard将支持向量机和其他分类器进行了比较。4.最大期望(EM)算法 在统计计算中,最大期望(EM,Expectation– ization)算法是在概率ariabl领域。5.PageRank PageRank是算法的重要内容。2001年9月被授予专利,Page页,而是指佩奇,即这个等级方法是以佩奇来命名的。PageRank根据的外部和内部的数量和质量俩衡量的价值。PageRank背后的概念是,每个到页面的都谓的―流行度‖——衡量多少人愿意将他们的和你的挂钩。PageRank这个概念引术中一篇 性就越高。6.AdaBoost Adaboost是一种迭代算法,其思想是针对同一个训练集决策分类器。7.kNN:k-nearestneighborclassification K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于 五、数据挖掘的应用应用:数据挖掘技术域都是信息量大,环境发展,需要知识帮助进行挂历和决策的领域。主要应用方向:1)顾客历史记录,货物进出,消费与服务记录以及流行的电子商务等等都为数据挖掘提供了丰富的数据资源2)在金融数据分析中的应用。多数银行都提供了丰富多样的储蓄,信数据挖掘相当有利。3)在医学上的应用。最近,生物医学迅猛发展,从新药的开发到癌症的治疗通过大模序列式和功能的现进行人类的识和研究人类基因演技领具有性的问是从中出导致种毙鞥的特序模式。4业生产方面农业产与气有密切关系如果数挖掘技术用在气预报中更准确的发布气信息为农生产提了一个妥的支持5数据挖掘产化随着据挖掘技术应用的益普及多大公已经把种技术化开发出过的挖工具比如AS和IM公推出了自的数挖掘工具Entrprener和In gentn。这些具的开发呃是用更方便计的使数据挖技术外数据挖掘应用在他领域如科研教育电信事等些充分明书及技术的重性日益显有预测它会成为对工业产生深远影响的五大关键技术之首。参考文献:[1]张保华数据挖掘现状及常规分类算法科技创新2008NO36 [2]阳,中国数据挖掘研究进展大学学报(自然科学)o.47,No.4,201 [3]戴菲,数据挖掘技术在电子商务中的应用copurkowdgeandchnoogyo.7,No21,y01 [4]孙琼琼静博数据挖技术研究及用couernowedgeandchnooyvo5,No.23agust2009pp.631-6342 []方欣丽浅谈数据挖掘技术及其应用copurknwedeandchnoogy o.7.No29Ocoer210,pp812-813 []齐晓锋.数据挖掘技术在学生成绩管理中的应用研究D].阜新:辽宁工程技术大学,2006 []ang,eanngehodoogydeeopn:afaoncaeudyonarscaerseconandvazaon yssusngaonsMapMasters sInternational2010ISBN:9781124189284[8]Yan,NianNon-additivemeasuresofoptimization-baseddataminingandapplications. sInternational2010ISBM97811097129889]行算法研究科技学院学报2009年3期[10]吴爱华数据挖掘在客户关系管理中的用研究电脑知识于技术2008年25期[11]李智辉数据挖掘的常用方法及其的问题科技2010年07期[12]MarcosM.Campos,PeterJ.Stengard,BorianaL.novaData-CentricAutomatedDataMiningDec.2005ProceedingsoftheInternationalConferenceonMachineLearningandApplications[13]DavidR.MusicantAdataminingcourseforcomputerscience:primarysourcesandimplementationsMar.2006Proceedingsofthe37thSIGCSEtechnicalsymposiumonComputerscienceeducation[14]RuomingJin,GaganAgrawalAnAlgorithmforIn-CoreFrequentItemsetMiningonStreamingDataNov.2005ProceedingsoftheFifthIEEEInternationalConferenceonDataMining15]200804期[16]NingJiang,RoyVillafane,KienA.Hua,AbhijitSawant,KiranPrabhakaraADMiRe:AnAlgebraicDataMiningApproachtoSystemPerformanceysisJul.2005IEEETransactionsonKnowledgeandDataEngineering卷次:17期:7[17]

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论