数据挖掘技术2015B_第1页
数据挖掘技术2015B_第2页
数据挖掘技术2015B_第3页
数据挖掘技术2015B_第4页
数据挖掘技术2015B_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术

王志海zhhwang@办公室:北502电话:51683859计算机与信息技术学院DataMiningTechniquesDr.ZhihaiWang(Prof.)BeijingJiaotongUniversityOffice:North502Tel.:51683859zhhwang@DataMiningTechniques研究背景基本定义

DM过程

DM任务与方法与DM相关的理论重要的学术会议与期刊澳大利亚大学简介©ZhihaiWANG,20153DataMining的研究背景数据库的规模(大数据)

摩尔定律(Moore’sLaw)可知,计算机的性能每18个月就会提高1倍。而且,在数据存储领域中,在价格固定的前提下,数据存储能力每9个月就会提高1倍分析能力潜在价值

©ZhihaiWANG,20154DataMining的研究背景分析能力潜在价值

驱动数据库发现知识研究的基本动机主要是在许多机构中数据库是非常庞大的信息宝库,可从中发现具有潜在价值的概念、模式和联系。这些知识可以有效地应用在许多方面,如商业决策、数据库模式精化、完整性实施、语义查询优化以及智能查询处理等。©ZhihaiWANG,20155大数据的潜在价值潜在价值超市的商品摆放智能搜索引擎网上购物向导银行用户信用等级评估数据库逆向工程………©ZhihaiWANG,20156DataMiningTechniques

研究背景

数据挖掘的基本定义

DM过程

DM任务与方法与DM相关的理论重要的学术会议与期刊澳大利亚大学简介©ZhihaiWANG,20157DataMining(KDD)的基本定义

W.J.Frawley,GPiatetsky-Shapiro,C.J.Matheus(1991)

KDDisthenontrivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstand-ablepatternsindata.

KDD是从大量数据中提取出1)有效的、2)新颖的、3)有潜在作用的、并4)能最终理解的模式的非平凡的处理过程。©ZhihaiWANG,20158DataMiningTechniques

研究背景

数据挖掘的基本定义

数据挖掘的基本过程

DM任务与方法与DM相关的理论重要的学术会议与期刊澳大利亚大学简介©ZhihaiWANG,20159DataMining过程概述UsamaM.Fayyadet.al.(1996)1)数据准备6)挖掘算法确定2)数据选择7)数据挖掘3)数据预处理8)模式解释4)数据缩减9)知识评价5)DM目标确定©ZhihaiWANG,201510数据挖掘的基本过程(1)数据准备了解DM相关领域的有关情况,包括应用中的预先知识和目标,熟悉有关的背景知识,并弄清楚用户的要求。©ZhihaiWANG,201511DataMining过程(2)数据选择

根据用户要求从数据库中提取与DM相关的数据,在此过程中,会利用一些数据库操作对数据进行处理,建立一个目标数据集,选择一个数据集或在多数据集的子集上聚焦。©ZhihaiWANG,201512DataMining过程(3)数据预处理

对所选择的数据进行再加工,主要检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对缺损的数据(Missing,丢失的?不合理的?不知道的?)可以利用统计方法进行填补,去除噪声或无关数据,去除空白数据域,考虑时间顺序和数据变化等。©ZhihaiWANG,201513DataMining过程(4)数据转换

对经过预处理的数据,根据知识发现的任务对数据进行再处理,主要通过投影或数据库中的其他操作减少数据量或找到数据的不变式。©ZhihaiWANG,201514DataMining过程(5)确定DM的目标

根据用户的要求,确定DM是发现何种类型的知识,因为对DM的不同要求会在具体的知识发现过程中采用不同的知识发现算法。©ZhihaiWANG,201515DataMining过程(6)确定知识发现算法

根据所确定的任务,选择合适的知识发现算法(如汇总、分类、聚类等),这包括选取合适的模型和参数,并使得知识发现算法与整个DM&KD的评判标准相一致。©ZhihaiWANG,201516DataMining过程(7)实施数据挖掘(DataMining)

运用选定的知识发现算法,搜索或产生一个特定的感兴趣的模式或数据集,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示,如产生式规则等。©ZhihaiWANG,201517DataMining过程(8)模式解释

对发现的模式进行解释,去掉多余的不切题意的模式,转换成某个有用的模式,以使用户明白。在此过程中,为了取得更为有效的知识,可能会返回前面处理步骤中的某些步以反复提取,从而提取出更有效的知识。©ZhihaiWANG,201518DataMining过程(9)知识评价

将发现的知识以用户能了解的方式呈现给用户。这期间也包含对知识的一致性的检查,以确信本次发现的知识与以前发现的知识不相抵触。©ZhihaiWANG,201519DataMining过程图示©ZhihaiWANG,201520DataMiningTechniques

研究背景

数据挖掘的基本定义

数据挖掘的基本过程

数据挖掘的任务与方法与DM相关的理论重要的学术会议与期刊澳大利亚大学简介©ZhihaiWANG,201521两种主要的数据库处理技术数据库技术关系型数据库DatabasesDataBaseManagementSystem(商品?)数据库应用系统在线事务处理(OLTP)SQL选择、联接、投影数据仓库技术在线分析处理(

OLAP)商业化:SAS、SPSS©ZhihaiWANG,201522数据挖掘的基本任务两种基本任务:预测(未来):运用数据描述(数据库的关系模式)的一些变量和字段去预测未知的感兴趣的变量的值。描述(过去):寻找可以理解的描述数据的适当模式。©ZhihaiWANG,201523DataMining的任务与方法(1)分类(Classification):

将数据归于一系列已知类中的某一分类的过程。分类的目的是学会一个分类函数(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。

分类模型©ZhihaiWANG,201524ClassificationinDataMiningMethodandTheory

lDatabaseTheorylStatisticslMachineLearninglComputationalIntelligence©ZhihaiWANG,201525ClassificationinDataMiningDatabase/DataWarehouse

lRelationalDatabaselTextlWeb-BasedDatalMulti-Media©ZhihaiWANG,201526ClassificationinDataMiningInstances:X={x1,x2,…,xm}Attributes:A={A1,A2,…,An}ClassLabel:CC=ci,W=(a1,a2,…,an)ClassificationAlgorithmClusteringAlgorithm©ZhihaiWANG,201527ClassificationinDataMiningClassificationAlgorithmlDecisionTreelNeuralNetworklGeneticAlgorithmlBayesianLearninglSupportedVectorMachine©ZhihaiWANG,201528DataMining的任务与方法(2)

聚类(Clustering):

根据客体属性对一系列未分类客体进行类别的识别,把一组个体按照相似性归成若干类别,即“物以类聚”。有监督的学习无监督的学习©ZhihaiWANG,201529TwoLearningStrategiesEagerLearningLazyLearningTrainingTimeClassificationTime©ZhihaiWANG,201530DataMining的任务与方法(3)特征提取(Characterization):

将与任务相关的数据集概括或抽象为某种泛化关系(generalized

relation)或特征规则(characterization

rule)。

概念层次结构(概念格ConceptLattice)区分提取(Discrimination):

发现分辨目标类(targetclass)与对照类(contrastingclasses)的特征与性质。区分规则(discriminationrule)©ZhihaiWANG,201531DataMining的任务与方法(4)

关联规则发现(AssociationRulesMining):

发现客体的任意属性子集合之间的相互关系。关联规则的形式:

A1A2...Ai

B1B2...Bj注意:关联规则和分类规则的区别©ZhihaiWANG,201532DataMining的任务与方法(5)

序贯模式发现(SequentialPatternsMining):

在多个数据序列中发现寻找所有的频繁序列或所有的最长频繁序列。情节发现(Episodesmining):

在事件序列中发现频繁情节(frequentepisodes)。情节是指在给定长度的时间区间内出现的事件的有序集合。偏离发现(Deviationmining):

在与时间相关数据库中某客体的偏离模式的发现与评估。©ZhihaiWANG,201533DataMiningTechniques

研究背景

数据挖掘的基本定义

数据挖掘的基本过程数据挖掘的任务与方法

数据挖掘的相关理论重要的学术会议与期刊澳大利亚大学简介©ZhihaiWANG,201534与DataMining的相关的理论

统计学数据库理论机器学习理论

神经网络计算智能FuzzySetandRoughSetTheory支持向量机理论(SVM)©ZhihaiWANG,201535DataMiningTechniques

研究背景

数据挖掘的基本定义

数据挖掘的基本过程数据挖掘的任务与方法数据挖掘的相关理论

重要的学术会议与期刊澳大利亚大学简介©ZhihaiWANG,201536

DataMining&KnowledgeDiscovery

研究背景基本定义DM过程DM任务与方法与DM相关的理论

重要的学术会议与期刊©ZhihaiWANG,201537重要的学术会议与期刊(1)1989年8月在美国底特律召开的第11届国际人工智能联合学术会议(IJCAI)上首次举办了以KDD为主题的研讨会(WorkshoponKnowledgeDiscoveryinDatabases)AAAI-91(WorkshoponKnowledgeDiscoveryinDatabases)Piatetsky-ShapiroG,FrawleyWJeds.

KnowledgeDiscoveryinDatabasesMenloPark,California:AAAIPress/TheMITPress,1991©ZhihaiWANG,201538重要的学术会议与期刊(2)WorkshoponKnowledgeDiscoveryinDatabases1993Piatetsky-ShapiroG(Ed.).

ProceedingsofAAAI-93WorkshoponKnowledgeDiscoveryinDatabases.Washington:AAAIPress,1993©ZhihaiWANG,201539重要的学术会议与期刊(3)FirstInternationalConferenceonKnowledgeDiscoveryandDataMining,Montreal,Canada,1995FayyadUM,Piatetsky-ShapiroG,SmythP,UthurusamyR.

AdvancesinKnowledgeDiscoveryandDataMiningMenloPark,California:AAAIPress/TheMITPress,1996©ZhihaiWANG,201540重要的学术会议与期刊(4)亚太地区(PAKDD):1997Singapore首届研讨会1998Melbourne,Australia

第2届1999Beijing 2000Kuwait2001Japan 2002Taiwan2003Korea 2004Sydney,Australia2005Vietnam第9届©ZhihaiWANG,201541重要的学术会议与期刊(5)RoughSetTheoryZiarkoWPed.

RoughSets,andFuzzySetsandKnowledgeDiscovery(RSKD’93)London:Springer-Verlag,1994第2届©ZhihaiWANG,201542重要的学术会议与期刊(6)IJCAIACM&AAAI-KDDIEEEICDM(2000)IEEEICDEPAKDD&EKDDICML&ECMLVLDBACM-SIGMOD©ZhihaiWANG,201543重要的学术会议与期刊(7)JournalIEEETransactionsonKnowledgeandDataEngineeringMachineLearningArtificialIntelligenceData&KnowledgeEngineeringDM&KD第一本专门的国际学术杂志《DataMiningandKnowledgeDiscovery》于1997年创刊。©ZhihaiWANG,201544DataMiningTechniques

研究背景

数据挖掘的基本定义

数据挖掘的基本过程数据挖掘的任务与方法数据挖掘的相关理论重要的学术会议与期刊

澳大利亚大学简介©ZhihaiWANG,201545AustralianUniversities40UniversitiesSydney:UniversityofNewSouthWalesSydneyUniversityCanberra:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论