




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022年7月5日星期二DMKD Sides By MAO1数据挖掘原理与算法 By 毛国君,段立娟,王石,石云 Pub. 清华大学出版社,2004使用说明:使用说明: 本书是一本全面介绍数据挖掘和知识发现技术的本书是一本全面介绍数据挖掘和知识发现技术的专业书籍,专业书籍,可作为计算机专业研究生或高年级本科生可作为计算机专业研究生或高年级本科生教材。共分教材。共分8 8章,各章相对独立成篇,以利于读者选章,各章相对独立成篇,以利于读者选择性学习。本课件供全书讲解之用,为了取得好的教择性学习。本课件供全书讲解之用,为了取得好的教学效果,教师应该根据学生层次、教学大纲或课时安学效果,教师应该根据学
2、生层次、教学大纲或课时安排进行必要裁减。排进行必要裁减。2022年7月5日星期二DMKD Sides By MAO2第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势 n数据挖掘概念 n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 2022年7月5日星期二DMKD Sides By MAO3数据挖掘技术的商业需求分析 n随着信息技术的高速发展,数据库应用的规模、范围和深度不断扩大,网络环境成为主流等等。产生“数据丰富而信息贫乏(Data Rich &
3、 Information Poor)”现象。n在强大的商业需求的驱动下,商家们开始注意到有效地解决大容量数据的利用问题具有巨大的商机;学者们开始思考如何从大容量数据集中获取有用信息和知识的方法。n随着信息技术的高速发展,人们希望能够提供更高层次的数据处理功能。新的需求推动新的技术的诞生。n数据(Data)、信息(Information)和知识(Knowledge)是广义数据表现的不同形式。2022年7月5日星期二DMKD Sides By MAO4数据、信息和知识datainformationknowledge2022年7月5日星期二DMKD Sides By MAO5数据挖掘产生的技术背景n
4、 数据挖掘是相关学科充分发展的基础上被提出和发展的。n 主要的相关技术:n 数据库等信息技术的发展n 统计学深入应用n 人工智能技术的研究和应用2022年7月5日星期二DMKD Sides By MAO6数据挖掘是一个多学科交叉技术 Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceAI /MachineLearningVisualization2022年7月5日星期二DMKD Sides By MAO7数据库系统的发展n60年代:简单文件处理系统向数据库系统变革 。n70年代:层次、网络和关系型
5、数据库普及。 n80年代:RDBS及其相关工具、数据索引及数据组织技术被广泛采用;中期开始,分布式数据库广发讨论,关系数据库技术和新型技术的结合。 n90年代:数据库领域中的新内容、新应用、新技术层出不穷,形成了庞大的数据库家族;人们期望分析预测、决策支持等高级应用, Data mining and data warehousing等出现。n本世纪开始: Data mining 得到理论/技术深化。2022年7月5日星期二DMKD Sides By MAO8统计学的深入应用n强大有效的数理统计方法和工具,已成为信息咨询业的基础 。n统计分析技术是基于严格的数学理论和高超的应用技巧的 。 n数据
6、挖掘技术是数理统计分析应用的延伸和发展 。 n和数据库技术的结合性研究2022年7月5日星期二DMKD Sides By MAO9人工智能技术的研究和应用n人工智能是计算机科学研究中争议最多而又仍始终保持强大生命的研究领域。n专家系统曾经是人工智能研究工作者的骄傲,但是诸多难题限制了专家系统的应用:n知识获取成为专家系统研究中公认的瓶颈问题。n知识表示成为一大难题:知识工程师在整理表达从领域专家那里获得的知识时勉强抽象出来的规则有很强的工艺色彩。n对常识和百科知识出奇地贫乏:人工智能学家Feigenbaum估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有
7、时会比傻子还傻。n数据挖掘继承了专家系统的高度实用性特点,并且以数据为基本出发点,客观地挖掘知识。n机器学习得到了充分的研究和发展:理论和算法。n数据挖掘研究在继承已有的人工智能相关领域,特别是机器学习的研究成果的基础上,成为新的研究分支。2022年7月5日星期二DMKD Sides By MAO10第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势 n数据挖掘概念 n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 2022年7月5日星期二DMKD S
8、ides By MAO11数据挖掘处于研究和应用探索阶段n经过十几年的研究和实践,数据挖掘技术已经吸收了许多学科的最新研究成果而形成独具特色的研究分支。n大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段:n一方面,数据挖掘的概念已经被广泛接受。n另一方面,数据挖掘的大面积应用还有待时日。n随着KDD在学术界和工业界的影响越来越大,数据挖掘的研究向着更深入和实用技术方向发展:n大学等研究机构的大多数基础性研究集中在数据挖掘理论、挖掘算法等的探讨上。n公司的研究更注重和实际商业问题结合。n数据挖掘的经济价值已经显现出来:Gartner报告中列举重要影响的五项关键技术,其中KDD和人工智能排名
9、第一。2022年7月5日星期二DMKD Sides By MAO12数据挖掘研究聚焦点n数据挖掘在如下几个方面需要重点开展工作:n数据挖掘技术与特定商业逻辑的平滑集成问题:数据挖掘技术与特定商业逻辑的平滑集成问题:数据挖掘需要代表性的应用实例来证明(像“啤酒与尿布” )。n数据挖掘技术与特定数据存储类型的适应问题:数据挖掘技术与特定数据存储类型的适应问题:不同的数据存储方式会影响数据挖掘的具体实现机制、目标定位、技术有效性等。n大型数据的选择与规格化问题:大型数据的选择与规格化问题:n数据的噪音、信息丢失等问题的处理;n针对特定挖掘方法进行数据规格化等问题。n数据挖掘系统的构架与交互式挖掘技术
10、:数据挖掘系统的构架与交互式挖掘技术:n在具体的实现机制、技术路线以及各阶段的功能定位等方面仍需细化和深入研究。n良好的交互式挖掘(Interaction Mining)也是数据挖掘系统成功的前提。n数据挖掘语言与系统的可视化问题:可视化挖掘除了要和良好的交互式技术结合外,还必须在挖掘结果或过程的可视化进行探索和实践。n数据挖掘理论与算法研究n一方面,在已有的理论框架下有许多面向实际应用目标的挖掘理论等待探索和创新。n另一方面,随着数据挖掘技术本身和相关技术的发展,新的挖掘理论和算法的诞生是必然的。2022年7月5日星期二DMKD Sides By MAO13第一章第一章 绪论绪论 内容提要内
11、容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势n数据挖掘概念n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 2022年7月5日星期二DMKD Sides By MAO14从商业角度看数据挖掘技术 n数据挖掘从本质上说是一种新的商业信息处理技术:n数据挖掘技术把人们对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上。n通过对数据的统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括知识等,这些知识性的信息可以用来指导高级商务活动。n从决策、
12、分析和预测等高级商业目的看,原始数据只是未被开采的矿山,需要挖掘和提炼才能获得对商业目的有用的规律性知识。n从商业角度看,数据挖掘就是按企业的既定业务目标,对大量的企业数据进行深层次分析以揭示隐藏的、未知的规律性并将其模型化,从而支持商业决策活动。2022年7月5日星期二DMKD Sides By MAO15数据挖掘的技术含义 n数据库中的知识发现(KDD: Knowledge Discovery in Databases)是比数据挖掘出现更早的一个名词。 nKDD与Data Mining的关系,有不同的看法:nKDDKDD看成数据挖掘的一个特例:这是早期比较流行的观点,这种描看成数据挖掘的一
13、个特例:这是早期比较流行的观点,这种描述强调了数据挖掘在源数据形式上的多样性。述强调了数据挖掘在源数据形式上的多样性。n数据挖掘是数据挖掘是KDDKDD的一个关键步骤:这种观点得到大多数学者认同,的一个关键步骤:这种观点得到大多数学者认同,有它的合理性。有它的合理性。nKDDKDD与与Data MiningData Mining含义相同:事实上,在现今的许多场合,如技含义相同:事实上,在现今的许多场合,如技术综述等,这两个术语仍然不加区分地使用着。也有其他的说法:术综述等,这两个术语仍然不加区分地使用着。也有其他的说法:nKDDKDD在人工智能界更流行,而在人工智能界更流行,而Data Min
14、ingData Mining在数据库界使用更多。在数据库界使用更多。n在研究领域被称作在研究领域被称作KDDKDD,在工程领域则称之为数据挖掘。,在工程领域则称之为数据挖掘。 2022年7月5日星期二DMKD Sides By MAO16数据挖掘定义n数据挖掘定义有广义和狭义之分。n从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。n从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。n下列技术不是数据挖掘:nOLTP nExpert systems nSmall
15、 MLnStatistical programs 2022年7月5日星期二DMKD Sides By MAO17数据挖掘研究的理论基础 n数据挖掘方法可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。n从研究者可能是来自于数据库、人工智能、数理统计、计算机科学以及其他方面的学者和工程技术人员,他们会从不同的视点进行探讨性研究。n有下面一些重要的理论视点值得关注:n模式发现(Pattern Discovery)架构n规则发现(Rule Discovery)架构 n基于概率和统计理论n微观经济学观点(Microeconomic View)n基于数据压缩(Data Compres
16、sion)理论n基于归纳数据库(Inductive Database)理论n可视化数据挖掘(Visual Data Mining)n等等 2022年7月5日星期二DMKD Sides By MAO18第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势 n数据挖掘概念 n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 2022年7月5日星期二DMKD Sides By MAO19根据挖掘任务n分类或预测模型发现n数据总结与聚类发现n关联规则发现n序列模式
17、发现n相似模式发现n混沌模式发现n依赖关系或依赖模型发现n异常和趋势发现等2022年7月5日星期二DMKD Sides By MAO20根据挖掘对象n关系数据库挖掘n面向对象数据库挖掘n空间数据库挖掘n时态数据库挖掘n文本数据源挖掘n多媒体数据库挖掘n异质数据库挖掘n遗产数据库挖掘nweb数据挖掘等2022年7月5日星期二DMKD Sides By MAO21根据挖掘方法n机器学习方法n统计方法n聚类分析方法n神经网络(Neural Network)方法n遗传算法(Genetic Algorithm)方法n数据库方法n近似推理和不确定性推理方法n基于证据理论和元模式的方法n现代数学分析方法n粗
18、糙集(Rough Set)或模糊集方法n集成方法等2022年7月5日星期二DMKD Sides By MAO22根据知识类型n挖掘广义型知识n挖掘差异型知识n挖掘关联型知识n挖掘预测型知识n挖掘偏离型(异常)知识n挖掘不确定性知识等2022年7月5日星期二DMKD Sides By MAO23第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势 n数据挖掘概念 n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 2022年7月5日星期二DMKD Sides
19、 By MAO24知识表示模式分类n数据挖掘的目的是发现知识,知识要通过一定的模式给出。通过对数据挖掘中知识表示模式及其所采用方法的分析,可以更清楚地了解数据挖掘系统的特点。n主要知识模式类型有:n广义知识(Generalization)n关联知识(Association)n类知识(Class/Cluster)n预测型知识(Prediction)n特异型知识(Exception) 2022年7月5日星期二DMKD Sides By MAO25广义知识挖掘 n广义知识是指描述类别特征的概括性知识。这类数据挖掘系统是对细节数据的所蕴涵的概念特征信息的概括和抽象的过程。n主要方法有:n概念描述(概念
20、描述(Concept DescriptionConcept Description)方法:)方法:概念描述本质上就是对某类对象的内涵特征进行概括:n特征性(Characterization)描述:描述某类对象的共同特征。n区别性(Discrimination)描述:描述不同类对象之间的区别。n多维数据分析可以看作是一种广义知识挖掘的特例多维数据分析可以看作是一种广义知识挖掘的特例n多层次概念描述问题:多层次概念描述问题:由数据归纳出的概念是有层次的,不同层次的概念是对原始数据的不同粒度上的概念抽象。例如,n“北京工业大学”能归纳出“北京市”、“中国”、“亚洲”等层次。n销售表SALES(ENO
21、,ENAME,EAGE,VALUE,DEPT),它的每个属性的定义域都可能存在蕴涵于领域知识内的概念延伸。例如,DEPT能归纳出公司COMPANY、城市CITY或国家COUNTRY等层次n概念分层(Concept Hierarchy)技术:将低层概念集映射到高层概念集的方法,是一个常用的处理多层次概念描述的方法。2022年7月5日星期二DMKD Sides By MAO26主要的概念分层方法 n模式分层(模式分层(Schema HierarchySchema Hierarchy):):利用属性在特定背景知识下的语义层次形成不同层次的模式关联。n这种关联是一种的全序或偏序关系。n例如,DEPT的
22、模式分层结构可能是:DEPTCOMPANYCITYCOUNTRY。n集合分组分层(集合分组分层(Set-Grouping HierarchySet-Grouping Hierarchy):):将属性在特定背景知识下的取值范围合理分割,形成替代的离散值或区间集合。n例如,年龄EAGE可以抽象成20,29,30,39,40,49,50,59或者青年,中年,老年 。n操作导出分层(操作导出分层(Operation-Operation-DrivedDrived Hierarchy Hierarchy):):有些属性可能包含多类信息。n例如,一个跨国公司的雇员号可能包含这个雇员的所在的部门、城市、国家和
23、雇佣的时间等。对这类对象可以作为背景知识定义它的结构,通过编码解析等操作完成概念的抽象。n基于规则分层(基于规则分层(Rule-Based HierarchyRule-Based Hierarchy):):通过定义背景知识的抽象规则,形成不同层次上的概念的抽象。2022年7月5日星期二DMKD Sides By MAO27关联知识挖掘 n关联知识挖掘的目的就是找出数据库中隐藏的关联信息。n关联知识反映一个事件和其他事件之间的依赖或关联。n关联可分为简单关联、时序(Time Series)关联、因果关联、数量关联等。n从广义上讲,关联分析是数据挖掘的本质。n关联规则挖掘(Association
24、Rule Mining)是关联知识发现的最常用方法:n关联规则的研究最早的分支之一,最著名的Apriori算法。n是数据挖掘研究中比较深入的分支,许多关联规则挖掘的理论和算法已经被提出。2022年7月5日星期二DMKD Sides By MAO28类知识挖掘类知识挖掘n类知识(Class)刻画了一类事物,这类事物具有某种意义上的共同特征,并明显和不同类事物相区别。 n有两个基本的方法来挖掘类知识:n分类:分类是数据挖掘中的一个重要的目标和任务,是目前的研究和应用最多的分支之一。n分类的目的是学会一个分类模型(称作分类器),该模型能把数据库中的数据项映射到给定类别中。n分类技术是一种有指导的学习
25、(Supervised Learning),即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。n聚类:数据挖掘的目标之一是进行聚类分析。n聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的差别尽可能的小,而不同类别上的个体间的差别尽可能的大。n聚类属于无指导学习(Unsupervised Learning) ),当一组数据对象可以由一个概念(区别于其他的概念)来描述时,就形成一个簇(Cluster)。刻画了数据所蕴涵的类知识。2022年7月5日星期二DMKD Sides By MAO29分类中的基础方法n决策树方法:基本的分类技
26、术之一,如ID3及其改进算法ID4、ID5、C4.5、C5.0等;针对大训练样本集的SLIQ、SPRINT、雨林(Rainforest)BOAT等算法。n贝叶斯分类 :具有坚实的理论基础,理论上具有较小的出错率。但是,它的适应性差。n神经网络:作为一个相对独立的研究分支已经很早被提出,具有高度的抗干扰能力和可以对未训练数据进行分类等优点,因此产生了神经网络和数据挖掘技术的结合性研究。n遗传算法:是基于进化理论的机器学习方法。n类比学习 :最典型的方法是k-最临近分类(k-Nearest Neighbor Classification)方法,它属于懒散学习法。n其他方法:如粗糙集(Rough S
27、et)、模糊集(Fuzzy Set)方法等 。 2022年7月5日星期二DMKD Sides By MAO30主要聚类的技术n基于划分的聚类方法:基于划分的聚类方法:k-平均算法是统计学中的一个经典聚类方法,它以预先定义好的簇平均值,构造划分,评价和选择他们。n基于层次的聚类方法:基于层次的聚类方法:通过对源数据库中的数据进行层次分解,达到目标簇的逐步生成。n凝聚(Agglomeration):由小到大逐步合并、评价。n分裂(Division)由大到小逐步分裂、评价。n基于密度的聚类方法:基于密度的聚类方法:基于密度的聚类方法是通过度量区域所包含的对象数目来形成最终目标的。n如果一个区域的密度
28、超过指定的值,那么它就需要进一步分解。n基于网格的聚类方法:基于网格的聚类方法:对象空间离散化成有限的网格单元,聚类工作在这种网格结构上进行。n基于模型的聚类方法:基于模型的聚类方法:每个簇假定一个模型,寻找数据对给定模型的最佳拟和。2022年7月5日星期二DMKD Sides By MAO31预测型知识挖掘预测型知识挖掘n预测型知识(Prediction)是指由历史的数据产生的并能推测未来数据趋势的知识。n预测性挖掘主要是对未来数据的概念分类和趋势输出。n分类技术可以用于产生预测型的类知识。n统计学中的回归方法等可以通过历史数据直接产生对未来数据预测的连续值,因而这些预测型知识已经蕴藏在诸如
29、趋势曲线等输出形式中。n预测型知识的挖掘可以结合经典的统计方法、神经网络和机器学习等技术来研究。2022年7月5日星期二DMKD Sides By MAO32预测型知识挖掘中预测型知识挖掘中的典型方法 n趋势预测模式:趋势预测模式:主要是针对那些具有时序(Time Series)属性的数据,如股票价格等,或者是序列项目(Sequence Items)的数据,如年龄和薪水对照等,发现长期的趋势变化等。n周期分析模式:周期分析模式:主要是针对那些数据分布和时间的依赖性很强的数据进行周期模式的挖掘。例如,服装在某季节或所有季节的销售周期。n序列模式:序列模式:主要是针对历史事件发生次序的分析形成预测
30、模式来对未来行为进行预测。例如,预测“三年前购买计算机的客户有很大概率会买数字相机”。n神经网络:神经网络:在预测型知识挖掘中,神经网络也是很有用的模式结构。2022年7月5日星期二DMKD Sides By MAO33特异型知识挖掘 n特异型知识(Exception)是源数据中所蕴涵的极端特例或明显区别于其他数据的知识描述,它揭示了事物偏离常规的异常规律。n特异知识挖掘的价值:n例如,在Web站点发现那些区别于正常登录行为的用户特点可以防止非法入侵。n金融、电信欺诈等n分类中的反常实例、不满足普通规则的特例、观测结果与模型预测值的偏差、数据聚类外的离群值等n许多技术可以扩展到特异型知识挖掘中
31、,如:n孤立点孤立点(Outlier)分析:分析:孤立点是指不符合数据的一般模型的数据。在类知识挖掘中,孤立点分析是不能归入正常类知识中的零散数据的再分析。n异常序列分析:异常序列分析:在一系列行为或事件对应的序列中发现明显不符合一般规律的特异型知识。n特异规则发现:特异规则发现:产生并评价虽然具有低支持度但可能很有价值的规则。 2022年7月5日星期二DMKD Sides By MAO34第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势 n数据挖掘概念 n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n
32、粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 2022年7月5日星期二DMKD Sides By MAO35数据挖掘方法与数据存储类型n数据挖掘技术应该应用到任何数据存储方式的知识挖掘中,但是因为源数据的存储类型的不同,挖掘的挑战性和技术会不同。n近年来的研究表明数据挖掘所涉及的数据存储类型越来越丰富,除了一些有通用价值的模型、构架等研究外,也开展了一些针对复杂或新型数据存储方式下的挖掘技术或算法的研究。n主要的数据类型:n事务数据库(Transactional Database )n关系型数据库 (Related Database )n数据仓库(Data Warehouse )n在
33、关系模型基础上发展的新型数据库 n面向应用的新型数据源 nWeb数据 2022年7月5日星期二DMKD Sides By MAO36事务数据库中的数据挖掘事务数据库中的数据挖掘n一个事务数据库是对事务型数据的收集。1993年,当Agrawal等开始讨论数据挖掘问题时,是以购物篮分析(Market Basket Analysis)作为商业应用背景的。n从事务数据库中发现知识是数据挖掘中研究较早但至今仍然很活跃的问题。通过特定的技术对事务数据库进行挖掘,可以获得动态行为所蕴藏的关联规则、分类、聚类以及预测等知识模式。n第三章将详细讲解2022年7月5日星期二DMKD Sides By MAO37关
34、系型数据库中的数据挖掘关系型数据库中的数据挖掘n关系型数据库是由一系列数据表组成的,相当成熟:n成熟的语义模型(像实体-关系模型);成熟的DBMS(像Oracle)n成熟的查询语言(像SQL语言;可视化的辅助工具和优化软件。n一些更深入和亟待解决的问题:n多维知识挖掘:多维知识挖掘: 传统的事务数据库挖掘所研究的知识一般是单维(Single-Demension)的,但是,在关系型数据库中,多维的知识更普遍和有应用价值。n单维: “购买计算机的人也购买打印机”。n多维: “什么样购买计算机的人也购买打印机的可能性更大?” 。n多表挖掘:多表挖掘:关系型数据库是一系列表的集合。因此,多表挖掘是必然
35、的。n数量数据挖掘:数量数据挖掘: 关系型数据库经常包含非离散数量属性(如工资)。n多层知识挖掘:多层知识挖掘:数据及其关联总是可在多个不同的概念层上来理解它。n知识评价问题:知识评价问题:对传统的数据挖掘框架的知识评价问题,也是关系型数据库中数据挖掘走向实际应用必须要解决的问题。n约束数据挖掘问题:约束数据挖掘问题:数据挖掘系统在用户的约束指导下进行,可以提高挖掘效率和准确度。2022年7月5日星期二DMKD Sides By MAO38数据仓库中的数据挖掘数据仓库中的数据挖掘n数据仓库中的数据是按着主题来组织的。存储的数据可以从历史的观点提供信息。虽然目前的一些数据仓库辅助工具可以帮助完成
36、数据分析,但是发现蕴藏在数据内部的知识模式及其按知识工程方法来完成高层次的工作仍需要数据挖掘技术支持。n数据挖掘不仅伴随数据仓库而产生,而且随着应用深入产生了许多新的课题。n如果我们把数据挖掘作为高级数据分析手段来看,那么它是伴随数据仓库技术提出并发展起来的。nOLAP尽管在许多方面和数据挖掘是有区别的,但是它们在应用目标上有很大的重合度。n数据挖掘更看中数据分析后所形成的知识表示模式,而OLAP更注重利用多维等高级数据模型实现数据的聚合。从某种意义上讲,我们可以把数据挖掘看作是OLAP的高级形式,与此更接近的名词可能算是OLAM(联机分析挖掘)。2022年7月5日星期二DMKD Sides
37、By MAO39新型数据库中的数据挖掘 n对象关系型数据库(Object-Ralational Database)挖掘;n面向对象数据库的挖掘;n空间数据库的挖掘;n时态数据库的挖掘;n工程数据库(Engineering Database)的挖掘;n多媒体数据库(Multimedia Database)的挖掘;n等等 2022年7月5日星期二DMKD Sides By MAO40WebWeb数据源中的数据挖掘数据源中的数据挖掘n随着Internet的广泛使用, WebWeb这一这一巨大的海洋中蕴藏着极其丰富的有用信息。n面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多:n异构数据
38、源环境:异构数据源环境:Web网站上的信息是异构: 每个站点的信息和组织都不一样;存在大量的无结构的文本信息、复杂的多媒体信息;站点使用和安全性、私密性要求各异等等。n数据的是复杂性:数据的是复杂性:有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。n动态变化的应用环境:动态变化的应用环境:nWeb的信息是频繁变化的,像新闻、股票等信息是实时更新的。n这种高变化也体现在页面的动态链接和随机存取上。nWeb上的用户是难以预测
39、的。nWeb上的数据环境是高噪音的。2022年7月5日星期二DMKD Sides By MAO41Web挖掘的研究主要流派 nWebWeb结构挖掘:结构挖掘:挖掘Web上的链接结构。n通过Web页面间的链接信息可以识别出权威页面(Authoritative Page)、安全隐患(非法链接)等。nWebWeb使用挖掘使用挖掘对Web上的Log日志记录的挖掘nWeb上的Log日志记录了包括URL请求、IP地址以及时间等的访问信息。n分析和发现Log日志中蕴藏的规律可以帮助我们识别潜在的客户、跟踪Web服务的质量以及侦探非法访问的隐患等。nWebWeb内容挖掘:内容挖掘: Web的内容是丰富的,而且
40、构成成分是复杂的(无结构的、半结构的等),对内容的分析是重要而艰巨的工作。nWeb的内容主要是包含文本、声音、图片等的文档信息。n文本挖掘(Text Mining)和Web搜索引擎(Search Engine)等相关领域的研究。目n多媒体信息挖掘技术。2022年7月5日星期二DMKD Sides By MAO42第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势 n数据挖掘概念 n数据挖掘技术的分类问题n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 2022年7月5日星期二
41、DMKD Sides By MAO43粗糙集理论简介n粗糙集理论是一种研究不精确、不确定性知识的数学工具,由波兰科学家Z. Pawlak在1982年首先提出的。n粗糙集一经提出就立刻引起数据挖掘研究人员的注意,并被广泛讨论。n粗糙集的知识形成思想可以概括为:一种类别对应于一个概念,知识由概念组成。n粗糙集对不精确概念的描述方法是通过下近似(Lower Approximation)和上近似(Upper Approximation)概念来表示:n一个概念(或集合)的下近似概念(或集合)中的元素肯定属于该概念(或集合)n一个概念(或集合)的上近似概念(或集合)只是可能属于该概念。 2022年7月5日
42、星期二DMKD Sides By MAO44信息系统 n粗糙集把客观世界抽象为一个信息系统。一个信息系统是一个四元组,:nU是对象(或事例)的有限集合,记为Ux1,x2,.,xn。nA是属性的有限集合,记为AA1,A2,.Am。n属性集A常常又划分为两个集合C和D,即ACD,CD,C表示条件属性集,D表示决策属性集。nV是属性的值域集,记为VV1,V2,.,Vm,其中Vi是属性Ai的值域;nf是信息函数(Information Function),即:,f(xi,Aj)Vj。nf(e,a)的值确定记录e关于属性a的取值。n基于某个属性集A的所有等价记录的集合,被定义为等价类。属于同一等价类的记
43、录称为基于属性集A的划分。2022年7月5日星期二DMKD Sides By MAO45近似空间(Approximation Space)n近似空间有一个二元组,()给出:nU是对象(或事例)的有限集合,记为U x1,x2,.,xn ;nB是A的属性子集,R(B)是U上的二元等价关系,即R(B) = (x1,x2)|f(x1,b)=f(x2,b),b B。nR(B)也称无区别关系(Indiscernibility Relation)。 nR(B)把U划分为k个等价类R*(B) = X1,X2,.,Xk。即n对任意的x1,x2Xi,有(x1,x2) R(B) ;n对任意的x1Xi, x2Xj,
44、ij,有(x1,x2) R(B) 。2022年7月5日星期二DMKD Sides By MAO46下近似和上近似定义n对任意一个概念(或集合)O,B是U的一个子集,O的下近似定义为:n其中xR(B)表示x在R(B)上的等价类。nO的上近似定义为:n设有两个属性集B1,B2,B1是B2的真子集,如果R(B1) = R(B2),则称B2可归约为B1。如果属性集B不可进一步归约,则称B是U的一个约简或归约子。 |)(OxUxOBBRBOxU xOR B | ()2022年7月5日星期二DMKD Sides By MAO47粗糙集中的约简概念n极小属性集:去掉任何一个属性,都将使得该属性集对应的规则覆
45、盖反例,即导致规则与例子的不一致。n极大属性集:向它加入任何一个不属于它的属性,则会使得该属性集对应的规则覆盖更少的正例。n粗糙集中的约简是极小属性集,约简对应的规则为极小规则,极大属性集对应的规则为极大规则。n挖掘的目标:获得的极小规则的尽可能简洁形式(即极小属性集尽可能的小)。n基于极小规则和极大规则的概念,我们就可以实现极小规则和极大规则的生成。 2022年7月5日星期二DMKD Sides By MAO48粗糙集在KDD中的应用举例n规则学习和决策表推导。在保证简化后的决策系统具有与原先系统一样的分类能力的前提条件下,通过使用知识简约和范畴简约,将决策系统简化并且找到最小(最短)决策规
46、则集合,以达到最大限度泛化的目的。n知识简约。简约和相对简约在粗糙集中十分重要,它反应了一个决策系统的本质。通过对条件属性集合的简约,可以保证简化后的决策系统具有与原先系统一样的分类能力。n属性相关分析。粗糙集方法中的属性重要程度可以用来衡量该属性对分类的影响程度,它与ID3中的信息增益类似,可以证明两者在一定条件下是等价的。n进行数据预处理。粗糙集方法可以去掉多余属性,可提高发现效率,降低错误率等 2022年7月5日星期二DMKD Sides By MAO49第一章第一章 绪论绪论 内容提要内容提要n数据挖掘技术的产生与发展 n数据挖掘研究的发展趋势 n数据挖掘概念 n数据挖掘技术的分类问题
47、n数据挖掘常用的知识表示模式与方法n不同数据存储形式下的数据挖掘问题 n粗糙集方法及其在数据挖掘中的应用 n数据挖掘的应用分析 2022年7月5日星期二DMKD Sides By MAO50数据挖掘技术应用广泛n数据挖掘技术从一开始就是面向应用的。由于现在各行业的业务操作都向着流程自动化的方向发展,企业内产生了大量的业务数据。n数据挖掘技术应用很广,应用较好的领域有:n金融保险业:Credit Scoring; Insurance Evaluationn电信: Detecting telephone fraudn零售(如超级市场)等商业领域:Marketing Analysisn医学: Detecting inappropriate medical treatmentn体育: IBM Advanced Scout analyzed NBA game statistics n在天文学、分子生物学等科学研究方面n等等2022年7月5日星期二DMKD Sides By MAO51数据挖掘与数据挖掘与CRMCRMnCRM(客户关系管理)是指对企业和客户之间的交互活动或行为进行管理的过程。n数据挖掘能够帮助企业确定客户的特点,使企业能够为客户提供有针对性的服务。因此,把数据挖掘和CRM结合起来进行研究和实践,是一个有很大应用前景的工作。n所能解决的典型商业问题包括:n数据库
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 仓库机械租赁合同范本
- 冻肉投放合同范本
- 加工制作合同范本门窗
- 产品推广居间合同范本
- 加盟合同范本奶茶
- 健身收购合同范本
- 出租黄色围挡合同范例
- 中国国家展览中心合同范例
- 住宅租赁房屋合同范例
- 2024年温州鹿城农商银行招聘笔试真题
- 消防车辆与泵装备的配置与选用与更新的技术要求与管理办法
- 学校重大事项议事决策制度
- 英纳能特种防护材料珠海产研生态基地建设项目(一期)环境影响报告表
- 建筑与市政施工现场安全卫生与职业健康通用规范培训课件
- 中小学音乐课堂体验活动设计
- 直流风扇QC工程图
- 各国插头标准规定型号尺寸
- 小班安全《安安全全玩滑梯》
- 形式发票与商业发票的区别
- 人工智能在软件缺陷预测中的应用
- 03D501-1 防雷与接地安装
评论
0/150
提交评论