版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、装订线数据挖掘与知识发现讲稿 主讲:刘以安PAGE PAGE 24前期基础础课程:数据库库、人工工智能参考书:知识识发现,清华华大学出出版社,史忠植植编,220044第1章 概述述随着信息息社会和和知识经经济时代代的来临临,信息息正以前前所未有有的速度度膨胀。面对浩浩如烟海海的信息息资源,人类的的自然智智能越来来越显得得难于驾驾驭。如如何用人人造的智智能去模模仿和扩扩展人类类的自然然智能,实现信信息的智智能化处处理,是是信息社社会和知知识经济济所面临临的一个个重大课课题。人工智能能作为一一门研究究机器(计算机机)智能能的学科科,其目目的是要要用人工工的方法法和技术术,研制制智能机机器或智智能系
2、统统,来模模仿、延延伸和拓拓展人的的智能。因此,人工智智能是人人类迈向向信息、迎接知知识经济济挑战所所必须具具备的一一项核心心技术。难怪有有人把人人工智能能同原子子能技术术、空间间技术一一起称为为20世世纪的三三大尖端端科技成成就。但但人工智智能系统统较率低低,不能能应用于于实际。随着计算算机、IInteerneet的普普及,以以及数据据库(DDB)技技术的迅迅速发展展和数据据库管理理系统(DBMMS)的的广泛应应用,导导致许多多领域积积累了海海量数据据(如,从普通通的超市市业务数数据、信信用卡记记录数据据、电话话呼叫清清单、政政府统计计数据到到不太普普通的天天体图像像、分子子数据库库和医疗疗
3、记录等等)。现现有的DDB技术术大多可可高效地地实现数数据查询询、统计计和维护等管管理功能能,但却却无法发发现数据据中存在在的关联联和规则则,无法法根据现现有的数数据预测测未来的的发展趋趋势。数据库库中存在在着大量量数据,却缺乏乏从这些些数据中中自动、高效地地获取知知识的手手段,出出现了“数据丰丰富,知知识贫乏乏”的现象象。此外,在数据据操纵方方面:信信息的提提取及其其相关处处理技术术却远远远落后。为此,针对庞庞大的数数据库及及其中的的海量数数据信息息源,仅仅依靠传传统的数数据检索索机制和和统计分分析方法法已远不不能满足足需要。需求是发发展之母母,数据据管理系系统(DDBMSS)和人工智智能中
4、机机器学习习两种技技术的发发展和结结合,促促成了在在数据库库中发现现知识这这一新技技术的诞诞生,即基于于数据库库知识发发现(KKnowwleddge Disscovveryy inn Daatabbasee,KDDD)及及其核心心技术数数据挖掘掘产生并并迅速发发展起来来。它的的出现为为自动和智能地把把海量数数据转化化成有用用的信息息和知识识提供了了手段。1.1 知识知识不仅仅是人工工智能领领域中研研究的重重要对象象,而且且也是知知识工程程与知识识发现处处理的重重要对象象。什么么是知识识?(到到目前为为止,知知识还没没有统一一的严格格的形式式化定义义)知识是人人们在改改造客观观世界的的实践中中积
5、累起起来的认认识和经经验,是一切切智能行行为的基基础。广义地地说,知知识是人人们通过过学习、发现或或感悟到到的对世世界的认认识总和和,是人人类认识识的结晶晶。狭义义地说,知识是是一种有有组织的的经验、价值观观、相关关信息和和洞察力力的组合合。与知识识相关联联的两个个概念是是数据和信息所谓数据据是指人人们为了了描述客客观世界界中的具具体事物物而引入入的一些些数字、字符、文字等等符号或或符号的的组合。如,“建国550岁”中的“建国”、“50岁岁”都是数数据。所谓信息息是指不不同的有有用数据据组成的的一种结结构。如如“建国80岁”,就是是一条信信息。数据、信息和和知识间间的关系系是:数据是信信息的载
6、载体和表表示;信息是数数据在特特定场合合下的含含义,或或者说信信息是数数据的语语义。如如“建国80岁”。但相相同的数数据在不不同的场场合会有有不同的的含义。信息仅是是对客观观事物的的一般性性描述,它还不不是知识识。只有有经过对对其进行行加工、整理、解释、挑选和和改造,形成对对客观世世界规律律性认识识后才能能称为知知识。可可见,知知识是对对信息进进行智能能性加工工所形成成的对客客观世界界规律性性的认识识。(如,水水,在标标准大气气压下,加热到到1000度就会会沸腾)实现对信信息的加加工过程程,实际际上也是是一种把把信息关关联在一一起的过过程。因因此,也也可把有有关信息息关联在在一起所所形成的的信
7、息结结构称为为知识。从从这种意意义上讲讲,“信息”与“关联”是构成成知识的的两个要要素。信息之间间关联的的形式很很多,其其中最常常用的一一种形式式为:如果 则 (IFF TTHENN)如,“如如果他学学过人工工智能课课程,则则他应该该知道什什么叫知知识”。1.2 什么是是知识工工程?知识工程程的概念念出现于于19777年的的人工智智能联合合会议上上,由费费根鲍姆姆教授提提出的,至今也也没有严严格的定定义,但人们们普遍认认为,知识工工程是以以知识为为处理对对象,借用工工程化的的思想,应用人人工智能能的原理理、方法法和技术去设计、构造和和维护知知识型系系统的一一门学科科,是人工工智能的的一个应应用
8、分支支。知识工程程的目的的是在研研究知识识的基础础上,开发智能能系统。所以,知识工工程的核核心则是是专家系系统。由此知知,知识的的获取、知识的的表示、知识的的运用便便构成知知识工程程的三大大要素。知识工程程的研究究内容,主要包包括:基础理理论研究究、实用用技术的的开发、知识型型系统工工具研究究和智能能机等相相关课题题的研究究。其中,基基础理论论研究包包括:知识的的本质、知识的的表示、推理、获取和和学习方方法等;实用技术术主要研研究解决决建立知知识系统统过程中中遇到的的问题,包括:实用知知识表示示方法、实用知知识获取取技术、实用知知识推理理方法、知识库库结构系系统、知知识系统统体系结结构、知知识
9、库管管理技术术、知识识型系统统的调试试与评估估技术、实用解解释技术术、实用用接口技技术等;知识型系系统工具具研究,主要是是为了给给系统的的开发提提供良好好的环境境工具,以提高高系统研研制的质质量和缩缩短系统统研制周周期等。知识工程程系统的的特点知识工程程系统能能解决专专家水平平的问题题;系统能快快速的进进行假设设和搜索索解答;系统能做做出具有有专家水水平的解解答;系统具有有大量的的基础知知识和通通用的问问题求解解能力;系统应能能选择问问题的恰恰当表示示方式,其中的的知识型型系统是是一个符符号系统统;系统具有有自动推推理的能能力,能从结结构步骤骤分析、解决、推理问问题等,这些都都表现出出具有人人
10、工智能能及其系系统的特特点。因此,同样可以以说,知识工工程是人人工智能能的一个个重要应应用分支支 知识工程程与人工工智能的的关系传统人工工智能不不能进入入实用阶阶段,主主要原因因有人工智能能系统的的知识库库中只含含有少量量的规则则和事实实;人工智能能系统的的效率极极低。而知识工工程是人人工智能能在知识识信息处处理方面面的发展展,它研研究如何何由计算算机表示示知识,进行问问题的自自动求解解。知识识工程的的研究使使人工智智能的研研究从理理论转向向了应用用,从基基于推理理的模型型转向基基于知识识的模型型,是新新一代计计算机的的重要理理论基础础。它的的根本目目的是在在研究知知识的基基础上,开发人人工智
11、能能系统,补充和和扩大大大脑的功功能,开开创人-机共同同思考的的时代。知识工程程与专家家系统的的关系专家系统统是知识工工程的核核心。知识工工程的发发展首先先决定于于专家系系统的发发展,专家系系统的发发展必将将推动人人工智能能的应用用。专家系统统的开发发有三个个基本的的要素:领域专专家、知知识工程程师、大大量实例例。在建立立专家系系统时,首先由由知识工工程师把把领域专专家的专专门知识识总结出出来,以适当当的形式式存入计计算机,建立起起知识库库(KBB),根根据这些些专门知知识,系统可可以进行行推理,做出判判断和决决策,能够解解决一些些只有人人类专家家才能解解决的困困难问题题,专家系系统主要要是指
12、软软件系统统。通常一个个最基本本的专家家系统应应由:知知识库、数据库库、推理理机、解解释机构构、知识识获取机机构和用用户界面面6个部部分组成成。图1 专专家系统统的基本本结构其主要功功能描述述如下: (1)知识库库(Knnowlledgge BBasee)知识库是是指以某某种存储储结构存存储领域域专家的的知识,包括事事实和可可行的操操作与规规则等。为了建建立专家家库,需需对领域域问题的的专家知知识,用用相应的的知识表表示方法法将其表表示出来来,然后后再进行行形式化化,并经经编码放放入知识识库中。所以,专专家库的的建立,首先要要解决知知识获取取与知识识表示的的问题。知识获获取是指指知识工工程师如
13、如何从领领域专家家那里获获得将要要纳入知知识库的的知识。知识表表示要解解决的问问题是如如何使用用计算机机能够理理解的形形式来表表示和存存储知识识的问题题。通常,知知识库中中的知识识分为两两大类型型:一类类是领域域中的事事实,称称为事实实性知识识,这是是一种广广泛公用用的知识识,也即即写在书书本上的的知识及及常识;另一类类是启发发性知识识,它是是领域专专家在长长期工作作实践中中积累起起来的经经验总结结。(2)数数据库也称全局局数据库库或综合合数据库库。是用用于存储储与求解解问题有有关的初初始数据据(如,事实、数据、初始状状态(证证据)和推理理过程中中得到的的中间数数据。如,在医医疗专家家系统中中
14、,数据据库中存存放的仅仅是当前前患者的的情况,如姓名名、年龄龄、症状状等及推推理过程程中得到到的一些些中间结结果、病病情等;在气象专专家系统统中,数数据库中中存放的的是当前前气象要要素,如如云量、温度、气压以以及推理理得到的的中间结结果等。由此看出出,专家家系统数数据库只只是一个个存储很很少的用用于暂存存中间信信息的工工作存储储器(也也称内涵涵数据库库),而而不是通通常概念念上的用用于存放放大量信信息的数数据库(也称外外延数据据库)。(3)推推理机推理机是是一组用用来控制制、协调调整个专专家系统统的程序序。它根根据全局局数据库库的当前前内容,从知识识库中选选择可匹匹配的规规则,并并通过执执行规
15、则则来修改改数据库库中的内内容,再再通过不不断地推推理导出出问题的的结论。推理机机中包含含如何从从知识库库中选择择规则的的策略和和当有多多个可用用规则时时如何消消解规则则冲突的的策略。(4)解解释机构构用于向用用户解释释专家系系统的行行为,包包括解释释“系统是是怎样得得出这一一结论的的”、“系统为为什么要要提出这这样的问问题来询询问用户户”等用户户需要解解释的问问题。(5)知知识获取取机构知识获取取是专家家系统的的一种辅辅助功能能,它可可为修改改知识库库中的原原有知识识和扩充充新知识识提供相相应手段段。知识获取取机构的的基本任任务是把把知识加加入到知知识库中中,并负负责维持持知识的的一致性性及
16、完整整性,建建立起性性能良好好的知识识库。通常,不不同的专专家系统统,知识识获取功功能和实实现方法法差别较较大。如如,有的系统统首先由由知识工工程师向向领域专专家获取取知识,然后通通过相应应的知识识编辑软软件把知知识送到到知识库库中;有的系统统自身就就具有部部分学习习功能,由系统统直接与与领域专专家对话话获取知知识;有的系统统具有较较强的学学习功能能,可在在系统运运行过程程中通过过归纳、总结,得出新新的知识识。总之,不不管采用用方式,知识获获取都是是目前专专家系统统研究中中的一个个重要问问题。所以,知知识工程程的概念念从19777年提提出至今今,现已成为为一门新新兴的边边缘学科科。它是是人工智
17、智能,数数据库技技术,数数理逻辑辑,认知知科学,心理学学等学科科交叉发发展的结结果。1.3知知识发现现KDD(Knoowleedgee Diiscooverry iin DDataabasse)一一词是于于19889年88月在美美国底特特律市召召开的第第一届KKDD国国际学术术会议上上正式形形成的。研究的的问题主主要有:定性知识识和定量量知识的的发现;知识发现现方法;知识发现现的应用用等。KDD的的含义,由Faayyaad定义义为:从从数据集集中识别别出有效效的、新新颖的、潜在有有用的,以及最最终可理理解的模模式的非非平凡过过程。涉及几个个概念:“数据集集”、“模式”、“过程”、“有效性性”、
18、“新颖性性”、“潜在有有用性”和“最终可可理解性性”。数据集:数据库库记录的的集合FF;模式:即即知识,它给出出了数据据特性或或数据之之间的关关系,是是对数据据所包含含的信息息更抽象象的描述述。按功功能可以以分为预预测型模模式和描描述型模模式。在在实际应应用中,可以细细分为关关联模式式、分类类模式、聚类模模式和序序列模式式等。过程:通通常在KKDD中中指多阶阶段的处处理,涉涉及数据据准备、模式搜搜索、知知识评价价以及反反复的修修改求精精;该过过程要求求是非平平凡的,意思是是要有一一定程度度的智能能性、自自动性;有效性:是指发发现的模模式对于于新的数数据仍保保持一定定的可信信度;新颖性:要求发发
19、现的模模式应该该是新的的;潜在有用用性:是是指发现现的知识识将来有有实际效效用,如如,用于于决策支支持系统统里可提提高经济济效益;最终可理理解性:要求发发现的模模式能被被用户理理解,目目前它主主要体现现在简洁洁性上。其中,“有效性性”、“新颖性性”、“潜在有有用性”和“最终可可理解性性”综合在在一起称称为兴趣趣性。KDD的的研究内内容是:如何自自动地去去处理数数据库中中大量的的原始数数据,从从中挖掘掘搜索出出具有规规则、富富有意义义的模式式。它的发发现过程程主要有有三个步步骤:数据准备备,又包包括数据据选取(Datta sseleectiion)、数据据预处理理(Daata preeprooc
20、esssinng)和和数据变变换(DDataa trranssforrmattionn)三个个子步骤骤;数据挖掘掘(Daata Minningg)阶段段;结果解释释和评价价。即:KDDD=数数据准备备+DMM+解释释评价。图1 KDDD过程由上图知知,知识识发现的的过程可可粗略的的理解为为三部曲曲:数据据准备(Datta pprepparaatioon)、数据挖挖掘(DDataa miininng)以以及结果果的解释释评估(intterpprepparaatioon aand evaaluaatioon)。 数据据准备又又可分为为:数据据选取、数据预预处理和和数据变变换三个个子步骤骤。数据选取
21、取的目的的是确定定发现任任务的操操作对象象,即目目标数据据。它是是根据用用户的需需求从原原始数据据库中抽抽取的一一组数据据。数据预处处理一般般包括消消除噪声声、推导导计算缺缺值数据据、消除除重复记记录、完完成数据据类型转转换(如如,把连连续值数数据转换换为离散散型数据据,以便便符号归归纳;或或把离散散型数据据转换为为连续值值型数据据,以便便神经网网络归纳纳)等;数据变换换的主要要目的是是消减数数据的维维数或降降维,即即从初始始特征中中找出真真正有用用的特征征,以减减少数据据开采时时要考虑虑的特征征或变量量个数。数据挖挖掘阶段段:)确定定开采的的任务或或目的,如数据据总结、分类、聚类、关联规规则
22、发现现或序列列模式发发现等;)确定定使用的的开采算算法。选择实现现算法有有两个考考虑因素素:不同的数数据有不不同的特特点,因因此需要要用与之之相关的的算法来来挖掘;用户或实实际运行行系统的的要求,有的用用户可能能希望获获取描述述型的、容易理理解的知知识(如如,采用用规则表表示的挖挖掘方法法显然好好于神经经网络之之类的方方法),而有的的用户只只希望获获取预测测准确度度尽可能能高的预预测型知知识。选选择了挖挖掘算法法后,就就可以实实施数据据挖掘操操作,获获取有用用的模式式。结果解解释和评评价,对对数据挖挖掘发现现出来的的模式,应经用用户或机机器评价价后才能能成为知知识。因因为)挖掘掘出来的的模式可
23、可能存在在冗余或或无关的的模式,此时需需将其剔剔除;)挖掘掘出来的的模式可可能不满满足用户户要求,这时应应退回到到发现阶阶段之前前,如重重选数据据、采取取新的变变换方法法和新的的开采算算法等)KDDD最终终是要面面向人类用用户,因因此,应应对挖掘掘发现的的模式进进行可视视化(如如散点图图、直方方图等),或把把结果转转换为用用户易懂懂的另一一种表示示,如把把分类决决策树转转换为“iftheen”规则。由此过程程可得:1、数据据挖掘仅仅仅是整整个知识识发现过过程中的的一个步步骤。挖挖掘质量量的好坏坏有两个个影响要要素:是所采用用的数据据挖掘技技术的有有效性;是采用的的数据质质量和数数量(数数据量的
24、的大小)。如果果选择了了错误的的数据或或不适当当的属性性,或对对数据进进行了不不适当的的转换,则挖掘掘的结果果不会成成功。2、整个个挖掘过过程是一一个不断断反馈的的过程。比如,用户在在挖掘途途中发现现选择的的数据不不太满意意,或使使用的挖挖掘技术术产生不不了期望望的结果果。这时时,用户户需要重重复先前前的过程程,甚至至从头重重新开始始。3、可视视化技术术在数据据挖掘的的各个阶阶段都起起着重要要的作用用。特别别是在数数据准备备阶段,用户可可能要使使用散点点图、直直方图等等统计可可视化技技术来显显示有关关数据,以期对对数据有有一个初初步的了了解,从从而为更更好地选选取数据据打下基基础;在在挖掘阶阶
25、段,用用户则要要使用与与领域问问题有关关的可视视化工具具;在表表示结果果阶段,则可能能要用到到可视化化技术以以使得发发现的知知识更易易于理解解。问题:数数据挖掘掘的可视视化主要要包括哪哪些研究究内容? 目前前流行的的可视化化技术主主要有哪哪几种?答: 数数据挖掘掘的可视视化主要要研究包包括数据的可可视化: 将数数据的不不同粒度度或不同同的抽象象级别用用多种可可视化方方式进行行描述.对被挖挖掘的原原始数据据的可视视化有助助于确定定合适的的模型进进行数据据挖掘处处理;数据结果果的可视视化: 将数据据挖掘后后得到的的知识和和结果用用可视化化形式表表示出来来.知识表表达、解解释和评评价的可可视化有有助
26、于理理解所获获得的知知识并检检验知识识的真伪伪和实用用性;数据挖掘掘过程的的可视化化:用可可视化形形式描述述各种挖挖掘过程程,用户户通过可可视化方方式可以以了解挖挖掘数据据的来源源、数据据的抽取取过程、具体的的挖掘计计算和推推理过程程等。目前流行行的可视视化技术术主要有有:面向像素素技术:其基本本思想是是将每个个数据值值映射到到一个有有色的像像素上并并将属于于某个属属性的数数据值表表示在一一个独立立的窗口口中;几何投影影技术:其目标标是在多多维数据据集中找找到“有意义义”的投影影,是一一种平行行坐标轴轴可视化化技术。该技术术通过使使用相互互平行而而且等距距的坐标标轴将多多维空间间映射成成两维显
27、显示。基于图标标技术:是将一一个多级级数据项项映射成成一个图图标,是是一种条条状图技技术。在在该技术术中,用用两维来来进行坐坐标显示示,而剩剩下的维维则被映映射成条条状图标标的角度度或条状状图标的的长度;层次技术术:是对对多维空空间进行行细分,然后以以一种层层次的形形式表示示这些子子空间。由于KDDD是一一门受到到来自各各种不同同领域的的研究者者关注的的交叉学学科(如如涉及:统计学学、机器器学习、数据库库技术、模式识识别、人人工智能能和可视视化等),因此此导致了了很多不不同的术术语名称称。除KKDD外外,主要要还有:“数据挖挖掘”、知识识抽取(knoowleedgee exxtraactiio
28、n)、信息息发现、智能数数据分析析、探索索式数据据分析、信息收收获、数数据考古古学(ddataa arrchaaeollogyy)、数数据捕捞捞(daata dreedgiing)等等。其中,最常用用的术语语是“知识发发现”和“数据挖挖掘”。19955年在加加拿大召召开了第第一届知知识发现现和数据据挖掘(Datta MMingg, DDM)国国际学术术会议。由于把把数据库库中的“数据”形象地地比喻成成矿床,把KDDD比作作从数据据矿山中中找到蕴蕴藏的知知识金块块。从此此“数据挖挖掘”一词很很快流传传开来。又由于数数据挖掘掘是KDDD过程程中的关关键步骤骤,所以以目前多多数人不不加区分分地使用用
29、知识发发现和数数据挖掘掘这两个个术语。相对来讲讲,数据据挖掘主主要流行行于统计计界、数数据分析析、数据据库和管管理信息息系统界界;而知识发发现主要要流行于于人工智智能和机机器学习习界。1.4 知识发发现的对对象知识发现现的对象象是数据据集。数数据集类类型有:关系数数据库、面向对对象数据据库、空空间数据据库、时时态数据据库、文文本数据据库源、多媒体体数据库库、异质质数据库库以及万万维网(Webb)数据据库等。其中,关系数数据库是是典型的的结构化化数据。目前,随着技技术的发发展,数数据挖掘掘对象已已逐步扩扩大到半半结构化化或非结结构化数数据,如如Webb数据、图像和和视频数数据以及及文本数数据等。
30、1、关系系数据库库对关系数数据库,数据挖挖掘方法法主要是是研究数数据库中中属性之之间的关关系,挖挖掘出多多个属性性取值之之间的规规则。由由于关系系数据库库的特点点,促使使了数据据挖掘方方法的改改善。关系数据据库的特特点如下下: 数据据动态性性数据的动动态变化化是数据据库的一一个主要要特点。由于数数据的存存取和修修改,使使数据的的内容经经常发生生变化,这就要要求数据据挖掘方方法能适适应这种种变化。渐增式式数据挖挖掘方法法就是针针对数据据变化,使挖掘掘的规则则(知识)能满足足变化后后的数据据库内容容。 数据据不完整整性数据不完完整性主主要反映映在数据据库中记记录的域域值丢失失或不存存在(空空值)。
31、这种不不完整数数据给数数据挖掘掘带来了了困难。为此,必须对对数据进进行预处处理,填填补该数数据域的的可能值值。数据噪噪声由于数据据录入等等原因,造成错错误的数数据,即即数据噪噪声。含含噪声的的数据挖挖掘会影影响抽取取模式的的准确性性,并增增加了数数据挖掘掘的困难难度。 数据据冗余性性这表现在在同一信信息在多多处重复复出现。函数依依赖是一一个通常常的冗余余形式。冗余信信息可能能造成错错误的数数据挖掘掘,至少少有些挖挖掘的知知识是用用户不感感兴趣的的。为了了避免这这种情况况发生,数据挖挖掘时,需要知知道数据据库中有有哪些固固有的依依赖关系系。 数据据稀疏性性表现在实实例空间间中数据据稀疏,数据稀稀
32、疏会使使数据挖挖掘丢失失有用的的模式。 海量量数据数据库中中的数据据在不断断增长,已出现现很多海海量数据据库。数数据挖掘掘方法需需要逐步步适应这这种海量量数据挖挖掘,如如建立有有效的索索引机制制和快速速查询方方法等。2、文本本数据库库文本是以以文字串串形式表表示的数数据文件件。文本本分析包包括:关关键词或或特征提提取;相相似检索索;文本本聚类和和文本分分类等。文本中的的特征如如人名、地名、组织名名等是某某些文本本中的重重要信息息,特征征提取对对掌握该该文本的的内容很很重要。 关键键词或特特征提取取一篇文本本中,标标题是该该文本的的高度概概括。标标题中的的关键词词是标题题的核心心内容。关键词词的
33、提取取对于掌掌握该文文本的内内容至关关重要。文本中的的特征如如人名、地名、组织名名等是某某些文本本中的重重要信息息,特征征提取对对掌握该该文本的的内容很很重要。 相似似检索对文本中中关键词词的相似似检索是是了解文文本内容容的一种种重要方方法。如如,“专家系系统”与“人工智智能”两个关关键词是是有一定定联系的的,研究究专家系系统的文文本,一一定属于于人工智智能的研研究领域域。 文本本聚类对于文本本标题中中关键词词(主题题词)的的相似匹匹配是对对文本聚聚类的一一种简单单方法。定义关关键词的的相似度度,将便便于文本本的简单单聚类,类中文文本满足足关键词词的相似似度,类类间文本本的关键键词超过过相似度
34、度。 文本本分类将文本分分类到各各文本类类中,一一般需要要采用一一个算法法,这些些算法包包括分类类器算法法、近邻邻算法等等,这需需要按文文本中的的关键词词或特征征的相似似度来区区分。3、图像像与视频频数据库库图像与视视频数据据库是典典型的多多媒体数数据库。数据以以点阵信信息及帧帧形式存存储,数数据量很很大。图图像与视视频的数数据挖掘掘包括:图像与与视频特特征提取取;基于于内容的的相似检检索;视视频镜头头的编辑辑与组织织等。 图像像与视频频特征提提取图像与视视频特征征有颜色色、纹理理和形状状等。这这些特征征提取是是用基于于内容的的相似检检索。如如,海水水是蓝色色、海滩滩是黄色色、房屋屋的形状状及
35、颜色色等,都都需要从从大量图图像和视视频数据据中提取取。 基于于内容的的相似检检索根据图像像、视频频特征的的分布、比例等等进行基基于内容容的相似似检索,可以将将图像和和视频数数据进行行聚类以以及分类类,也能能完成对对新图像像或视频频的识别别。如,对遥感感图像或或视频的的识别,这种应应用非常常广泛,例如,森林火火灾的发发现与报报警,河河流水灾灾的预报报等。 视频频镜头的的编辑与与组织镜头代表表一段连连续动作作(视频频数据流流)。典典型的镜镜头编辑辑如足球球的射门门、某段段新闻节节目等,都需要要在冗长长的视频频数据流流中进行行自动裁裁取。经过编辑辑的镜头头,按某某种需要要重新组组织,将将形成特特定
36、需求求的新视视频节目目。如足足球射门门集锦,某个新新闻事件件的连续续报道等等。4、Weeb数据据库随着Innterrnett的发展展和普及及,网站站数目的的迅速增增长及上上网人数数的剧烈烈增多,使网络络数据量量呈指数数增长,Webb数据挖挖掘已成成为新课课题。WWeb数数据挖掘掘具有如如下特点点: 异构构数据集集成和挖挖掘Web上上每一站站点是一一个数据据源,各各数据源源都是异异构的,形成了了一个巨巨大的异异构的数数据库环环境。将将这些站站点的异异构数据据进行集集成,给给用户提提供一个个统一的的视图,才能在在Webb上进行行数据挖挖掘。 半结结构化数数据模型型抽取Web上上的数据据非常复复杂,
37、没没有特定定的模型型描述。虽然每每个站点点上的数数据是结结构化的的,但各各自的设设计对整整个网络络而言是是一个非非完全结结构化的的数据,称为半半结构化化数据。对半结构构化数据据模型的的查询和和集成,需要寻寻找一种种半结构构化模型型抽取技技术来自自动抽取取各站点点的数据据。如,XMML是一一种半结结构化的的数据模模型,容容易实现现Webb中的信信息共享享与交换换。总之,WWeb数数据挖掘掘正在逐逐步形成成热点。1.5 知识发发现的分分类知识发现现涉及多多个学科科,主要要包括数数据库、统计学学和机器器学习等等三大主主要技术术。数据库技技术经过过20世世纪800年代的的大发展展,除关关系数据据库外,
38、又陆续续出现面面向对象象数据库库、多媒媒体数据据库、分分布式数数据库以以及Weeb数据据库等。数据库库的应用用从一般般查询到到模糊查查询和智智能查询询,数据据库计算算已趋向向并行计计算。从从以上数数据库中中挖掘知知识正在在兴起并并已得到到迅速发发展。统计学是是一门古古老学科科,现已已逐渐走走向社会会。成为为社会调调查、了了解民意意以及制制定决策策的重要要手段。机器学习习是人工工智能的的重要分分支。它它是在专专家系统统获取知知识出现现瓶颈后后发展起起来的。机器学学习的大大部分方方法和技技术已演演变为数数据挖掘掘方法和和技术。知识发现现可按数数据库类类型、知知识发现现对象、知识发发现任务务、知识识
39、发现方方法与技技术,以以及应用用等几个个方面进进行分类类。(1)按按数据库库类型分分类知识发现现主要是是在关系系数据库库中挖掘掘知识。随着数数据库类类型的不不断增加加,逐步步出现了了不同数数据库的的知识发发现。现现有:关关系数据据的知识识发现、模糊数数据的知知识发现现、历史史数据的的知识发发现和空空间数据据的知识识发现等等多种不不同数据据库的知知识发现现类型。(2)按按知识发发现的对对象分类类知识发现现除了对对数据库库这个主主要的对对象进行行知识发发现外,还有文文本数据据知识发发现、多多媒体数数据知识识发现和和Webb网数据据知识发发现等。由于对对象不同同,知识识发现的的方法相相差很大大,文本
40、本、多媒媒体、WWeb网网数据均均是非结结构化数数据,知知识发现现的难度度将很大大。(3)按按知识发发现的任任务分类类知识发现现的任务务主要有有:关联联分析、时序模模式、聚聚类、分分类、偏偏差检测测以及预预测六项项。故按按知识发发现的任任务分类类有:关关联规则则知识发发现、序序列知识识发现、聚类知知识发现现、分类类知识发发现、偏偏差分析析知识发发现以及及预测知知识发现现等类型型。(4)按按知识发发现方法法和技术术分类归纳学习习类、仿仿生物技技术类、公式发发现类、统计分分析类、模糊数数学类、可视化化技术类类等等。1.6 知识发发现的方方法可粗分为为:统计计方法、机器学学习方法法、神经经网络方方法
41、、数数据库方方法和可可视化方方法。统计方法法可细分分为:回回归分析析、判别别分析、聚类分分析、探探索性分分析等;机器学习习可细分分为:归归纳学习习方法、基于范范例学习习、遗传传算法等等;神经网络络可细分分为:前前向神经经网络、自组织织神经网网络等;数据库方方法主要要是:多多维数据据分析或或OLAAP方法法,另外外还有面面向属性性的归纳纳方法。对可视化化方法主主要是把把数据、信息和和知识转转化为可可视的表表示形式式的过程程。1.7 知识发发现的任任务数据挖掘掘与知识识发现是是一个以以数据库库、人工工智能、数理统统计、可可视化四四大支柱柱技术为为基础,多学科科交叉、渗透、融合形形成的新新的交叉叉学
42、科。数据挖掘掘的任务务是从大大量的数数据中发发现模式式。根据据数据挖挖掘的任任务可分分为多种种类型,其中比比较典型型的有:预测模型型关联分析析分类分析析聚类分析析序列分析析偏差检测测模式相似似性挖掘掘Web数数据挖掘掘预测模模型(PPreddicttivee Moodellingg):所所谓预测测即从数数据库或或数据仓仓库中已已知的数数据推测测未知的的数据或或对象集集中某些些属性的的值分布布。建立预测测模型的的常用方方法:回归分析析线性模型型关联规则则决策树预预测遗传算法法神经网络络关联(Asssociiatiion)分析:关联规规则描述述了一组组数据项项之间的的密切度度或关系系。关联联分析用
43、用于发现现项目集集之间的的关联。在关联联规则挖挖掘算法法中,通通常给出出了置信信度和支支持度两两个概念念,对于于置信度度和支持持度均大大于给定定阈值的的规则称称为强规规则,而而关联分分析主要要就是对对强规则则的挖掘掘。关联规则则挖掘近近几年研研究较多多。现在在,关联联规则的的挖掘已已经从单单一概念念层次关关联规则则的发现现发展到到多概念念层次的的关联规规则的发发现,并并把研究究的重点点放在提提高算法法的效率率和规模模可收缩缩性上。它广泛泛地运用用于帮助助市场导导向、商商品目录录设计客客户关系系管理)(CRRM)和和其他各各种商业业决策过过程中。关联分析析算法:APRRIORRI算法法、DHHP
44、算法法、DIIC算法法、PAARTIITIOON算法法及它们们的各种种改进算算法等。另外,对于大大规模、分布在在不同站站点上的的数据库库或数据据仓库,关联规规则的挖挖掘可以以使用并并行算法法,如:Count分布布算法、Data分布算算法、CCandiidate 分布算算法、智智能Data分布算算法(IIDD)和DMMA分布布算法等等。分类(Claassiificcatiion)分析:所谓分分类是根根据数据据的特征征为每个个类别建建立一个个模型,根据数数据的属属性将数数据分配配到不同同的组中中。在实际应应用过程程中,分分类规则则可以分分析分组组中数据据的各种种属性,并找出出数据的的属性模模型,从
45、从而确定定哪些数数据属于于哪些组组。这样样就可以以利用该该模型来来分析已已有数据据,并预预测新数数据将属属于哪一一个组。类的描描述可以以是显式式的,如如用一组组特征概概念描述述;也可可以是隐隐式的,如用一一个数学学公式或或数学模模型描述述。分类类分析已已经成功功地用于于顾客分分类、疾疾病分类类、商业业建模和和信用卡卡分析等等。分类分析析的常用用方法:约略(RRouggh)集集决策树神经网络络统计分析析法目前,分分类方法法和研究究成果很很多,判判别方法法的好坏坏,可从从下面33个方面面进行:(1)预预测准确确度(对对非样本本数据的的判别准准确度); (22)计算算复杂度度; (33)模式式简洁度
46、度(在同同样效果果情况下下,希望望决策树树小或规规则少)。注:在数数据库中中,往往往存在噪噪声数据据,缺损损值和疏疏密不均均匀等问问题,他他们对分分类算法法获取的的知识将将产生坏坏的影响响。聚类(Cluusteerinng)分分析:所所谓聚类类是指一一组彼此此间非常常“相似”的数据据对象的的集合。相似的的程度可可以通过过距离函函数来表表示,由由用户或或专家指指定。聚类分析析是按照照某种相相近程度度度量方方法将数数据分成成互不相相同的一一些分组组。每一一个分组组中的数数据相近近,不同同分组之之间的数数据相差差较大。好的聚聚类方法法可以产产生高质质量的聚聚类,保保证每一一聚类内内部的相相似性很很高
47、,而而各聚类类之间的的相似性性很低。聚类分分析的核核心是将将某些定定性的相相近程度度测量方方法转换换成定量量测试方方法。采采用聚类类分析,系统可可以根据据部分数数据发现现规律,找出对对全体数数据的描描述。聚类分析析的常用用方法:随机搜索索聚类法法特征聚类类CF树序列(Seqquennce)分析:序列分分析主要要用于分分析数据据仓库中中的某类类与时间间相关的的数据,搜索类类似的序序列或子子序列,并挖掘掘时序模模式、周周期性、趋势和和偏离等等。例如,它它可以导导出类似似“若AT&T股票票连续上上涨两天天且DEEC股票票不下跌跌,则第第三天IIBM股股票上涨涨的可能能性为775%”的数据据关系。序列
48、模模式可以以看成是是一种特特定的关关联模型型,它在在关联模模型中增增加了时时间属性性。偏差检检测(DDeviiatiion Dettecttionn):用用于检测测并解释释数据分分类的偏偏差,它它有助于于滤掉知知识发现现引擎所所抽取的的无关信信息,也也可滤掉掉那些不不合适的的数据,同时可可产生新新的关注注性事实实。偏差包括括很多有有用的知知识,如如以下44类:分类中的的反常实实例;模式的例例外;观察结果果对模型型预测的的偏差;量值随时时间的变变化。偏差检测测的基本本方法是是寻找观观察结果果与参照照之间的的差别。观察结结果常常常是某一一个域的的值或多多个域值值的汇总总。参照照是给定定模型的的预测
49、、外界提提供的标标准或另另一观察察。模式相相似性挖挖掘:用用于在时时间数据据库或空空间数据据库中搜搜索相似似模式时时,从所所有对象象中找出出用户定定义范围围内的对对象;或或找出所所有元素素对,元元素对中中两者的的距离小小于用户户定义的的距离范范围。模模式相似似性挖掘掘的方法法有相似似度测量量法、遗遗传算法法等。Webb数据挖挖掘:万万维网是是一个巨巨大的、分布广广泛的和和全球性性的信息息服务中中心,其其中包含含了丰富富的超链链接信息息,为数数据挖掘掘提供了了丰富的的资源。Webb数据挖挖掘包括括Webb使用模模式挖掘掘、Weeb结构构挖掘和和Webb内容挖挖掘等。Web使使用模式式挖掘:在We
50、bb环境中中,文档档和对象象一般都都是通过过链接来来便于用用户访问问。捕捉捉用户的的存取模模式或发发现一个个Webb网站最最频繁的的访问路路径称为为Webb使用模模式挖掘掘或Weeb路径径挖掘。Web结结构挖掘掘:是挖挖掘Weeb的链链接结构构,并找找出关于于某一主主题的权权威网站站。Web内内容挖掘掘:是指指在大量量训练样样本的基基础上,得到数数据对象象之间的的内在特特征,并并以此为为依据进进行有目目的的信信息筛选选,从而而获得指指定内容容的信息息。基于Weeb的研研究:搜搜索引擎擎的设计计、文件件自动分分类技术术、关键键词的自自动提取取、半结结构化信信息的提提取及WWeb上上新型应应用的研
51、研究等。1.8 数据挖挖掘的知知识表示示数据挖掘掘各种方方法获得得的知识识的表示示形式主主要有66种:规规则、决决策树、知识基基(浓缩缩数据)、网络络权值、公式和和案例。(1)规规则规则由前前提条件件和结论两部部分组成成。前提提条件由由字段项项(属性性)取值值的合取取和析取取组合而而成,结结论为决决策字段段项(属属性)的的取值或或者类别别组成。如,下下例为两两类人群群9个元元组(记记录)表表:身高头发眼睛第一类人人矮金色蓝色高红色蓝色高金色蓝色矮金色灰色第二类人人高金色黑色矮黑色蓝色高黑色蓝色高黑色灰色矮黑色黑色利用数据据挖掘方方法,将将能很快快得到如如下规则则知识: IIF(发发色=金金色红
52、色)(眼睛睛=蓝色色灰色)THEEN 第一一类人 IIF(发发色=黑黑色)(眼睛睛=黑色色) TTHENN 第二二类人即:凡是是具有金金色或红红色的头头发,并并且同时时具有蓝蓝色或灰灰色眼睛睛的人属属于第一一类人;凡是具具有黑色色头发或或黑色眼眼睛的人人属于第第二类人人。(2)决决策树如ID33方法的的决策树树,是由由信息量量最大的的字段(属性)作为根根结点,它的各各个取值值为分枝枝,对各各个分枝枝所划分分的数据据元组(记录)子集,重复建建树过程程,扩展展决策树树,最后后得到相相同类别别的子集集,以该该类别作作为叶结结点。如,上例例的人群群数据库库,按IID3方方法得到到的决策策树为(3)知知
53、识基(浓缩数数据) 数据挖挖掘方法法能计算算出数据据库中字字段项的的重要程程度,对对于不重重要的字字段可以以删除,对于数数据库中中的元组组能按一一定的原原则合并并。这样样,通过过可大大大压缩数数据库中中的元组组和字段段项,最最后得到到浓缩数数据,称称为知识识基。它它是原数数据库的的精华,很容易易转换成成规则知知识。如,上例例的人群群数据库库,通过过计算可可以得出出身高是是不重要要的字段段,删除除该项后后,再合合并相同同数据元元组,得得到如下下的浓缩缩数据表表。(4)网网络权值值 神经经网络方方法经过过对训练练样本的的学习后后,所得得到的知知识是网网络连接接权值和和结点的的阈值。一般表表示为矩矩
54、阵和向向量。如如,异或或问题的的网络权权值和阈阈值分别别如下:样本:00 00 00 11 11 00 11 11(5)公公式对于科学学和工程程数据库库,一般般存放的的是大量量实验数数据(数数值)。它们中中蕴涵着着一定的的规律性性,通过过公式发发现算法法,可以以找出各各种变量量间的相相互关系系,用公公式表示示。如,太阳阳系行星星运动数数据中,包含行行星运动动周期(旋转一一周所需需时间,天),以及它它与太阳阳的距离离(围绕绕太阳旋旋转的椭椭圆轨道道的长半半轴,百百万公里里),具具体数据据如下表表:水星金星地球火星木星土星周期P8822536568743433.5107667.55距离d58108
55、14922877814300由此,可可得到开开普勒第第三定律律:d/P=225.(6)案案例案例是指指人们经经历过的的一次完完整的事事件。当当人们要要解决一一个新问问题时,总是先先回顾自自己以前前处理过过的类似似事件(案例),利用用以前案案例中解解决问题题的方法法或者处处理的结结果,作作为参考考并进行行适当的的修改,以解决决当前新新问题。利用这这种思想想建立起起基于案案例推理理(Caase Bassed Reaasonningg,CBBR)。CBR的的基础是是案例库库,在案案例库中中存放着着大量成成功或失失败的案案例。CCBR利利用相似似检索技技术,对对新问题题到案例例库中搜搜索相似似案例,再
56、经过过对旧案案例的修修改来解解决新问问题。可见,案案例是解解决新问问题的一一种知识识。案例例知识一一般表示示为三元元组:问题描述述:对求求解的问问题及周周围世界界或环境境的所有有特征的的描述;解描述:对问题题求解方方案的描描述;效果描述述:描述述解决方方案后的的结果情情况,是是失败还还是成功功。1.9 数据挖挖掘及知知识发现现的实际际应用DM(KKDD)工具和和软件已已在各个个部门得得到很好好的应用用,并收收到明显显的效益益。1金金融方面面:银行信信用卡和和保险行行业,预预测存/贷款趋趋势,优优化存/贷款策策略,用用DM将将市场分分成有意意义的群群组和部部门,从从而协助助市场经经理和业业务执行
57、行人员更更好地集集中于有有促进作作用的活活动和设设计新的的市场运运动。2在在客户关关系管理理方面:DM能能找出产产品使用用模式或或协助了了解客户户行为,从而可可以改进进通道管管理(如如银行分分支和AATM等等)。又又如正确确时间销销售(RRighhtTiimeMMarKKetiing)就是基基于顾客客生活周周期模型型来实施施的。3在在零售业业/市场场营销方方面:是数据据挖掘技技术应用用最早也也是最重重要的领领域,DDM用于于顾客购购货篮的的分析可可以协助助货架布布置,促促销活动动时间,促销商商品组合合以及了了解滞销销和畅销销商品状状况等商商业活动动。通过过对一种种厂家商商品在各各连锁店店的市场
58、场共享分分析,客客户统计计以及历历史状况况的分析析,可以以确定销销售和广广告业务务的有效效性。4在在过程控控制/质质量监督督保证方方面:DM协协助管理理大数量量变量之之间的相相互作用用,DMM能自动动发现出出某些不不正常的的数据分分布,暴暴露制造造和装配配操作过过程中变变化情况况和各种种因素,从而协协助质量量工程师师很快地地注意到到问题发发生范围围和采取取改正措措施。5在在远程通通讯部门门:基于DDM的分分析协助助组织策策略变更更以适应应外部世世界的变变化,确确定市场场变化模模式以指指导销售售计划。在网络络容量利利用方面面,DMM能提供供对客户户组类服服务使用用的结构构和模式式的了解解,从而而
59、指导容容量计划划人员对对网络设设施作出出最佳投投资决策策。6化化学/制制药行业业:从各各种文献献资料总总自动抽抽取有关关化学反反应的信信息,发发现新的的有用化化学成分分。在遥遥感领域域针对每每天从卫卫星上及及其它方方面来的的巨额数数据,对对气象预预报,臭臭氧层监监测等能能起很大大作用。7军军事方面面:使用用DM进进行军事事信息系系统中的的目标特特征提取取、态势势关联规规则挖掘掘等。总之,DDM可广广泛应用用于银行行金融、零售与与批发、制造、保险、公共设设施、政政府、教教育、远远程通讯讯、软件件开发、运输等等各个企企事业单单位及国国防科研研上。据据报导,DM的的投资回回报率有有达4000%甚甚至
60、100倍的事事例。1.100 知识识发现与与创新自90年年代以来来,基于于数据库库/数据据仓库技技术的知知识发现现研究,一直是是人们关关注和研研究的热热点。所所谓数据据仓库,按数据据仓库之之父Biill Inmmon的的定义,就是一一个“面向主主题的”、“完整的的”、“非易失失的”、“不同时时间的”、“用于支支持决策策管理的的”数据集集合。实实质上,数据仓仓库就是是将异构构的数据据集成起起来,经经过加工工整理变变成一个个可用的的数据资资源。目前,基基于数据据仓库的的分析工工具主要要有:数数据挖掘掘和联机机分析处处理(OOLAPP:OnnLinne AAnallysiis PProccesss)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋交易终止合同范本
- 农村土地出售合同书样本
- 停车场租赁合同协议书范文
- 2024养殖场土地承包合同
- 股票投资代持协议书
- 2024年彩钢瓦安装合同书
- 2024产权转让居间合同协议书
- 工程机械运输合同模板
- 个人之间专利权转让协议范本
- 2024年按揭房屋归女方离婚协议书
- 2024全球量子产业发展报告
- 场地移交安全管理协议书
- 医院卒中中心建设各种制度、流程汇编
- 重庆市江北区2023-2024学年六年级下学期期末考试数学试题
- 军队文职聘用合同管理规定
- 2024年贵州省安顺市西秀区小升初语文试卷
- 2024-2029年中国儿童牙冠行业市场现状分析及竞争格局与投资发展研究报告
- 新时代铁路发展面对面全文内容
- 人工智能与语文阅读理解教学
- 科学素养培育及提升-知到答案、智慧树答案
- 快递主管岗位职责
评论
0/150
提交评论