最新第五章 机器学习_第1页
最新第五章 机器学习_第2页
最新第五章 机器学习_第3页
最新第五章 机器学习_第4页
最新第五章 机器学习_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章第五章 机器学习机器学习一、概述一、概述二、主要策略与基本结构二、主要策略与基本结构三、常用的学习方法三、常用的学习方法四、数据挖掘和知识发现方法四、数据挖掘和知识发现方法五、数据挖掘开发工具简介五、数据挖掘开发工具简介当前人工智能和神经计算的核心研究课题之一当前人工智能和神经计算的核心研究课题之一教学要求教学要求 了解机器学习的定义、发展史及意义;了解机器学习的定义、发展史及意义; 理解掌握机器学习的基本结构;理解掌握机器学习的基本结构; 理解常用机器学习的方法原理;理解常用机器学习的方法原理; 初步了解初步了解数据挖掘及知识发现数据挖掘及知识发现的知识的知识第五章第五章 机器学习机器

2、学习一、概述一、概述 定义、发展史、意义等定义、发展史、意义等二、主要策略与基本结构二、主要策略与基本结构三、常用的学习方法三、常用的学习方法四、数据挖掘和知识发现方法四、数据挖掘和知识发现方法五、数据挖掘开发工具简介五、数据挖掘开发工具简介 什么是机器学习?什么是机器学习? Simon(1983):学习就是系统中的变化,这种):学习就是系统中的变化,这种变化使系统比以前更有效地去做同样的工作。变化使系统比以前更有效地去做同样的工作。 Minsky (1985):学习是在我们头脑中(心里)进:学习是在我们头脑中(心里)进行有用的变化。行有用的变化。 学习是一种具有多侧面的现象。学习的过程有:学

3、习是一种具有多侧面的现象。学习的过程有:获取新的陈述性知识、通过教育或实践发展机械获取新的陈述性知识、通过教育或实践发展机械技能和认知能力、将新知识组织成为通用化和有技能和认知能力、将新知识组织成为通用化和有效的表达形式、借助观察和实验发现新的事实和效的表达形式、借助观察和实验发现新的事实和新的理论。新的理论。 基本形式基本形式知识获取和技能求精。知识获取和技能求精。学习的本质就是获取新的知识。包括物理系统学习的本质就是获取新的知识。包括物理系统和行为的描述和建模,构造客观现实的表示。和行为的描述和建模,构造客观现实的表示。知识获取知识获取通过实践逐渐改造机制和认知技能。通过实践逐渐改造机制和

4、认知技能。例:骑自行车。这些技能包括意识的或机制的例:骑自行车。这些技能包括意识的或机制的协调。这种改进又是通过反复实践和从失败的协调。这种改进又是通过反复实践和从失败的行为中纠正偏差来进行的。行为中纠正偏差来进行的。 技能求精技能求精知识获取的本质可能是一个自觉的过程,其结果是知识获取的本质可能是一个自觉的过程,其结果是产生新的符号知识结构和智力模型。产生新的符号知识结构和智力模型。技能求精是下意识地借助于反复地实践来实现的。技能求精是下意识地借助于反复地实践来实现的。机器学习是研究计算机怎样模拟或实现人类的学习机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织

5、已有的知行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。识结构使之不断改善自身的性能。人工智能主要是为了人工智能主要是为了研究人的智能,模仿其机研究人的智能,模仿其机理将其应用于工程的科学理将其应用于工程的科学。在这个过程中必然。在这个过程中必然会问道:会问道:“人类怎样做才能获取这种特殊技能人类怎样做才能获取这种特殊技能 (或知识)?(或知识)?”。例子:机器人跳舞例子:机器人跳舞 机器人演奏机器人演奏现在的人工智能系统还完全没有或仅有很有限现在的人工智能系统还完全没有或仅有很有限的学习能力。的学习能力。系统中的知识由人工编程送入系统系统中的知识由人工编程送入系统,

6、知识中的错误也不能自动改正。,知识中的错误也不能自动改正。也就是说,也就是说,现现有的大多数人工智能是演绎的、没有归纳推理,有的大多数人工智能是演绎的、没有归纳推理,因而不能自动获取和生成知识。因而不能自动获取和生成知识。 未来的计算机将有自动获取知识的能力,未来的计算机将有自动获取知识的能力,它它们直接由书本学习,通过与人谈话学习,通们直接由书本学习,通过与人谈话学习,通过观察学习过观察学习。它们通过实践自我完善,。它们通过实践自我完善,克服克服人的存储少、效率低、注意力分散、难以传人的存储少、效率低、注意力分散、难以传送所获取的知识等局限性送所获取的知识等局限性。一台计算机获取。一台计算机

7、获取的知识很容易复制给任何其它机器。的知识很容易复制给任何其它机器。 机器学习在机器学习在AIAI研究中是较为年轻的分支,发展过程研究中是较为年轻的分支,发展过程大体可分为大体可分为4 4个时期:个时期: 第一阶段第一阶段5050年代中到年代中到6060年代中期,热烈时期;年代中期,热烈时期; 第二阶段从第二阶段从6060年代中至年代中至7070年代中期,机器学习的冷年代中期,机器学习的冷静时期;静时期; 第三阶段从第三阶段从70年代中至年代中至80年代中期,复兴时期;年代中期,复兴时期; 机器学习的最新阶段始于机器学习的最新阶段始于1986年年机器学习已成为新的机器学习已成为新的边缘学科边缘

8、学科并在高校形成一门并在高校形成一门课程。课程。结合各种学习方法,取长补短的多种形式的结合各种学习方法,取长补短的多种形式的集成集成学习系统研究学习系统研究正在兴起。正在兴起。各种各种学习方法的应用范围不断扩大学习方法的应用范围不断扩大,一部分已形,一部分已形成商品。归纳学习的知识获取工具已在诊断分类成商品。归纳学习的知识获取工具已在诊断分类型专家系统中广泛使用。型专家系统中广泛使用。与机器学习有关的与机器学习有关的学术活动空前活跃学术活动空前活跃。国际上除。国际上除每年一次的机器学习研讨会外,还有计算机学习每年一次的机器学习研讨会外,还有计算机学习理论会议以及遗传算法会议。理论会议以及遗传算

9、法会议。 男,男,1973年年11月生。分别于月生。分别于1996年年6月、月、 1998年年6月和月和2000年年12月于月于 南京大学计算机南京大学计算机 科学与技术系科学与技术系 获学士、硕士和博士学位。获学士、硕士和博士学位。2001年年1月起留校任教。月起留校任教。2002年年3月破格晋升月破格晋升副教授副教授,2003年年11月被聘任为月被聘任为教授教授,2004年年4月获月获博士生导师博士生导师资格。资格。现任现任 人工智能教研室人工智能教研室 主任、机器学习与数据挖掘主任、机器学习与数据挖掘 研究组研究组 负责人。负责人。南京航天航空大学南京航天航空大学 兼职教授、兼职教授、澳

10、大澳大利亚利亚 Deakin大学大学 名誉名誉研究员研究员、复旦大学智能信息处、复旦大学智能信息处理重点实验室理重点实验室 学术委员会委员。学术委员会委员。 第五章第五章 机器学习机器学习一、概述一、概述二、主要策略与基本结构二、主要策略与基本结构三、常用的学习方法三、常用的学习方法四、数据挖掘和知识发现方法四、数据挖掘和知识发现方法五、数据挖掘开发工具简介五、数据挖掘开发工具简介 学习是一项复杂的智能活动,学习过程与推理过学习是一项复杂的智能活动,学习过程与推理过程是紧密相连的。程是紧密相连的。 按照学习中使用推理的多少按照学习中使用推理的多少,机器学习所采用的,机器学习所采用的策略大体上可

11、分为策略大体上可分为4 4种:种: 机械学习机械学习 通过传授学习通过传授学习 类比学习类比学习 通过事例学习通过事例学习1 机器学习机器学习的主要策略的主要策略其它策略见其它策略见“机器学习策略综述机器学习策略综述”一文一文 2 机器学习的基本结构机器学习的基本结构图图1 学习系统的基本结构学习系统的基本结构环境环境向系统的学习环节提供某些信息;向系统的学习环节提供某些信息;学习环节学习环节利用这些信息修改知识库,以增进系统执利用这些信息修改知识库,以增进系统执 行部分完成任务的效能;行部分完成任务的效能;执行环节执行环节利用知识库中的知识完成某种任务,同时利用知识库中的知识完成某种任务,同

12、时 把获得的信息反馈给学习环节把获得的信息反馈给学习环节 在具体的应用中,在具体的应用中,环境,知识库和执行部分决定了具环境,知识库和执行部分决定了具体的工作内容体的工作内容,学习部分所需要解决的问题完全由上,学习部分所需要解决的问题完全由上述述3部分确定。下面我们分别叙述这部分确定。下面我们分别叙述这3部分对设计学习部分对设计学习系统的影响。系统的影响。 影响学习系统设计的最重要的因素是环境向系统提供影响学习系统设计的最重要的因素是环境向系统提供的信息质量。的信息质量。 如果信息的质量比较高,与一般原则的差别比较小,如果信息的质量比较高,与一般原则的差别比较小,则学习部分比较容易处理。则学习

13、部分比较容易处理。 如果向学习系统提供的是杂乱无章的指导执行具体动如果向学习系统提供的是杂乱无章的指导执行具体动作的具体信息,则作的具体信息,则学习系统需要在获得足够数据之后学习系统需要在获得足够数据之后,删除不必要的细节,进行总结推广,形成指导动作,删除不必要的细节,进行总结推广,形成指导动作的一般原则,放入知识库。的一般原则,放入知识库。 知识库是影响学习系统设计的第二个因素知识库是影响学习系统设计的第二个因素。知识。知识的表示有多种形式,比如特征向量、一阶逻辑语的表示有多种形式,比如特征向量、一阶逻辑语句、产生式规则、语义网络和框架等等。这些表句、产生式规则、语义网络和框架等等。这些表示

14、方式各有其特点,示方式各有其特点,在选择表示方式时要兼顾以在选择表示方式时要兼顾以下下4个方面:个方面:(1)表达能力强。表达能力强。 (2)易于推理。易于推理。 (3)容易修改知识库。容易修改知识库。 (4)知识表示易于扩展。知识表示易于扩展。 执行部分是整个学习系统的核心执行部分是整个学习系统的核心,因为执行部分,因为执行部分的动作就是学习部分力求改进的动作。同执行部的动作就是学习部分力求改进的动作。同执行部分有关的问题有分有关的问题有3个:个:复杂性、反馈和透明性复杂性、反馈和透明性 。第五章第五章 机器学习机器学习一、概述一、概述二、主要策略与基本结构二、主要策略与基本结构三、常用的学

15、习方法三、常用的学习方法四、数据挖掘和知识发现方法四、数据挖掘和知识发现方法五、数据挖掘开发工具简介五、数据挖掘开发工具简介 1. 学习模式学习模式 机械学习是最简单的机器学习方法机械学习是最简单的机器学习方法记忆记忆,即把,即把新的知识存储起来,供需要时检索调用,而不需要新的知识存储起来,供需要时检索调用,而不需要计算和推理。计算和推理。 机械学习是最基本的学习过程,因为任何学习系统机械学习是最基本的学习过程,因为任何学习系统都必须记住它们获取的知识。都必须记住它们获取的知识。 在机械学习系统中,知识的获取是以较为稳定和直在机械学习系统中,知识的获取是以较为稳定和直接的方式进行的,不需要系统

16、进行过多的加工接的方式进行的,不需要系统进行过多的加工。 3.1 机械学习机械学习 当系统的执行部分解决好问题之后,系统就记住该当系统的执行部分解决好问题之后,系统就记住该问题及其解。问题及其解。这样,可把学习系统的执行部分抽象这样,可把学习系统的执行部分抽象地看成某个函数,该函数在得到自变量输入值地看成某个函数,该函数在得到自变量输入值(X1,X2,Xn)之后,计算并输出函数值之后,计算并输出函数值(Y1,Y2,Yp)。机械学习在存储器中简单地记忆存储对。机械学习在存储器中简单地记忆存储对(X1,X2,Xn),(Y1,Y2,Yp)。当需要。当需要f(X1,X2,Xn)时时,执行部分就从存储器

17、中把执行部分就从存储器中把(Y1,Y2,Yp)简单地检简单地检索出来而不是重新计算它。其学习模式如下:索出来而不是重新计算它。其学习模式如下: 一个决定受损汽车修理费用的汽车保险程序。一个决定受损汽车修理费用的汽车保险程序。 这个程序的输入是被损坏的汽车的描述,包括制造厂家、这个程序的输入是被损坏的汽车的描述,包括制造厂家、生产年代、汽车的种类以及记录汽车被损坏部位和损坏程生产年代、汽车的种类以及记录汽车被损坏部位和损坏程度的一个表;度的一个表; 程序的输出是保险公司应付的修理费用。程序的输出是保险公司应付的修理费用。 这个系统是个机械记忆系统。这个系统是个机械记忆系统。为了估算损坏汽车的修理

18、费为了估算损坏汽车的修理费用,程序系统必须在存储器中查找同一厂家、同一生产年用,程序系统必须在存储器中查找同一厂家、同一生产年代、损坏的部位和程度相同的汽车,然后把对应的费用提代、损坏的部位和程度相同的汽车,然后把对应的费用提交给用户交给用户。如果系统没有发现这样的汽车,则它使用保险。如果系统没有发现这样的汽车,则它使用保险公司公布的赔偿规则估算出一个修理费用,然后把厂家、公司公布的赔偿规则估算出一个修理费用,然后把厂家、生产日期和损坏情况等特征与估算出的费用保存起来,以生产日期和损坏情况等特征与估算出的费用保存起来,以便将来查找使用。便将来查找使用。 2 存在的主要问题存在的主要问题对于机械

19、学习,需要注意对于机械学习,需要注意3个重要的问题:个重要的问题:存储组存储组织,稳定性和存储与计算之间的权衡织,稳定性和存储与计算之间的权衡。(a) 存储组织信息。存储组织信息。显然,只有当检索一个项目的时显然,只有当检索一个项目的时间比重新计算一个项目的时间短时,机械学习才有间比重新计算一个项目的时间短时,机械学习才有意义,检索的越快,其意义也就越大。因此,采用意义,检索的越快,其意义也就越大。因此,采用适当的存储方式,使检索速度尽可能地快,是机械适当的存储方式,使检索速度尽可能地快,是机械学习中的重要问题。在数据结构与数据库领域,为学习中的重要问题。在数据结构与数据库领域,为提高检索速度

20、,人们研究了许多提高检索速度,人们研究了许多数据存储方式数据存储方式,如,如索引、排序、杂凑等等,在机械学习中我们可以充索引、排序、杂凑等等,在机械学习中我们可以充分利用这些成果来实现我们的要求。分利用这些成果来实现我们的要求。 (b) 环境的稳定性与存储信息的适用性问题。环境的稳定性与存储信息的适用性问题。在急在急剧变化的环境下机械学习策略是不适用的。做为剧变化的环境下机械学习策略是不适用的。做为机械学习基础的一个重要假定是在某一时刻存储机械学习基础的一个重要假定是在某一时刻存储的信息必须适用于后来的情况。然而如果信息变的信息必须适用于后来的情况。然而如果信息变换得特别频繁,这个假定就被破坏

21、了。换得特别频繁,这个假定就被破坏了。 例如在保险公司的确定被损坏汽车的修理费用的程序中,例如在保险公司的确定被损坏汽车的修理费用的程序中,50年代收集保存的有关汽车特征和修理费用的情况,年代收集保存的有关汽车特征和修理费用的情况,90年年代就很少适用了。因为代就很少适用了。因为50年代生产汽车的厂家和所产汽车年代生产汽车的厂家和所产汽车的牌号在的牌号在90年代已经有很多不存在了。由于通货膨胀和货年代已经有很多不存在了。由于通货膨胀和货币贬值,所要查询的修理费用也不适用了。因此机械学习币贬值,所要查询的修理费用也不适用了。因此机械学习系统必须保证所保存的信息适应于外界环境变化的需要,系统必须保

22、证所保存的信息适应于外界环境变化的需要,这 也 就 是 所 谓 的 信 息 适 用 性 问 题 。这 也 就 是 所 谓 的 信 息 适 用 性 问 题 。(c) 存储与计算之间的权衡。存储与计算之间的权衡。因为机械学习的根本因为机械学习的根本目的是改进系统的执行能力,因此对于机械学习来目的是改进系统的执行能力,因此对于机械学习来说很重要的一点是它不能降低系统的效率。比方说说很重要的一点是它不能降低系统的效率。比方说,如果检索一个数据比重新计算一个数据所花的时如果检索一个数据比重新计算一个数据所花的时间还要多间还要多,那么机械学习就失去了意义。,那么机械学习就失去了意义。 通过总结工作和训练经

23、通过总结工作和训练经验进行学习,是学习的验进行学习,是学习的一个好方法。一个好方法。 本节通过对一个检查莎本节通过对一个检查莎士比亚剧本精确性的过士比亚剧本精确性的过程,用解释学习来说明程,用解释学习来说明该学习方法。通过该过该学习方法。通过该过程可看到使用解释能了程可看到使用解释能了解事情的因果关系。解事情的因果关系。 3.2 基于解释的学习基于解释的学习 如同教师向学生提供先例,让学生练习,并期望学如同教师向学生提供先例,让学生练习,并期望学生在练习后能够发现一般原理一样。让机器设法找生在练习后能够发现一般原理一样。让机器设法找出先例与练习间的因果关系,出先例与练习间的因果关系,并应用先例

24、去处理练并应用先例去处理练习,把工作上升为原理,然后把这些原理存储起来习,把工作上升为原理,然后把这些原理存储起来供需要时检索调用。供需要时检索调用。 Greed(贪婪贪婪)的练习。的练习。这是关于一位软弱贵族与一位贪婪女人的练习。该这是关于一位软弱贵族与一位贪婪女人的练习。该贵族与该女人结了婚。解释一下为什么这位贵族很贵族与该女人结了婚。解释一下为什么这位贵族很可能想当国王。可能想当国王。贪婪贪婪女人女人wants王后王后贪婪贪婪女人女人邓肯邓肯is国王国王麦克佩斯麦克佩斯is贵族贵族(1)已知一些事实如下:)已知一些事实如下:麦克佩斯夫人麦克佩斯夫人is贪婪贪婪女人女人 建造一个解释样板,

25、用于考虑例中的因果链以及所建造一个解释样板,用于考虑例中的因果链以及所有与该因果链紧接的链。有与该因果链紧接的链。可解释有关结婚、贪婪、可解释有关结婚、贪婪、软弱等链如何导致麦克佩斯想当国王的链。软弱等链如何导致麦克佩斯想当国王的链。 本练习中的贵族是软弱的,而他的妻子是贪婪的。本练习中的贵族是软弱的,而他的妻子是贪婪的。具体例中,麦克佩斯软弱,而他的妻子麦克佩斯夫具体例中,麦克佩斯软弱,而他的妻子麦克佩斯夫人很贪婪。考虑到这些特性,我们假定:人很贪婪。考虑到这些特性,我们假定:两个类比两个类比状态中原因间的相似导致它们结果的相似状态中原因间的相似导致它们结果的相似。(3) 具体化链:具体化链

26、:一个被上升的具体化链如图一个被上升的具体化链如图 (a)所所示,其简化表示如图示,其简化表示如图 (b)所示。所示。谋杀事件的具体化链表示谋杀事件的具体化链表示 下面建立基于解释的学习,并从中学习新规则。下面建立基于解释的学习,并从中学习新规则。 (4) 使用语义框架具体化链:使用语义框架具体化链:使用合适描述予以表使用合适描述予以表达人物特性、其动机以及随之发生的行动。例如,达人物特性、其动机以及随之发生的行动。例如,麦克佩斯和邓肯可由节点来说明,两节点间用谋杀麦克佩斯和邓肯可由节点来说明,两节点间用谋杀链连接,如图链连接,如图 (a)所示所示谋杀谋杀(5)使用语义网对具体化链进一步的解释

27、:)使用语义网对具体化链进一步的解释: 这里对谋杀可用更多的说明,因为麦克佩斯用到这里对谋杀可用更多的说明,因为麦克佩斯用到一把刀。故可把谋杀当作一个概念节点,并与它一把刀。故可把谋杀当作一个概念节点,并与它的一些描述链相连,如图的一些描述链相连,如图(b)所示。所示。 1. 1. 归纳学习系统的模型归纳学习系统的模型 可把归纳学习形式化地描述为使用训练实例,从可把归纳学习形式化地描述为使用训练实例,从而导出一般规则的搜索问题。而导出一般规则的搜索问题。全体可能的实例构全体可能的实例构成实例空间,全体可能的一般规则构成规则空间成实例空间,全体可能的一般规则构成规则空间. .归纳的过程就是完成实

28、例空间与规则空间之间协归纳的过程就是完成实例空间与规则空间之间协调的搜索比较过程。归纳学习的调的搜索比较过程。归纳学习的“双空间双空间”模型模型可表示为下图的形式。可表示为下图的形式。 3.3归纳学习归纳学习 2. 2.归纳学习系统的执行过程:归纳学习系统的执行过程: 归纳学习系统的执行过程可大致描述为:归纳学习系统的执行过程可大致描述为: 根据规则空间提供的一般规则,由实验规划过程根据规则空间提供的一般规则,由实验规划过程通过对实例空间的搜索,完成实例选择,并将选通过对实例空间的搜索,完成实例选择,并将选中的活跃实例提交解释过程;中的活跃实例提交解释过程; 解释过程对实例经过适当的转换,将活

29、跃实例变解释过程对实例经过适当的转换,将活跃实例变换为规则空间中的特定概念,以引导对规则空间换为规则空间中的特定概念,以引导对规则空间的搜索。的搜索。 3. 3. 归纳学习方法:归纳学习方法:一般归纳学习包括示例学习和一般归纳学习包括示例学习和发现学习两类。发现学习两类。 (1 1)示例学习)示例学习,又称实例学习。它通过环境取得,又称实例学习。它通过环境取得的若干实例中,包括从相关的正例和反例中归纳的若干实例中,包括从相关的正例和反例中归纳出一般性概念或规则的方法。出一般性概念或规则的方法。 (2 2)发现学习往往来自于观察学习过程。)发现学习往往来自于观察学习过程。观察取观察取自于有关环境

30、的大量数据、实例以及经验数据的自于有关环境的大量数据、实例以及经验数据的了解与分析;发现即经过搜索而归纳出规则。这了解与分析;发现即经过搜索而归纳出规则。这是一种没有教师指导的归纳学习,其学习形式包是一种没有教师指导的归纳学习,其学习形式包括概念聚类、结构分类、数据拟合、发现自然定括概念聚类、结构分类、数据拟合、发现自然定律以至建立系统行为的理论。律以至建立系统行为的理论。 1.1.示例概念学习:示例概念学习:针对产生概念的正例集合与反针对产生概念的正例集合与反例集合,由归纳推理,得出覆盖所有正例并排除例集合,由归纳推理,得出覆盖所有正例并排除所有反例的概念描述,并可用规则形式或决策树所有反例

31、的概念描述,并可用规则形式或决策树的方法来表示这种概念的描述。的方法来表示这种概念的描述。 例如,要让示例学习系统学到关于虎的概念,可例如,要让示例学习系统学到关于虎的概念,可以先提供给程序以各种动物,以先提供给程序以各种动物,并告知程序哪些动并告知程序哪些动物是虎,哪些不是虎,系统学习后便概括出虎的物是虎,哪些不是虎,系统学习后便概括出虎的概念模型和类型定义概念模型和类型定义。利用这个类型定义,就可利用这个类型定义,就可作为动物世界中识别虎的分类准则作为动物世界中识别虎的分类准则。这种构造类。这种构造类型定义的学习,又称为概念学习。型定义的学习,又称为概念学习。 示例归纳学习示例归纳学习 2

32、.2.示例归纳学习举例:示例归纳学习举例:示例学习不仅可以学习概念示例学习不仅可以学习概念, ,也可获得规则。因此也可获得规则。因此, ,示例学习又可以看作是实例示例学习又可以看作是实例空间和规则空间相互作用的过程。空间和规则空间相互作用的过程。 例如,给出肺炎与肺结核两种病的一些病例例如,给出肺炎与肺结核两种病的一些病例, ,构成实例空间构成实例空间。每个病例都含有五种症状。每个病例都含有五种症状: :发烧发烧( (无、低、高无、低、高),),咳嗽咳嗽( (轻度轻度、中度、剧烈、中度、剧烈),X),X光所见阴影光所见阴影( (点状、索条状、片状、空洞点状、索条状、片状、空洞),),血沉血沉(

33、 (正常、快正常、快),),听诊听诊( (正常、干鸣音、水泡音正常、干鸣音、水泡音) )。 肺炎和肺结核的部分病例集见肺炎和肺结核的部分病例集见下下表。表。 表表 肺病实例集肺病实例集 症 状 病例号发烧咳嗽X光所见血沉听诊肺结核12345无高低无低轻微剧烈轻微轻微中度索条状空洞索条状点状片状正常快正常快快正常干鸣音正常干鸣音正常肺炎12345高中度低高中度 剧烈剧烈轻微中度轻微片状片状点状片状片状正常正常正常正常正常水泡音水泡音干鸣音水泡音水泡音血沉血沉是指在一定条件下,人体血液内红细胞沉降的速度是指在一定条件下,人体血液内红细胞沉降的速度 通过上述示例学习得到如下诊断规则:通过上述示例学习

34、得到如下诊断规则: 血沉血沉= =正常正常( (听诊听诊= =干鸣音干鸣音水泡音水泡音)诊断诊断= =肺炎肺炎 血沉血沉= =快快诊断诊断= =肺结核肺结核 于是从病例中归纳,产生了诊断规则。即实现了实于是从病例中归纳,产生了诊断规则。即实现了实例空间到规则空间的作用过程。例空间到规则空间的作用过程。 1.1.发现和观察学习过程:发现和观察学习过程: 这类代表性系统如这类代表性系统如AM系统系统(1977年年);BACON系统系统等。这类系统有时不仅能发现人们所知而未见的规等。这类系统有时不仅能发现人们所知而未见的规律或规则,甚至能发现客观事物中被人们忽略的新律或规则,甚至能发现客观事物中被人

35、们忽略的新概念。概念。 例如,利用例如,利用BACON实验数据分析的学习系统,人实验数据分析的学习系统,人们不仅发现了欧姆定律、牛顿万有引力定律、开普们不仅发现了欧姆定律、牛顿万有引力定律、开普勒行星运动定律等,还发现一些早期化学家发现的勒行星运动定律等,还发现一些早期化学家发现的定理,如普罗斯特定律、吕萨克定律等。定理,如普罗斯特定律、吕萨克定律等。发现和观察学习发现和观察学习2.发现和观察学习举例:发现和观察学习举例:例如,利用例如,利用BACON实验数据分析的学习系统,其实验数据分析的学习系统,其思想是利用一些算子反复构造一些新的项,当这思想是利用一些算子反复构造一些新的项,当这些项中有

36、一个是常数时,就得到概念些项中有一个是常数时,就得到概念“项项”=“常常数数”的规律。的规律。例如,对开普勒定律:行星绕太阳运动周期为例如,对开普勒定律:行星绕太阳运动周期为p与与行星到太阳的距离行星到太阳的距离d有关,即有公式:有关,即有公式: R = d3/p2 其中其中R为常数。计算过程如下表所示。为常数。计算过程如下表所示。 由上表,对开普勒定律公式由上表,对开普勒定律公式 R = d3/p2 发现过程为:发现过程为: p和和d都是递增,并且非线性互相依赖,触发建立新项都是递增,并且非线性互相依赖,触发建立新项d/p的算子。的算子。 d和和d/p的递增方向刚好相反,触发建立新项(的递增

37、方向刚好相反,触发建立新项(d/p)d=d2/p的算子。的算子。 d/p和和d2/p的递增方向刚好相反,触发建立新项(的递增方向刚好相反,触发建立新项(d/p)d2/p= d3/p2的算子。的算子。 项项d3/p2是常数,则得到行星运动定律。是常数,则得到行星运动定律。行星pdd/pd2/pd3/p2Mercury11101010Venus84052010Earth2790333010行星运动定律的发现行星运动定律的发现 第五章第五章 机器学习机器学习一、概述一、概述二、主要策略与基本结构二、主要策略与基本结构三、常用的学习方法三、常用的学习方法四、知识发现和数据挖掘四、知识发现和数据挖掘五、

38、数据挖掘开发工具简介五、数据挖掘开发工具简介 Motivation: Why data mining? 动机,动机, 背景背景 发生在发生在 数据库上的数据库上的 ”成长的烦恼成长的烦恼” 数据库的发展给自己引出了麻烦数据库的发展给自己引出了麻烦 。 数据爆增数据爆增 103Tu没有数据时没有数据时 千方百计搜集管理数据,上世纪千方百计搜集管理数据,上世纪60-70年代年代 层次库,层次库, 网状库,网状库,u有了数据有了数据 扩充能力,搜集管理更多数据,上世纪扩充能力,搜集管理更多数据,上世纪80-90年代年代 关系库关系库,OODB.u 数据太多了,管不下来。上世纪数据太多了,管不下来。上

39、世纪-90年代年代 现在现在 KDD ,DM. (作科研(作科研 找项目也类似找项目也类似) We are Data Rich but Information PoorDatabases are too bigData Mining can help discover knowledgeTerrorbytes2022-5-3054 一、提出一、提出 1989年年8月,在美国底特律召开的第月,在美国底特律召开的第11届国际届国际AI会会议专题讨论会上,议专题讨论会上,知识发现知识发现概念被首次提出。概念被首次提出。 数据挖掘数据挖掘概念,又称数据开采或数据采掘,于概念,又称数据开采或数据采掘,于

40、1995年年在加拿大召开的第一届在加拿大召开的第一届KDD和和DM国际学国际学术会议上被提出。术会议上被提出。 知识发现和数据挖掘是知识发现和数据挖掘是人工智能、机器学习与数人工智能、机器学习与数据库技术据库技术相结合的产物。相结合的产物。 目前,国内外学术界和企业界,都十分重视对它目前,国内外学术界和企业界,都十分重视对它们的研究与开发。们的研究与开发。 知识发现知识发现尿布和啤酒故事尿布和啤酒故事: : 美国一家大型超市,经过计算机对商场以往销售记美国一家大型超市,经过计算机对商场以往销售记录数据的分析、归纳、整理、运算后发现了这样一录数据的分析、归纳、整理、运算后发现了这样一条规律:条规

41、律: 在超市中购买尿布的多为青年男性,他们往往在购在超市中购买尿布的多为青年男性,他们往往在购买尿布之后还要顺手买上一听啤酒。买尿布之后还要顺手买上一听啤酒。 于是超市便改变了以往婴儿用品区域与啤酒类商品于是超市便改变了以往婴儿用品区域与啤酒类商品区域区域“相隔千里相隔千里”的布局,将二者相邻而置,结果的布局,将二者相邻而置,结果两种商品的销量都立竿见影地大幅度上升两种商品的销量都立竿见影地大幅度上升。 这是数据挖掘运用于现实生活中的最为简单的一个这是数据挖掘运用于现实生活中的最为简单的一个事例。事例。 人们给人们给KDD下过很多定义,内涵也各不相同,下过很多定义,内涵也各不相同,目前公认的定

42、义是由目前公认的定义是由Fayyad等人提出的。等人提出的。 所谓基于数据库的知识发现所谓基于数据库的知识发现(KDD)是是指从大量指从大量数据中提取有效的、新颖的、潜在有用的、最终数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的高级处理过程。可被理解的模式的高级处理过程。二、二、KDD定义定义三、三、KDD的处理过程的处理过程 数据目 标数 据预处理数据 变 换数 据模式知识选择选择 预处理预处理 变换变换 数据挖掘数据挖掘 解释评价解释评价 知识发现大致分为知识发现大致分为3部分:部分:数据准备;数据挖掘;数据准备;数据挖掘; 结果解释和评价。结果解释和评价。 所谓数据准备,则又

43、包含三个子过程,它们是所谓数据准备,则又包含三个子过程,它们是数数据选择、数据预处理和数据变换据选择、数据预处理和数据变换。 数据选择:数据选择:目的是确定与任务相关目标数据,根据目的是确定与任务相关目标数据,根据用户需要,从原始数据库中抽取一组有用的数据;用户需要,从原始数据库中抽取一组有用的数据; 数据预处理:数据预处理:包括消除噪声、推导计算并补充缺值包括消除噪声、推导计算并补充缺值数据、消除重复记录、完成数据类型转换等。例如数据、消除重复记录、完成数据类型转换等。例如,把连续值数据转换为离散型的数据,以便于符号,把连续值数据转换为离散型的数据,以便于符号归纳;或是把离散型的转换为连续值

44、型的,以便于归纳;或是把离散型的转换为连续值型的,以便于神经网络归纳等。神经网络归纳等。 数据变换:数据变换:目的在于消减数据维数,即从初始特征目的在于消减数据维数,即从初始特征中找出真正有用的特征,减少特征变量个数。中找出真正有用的特征,减少特征变量个数。 首先要确定挖掘的任务或目的是什么首先要确定挖掘的任务或目的是什么,如数据总结、如数据总结、分类、聚类、关联规则发现或序列模式发现等;分类、聚类、关联规则发现或序列模式发现等;然后,决定采用什么样的挖掘算法。然后,决定采用什么样的挖掘算法。为了提高挖掘效为了提高挖掘效率,一要针对数据类型不同的特点,二要针对用户或率,一要针对数据类型不同的特

45、点,二要针对用户或实际运行系统的要求来选用相关合适的算法来开采。实际运行系统的要求来选用相关合适的算法来开采。例如,例如,有的用户可能希望获取描述型的、容易理解的有的用户可能希望获取描述型的、容易理解的知识,而有的用户或系统的目的要求获取预测准确度知识,而有的用户或系统的目的要求获取预测准确度,需要尽可能高的预测型知识。完成系统分析和这些,需要尽可能高的预测型知识。完成系统分析和这些准备工作后,就可实施数据挖掘操作了。准备工作后,就可实施数据挖掘操作了。 数据挖掘出来的模式,经过用户或机器的评价,数据挖掘出来的模式,经过用户或机器的评价,可可能存在冗余或无关的模式能存在冗余或无关的模式,这时就

46、需要将其剔除;,这时就需要将其剔除;也有也有可能得到的模式不满足用户要求可能得到的模式不满足用户要求,这时则需要,这时则需要系统退回到发现过程之前,重新选择数据,采用新系统退回到发现过程之前,重新选择数据,采用新的数据变换方法,设定新的参数值,甚至换一种开的数据变换方法,设定新的参数值,甚至换一种开采算法。采算法。 数据挖掘定义由数据挖掘定义由W.J.Frawley、G.Piatetsky等提出:等提出:从大量数据中从大量数据中开采出隐含的、事先未知的、对决策有开采出隐含的、事先未知的、对决策有潜在价值的知识与规则潜在价值的知识与规则,这些规则蕴含了,这些规则蕴含了数据库中一数据库中一组对象之

47、间的特定关系,揭示出一些有用的信息和知组对象之间的特定关系,揭示出一些有用的信息和知识。识。这些信息和知识可表示为这些信息和知识可表示为相关的概念、规则、规相关的概念、规则、规律和模式律和模式,从而为系统决策、策划提供知识依据。,从而为系统决策、策划提供知识依据。数据挖掘数据挖掘 采用采用DM,能够发现下列各种知识:,能够发现下列各种知识: 广义型知识,广义型知识,反映同类事物共同性质的知识。反映同类事物共同性质的知识。 特征型知识,特征型知识,反映事物各方面的特征知识。反映事物各方面的特征知识。 差异型知识,差异型知识,反映不同事物之间属性差别的知识。反映不同事物之间属性差别的知识。 关联型

48、知识,关联型知识,反映事物之间关联或依赖的知识。反映事物之间关联或依赖的知识。 预测型知识,预测型知识,根据历史和当前的数据推测未来数据根据历史和当前的数据推测未来数据 偏离型知识,偏离型知识,揭示事物偏离常规的异常现象。揭示事物偏离常规的异常现象。数据挖掘是从大型数据库提取知识,并表示为概念数据挖掘是从大型数据库提取知识,并表示为概念、规则、规律、模式等形式。、规则、规律、模式等形式。典型的数据挖掘系统结构如下图所示。典型的数据挖掘系统结构如下图所示。 数据库数据库数据清理数据集成数据仓库数据仓库数据过滤图形用户界面图形用户界面模式评估模式评估数据挖掘引擎数据挖掘引擎数据库或数据仓库服务器数

49、据库或数据仓库服务器可分为数据集成、数据选择、数据预处理等步骤。可分为数据集成、数据选择、数据预处理等步骤。将多文件或多数据库运行环境中的数据将多文件或多数据库运行环境中的数据进行合并处理进行合并处理,解决语义模糊性、处理数据中的遗解决语义模糊性、处理数据中的遗漏,清洗脏数据等。漏,清洗脏数据等。目的在于辨别出需要分析的数据集合目的在于辨别出需要分析的数据集合,缩缩小处理范围小处理范围,提高提高DM的质量。的质量。为了克服目前为了克服目前DM 工具的局限性工具的局限性,主要是通主要是通过净化、转换、群聚、分类等手段降低数据的复过净化、转换、群聚、分类等手段降低数据的复杂性杂性,并且重新加以组织。并且重新加以组织。其次,研究开发一种或多种其次,研究开发一种或多种DM工具工具,如如IBM 的的IDM 和和SGI的的Mine Set 等。等。最后,用最后,用DM 工具来发现未知的知识工具来发现未知的知识,并运用知识作并运用知识作为决策支持为决策支持,达到预定目标。达到预定目标。 逻辑数据库被选择的数据预处理后的数据被转换的数据被抽取的信息被同化的知识选择预处理转换开关分析和同化数据挖掘的基本过程数据挖掘的基本过程按照数据挖掘技术所能够发现的规则按照数据挖掘技术所能够发现的规则,将常见的数据,将常见的数据挖掘任务分为七种类型:挖掘任务分为七种类型: 特征规则。特征规则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论