知识获取与机器学习_第1页
知识获取与机器学习_第2页
知识获取与机器学习_第3页
知识获取与机器学习_第4页
知识获取与机器学习_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

知识获取与机器学习2.3.1机器学习概述2.3.2机器学习的主要策略机械学习指导式学习2.3知识获取与机器学习归纳学习示例学习观察与发现学习2.3.1机器学习概述什么是学习?2.3.1机器学习概述学习是系统改进其性能的过程学习是有特定目的的获取知识的过程。学习是技能的获取。学习是事物规律的发现过程。学习的表现形式2.3.1机器学习概述获取知识学习的内在行为积累经验、发现规律改进性能适应环境学习的外部表现实现系统的自我完善人类知识获取(学习)基础知识学习(固化记忆)生产实践(总结经验)知识的发展与完善(新、旧知识融合)循环2.3.1机器学习概述机器能否象人类一样能具有学习能力呢?2.3.1机器学习概述1959年美国的塞缪尔(Samuel)设计了一个下棋程序,该程序具有学习能力,它可以在不断的对奕中改善自己的棋艺。起先,程序下不过设计者;后来,设计者下不过程序;再后来,程序还战胜了美国一个洲的冠军。从而向人们展示了机器学习的能力,提出了许多令人深思的社会问题与哲学问题。机器的能力是否能超过人呢?2.3.1机器学习概述很多人认为:机器是人造的,其性能和动作完全是由设计者规定的,因此无论如何其能力也不会超过设计者本人。但是,对具备学习能力的机器来说,其能力可在应用中不断地提高,过一段时间之后,甚至设计者本人也不知它的能力达到了何种水平。机器知识获取(机器学习)知识工程师从知识源抽取知识存入知识库通过机器学习或数据挖掘工具从实践数据中获得新知识由知识工程师和领域专家配合更新知识库循环2.3.1机器学习概述2.3.1机器学习概述机器知识获取把知识从知识源中抽取出来,并转为特定的计算机表示机器学习计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善对知识源知识进行理解、选择、分类和组织,形成知识库从已有知识中产生新知识检查知识的一致性、完整性和无冗余性机器学习的重要性:例子—网络安全入侵检测:是否是入侵?是何种入侵?如何检测?历史数据:以往的正常访问模式及其表现、以往的入侵模式及其表现……对当前访问模式分类这是一个典型的预测型机器学习问题常用技术:神经网络决策树支持向量机k近邻序列分析聚类…………2.3.1机器学习概述现在语音识别器或翻译器几乎都是建立在某种具有学习能力的设备上----使用的越多,则它越聪明12机器学习的重要性:例子—自然语言处理/语音识别2.3.1机器学习概述132.3.1机器学习概述机器学习的重要性:例子—对象识别汽车自动驾驶系统142.3.1机器学习概述机器学习的重要性:例子—机器人控制152.3.1机器学习概述机器学习的重要性:例子—机器人控制162.3.1机器学习概述机器学习的重要性:例子—文本挖掘172.3.1机器学习概述机器学习的重要性:例子—生物信息学美国航空航天局JPL实验室的科学家在《Science》(2001年9月)上撰文指出:机器学习对科学研究的整个过程正起到越来越大的支持作用,……,该领域在今后的若干年内将取得稳定而快速的发展机器学习的重要性生物信息学计算金融学分子生物学行星地质学……工业过程控制机器人……遥感信息处理信息安全机器学习2.3.1机器学习概述机器学习的研究基本上经历了以下几个发展时期:通用的学习系统研究基于符号表示的概念学习系统研究基于知识的各种学习系统研究联接学习和符号学习的深入研究2.3.1机器学习概述机器学习发展历史1通用的学习系统研究(50年代中叶开始)主流方式——构造没有或者只有很少初始知识的通用系统,主要技术——神经元模型以及基于该模型的决策论和控制论;数值和统计方法的范畴。以感知机为代表的早期神经元模型的研究未取得实质性进展,并在60年代末走入低谷:机械学习的成功激励了研究者们继续进行机器学习的研究:代表成果:塞缪尔(A.L.Samuel)于50年代末设计的跳棋程序;随着使用次数的增加,积累性记忆有价值的信息,很快达到大师级水平。2.3.1机器学习概述2基于符号表示的概念学习系统研究(60年代中叶开始)研究目标——是表示高级知识的符号描述及获取概念的结构假设。主要技术——概念获取和各种模式识别系统的应用;综合了逻辑和图结构的表示。最有影响的开发工作——温斯顿(Winston,1975)的基于示例归纳的结构化概念学习系统。

开始将领域知识编入学习系统:巴查纳(B.G.Buchanan,1978)等的META-DENDRAL,里南(D.B.Lenat,1976)的AM等。2.3.1机器学习概述3基于知识的各种学习系统研究(70年代中期)不再局限于构造概念学习系统和获取上下文知识结合了问题求解中的学习、概念聚类、类比推理及机器发现的工作。工作特点:基于知识的方法——强调应用面向任务的知识和指导学习过程的约束。开发各种各样的学习方法——示例学习、示教学习、观察和发现学习、类比学习、基于解释的学习。结合生成和选择学习任务的能力——应用启发式知识于学习任务的生成和选择,包括提出收集数据的方式、选择要获取的概念、控制系统的注意力等。2.3.1机器学习概述4联接学习和符号学习的深入研究(八十年代后期)联接学习和符号学习的深入研究导致机器学习领域的极大繁荣

神经网络的研究重新迅速崛起,并在声音识别、图象处理等诸多领域得到很大成功。符号学习应用技术蓬勃发展:基于计算机网络的各种自适应、具有学习功能的软件系统的研制和开发,将机器学习的研究推向新的高度2.3.1机器学习概述连接机器学习符号机器学习遗传机器学习分析机器学习机器学习研究的变迁Carbonell(1989)展望Dietterich(1997)展望?统计机器学习集成机器学习符号机器学习增强机器学习流形机器学习半监督机器学习多实例机器学习Ranking机器学习数据流机器学习应用驱动的机器学习研究连接主义符号主义行为主义目前,以“主义”争霸的时代已经过去,不同方法解决不同问题。2.3.1机器学习概述能够从某个过程或环境的未知特征中学到有关信息,并且能把学到的信息用于未来的估计、分类、决策或控制,以便改进系统的性能在与环境相互作用时,能利用过去与环境作用时得到的信息,并提高其性能。能够在一定程度上实现机器学习的系统萨利斯(Saris)的定义(1973年)施密斯等的定义(1977年)机器学习系统执行与评价环境学习知识库

学习系统的基本结构环境向系统的学习部分提供信息学习部分利用信息修改知识库,以增进系统执行部分完成任务的效能执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分。2.3.1机器学习概述机器学习系统的基本模型(1)环境要求信息的质量高与一般原则的差别较小,易于学习学习系统需要删除具体信息的不必要细节,形成一般原则信息往往是不完全的学习系统所进行的推理不完全是可靠的,需要通过执行效果加以检验。2.3.2机器学习的主要策略影响机器学习系统的主要因素知识库知识表示的形式多样化:状态空间、一阶谓词逻辑、产生式规则、语义网络和框架。表达方式选择的原则表达能力强

例如:表示木块<color,shape,volumn>,表示木块之间的关系ExEy(RED(x)^GREEN(y)^ONTOP(x,y))易于推理

例如:推理过程中经常要遇到判别两种表示方式是否等价容易修改数据库

如新、旧知识可能会矛盾,等等。知识表示易于扩展2.3.2机器学习的主要策略影响机器学习系统的主要因素执行是整个学习系统的核心。复杂性复杂的任务比简单的任务需要更多的知识。反馈所有的学习系统必须以某种方式评价学习部分提出的假设。透明性要求从系统执行部分的动作效果可以容易地对知识库的规则进行评价。2.3.2机器学习的主要策略影响机器学习系统的主要因素1.按学习方法分类(温斯顿,1977):机械式学习指导式学习示例学习类比学习等2.3.1机器学习概述机器学习系统分类2.按学习能力分类:监督学习(有教师学习)再励学习、非监督学习2.3.1机器学习概述机器学习系统分类3.按推理方式分类:基于演绎的学习(解释学习)基于归纳的学习(示例学习、发现学习等)2.3.1机器学习概述机器学习系统分类2.3.1机器学习概述2.3.2机器学习的主要策略机械学习指导式学习2.3知识的获取归纳学习示例学习观察与发现学习通过直接记忆或者存储外部环境所提供的信息达到学习的目的,并在以后通过对知识库的检索得到相应的知识直接用来求解问题,也被称记忆学习,或死记式学习2.3.2机器学习的主要策略---1.机械学习

机械式学习(rotelearning)机械学习是最基本的学习过程,因为任何学习系统都必须记住它们获取的知识2.3.2机器学习的主要策略---1.机械学习

机械式学习(rotelearning)

机械式学习实质是用存储空间来换取处理时间对任意复杂问题,如果已有解决的方法,可把解决方法抽象地看成某个函数,该函数在得到自变量输入值(X1,X2,…,Xn)之后,计算并输出函数值(Y1,Y2,…,Yp)。机械学习在存储器中简单地记忆存储对((X1,X2,…,Xn),(Y1,Y2,…,Yp))。当需要f(X1,X2,…,Xn)时,从存储器中把(Y1,Y2,…,Yp)简单地检索出来即可(并非重新计算)机械学习模式图示2.3.2机器学习的主要策略---1.机械学习

机械式学习(rotelearning)机械式学习可用于推理过程的简化:2.3.2机器学习的主要策略---1.机械学习

机械式学习(rotelearning)例如,第一次解一元二次方程时,人们必须使用很长的一段推导才能得出解方程的求根公式。而一旦有了求根公式,以后再解一元二次方程,就不必重复以前的推导过程,可以直接使用求根公式计算出根机械学习需要注意的重要问题:2.3.2机器学习的主要策略---1.机械学习

机械式学习(rotelearning)(a)存储检索速度/计算速度显然,只有当检索一个项目的时间比重新计算一个项目的时间短时,机械学习才有意义,检索的越快,其意义也就越大。因此,采用适当的存储方式,使检索速度尽可能地快,是机械学习中的重要问题。在数据结构与数据库领域,为提高检索速度,人们研究了许多卓有成效的数据存储方式,如索引、排序、杂凑等等,在机械学习中我们可以充分利用这些成果来实现我们的要求。(b)环境的稳定性与存储信息的适用性问题:在急剧变化的环境下机械学习策略是不适用的。做为机械学习基础的一个重要假定是在某一时刻存储的信息必须适用于后来的情况。然而如果信息变换得特别频繁,这个假定就被破坏了。2.3.2机器学习的主要策略---1.机械学习机械学习需要注意的重要问题:

机械式学习(rotelearning)1)估算一下存储信息所要花费的存储空间以及检索信息时所花费的时间,然后将其代价与重新计算所花的代价比较,再决定存储信息是否有利。2)把信息先存储起来,但为了保证有足够的检索速度,要限制存储信息的总量,系统只保留那些最常使用的信息,“忘记”那些不常使用的信息。该方法也叫“选择忘却”技术。2.3.2机器学习的主要策略---1.机械学习解决存储与计算之间的权衡问题的方法有两种:

机械式学习(rotelearning)机械学习应用举例::

2.3.2机器学习的主要策略---1.机械学习

机械式学习(rotelearning)吉林大学开发的建筑工程预算软件系统建筑工程中多采用符合国家或省市标准的标准件,有大量的标准图集2.3.1机器学习概述2.3.2机器学习的主要策略机械学习指导式学习2.3知识的获取43指导式学习(learningbybeingtold)又称嘱咐式学习或教授式学习:由外部环境向系统提供一般性的指示或建议,系统把它们具体地转化为细节知识并送入知识库中。在学习过程中要反复对形成的知识进行评价,使其不断完善。指导式学习的学习过程:征询指导者的指示或建议、把征询意见转换为可执行的内部形式、加入知识库、评价。2.3.2机器学习的主要策略---2.指导式学习44简单征询:指导者给出一般性的意见,系统将其具体化。复杂征询:系统不仅要求指导者给出一般性的建议,而且还要具体地鉴别知识库中可能存在的问题,并给出修改意见。被动征询:系统只是被动地等待指导者提供意见。主动征询:系统不只是被动地接受指示,而且还能主动地提出询问,把指导者的注意力集中在特定的问题上。1.征询指导者的指示或建议2.3.2机器学习的主要策略---2.指导式学习学习系统应具有把用约定形式表示的征询意见转化为计算机内部可执行形式的能力,并且能在转化过程中进行语法检查及适当的语义分析。2.把征询意见转换为可执行的内部形式在加入过程中要对知识进行一致性检查,以防止出现矛盾、冗余、环路等问题。3.加入知识库评价方法:对新知识进行经验测试,即执行一些标准例子,然后检查执行情况是否与已知情况一致。4.评价2.3.2机器学习的主要策略---2.指导式学习2.3.1机器学习概述2.3.2机器学习的主要策略机械学习指导式学习2.3知识的获取归纳学习应用归纳方法所进行的推理,即从足够多的事例中归纳出一般性的知识。它是一种从个别到一般、从部分到整体的推理。归纳出的结论不能绝对保证它的正确性,只能以某种程度相信它为真。例如,由“麻雀会飞”、“鸽子会飞”、“燕子会飞”……归纳出“有翅膀的动物会飞”、“长羽毛的动物会飞”等结论。2.3.2机器学习的主要策略---3.归纳学习归纳推理从个别事例归纳出一般性知识的方法:设:某类事物A中的具体事物。已知都有属性P,并且没有发现反例。当n足够大时,可得出:“A中所有事物都有属性P”。1.枚举归纳2.3.2机器学习的主要策略---3.归纳学习归纳推理例如,设有如下已知事例:张三是足球运动员,他的体格健壮。李四是足球运动员,他的体格健壮。…………刘六是足球运动员,他的体格健壮。事例足够多时,可归纳出一般性知识:凡是足球运动员,他的体格一定健壮。1.枚举归纳(0.9)2.3.2机器学习的主要策略---3.归纳学习归纳推理已知两个事物a与b有n个属性相似或相同,即: a具有属性P1,b也具有属性P1。a具有属性P2,b也具有属性P2。…………a具有属性Pn,b也具有属性Pn。且a具有属性Pn+1,则当n足够大时,可归纳出b也具有属性Pn+1。2.联想归纳2.3.2机器学习的主要策略---3.归纳学习归纳推理设:且则当A与B中有新元素出现时(设A中的及B中的),若已知有属性,就可得出有属性,即3.类比归纳2.3.2机器学习的主要策略---3.归纳学习归纳推理

一般模式:(1)若H为真时,则H→E必为真或以置信度cf1成立。(2)观察到E成立或以置信度cf2成立。(3)则H以某种置信度(cf)成立。4.逆推理归纳用公式表示:2.3.2机器学习的主要策略---3.归纳学习归纳推理

cf的计算方法:4.逆推理归纳(续)2.3.2机器学习的主要策略---3.归纳学习归纳推理5.消除归纳

消除归纳:通过不断否定原先的假设来得出结论。已知:结论:2.3.2机器学习的主要策略---3.归纳学习归纳推理演绎推理归纳推理从一般到个别从个别到一般

必然性推理

或然性推理

结论不会超出前提所断定的范围不能获取新知识

结论适用于更大的范围可获取新知识2.3.2机器学习的主要策略---3.归纳学习归纳推理2.3.1机器学习概述2.3.2机器学习的主要策略机械学习指导式学习2.3知识的获取归纳学习示例学习通过从环境中取得若干与某概念有关的例子,经归纳得出一般性概念的一种学习方法示例学习中,外部环境(教师)提供一组例子(正例和反例),然后从这些特殊知识中归纳出适用于更大范围的一般性知识,它将覆盖所有的正例并排除所有反例。。验证形成知识解释搜索知识库示例空间2.3.2机器学习的主要策略---3.1示例学习1.示例学习的基本概念示例学习中有两个重要的概念:例子空间和规则空间。例子空间就是向系统提供的训练例子集合,如教系统识别狗时提供的狗、其它动物和物品。规则空间是事物所具有的某种规律,例如“狗有四条腿”、“狗有两只眼睛”、“狗有一条尾巴”等2.3.2机器学习的主要策略---3.1示例学习1.示例学习的基本概念示例学习的两个空间模型2.3.2机器学习的主要策略---3.1示例学习1.示例学习的基本概念2.形成知识的方法(1)变量代换常量例如,假设有两个关于扑克牌“同花”概念的示例。示例1:示例2:

可得到一条一般性的知识:规则1:2.3.2机器学习的主要策略---3.1示例学习2.形成知识的方法(2)舍弃条件例如示例:

可得到一条一般性的知识:规则1:2.3.2机器学习的主要策略---3.1示例学习2.形成知识的方法(3)增加操作(a)前件析取法例如关于“脸牌”示例:

得到知识:2.3.2机器学习的主要策略---3.1示例学习2.形成知识的方法(3)增加操作(b)内部析取法例如示例:

得到知识:2.3.2机器学习的主要策略---3.1示例学习2.形成知识的方法(4)合取变析取例如:“男同学与女同学可以组成一个班”。归纳:“男同学或女同学可以组成一个班”。2.3.2机器学习的主要策略---3.1示例学习2.形成知识的方法(5)归结归纳

例如:得到:2.3.2机器学习的主要策略---3.1示例学习2.形成知识的方法(6)曲线拟合设在示例空间提供了一批如下形式的示例:(x,y,z)示例1:(1,0,10)示例2:(2,1,18)示例3:(-1,-2,-6)应用曲线拟合法得到:z=2x+6y+82.3.2机器学习的主要策略2.3.2机器学习的主要策略---3.1示例学习示例学习举例:示例学习不仅可以学习概念,也可获得规则。因此,示例学习又可以看作是实例空间和规则空间相互作用的过程。例如,给出肺炎与肺结核两种病的一些病例,构成实例空间。每个病例都含有五种症状:发烧(无、低、高),咳嗽(轻度、中度、剧烈),X光所见阴影(点状、索条状、片状、空洞),血沉(正常、快),听诊(正常、干鸣音、水泡音)。2.3.2机器学习的主要策略2.3.2机器学习的主要策略---3.1示例学习示例学习举例:肺炎和肺结核的部分病例集见下表。

症状病例号

发烧咳嗽X光所见血沉听诊肺结核12345无高低无低轻微剧烈轻微轻微中度索条状空洞索条状点状片状正常快正常快快正常干鸣音正常干鸣音正常肺炎12345高中度低高中度剧烈剧烈轻微中度轻微片状片状点状片状片状正常正常正常正常正常水泡音水泡音干鸣音水泡音水泡音2.3.2机器学习的主要策略---3.1示例学习示例归纳学习举例:通过上述示例学习得到如下诊断规则:⑴血沉=正常∧(听诊=干鸣音∨水泡音)→诊断=肺炎⑵血沉=快→诊断=肺结核于是从病例中归纳,产生了诊断规则。即实现了实例空间到规则空间的作用过程。2.3.2机器学习的主要策略---3.1示例学习2.3.1机器学习概述2.3.2机器学习的主要策略机械学习指导式学习2.3知识的获取归纳学习示例学习观察与发现学习Learningfromobservationanddiscovery机器发现从观察的事例或经验数据中归纳出规律或规则。

正确结论直觉

分析/综合

类比外界现象

联想

归纳形成假设验证/证明差异反馈2.3.2机器学习的主要策略---3.2观察与发现学习2.3.2机器学习的主要策略---3.2观察与发现学习概念聚类的基本思想:把事例按一定的方式和准则进行分组,如划分为不同的类,不同的层次等,使不同的组代表不同的概念,并且对每一个组进行特征概括,得到一个概念的语义符号描述。概念聚类概念聚类:1980年,米卡尔斯基(R.S.Michalski)例如对如下事例:喜鹊、麻雀、布谷鸟、乌鸦、鸡、鸭、鹅,…分为两类:鸟={喜鹊,麻雀,布谷鸟,乌鸦,…}家禽={鸡、鸭、鹅,…}得知:“鸟有羽毛、有翅膀、会飞、会叫、野生”。“家禽有羽毛、有翅膀、会飞、会叫、家养”。2.3.2机器学习的主要策略---3.2观察与发现学习概念聚类知识发现就是从大量数据中提取可信的、新颖的、有用的并能被人理解的信息,经过验证、完善后形成知识。知识发现的一般过程下图所示。数据目标数据预处理数据

变换数据模式知识选择

预处理

变换

数据挖掘

解释评价

2.3.2机器学习的主要策略---3.2观察与发现学习知识发现知识发现的提出:1989年8月,在美国底特律召开的第11届国际AI会议专题讨论会上,知识发现概念被首次提出。而数据挖掘概念,又称数据开采或数据采掘,于1995年在加拿大召开的第一届KDD和DM国际学术会议上被提出。知识发现和数据挖掘是人工智能、机器学习与数据库技术相结合的产物,它是在计算机科学技术的高速发展及其需求的驱动下发展起来的一门新的技术。目前,国内外学术界和企业界,都十分重视对它们的研究与开发。2.3.2机器学习的主要策略---3.2观察与发现学习知识发现知识发现大致分为3部分:2.3.2机器学习的主要策略---3.2观察与发现学习知识发现结果解释和评价。数据准备;数据挖掘;1.数据准备:2.3.2机器学习的主要策略---3.2观察与发现学习知识发现数据选择:目的是确定与任务相关目标数据,根据用户的需要,从原始数据库中抽取一组有用的数据;数据预处理:包括消除噪声、推导计算并补充缺值数据、消除重复记

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论