归纳和学习的结合

上传人：9*** IP属地：湖北上传时间：2021-10-11 格式：PPT 页数：45 大小：1.14MB 积分：30 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、1 机器学习机器学习第12章归纳和分析学习的结合 2 概述概述纯粹的归纳学习方法通过在训练样例中寻找经验化的规律来形成一般假设纯粹的分析方法使用先验知识演绎推导一般假设本章考虑将归纳和分析的机制结合起来的方法，并获得两者的优点：有先验知识时获得更高的泛化精度和依赖训练数据克服先验知识的不足所得到的结合的方法比纯粹的归纳方法和分析方法的性能都要高本章考虑的归纳分析学习方法同时基于符号表示和人工神经网络表示 3 动机在前几章已经见到两种类型的机器学习，归纳方法如决策树归纳和神经网络反向传播归纳学习寻找拟合训练数据的一般假设，分析学习寻找拟合先验知识的一般假设，同时

2、使它覆盖训练数据归纳方法和分析方法对假设的论证方法有根本区别，因此优缺点互为补充，将它们结合起来有可能得到更强有力的学习方法纯粹的分析学习方法的优缺点优点：可用先验知识从较少的数据中更精确地泛化以引导学习缺点：当先验知识不足或不正确时，可能产生误导纯粹的归纳学习方法的优缺点优点：不需要显示的先验知识，主要基于训练数据学习规律缺点：训练数据不足时，会失败，会被其中隐式的归纳偏置所误导本章考虑的问题是怎样将二者结合成一个单独的算法来获得它们各自的优点。表12-1概述了以上二者的互补的优点和缺陷。表表12-1 纯粹的分析学习和纯粹的归纳学习的比较纯粹的分析学习和纯粹的归纳学习

3、的比较 4 归纳和分析学习方法之间的不同可从他们对学习到的假设进行的论证性质中看出。由纯粹的分析学习输出的假设执行的是逻辑论证：输出的假设从领域理论和训练数据中演绎派生。纯粹的归纳学习方法输出的假设执行的是统计论证：输出的假设从统计论据中派生。他说明训练样本足够大，从而能代表样例的基本分布。归纳的统计论证在第七章中讨论的PAC 学习中已清晰阐明。由于分析方法提出逻辑论证的假设，而归纳方法提供统计论证的假设，很容易看出将两者结合起来的好处是什么。逻辑论证的强度只相当于他们所给予的假定或先验知识。如果先验知识不正确或不可知，逻辑论证是不可信和无说服力的。统计论证的强度依赖于他们

4、基于的数据和统计假定。当基准分布不可信或者数据稀少时，统计论证也是不可信且无力的。简而言之，两种方法针对不同类型的问题时才有效。通过两者的结合，有望开发出更通用的学习方法，可以覆盖较广的学习任务。 6 动机（动机（2）图12-1 概述了学习问题的分布范围，它随着可获得的先验知识和训练数据不同而变化在一个极端，有大量的训练数据，但没有先验知识在另一个极端，有很强的先验知识，但训练数据很少多数实际学习问题位于这两个极端之间，通常可以从近似的先验知识开始举个例子：通过分析医疗记录的数据库来学习治疗手段X比治疗手段 Y更有效的病症，通常可以从近似的先验知识开始（如，疾病中内

5、在的因果机制的定性模型），比如认定患者的体温比他的姓名更相关。类似地，在分析一个股票的市场数据库来学习目标概念“股票值在后十个月会翻番地公司” 中，如果已经有了经济学的大概知识，可以提出公司地总利润比公司标志的颜色更相关。这两种问题中，我们的先验知识是不完整的，但显然，它有助于区分相关不相关的特征。本章考虑的问题是：我们可以设计出什么样的算法，使用近似的先验知识结合可用数据来形成一般的假设 8 动机（3）即使使用最纯粹的归纳学习算法，仍有机会基于特定学习任务的先验知识来选择设计方案例如：当应用反向传播来解决语音识别这样的问题时，设计者必须选择输入和输出数据的编码方式、在

6、梯度下降中被最小化的误差函数、隐藏单元的数量、网络的塔普结构、学习速率和冲量等。在做这些选择时，通常设计者将领域特定的知识嵌入到学习算法中，然而结果仍然是纯粹的归纳算法反向传播的一个实现，由设计者针对语音识别任务进行特殊化。但我们感兴趣的是一个系统能将先验知识和训练数据作为显示的输入给学习器。这样他们仍然是通用的算法，但利用了领域的特定知识概括而言，我们感兴趣的是领域无关算法，这种算法使用显示输入的领域相关的知识，这种算法具备以下的属性：如果没有领域理论，它至少能像纯粹的归纳方法一样有效学习如果没有完美的领域理论，它至少能像纯粹的分析方法一样有效学习如果领域理

7、论和训练数据都不完美，它应能结合两者的长处，比单纯的归纳或分析方法的性能要好它应能处理训练数据中未知程度的差错它应能处理领域理论中未知程度的差错这里列出的期望目标很难达到，目前没有算法能以一般化的方式满足所有这些约束例如：处理训练的中的差错，即使在基于统计的归纳方法中，如果没有某些先验知识和对错分布的假定，这仍然是值得研究的问题结合归纳和分析学习方法是当前活跃的研究领域。虽然上面列出的是我们希望算法能够达到的美好性质，目前没有算法能以完全一般化的方式满足多有的约束。下一节对结合归纳分析学习的问题做出进一步的讨论后面季节描述了三种不同的途径，结合近似的先验知识和可用数

8、据来指导学习期搜索合适的假设。每种途径都已经在多个问题领域中显示出有纯归纳方法的性能。为方便比较，我们使用同一个例子来说明这三种途径。学习的归纳学习的归纳-分析途径分析途径最好地拟合训练样例和领域理论的确切定义：这句话的具体含义是什么呢？或者说，是否会选择一个拟合数据程度较好而拟合理论较差的假设，或反之？为了更精确起见，需要定义对应数据和对应于领域理论的假设错误率量度，然后用这些错误率来表示这个问题。回忆一下第五章中 errorD（h）定义为D中被h无分类的样例所占比例。可定义h关于领域理论B的错误率errorB（h）为：h和B在分类一个随机抽取实例时的不一致的概率。接下来

9、就可以尝试使用这些错误率的形式刻画所希望的输出假设。 11 )()(minargherrorkherrork BBDD Hh 例如:我们可以要求假设使上述错误率的某种综合度量最小化，如：虽然看起来这很合理，但还不知道怎么确定KD的和KB的值来指定拟合数据和拟合理论两者的相对重要程度。如果有非常差的理论，却有大量可靠数据，最好是errorD（h）的权值增大会得到更好的结果。当然如果学习器预先不知道领域理论和训练数据的质量，它就不清楚怎样为这两部分错误率加权。怎样确定先验知识和数据权值的一种解决办法是使用贝叶斯的观点。 13 学习的归纳-分析途径（2）确定先验知识和数据权值的

10、一种解决方法是使用贝叶斯观点贝叶斯定律描述了怎样计算给定训练数据D时假设h 的后验概率贝叶斯定律基于观察到的数据D以及先验知识计算后验概率，以P(h), P(D)和P(D|h)的形式表示我们可以把P(h), P(D)和P(D|h)看作是某种形式的背景知识贝叶斯理论可看作一种为领域理论加权的方法，它与观察到的数据D一起，赋予h的后验概率为P(h|D) 按照贝叶斯的观点，所选择的假设应该为后验概率最大的那一个，并且贝叶斯公式提供了为先验知识和观察到数据的贡献加权的方法但是，贝叶斯公式隐含假定了关于P(h), P(D), P(D|h)概率分布的完美知识，当这些量都是近似已知时

11、，单独的贝叶斯公式没有规定加何将其与观察数据结合起来（在此情况下，一种方法是假定有P（h）、P（D）和P（D|h）之上的先验概率分布，然后加un厚颜概率P(h|D)的期望值。然而这要求有P（h）、P（D）和P（D|h）之上的先验分布方面的附加知识，因此并没有真正的解决此问题。当考虑特定算法时，我们会再次考虑“最佳”拟合假设和数据是什么含义。现在，我们只是简单地说，学习问题是为了使假设在数据和领域理论上的错误率的某种综合度量最小化。 15 假设空间搜索假设空间搜索如何将领域理论和训练数据最好的结合起来，从而限制可接受假设的搜索呢？这在机器学习中仍是需要研究的问题。本章考察

12、了几种已提出的方法，其中许多要对已讨论过的归纳方法（如，反向传播，FOIL）进行扩展。为了了解可能途径的范围，一种办法是回到前面对学习的看法，即将其看作是一种搜索多个可选假设空间的任务。为了将大多数学习任务可以刻画为假设空间上的搜索任务,而决定这个搜索任务的4个参数是：假设空间H 搜索的初始假设h0 定义单个搜索步的搜索算子集合O 指定搜索目标的判据G 本章探索了3种方法，它们用先验知识来改变纯归纳方法执行的搜索使用先验知识推导出搜索起步的初始假设：Kbann 使用先验知识来改变假设空间搜索的目标：Ebnn 使用先验知识改变可用的搜索步：Focl 使用先验知识推导出搜索起步的初

13、始假设：使用先验知识来改变假设空间搜索的目标：使用先验知识改变可用的搜索步： 19 使用先验知识得到的初始假设 KBANN技术：一种使用先验知识的方法是将假设初始化为完美拟合领域理论，然后按照需要归纳地精化初始假设以拟合训练数据。这种方法被用于KBANN算法中、在KBANN中，首先建立一个初始的网络。对每个可能的实例，网络赋予他的分类等于领域理论赋予的分类。然后应用反向传播算法来调整初始网络，使其拟合训练样例这种技术的动机是：如果领域理论是正确的，初始假设将正确分类所有训练样例，而无需再修正；如果初始假设不能完美地分类训练样例，那么它需要被归纳精华，以改进它在训练样例上

14、的拟合度 21 KBANN算法算法 KBANN运用领域理论来初始化假设。其中KBANN假定领域理论用一组命题形式的非递归的Horn子句来表示，输入和输出如下：已知：一组训练样例由非递归命题型Horn子句组成的领域理论求解：一个拟合训练样例的被领域理论偏置的人工神经网络 KBANN算法包含两个阶段创建一个完美拟合领域理论的人工神经网络使用反向传播算法来精化初始网络以拟合训练样例 22 表12-2 KBANN算法 KBANN(Domain_Theory, Training_Examples) Domain_Theory：非递归命题型Horn子句集 Training_Example

15、s：目标函数的对的集合分析步：创建一个等价于领域理论的初始网络对每个实例属性创建一个网络输入对Domain_Theory的每个Horn子句，创建如下的网络单元连接此单元的输入到此子句的先行词测试的属性对子句的每个非负先行词，赋予权值W给对应的sigmoid单元输入对子句的每个负先行词，赋予权值-W给对应的sigmoid单元输入设置此单元的阈值w0为-(n-0.5)W，其中n为子句的非负先行词的数目在网络单元之间增加附加的连接，连接深度为i的每个网络单元到深度为i+1的所有网络单元的输入层上，赋予这些附加的连接为接近0的随机权值归纳步：精化此初始网络应用反向传播算法来调整

16、初始网络权值以拟合Training_Examples 表12-3 Cup学习任务领域理论训练样例 24 举例在KBANN算法的第一步，构建一个与领域理论一致的初始网络，例如，从Cup的领域理论中构建的网络描绘于见图12-2中。一般说来，网络的构建是通过对领域理论中每个 Horn子句建立一个sigmoid单元。KBANN遵从惯例， sigmoid输出值大鱼0.5时被解释为真，小于0.5则解释为假。因此每个单元的构建方法为：当对应的 Horn子句存在时，单元的输出就大于0.5. 对该Horn子句的每个先行词，建立其对应的Sigmoid 单元作为输入，然后设置Sigmoid单元的权值，

17、使其计算得出其输入的逻辑与。确切的讲，对于每个对应于非负先行词的输入，权值被设置为某正常量W，对每个对应于负先行词的输入，权值为-W 单元的阈值权w0设为-(n-0.5)W，其中n为非负先行词的数目当单元输入值为1或者0的时候，这保证了当且仅当所有的子句先行词满足时，输入的加权和加上W0为正。注意，对于sigmoid单元，第二层及以后的层中单元输入不一定为1或者0，上面的命题无法应用于此。然而如果为W选择足够大的值，此KBANN算法可以对任意深度的网络进行领域理论编码。T & S在多次试验中使用W=4.0. 每个sigmoid单元输入被连接到适当的网络输入或另一个si

18、gmoid单元的输出，一反应领域理论中对应属性的依赖关系图。最后一步，又附加许多输入到每个阈值单元，它们的权值设置为近似0，从而允许网络能够学习到超出领域理论的依赖关系。图12-2中的粗实线表明权值W的单元输入，而细实线表明初始权值约为0的连接。很容易验证对于足够大的W值，此网络输出值对于领域理论的预测。在KBANN算法的第二步，使用训练样例和反向传播算法来精化网络权值。当然，如果领域理论与训练数据不一致，所以此步骤会改变初始网络的权值。细线表明可忽略的权值。虽然初始网络无分类了表12-3中几个训练样例，但图12-3中精化的网络能完美的分类所有的训练样例。 29 KBA

19、NN算法说明算法说明概括的来讲，可KBANN用分析的方式创建了等价于给定领域理论的网络，然后归纳的精化此初始假设以更好的拟合训练数据。在此过程中，它为了改变领域理论和训练数据不一致的情况而修改网络权值。与純归纳的反向传播相比，KBANN的好处在于，它在给定近似正确领域理论时，能够比反向传播有更高的泛化精度，特别是在训练数据稀少的情况。在几种实际系统中KBANN和其他几个初始化假设的途径已显示出优于純归纳的系统。例如：Towell 描述了将KBANN应用于分子遗传问题，任务是学习识别称为激发区域的DNA片段，它影响基因的活性。在此实验中，KBANN 的领域理论从一个分析遗传学家

20、那里获取，而激发区域的训练样例包含53个正例和53个反例。性能评估使用了留一法，系统运行106次，每次循环中KBANN用105个样例训练，并在剩余的样例上测试，这106次试验结果被积聚起来提供对真实错误的估计。 KBANN错误率为4/106，而标准的反向传播错误率为 8/106.KBANN的一个变种由Fu实现的，他报告在同样的数据上的错误率为2/106，因此先验知识在这些实验中很大程度上减少了错误率。 Fu和Towell都报告：从最终训练过的网络中抽取的Horn子句，可提供一个更好拟合训练数据的领域理论。虽然有时可能从学习到的网络权值设置没有直接对应的Horn子句。 Crave

21、n & Shavlik和Craven描述了另外的方法从学习过的网络中抽取符号规则。未了解KBANN的定义，有必要考虑其中的假设搜索与純归纳的反向算法中有什么区别。这两种算法中执行的假设空间搜索在图12-4示意。如其中显示的，关键区别在于执行权值调节所给予的初始假设。在有多个假设能拟合数据的情况下，KBANN更有可能收敛到这样的假设，它从训练数据中的泛化与领域理论的预测更为相似。另一方面，反响传播收敛道德特定假设更可能是小权值的假设，它大致对应于在训练样例间平滑差值的泛化偏置。简要的说，KBANN使用一个领域特定的理论来偏置泛化，而反向传播算法使用一个领域无关的语法偏置。

22、简要的说，KBANN使用一个领域特定的理论来偏置泛化，而反向传播算法使用一个与领域无关的语法偏置。注意，在此概述中我们忽略了搜索中的局部极小值的影响。 KBANN的局限性之一是只能使用命题领域理论，即无变量的Horn子句集。如果给与很不精确的领域理论， KBANN也可能被误导，从而其泛化精度变得低于反向传播，不过，KBANN和相关算法在若干实际问题中很有用。 KBANN是结合分析和归纳学习的初始化假设途经中的一种。这一途径的其他例子包括Fu、Gallant、Bradshaw等等。这些途径不同之处再与建立初始化假设的实际使用的技术、权值调整的反向传播的应用以及从精化的网络中抽取符号

23、描述的方法。Pratt描述的一个初始化假设途径中，先验知识是通过先前对相关任务学习到的神经网络来提供的。训练贝叶斯的值的放方法也可能被看作是用先验知识来初始化假设的。这里先验知识对于一组条件独立性假定，它确定了贝叶斯网的图结构，然后期条件概率表从训练数据中归纳得到。使用先验知识改变搜索目标使用先验知识改变搜索目标将先验知识合并到梯度下降中需最小化的误差判据，这样网络需要拟合的是训练数据和领域理论的组合函数 TangentProp算法 TangentProp算法接受的领域知识被表示为对应于其输入变换的目标函数的导数例如，对每个实例xi描述为一个实数，那么每个训练样例的形式可

24、能是图12-5，基于3个训练样例学习目标函数f，通过拟合训练值f(xi)的同时拟合相应的导数，学习器能够实现更好的泛化概括而言，包含训练导数的效果是为了克服反向传播算法中的归纳偏置，将其替换为所希望的导数的显示输入信息？P248-P249 i x x xf )( 33 34 TangentProp举例举例 Simard et al.提供了TangentProp的泛化精度与纯归纳反向传播之间的比较结果针对任务是为单个数字0到9的图像做标注给予TangentProp的先验知识是：数字的分类不因图像的水平和垂直平移而改变表12-4，显示TangentProp的泛化精度高于纯反

25、向传播算法 35 TangentProp的说明 TangentProp使用的先验知识形式为目标函数对应其输入变换的所希望的导数 TangentProp通过使一个指标函数最小化来结合先验知识和观察到的训练数据，这个指标函数同时度量了网络对应训练样例值的误差和网络对应于导数的误差值决定了网络在中个误差中拟合这两部分的程度，它由设计者选择 TangentProp的不足：对于先验知识中的错误健壮性不强，而且不能预先知道训练导数中的错误出现程度，因而不能很好地选择常量以确定拟合训练值和训练导数的相对重要程度 36 TangentProp的说明（2） TangentProp和反向传播的搜索

26、方法比较 TangentProp通过改变梯度下降最小化的指标函数来影响假设搜索，相当于改变了搜索目标如果训练样例和先验知识都正确，并且目标函数可用ANN精确表示，那么满足TangentProp指标的权向量集合将为满足反向传播指标的权向量集合的子集，一些不正确的假设会被TangentProp剔除掉对目标函数的训练导数拟合的另一种方法是，简单地将观察到的训练样例附近的附加训练样例综合起来，使用已知的训练导数来估计这些附近的实例的训练值 37 EBNN算法 EBNN是基于解释的神经网络，它用两种方式改进了TangentProp 算法它不依靠用户提供训练导数，而是对每个训练样例自行

27、计算训练导数，计算方法是通过用一套给定的领域理论来解释每个训练样例涉及了如何确定学习过程中归纳和分析部分相对重要程度的问题，的值是对每个训练样例独立选择的，它基于一个启发式规则，考虑领域理论能否精确预测特定样例的训练值因此，对于那些能由领域理论正确解释的训练样例，学习的分析成分被强化，而对不能正确解释的样例，分析成分被弱化 38 EBNN算法（2） EBNN的输入包括：形式为的一组训练样例，不包含训练导数一组领域理论，表示为一组预先训练过的神经网络，而不是KBANN采用的Horn子句 EBNN的输出：一个能逼近目标函数f的新的神经网络，学习到的网络能够拟合训练样例以及从

28、领域理论中抽取的f的训练导数图12-7，图的上面部分显示的是目标函数Cup的领域理论，每一方块表示领域理论中一个神经网络，图的下面是要学习的新神经网络，称为目标网络 39 EBNN算法（算法（3） EBNN通过执行TangentProp算法来学习目标网络 EBNN把接收到的输入训练值和从领域理论中计算出的导数提供给TangentProp EBNN计算训练导数的方法？ 40 EBNN算法的说明概括地说，EBNN算法使用的领域理论被表示为一组预先学习到的神经网络，然后领域理论与训练样例一起训练其输出假设对每个训练样例，EBNN使用其领域理论来解释它，然后从此解释中抽取训练导数

29、对实例的每个属性计算出一个训练导数，以描述按照领域理论，目标函数值是怎样被属性值的微小变化影响的 Prolog-EBG与EBNN的区别 EBNN能够处理不完美的领域知识，而Prolog-EBG 不能 Prolog-EBG学习到逐渐增长的Horn子句集，而 EBNN学习到固定大小的神经网络 41 使用先验知识来扩展搜索算子 FOCL是纯归纳算法FOIL的一个扩展，它们的区别在于：搜索单个 Horn子句的一般到特殊过程中候选假设生成的方法 FOIL生成每个候选特化式是通过加入一个新文字到子句前件中得到的 FOCL使用同样的方法产生候选特化式，但还基于领域理论生成了附加的特化式操作型文字和非操作型文字操作型文字：当一个文字可被用于描述一个输出假设非操作型文字：只出现在领域理论中作为中间特征但不是实例的原子属性的文字 42 FOCL算法 FOCL使用下面两种算子扩展当前假设h 对不是h一部分的每个操作型文字，创建h

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

归纳和学习的结合

文档简介

温馨提示

最新文档

评论

归纳和学习的结合

文档简介

温馨提示

最新文档

评论

相关文档