




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章机器学习第9章机器学习机器学习的定义及重要性机器学习的发展历史机器学习的主要方法机器学习面临的挑战机器学习研究展望内容机器学习的定义及重要性内容参考教材:蔡自兴,徐光佑.人工智能及其应用(第三版)).北京:清华大学出版社,2004.StuartRussell,PeterNorvig.“ArtificialIntelligence:AModernApproach”.机器学习(美)TomM.Mitchell著机械工业出版社模式分类(美)RichardO.Duda等著机械工业出版社参考教材:蔡自兴,徐光佑.人工智能及其应用(第三版))机器学习的定义
利用经验改善系统自身的性能[T.Mitchell,Book97]机器学习是研究如何使用机器来模拟人类学习活动的一门学科。机器学习的定义利用经验改善系统自身的性能机器学习的定义
学习是系统所作的适应性变化,使得系统在下一次完成同样或类似的任务时更为有效。
[H.A.Simon]
学习是构造或修改对于所经历事物的表示。
[R.S.Michalski]
学习是知识的获取。
机器学习的定义学习是系统所作的适应性变化,机器学习是多学科的交叉机器学习是多学科的交叉机器学习的重要性机器学习是人工智能的主要核心研究领域之一,也是现代智能系统的关键环节和瓶颈。很难想象:一个没有学习功能的系统能被称具有智能的系统。来自生物、金融与网络等各领域的数据,迫切需要分析或建立模型。机器学习的重要性机器学习是人工智能的主要核心研究领域之一,机器学习的应用网络安全入侵检测天气预报对未来天气的预报搜索引擎机器学习技术支撑各类搜索引擎技术汽车的自动驾驶天文数据的分析机器学习的应用网络安全机器学习的应用生物技术蛋白质片段预测基因表达分析计算机系统特性预测银行信用卡欺诈行为识别字符识别Web应用……机器学习的应用生物技术机器学习的分支数据挖掘利用历史数据来改进决策医学记录--医学知识软件应用(不能手工编程的应用)汽车自动驾驶语音识别等自用户化程序新闻阅读器学习用户的阅读兴趣机器学习的分支数据挖掘利用历史数据来改进决策机器学习与美国的PAL计划美国航空航天局JPL实验室的科学家在《Science》(2001年9月)上撰文指出:机器学习对科学研究的整个过程正起到越来越大的支持作用,……,该领域在今后的若干年内将取得稳定而快速的发展。DARPA,2003年开始启动以机器学习为核心的计划PAL(PerceptiveAssistantthatLearns)。5年期,首期(1-1.5年)投资2900万美元。包含2个子计划:其中,CALO子计划是整个PAL计划的核心(2200万),将机器学习技术放到了国家安全的角度来考虑。美国主要大学与公司参加这个子计划。机器学习与美国的PAL计划美国航空航天局JPL实验室的科学家机器学习的发展历史机器学习是人工智能研究较为年轻的分支,它的发展过程大体上可分为4个时期。热烈时期50年代中叶到60年代中叶冷静时期60年代中叶至70年代中叶复兴时期70年代中叶至80年代中叶最新阶段从1986年---机器学习的发展历史机器学习是人工智能研究较为年轻的分支,它的机器学习早期研究Rosenblatt的感知机(1956)。Widrow的Madline(1960)。Samuel的符号机器学习(1965)。Minsky的“Perceptron”著作(1969,1988)机器学习早期研究Rosenblatt的感知机(1956)。二十世纪八十年代的研究符号机器学习取得进展。神经网络的研究。计算学习理论---PAC(概率近似正确)。二十世纪八十年代的研究符号机器学习取得进展。两类最重要的符号机器学习算法覆盖算法与分治算法。七十年代末,Michalski基于带等号的逻辑演算,提出了AQ11算法,称为符号机器学习的覆盖算法。
1986年,Quinlan提出了决策树算法,也称为分治算法(树结构表示的最早研究是CLS,概念学习系统)。两类最重要的符号机器学习算法覆盖算法与分治算法。神经网络Hopfield模型。Kohonen模型。Goldberg的ART模型。……。最有影响的是Remulhart等人提出的BP算法(1986)。神经网络Hopfield模型。计算学习理论1984年,Valiant提出机器学习应该以模型概率近似正确(1-δ)为指标,而不是以概率为1为指标。学习算法必须对样本集合的规模呈多项式。统计机器学习、集成机器学习等方法的理论基础。计算学习理论1984年,Valiant提出机器学习应该以模型机器学习的研究理论分析
从理论上探索各种可能的学习方法和独立于应用领域的算法监督学习非监督学习半监督学习强化学习多示例学习增量学习与在线学习集成学习多策略学习进化计算人工生命神经网络模糊集与粗糙集多Agent系统中的学习基于案例的推理决策树支持向量机k近邻序列分析聚类……
面向任务的研究
研究和分析改进一组预定任务的执行性能的学习系统。信息检索生物信息学语音、图像处理与理解自然语言理解对复杂结构数据的学习数据挖掘与知识发现模式识别多Agent系统中的学习
……
认知模型
研究人类学习过程并进行计算机模拟。人类学习的计算模型计算学习理论增强学习系统可理解性神经网络人工生命……
机器学习的研究理论分析
从理论上探索各种可能的学习方法机器学习的三要素一致性假设:机器学习的条件。样本空间划分:决定模型对样本集合的有效性。泛化能力:决定模型对世界的有效性机器学习的三要素要素1:一致性假设假设样本集Q与世界W具有某种相同的性质。原则上说,存在各种各样的一致性假设。在统计意义下,一般假设:Q与W具有同分布。给定世界W的所有对象独立同分布。要素1:一致性假设假设样本集Q与世界W具有某种相同的性质。要素2:对样本空间的划分
样本集合模型:将样本集放到一个n维空间,寻找一个超平面(等价关系),使得问题决定的不同对象被划分在不相交的区域。要素2:对样本空间的划分样本集合模型:要素3:泛化能力泛化能力是从有限样本集合计算所得到的模型对世界为真程度的度量。要素3:泛化能力泛化能力是从有限样本集合计算所得到的模型对机器学习的主要方法有监督学习从输入和输出的实例中学习一个函数无监督学习在未提供明确的输出的情况下,学习输入的模式强化学习从强化物中学习,而不是根据教师所说的应该做什么而学习机器学习的主要方法有监督学习机器学习方法的分类归纳机器学习连接机器学习统计机器学习。集成机器学习。增强机器学习。……机器学习方法的分类归纳学习归纳学习是应用归纳推理进行学习的一类学习方法,学习者从所提供的事实或观察到的假设进行归纳推理,获得某个概念。是研究最广的一种符号学习方法,其学习目的是为了获得新的概念、构造新的规则或发现新的理论。这种方法要求大量的训练例,而且归纳性能受到描述语言、概念类型、信噪比、实例空间分布、归纳模式等的影响。包括:有变型(版本)空间、决策树方法、AQ11算法,一阶Horn子句等归纳学习归纳学习是应用归纳推理进行学习的一类学习方法,学习者连接学习一个连接模型(神经网络)是由一些简单的类似神经元的单元以及单元间带权的连接组成。连接学习通过使用各类例子来训练网络,产生网络的内部表示,并用来识别其他输入例子。学习主要表现在调整网络中的连接权,是非符号的,并且具有高度并行分布式处理的能力.优点:在模式识别、语音处理等许多方面已得到成功应用。缺点:缺乏严密理论体系的指导;“黑箱性”;1990年,Hansen和Salamon提出了神经网络集成(NeuralNetworkEnsemble)方法。从神经网络中以及从神经网络集成中抽取规则连接学习一个连接模型(神经网络)是由一些简单的类似神经元的统计机器学习理论基础是统计决策论与Bayes分析。三要素:
1)模型(Model):假设(Hypothesis)
2)策略(Strategy):损失函数优化(OptimizationofLossfunction)
3)算法(Algorithm):寻找最优模型(Findingoptimalmodel)
问题变为在确定的损失函数(准则函数或目标函数)意义下的优化问题。
统计机器学习理论基础是统计决策论与Bayes分析。集成机器学习使用多个容易设计的简单PAC弱分类器代替一个较难设计的PAC强分类器。泛化理论来自PAC的弱分类器理论:1990年Shapire证明,如果将多个PAC弱分类器集成在一起,它将具有PAC强分类器的泛化能力。这类集成后的强分类器具有统计学习理论的基础。集成机器学习使用多个容易设计的简单PAC弱分类器代替一个较难集成分类器集成分类器集成在分类时,采用投票的方式决定新样本属于哪一类。由于每个分类器的分类能力不同,在集成时,需要对所有分类器加权平均,以决定分哪类。集成在分类时,采用投票的方式决定新样本属于哪一类。受关注的原因弱分类器比强分类器设计简单。有统计学习理论的基础。典型方法:加权多数算法,Bootstrap,ADABOOST等。受关注的原因弱分类器比强分类器设计简单。增强机器学习增强机器学习最早提出是考虑“从变化环境中”学习蕴含在环境中知识,其本质是对环境的适应开始的动机主要是为了解决机器人规划、避障与在环境中适应的学习问题目前,由于网络用户是更为复杂的环境,例如,如何使搜索引擎适应用户的需求,成为更为重要的应用领域Q学习,动态规划,遗传学习,以及免疫网络都成为实现增强机器学习的有效方法。增强机器学习增强机器学习最早提出是考虑“从变化环境中”学习蕴机器学习的最新研究算法驱动(建模与数据分析)应用驱动机器学习的最新研究算法驱动(建模与数据分析)算法(数据)驱动海量数据(108-10)。算法的泛化能力。算法的可解释性。不同类型数据的学习方法。算法(数据)驱动领域应用驱动自然语言数据分析、DNA数据分析、网络与电信数据分析、图像数据分析、金融与经济数据分析、旅游数据分析...。Web信息的有效获取(新一代搜索引擎)。由此导致各种学习任务:数据流学习、多实例学习(部分放弃独立同分布条件)、Ranking学习。需要各种算法及整合,解决实际问题。领域应用驱动自然语言数据分析、DNA数据分析、网络与电信数据应用驱动机器学习流形机器学习半监督机器学习多实例机器学习Ranking机器学习数据流机器学习图模型机器学习……应用驱动机器学习流形机器学习流形机器学习很多问题的表示方法,使得信息十分稀疏,如何将信息稠密化是一个困难的问题(“维数灾难”),主成分分析是一种方法,但是,只对线性情况有效流形学习是解决上述问题的非线性方法由于流形的本质是分段线性化,因此,流形学习需要解决计算开集、设计同胚映射等问题流形机器学习很多问题的表示方法,使得信息十分稀疏,如何将信息半监督机器学习在观测数据中,可能有很多观测不能决定其类别标号。这需要根据数据中已知类别标号的样本与领域知识来推测这些样本的类别标号,并建立问题世界的模型,这就是半监督学习这类问题直接来自于实际应用:例如,大量医学影像,医生把每张片子上的每个病灶都标出来再进行学习,是不可能的,能否只标一部分,并且还能利用未标的部分?半监督机器学习在观测数据中,可能有很多观测不能决定其类别标号多示例机器学习传统的机器学习中,一个对象有一个描述,而在一些实际问题(特别是涉及到结构化数据的问题)中,一个对象可能同时有多个描述,到底哪个描述是决定对象性质(例如类别)的,却并不知道。解决这种“对象:描述:类别”之间1:N:1关系的学习就是多示例学习多示例机器学习传统的机器学习中,一个对象有一个描述,而在一些Ranking机器学习其原始说法是learningforranking问题主要来自信息检索,假设用户的需求不能简单地表示为“喜欢”或“不喜欢”,而需要将“喜欢”表示为一个顺序,问题是如何通过学习,获得关于这个“喜欢”顺序的模型。Ranking机器学习其原始说法是learningfor数据流机器学习在网络数据分析与处理中,有一类问题,从一个用户节点上流过的数据,大多数是无意义的,由于数据量极大,不能全部存储,因此,只能简单判断流过的文件是否有用,而无法细致分析如何学习一个模型可以完成这个任务,同时可以增量学习,以保证可以从数据流中不断改善(或适应)用户需求的模型数据流机器学习在网络数据分析与处理中,有一类问题,从一个用户机器学习的研究趋势尽管“学习机制”还是研究的动力,然而,“烦恼网络”的危机,使得更为重要的推动力来自“有效利用”信息。传统领域借用机器学习提高研究水平(例如文本与图像)。应用驱动的机器学习范式层出不穷。基于机器学习的数据分析方法成为解决复杂问题的关键之一。机器学习的研究趋势尽管“学习机制”还是研究的动力,然而,“传统领域借用机器学习提高研究水平文本与图像占信息的绝大数模式识别最引人注目的是机器学习在这个领域扮演日益重要的角色。在文本分析与自然语言理解上,数据资源建设逐渐完善,关注的焦点是机器学习,文法归纳的方法已死灰复燃。传统领域借用机器学习提高研究水平文本与图像占信息的绝大数应用驱动的机器学习方法层出不穷面临信息多种多样,复杂!流形机器学习:稀疏数据的非线性方法(特征抽取)。增强学习:对变化环境适应(机器人)。多实例学习:半监督学习(药物设计)。ranking学习:需求是事物排序的学习(搜索引擎)。数据流学习:大量数据快速过滤(有害信息过滤)。这些问题大多数没有坚实的理论基础,处于实验观察阶段。应用驱动的机器学习方法层出不穷面临信息多种多样,复杂!基于机器学习的数据分析方法成为解决复杂问题的关键之一由于大部分问题不能满足机器学习所需的条件,因此,需要考虑数据分析。符号数据分析(数据挖掘):关联规则,例外分析。例外分析:ShapardandNosofsky的认知研究+符号机器学习基于机器学习的数据分析方法成为解决复杂问题的关键之一由于大部资源IEEE,
Elsevier,
Kluwer等期刊免费期刊JAIR和JMLR,分别在:
/research/jair/home.html
/UCI数据集是一个常用的标准测试数据集,下载地址在
/~mlearn/MLRepository.html关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:
http://www.cs.waikato.ac.nz/ml/weka/
MachineLearningMailingListinChina中国机器学习邮件列表资源IEEE,
Elsevier,
Kluwer等期刊机器学习存在的问题维数灾难满足一定统计指标(期望与方差)的模型(精度),需要的样本数量将随着维数的增加,指数增长(或模型复杂程度,或模型表示长度指数增长)。统计机器学习需要满足独立同分布条件,严厉!寻找问题线性表示的空间,没有一般的原则。信息向符号的映射,没有好的方法。机器学习没有一劳永逸的解决方案。领域知识与数据分析不可避免。机器学习存在的问题维数灾难满足一定统计指标(期望与方差)维数灾难信息稀疏问题。信息颗粒太细,解释太多,维数灾难!关系数据问题。为了表示简洁,数据不能表示为属性-值表的形式,需要关系数据形式。数据不能表示为命题形式,只能表示为一阶谓词形式需求问题。不同需求,目标函数不同,表示形式也不同(半监督、Ranking、数据流、多示例等)。例外问题。在很多问题中(科学数据分析,ISI),模型重要,不满足模型的个例更为重要。在特定需求下,建立不同信息长度的模型,并同时派生例外。等等维数灾难信息稀疏问题。机器学习的假设独立同分布条件数据集合不是从单一“问题世界”采样获得,它们是多个“问题世界”采样的叠加或组合。因此,对确定问题世界,噪音(另一些包含在数据中的目标)不独立于这个问题世界。机器学习的假设独立同分布条件理论和方法建立模型将非线性问题变换为线性表述的问题。两种理念:整体模型vs局部模型理论和方法建立模型将非线性问题变换为线性表述的问题。整体模型:非线性问题的线性描述选择映射,将在原空间(欧氏空间)的非线性问题映射到另一个空间(特征空间),使得这个非线性问题可以在被映射的空间上线性描述。这是核技巧的基础。目前,主要是多项式基的Hilbert空间。线性化的代价:维数增加特征空间的维数需要多大的规模?时间换空间!整体模型:非线性问题的线性描述选择映射,将在原空间(欧氏空间问题描述机器学习研究最本质的问题之一是问题描述空间问题。被选择的映射空间不同,学习方法不同。例如:多项式基的Hilbert空间统计机器学习局部假设为基的空间集群机器学习保持拓扑的嵌入空间流形机器学习问题描述机器学习研究最本质的问题之一是问题描述空间问题。被选由于“维数灾难”的限制,发展一般的机器学习方法只是一种理想。在不同领域发展不同的理论、方法与范式,是必须考虑的问题。机器学习面临的困难问题,没有领域知识的支持,不可能解决,例如,需求问题、例外问题就与领域知识直接相关。由于“维数灾难”的限制,发展一般的机器学习方法只是一种理想。面临的挑战如何有效将信息转变为可以利用的知识根据不同需求,获得有用信息,过滤无用信息“坏”数据——>大量噪音、属性缺失、不一致、……标记数据机器学习与数据分析是解决这个问题的重要途径之一共性问题速度泛化能力代价敏感数据分布不平衡可理解性More….面临的挑战如何有效将信息转变为可以利用的知识速度越快越好“训练速度”vs.“测试速度训练速度快的往往测试速度慢:k近邻测试速度快的往往训练速度慢:神经网络速度越快越好泛化能力令W是给定世界的有限或无限所有观测对象的集合,由于我们观察能力的限制,我们只能获得这个世界的一个有限的子集QW,称为样本集。机器学习就是根据这个样本集,推算这个世界的模型,使其对这个世界为真。一致性假设假设世界W与样本集Q有相同的性质。例如,iid条件。泛化能力是从有限样本集合计算所得到的模型对世界为真程度的度量。目前泛化能力强的方法:
支持向量机、集成学习提高准确性问题泛化能力令W是给定世界的有限或无限所有观测对象的集合,由于我代价敏感降低错误率,错误代价不同医疗:以乳腺癌诊断为例,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”是不同的金融:以信用卡盗用检测为例,“将盗用误认为正常使用的代价”与“将正常使用误认为盗用的代价”是不同的在达到较低的总错误率的基础上,能否“趋利避害”?如何“趋”、如何“避”?传统的ML技术基本上只考虑同一代价如何处理代价敏感性?
在教科书中找不到现成的答案,例如:
TomMitchell,MachineLearning,McGraw-Hill,1997
NilsJ.Nilsson,IntroductiontoMachineLearning,draft1996-2004代价敏感降低错误率,错误代价不同不平衡数据正例的数目比反例的数目少得多医疗:以乳腺癌诊断为例,“健康人”样本远远多于“病人”样本金融:以信用卡盗用检测为例,“正常使用”样本远远多于“被盗用”样本传统的ML技术基本上只考虑平衡数据
如何处理数据不平衡性?
在教科书中找不到现成的答案不平衡数据正例的数目比反例的数目少得多可理解“黑盒子”问题神经网络、支持向量机、集成学习医疗:以乳腺癌诊断为例,需要向病人解释“为什么做出这样的诊断”金融:以信用卡盗用检测为例,需要向保安部门解释“为什么这是正在被盗用的卡”传统的ML技术基本上只考虑泛化不考虑理解
如何处理可理解性?
在教科书中找不到现成的答案可理解“黑盒子”问题神经网络、支持向量机、集成学习总结当前,机器学习所面临情况:
数据复杂、海量,用户需求多样化。要求:科学和高效的问题表示,以便将其学习建立在科学的基础上应用驱动成为必然.针对某个或某类应用给出特定的学习方法将不断涌现在应用中检验机器学习机器学习的结果的解释,受到重视总结当前,机器学习所面临情况:机器学习概念学习机器学习概念学习归纳学习归纳学习(inductivelearning)是研究最广的一种符号学习(symboliclearning)方法,它表示从例子设想出假设的过程。在进行归纳学习时,学习者从所提供的事实或观察到的假设进行归纳推理,获得某个概念。归纳推理是从部分到全体,从特殊到一般的推理过程。从应用角度看,归纳学习可分为概念学习、概念聚集和启发学习3种。归纳学习归纳学习(inductivelearning)是研简介许多机器学习涉及到从特殊训练样例中得到一般概念。概念,可被看作一个对象或事件集合,它是从更大的集合中选取的子集,或在这个较大集合中定义的布尔函数。概念学习问题的定义给定一个样例集合以及每个样例是否属于某个概念的标注,怎样推断出该概念的一般定义。又称从样例中逼近布尔函数。概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。简介许多机器学习涉及到从特殊训练样例中得到一般概念。概念学习任务一个例子目标概念,Aldo进行水上运动的日子,表示为布尔函数EnjoySport任务目的,基于某天的各属性,预测EnjoySport的值一个样例集,每个样例表示为属性的集合YesChangeCoolStrongHighWarmSunny4YesChangeWarmStrongHighColdRainy3YesSameWarmStrongHighWarmSunny2YesSameWarmStrongNormalWarmSunny1EnjoySportForecastWaterWindHumidityAirTempSkyExample表9-1目标概念EnjoySport的训练样例概念学习任务一个例子YesChangeCoolStrongH概念学习任务(2)表示假设的形式逻辑公式,实例的各属性约束的合取式令每个假设为6个约束(或变量)的向量,每个约束对应一个属性可取值范围,为?任意本属性可接受的值明确指定的属性值不接受任何值假设的例子
SkyAirTempHumidWindWaterForecst<?,Cold,High,?,?,?><?,?,?,?,?,?> //所有的样例都是正例<,,,,,> //所有的样例都是反例概念学习任务(2)表示假设的形式概念学习任务(3)EnjoySport概念学习任务已知实例集X每个实例x由6个属性描述,每个属性的取值范围已确定假设集H每个假设h描述为6个属性的取值约束的合取目标概念c一个布尔函数,变量为实例训练样例集D目标函数(或目标概念)的正例和反例求解H中的一假设h,使对于X中任意x,h(x)=c(x)概念学习任务(3)EnjoySport概念学习任务归纳学习假设什么是归纳学习?从特殊的样例得到普遍的规律归纳只能保证输出的假设能与训练样例相拟合归纳假设的一个基本假定对于未见实例最好的假设就是与训练数据最佳拟合的假设归纳学习假设任一假设如果在足够大的训练样例集中很好地逼近目标函数,它也能在未见实例中很好地逼近目标函数。归纳学习假设什么是归纳学习?作为搜索的概念学习概念学习可以看作一个搜索的过程搜索范围:假设的表示所隐含定义的整个空间搜索目标:能够最好地拟合训练样例的假设当假设的表示形式选定后,那么就隐含地为学习算法确定了所有假设的空间例子EnjoySport的假设空间实例空间:3×2×2×2×2×2=96个假设空间:5×4×4×4×4×4=5120个语法不同的假设
1+4×3×3×3×3×3=973个语义不同的假设作为搜索的概念学习概念学习可以看作一个搜索的过程假设的一般到特殊序假设的一般到特殊序关系考虑下面两个假设h1=<sunny,?,?,Strong,?,?>h2=<Sunny,?,?,?,?,?>任何被h1划分为正例的实例都会被h2划分为正例,因此h2比h1更一般。利用这个关系,无需列举所有假设,就能在无限的假设空间中进行彻底的搜索假设的一般到特殊序假设的一般到特殊序关系假设的一般到特殊序(2)关系“更一般”的精确定义任给实例x和假设h,说x满足h,当且仅当h(x)=1令hj和hk是在X上定义的布尔函数,称hj比hk更一般,当且仅当(xX)[(hk(x)=1)(hj(x)=1)]记为hjmore_general_than_or_equal_tohk,或hj
ghk假设的一般到特殊序(2)关系“更一般”的精确定义假设的一般到特殊序(3)“更一般”的严格情形hj>ghk,当且仅当,(hj
ghk)(hk
ghj)“更特殊”关系的定义hj
ghk,当且仅当,hk
ghj以EnjoySport为例说明上面的定义偏序的特点(区别于全序),全序上的搜索可以是二分法,偏序的搜索比无序简单,比全序复杂。这个偏序关系的定义与目标概念无关假设的一般到特殊序(3)“更一般”的严格情形人工智能课件4机器学习Find-S:寻找极大特殊假设使用more_general_than偏序的搜索算法从H中最特殊假设开始,然后在假设覆盖正例失败时将其一般化表9-3Find-S算法将h初始化为H中最特殊假设对每个正例x对h的每个属性约束ai如果x满足ai那么不做任何处理否则将h中ai替换为x满足的另一个更一般约束输出假设hFind-S:寻找极大特殊假设使用more_general_Find-S:寻找极大特殊假设(2)Find-S算法在例子EnjoySport上的应用h<,,,,,>h<Sunny,Warm,Normal,Strong,Warm,Same>h<Sunny,Warm,?,Strong,Warm,Same>遇到反例,h不变(因为h已经能够正确地识别反例)h<Sunny,Warm,?,Strong,?,?>Find-S:寻找极大特殊假设(2)Find-S算法在例子EFind-S:寻找极大特殊假设(3)Find-S算法演示了一种利用more_general_than偏序来搜索假设空间的方法,沿着偏序链,从较特殊的假设逐渐转移到较一般的假设。因此,每一步得到的假设都是在那一点上与训练样例一致的最特殊的假设。Find-S的重要特点:对以属性约束的合取式描述的假设空间H,保证输出为H中与正例一致的最特殊的假设。存在的问题是否收敛到了正确的目标概念?为什么要用最特殊的假设?训练样例是否相互一致?如果有多个极大特殊假设怎么办?Find-S:寻找极大特殊假设(3)Find-S算法演示了一变型空间和候选消除算法候选消除算法概说概念学习的另一种方法,候选消除算法(candidate-elimination)Find-S算法的不足,输出的假设只是H中能够拟合训练样例的多个假设中的一个候选消除算法输出与训练样例一致的所有假设的集合候选消除算法在描述这一集合时不需要明确列举所有成员利用more_general_than偏序结构,可以维护一个一致假设集合的简洁表示候选消除算法的应用,化学质谱分析、启发式搜索的控制规则候选消除算法的缺点,容错性能差变型空间和候选消除算法候选消除算法概说变型空间和候选消除算法(2)“一致”的定义一个假设h与训练样例集合D一致,当且仅当对D中每一个样例<x,c(x)>都有h(x)=c(x),即Consistent(h,D)(<x,c(x)>D)h(x)=c(x)“一致”与“满足”的关系变型空间(versionspace)与训练样例一致的所有假设组成的集合表示了目标概念的所有合理的变型关于H和D的变型空间,记为VSH,D,是H中与训练样例D一致的所有假设构成的子集VSH,D={hH|Consistent(h,D)}变型空间和候选消除算法(2)“一致”的定义变型空间和候选消除算法(3)列表后消除算法表示变型空间的一种方法是列出其所有成员变型空间包含H中所有假设的列表对每个训练样例<x,c(x)>,从变型空间中移除所有h(x)c(x)的假设输出VersionSpace中的假设列表优点保证得到所有与训练数据一致的假设缺点非常繁琐地列出H中的所有假设,大多数实际的假设空间无法做到变型空间和候选消除算法(3)列表后消除算法变型空间和候选消除算法(4)变型空间的更简洁表示变型空间被表示为它的极大一般和极大特殊的成员这些成员形成了一般和特殊边界的集合,这些边界在整个偏序结构中划分出变型空间以EnjoySport为例变型空间和候选消除算法(4)变型空间的更简洁表示变型空间和候选消除算法(5)形式化定义极大一般极大特殊关于假设空间H和训练数据D的一般边界G,是在H中与D相一致的极大一般成员的集合关于假设空间H和训练数据D的特殊边界S,是在H中与D相一致的极大特殊成员的集合变型空间和候选消除算法(5)形式化定义变型空间和候选消除算法(6)候选消除算法初始化G和S如果d是一个正例从G中移去所有与d不一致的假设对S中每个与d不一致的假设s从S中移去s把s的所有的极小泛化式h加入到S中,其中h满足h与d一致,而且G的某个成员比h更一般如果d是一个反例从S中移去所有与d不一致的假设对G中每个与d不一致的假设g从G中移去g把g的所有的极小特殊化式h加入到G中,其中h满足h与d一致,而且S的某个成员比h更特殊从G中移去所有这样的假设:它比G中另一个假设更特殊变型空间和候选消除算法(6)候选消除算法变型空间和候选消除算法(7)算法举例变型空间和候选消除算法(7)算法举例算法举例<Ø,Ø,Ø,Ø,Ø,Ø><sunny,warm,normal,strong,warm,same><sunny,warm,?,strong,warm,same><?,?,?,?,?,?>S0:S1:S2:G0:1.<Sunny, Warm,Normal,Strong,Warm,Same>,EnjoySport=Yes2.<Sunny, Warm,High,Strong,Warm,Same>,EnjoySport=YesG1G2算法举例<Ø,Ø,Ø,Ø,Ø,Ø><su算法举例(续)<sunny,warm,?,strong,warm,same><?,?,?,?,?,?>G0,G1,G2:
3.<Rainy,Cold,High,Strong,Warm,Change>,EnjoySport=NoS2,<sunny,?,?,?,?,?><?,warm,?,?,?,?><?,?,?,?,?,same>G3:
S3:算法举例(续)<sunny,warm,?,strong,w算法举例(续)<sunny,warm,?,strong,warm,same>4.<Sunny,Warm,High,Strong,Cool,Change>,EnjoySport=YesS3:
<sunny,?,?,?,?,?><?,warm,?,?,?,?><?,?,?,?,?,same>G3:
<sunny,warm,?,strong,?,?>S4:
<sunny,?,?,?,?,?><?,warm,?,?,?,?>G4:
算法举例(续)<sunny,warm,?,strong,w算法举例(续)Thefinalversionspaceforenjoysportconceptlearningtask<sunny,warm,?,strong,?,?>S4:
<sunny,?,?,?,?,?><?,warm,?,?,?,?>G4:
<sunny,?,?,strong,?,?><sunny,warm,?,?,?,?><?,warm,?,strong,?,?>算法举例(续)Thefinalversionspace变型空间和候选消除的说明候选消除算法收敛到正确的假设训练样例中没有错误H中确实包含描述目标概念的正确假设如果样例中存在错误如果给定足够的训练数据,我们会发现S和G边界收敛得到一个空的变型空间变型空间和候选消除的说明候选消除算法收敛到正确的假设变型空间和候选消除(2)下一步需要什么样的训练样例<sunny,warm,normal,light,warm,same>一般来说,概念学习的最优查询策略,是产生实例以满足当前变型空间中大约半数的假设。这样,变型空间的大小可以在遇到每个新样例时减半,正确的目标概念就可在只用log2|VS|次实验后得到。变型空间和候选消除(2)下一步需要什么样的训练样例变型空间和候选消除(3)怎样使用不完全学习概念虽然前面的变型空间图中仍包含多个假设,即目标概念还未学习到,但是仍然有可能对新样例进行一定可信度的分类。表9-2的例子?SameStrongNormalColdSunnyD?SameWarmLightNormalWarmRainyC?SameWarmLightNormalColdRainyB?ChangeCoolStrongNormalWarmSunnyAEnjoySportForecastWaterWindHumidityAirTempSkyExample表9-2待分类的新实例Warm变型空间和候选消除(3)怎样使用不完全学习概念?SameSt
谢谢!人工智能课件4机器学习第9章机器学习第9章机器学习机器学习的定义及重要性机器学习的发展历史机器学习的主要方法机器学习面临的挑战机器学习研究展望内容机器学习的定义及重要性内容参考教材:蔡自兴,徐光佑.人工智能及其应用(第三版)).北京:清华大学出版社,2004.StuartRussell,PeterNorvig.“ArtificialIntelligence:AModernApproach”.机器学习(美)TomM.Mitchell著机械工业出版社模式分类(美)RichardO.Duda等著机械工业出版社参考教材:蔡自兴,徐光佑.人工智能及其应用(第三版))机器学习的定义
利用经验改善系统自身的性能[T.Mitchell,Book97]机器学习是研究如何使用机器来模拟人类学习活动的一门学科。机器学习的定义利用经验改善系统自身的性能机器学习的定义
学习是系统所作的适应性变化,使得系统在下一次完成同样或类似的任务时更为有效。
[H.A.Simon]
学习是构造或修改对于所经历事物的表示。
[R.S.Michalski]
学习是知识的获取。
机器学习的定义学习是系统所作的适应性变化,机器学习是多学科的交叉机器学习是多学科的交叉机器学习的重要性机器学习是人工智能的主要核心研究领域之一,也是现代智能系统的关键环节和瓶颈。很难想象:一个没有学习功能的系统能被称具有智能的系统。来自生物、金融与网络等各领域的数据,迫切需要分析或建立模型。机器学习的重要性机器学习是人工智能的主要核心研究领域之一,机器学习的应用网络安全入侵检测天气预报对未来天气的预报搜索引擎机器学习技术支撑各类搜索引擎技术汽车的自动驾驶天文数据的分析机器学习的应用网络安全机器学习的应用生物技术蛋白质片段预测基因表达分析计算机系统特性预测银行信用卡欺诈行为识别字符识别Web应用……机器学习的应用生物技术机器学习的分支数据挖掘利用历史数据来改进决策医学记录--医学知识软件应用(不能手工编程的应用)汽车自动驾驶语音识别等自用户化程序新闻阅读器学习用户的阅读兴趣机器学习的分支数据挖掘利用历史数据来改进决策机器学习与美国的PAL计划美国航空航天局JPL实验室的科学家在《Science》(2001年9月)上撰文指出:机器学习对科学研究的整个过程正起到越来越大的支持作用,……,该领域在今后的若干年内将取得稳定而快速的发展。DARPA,2003年开始启动以机器学习为核心的计划PAL(PerceptiveAssistantthatLearns)。5年期,首期(1-1.5年)投资2900万美元。包含2个子计划:其中,CALO子计划是整个PAL计划的核心(2200万),将机器学习技术放到了国家安全的角度来考虑。美国主要大学与公司参加这个子计划。机器学习与美国的PAL计划美国航空航天局JPL实验室的科学家机器学习的发展历史机器学习是人工智能研究较为年轻的分支,它的发展过程大体上可分为4个时期。热烈时期50年代中叶到60年代中叶冷静时期60年代中叶至70年代中叶复兴时期70年代中叶至80年代中叶最新阶段从1986年---机器学习的发展历史机器学习是人工智能研究较为年轻的分支,它的机器学习早期研究Rosenblatt的感知机(1956)。Widrow的Madline(1960)。Samuel的符号机器学习(1965)。Minsky的“Perceptron”著作(1969,1988)机器学习早期研究Rosenblatt的感知机(1956)。二十世纪八十年代的研究符号机器学习取得进展。神经网络的研究。计算学习理论---PAC(概率近似正确)。二十世纪八十年代的研究符号机器学习取得进展。两类最重要的符号机器学习算法覆盖算法与分治算法。七十年代末,Michalski基于带等号的逻辑演算,提出了AQ11算法,称为符号机器学习的覆盖算法。
1986年,Quinlan提出了决策树算法,也称为分治算法(树结构表示的最早研究是CLS,概念学习系统)。两类最重要的符号机器学习算法覆盖算法与分治算法。神经网络Hopfield模型。Kohonen模型。Goldberg的ART模型。……。最有影响的是Remulhart等人提出的BP算法(1986)。神经网络Hopfield模型。计算学习理论1984年,Valiant提出机器学习应该以模型概率近似正确(1-δ)为指标,而不是以概率为1为指标。学习算法必须对样本集合的规模呈多项式。统计机器学习、集成机器学习等方法的理论基础。计算学习理论1984年,Valiant提出机器学习应该以模型机器学习的研究理论分析
从理论上探索各种可能的学习方法和独立于应用领域的算法监督学习非监督学习半监督学习强化学习多示例学习增量学习与在线学习集成学习多策略学习进化计算人工生命神经网络模糊集与粗糙集多Agent系统中的学习基于案例的推理决策树支持向量机k近邻序列分析聚类……
面向任务的研究
研究和分析改进一组预定任务的执行性能的学习系统。信息检索生物信息学语音、图像处理与理解自然语言理解对复杂结构数据的学习数据挖掘与知识发现模式识别多Agent系统中的学习
……
认知模型
研究人类学习过程并进行计算机模拟。人类学习的计算模型计算学习理论增强学习系统可理解性神经网络人工生命……
机器学习的研究理论分析
从理论上探索各种可能的学习方法机器学习的三要素一致性假设:机器学习的条件。样本空间划分:决定模型对样本集合的有效性。泛化能力:决定模型对世界的有效性机器学习的三要素要素1:一致性假设假设样本集Q与世界W具有某种相同的性质。原则上说,存在各种各样的一致性假设。在统计意义下,一般假设:Q与W具有同分布。给定世界W的所有对象独立同分布。要素1:一致性假设假设样本集Q与世界W具有某种相同的性质。要素2:对样本空间的划分
样本集合模型:将样本集放到一个n维空间,寻找一个超平面(等价关系),使得问题决定的不同对象被划分在不相交的区域。要素2:对样本空间的划分样本集合模型:要素3:泛化能力泛化能力是从有限样本集合计算所得到的模型对世界为真程度的度量。要素3:泛化能力泛化能力是从有限样本集合计算所得到的模型对机器学习的主要方法有监督学习从输入和输出的实例中学习一个函数无监督学习在未提供明确的输出的情况下,学习输入的模式强化学习从强化物中学习,而不是根据教师所说的应该做什么而学习机器学习的主要方法有监督学习机器学习方法的分类归纳机器学习连接机器学习统计机器学习。集成机器学习。增强机器学习。……机器学习方法的分类归纳学习归纳学习是应用归纳推理进行学习的一类学习方法,学习者从所提供的事实或观察到的假设进行归纳推理,获得某个概念。是研究最广的一种符号学习方法,其学习目的是为了获得新的概念、构造新的规则或发现新的理论。这种方法要求大量的训练例,而且归纳性能受到描述语言、概念类型、信噪比、实例空间分布、归纳模式等的影响。包括:有变型(版本)空间、决策树方法、AQ11算法,一阶Horn子句等归纳学习归纳学习是应用归纳推理进行学习的一类学习方法,学习者连接学习一个连接模型(神经网络)是由一些简单的类似神经元的单元以及单元间带权的连接组成。连接学习通过使用各类例子来训练网络,产生网络的内部表示,并用来识别其他输入例子。学习主要表现在调整网络中的连接权,是非符号的,并且具有高度并行分布式处理的能力.优点:在模式识别、语音处理等许多方面已得到成功应用。缺点:缺乏严密理论体系的指导;“黑箱性”;1990年,Hansen和Salamon提出了神经网络集成(NeuralNetworkEnsemble)方法。从神经网络中以及从神经网络集成中抽取规则连接学习一个连接模型(神经网络)是由一些简单的类似神经元的统计机器学习理论基础是统计决策论与Bayes分析。三要素:
1)模型(Model):假设(Hypothesis)
2)策略(Strategy):损失函数优化(OptimizationofLossfunction)
3)算法(Algorithm):寻找最优模型(Findingoptimalmodel)
问题变为在确定的损失函数(准则函数或目标函数)意义下的优化问题。
统计机器学习理论基础是统计决策论与Bayes分析。集成机器学习使用多个容易设计的简单PAC弱分类器代替一个较难设计的PAC强分类器。泛化理论来自PAC的弱分类器理论:1990年Shapire证明,如果将多个PAC弱分类器集成在一起,它将具有PAC强分类器的泛化能力。这类集成后的强分类器具有统计学习理论的基础。集成机器学习使用多个容易设计的简单PAC弱分类器代替一个较难集成分类器集成分类器集成在分类时,采用投票的方式决定新样本属于哪一类。由于每个分类器的分类能力不同,在集成时,需要对所有分类器加权平均,以决定分哪类。集成在分类时,采用投票的方式决定新样本属于哪一类。受关注的原因弱分类器比强分类器设计简单。有统计学习理论的基础。典型方法:加权多数算法,Bootstrap,ADABOOST等。受关注的原因弱分类器比强分类器设计简单。增强机器学习增强机器学习最早提出是考虑“从变化环境中”学习蕴含在环境中知识,其本质是对环境的适应开始的动机主要是为了解决机器人规划、避障与在环境中适应的学习问题目前,由于网络用户是更为复杂的环境,例如,如何使搜索引擎适应用户的需求,成为更为重要的应用领域Q学习,动态规划,遗传学习,以及免疫网络都成为实现增强机器学习的有效方法。增强机器学习增强机器学习最早提出是考虑“从变化环境中”学习蕴机器学习的最新研究算法驱动(建模与数据分析)应用驱动机器学习的最新研究算法驱动(建模与数据分析)算法(数据)驱动海量数据(108-10)。算法的泛化能力。算法的可解释性。不同类型数据的学习方法。算法(数据)驱动领域应用驱动自然语言数据分析、DNA数据分析、网络与电信数据分析、图像数据分析、金融与经济数据分析、旅游数据分析...。Web信息的有效获取(新一代搜索引擎)。由此导致各种学习任务:数据流学习、多实例学习(部分放弃独立同分布条件)、Ranking学习。需要各种算法及整合,解决实际问题。领域应用驱动自然语言数据分析、DNA数据分析、网络与电信数据应用驱动机器学习流形机器学习半监督机器学习多实例机器学习Ranking机器学习数据流机器学习图模型机器学习……应用驱动机器学习流形机器学习流形机器学习很多问题的表示方法,使得信息十分稀疏,如何将信息稠密化是一个困难的问题(“维数灾难”),主成分分析是一种方法,但是,只对线性情况有效流形学习是解决上述问题的非线性方法由于流形的本质是分段线性化,因此,流形学习需要解决计算开集、设计同胚映射等问题流形机器学习很多问题的表示方法,使得信息十分稀疏,如何将信息半监督机器学习在观测数据中,可能有很多观测不能决定其类别标号。这需要根据数据中已知类别标号的样本与领域知识来推测这些样本的类别标号,并建立问题世界的模型,这就是半监督学习这类问题直接来自于实际应用:例如,大量医学影像,医生把每张片子上的每个病灶都标出来再进行学习,是不可能的,能否只标一部分,并且还能利用未标的部分?半监督机器学习在观测数据中,可能有很多观测不能决定其类别标号多示例机器学习传统的机器学习中,一个对象有一个描述,而在一些实际问题(特别是涉及到结构化数据的问题)中,一个对象可能同时有多个描述,到底哪个描述是决定对象性质(例如类别)的,却并不知道。解决这种“对象:描述:类别”之间1:N:1关系的学习就是多示例学习多示例机器学习传统的机器学习中,一个对象有一个描述,而在一些Ranking机器学习其原始说法是learningforranking问题主要来自信息检索,假设用户的需求不能简单地表示为“喜欢”或“不喜欢”,而需要将“喜欢”表示为一个顺序,问题是如何通过学习,获得关于这个“喜欢”顺序的模型。Ranking机器学习其原始说法是learningfor数据流机器学习在网络数据分析与处理中,有一类问题,从一个用户节点上流过的数据,大多数是无意义的,由于数据量极大,不能全部存储,因此,只能简单判断流过的文件是否有用,而无法细致分析如何学习一个模型可以完成这个任务,同时可以增量学习,以保证可以从数据流中不断改善(或适应)用户需求的模型数据流机器学习在网络数据分析与处理中,有一类问题,从一个用户机器学习的研究趋势尽管“学习机制”还是研究的动力,然而,“烦恼网络”的危机,使得更为重要的推动力来自“有效利用”信息。传统领域借用机器学习提高研究水平(例如文本与图像)。应用驱动的机器学习范式层出不穷。基于机器学习的数据分析方法成为解决复杂问题的关键之一。机器学习的研究趋势尽管“学习机制”还是研究的动力,然而,“传统领域借用机器学习提高研究水平文本与图像占信息的绝大数模式识别最引人注目的是机器学习在这个领域扮演日益重要的角色。在文本分析与自然语言理解上,数据资源建设逐渐完善,关注的焦点是机器学习,文法归纳的方法已死灰复燃。传统领域借用机器学习提高研究水平文本与图像占信息的绝大数应用驱动的机器学习方法层出不穷面临信息多种多样,复杂!流形机器学习:稀疏数据的非线性方法(特征抽取)。增强学习:对变化环境适应(机器人)。多实例学习:半监督学习(药物设计)。ranking学习:需求是事物排序的学习(搜索引擎)。数据流学习:大量数据快速过滤(有害信息过滤)。这些问题大多数没有坚实的理论基础,处于实验观察阶段。应用驱动的机器学习方法层出不穷面临信息多种多样,复杂!基于机器学习的数据分析方法成为解决复杂问题的关键之一由于大部分问题不能满足机器学习所需的条件,因此,需要考虑数据分析。符号数据分析(数据挖掘):关联规则,例外分析。例外分析:ShapardandNosofsky的认知研究+符号机器学习基于机器学习的数据分析方法成为解决复杂问题的关键之一由于大部资源IEEE,
Elsevier,
Kluwer等期刊免费期刊JAIR和JMLR,分别在:
/research/jair/home.html
/UCI数据集是一个常用的标准测试数据集,下载地址在
/~mlearn/MLRepository.html关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:
http://www.cs.waikato.ac.nz/ml/weka/
MachineLearningMailingListinChina中国机器学习邮件列表资源IEEE,
Elsevier,
Kluwer等期刊机器学习存在的问题维数灾难满足一定统计指标(期望与方差)的模型(精度),需要的样本数量将随着维数的增加,指数增长(或模型复杂程度,或模型表示长度指数增长)。统计机器学习需要满足独立同分布条件,严厉!寻找问题线性表示的空间,没有一般的原则。信息向符号的映射,没有好的方法。机器学习没有一劳永逸的解决方案。领域知识与数据分析不可避免。机器学习存在的问题维数灾难满足一定统计指标(期望与方差)维数灾难信息稀疏问题。信息颗粒太细,解释太多,维数灾难!关系数据问题。为了表示简洁,数据不能表示为属性-值表的形式,需要关系数据形式。数据不能表示为命题形式,只能表示为一阶谓词形式需求问题。不同需求,目标函数不同,表示形式也不同(半监督、Ranking、数据流、多示例等)。例外问题。在很多问题中(科学数据分析,ISI),模型重要,不满足模型的个例更为重要。在特定需求下,建立不同信息长度的模型,并同时派生例外。等等维数灾难信息稀疏问题。机器学习的假设独立同分布条件数据集合不是从单一“问题世界”采样获得,它们是多个“问题世界”采样的叠加或组合。因此,对确定问题世界,噪音(另一些包含在数据中的目标)不独立于这个问题世界。机器学习的假设独立同分布条件理论和方法建立模型将非线性问题变换为线性表述的问题。两种理念:整体模型vs局部模型理论和方法建立模型将非线性问题变换为线性表述的问题。整体模型:非线性问题的线性描述选择映射,将在原空间(欧氏空间)的非线性问题映射到另一个空间(特征空间),使得这个非线性问题可以在被映射的空间上线性描述。这是核技巧的基础。目前,主要是多项式基的Hilbert空间。线性化的代价:维数增加特征空间的维数需要多大的规模?时间换空间!整体模型:非线性问题的线性描述选择映射,将在原空间(欧氏空间问题描述机器学习研究最本质的问题之一是问题描述空间问题。被选择的映射空间不同,学习方法不同。例如:多项式基的Hilbert空间统计机器学习局部假设为基的空间集群机器学习保持拓扑的嵌入空间流形机器学习问题描述机器学习研究最本质的问题之一是问题描述空间问题。被选由于“维数灾难”的限制,发展一般的机器学习方法只是一种理想。在不同领域发展不同的理论、方法与范式,是必须考虑的问题。机器学习面临的困难问题,没有领域知识的支持,不可能解决,例如,需求问题、例外问题就与领域知识直接相关。由于“维数灾难”的限制,发展一般的机器学习方法只是一种理想。面临的挑战如何有效将信息转变为可以利用的知识根据不同需求,获得有用信息,过滤无用信息“坏”数据——>大量噪音、属性缺失、不一致、……标记数据机器学习与数据分析是解决这个问题的重要途径之一共性问题速度泛化能力代价敏感数据分布不平衡可理解性More….面临的挑战如何有效将信息转变为可以利用的知识速度越快越好“训练速度”vs.“测试速度训练速度快的往往测试速度慢:k近邻测试速度快的往往训练速度慢:神经网络速度越快越好泛化能力令W是给定世界的有限或无限所有观测对象的集合,由于我们观察能力的限制,我们只能获得这个世界的一个有限的子集QW,称为样本集。机器学习就是根据这个样本集,推算这个世界的模型,使其对这个世界为真。一致性假设假设世界W与样本集Q有相同的性质。例如,iid条件。泛化能力是从有限样本集合计算所得到的模型对世界为真程度的度量。目前泛化能力强的方法:
支持向量机、集成学习提高准确性问题泛化能力令W是给定世界的有限或无限所有观测对象的集合,由于我代价敏感降低错误率,错误代价不同医疗:以乳腺癌诊断为例,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”是不同的金融:以信用卡盗用检测为例,“将盗用误认为正常使用的代价”与“将正常使用误认为盗用的代价”是不同的在达到较低的总错误率的基础上,能否“趋利避害”?如何“趋”、如何“避”?传统的ML技术基本上只考虑同一代价如何处理代价敏感性?
在教科书中找不到现成的答案,例如:
TomMitchell,MachineLearning,McGraw-Hill,1997
NilsJ.Nilsson,IntroductiontoMachineLearning,draft1996-2004代价敏感降低错误率,错误代价不同不平衡数据正例的数目比反例的数目少得多医疗:以乳腺癌诊断为例,“健康人”样本远远多于“病人”样本金融:以信用卡盗用检测为例,“正常使用”样本远远多于“被盗用”样本传统的ML技术基本上只考虑平衡数据
如何处理数据不平衡性?
在教科书中找不到现成的答案不平衡数据正例的数目比反例的数目少得多可理解“黑盒子”问题神经网络、支持向量机、集成学习医疗:以乳腺癌诊断为例,需要向病人解释“为什么做出这样的诊断”金融:以信用卡盗用检测为例,需要向保安部门解释“为什么这是正在被盗用的卡”传统的ML技术基本上只考虑泛化不考虑理解
如何处理可理解性?
在教科书中找不到现成的答案可理解“黑盒子”问题神经网络、支持向量机、集成学习总结当前,机器学习所面临情况:
数据复杂、海量,用户需求多样化。要求:科学和高效的问题表示,以便将其学习建立在科学的基础上应用驱动成为必然.针对某个或某类应用给出特定的学习方法将不断涌现在应用中检验机器学习机器学习的结果的解释,受到重视总结当前,机器学习所面临情况:机器学习概念学习机器学习概念学习归纳学习归纳学习(inductivelearning)是研究最广的一种符号学习(symboliclearning)方法,它表示从例子设想出假设的过程。在进行归纳学习时,学习者从所提供的事实或观察到的假设进行归纳推理,获得某个概念。归纳推理是从部分到全体,从特殊到一般的推理过程。从应用角度看,归纳学习可分为概念学习、概念聚集和启发学习3种。归纳学习归纳学习(inductivelearning)是研简介许多机器学习涉及到从特殊训练样例中得到一般概念。概念,可被看作一个对象或事件集合,它是从更大的集合中选取的子集,或在这个较大集合中定义的布尔函数。概念学习问题的定义给定一个样例集合以及每个样例是否属于某个概念的标注,怎样推断出该概念的一般定义。又称从样例中逼近布尔函数。概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。简介许多机器学习涉及到从特殊训练样例中得到一般概念。概念学习任务一个例子目标概念,Aldo进行水上运动的日子,表示为布尔函数EnjoySport任务目的,基于某天的各属性,预测EnjoySport的值一个样例集,每个样例表示为属性的集合YesChangeCoolStrongHighWarmSunny4YesChangeWarmStrongHighColdRainy3YesSameWarmStrongHighWarmSunny2YesSameWarmStrongNormalWarmSunny1EnjoySportForecastWaterWindHumidityAirTempSkyExample表9-1目标概念EnjoySport的训练样例概念学习任务一个例子YesChangeCoolStrongH概念学习任务(2)表示假设的形式逻辑公式,实例的各属性约束的合取式令每个假设为6个约束(或变量)的向量,每个约束对应一个属性可取值范围,为?任意本属性可接受的值明确指定的属性值不接受任何值假设的例子
SkyAirTempHumidWindWaterForecst<?,Cold,High,?,?,?><?,?,?,?,?,?> //所有的样例都是正例<,,,,,> //所有的样例都是反例概念学习任务(2)表示假设的形式概念学习任务(3)EnjoySport概念学习任务已知实例集X每个实例x由6个属性描述,每个属性的取值范围已确定假设集H每个假设h描述为6个属性的取值约束的合取目标概念c一个布尔函数,变量为实例训练样例集D目标函数(或目标概念)的正例和反例求解H中的一假设h,使对于X中任意x,h(x)=c(x)概念学习任务(3)EnjoySport概念学习任务归纳学习假设什么是归纳学习?从特殊的样例得到普遍的规律归纳只能保证输出的假设能与训练样例相拟合归纳假设的一个基本假定对于未见实例最好的假设就是与训练数据最佳拟合的假设归纳学习假设任一假设如果在足够大的训练样例集中很好地逼近目标函数,它也能在未见实例中很好地逼近目标函数。归纳学习假设什么是归纳学习
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖南三一工业职业技术学院《普通物理二》2023-2024学年第二学期期末试卷
- 漳州科技职业学院《男装设计》2023-2024学年第二学期期末试卷
- 攀枝花学院《工程图学与计算机绘图甲》2023-2024学年第二学期期末试卷
- 15《搭船的鸟》教学设计-2024-2025学年三年级上册语文统编版
- 金山职业技术学院《外贸专业英语一》2023-2024学年第二学期期末试卷
- 信阳师范大学《工程实训》2023-2024学年第二学期期末试卷
- 铜仁幼儿师范高等专科学校《人力资源管理沙盘模拟》2023-2024学年第二学期期末试卷
- 船舶运力合同范本
- 第 19课《灯泡亮了》教学设计-2023-2024学年青岛版科学四年级下册
- 《7 比较测量纸带和尺子》教学设计-2023-2024学年一年级上册科学教科版
- 汽车行业维修记录管理制度
- 公务员2022年国考申论试题(行政执法卷)及参考答案
- IQC检验作业指导书
- 城市自来水厂课程设计
- 重庆市2024年小升初语文模拟考试试卷(含答案)
- 2024智慧城市数据采集标准规范
- 【人教版】《劳动教育》七上 劳动项目一 疏通厨房下水管道 课件
- 2024特斯拉的自动驾驶系统FSD发展历程、技术原理及未来展望分析报告
- 2024-2030年中国银行人工智能行业市场深度调研及发展趋势与投资前景研究报告
- 五届全国智能制造应用技术技能大赛数字孪生应用技术员(智能制造控制技术方向)赛项实操样题
- 中国银行中银数字服务(南宁)有限公司招聘笔试真题2023
评论
0/150
提交评论