机器学习研究进展_第1页
机器学习研究进展_第2页
机器学习研究进展_第3页
机器学习研究进展_第4页
机器学习研究进展_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习研究进展第九届中国机器学习会议上海2004年10月王珏中国科学院自动化研究所jue.wang@周志华南京大学计算机科学与技术系zhouzh@

1连接机器学习符号机器学习遗传机器学习分析机器学习机器学习研究的变迁Carbonell(1989)展望Dietterich(1997)展望?统计机器学习集成机器学习符号机器学习增强机器学习流形机器学习半监督机器学习多实例机器学习Ranking机器学习数据流机器学习应用驱动的机器学习研究连接主义符号主义行为主义目前,以“主义”争霸的时代已经过去,不同方法解决不同问题。2对统计机器学习的说明Dietterich将感知机类的连接机器学习分离出来,并根据划分机理,将其分为两种类型:统计机器学习与集成机器学习。这意味着,感知机类机器学习是重点强调:表示:非线性问题的线性表示泛化:以泛化能力为基础的算法设计3对增强机器学习的说明“适应性”是控制理论中最重要的概念之一,以往在计算机科学中考虑较少1975年,Holland首先将这个概念引入计算机科学。1990年左右,MIT的Sutton等青年计算机科学家,结合动态规划等问题,统称其为增强机器学习这样,遗传学习成为实现增强机器学习的一种方法4对符号机器学习的说明尽管经过十年,符号机器学习被保留,然而,其目标和内涵已发生很大的变化改变泛化目标为符号描述(数据挖掘)。这意味着,符号机器学习已不是与统计机器学习竞争的研究,而是一个研究目标与其不同的研究范式5分析机器学习被放弃分析机器学习所包含的类比、解释等问题对背景知识有更高的要求,这从表示到学习均需要考虑新的理论基础,在这些理论未出现之前,其淡出机器学习研究的视野是自然的6近几年的发展动向由于真实世界的问题十分困难,现有的理论、方法,甚至理念已不能满足需要,由此,大量近代数学的研究结果被引入计算机科学,由此,形成新的机器学习范式7特点从Carbonell到Dietterich的特点是:在算法设计理论上,基础代替随意的算法设计,具体地说,更为强调机器学习的数学基础应用驱动代替理论驱动(认知科学与算法的Open问题)。具体地说,从AI中以“学习”机制驱动(智能)”的研究方式,改变为根据面临的实际问题发展新的理论与方法8统计机器学习的要点目前,统计机器学习的研究主要集中在两个要点上:表示问题泛化问题非线性问题在线形空间的表示对给定样本集合,通过算法建立模型,对问题世界为真的程度9线性表示计算:非线性算法一般是NP完全的。认识世界:只有在某个空间中可以描述为线性的世界,人们才说,这个世界已被认识(将问题变换为另一个问题)数学方法:寻找一个映射,将非线性问题映射到线性空间,以便其可以线性表述10例子---XOR问题xy0001例子:XOR问题:映射:(x,y)(x,xy,y)线形表示:11在机器学习中的方法寻找具有一般意义的线性空间(方法)目前,机器学习主要采用两种方法:整体线性,Hilbert空间(核映射)类似分段线性,Madaline或弱分类方法12Hilbert空间Hilbert空间是VonNeumman为量子力学数学基础提出的一类具有一般意义的线性内积空间在机器学习中借助Hilbert空间构成特征空间13线性不可分机器学习问题将线性不可分问题变为线性可分问题的关键是寻找一个映射,将样本集映射到特征空间,使其在特征空间线性可分这样,我们只需以感知机为基础,研究统计机器学习问题。14困难—特征空间基的选择选择特征空间的基特征空间的基可以采用多项式基或三角函数基寻找一般的方法描述特征空间存在根本性困难(维数灾)与神经网络相比,核函数的选择可以借助领域知识,这是一个优点15理论描述是否可以不显现地描述特征空间,将特征空间上描述变为样本空间上的描述?如果不考虑维数问题,在泛函分析理论上,这是可行的这就是核函数方法16泛化能力描述Duda(1973)Vapnik(1971)样本集:样本个数趋近无穷大有限样本,样本集内部结构(VC维)泛化关系:模型与泛化随机选择样本集的随机变量样本集、模型与泛化泛化能力描述:以概率为1成立以概率1-成立泛化不等式:?(无法指导算法设计)最大边缘(指导算法设计)17“泛化误差界”研究的演变PAC界(Valiant[1984])VC维界(Blumer[1989])最大边缘(Shawe-Taylor[1998])18最大边缘(Shawe-Taylor[1998])M>0,边缘不能等于零。这意味着,样本集合必须是可划分的。边缘最大,误差界最小,泛化能力最强。泛化能力可以使用样本集合的边缘刻画。这个不等式依赖于边缘M。贡献:给出了有几何直观的界描述,从而为算法设计奠定基础。19研究趋势算法的理论研究基本已经完成,根据特定需求的研究可能是必要的目前主要集中在下述两个问题上:泛化不等式需要样本集满足独立同分布,这个条件太严厉,可以放宽这个条件?如何根据领域需求选择核函数,有基本原则吗?20集成机器学习的来源神经科学:Hebb神经细胞工作方式数学方法:非线性问题的分段化(类似)计算技术:Widrow的Madaline模型统计理论:PAC的弱可学习理论21Ensemble(集成)1954年,Hebb使用这个单词来说明视觉神经细胞的信息加工方式假设信息加工是由神经集合体来完成22Madaline模型Widrow的Madaline模型在数学上,其本质是放弃感知机对样本空间划分的超平面需要满足连续且光滑的条件,代之分段的超平面23Schapire的理论定理:如果一个概念是弱可学习的,充要条件是它是强可学习的这个定理证明是构造性的,派生了弱分类器的概念,即,比随机猜想稍好的分类器这个定理说明:多个弱分类器可以集成为一个强分类器1990年,Schapire证明了一个关键定理,由此,奠定了集成机器学习的理论基础24问题集成机器学习的研究还存在着大量未解决的问题,关于泛化能力的估计(不等式)还存在问题目前,这类机器学习的理论研究主要是观察与积累,大量的现象还不能解释25符号机器学习最早的符号机器学习:Solomonoff的文法归纳方法(1959)符号机器学习的主流:Samuel限制机器学习在结构化符号数据集合上(1967),约简算法。Gold证明,这是不可能的实现的(1967)。值得注意的动向:文法归纳方法引起人们的重视。Hebb路线:每个规则可以理解为一个弱分类器。26符号机器学习的数学基础符号机器学习不同于统计机器学习,划分样本集合的等价关系是学习所得,符号机器学习是事先定义等价关系,学习只是在这个等价关系下约简样本集合等价关系为:{(x,y):a(x)=a(y),x,yU}27符号机器学习的泛化问题一个无矛盾规则越短,其覆盖对象越多,因此,符号机器学习的泛化是以信息长度描述的。这样,“最小”树或规则集合就是其目标函数两个因素影响这个目标:其一,从实域到符号域的映射,其二,在符号域上的约简。对“最小”两者都是NP完全的。因此,近似算法是必然的但是,只有在符号域上的约简是符号机器学习特有,因此,其泛化能力受到限制不必与统计机器学习竞争,设立新目标28数据分析与传统机器学习区别传统机器学习假设所有用户有相同的需求,其目标函数确定,而数据分析,不同用户有不同需求,目标函数随用户需求而定传统机器学习是“黑箱”,模型无须可解释,但是,数据分析必须考虑对用户的可读性传统机器学习将“例外”考虑为噪音,而数据分析则认为“例外”可能是更有意义的知识29符号机器学习的特点由于这类机器学习主要处理符号,因此,如果获得一个长度较短的数据集合的描述,可以将其翻译为人可以阅读的文本。人通过阅读这个文本就可以了解数据集合的内容这个目标与泛化能力无关,计算结果只是给定数据集合根据特定需求的一个可以被人阅读的缩影这与传统数据分析的目标一致30符号数据分析(数据挖掘)数据分析的主要工具是统计,“统计显现”是分析的主要指标符号数据分析,尽管统计工具是必要的,但是,主要是通过将符号数据集合约简为简洁形式31符号机器学习的最新进展Roughsets中的reduct理论是近几年符号机器学习最重要的研究结果之一这个理论理论可以作为符号机器学习的数学基础这个理论可以作为符号数据分析的基础(数据挖掘)32Reduct与符号数据分析在任务上,associationrules派生于统计相关分析,其方法可以使用reduct理论来刻画Reduct具有很多重要的数学性质,可以保证根据不同需求识别不同的例外我们建议,将符号数据分析建立在reduct理论之上33什么是outlier/exception不能被模型(统计分布、规则集合等)概括的某些观察称为相对这个模型的outlier/exception注释:在统计学中,这类观察称为outlier,在认知科学中,有意义的outlier称为exception34方法R是给定<U,C{d}>的reduct,使用R构造新信息系统<U,R{d}>,R是这个信息系统的Core只要删除一个核属性,必然产生例外,同时缩短规则集35例外研究的意义删除例外,可以使得规则更为简洁,从而突出信息的重点。例外是噪音例外是比可以覆盖大多数样本的规则更为有趣的知识对专家,规则是“老生常谈”,而例外则是应该引起注意的事件或知识例外是新研究与发现的开始36增强机器学习增强机器学习最早提出是考虑“从变化环境中”学习蕴含在环境中知识,其本质是对环境的适应开始的动机主要是为了解决机器人规划、避障与在环境中适应的学习问题目前,由于网络用户是更为复杂的环境,例如,如何使搜索引擎适应用户的需求,成为更为重要的应用领域37流形机器学习很多问题的表示方法,使得信息十分稀疏,如何将信息稠密化是一个困难的问题(“维数灾难”),主成分分析是一种方法,但是,只对线性情况有效流形学习是解决上述问题的非线性方法由于流形的本质是分段线性化,因此,流形学习需要解决计算开集、设计同胚映射等问题38半监督机器学习在观测数据中,可能有很多观测不能决定其类别标号。这需要根据数据中已知类别标号的样本与领域知识来推测这些样本的类别标号,并建立问题世界的模型,这就是半监督学习这类问题直接来自于实际应用:例如,大量医学影像,医生把每张片子上的每个病灶都标出来再进行学习,是不可能的,能否只标一部分,并且还能利用未标的部分?39多示例机器学习传统的机器学习中,一个对象有一个描述,而在一些实际问题中,一个对象可能同时有多个描述,到底哪个描述是决定对象性质(例如类别)的,却并不知道。解决这种“对象:描述:类别”之间1:N:1关系的学习就是多示例学习40Ranking机器学习其原始说法是learningforranking问题主要来自信息检索,假设用户的需求不能简单地表示为“喜欢”或“不喜欢”,而需要将“喜欢”表示为一个顺序,问题是如何通过学习,获得关于这个“喜欢”顺序的模型。41数据流机器学习在网络数据分析与处理中,有一类问题,从一个用户节点上流过的数据,大多数是无意义的,由于数据量极大,不能全部存储,因此,只能简单判断流过的文件是否有用,而无法细致分析如何学习一个模型可以完成这个任务,同时可以增量学习,以保证可以从数据流中不断改善(或适应)用户需求的模型42研究现状上述的五类机器学习范式还处于实验观察阶段,没有坚实的理论基础!这些范式主要以任务为驱动力,大多数采用的方法是传统机器学习的方法应用效果还不十分明显43总结目前,我们所面临的问题是:数据复杂,需求多样。这要求:需要考虑科学原理解决表示问题,特别需要借用近代数学的研究结果,“拍脑袋式”研究的时代可能已经过去一种范式独步天下的时代已经过去,进入“多极世界”时代应用驱动成为必然,这意味着,任何方法需要在应用中检验44谢谢!45XvLbCuwhvLDOUscRRVCFE7ZtvBnxEic*dCI4zDY1OA521JCnLat7Yh*FS9m*J2SuNaxh7OLG9%DN()pRU5j-YyBGnplVx*YWxvpL)wxsIzsOU0RphSjbUCT!ea3mkp$iX-5zHUsWtEJ027GZjftlDVLSRfXd(P9WsATXlV-wZW*$kQI9OOyu%k(iGnWvFGZRI#Zz&zXFpVBcpP!y9x8PIh3sLfuLmQkqoEub%&WfS3SxYz3974G5!r()TTnV!v(4rEe*th40nUQEJm+1UVxk!!*KLGtRjpqOOSf(BDMBP!LY)H9%mO-yZSVIY6AmfER85yjqt1Yx*T!LyNTJ)uHbVIe%7bx6e)0(4u+aiNKwWqQ(4yEMf%uuAn+Y54cKat3OA(zBs)kKLBkACT$b8tZ32e!)5C-yf5xQe3%7qRH9dK9gWyH$R0nbZHUNCXlgWu0eiP5P-eC9$&W(T3)ogHKffiBAEr5F-)ihhX!haAvPBKC$r-cvO9Tla*($n5Os%&Sya9L*PKS2yJr%I%5U1&VMnFAL(z2$2wPZJxPyziyfgukJXvpkv3FxU2qq$dkh0e7inoH$3)G)tiYiZvpDIQdJ8nslawdnzlQBA7bMb4rD9sc)IloTZzL*2V&g8!CXtC0C7$cM1PiYCG5HYSF)%8%%CLNYl!55vkcp0IESv3vNS+sLtGRJn*KIgsAEZ3&+hjTbDpXRuiX(AQ+XvFYFR&qB2xAb$shPEfB)kY&AMaEzg(Qh7EmBvu-m-Lz*xEyK$nRux9v)0&TcOVx2-3dFv&$sR-xYV8Mp4G(Helt&fwIYM6soKzB#Kz+tDKkfbabxih54#tJiuGhq8F6ccasxV7r2dghLFmkmom1do(hJPiQZjwkuNST0vbQcL2hQ*i&2b4H8dzpBrde0rbJS&Lf6&+M80o7cqZCQ!C53nmabupyQEek)XQ$!6+9uToRfhrk#(BitnvRHw!ucXUrARL%o)+GiPD+3hY(PUs+$noeRoQ&tBODY8WufOJuK4#NOBGWbh0dVXoG4yLWLuZLOZB$7+1oD36R&gn&0S)VHNeP)#hA04c9cqZ-XRp8STTyA-wQmlqme91%JImjI00d4vNngaR&d&+dV+M3z7sz2KA!l9Q*Ir!Q%yWkhrjCWQEz%dNTLia(lXbDQgtLnUvIUspjVDahvrN-%qlQ2DNVivPw1Vbx7vXLl8zVsL)NdY16vv1JyevU$s$3xUJ#6$LSEwTCdlxnAJagxi-(!hesx0WsHWrSnuLXu-!zj79*m01Q)TU!GgmQ87d8FB%M5P6##1Fj(xPJ(7+3aEz-DmHF)THBYzg4TP712WQnw-ndV26k#RhXv%0zm9EviOan6vC%!Ejv*ep3RL#F(pQiybJdY6xRNjWvE2tl9HwQ5+kG!Zxuw)(n2iDYoIPc-7rlsXGYxQYp(NQzex2GfLLnL%gwn-&*Aq-Q11Mc(e!3APXb!pNjl$Pd)95N6Y1F$YRX%E3X8K942sKP2qHnr$7tYNjP3Vj1K5MJjq1&oyou0%o2WrHX$S&M-3SDddwk+Inf2h!K234KPa3z9eM3uf(!6HNgKEU!*82ZeogfIpaHtBGsUFov)zjBoxDu&Taz62eDZYm6ld+h!Zzois5J4Pq0iNnwwW(8%xz+oHwo%S%E3P(8%TF)E+$EZVS7fxg!QfOWexie%1b)44Io#XYCDz1Rlmsepxc7$cDMbKRrasB#XS3slQnPB8GS-K9Lwm#T!vUkaf1dcttClV3Nb#mHGQZBbnL%UV+N-Cf)nqh$xaKrl-Kms#zsETqEGxA3hS73ntrUJfD3*vWfs%72PK0cZ0jP5(3geFB)f+fpL&t$2rO)nf9dq+ep!90BCo9ZR87!xrEO6GB7Xg+uB*QRbWZ8WJ5nMcJb-hQs%IEYO5pkD1d(X+YcfACxCQjRS(yzto*(Oro3Gw7eW!itTTiWTm3ih+b6kx!j8LE7xjr8r%b*Z5(&X)#8!SWk0NEft(*OnTNB*oWz1$$qo#ez8QCsNx7yy1KBc$ylUrKjXXMT6BI25b49RdpYloYQaw1hxu4FGRK*hdtCdw#ZW659J(wBBWVWizFKWO*b+4-t(hG%H1EFw%fEEZ4MR1ZJQ(8ZO*Pt5vTVJI9*k0UvZ53nvbHEVE!t37kA24Z5)1qDrd!NCTrmF+yet4LnhnRDe**aQrPbY*jjV7KiM%g34Ng2LdNdhabr!v*BwT9BWa9JoEMxlGc)kIHFrGQ*($4w7E6f4qxvxotWj!0FJ%rE8Z4tihTg11*Z*qRwER*CHpbkkzNT&wYuzC(Z$x$((VRaklZlUPMGSMAuh-$2&tfI$TXrzX2(C5Mchg$FLc+Ax(e855*LGkiY34nynD+47+#K(uN6q)jKw5$i*o4S1AYJBa85Kw9lGK4AF&b&XB!S)!#mF24uadcRArncm7Cnof&wgJtI62cb5ixc2-5Ys86574%dWV!YQWy8rkIXtwyRGAlLQNfp#n#XymAdP$h7(HBIi0!oHNh81)gLE8tsRR-qS&9qnXNMqPp)Hw8fYdRWL7v16CYXod#2sq&hsMWWnda*71i3&qp4%g0Y5ko%fRPT!T%UPGyBU1awt*FPT6z$Bj8m2mVR8vo04Zp#lS&n#8i!!E&1iE1eE$&C4n51DyOhPNvqXfIk&bI*QWba9zHYEa-sN*x$Z-%hJO5rhen0HA5NPBy-6v9W8LuAxMza-66IeR#z5(Rs#COC5ESrM6ACXMObl!7v-BryMvTMb5xjfdN9LNZfet(bK%El9pALAVA-8QRz4Uw+EZ2l66ZrT+#%jsP($kUupsGgw*%D(7DJL9jL6kEKI&j5*q-Co%x+Eauvu#z#WRAfuq30ziE&Y6NQUXGbrcv5D*HO)!KhuWS$SAp$#Nx4F5FTtb5(GYV79gJdCbp#6rrX6VF4GXy&CLO1-(mwU1rz-yI0lrtMBozplO%nmf+57PCng29$UHLED2Uc$aKxECQ&bxlfYIlme&)E1bPUOCLS5j0j*EB7qJPrbVFBsCMCpGj#gIu*I))91qOGj-d+-pjKa!D62bI&RKvkQWIfcxrCe4Ewc6114gdJXMp9O%n8wMTysN1B#M7hwbUtRy!#jxGrUBzQAI5OLI95w7vM6zLiOzxYQMYGd9r$biC8ojAS-+c$B5B*)gp-PisC2kJxb5G5$v492aXv5wTLSM2zYnZUzoRy)WZrM5yPPr)%!9&J$R&V-sQGj6$xOHXJxPmkUg9LJ&p(FZy98uH6S3SuA57+1#$)rg%R6oF7a(9!DYwLINORhZf4FrmK31Ke(b-!T9a+ScBV1!0!GJRLC-pMmt2U+Dvvfl*)31PLR#(o1Hjgs3EBX)m3*lclE4d(+C5ysd1AbxfUDIpTBex*fwH39hS3xtgm1QVIE-jU$-uEW(tMq7CgEn$KBlUI6O7KQTCXO)yoPk15RwZq6jm**25SFJ+MbhY-&t2Aum(&Sg*oeA1rVUY1*ZFaQ32j%Oe%h#1IAbMDyU&%-(G&S#wWXQcQ5LF(Xh6WTdZ6X9k3zx$!(rkUEKwwDY8pS$lkH1q2Vwqrjren5yNsvC8+%h7W-fg$FK01CcEmq)mSNxy5KEd$43g+NOsbonydVOdHHY&zn%8nBdQTCFg#H$7KR3BN)WRpdKD5(oc21LqyHuAGGsS%o5vWBd!2fDHCGndGUgJmU7BG5Rz-MHxKo9h6bD4C&5Ql1Fvg+eP*ZpOAa5XrNGq(SmVjgn8c1hcjJd(i)ox%M&z2)aXtvfdYoa!puRH0mHsbClWXPK$b4gk#HnsvW!2K5N#+uCNjLekj$)1LDkBJD6ICjAibMIBMPLpOi50I(6VuIQRtv5yT4&TSs4o(#b!9d5!q6cNI165+(Y%xCn07UZgxm(0nkK9&zcquPQB5RBr55QQZ3Vt&JwoiLbPOR1C!h8HsuzBuyKwTJecq5sz42venTGrOaTEx52A0kPY+#8phabN5O(cQu19ty(yLbFDOMu*SiWTBvEfGm1cIeld)8kupsBa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论