




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习的困惑
与历史的启示王珏第九届机器学习及其应用研讨会2011年11月,清华大学机器学习的困惑
与历史的启示第九届机器学习自然模型[采样]样本集模型[算法][交叉验证]假设iid统计机器学习的麻烦?????[设计实验]
问题:模型是自然模型吗?统计机器学习如果数据不充分,在大变量集合下,如何设计实验,获得新数据。统计机器学习的困难:实验设计存在组合问题。iid成为与自然模型无关的假设!特殊函数的逼近自[采样]样本集模型[算法][交叉验证]假设iid统计机器社会的需求生物、网络、金融、经济和安全等众多领域,大变量集合的海量数据不断涌出,社会迫切需要分析与处理这些数据的有效理论、方法与技术。寻找分析与处理大变量集合海量数据的新理念、理论、方法与技术成为当前迫切的任务。社会的需求生物、网络、金融、经济和安全等众多领域,大变量集合历史的故事历史的故事线性感知机基于最小二乘的Rosenblatt的感知机(1956),其本质是多变量空间上的平均(回归)。1902年,James的神经元相互连接1943年,McCulloch和Pitts的神经元工作方式1949年,Hebb的学习律。贡献是:多变量回归的计算方法(神经网络)。基函数:L=1D+2I+3G+4S设计算法,确定,获得模型疑问是:只能解决线性问题,不能满足实际的需要。埋下被批评的口实。线性感知机基于最小二乘的Rosenblatt的感知机(19520世纪70年代面临的选择统计优化(平均):线性感知机统计模式识别复杂信息系统(结构):专家系统句法模式识别选择非线性问题计算效率专家系统合理复杂问题求解实现智能系统的理想Duda
and
Hart[73]从Bayes判别(分类),引入损失函数,变为正则化问题If
[D=0][G=A]then[L=0]If
[I=0][G=A]then[L=0]If
[D=1][I=1][G=A]then[L=1]20世纪70年代面临的选择统计优化(平均):复杂信息系统(结AI1969年,M.Minsky发表颠覆性的报告,“Perceptron”。表象是以XOR问题向以平均为基础的感知机发难,本质是试图以结构方法代替平均。全书使用拓扑作为工具。1956年,以复杂信息处理为契机,提出AI。其动机有二:其一,发展处理符号的方法,其二,处理非线性问题。过分强调独立性,使得描述任何一个问题,需要穷举出所有可能。80年代,耗资巨大的CYC“失败”了。需要统计方法成为共识。AI1969年,M.Minsky发表颠覆性的报告,“Per20世纪80年代面临的选择概率图模型(Bayes学派):Markov随机场Bayes网人工神经网络(频率学派):BP统计机器学习选择结构学习的困难先验的结构先验概率分布推断是NPC字符识别,网络数据建模误差界指导算法设计算法基于线性感知机无需先验知识,无推断考虑泛化为核心Gibbs[1902],Wright[1935]Clifford[1971]Pearl[1988,89]20世纪80年代面临的选择概率图模型(Bayes学派):人工统计机器学习1991年,Vapnik借用在AI中的PAC,给出基于iid的误差界,基于PAC的统计开始成为主流1986年,Remulhart发表PDP报告,包含非线性BP算法,解决XOR,逼近非线性函数。学术价值不大,人们开始重新尝试“平均”方法。从ANN到SML,发展得力于对字符识别的成功神经网络基于PAC的机器学习基于统计学的机器学习贡献:(1)基于iid的误差界指导算法设计,(2)算法设计返回感知机,线性算法,寻找线性空间(核映射)。基于PAC理论,误差界以1-概率成立。这个参数在泛化意义下的解释:理想,应该趋于0,但是,误差界将趋于无穷,成为平凡界。新世纪开始,统计学家加入SML,完全放弃PAC(Hastie)。统计机器学习1991年,Vapnik借用在AI中的PAC,给维数灾难高维空间上的统计理论,多重积分是麻烦,补充“合适”样本是麻烦。“同分布”只能停留在假设上,无法实施。在高维空间(成百上千)建模,最大的危险就是空间大的程度使得再多的样本,在这个空间上也是稀疏的。由于困难具有本质性,平均遇到大麻烦!维数灾难高维空间上的统计理论,多重积分是麻烦,补充“合适”样概率图模型将平均放在局部,避免了维数灾问题,同时保证了泛化和模型的可解释性,关键是结构,将局部的平均构造起来。基于平均的研究已经过去20余年,2009年,Koller出版巨著(近1200页),概率图模型。结构(全局)+平均(局部)将问题考虑为求解Bayes问题概率图模型将平均放在局部,避免了维数灾问题,同时保证了泛化和一、表示
二、推断
三、学习概率图模型的三个要素一、表示
表示---I-mapP(I,D,G,L,S)=P(I)P(D|I)P(G|I,D)P(L|I,D,G)P(S|I,D,G,L)P(D,I)=P(D)P(I)P(L|G)P(S|I)DIGSLP(D)P(L,I|G)=P(L|G)P(I|G)I与D相互独立L只与G有关,与其他独立S只与I有关,与其他独立P(I)P(G|I,D)DILILDSDSGSLI-map={}P(L,D|G)=P(L|G)P(D|G)表示---I-mapP(I,D,G,L,S)=P(I)P(D求解Bayes问题的策略使用Markov网表示Bayes问题。(1)连接的节点保持连接。(2)X与Y有共同子孙,X与Y连接。
由于Bayes网可以简单地转化为Markov网,因此,在统计上,这个方法可以归入Bayes范畴,Markov网成为求解Bayes问题的一个方法。求解Bayes问题有两个途径:(1)直接求解,困难;(2)变换为Markov网,使用优化方法求解。(与Duda&Hart的思考一致)。求解Bayes问题的策略使用Markov网表示Bayes问题推断---Bayes问题推断,概率查询(Y边缘):根据给定图,计算P(Y|E=e)。在证据E=e条件下,Y出现的概率(边缘概率)。(1)根据给定BN,计算联合分布:P()=P(Xi|PaXi)(2)计算在E下变量Y的边缘分布:P(Y|E)=X-{Y}-EP()计算是NPC问题(或多重积分,Bayes问题)。求解Bayes问题的两条路线(Duda(1973),Koller(2009)):(1)直接求解:动态规划、Clique树,蒙特卡洛等。(2)变分求解:设定目标函数(损失),化为正则化问题。推断---Bayes问题推断,概率查询(Y边缘):根据给定图学习假设:给定结构且样本完整(所有变量被赋值)。任务:学习参数,参数估计。CPD方法:(1)最大似然估计,(2)Bayes预测假设:结构未知,但是,样本完整。任务:学习结构和参数。考虑一个可能结构的假设空间,结构选择变为优化问题。假设:样本不完整,或某些变量未知。任务:发现非显现表现的变量,知识发现。
学习假设:给定结构且样本完整(所有变量被赋值)。假设:结构未学习结构的两种策略DACBE假设空间:对结构,就是变量连接的全组合。学习结构:根据某种准则,求出I-map准则:对某个结构的评价---评分。I(G)={AB}I(G)={AC}I(G)={AE}I(G)={AE,BE,CD,AC}目标:从假设空间中选择似然最大的模型(结构和参数)更为重要的是:通过知识库建立结构(或减小假设空间)。学习结构的两种策略DACBE假设空间:对结构,就是变量连接的历史进程---20年河东,20年河西?1986-今天平均(数值计算)统计机器学习1943-1969平均(数值计算)感知机2000-今后平均+结构?概率图模型?1956-1986结构(符号计算)人工智能M.Minsky等
Perceptrons:Anintroductiontocomputationalgeometry.1969D.Rumelhart等,ParallelDistributedProcessing,1986
V.Vapnik,Thenatureofstatisticallearningtheory,1995T.Hastie等,TheElementsofStatisticalLearning,2003D.Koller等ProbabilisticGraphicalModels:PrinciplesandTechniques,2009历史进程---20年河东,20年河西?1986-今天1943总结:我们的纠结统计机器学习以“泛化”为核心。泛化:大量不确定观察的平均是确定的,排中。iid难以割舍:(1)大量实际问题需要建立的模型是可泛化的;(2)泛化使得建立的模型是实际问题有依据的近似;(3)不知什么新的标准可以代替泛化。Koller这本书并没有以泛化为核心,她的宗旨与AI相似。总结:我们的纠结统计机器学习以“泛化”为核心。泛化:大量不确前途:“预测”与“描述”预测与描述是数据挖掘提出的两个任务,但是,数据挖掘的描述任务一直开展不好(啤酒和尿布)。被嘲笑!图模型既可以消除噪音且表示紧凑(相对AI的穷举),还可以对模型的各个部分可解释。前者是预测(泛化),后者是描述(发现)。金融和生物等领域,计算机科学有两个策略:其一,代替领域专家(从数据建立可靠(泛化)的模型),其二,为领域提供工具,简化专家的工作(知识发现)。对这些领域,描述可能更好。对网络、语言、图像等领域,泛化是重要的,但是,发现同样重要。概率图模型为“描述”与“描述后的预测”提供基础。前途:“预测”与“描述”预测与描述是数据挖掘提出的两个任务,谢谢愚者浅谈,不足为凭痴人梦语,切勿轻信旧路沿袭,艰难度日新盘洞察,激动人心谢谢愚者浅谈,不足为凭旧路沿袭,艰难度日机器学习的困惑
与历史的启示王珏第九届机器学习及其应用研讨会2011年11月,清华大学机器学习的困惑
与历史的启示第九届机器学习自然模型[采样]样本集模型[算法][交叉验证]假设iid统计机器学习的麻烦?????[设计实验]
问题:模型是自然模型吗?统计机器学习如果数据不充分,在大变量集合下,如何设计实验,获得新数据。统计机器学习的困难:实验设计存在组合问题。iid成为与自然模型无关的假设!特殊函数的逼近自[采样]样本集模型[算法][交叉验证]假设iid统计机器社会的需求生物、网络、金融、经济和安全等众多领域,大变量集合的海量数据不断涌出,社会迫切需要分析与处理这些数据的有效理论、方法与技术。寻找分析与处理大变量集合海量数据的新理念、理论、方法与技术成为当前迫切的任务。社会的需求生物、网络、金融、经济和安全等众多领域,大变量集合历史的故事历史的故事线性感知机基于最小二乘的Rosenblatt的感知机(1956),其本质是多变量空间上的平均(回归)。1902年,James的神经元相互连接1943年,McCulloch和Pitts的神经元工作方式1949年,Hebb的学习律。贡献是:多变量回归的计算方法(神经网络)。基函数:L=1D+2I+3G+4S设计算法,确定,获得模型疑问是:只能解决线性问题,不能满足实际的需要。埋下被批评的口实。线性感知机基于最小二乘的Rosenblatt的感知机(19520世纪70年代面临的选择统计优化(平均):线性感知机统计模式识别复杂信息系统(结构):专家系统句法模式识别选择非线性问题计算效率专家系统合理复杂问题求解实现智能系统的理想Duda
and
Hart[73]从Bayes判别(分类),引入损失函数,变为正则化问题If
[D=0][G=A]then[L=0]If
[I=0][G=A]then[L=0]If
[D=1][I=1][G=A]then[L=1]20世纪70年代面临的选择统计优化(平均):复杂信息系统(结AI1969年,M.Minsky发表颠覆性的报告,“Perceptron”。表象是以XOR问题向以平均为基础的感知机发难,本质是试图以结构方法代替平均。全书使用拓扑作为工具。1956年,以复杂信息处理为契机,提出AI。其动机有二:其一,发展处理符号的方法,其二,处理非线性问题。过分强调独立性,使得描述任何一个问题,需要穷举出所有可能。80年代,耗资巨大的CYC“失败”了。需要统计方法成为共识。AI1969年,M.Minsky发表颠覆性的报告,“Per20世纪80年代面临的选择概率图模型(Bayes学派):Markov随机场Bayes网人工神经网络(频率学派):BP统计机器学习选择结构学习的困难先验的结构先验概率分布推断是NPC字符识别,网络数据建模误差界指导算法设计算法基于线性感知机无需先验知识,无推断考虑泛化为核心Gibbs[1902],Wright[1935]Clifford[1971]Pearl[1988,89]20世纪80年代面临的选择概率图模型(Bayes学派):人工统计机器学习1991年,Vapnik借用在AI中的PAC,给出基于iid的误差界,基于PAC的统计开始成为主流1986年,Remulhart发表PDP报告,包含非线性BP算法,解决XOR,逼近非线性函数。学术价值不大,人们开始重新尝试“平均”方法。从ANN到SML,发展得力于对字符识别的成功神经网络基于PAC的机器学习基于统计学的机器学习贡献:(1)基于iid的误差界指导算法设计,(2)算法设计返回感知机,线性算法,寻找线性空间(核映射)。基于PAC理论,误差界以1-概率成立。这个参数在泛化意义下的解释:理想,应该趋于0,但是,误差界将趋于无穷,成为平凡界。新世纪开始,统计学家加入SML,完全放弃PAC(Hastie)。统计机器学习1991年,Vapnik借用在AI中的PAC,给维数灾难高维空间上的统计理论,多重积分是麻烦,补充“合适”样本是麻烦。“同分布”只能停留在假设上,无法实施。在高维空间(成百上千)建模,最大的危险就是空间大的程度使得再多的样本,在这个空间上也是稀疏的。由于困难具有本质性,平均遇到大麻烦!维数灾难高维空间上的统计理论,多重积分是麻烦,补充“合适”样概率图模型将平均放在局部,避免了维数灾问题,同时保证了泛化和模型的可解释性,关键是结构,将局部的平均构造起来。基于平均的研究已经过去20余年,2009年,Koller出版巨著(近1200页),概率图模型。结构(全局)+平均(局部)将问题考虑为求解Bayes问题概率图模型将平均放在局部,避免了维数灾问题,同时保证了泛化和一、表示
二、推断
三、学习概率图模型的三个要素一、表示
表示---I-mapP(I,D,G,L,S)=P(I)P(D|I)P(G|I,D)P(L|I,D,G)P(S|I,D,G,L)P(D,I)=P(D)P(I)P(L|G)P(S|I)DIGSLP(D)P(L,I|G)=P(L|G)P(I|G)I与D相互独立L只与G有关,与其他独立S只与I有关,与其他独立P(I)P(G|I,D)DILILDSDSGSLI-map={}P(L,D|G)=P(L|G)P(D|G)表示---I-mapP(I,D,G,L,S)=P(I)P(D求解Bayes问题的策略使用Markov网表示Bayes问题。(1)连接的节点保持连接。(2)X与Y有共同子孙,X与Y连接。
由于Bayes网可以简单地转化为Markov网,因此,在统计上,这个方法可以归入Bayes范畴,Markov网成为求解Bayes问题的一个方法。求解Bayes问题有两个途径:(1)直接求解,困难;(2)变换为Markov网,使用优化方法求解。(与Duda&Hart的思考一致)。求解Bayes问题的策略使用Markov网表示Bayes问题推断---Bayes问题推断,概率查询(Y边缘):根据给定图,计算P(Y|E=e)。在证据E=e条件下,Y出现的概率(边缘概率)。(1)根据给定BN,计算联合分布:P()=P(Xi|PaXi)(2)计算在E下变量Y的边缘分布:P(Y|E)=X-{Y}-EP()计算是NPC问题(或多重积分,Bayes问题)。求解Bayes问题的两条路线(Duda(1973),Koller(2009)):(1)直接求解:动态规划、Clique树,蒙特卡洛等。(2)变分求解:设定目标函数(损失),化为正则化问题。推断---Bayes问题推断,概率查询(Y边缘):根据给定图学习假设:给定结构且样本完整(所有变量被赋值)。任务:学习参数,参数估计。CPD方法:(1)最大似然估计,(2)Bayes预测假设:结构未知,但是,样本完整。任务:学习结构和参数。考虑一个可能结构的假设空间,结构选择变为优化问题。假设:样本不完整,或某些变量未知。任务:发现非显现表现的变量,知识发现。
学习假设:给定结构且样本完整(所有变量被赋值)。假设:结构未学习结构的两种策略DACBE假设空间:对结构,就是变量连接的全组合。学习结构:根据某种准则,求出I-map准则:对某个结构的评价---评分。I(G)={AB}I(G)={AC}I(G)={AE}I(G)={AE,BE,CD,AC}目标:从假设空间中选择似然最大的模型(结构和参数)更为重要的是:通过知识库建立结构(或减小假设空间)。学习结构的两种策略DACBE假设空间:对结构,就是变量连接的历史进程---20年河东,20年河西?1986-今天平均(数值计算)统计机器学习1943-1969平均(数值计算)感知机2000-今
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽电机组拆装合同协议书
- 监理公司合同的补充协议
- 派遣固定期劳动合同范本
- 银行担保人签订合同范本
- 淘宝店铺运营服务协议书
- 生活垃圾代管协议书模板
- 私下将租赁合同转让协议
- 济南机场战略合作协议书
- 聘用协议性质为劳动合同
- 终止造林合同协议书范本
- 2025-2030中国住宅新风机行业经销模式与应用规模建议报告
- 肝癌介入术后护理课件
- 2025年铁路运输与管理专业考试试题及答案
- 老人发热护理课件
- 2025年中考物理真题完全解读(湖北省卷)
- 宿舍清洁服务方案(3篇)
- 牛津自然拼读第二册练习
- 韶光新丰县丰城街道办事处招聘执法辅助人员笔试真题2024
- 高速公路服务区保洁培训
- 硬膜外血肿的护理常规
- 物流运输行业从业经历及表现证明(8篇)
评论
0/150
提交评论