版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
今天内容:模型选择Occam'srazor测试误差/训练误差训练误差的乐观性估计MallowsCp统计量AICBIC/MDLSRM直接估计测试误差交叉验证Bootstrap1.今天内容:模型选择Occam'srazor1.“模型”我们说的“模型”有时指的是模型类别,例如所有2个高斯的混合模型和所有3个高斯的混合模型。有时也指在一个类别的模型中的一员,如参数的值为特定值。也就是说,模型的类别是固定的,而考虑的是不同的参数值。在实际应用中,我们通常同时考虑上述两种情况,也就是说:参数的选择统计决策理论部分已经讨论
,在此主要讨论不同函数族的选择
2.“模型”我们说的“模型”有时指的是模型类别,例如所有Occam'srazorWilliamofOccham(1285–1348)fromwikipediaOccam'srazor:
Entianonsuntmultiplicandapraeternecessitatem
Or:
Entitiesshouldnotbemultipliedunnecessarily
——theexplanationofanyphenomenonshouldmakeasfewassumptionsaspossible,eliminating,or"shavingoff",thosethatmakenodifferenceintheobservablepredictionsoftheexplanatoryhypothesisortheory.3.Occam'srazorWilliamofOcchaOccam'srazor例:树后面有多少个盒子?√4.Occam'srazor例:树后面有多少个盒子?√4.模型选择训练数据既包含输入—输出之间的规律也包含噪声模型匹配时会匹配上述两种情况如果模型太复杂,会将噪声也包含在模型中所以,好的模型足够对输入—输出之间的规律建模不够对噪声建模(假设噪声较弱)5.模型选择训练数据5.一个回归的例子
样本数n=10用M阶多项式拟合:6.一个回归的例子样本数n=106.一个回归的例子(2)0阶多项式拟合7.一个回归的例子(2)0阶多项式拟合7.一个回归的例子(3)1阶多项式拟合8.一个回归的例子(3)1阶多项式拟合8.一个回归的例子(4)3阶多项式拟合9.一个回归的例子(4)3阶多项式拟合9.一个回归的例子(5)9阶多项式拟合10.一个回归的例子(5)9阶多项式拟合10.一个回归的例子(6)过拟合:11.一个回归的例子(6)过拟合:11.一个回归的例子(7)回归系数:12.一个回归的例子(7)回归系数:12.一个回归的例子(8)9阶多项式拟合,训练样本数n=1513.一个回归的例子(8)9阶多项式拟合,训练样本数n=1513.一个回归的例子(9)9阶多项式拟合,训练样本数n=10014.一个回归的例子(9)9阶多项式拟合,训练样本数n=10014一个回归的例子(10)岭回归:最小化15.一个回归的例子(10)岭回归:最小化15.一个回归的例子(11)岭回归16.一个回归的例子(11)岭回归16.一个回归的例子(12)岭回归17.一个回归的例子(12)岭回归17.一个回归的例子(13)岭回归系数18.一个回归的例子(13)岭回归系数18.目标模型选择:估计不同模型的性能,选出最好的模型模型评估:已经选定最终的模型,估计它在新数据上的预测误差(泛化误差)提升模型的性能:模型平均BaggingBoost…教材第8章19.目标模型选择:估计不同模型的性能,选出最好的模型教材第8章1模型选择和模型评估当样本足够多时,可以将数据分成三份训练集:估计模型的参数校验集:估计模型的预测误差测试集:计算最终选定的模型的泛化误差但通常没有足够多样本,而且也很难说明多少足够数据是足够的依赖于基础数据的信噪比和模型的复杂程度训练集校验集测试集20.模型选择和模型评估当样本足够多时,可以将数据分成三份训练集校模型选择目标:选择使测试误差最小的模型M,称为模型选择。21.模型选择目标:选择使测试误差最小的模型M,称为模型选择。21训练误差与测试误差测试误差,亦称泛化误差(generalizationerror),是在与训练数据同分布的独立测试样本上的风险(平均损失):亦称期望风险训练误差是在训练样本上的平均损失:亦称经验风险22.训练误差与测试误差测试误差,亦称泛化误差(generaliz训练误差与测试误差目标是选择测试误差最小的模型但测试误差很难计算/估计用训练误差估计但训练误差是测试误差的欠估计在选择合适复杂性的模型时,存在偏差-方差的平衡训练误差的乐观性23.训练误差与测试误差目标是选择测试误差最小的模型训练误差的乐观训练误差与测试误差经验风险/训练误差是否是期望风险/测试误差的一个好的估计?随样本集容量n→∞渐进成立在小样本条件下,并不是一个好的估计训练误差是测试误差的欠估计(有偏估计)训练误差的乐观性24.训练误差与测试误差经验风险/训练误差是否是期望风险/测试误差训练误差的乐观性通常我们有因此,为了选择模型,我们可以对进行估计,或以某种方式估计R(M)欠拟合程度+复杂性惩罚25.训练误差的乐观性通常我们有欠拟合程度+复杂性惩罚25.训练误差的乐观性估计预测误差的方法估计乐观性,然后与训练误差相加AIC/BIC/MDL等(模型与参数为线性关系时)SRM直接估计测试误差
交叉验证/bootstrap对任意损失函数、非线性自适应拟合技术都适用26.训练误差的乐观性估计预测误差的方法26.估计乐观性通过各种技巧(通常是渐近性)估计乐观性27.估计乐观性通过各种技巧(通常是渐近性)估计乐观性27.MallowsCp
统计量统计量:
使用所有特征的模型28.MallowsCp统计量统计量AIC:AkaikeInformationCriterion当采用log似然作为损失函数,测试误差为其中为MLE,模型为,似然函数为则训练误差为其中为在训练集上的log似然。i为测试集上数据索引29.AIC:AkaikeInformationCriteriAIC:AkaikeInformationCriterion当时,其中这导出R(M)的一个估计:AIC其中为从一个低偏差(复杂的)估计的MSE获得。(高斯模型时,对数似然与平方误差损失一致)30.AIC:AkaikeInformationCriteriBIC:BayesianInformationCriterion类似AIC,可用于极大化对数似然实现的拟合中其中所以同AIC31.BIC:BayesianInformationCritBIC:Motivation用贝叶斯方法选择模型32.BIC:Motivation用贝叶斯方法选择模型32.回顾贝叶斯方法为书写简单,记训练数据为假设已知模型的的形式,参数的贝叶斯估计为(见参数估计部分)定义模型参数的先验分布:和模型似然:当有数据Z到达后,参数的分布(后验分布)变得更确定qs33.回顾贝叶斯方法为书写简单,记训练数据为qs33.贝叶斯方法与模型选择给定一些列侯选模型
,并且模型参数为某个给定的模型的后验概率为:表示模型的先验
表示证据(参数估计中的归一化因子)为了比较两个模型,可以比较后验比:如果比值>1,则选择第1个模型。34.贝叶斯方法与模型选择给定一些列侯选模型贝叶斯方法与模型选择
其中先验比可以根据美学原理或经验确定:如简单的模型先验更高但先验比不是必须的,即使假设模型的先验是均匀的,即先验比为常数,贝叶斯规则也倾向于选择能解释数据的最简单模型:Occam剃刀原理。Bayes因子表示数据Z对后验比值的贡献(证据)根据证据对模型排序35.贝叶斯方法与模型选择35.例:Occam剃刀原理简单模型只对有限范围内做预测
复杂模型(如有更多自由参数)能对更宽范围做预测但对区域中的数据,的预测不如强36.例:Occam剃刀原理36.证据证据(evidence)通常会在最可能的参数附近有一个很强的峰。以一维参数为例:利用Laplace方法近似,即用被积函数乘以其宽度37.证据证据(evidence)37.Occam因子(参数为多维情况)
其中38.Occam因子(参数为多维情况)38.BIC:BayesianInformationCriterion当模型为线性模型时用Laplace近似其中为极大似然估计,为模型中自由参数的数目当损失函数取,导出贝叶斯信息准则:39.BIC:BayesianInformationCritBICAIC不是一致的,而BIC是一致的。也就是说,选择最小BIC的模型等价于选择最大后验概率的模型(在渐近意义下)。事实上,模型的后验概率为不仅可以估计最好的模型,而且可以评估所考虑模型的相关指标。但:假设候选模型包含正确的模型“Essentially,allmodelsarewrong,butsomeareuseful
”G.Box(1987)40.BICAIC不是一致的,而BIC是一致的。也就是说,选择最小最小描述长度MDL最小描述长度MDL(minimumdescriptionlength)采用与BIC完全相同的选择准则,但它源自数据压缩/最优编码BIC与MDL都只适用于似然损失。Rissanen,J.1978.Modelingbyshortestdatadescription.Automatica,14,465-471.41.最小描述长度MDL最小描述长度MDL(minimumdesMDL可译变长编码:越频繁的信息码长越短平均信息长度越短消息的长度与事件zi的概率之间的关系为:为了传递具有概率密度为的随机变量zi,需要大约位平均信息长度熵:消息长度的下界42.MDL可译变长编码:越频繁的信息码长越短熵:消息长度的下界4MDL假设我们有以θ为参数的模型M,和包含输入输出数据Z=(X,y),则传递输出的消息长度为:选择最小长度的模型等价于选择最大后验概率的模型,同BIC传递模型参数所需的平均消息长度用于传递模型与目标差别所需要的平均消息长度43.MDL假设我们有以θ为参数的模型M,和包含输入输出数据Z=(AIC
vs.BICAIC:选择使最小的模型,也是使最大的模型,其中为log似然函数,表示模型中有效参数的数目极大似然,同时模型复杂度极小BIC:用贝叶斯方法选择模型选择最大后验概率的模型44.AICvs.BICAIC:44.AIC
vs.BIC均使用模型参数数目来度量复杂度对复杂度的惩罚参数的选择不同BIC:渐近相容样本容量n→∞时,选择正确模型的概率→1有限样本情况下,当取高斯噪声时,,BIC中因子2被logn代替,对复杂性施加更严厉的惩罚,倾向于选择简单模型,AIC倾向于选择复杂模型45.AICvs.BIC均使用模型参数数目来度量复杂度45.有效参数数目AIC/BIC中参数的数目可以扩展到使用正则化拟合的模型对线性拟合其中为的矩阵,只依赖于输入向量,与无关则有效参数的数目为如对岭回归则有效参数数目为46.有效参数数目AIC/BIC中参数的数目可以扩展到使用正则化拟VC维
(Vapnik-ChernovenkisDimension)之前的乐观性估计都适用于简单模型和基于似然函数的。VC理论给出了模型复杂性更一般的度量函数类的VC维可被函数集成员打散(shatter)的点的最大数目打散不管怎样改变每个点的位置和标记,某个类别的函数中的一员都能完全分开这些点,则称为这些点能被该类别的函数打散。47.VC维
(Vapnik-ChernovenkisDimenVC维2D线性函数的VC维为3,等于参数的个数正弦函数的VC维:无穷,但参数只有一个:频率48.VC维2D线性函数的VC维为3,等于参数的个数正弦函数的VCVC维如线性函数能打散2D平面上任意3点,因此线性函数的VC维是3。通常D维线性函数的VC维是D+1,也就是自由参数的数目。一个非线性的函数族的VC维可能无穷大,因为通过选择合适的参数θ,任何点的集合都能被该类的函数打散。实值函数类的VC维定义指示函数类的VC维,其中β在f
的值域上取值。49.VC维如线性函数能打散2D平面上任意3点,因此线性函数的VCVC维函数集的VC维不一定等于自由参数的个数可为等于、大于或小于尚无一般方法对任意函数集计算VC维,只有一些函数集合的VC维可计算线性函数多项式三角函数等50.VC维函数集的VC维不一定等于自由参数的个数50.VC维与风险的界对两类分类问题,假设函数类的VC维为h,则对该函数类中的每个模型,至少有的概率满足其中对回归问题对回归问题,建议对分类问题,没有建议,但对应最坏的情况51.VC维与风险的界对两类分类问题,假设函数类的VC维为h,则对VC维与风险的界
如果h有限的话,模型族的复杂性可以随n增加而增加当h
较小时,R(M)
和Rtr之间的差异小所以正则化回归(如岭回归)比一般最小二乘的推广型更好52.VC维与风险的界52.VC维与风险的界
Φ称为置信范围,随n增大而减小,随h增加而增加,与AIC中的项d/n一致训练误差有时亦称经验风险,测试误差亦称期望风险对于特定的问题,样本数目n一般是固定的,VC维越大,测试误差与训练误差之间的差就越大。因此我们在选择模型时,不但要使训练误差最小化,还要使模型的复杂性也即VC维尽量小,从而使测试误差最小。53.VC维与风险的界53.结构风险最小化原则
(StructuralRiskMinimization,SRM)这个上界是对函数类中的全部成员(参数不同)给出可能的上界,而AIC描述的是类中某个特定成员(MLE)的乐观性估计。
结构风险最小化原则选择具有最小上界的函数类别。注意:VC理论并没有给出测试误差的真正估计,只是测试误差的上界,所给出的界往往是松的54.结构风险最小化原则
(StructuralRiskMin结构风险最小化设计模型的目标:同时最小化经验风险和置信范围如何同时最小化-结构风险最小化原则把函数集S分解为一个函数子集序列(子集结构):S1≤S2……≤Sk……≤S,使得各子集能够按照VC维的大小排列:h1≤h2≤……hk≤…,同一个子集中的置信范围就相同55.结构风险最小化设计模型的目标:55.结构风险最小化根据函数类的性质,将它划分为一系列嵌套的子集如多项式的阶数增加;岭回归的λ减小;神经元网络的隐含节点数据增加…学习问题:选择一个适当的函数子集(根据推广性)并在该子集中选择最好的函数(根据经验风险)56.结构风险最小化根据函数类的性质,将它划分为一系列嵌套的子集5两种构造性方法一种方法:找到合适的模型类别,然后再这个类别的模型中找到使训练误差最小的函数,即保持置信范围固定(通过选择合适的模型类别)并最小化经验风险如人工神经网络先确定网络的结构,然后再学习网络的系数另一种方法:保持经验风险固定(如为0),最小化置信范围如SVM57.两种构造性方法一种方法:找到合适的模型类别,然后再这个类别的直接估计测试误差重采样技术:直接估计测试误差R(M)交叉验证bootstrap58.直接估计测试误差重采样技术:直接估计测试误差R(M)58.交叉验证最简单、最常用的估计预测误差的方法思想:直接估计样本外误差
应用到来自X与Y的联合分布的独立的测试集在-折交叉验证中,数据被分成大致相等的份。对第份,用其余
份数据用于拟合模型
,并在第份数据上计算拟合好的模型的预测误差59.交叉验证最简单、最常用的估计预测误差的方法59.K-折交叉验证数据被分成大致相等的K份第k=1,…,K份数据作为校验集,其余K-1份数据用于训练模型
,并在第k份数据上计算训练好的模型的预测误差例5-折交叉验证训练训练训练训练校验第1折:校验训练训练训练训练第2折:训练校验训练训练训练第3折:训练训练校验训练训练第4折:训练训练训练校验训练第5折:60.K-折交叉验证数据被分成大致相等的K份训练训练训练训练校验第交叉验证交叉验证对预测误差的估计为其中为去掉第k份数据后训练的模型。
对测试误差提供了一个估计,
通过最小化确定调整参数:最后被选中的模型为用所有数据拟合的模型61.交叉验证交叉验证对预测误差的估计为61.学习曲线由于训练集减小,会引起偏差62.学习曲线由于训练集减小,会引起偏差62.交叉验证:K的值?如果称为留一交叉验证(leave-one-outcross-validation,LOOCV)。这是近似无偏的,但由于n个训练集彼此之间很相似,可能会有较高的方差。并且计算代价也很高(计算n次)。另一方面,当CV为低方差但偏差较大。在给定训练集合大小时,如果学习曲线比较陡,则5-折、10-折CV会对真正的预测误差过估计。通常取K=1063.交叉验证:K的值?如果称为留一交叉BootstrapBootstrap是一个很通用的工具,用来估计测试误差和置信区间参见第二部分:统计推断用来估计预测误差:从训练集中进行bootstrap采样,得到bootstrap样本64.BootstrapBootstrap是一个很通用的工具,用来Bootstrap测试误差估计bootstrap来估计检测误差:但同时从训练集和校验集中采样,当二者有重叠时,就引入了偏差。一种方法是leave-one-outbootstrap:其中为不包含观测i的样本b的索引的集合。这解决了过拟合问题,但样本的减少带来了类似CV中的偏差问题。为了处理样本偏少的问题,采用“.632”估计子:65.Bootstrap测试误差估计bootstrap来估计检测误Bootstrap测试误差估计“.632”估计子在“轻拟合”时表现很好,但在过拟合时会有问题,因此又引入“.632+”估计子:无信息误差率:如果输入和类别标号是独立的,则为预测规则的误差率过拟合率:“.632+”估计子:66.Bootstrap测试误差估计“.632”估计子在“轻拟合”Casestudy:前列腺癌数据考虑模型族:岭回归模型复杂度参数:有效参数数目:采用下述技术做模型选择AICBICCVBootstrap67.Casestudy:前列腺癌数据考虑模型族:岭回归67.AIC68.AIC68.BIC69.BIC69.SRM70.SRM70.10-折交叉验证最佳模型为:71.10-折交叉验证最佳模型为:71.Bootstrap0.632:72.Bootstrap0.632:72.Bootstrap0.632+:最小测试误差73.Bootstrap0.632+:最小测试误差73.到底应该选择哪个模型?模型越简单,越不用做工作。更复杂的模型需要更正确的模型选择,采用重采样技术线性回归:AIC/BIC非参数:采用交叉验证和bootstrap通常更准确需要更多计算74.到底应该选择哪个模型?模型越简单,越不用做工作。更复杂的模型总结:模型选择模型:模型的类别每个类别的模型的参数模型选择选择测试误差最小的模型假设测试数据与训练数据的某种一致性(如IID)模型必须与数据有一定的拟合精度但模型过复杂时,数据拟合程度很好,但会出现过拟合,测试误差也会很大模型选择是在数据拟合精度与模型复杂性之间的折中75.总结:模型选择模型:75.下节课内容模型组合更高的性能?BaggingBoosting…76.下节课内容模型组合更高的性能?76.附:AIC推导数据Y是根据某个未知参数的分布产生的令
表示k维参数族分布,我们的目标是在这一类分布族中搜索与最佳匹配的模型为了确定哪个模型与最相近,我们需要一个度量测量真正模型与近似模型之间的差异77.附:AIC推导数据Y是根据某个未知参数的分布附:AIC推导KL损失/log似然损失:表示函数f与g之间的距离,其中g为真正的分布,为当前模型对而言是常数C熵定义为:KL散度也表示用f去近似g,信息的损失量78.附:AIC推导KL损失/log似然损失:表示函数f与g之间的模型选择:给定f,和数据,选择损失最小的模型参数作为参数估计,即参数的估计为其MLE所以损失函数为:模型选择的目标是选择风险(损失的期望)最小的模型风险为期望KL损失:等价于最大化期望log似然极大似然等价于最小KL散度,参见MLE的性质部分log似然79.模型选择:给定f,和数据
其中为当样本数时的MLE(最小化KL损失的参数的值),为Fisher信息80.,为Fisher信息80.当时,其中p为参数的维数(特征的维数)如果f为一个较好的模型(在g附近),则81.当时,81.
所以最小风险的模型等价于其中第一项的估计为所以AIC为:82.82.今天内容:模型选择Occam'srazor测试误差/训练误差训练误差的乐观性估计MallowsCp统计量AICBIC/MDLSRM直接估计测试误差交叉验证Bootstrap83.今天内容:模型选择Occam'srazor1.“模型”我们说的“模型”有时指的是模型类别,例如所有2个高斯的混合模型和所有3个高斯的混合模型。有时也指在一个类别的模型中的一员,如参数的值为特定值。也就是说,模型的类别是固定的,而考虑的是不同的参数值。在实际应用中,我们通常同时考虑上述两种情况,也就是说:参数的选择统计决策理论部分已经讨论
,在此主要讨论不同函数族的选择
84.“模型”我们说的“模型”有时指的是模型类别,例如所有Occam'srazorWilliamofOccham(1285–1348)fromwikipediaOccam'srazor:
Entianonsuntmultiplicandapraeternecessitatem
Or:
Entitiesshouldnotbemultipliedunnecessarily
——theexplanationofanyphenomenonshouldmakeasfewassumptionsaspossible,eliminating,or"shavingoff",thosethatmakenodifferenceintheobservablepredictionsoftheexplanatoryhypothesisortheory.85.Occam'srazorWilliamofOcchaOccam'srazor例:树后面有多少个盒子?√86.Occam'srazor例:树后面有多少个盒子?√4.模型选择训练数据既包含输入—输出之间的规律也包含噪声模型匹配时会匹配上述两种情况如果模型太复杂,会将噪声也包含在模型中所以,好的模型足够对输入—输出之间的规律建模不够对噪声建模(假设噪声较弱)87.模型选择训练数据5.一个回归的例子
样本数n=10用M阶多项式拟合:88.一个回归的例子样本数n=106.一个回归的例子(2)0阶多项式拟合89.一个回归的例子(2)0阶多项式拟合7.一个回归的例子(3)1阶多项式拟合90.一个回归的例子(3)1阶多项式拟合8.一个回归的例子(4)3阶多项式拟合91.一个回归的例子(4)3阶多项式拟合9.一个回归的例子(5)9阶多项式拟合92.一个回归的例子(5)9阶多项式拟合10.一个回归的例子(6)过拟合:93.一个回归的例子(6)过拟合:11.一个回归的例子(7)回归系数:94.一个回归的例子(7)回归系数:12.一个回归的例子(8)9阶多项式拟合,训练样本数n=1595.一个回归的例子(8)9阶多项式拟合,训练样本数n=1513.一个回归的例子(9)9阶多项式拟合,训练样本数n=10096.一个回归的例子(9)9阶多项式拟合,训练样本数n=10014一个回归的例子(10)岭回归:最小化97.一个回归的例子(10)岭回归:最小化15.一个回归的例子(11)岭回归98.一个回归的例子(11)岭回归16.一个回归的例子(12)岭回归99.一个回归的例子(12)岭回归17.一个回归的例子(13)岭回归系数100.一个回归的例子(13)岭回归系数18.目标模型选择:估计不同模型的性能,选出最好的模型模型评估:已经选定最终的模型,估计它在新数据上的预测误差(泛化误差)提升模型的性能:模型平均BaggingBoost…教材第8章101.目标模型选择:估计不同模型的性能,选出最好的模型教材第8章1模型选择和模型评估当样本足够多时,可以将数据分成三份训练集:估计模型的参数校验集:估计模型的预测误差测试集:计算最终选定的模型的泛化误差但通常没有足够多样本,而且也很难说明多少足够数据是足够的依赖于基础数据的信噪比和模型的复杂程度训练集校验集测试集102.模型选择和模型评估当样本足够多时,可以将数据分成三份训练集校模型选择目标:选择使测试误差最小的模型M,称为模型选择。103.模型选择目标:选择使测试误差最小的模型M,称为模型选择。21训练误差与测试误差测试误差,亦称泛化误差(generalizationerror),是在与训练数据同分布的独立测试样本上的风险(平均损失):亦称期望风险训练误差是在训练样本上的平均损失:亦称经验风险104.训练误差与测试误差测试误差,亦称泛化误差(generaliz训练误差与测试误差目标是选择测试误差最小的模型但测试误差很难计算/估计用训练误差估计但训练误差是测试误差的欠估计在选择合适复杂性的模型时,存在偏差-方差的平衡训练误差的乐观性105.训练误差与测试误差目标是选择测试误差最小的模型训练误差的乐观训练误差与测试误差经验风险/训练误差是否是期望风险/测试误差的一个好的估计?随样本集容量n→∞渐进成立在小样本条件下,并不是一个好的估计训练误差是测试误差的欠估计(有偏估计)训练误差的乐观性106.训练误差与测试误差经验风险/训练误差是否是期望风险/测试误差训练误差的乐观性通常我们有因此,为了选择模型,我们可以对进行估计,或以某种方式估计R(M)欠拟合程度+复杂性惩罚107.训练误差的乐观性通常我们有欠拟合程度+复杂性惩罚25.训练误差的乐观性估计预测误差的方法估计乐观性,然后与训练误差相加AIC/BIC/MDL等(模型与参数为线性关系时)SRM直接估计测试误差
交叉验证/bootstrap对任意损失函数、非线性自适应拟合技术都适用108.训练误差的乐观性估计预测误差的方法26.估计乐观性通过各种技巧(通常是渐近性)估计乐观性109.估计乐观性通过各种技巧(通常是渐近性)估计乐观性27.MallowsCp
统计量统计量:
使用所有特征的模型110.MallowsCp统计量统计量AIC:AkaikeInformationCriterion当采用log似然作为损失函数,测试误差为其中为MLE,模型为,似然函数为则训练误差为其中为在训练集上的log似然。i为测试集上数据索引111.AIC:AkaikeInformationCriteriAIC:AkaikeInformationCriterion当时,其中这导出R(M)的一个估计:AIC其中为从一个低偏差(复杂的)估计的MSE获得。(高斯模型时,对数似然与平方误差损失一致)112.AIC:AkaikeInformationCriteriBIC:BayesianInformationCriterion类似AIC,可用于极大化对数似然实现的拟合中其中所以同AIC113.BIC:BayesianInformationCritBIC:Motivation用贝叶斯方法选择模型114.BIC:Motivation用贝叶斯方法选择模型32.回顾贝叶斯方法为书写简单,记训练数据为假设已知模型的的形式,参数的贝叶斯估计为(见参数估计部分)定义模型参数的先验分布:和模型似然:当有数据Z到达后,参数的分布(后验分布)变得更确定qs115.回顾贝叶斯方法为书写简单,记训练数据为qs33.贝叶斯方法与模型选择给定一些列侯选模型
,并且模型参数为某个给定的模型的后验概率为:表示模型的先验
表示证据(参数估计中的归一化因子)为了比较两个模型,可以比较后验比:如果比值>1,则选择第1个模型。116.贝叶斯方法与模型选择给定一些列侯选模型贝叶斯方法与模型选择
其中先验比可以根据美学原理或经验确定:如简单的模型先验更高但先验比不是必须的,即使假设模型的先验是均匀的,即先验比为常数,贝叶斯规则也倾向于选择能解释数据的最简单模型:Occam剃刀原理。Bayes因子表示数据Z对后验比值的贡献(证据)根据证据对模型排序117.贝叶斯方法与模型选择35.例:Occam剃刀原理简单模型只对有限范围内做预测
复杂模型(如有更多自由参数)能对更宽范围做预测但对区域中的数据,的预测不如强118.例:Occam剃刀原理36.证据证据(evidence)通常会在最可能的参数附近有一个很强的峰。以一维参数为例:利用Laplace方法近似,即用被积函数乘以其宽度119.证据证据(evidence)37.Occam因子(参数为多维情况)
其中120.Occam因子(参数为多维情况)38.BIC:BayesianInformationCriterion当模型为线性模型时用Laplace近似其中为极大似然估计,为模型中自由参数的数目当损失函数取,导出贝叶斯信息准则:121.BIC:BayesianInformationCritBICAIC不是一致的,而BIC是一致的。也就是说,选择最小BIC的模型等价于选择最大后验概率的模型(在渐近意义下)。事实上,模型的后验概率为不仅可以估计最好的模型,而且可以评估所考虑模型的相关指标。但:假设候选模型包含正确的模型“Essentially,allmodelsarewrong,butsomeareuseful
”G.Box(1987)122.BICAIC不是一致的,而BIC是一致的。也就是说,选择最小最小描述长度MDL最小描述长度MDL(minimumdescriptionlength)采用与BIC完全相同的选择准则,但它源自数据压缩/最优编码BIC与MDL都只适用于似然损失。Rissanen,J.1978.Modelingbyshortestdatadescription.Automatica,14,465-471.123.最小描述长度MDL最小描述长度MDL(minimumdesMDL可译变长编码:越频繁的信息码长越短平均信息长度越短消息的长度与事件zi的概率之间的关系为:为了传递具有概率密度为的随机变量zi,需要大约位平均信息长度熵:消息长度的下界124.MDL可译变长编码:越频繁的信息码长越短熵:消息长度的下界4MDL假设我们有以θ为参数的模型M,和包含输入输出数据Z=(X,y),则传递输出的消息长度为:选择最小长度的模型等价于选择最大后验概率的模型,同BIC传递模型参数所需的平均消息长度用于传递模型与目标差别所需要的平均消息长度125.MDL假设我们有以θ为参数的模型M,和包含输入输出数据Z=(AIC
vs.BICAIC:选择使最小的模型,也是使最大的模型,其中为log似然函数,表示模型中有效参数的数目极大似然,同时模型复杂度极小BIC:用贝叶斯方法选择模型选择最大后验概率的模型126.AICvs.BICAIC:44.AIC
vs.BIC均使用模型参数数目来度量复杂度对复杂度的惩罚参数的选择不同BIC:渐近相容样本容量n→∞时,选择正确模型的概率→1有限样本情况下,当取高斯噪声时,,BIC中因子2被logn代替,对复杂性施加更严厉的惩罚,倾向于选择简单模型,AIC倾向于选择复杂模型127.AICvs.BIC均使用模型参数数目来度量复杂度45.有效参数数目AIC/BIC中参数的数目可以扩展到使用正则化拟合的模型对线性拟合其中为的矩阵,只依赖于输入向量,与无关则有效参数的数目为如对岭回归则有效参数数目为128.有效参数数目AIC/BIC中参数的数目可以扩展到使用正则化拟VC维
(Vapnik-ChernovenkisDimension)之前的乐观性估计都适用于简单模型和基于似然函数的。VC理论给出了模型复杂性更一般的度量函数类的VC维可被函数集成员打散(shatter)的点的最大数目打散不管怎样改变每个点的位置和标记,某个类别的函数中的一员都能完全分开这些点,则称为这些点能被该类别的函数打散。129.VC维
(Vapnik-ChernovenkisDimenVC维2D线性函数的VC维为3,等于参数的个数正弦函数的VC维:无穷,但参数只有一个:频率130.VC维2D线性函数的VC维为3,等于参数的个数正弦函数的VCVC维如线性函数能打散2D平面上任意3点,因此线性函数的VC维是3。通常D维线性函数的VC维是D+1,也就是自由参数的数目。一个非线性的函数族的VC维可能无穷大,因为通过选择合适的参数θ,任何点的集合都能被该类的函数打散。实值函数类的VC维定义指示函数类的VC维,其中β在f
的值域上取值。131.VC维如线性函数能打散2D平面上任意3点,因此线性函数的VCVC维函数集的VC维不一定等于自由参数的个数可为等于、大于或小于尚无一般方法对任意函数集计算VC维,只有一些函数集合的VC维可计算线性函数多项式三角函数等132.VC维函数集的VC维不一定等于自由参数的个数50.VC维与风险的界对两类分类问题,假设函数类的VC维为h,则对该函数类中的每个模型,至少有的概率满足其中对回归问题对回归问题,建议对分类问题,没有建议,但对应最坏的情况133.VC维与风险的界对两类分类问题,假设函数类的VC维为h,则对VC维与风险的界
如果h有限的话,模型族的复杂性可以随n增加而增加当h
较小时,R(M)
和Rtr之间的差异小所以正则化回归(如岭回归)比一般最小二乘的推广型更好134.VC维与风险的界52.VC维与风险的界
Φ称为置信范围,随n增大而减小,随h增加而增加,与AIC中的项d/n一致训练误差有时亦称经验风险,测试误差亦称期望风险对于特定的问题,样本数目n一般是固定的,VC维越大,测试误差与训练误差之间的差就越大。因此我们在选择模型时,不但要使训练误差最小化,还要使模型的复杂性也即VC维尽量小,从而使测试误差最小。135.VC维与风险的界53.结构风险最小化原则
(StructuralRiskMinimization,SRM)这个上界是对函数类中的全部成员(参数不同)给出可能的上界,而AIC描述的是类中某个特定成员(MLE)的乐观性估计。
结构风险最小化原则选择具有最小上界的函数类别。注意:VC理论并没有给出测试误差的真正估计,只是测试误差的上界,所给出的界往往是松的136.结构风险最小化原则
(StructuralRiskMin结构风险最小化设计模型的目标:同时最小化经验风险和置信范围如何同时最小化-结构风险最小化原则把函数集S分解为一个函数子集序列(子集结构):S1≤S2……≤Sk……≤S,使得各子集能够按照VC维的大小排列:h1≤h2≤……hk≤…,同一个子集中的置信范围就相同137.结构风险最小化设计模型的目标:55.结构风险最小化根据函数类的性质,将它划分为一系列嵌套的子集如多项式的阶数增加;岭回归的λ减小;神经元网络的隐含节点数据增加…学习问题:选择一个适当的函数子集(根据推广性)并在该子集中选择最好的函数(根据经验风险)138.结构风险最小化根据函数类的性质,将它划分为一系列嵌套的子集5两种构造性方法一种方法:找到合适的模型类别,然后再这个类别的模型中找到使训练误差最小的函数,即保持置信范围固定(通过选择合适的模型类别)并最小化经验风险如人工神经网络先确定网络的结构,然后再学习网络的系数另一种方法:保持经验风险固定(如为0),最小化置信范围如SVM139.两种构造性方法一种方法:找到合适的模型类别,然后再这个类别的直接估计测试误差重采样技术:直接估计测试误差R(M)交叉验证bootstrap140.直接估计测试误差重采样技术:直接估计测试误差R(M)58.交叉验证最简单、最常用的估计预测误差的方法思想:直接估计样本外误差
应用到来自X与Y的联合分布的独立的测试集在-折交叉验证中,数据被分成大致相等的份。对第份,用其余
份数据用于拟合模型
,并在第份数据上计算拟合好的模型的预测误差141.交叉验证最简单、最常用的估计预测误差的方法59.K-折交叉验证数据被分成大致相等的K份第k=1,…,K份数据作为校验集,其余K-1份数据用于训练模型
,并在第k份数据上计算训练好的模型的预测误差例5-折交叉验证训练训练训练训练校验第1折:校验训练训练训练训练第2折:训练校验训练训练训练第3折:训练训练校验训练训练第4折:训练训练训练校验训练第5折:142.K-折交叉验证数据被分成大致相等的K份训练训练训练训练校验第交叉验证交叉验证对预测误差的估计为其中为去掉第k份数据后训练的模型。
对测试误差提供了一个估计,
通过最小化确定调整参数:最后被选中的模型为用所有数据拟合的模型143.交叉验证交叉验证对预测误差的估计为61.学习曲线由于训练集减小,会引起偏差144.学习曲线由于训练集减小,会引起偏差62.交叉验证:K的值?如果称为留一交叉验证(leave-one-outcross-validation,LOOCV)。这是近似无偏的,但由于n个训练集彼此之间很相似,可能会有较高的方差。并且计算代价也很高(计算n次)。另
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 蔬菜种植合作协议书范文模板
- 2024年供销社聘用协议书模板
- 吉林师范大学《中国现代史》2021-2022学年第一学期期末试卷
- 吉林师范大学《学前教育学》2021-2022学年第一学期期末试卷
- 2024年大合唱排练合同范本大全
- 军供食品合作协议书范文模板
- 2022年公务员多省联考《申论》真题(河北县级卷)及答案解析
- 上海市奉贤区2023-2024学年高一年级上册期末考试语文试题及答案
- (浙教2024版)科学七年级上册3.3 人类对宇宙的探索 课件(共2课时)
- 吉林师范大学《楷书理论与技法II》2021-2022学年第一学期期末试卷
- 儿童年龄分期及各期特点 (儿童护理课件)
- 新版GMP基础知识培训课件
- 可编程控制器应用实训-形考任务4
- 《住院患者身体约束的护理》团体标准解读
- 场地平整工程质量评估评估报告
- 材料分析方法课件 20 扫描电镜之EBSD
- 六年级上数学试题-圆的周长-练习题-人教版 无答案
- 2020年重症医学科病人呼吸心跳骤停演练方案及脚本
- 物联网信息安全知识考核试题与答案
- 军乐队乐器种类以及人员编制
- 常见皮肤病讲稿
评论
0/150
提交评论