vc维的本质和结构风险最小化_第1页
vc维的本质和结构风险最小化_第2页
vc维的本质和结构风险最小化_第3页
vc维的本质和结构风险最小化_第4页
vc维的本质和结构风险最小化_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、vc维的本质和结构风险最小化VC维在有限的训练样本情况下,当样本数n固定时, 此时学习机器的VC维越高学习机器的复杂性越高VC维 反映了函数集的学习能力,VC维越大则学习机器越复杂(容 量越大)。所谓的结构风险最小化就是在保证分类精度(经验风 险)的同时,降低学习机器的VC维,可以使学习机器在整 个样本集上的期望风险得到控制。推广的界(经验风险和实际风险之间的关系,注意引入 这个原因是什么?因为训练误差再小也就是在这个训练集 合上,实际的推广能力不行就会引起过拟合问题还。所以说 要引入置信范围也就是经验误差和实际期望误差之间的关 系):期望误差 R() Remp ()+ (n/h)注意Remp

2、 ()是经验误差也就是训练误差(线 性中使得所有的都训练正确),(n/h)是置信范围, 它是和样本数和VC维有关的。上式中置信范围随 n/h增加,单调下降。即当n/h较小时,置信范围较 大,用经验风险近似实际风险就存在较大的误差,因此,用 采用经验风险最小化准则,取得的最优解可能具有较差的推 广性;如果样本数较多,n/h较大,则置信范围就会很小, 采用经验风险最小化准则,求得的最优解就接近实际的最优 解。可知:影响期望风险上界的因子有两个方面:首先是训 练集的规模n,其次是VC维h。可见,在保证分类精度(经 验风险)的同时,降低学习机器的VC维,可以使学习机器 在整个样本集上的期望风险得到控制

3、,这就是结构风险最小 化(Structure Risk Minimization,简称 SRM)的由来。在有 限的训练样本情况下,当样本数n固定时,此时学习机器 的VC维越高(学习机器的复杂性越高),则置信范围就越 大,此时,真实风险与经验风险之间的差别就越大,这就是 为什么会出现过学习现象的原因。机器学习过程不但要使经 验风险最小,还要使其VC维尽量小,以缩小置信范围,才 能取得较小的实际风险,即对未来样本有较好的推广性,它 与学习机器的VC维及训练样本数有关。线性可分的问题就是满足最优分类面的面要求分类面 不但能将两类样本正确分开(训练错误率为0),而且要使 两类的分类间隔最大(这个是怎么

4、回事呢?原来是有根据 的,这个让俺郁闷了好久呢。在间隔下,超平面集合的 VC维h满足下面关系:h = f (1/*)其中,f().是单调增函数,即h与的平方成反比关系。因 此,当训练样本给定时,分类间隔越大,则对应的分类超平 面集合的VC维就越小。)。根据结构风险最小化原则,前者 是保证经验风险(经验风险和期望风险依赖于学习机器函数 族的选择)最小,而后者使分类间隔最大,导致VC维最小, 实际上就是使推广性的界中的置信范围最小,从而达到使真 实风险最小。注意:置信范围大说明真实风险和经验风险的 差别较大。解释到这里了,终于有点眉目了,哦原来就是这么回事 啊,真是的。总结一下就是训练样本在线性可

5、分的情况下, 全部样本能被正确地分类(咦这个不就是传说中的 yi*(w*xi+b)=1的条件吗),即经验风险Remp为0的 前提下,通过对分类间隔最大化(咦,这个就是 (w) = (1/2)*w*w嘛),使分类器获得最好的推广性能。那么解释完线性可分了,我们知道其实很多时候是线性 不可分的啊,那么有什么区别没有啊?废话区别当然会有 啦,嘿嘿那么什么是本质的区别啊?本质的区别就是不知道 是否线性可分但是允许有错分的样本存在(这个咋回事还是 没明白hoho)但是正是由于允许存在错分样本,此时的软间 隔分类超平面表示在剔除那些错分样本后最大分类间隔的 超平面。这里就出现了新词松驰因子,干吗用滴?就是

6、用来 控制错分样本的啊。这样的话经验风险就要跟松驰因子联系 在一起了。而C就是松驰因子前面的系数,C0是一个 自定义的惩罚因子,它控制对错分样本惩罚的程度,用来控 制样本偏差与机器推广能力之间的折衷。c越小,惩罚越小, 那么训练误差就越大,使得结构风险也变大,而C越大呢, 惩罚就越大,对错分样本的约束程度就越大,但是这样会使 得第二项置信范围的权重变大那么分类间隔的权重就相对 变小了,系统的泛化能力就变差了。所以选择合适的C还是 很有必要的。选择核函数。核函数有很多种,如线性核、多项式核、Sigmoid核和RBF(Radial Basis function)核。本文选定 RBF 核为 SVM

7、的 核函数(RBF 核 K(x, y) = exp( II x y II的平 方), 0)。因为RBF核可以将样本映射到一个更 高维的空间,可以处理当类标签(Class Labels)和特征之间 的关系是非线性时的样例。Keerthi等25证明了一个有惩罚 参数C的线性核同有参数(C,)(其中C为惩罚因子, 为核参数)的RBF核具有相同的性能。对某些参数, Sigmoid核同RBF核具有相似的性能26。另外,RBF核 与多项式核相比具有参数少的优点。因为参数的个数直接影 响到模型选择的复杂性。非常重要的一点是0 1)或者 0 xi xj + r 1,跨度非常大。而且, 必须注意的是Sigmoid核在某些参数下是不正确的(例如, 没有两个向量的内积)。(4)用交叉验证找到最好的参数C和。使用RBF核 时,要考虑两个参数C和。因为参数的选择并没有 一定的先验知识,必须做某种类型的模型选择(参数搜索)。 目的是确定好的(C,)使得分类器能正确的预测未知数 据(即测试集数据),有较高的分类精确率。值得注意的是 得到高的训练正确率即是分类器预测类标签已知的训练数 据的正确率)不能保证在测试集上具有高的预测精度。因此, 通常采用交叉验证方法提高预测精度。k折交叉验证(k-fold cros

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论