损失函数+正则化_第1页
损失函数+正则化_第2页
损失函数+正则化_第3页
损失函数+正则化_第4页
损失函数+正则化_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、机器学习当中很大一部分优化模型可归结为:损失函数+正则化svm和logistic函数从本质上讲也都是损失函数形式的不同。而正则化参数调整,防止过拟合,其本质也是特征选择。3.多项式曲线拟合贯穿prml第一章的例子是多项式曲线拟合的问题(polynomial curve fitting)。考虑order为m的多项式曲线,可以表述为下面的形式:曲线拟合的目标可以表述为优化是的下面的e(w)最小化(当然你可能会选取不同的error function这只是其中一种而已):对于取到最小值的我们表示为,最优的最小距离是。如果我们选择不同的order值即m不同的多项式曲线去拟合,比如取m=0,1,3,9最小

2、二乘法拟合的结果如下图:可以看到m=9的情况,曲线和采样观察点拟合的很好但是却偏离了整体,不能很好的反映,这就是传说中的over fitting过度拟合问题。越高的order值m,对应越flexible的曲线,能够对采样点更好的逼近,毕竟高order的曲线包含了(可以表示)所有低order的曲线。另外是包含所有order的,所以可以预见m越大对采样点拟合越好。但是从上图可以看出越大的m越flxible的曲线则对于噪声越敏感。上面提到过度拟合问题,那么如何评判是否过度拟合呢?我们的终极目标是什么呢,终极目标是:对于一个新的data,我们可以给出精确的值预测,即对于新的给出精确的估计。我们可以采用

3、另外生成一个test数据集比如100个数据,对于每个m值,计算对于训练集trainning data的和对于测试集test data的。有的时候可能用下面的误差函数更好:这样可以使得对于不同的n即数据集合的大小有一个公平的比较基准。 测试集与训练集的对于过度拟合问题,如果增加观察点,则可以看到过度拟合的问题得以缓解,如下图m=9:数据集合的大小越大,我们可以承受的模型复杂度越大。一个常见做法是数据(data points)应该多于参数数目的一定倍数(如,5,10)才能取得较好的效果。在第3章中我们会看到,参数的数目并不是模型复杂度最好的度量。同时很不爽的是我们需要根据训练集合的数据大小(siz

4、e of the available training set)来限制模型的参数数目。看上去更自然的是根据要解决问题的复杂度来选择模型的复杂度。我们将要看到最小二乘法和最大似然法是一致的(前面的单一参数线性回归的例子已经给了一个证明:)。如果采用贝叶斯方法,过度拟合问题可以避免。从贝叶斯的角度,实施用一个参数数目远多于data points的模型是可行的,事实上在贝叶斯模型,有效的参数数目可以根据data set的大小自动调整。当下从最小二乘法的角度,为了解决过度拟合的问题,我们可以改变优化目标,加入reularization,限制|w|的值过大。8. 正则化:/viewcode/article/details/8794401为防止过度拟合的模型出现(过于复杂的模型),在损失函数里增加一个每个特征的惩罚因子。这个就是正则化。如正则化的线性回归 的 损失函数:ambda就是惩罚因子。正则化是模型处理的典型方法。也是结构风险最小的策略。在经验风险(误差平方和)的基础上,增加一个惩罚项/正则化项。线性回归的解,也从转化为括号内的矩阵,即使在样本数小于特征数的情

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论