版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、-作者xxxx-日期xxxx通过Lasso进行回归压缩和选择【精品文档】回归压缩以及通过Lasso选择变量由ROBERT TIBSHIRANIT著加拿大 多伦多大学1994年1月接收 1995年1月修订 摘要我们提出了一个估计线性模型的新方法。Lasso最小化残差平方和使得系数绝对值之和小于一个常数。由于这种约束的性质,它倾向于产生一些恰好为0的系数,从而给出了解释模型。我们的模拟研究表明,Lasso具有一些子集选择和岭回归的良好特性。它产生像子集选择一样的可以解释的模型并且展示了岭回归的稳定性。Lasso与Donoho和Johnstone近期提出的关于自适函数估计的工作有着有趣的联
2、系。Lasso想法是相当广泛的,并且可以运用在各种统计模型中:本文简要介绍了广义的回归模型和基于树的模型的扩展。 关键词:二次规划;回归;压缩;子集选择 1.引言考虑一般的回归情况:我们有数据,和分别是第组观测的自变量和因变量值。普通最小二乘估计(OLS)是通过残差平方和最小化得到的。有两个原因来解释为什么数据分析常常不适合用OLS估计。第一个原因是预测精度:OLS估计通常偏压较小,方差较大;预测精度有时可以通过压缩或将一些系数设置为0而提高。通过这样做,我们牺牲一点偏压以减少所预测值的方差,并且可以提高整体的预测精度。第二个原因是模型的解释。对于大批预测值,我们更愿意判断
3、模型在一个更小的子集当中显示出来的最好的结果。两个可以改善OLS估计的基本方法,子集选择法和岭回归都有缺陷。子集选择法提供了可解释的模型,但是由于它是一个从模型中保留或删除的离散过程变量,它可能极其易变。数据的微小变动会影响由子集选择法得出不同模型,这可以降低其预测精度。岭回归是一个系数收缩的连续的过程,并且因此更加稳定:然而,它的任何系数都不为0,因此不能给出容易解释的模型。 我们提出一个新方法,叫作Lasso,意思是最小绝对收缩和选择算法。它缩小了一些系数,并将其他的系数设置为0,从而试图保留子集选择法和岭回归的优良特性。 在第2节我们给出了Lasso的定义,并且寻找一些特例。在第3节中给
4、出一个真实的数据例子,在第4节我们研究了预测误差与Lasso收缩参数估计的方法。在第5节简单提及Lasso中的一个贝叶斯方法。我们在第6节描述了Lasso算法。第7节是模拟研究和介绍。第8节和第9节研究了广义回归模型的拓展和其他问题。第10节讨论了Lasso软阈值的一些结论以及关系,第11节包括讨论与总结。2. LASSO方法2.1 定义 假设数据,其中为自变量,是因变量,在通常的回归建立中,我们假定要么观测值是独立的,或者对于给定的,所有的是条件独立的。我们假定标准化,且。令,用Lasso方法的估计量定义为 对于 (1)这里是一个调和参数。此时对所有的,有的估计是。我们可以在不失一般性的情况
5、下假定,因此可忽略。方程(1)的解决方案的计算是具有线性不等式约束的二次规划问题。我们将在第6节针对这个问题介绍一些高效稳定的算法。参数控制的是应用于估计的收缩量。令为完全最小二乘估计且令。会导致模型的收缩量趋向0,且一些系数可能刚好等于0。举个例子,如果,效果会大致类似于寻找大小为的最优子集。还需要注意的是设计矩阵不一定是满秩。在第4节我们给出估计的一些基于数据的方法。Lasso的想法来源于Breiman(1993)的一个令人刚兴趣的建议。Breiman的非负铰除法目标函数最小化形式为 使得, (2)非负铰除法始于普通最小二乘估计,而且压缩其系数使其非负系数的和小于一个常数。在大量的模拟实验
6、中,相对子集选择法,Breiman的非负铰除法预测误差相对较小,而且当真实模型具有较多非零系数时,在预测方面,非负铰除法和岭回归法的预测效果不相上下。非负铰除法的缺点是其运算结果依赖于最小二乘估计的符号和数值大小。并且在存在过度拟合和变量存在高度相关情况时,由于最小二乘估计效果不好而会影响预测准确性。相比之下,Lasso则避免了非负绞除法的缺陷。Frank和Friedman提出给标准的系数一个约束条件,这里是一个大于等于0的数;Lasso方法中。我们将在第十节对此进行简略的讨论。2.2 正交设计案例从标准正交设计案例中可以对收缩的本质有深入了解。设矩阵是的的矩阵。其中第行第列元素为,且假定,是
7、单位矩阵。方程(1)的解可以简单表示为 (3)这里由条件来确定。有趣的是,这恰好与Donoho和Johnstone (1994)和Donoho等人(1995)在功能预测背景下应用于微波系数的函数估计提出的软收缩建议具有相同的形式。Donoho等人也在信号处理以及图像复原中指出了软收缩和最小范数惩罚矩阵之间的联系。在第十节我们会详尽的解释他们之间的联系。在正交设计案例中,大小为的最佳子集的选择减少到最大系数的绝对值,将其余的设置为0。对于的一些选择相当于如果,则,否则直接令。岭回归最小形式如下:或者等价地,使得如下方程最小: 使得 (4)岭回归的解是:这里取决于或。非负铰除法的估计是图1显示了这
8、些函数的曲线。岭回归通过一个常数因子衡量系数,然而LASSO通过常数因子转换,并在0处截断。非负铰除法的函数和Lasso很相似,都是系数愈大收缩愈小。在设计不是正交时,我们的模拟实验结果将显示出非负铰除法和Lasso之间巨大的差别。 2.3 Lasso的几何意义 很明显从图1中可以得出Lasso产生的系数经常是0,为什么这种状况发生在一般(非正交)的情况下?为什么岭回归中用了约束式而不是,这种现象在岭回归中没有出现?图2提供了的深刻解释。 标准与二次函数(加上一个常数)相同。图2(a)实线表示该函数的椭圆轮廓,以OLS为中心,约束区域是个旋转的正方形。Lasso的结论是首先是其轮廓与正方形相交
9、,而且有时会发生在角落,该角落对应于系数为0的地方。图2(b)显示了岭回归的图像:它没有任何角落与轮廓相交,因此很少有零解。 图中呈现出一个十分有趣的现象:Lasso估计结果会与最小二乘估计的有何不同?由于变量是标准化的,因此当时,轴线与坐标轴呈。近而可以得出,图像的轮廓必需与包含的正方形在同一个象限中,且相交或相切。但是,当时数据存在相关性,这并非特定的,图3展示了三维示意图,图3(b)证实它的曲线轮廓与约束区域在与其中心所在卦限不同的另一卦限相交或相切。图1. (a)子集选择法回归,(b)岭回归,(c)Lasso和(d)非负铰除法:在系数收缩的形式中正交设计的案例,倾斜角为45°
10、的线作为参考图2. (a)Lasso和(b)岭回归的估计图图3. (a)不同于总体最小二乘估计Lasso估计结果落在不同的卦限的例子;(b)俯视图而非负铰除法中保留每个的符号,Lasso可以改变符号。甚至在Lasso估计中与非负铰除法有相同符号的矢量的情况下,有 OLS估计存在的非负铰除法也会变得不同。带有约束式的模型的也可以表示成具有约束式的模型的。举个例子,如果且,则效果将会横向拉伸图2(a)的正方形。因此,非负铰除法青睐于较大的值和较小的值。2.4 两个预测值的更多情况假设,且假定不失一般性,其中最小二乘估计为正数,进而,可以得出:其中选择的要使得。这个公式适用于,即使预测值相关此公式也
11、是有效的。解得出: (6) 相反地,岭回归收缩的形式也取决于预测值的相关性。如图4所示:图4. 对于两个预测值的例子,实线表示LASSO,虚线表示岭回归:曲线表明,数据对作为lasso和岭参数的范围是不同的;从底部的虚线开始并向上移动,相关系数取值0,0.23,0.45,0.68和0.90。 在没有干扰的情况下,我们从模型中产生100个数据点。这里和是标准正常变量,两者的相关系数为。图4曲线所示岭估计和lasso估计的边界和是变化的,对于所有的,lasso估计服从全曲线。岭估计(虚线)取决于,当岭回归成比例收缩。然而,当取较大值时,岭回归预测缩小的比例不尽相同,而且当约束条件缩小时,还可能增大一点。就如Jerome Friedman指出的,这是由于岭回归试图使系数等于他们最小平方范数的趋势。2.5 标准误差 由于lasso估计是因变量的一个非线性、非可微函数,即使对于固定的值,所以很难得到标准误差的一个准确估计。但有两种方法可取,其一是通过抽样:将值固定,或者为每个抽样样本对进行优化。其中固定值则与选择最优子集类似,然后用这个子集的最小二乘标准误差作为其标准误差。 可以用惩罚写成的形式来进行估计。因此,在lasso估计时,我们可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年春初中化学九年级下册(科粤版)上课课件 8.2 常见的酸和碱 第1课时 常见的酸
- 黑龙江省哈尔滨市第一二四中学校2024-2025学年八年级上学期11月月考地理试题(含答案)
- 高一 数学 必修一第二章《等式性质与不等式性质(第2课时)》课件
- 思源大盘价值挖掘案例分享(星河湾)2017-64P
- 《模拟电路分析与实践》对口单招课程试卷1答案
- 高一 人教版 数学 第三、四章《直线与方程 圆与方程答疑》课件
- 高一 统编版必修上册- 语文 第六单元《上图书馆》课件
- 江苏省南京市鼓楼区2023-2024学年三年级上学期语文期末试卷
- 2025届湖北省鄂东南联盟高三上学期期中考试语文试题(学生版)
- 新人教版《悯农》课件
- 《望梅止渴》 完整版课件
- 再生医学概论
- 小学生心理健康教育课件
- XX镇2022年度农产品综合服务中心项目实施方案范本
- 《荆轲刺秦王》课件(共87张PPT)
- 早产儿保健管理
- aecopd护理查房课件
- TCECS 720-2020 钢板桩支护技术规程
- 自杀防范和案应急
- 中考作文备考:“此时无声胜有声”(附写作指导与佳作示例)
- TSG 81-2022 场(厂)内专用机动车辆安全技术规程
评论
0/150
提交评论