第7章 岭回归.ppt_第1页
第7章 岭回归.ppt_第2页
第7章 岭回归.ppt_第3页
第7章 岭回归.ppt_第4页
第7章 岭回归.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章岭回归 7 1岭回归估计的定义7 2岭回归估计的性质7 3岭迹分析7 4岭参数k的选择7 5用岭回归选择变量7 6本章小结与评注 7 1岭回归估计的定义 一 普通最小二乘估计带来的问题 当自变量间存在复共线性时 回归系数估计的方差就很大 估计值就很不稳定 下面进一步用一个模拟的例子来说明这一点 例7 1假设已知x1 x2与y的关系服从线性回归模型 y 10 2x1 3x2 7 1岭回归估计的定义 7 1岭回归估计的定义 7 1岭回归估计的定义 二 岭回归的定义 岭回归 RidgeRegression 简记为RR 提出的想法是很自然的 当自变量间存在复共线性时 X X 0 我们设想给X X加上一个正常数矩阵kI k 0 那么X X kI接近奇异的程度就会比X X接近奇异的程度小得多 考虑到变量的量纲问题 我们先对数据做标准化 为了记号方便 标准化后的设计阵仍然用X表示 7 1岭回归估计的定义 我们称 为 的岭回归估计 其中k称为岭参数 由于假设X已经标准化 所以X X就是自变量样本相关阵 7 2 式计算的实际是标准化岭回归估计 7 2 式中因变量观测向量y可以经过标准化也可以未经标准化 显然 岭回归做为 的估计应比最小二乘估计稳定 当k 0时的岭回归估计就是普通的最小二乘估计 7 2 7 1岭回归估计的定义 表7 2 7 1岭回归估计的定义 7 2岭回归估计的性质 在本节岭回归估计的性质的讨论中 假定 7 2 式中因变量观测向量y未经标准化 7 2岭回归估计的性质 7 2岭回归估计的性质 7 2岭回归估计的性质 7 3岭迹分析 7 3岭迹分析 7 4岭参数k的选择 一 岭迹法 岭迹法选择k值的一般原则是 1 各回归系数的岭估计基本稳定 2 用最小二乘估计时符号不合理的回归系数 其岭估计的符号变得合理 3 回归系数没有不合乎经济意义的绝对值 4 残差平方和增大不太多 7 4岭参数k的选择 7 4岭参数k的选择 二 方差扩大因子法 7 4岭参数k的选择 三 由残差平方和来确定k值 岭估计在减小均方误差的同时增大了残差平方和 我们希望岭回归的残差平方和SSE k 的增加幅度控制在一定的限度以内 可以给定一个大于1的c值 要求 SSE k cSSE 7 3 寻找使 7 3 式成立的最大的k值 在后边的例子中我们将会看到对该方法的应用 7 5用岭回归选择变量 岭回归选择变量的原则 1 在岭回归中设计矩阵X已经中心化和标准化了 这样可以直接比较标准化岭回归系数的大小 可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量 2 随着k的增加 回归系数不稳定 震动趋于零的自变量也可以剔除 3 如果依照上述去掉变量的原则 有若干个回归系数不稳定 究竟去掉几个 去掉哪几个 这并无一般原则可循 这需根据去掉某个变量后重新进行岭回归分析的效果来确定 7 5用岭回归选择变量 例7 2空气污染问题 Mcdonald和Schwing在参考文献 18 中曾研究死亡率与空气污染 气候以及社会经济状况等因素的关系 考虑了15个解释变量 收集了60组样本数据 x1 Averageannualprecipitationininches平均年降雨量x2 AverageJanuarytemperatureindegreesF1月份平均气温x3 SameforJuly7月份平均气温x4 Percentof1960SMSApopulationaged65orolder年龄65岁以上的人口占总人口的百分比x5 Averagehouseholdsize每家人口数x6 Medianschoolyearscompletedbythoseover22年龄在22岁以上的人受教育年限的中位数 7 5用岭回归选择变量 x7 Percentofhousingunitswhicharesound withallfacilities住房符合标准的家庭比例数x8 Populationpersq mileinurbanizedareas 1960每平方公里人口数x9 Percentnon whitepopulationinurbanizedareas 1960非白种人占总人口的比例x10 Percentemployedinwhitecollaroccupations白领阶层人口比例x11 Percentoffamilieswithincome 3000收入在3000美元以下的家庭比例x12 Relativehydrocarbonpollutionpotential碳氢化合物的相对污染势x13 Samefornitricoxides氮氧化合物的相对污染势x14 Sameforsulphurdioxide二氧化硫的相对污染势x15 Annualaverage relativehumidityat1pm年平均相对湿度y Totalage adjustedmortalityrateper100 000每十万人中的死亡人数 7 5用岭回归选择变量 计算X X的15个特征为 4 5272 2 7547 2 0545 1 3487 1 22270 9605 0 6124 0 4729 0 3708 0 21630 1665 0 1275 0 1142 0 0460 0 0049 条件数 注 以上特征根是按照原文献的计算方式 自变量观测阵未包含代表常数项的第一列1 与用SPSS计算结果有所不同 7 5用岭回归选择变量 7 5用岭回归选择变量 进行岭迹分析把15个回归系数的岭迹画到图7 4中 我们可看到 当k 0 20时岭迹大体上达到稳定 按照岭迹法 应取k 0 2 若用方差扩大因子法 因k 0 18时 方差扩大因子接近于1 当k在0 02 0 08时 方差扩大因子小于10 故应建议在此范围选取k 由此也看到不同的方法选取k值是不同的 7 5用岭回归选择变量 在用岭回归进行变量选择时 因为从岭迹看到自变量x4 x7 x10 x11和x15有较稳定且绝对值比较小的岭回归系数 根据变量选择的第一条原则 这些自变量可以去掉 又因为自变量x12和x13的岭回归系数很不稳定 且随着k的增加很快趋于零 根据上面的第二条原则这些自变量也应该去掉 再根据第三条原则去掉变量x3和x5 这个问题最后剩的变量是x1 x2 x6 x8 x9 x14 7 5用岭回归选择变量 例7 3 Gorman Torman例子 见参考文献 2 本例共有10个自变量 X已经中心化和标准化了 X X的特征根为 3 692 1 542 1 293 1 046 0 972 0 659 0 357 0 220 0 152 0 068最后一个特征根 10 0 068 较接近于零 7 5用岭回归选择变量 条件数k 7 368 10 从条件数的角度看 似乎设计矩阵X没有复共线性 但下面的研究表明 作岭回归还是必要的 关于条件数 这里附带说明它的一个缺陷 就是当X X所有特征根都比较小时 虽然条件数不大 但多重共线性却存在 7 5用岭回归选择变量 7 5用岭回归选择变量 7 5用岭回归选择变量 7 5用岭回归选择变量 7 5用岭回归选择变量 7 5用岭回归选择变量 7 5用岭回归选择变量 例7 4用岭回归方法处理民航客运数据的多重共线性问题 SPSS软件的岭回归功能要用语法命令实现 菜单对话框中没有此功能 运行岭回归程序的步骤如下 7 5用岭回归选择变量 1 进入SPSS软件 录入变量数据或调入已有的数据文件 2 进入Syntax语法窗口 方法是依次点选File New Syntax 3 录入如下的语法命令 INCLUDE c ProgramFiles SPSS Ridgeregression sps RIDGEREGDEP y ENTERx1x2x3x4x5 4 运行 依次点选主菜单的Run All 7 5用岭回归选择变量 7 5用岭回归选择变量 图7 6 a 7 5用岭回归选择变量 通过上面的分析 我们决定剔除x1 用y与其余4个自变量做岭回归 把岭参数步长改为0 02 范围减小到0 2 这需要增加一句语法程序 点选主菜单的Window SyntaxEditor返回语法窗口 语法命令如下 INCLUDE c ProgramFiles SPSS Ridgeregression sps RIDGEREGDEP y ENTERx2x3x4x5 START 0 0 STOP 0 2 INC 0 02 7 5用岭回归选择变量 7 5用岭回归选择变量 图7 6 b 7 5用岭回归

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论