相关分析与多元回归分析.doc_第1页
相关分析与多元回归分析.doc_第2页
相关分析与多元回归分析.doc_第3页
相关分析与多元回归分析.doc_第4页
相关分析与多元回归分析.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

7 4 多元线性回归 7 4 1 方法概述方法概述 1 模型的建立 多元线性回归分析是研究一个因变量与多个自变量间关系的统计方 法 模型可写成为 截距 bi i 1 k 称为偏回归系数 表示当其余自变量固定时 Xi变化一个单位时 因变量 Y 的平均变化量 回归系数的估计仍根据最小二乘原理 求 b0 b1 bk使得达到最小 多元回归模型的参数估计不能象直线回归那样可以直接写出表达式 矩阵形式 由于各自变量的单位不同 为此要运用标准化偏回归系数 先作变量的标准化 即作变换 i ii i s XX X 标准化偏回归系数 bi 表示当其它自变量固定时 Xi变化一个标准差 时 因变量 Y 变化的标准差单位数 bi 没有单位 所以可以用它们 的绝对值大小来说明各自变量的重要性 其值越大 对因变量的作 用越大 以 bi 表示 Xi的标准化偏回归系数 则 2 假设检验 1 离均差平方和的分解 与直线回归一样 多元回归时亦可将因变量的离均差平方和可分解 为两部分 SST 总 SSR 回归 SSE 剩余 回归平方和越大 回归的效果越好 回归平方和与总离均差平方 和的比值称为决定系数决定系数 coefficient of determination R2 其计算公式 同称为复相关系数复相关系数 表示多个自变量共同对因变量的相关密切程度 回归平方和 SSR 是多个自变量共同的贡献 要研究每个自变量对因 变量的作用 还需将 SSR 按个自变量的贡献进行分解 SSR SSR1 SSRkSSRi称 为偏回归平方和 表示扣除其它自变量的作用后 由自变量 Xi对因 变量 Y 变异的贡献 显然自变量的偏回归平方和越大 该变量对 Y 的贡献越大 该变量在回归中所起的作用也越大 偏回归平方和与 总离均差平方和的比值 称为偏决定系数 2 方差分析法 模型中各回归系数的总体值只要有一个不为零 则模型就有意义 对所有总体回归系数为零的检验需计算检验统计量 F 求得 F 值后 MSE MSR SSE SSR F E R RE knk 1 按 F 分布 F k n k 1 确定 P 值 再根据检验水准作出推断结论 而检验每一个变量作用的显著性 可以计算 MSE MSR SSE 1 SSR F E i 3 偏回归系数的标准误与 t 检验 扣除所有自变量的作用后 因变量的变异称为剩余标准差 记作因 而有关于总体偏回归系数为零的 t 检验 例例 8 4 续例 8 1 用回归分析研究因变量肺活量 Y ml 与自变量 体重 X1 胸围 X2 胸围的呼吸差 X3 的关系 并比较各自变量 对 Y 作用的大小 SAS 程序 DATA REG2 INPUT X1 X2 X3 Y CARDS 35 69 0 7 1600 40 74 2 5 2600 42 65 3 0 2500 PROC REG MODEL Y X1 X3 STB RUN 输出结果如下 Model MODEL1 Dependent Variable Y 第一部分 Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob F Model 3 1250109 0678 416703 02259 5 617 0 0355 Error 6 445140 93222 74190 15537 C Total 9 1695250 0000 Root MSE 272 37870 R square 0 7374 Dep Mean 2315 00000 Adj R sq 0 6061 C V 11 76582 第二部分 Parameter Estimates N 10 Regression Models for Dependent Variable Y 方差分析结果 F 5 617 P 0 035 说明整个模型有意义 建立回归方程如下 y hat 3035 54 60 93X1 37 81X2 101 38X3 X1 X2 X3 的标准化回归系数分别为 0 4645 0 3917 0 2540 所以体重对肺 活量的影响 最大 值得注意的是 各回归系数的假设检验结果均不显著 这说明方程建立的不是 最好 需进一步对变量进行筛选 7 5 逐步回归 7 5 1 概述概述 上面介绍建立多元回归方程的方法时 将所有的自变量都引入方程 但各自变 量的作用有大有小 而我们建立回归方程时既不能丢掉对因变量贡献大的自变 量 也不希望引入贡献不显著的自变量 还要避免上述的多重共线性问题 因 此 需要在自变量中有所选择 把真正有统计意义的部分找出来 建立较理想 的模型 较高的预测 预报精度 模型也不太复杂 自变量选择方法 1 所有可能子集回归 2 前进法 3 后退法 4 逐步法 该法是前进法与后退法的结合 它对自变量建立一套双向筛选程序 将自变量一个个引入 引入的条件是该变量的偏回归平方和经检验是显著的 同时 每引入一个新变量后 要对老变量逐个检验 剔除偏回归平方和不显著 的变量 注意的是 逐步法选出的模型与选择变量的标准有关 而且按前述选择模型的 准则 一般只是较优的模型 而不是 最优 的 另外 建立的模型应该符合 专业知识 因此 实际应用中 应该将专业上的考虑 自变量选择准则和逐步 法结合起来使用 以期得到较为理想 合理的模型 7 5 2 实例实例 例例 8 6 续例 8 4 利用自变量选择准则和逐步回归方法 建立肺活量与体重 胸围以及胸围的呼吸差间的较为合理的模型 编写 SAS 程序如下 DATA 步略 PROC REG MODEL Y X1 X3 SELECTION CP AIC ADJRSQ RUN PROC REG MODEL Y X1 X3 SELECTION STEPWISE PROC REG MODEL Y X1 X3 SELECTION STEPWISE SLENTRY 0 3 SLSTAY 0 3 RUN 上述程序的第一个 REG 输出结果如下 Stepwise Procedure for Dependent Variable Y Step 1 Variable X3 Entered R square 0 53118453 C p 4 71246471 DF Sum of Squares Mean Square F Prob F Regression 1 9 06 0 0168 Error 8 Total 9 Parameter Standard Type II Variable Estimate Error F Prob F INTERCEP 44 22 0 0002 X3 9 06 0 0168 Step 2 Variable X1 Entered R square 0 61896273 C p 4 70672706 DF Sum of Squares Mean Square F Prob F Regression 2 5 69 0 0341 Error 7 Total 9 Parameter Standard Type II Variable Estimate Error Sum of Squares F Prob F INTERCEP 0 02 0 9031 X1 1 61 0 2447 X3 2 51 0 1572 Step 3 Variable X2 Entered R square 0 73741871 C p 4 00000000 DF Sum of Squares Mean Square F Prob F Regression 3 5 62 0 0355 Error 6 Total 9 Parameter Standard Type II Variable Estimate Error Sum of Squares F Prob F INTERCEP 1 96 0 2111 X1 2 82 0 1442 X2 2 71 0 1510 X3 0 69 0 4377 Step 4 Variable X3 Removed R square 0 70718629 C p 2 69081285 DF Sum of Squares Mean Square F Prob F Regression 2 8 45 0 0136 Error 7 Total 9 arameter Standard Type II Variable Estimate Error Sum of Squares F Prob F INTERCEP 6 59 0 0371 X1 8 69 0 0215 X2 5 37 0 0535 All variables in the model are significant at the 0 3000 level No other variable met the 0 3000 significance level for entry into the model Summary of Stepwise Procedure for Dependent Variable Y Variable Number Partial Model Step Entered Removed In R 2 R 2 C p F Prob F 1 X3 1 0 5312 0 5312 4 7125 9 0643 0 0168 2 X1 2 0 0878 0 6190 4 7067 1 6126 0 2447 3 X2 3 0 1185 0 7374 4 0000 2 7067 0 1510 4 X3 2 0 0302 0 7072 2 6908 0 6908 0 4377 采用逐步法选择自变量 但进入方程和剔除出方程的显著性水平为 0 3 结果是 X3 X1 X2 依次被选入方程 但 X1 X2 进入方程 后 X3 的作用变得不显著 因而最后从方程中剔除出去 最终的方 程为 y hat 4187 42 80 27X1 46 45X2 R2 0 7072 这个方程的回归效果与用三个变量建立的方程效果相差无几 应是较为理想的选择 7 6 相关分析 描述两个变量间相关关系的统计指标称为相关系数 现以两个变量 的直线相关分析为例 说明相关系数的意义 研究变量 X 和 Y 的直线相关关系用直线相关系数 记为 r 其计算 公式为 1 r 1 r 为总体相关系数 的样本估计值 所以一般还要需做 0 的假设检验 7 6 1 CORR 过程过程 1 CORR 过程的语句组成 PROC CORR options VAR 变量表 WITH 变量表 PARTIAL 变量表 WEIGHT 变量 BY 变量表 END 2 CORR 过程的语句说明 1 PROC CORR 语句 格式 PROC CORR options 选择项主要有 PEARSON 计算通常的 Pearson 相关系数 即直线相关系 数 是缺省值 OUT dataset 产生含有 Pearson 相关系数的一个新数据集 NOMISS 将带有某一变量缺失值的观测值从所有计算中 除去 NOSIMPLE 取消打印每个变量的描述统计量 2 WITH 语句 指明配对的变量名 与 VAR 语句配合使用 VAR 语句列出相关 矩阵上部出现的变量 WITH 语句列出左侧出现的变量 使用 WITH 语句后 把变量分成 WITH 组和非 WITH 组 只计算两组间 两两变量的相关系数 3 PARTIAL 语句 作偏相关分析时 指定相对固定的那些变量 此时将自动激活 NOMISS 选择项 注意 PARTIAL 语句指定的变量名不能出现在 VAR 或 WITH 语句中 7 6 2 实例实例 例例 研究肺活量时测得 10 名女中学生体重 x1 kg 胸围 x2 cm 呼 吸差 x3 cm 及肺活量 y ml 数据如下 DATA CORR1 INPUT X1 X2 X3 Y CARDS 35 69 0 7 1600 4074 2 5 2600 42 65 3 0 2500 PROC CORR VAR X1 X2 X3 Y RUN PROC CORR NOSIMPLE VAR Y WITH X2 X3 PARTIAL X1 RUN 结果如下 CORRELATION ANALYSIS 4 VAR Variables X1 X2 X3 Y Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum X1 X2 X3 Y CORRELATION ANALYSIS Pearson Correlation Coefficients Prob R under Ho Rho 0 N 10 X1 X2 X3 Y X1 1 00000 0 43195 0 64093 0 69454 0 0 0 2125 0 0458 0 0258 X2 0 43195 1 00000 0 62927 0 76165 0 2125 0 0 0 0513 0 0105 X3 0 6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论