13_多重回归模版课件_第1页
13_多重回归模版课件_第2页
13_多重回归模版课件_第3页
13_多重回归模版课件_第4页
13_多重回归模版课件_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 多重线性回归与相关 多重回归(multiple linear regression)与多重相关(multiple correlation)是研究一个因变量和多个自变量之间线性关系的统计学分析方法。 第一节 多重线性回归的概念及其统计描述 例13-1 为了研究空气中一氧化氮NO的浓度与汽车流量等因素的关系,有人测定了某城市交通点在单位时间内过往的汽车数、气温、空气湿度、风速以及空气中的NO的浓度,数据如表13-1所示。 bj为自变量Xj 的偏回归系数partial regression coefficient,是j的估计值,表示当方程中其他自变量保持常量时,自变量Xj变化一个计量单位,反响变量

2、Y的平均值变化的单位数。 标准化偏回归系数standardized partial regression coefficient,又称为通径系数path coefficient。标准化偏回归系数bj较大的自变量在数值上对反响变量Y的作用较大。 回归参数的估计: 前提条件:LINE。 最小二乘法 (least square method)。 根本原理是:利用观察或收集到的因变量和自变量的一组数据建立一个因变量关于自变量的线性函数模型,使得这个模型的理论值和观察值之间的残差平方和尽可能地小。第二节 多重线性回归的假设检验 表13-2显示,P 0.0001,拒绝H0。说明从整体上而言,用这四个自变量

3、构成的回归方程解释空气中NO浓度的变化是有统计学意义的。 偏回归系数的 t 检验 偏回归系数的 t 检验是在回归方程具有统计学意义的情况下,检验某个总体偏回归系数等于零的假设,以判断是否相应的那个自变量对回归确有奉献。 H0: i = 0 H1: i 0第三节 复相关系数与偏相关系数 复相关系数的平方称为确定系数coefficient of determination, 或决定系数,记为R2,用以反映线性回归模型能在多大程度上解释反响变量Y的变异性。其定义为 复相关系数 复相关系数(multiple correlation coefficient) R 定义为确定系数的算术平方根,表示变量Y与

4、k个自变量X1,X2,Xk线性相关的密切程度。 调整的R2(Adjusted R-Square):当回归方程中包含有很多自变量,即使其中有一些自变量如本例中的X3 对解释反响变量变异的奉献极小,随着回归方程的自变量的增加,R2 值表现为只增不减,这是复相关系数R2的缺点。调整的R2记为 ,定义为 偏相关系数 暑假期间双胞胎兄弟大明和小明参加勤工俭学,大明在超级市场帮助卖冷饮,小明在游泳池收门票。每天晚上,二人闲聊。昨天大明冷饮卖得多,小明门票也收得多,今天,大明卖得少,小明门票也收得少。一个月下来,他们发现,超级市场冷饮销售量和游泳人数呈正相关。是不是爱吃冷饮的人想游泳?或爱游泳的人喜欢冷饮?

5、 r0.05=0.602原来冷饮销售量和气温正相关,游泳人数和气温也正相关,冷饮销售量和游泳人数的正相关是气温造成的假象,扣除气温的影响之后两者就不相关了。 一般地,扣除其他变量的影响后,变量Y与X的相关,称为Y与X的偏相关系数。偏相关系数 第四节 自变量筛选 为确保回归方程包含所有对反响变量有较大影响的自变量,而把对反响变量作用不大或可有可无的自变量排除在方程之外,这一统计过程称为自变量的选择。 一、自变量筛选的标准与原那么 1. 残差平方和SSE缩小与确定系数R2增大; 2. 残差均方MSE缩小与调整确定系数Ra2增大3. 统计量: 二、自变量筛选的常用方法 1. 所有可能自变量子集选择

6、(all possible subsets selection) ,又称全局择优法;2. 前向选择forward selection;3. 后向选择backward selection;4. 逐步选择stepwise selection。1. 全局择优法 根据某种变量的选择准那么,通过比较各子集符合准那么的程度,从中选择出一个或几个最优的回归,称为“最优子集回归。2. 前向选择forward selection 3. 后向选择 (backward selection) 4.逐步选择stepwise selection 第五节 多元线性回归的应用 及其本卷须知一、应用影响因素分析,控制混杂因素预

7、测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量二、应用条件应用的本卷须知样本含量 观察个体数n与变量个数m的比例一般至少应为:n : m510统计“最优与专业的“最优不同准那么、方法得出的“最优方程不同;不同的引入、剔除标准获得的“最优方程不同;方程还受数据的正确性、共线性影响多重共线性 自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。回归系数的符号与由专业知识不符变量的重要性与专业不符多重共线性的识别与解决方法 整个方程决定系数R2高,但各自变量对应的回归系数均不显著。解决共线性的主要方法:筛选自变量用主成分回归岭回归。交互作用 当某一自变量对应变量的作用大小与另一个自变量的取值有关时,那么表示两个变量有交互作用interaction。 检验两变量间有无交互作用,普遍的做法是在方程中参加它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中参加X1X2项。几个相关系数的区别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论