(中山大学统计学课件)第9章 多元线性回归.ppt_第1页
(中山大学统计学课件)第9章 多元线性回归.ppt_第2页
(中山大学统计学课件)第9章 多元线性回归.ppt_第3页
(中山大学统计学课件)第9章 多元线性回归.ppt_第4页
(中山大学统计学课件)第9章 多元线性回归.ppt_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

作者贾俊平 统计学 第三版 2008 2008年8月 上好的模型选择可遵循一个称为奥克姆剃刀 Occam sRazor 的基本原理 最好的科学模型往往最简单 且能解释所观察到的事实 WilliamNavidi 统计名言 第9章多元线性回归 9 1多元线性回归模型9 2拟合优度和显著性检验9 3多重共线性及其处理9 4利用回归方程进行预测9 5虚拟自变量的回归 2008年8月 学习目标 多元线性回归模型 回归方程与估计的回归方程回归方程的拟合优度与显著性检验多重共线性问题及其处理利用回归方程进行预测虚拟自变量的回归用Excel和SPSS进行回归分析 2008年8月 身高受那些因素影响 决定身高的因素是什么 父母遗传 生活环境 体育锻炼 还是以上各因素的共同作用2004年12月 中国人民大学国民经济管理系02级的两位学生 对人大在校生进行了问卷调查 问卷采取随机发放 当面提问当场收回调查的样本量为98人 男性55人 女性43人 调查内容包括被调查者的身高 单位 cm 性别 其父母身高 是否经常参加体育锻炼 家庭所在地是在南方还是在北方等等 部分数据如教材中的表所示 1代表男性 0代表女性 父亲身高 母亲身高 性别是不是影响子女身高的主要因素呢 如果是 子女身高与这些因素之间能否建立一个线性关系方程 并根据这一方程对身高做出预测 这就是本章将要讨论的多元线性回归问题 9 1多元线性回归模型9 1 1回归模型与回归方程9 1 2参数的最小二乘估计 第9章多元线性回归 9 1 1回归模型与回归方程 9 1多元线性回归模型 2008年8月 多元回归模型 multiplelinearregressionmodel 一个因变量与两个及两个以上自变量的回归描述因变量y如何依赖于自变量x1 x2 xk和误差项 的方程 称为多元回归模型涉及k个自变量的多元线性回归模型可表示为 b0 b1 b2 bk是参数 是被称为误差项的随机变量y是x1 x2 xk的线性函数加上误差项 包含在y里面但不能被k个自变量的线性关系所解释的变异性 2008年8月 多元回归模型 基本假定 正态性 误差项 是一个服从正态分布的随机变量 且期望值为0 即 N 0 2 方差齐性 对于自变量x1 x2 xk的所有值 的方差 2都相同独立性 对于自变量x1 x2 xk的一组特定值 它所对应的 与任意一组其他值所对应的不相关 2008年8月 多元线性回归方程 multiplelinearregressionequation 描述因变量y的平均值或期望值如何依赖于自变量x1 x2 xk的方程多元线性回归方程的形式为E y 0 1x1 2x2 kxk b1 b2 bk称为偏回归系数bi表示假定其他变量不变 当xi每变动一个单位时 y的平均变动值 2008年8月 估计的多元线性回归的方程 estimatedmultiplelinearregressionequation 是估计值是y的估计值 用样本统计量估计回归方程中的参数时得到的方程由最小二乘法求得一般形式为 9 1 2参数的最小二乘估计 9 1多元线性回归模型 2008年8月 参数的最小二乘估计 求解各回归参数的标准方程如下 使因变量的观察值与估计值之间的离差平方和达到最小来求得 即 2008年8月 参数的最小二乘法 例题分析 例 一家大型商业银行在多个地区设有分行 为弄清楚不良贷款形成的原因 抽取了该银行所属的25家分行2002年的有关业务数据 试建立不良贷款y与贷款余额x1 累计应收贷款x2 贷款项目个数x3和固定资产投资额x4的线性回归方程 并解释各回归系数的含义 用Excel进行回归 2008年8月 参数的最小二乘估计 例题分析 F检验 t检验 偏回归系数 9 2拟合优度和显著性检验9 2 1回归方程的拟合优度9 2 2显著性检验 第9章多元线性回归 9 2 1回归方程的拟合优度 9 2拟合优度和显著性检验 2008年8月 多重判定系数 multiplecoefficientofdetermination 回归平方和占总平方和的比例计算公式为因变量取值的变差中 能被估计的多元回归方程所解释的比例 2008年8月 修正多重判定系数 adjustedmultiplecoefficientofdetermination 用样本量n和自变量的个数k去修正R2得到计算公式为避免增加自变量而高估R2意义与R2类似数值小于R2 用Excel进行回归 2008年8月 多重相关系数 multiplecorrelationcoefficient 多重判定系数的平方根R反映因变量y与k个自变量之间的相关程度实际上R度量的是因变量的观测值与由多元回归方程得到的预测值之间的关系强度 即多重相关系数R等于因变量的观测值与估计值之间的简单相关系数即 一元相关系数r也是如此 即 读者自己去验证 2008年8月 估计标准误差Se 对误差项 的标准差 的一个估计值衡量多元回归方程的拟合优度计算公式为 用Excel进行回归 9 2 2显著性检验 9 2拟合优度和显著性检验 2008年8月 线性关系检验 检验因变量与所有自变量之间的线性关系是否显著也被称为总体的显著性检验检验方法是将回归均方 MSR 同残差均方 MSE 加以比较 应用F检验来分析二者之间的差别是否显著如果是显著的 因变量与自变量之间存在线性关系如果不显著 因变量与自变量之间不存在线性关系 2008年8月 线性关系检验 提出假设H0 1 2 k 0线性关系不显著H1 1 2 k至少有一个不等于0 2 计算检验统计量F 确定显著性水平 和分子自由度k 分母自由度n k 1找出临界值F 4 作出决策 若F F 拒绝H0 用Excel进行回归 2008年8月 回归系数的检验 线性关系检验通过后 对各个回归系数有选择地进行一次或多次检验究竟要对哪几个回归系数进行检验 通常需要在建立模型之前作出决定对回归系数检验的个数进行限制 以避免犯过多的第 类错误 弃真错误 对每一个自变量都要单独进行检验应用t检验统计量 2008年8月 回归系数的检验 步骤 提出假设H0 bi 0 自变量xi与因变量y没有线性关系 H1 bi 0 自变量xi与因变量y有线性关系 计算检验的统计量t 确定显著性水平 并进行决策 t t 拒绝H0 t t 不拒绝H0 用Excel进行回归 2008年8月 回归系数的推断 置信区间 回归系数在 1 置信水平下的置信区间为 回归系数的抽样标准差 用Excel进行回归 9 3多重共线性及其处理9 3 1多重共线性及其识别9 3 2变量选择与逐步回归 第9章多元线性回归 9 3 1多重共线性及其识别 9 3多重共线性及其处理 2008年8月 多重共线性 multicollinearity 回归模型中两个或两个以上的自变量彼此相关多重共线性带来的问题有可能会使回归的结果造成混乱 甚至会把分析引入歧途可能对参数估计值的正负号产生影响 特别是各回归系数的正负号有可能同预期的正负号相反 用Excel进行回归 2008年8月 多重共线性的识别 检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数 并对各相关系数进行显著性检验若有一个或多个相关系数显著 就表示模型中所用的自变量之间相关 存在着多重共线性如果出现下列情况 暗示存在多重共线性模型中各对自变量之间显著相关当模型的线性关系检验 F检验 显著时 几乎所有回归系数的t检验却不显著回归系数的正负号与预期的相反 用Excel进行回归 2008年8月 多重共线性的处理 将一个或多个相关的自变量从模型中剔除 使保留的自变量尽可能不相关如果要在模型中保留所有的自变量 则应避免根据t统计量对单个参数进行检验对因变量值的推断 估计或预测 的限定在自变量样本值的范围内 用Excel进行回归 2008年8月 提示 在建立多元线性回归模型时 不要试图引入更多的自变量 除非确实有必要在社会科学的研究中 由于所使用的大多数数据都是非试验性质的 因此 在某些情况下 得到的结果往往并不令人满意 但这不一定是选择的模型不合适 而是数据的质量不好 或者是由于引入的自变量不合适 2008年8月 奥克姆剃刀 Occam sRazor 模型选择可遵循奥克姆剃刀的基本原理最好的科学模型往往最简单 且能解释所观察到的实事对于线性模型来说 奥克姆剃刀可表示成简约原则一个模型应包括拟合数据所必需的最少变量如果一个模型只包含数据拟合所必需的变量 这个模型就称为简约模型 parsimoniousmodel 实际中的许多多元回归模型都是对简约模型的扩展 9 3 2变量选择与逐步回归 9 3多重共线性及其处理 2008年8月 变量选择过程 在建立回归模型时 对自变量进行筛选选择自变量的原则是对统计量进行显著性检验将一个或一个以上的自变量引入到回归模型中时 是否使得残差平方和 SSE 有显著地减少 如果增加一个自变量使SSE的减少是显著的 则说明有必要将这个自变量引入回归模型 否则 就没有必要将这个自变量引入回归模型确定引入自变量是否使SSE有显著减少的方法 就是使用F统计量的值作为一个标准 以此来确定是在模型中增加一个自变量 还是从模型中剔除一个自变量变量选择的方法主要有 向前选择 向后剔除 逐步回归 最优子集等 2008年8月 向前选择 forwardselection 从模型中没有自变量开始对k个自变量分别拟合对因变量的一元线性回归模型 共有k个 然后找出F统计量的值最高的模型及其自变量 P值最小的 并将其首先引入模型分别拟合引入模型外的k 1个自变量的线性回归模型如此反复进行 直至模型外的自变量均无统计显著性为止 2008年8月 向后剔除 backwardelimination 先对因变量拟合包括所有k个自变量的回归模型 然后考察p p k 个去掉一个自变量的模型 这些模型中在每一个都有的k 1个自变量 使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除考察p 1个再去掉一个自变量的模型 这些模型中每一个都有k 2个的自变量 使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除如此反复进行 一直将自变量从模型中剔除 直至剔除一个自变量不会使SSE显著减小为止 2008年8月 逐步回归 stepwiseregression 将向前选择和向后剔除两种方法结合起来筛选自变量在增加了一个自变量后 它会对模型中所有的变量进行考察 看看有没有可能剔除某个自变量 如果在增加了一个自变量后 前面增加的某个自变量对模型的贡献变得不显著 这个变量就会被剔除按照方法不停地增加变量并考虑剔除以前增加的变量的可能性 直至增加变量已经不能导致SSE显著减少在前面步骤中增加的自变量在后面的步骤中有可能被剔除 而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中 2008年8月 参数的最小二乘法 逐步回归 例 根据例9 1的数据 用逐步回归方法建立不良贷款y与贷款余额x1 累计应收贷款x2 贷款项目个数x3和固定资产投资额x4的线性回归方程 并求出不良贷款的置信区间和预测区间 2008年8月 用SPSS进行逐步回归 stepwiseregression 第1步 选择 Analyze 下拉菜单 并选择 Regression linear 选项进入主对话框第2步 在主对话框中将因变量选入 Dependent 将所有自变量选入 Independent s 并在 Method 下选择 Stepwise 第3步 点击 Options 并在 SteppingMethodCriteria 下选中 UseProbabilityofF 并在 Entry 框中输入增加变量所要求的显著性水平 隐含值为0 05 一般不用改变 在 Removal 输入剔除变量所要求的显著性水平 隐含值为0 10 一般不用改变 点击 Continue 回到主对话框 2008年8月 用SPSS进行逐步回归 stepwiseregression 第4步 需要预测时 点击 Save 在 PredictedValues 下选中 Unstandardized 输出点预测值 在 Predictioninterval 下选中 Mean 和 Individual 输出置信区间和预测区间 在 ConfidenceInterval 中选择所要求的置信水平 隐含值为95 一般不用改变 需要残差分析时 在 Residuals 下选中所需的残差 点击 Continue 回到主对话框 点击 OK 用SPSS进行回归 2008年8月 逐步回归 例题分析 SPSS输出结果 变量的进入和移出标准 2008年8月 逐步回归 例题分析 SPSS输出结果 两个模型的主要统计量 2008年8月 逐步回归 例题分析 SPSS输出结果 两个模型的方差分析表 2008年8月 逐步回归 例题分析 SPSS输出结果 两个模型的参数估计和检验 9 4利用回归方程进行预测 第9章多元线性回归 2008年8月 置信区间和预测区间 例题分析 2008年8月 置信区间和预测区间 例题分析 不良贷款的置信面和预测面 二元回归面 置信面 预测面 9 5虚拟自变量的回归 第9章多元线性回归 9 5 1在模型中引进虚拟变量 9 5虚拟自变量的回归 2008年8月 虚拟自变量 dummyvariable 也称哑变量 用数字代码表示的定性自变量虚拟自变量可有不同的水平只有两个水平的虚拟自变量比如 性别 男 女 有两个以上水平的虚拟自变量贷款企业的类型 家电 医药 其他 虚拟变量的取值为0 1 2008年8月 在回归中引进虚拟变量 回归模型中使用虚拟自变量时 称为虚拟自变量的回归当虚拟自变量只有两个水平时 可在回归中引入一个虚拟变量比如 性别 男 女 一般而言 如果定性自变量有k个水平 需要在回归中模型中引进k 1个虚拟变量 2008年8月 在回归中引进虚拟变量 例题分析 例 为研究考试成绩与性别之间的关系 从某大学商学院随机抽取男女学生各8名 得到他们的市场营销学课程的考试成绩如右表 9 5 2含有一个虚拟自变量的回归 9 5虚拟自变量的回归 2008年8月 在回归中引进虚拟变量 例题分析 例 建立考试分数与性别之间的线性回归方程 并解释回归系数的含义 用Excel进行回归 2008年8月 虚拟自变量的回归 例题分析 引进虚拟变量时 回归方程表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论