实用回归分析.ppt_第1页
实用回归分析.ppt_第2页
实用回归分析.ppt_第3页
实用回归分析.ppt_第4页
实用回归分析.ppt_第5页
已阅读5页,还剩127页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用回归分析 目录 1回归分析概述2一元线性回归3多元线性回归违背基本假定的情况及其处理方法运用回归分析需特别注意的其他问题 1回归分析概述 1 1变量间的统计关系1 2回归方程与回归名称的由来1 3回归分析的主要内容及其一般模型1 4建立实际问题回归模型的过程1 5回归分析应用与发展述评 1 1变量间的统计关系 函数关系商品的销售额与销售量之间的关系y px圆的面积与半径之间的关系S R2原材料消耗额与产量 x1 单位产量消耗 x2 原材料价格 x3 之间的关系y x1x2x3 1 1变量间的统计关系 1 1变量间的统计关系 相关关系的例子子女身高 y 与父亲身高 x 之间的关系收入水平 y 与受教育程度 x 之间的关系粮食亩产量 y 与施肥量 x1 降雨量 x2 温度 x3 之间的关系商品的消费量 y 与居民收入 x 之间的关系商品销售额 y 与广告费支出 x 之间的关系 1 2回归方程与回归名称的由来 成年儿子身高 父母平均身高 英国统计学家F Galton 1822 1911年 F Galton和他的学生 现代统计学的奠基者之一K Pearson 1856 1936年 在研究父母身高与其子女身高的遗传问题时 观察了1078对夫妇 1 3回归分析的主要内容及其一般模型 1 4建立实际问题回归模型的过程 1 5回归分析应用与发展述评 从高斯提出最小二乘法算起 回归分析已经有200年的历史 从1969年设立诺贝尔经济学奖以来 已有近50位学者获奖 其中绝大部分获奖者是统计学家 计量经济学家 数学家 他们对统计学及回归分析方法的应用都有娴熟的技巧 2一元线性回归 2 1一元线性回归模型2 2参数 0 1的估计2 3最小二乘估计的性质2 4回归方程的显著性检验2 5残差分析2 6回归系数的区间估计2 7预测和控制 2 1一元线性回归模型 例2 1表2 1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离 表2 1火灾损失表 2 1一元线性回归模型 例2 2全国人均消费金额记作y 元 人均国民收入记为x 元 表2 2人均国民收入表 2 1一元线性回归模型 一元线性回归模型y 0 1x 回归方程E y x 0 1x 2 1一元线性回归模型 样本模型yi 0 1xi i i 1 2 n 回归方程E yi 0 1xi var yi 2 样本观测值 x1 y1 x2 y2 xn yn 经验回归方程 2 2参数 0 1的估计 一 普通最小二乘估计 OrdinaryLeastSquareEstimation 简记为OLSE 最小二乘法就是寻找参数 0 1的估计值使离差平方和达极小 称为yi的回归拟合值 简称回归值或拟合值 称为yi的残差 2 2参数 0 1的估计 2 2参数 0 1的估计 经整理后 得正规方程组 2 2参数 0 1的估计 得OLSE为 记 2 2参数 0 1的估计 续例2 1 回归方程 2 4回归方程的显著性检验 一 t检验 原假设 H0 1 0对立假设 H1 1 0 由 当原假设H0 1 0成立时有 2 4回归方程的显著性检验 一 t检验 构造t统计量 其中 2 4回归方程的显著性检验 二 用统计软件计算 什么是P值 P value P值即显著性概率值SignificenceProbabilityValue是当原假设为真时得到比目前的样本更极端的样本的概率 所谓极端就是与原假设相背离它是用此样本拒绝原假设所犯弃真错误的真实概率 被称为观察到的 或实测的 显著性水平 双侧检验的P值 2 2 t 拒绝 拒绝 H0值 临界值 计算出的样本统计量 计算出的样本统计量 临界值 1 2P值 1 2P值 左侧检验的P值 H0值 临界值 a 样本统计量 拒绝域 抽样分布 1 置信水平 计算出的样本统计量 P值 右侧检验的P值 H0值 临界值 a 拒绝域 抽样分布 1 置信水平 计算出的样本统计量 P值 2 4回归方程的显著性检验 二 用统计软件计算相关系数R 2 4回归方程的显著性检验 二 用统计软件计算 2 用SPSS软件计算 2 4回归方程的显著性检验 三 F检验 平方和分解式 SST SSR SSE 构造F检验统计量 2 4回归方程的显著性检验 三 F检验 一元线性回归方差分析表 2 4回归方程的显著性检验 四 相关系数的显著性检验 2 4回归方程的显著性检验 四 相关系数的显著性检验 2 4回归方程的显著性检验 四 相关系数的显著性检验 附表1相关系数 0的临界值表 2 4回归方程的显著性检验 四 相关系数的显著性检验 用SPSS软件做相关系数的显著性检验 2 4回归方程的显著性检验 四 相关系数的显著性检验 两变量间相关程度的强弱分为以下几个等级 当 r 0 8时 视为高度相关 当0 5 r 0 8时 视为中度相关 当0 3 r 0 5时 视为低度相关 当 r 0 3时 表明两个变量之间的相关程度极弱 在实际应用中可视为不相关 2 4回归方程的显著性检验 五 三种检验的关系 H0 b 0 H0 r 0 H0 回归无效 2 4回归方程的显著性检验 六 样本决定系数 可以证明 2 5残差分析 一 残差概念与残差图 残差 误差项 残差ei是误差项ei的估计值 2 5残差分析 一 残差概念与残差图 2 5残差分析 一 残差概念与残差图 图2 6火灾损失数据残差图 2 5残差分析 二 残差的性质 性质1E ei 0 证明 2 5残差分析 二 残差的性质 性质2 其中 称为杠杆值 2 5残差分析 二 残差的性质 性质3 残差满足约束条件 2 5残差分析 三 改进的残差 标准化残差 学生化残差 2 6回归系数的区间估计 等价于 1的1 置信区间 2 7预测和控制 一 单值预测 2 7预测和控制 二 区间预测 找一个区间 T1 T2 使得 需要首先求出其估计值 的分布 1 因变量新值的区间预测 二 区间预测1因变量新值的区间预测 以下计算 的方差 从而得 二 区间预测 对例2 1的火灾损失数据 假设保险公司希望预测一个距最近的消防队x0 3 5公里的居民住宅失火的损失 点估计值 95 区间估计单个新值 22 32 32 67 平均值E y0 26 19 28 80 的95 的近似置信区间为 27 50 2 2 316 27 50 2 2 316 22 87 32 13 三 控制问题 给定y的预期范围 T1 T2 如何控制自变量x的值才能以1 的概率保证 用近似的预测区间来确定x 如果 0 05 则要求 把 带入 第三部分多元线性回归 3 1多元线性回归模型3 2回归参数的估计3 3参数估计量的性质3 4回归方程的显著性检验3 5中心化和标准化3 6相关阵与偏相关系数 3 1多元线性回归模型 一 多元线性回归模型的一般形式 y 0 1x1 2x2 pxp 3 1多元线性回归模型 一 多元线性回归模型的一般形式 对n组观测数据 xi1 xi2 xip yi i 1 2 n 线性回归模型表示为 3 1多元线性回归模型 一 多元线性回归模型的一般形式 写成矩阵形式为 y X 其中 3 1多元线性回归模型 二 多元线性回归模型的基本假定 1 解释变量x1 x2 xp是确定性变量 不是随机变量 且要求r X p 1 n 表明设计矩阵X中的自变量列之间不相关 X是一满秩矩阵 3 1多元线性回归模型 二 多元线性回归模型的基本假定 2 随机误差项具有0均值和等方差 即 这个假定称为Gauss Markov条件 3 1多元线性回归模型 二 多元线性回归模型的基本假定 3 正态分布的假定条件为 用矩阵形式 3 5 式表示为 N 0 s2In 3 1多元线性回归模型 二 多元线性回归模型的基本假定 在正态假定下 y N X s2In E y X var y s2In 3 1多元线性回归模型 三 多元线性回归方程的解释 y表示空调机的销售量 x1表示空调机的价格 x2表示消费者可用于支配的收入 y 0 1x1 2x2 E y 0 1x1 2x2 在x2保持不变时 有 在x1保持不变时 有 3 1多元线性回归模型 三 多元线性回归方程的解释 考虑国内生产总值GDP和三次产业增加值的关系 GDP x1 x2 x3 现在做GDP对第二产业增加值x2的一元线性回归 得回归方程 3 1多元线性回归模型 3 1多元线性回归模型 三 多元线性回归方程的解释 建立GDP对x1和x2的回归 得二元回归方程 2914 6 0 607x1 1 709x2 你能够合理地解释两个回归系数吗 3 2回归参数的估计 一 回归参数的普通最小二乘估计 最小二乘估计要寻找 3 2回归参数的估计 一 回归参数的普通最小二乘估计 3 2回归参数的估计 一 回归参数的普通最小二乘估计 经整理后得用矩阵形式表示的正规方程组 移项得 存在时 即得回归参数的最小二乘估计为 3 2回归参数的估计 二 回归值与残差 为回归值 称为帽子矩阵 其主对角线元素记为hii 3 2回归参数的估计 二 回归值与残差 cov e e cov I H Y I H Y I H cov Y Y I H 2 I H In I H 2 I H 得D ei 1 hii 2 i 1 2 n 3 2回归参数的估计 二 回归值与残差 是 2的无偏估计 3 2回归参数的估计 例3 1 国际旅游外汇收入是国民经济发展的重要组成部分 影响一个国家或地区旅游收入的因素包括自然 文化 社会 经济 交通等多方面的因素 本例研究第三产业对旅游外汇收入的影响 中国统计年鉴 把第三产业划分为12个组成部分 分别为x1农林牧渔服务业 x2地质勘查水利管理业 x3交通运输仓储和邮电通信业 x4批发零售贸易和餐饮业 x5金融保险业 x6房地产业 x7社会服务业 x8卫生体育和社会福利业 x9教育文化艺术和广播 x10科学研究和综合艺术 x11党政机关 x12其他行业 采用1998年我国31个省 市 自治区的数据 以国际旅游外汇收入 百万美元 为因变量y 以如上12个行业为自变量做多元线性回归 数据见表3 1 其中自变量单位为亿元人民币 3 2回归参数的估计 3 3参数估计量的性质 性质1是随机向量y的一个线性变换 性质2 是 的无偏估计 3 4回归方程的显著性检验 一 F检验 H0 1 2 p 0 SST SSR SSE 当H0成立时服从 3 4回归方程的显著性检验 一 F检验 3 4回归方程的显著性检验 二 回归系数的显著性检验 H0j j 0 j 1 2 p X 1 记 X 1 cij i j 0 1 2 p 构造t统计量 其中 3 4回归方程的显著性检验 二 回归系数的显著性检验 从另外一个角度考虑自变量xj的显著性 y对自变量x1 x2 xp线性回归的残差平方和为SSE 回归平方和为SSR 在剔除掉xj后 用y对其余的p 1个自变量做回归 记所得的残差平方和为SSE j 回归平方和为SSR j 则自变量xj对回归的贡献为 SSR j SSR SSR j 称为xj的偏回归平方和 由此构造偏F统计量 3 4回归方程的显著性检验 二 回归系数的显著性检验 当原假设H0j j 0成立时 3 42 式的偏F统计量Fj服从自由度为 1 n p 1 的F分布 此F检验与 3 40 式的t检验是一致的 可以证明Fj tj2 3 4回归方程的显著性检验 三 回归系数的置信区间 可得 j的置信度为1 的置信区间为 3 4回归方程的显著性检验 四 拟合优度 决定系数为 y关于x1 x2 xp的样本复相关系数 3 5中心化和标准化 一 中心化 经验回归方程 经过样本中心 将坐标原点移至样本中心 即做坐标变换 回归方程转变为 回归常数项为 3 5中心化和标准化 二 标准化回归系数 当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性 例如有一回归方程为 其中x1的单位是吨 x2的单位是公斤 3 5中心化和标准化 二 标准化回归系数 样本数据的标准化公式为 得标准化的回归方程 3 5中心化和标准化 二 标准化回归系数 标准化回归系数 3 6相关阵与偏相关系数 一 样本相关阵 自变量样本相关阵 增广的样本相关阵为 3 6相关阵与偏相关系数 一 样本相关阵 3 6相关阵与偏相关系数 二 偏判定系数 当其他变量被固定后 给定的任两个变量之间的相关系数 叫偏相关系数 偏相关系数可以度量p 1个变量y x1 x2 xp之中任意两个变量的线性相关程度 而这种相关程度是在固定其余p 1个变量的影响下的线性相关 3 6相关阵与偏相关系数 二 偏判定系数 偏判定系数测量在回归方程中已包含若干个自变量时 再引入某一个新的自变量后y的剩余变差的相对减少量 它衡量y的变差减少的边际贡献 3 6相关阵与偏相关系数 二 偏判定系数 以x1表示某种商品的销售量 x2表示消费者人均可支配收入 x3表示商品价格 从经验上看 销售量x1与消费者人均可支配收入x2之间应该有正相关 简单相关系数r12应该是正的 但是如果你计算出的r12是个负数也不要感到惊讶 这是因为还有其它没有被固定的变量在发挥影响 例如商品价格x3在这期间大幅提高了 反映固定x3后x1与x2相关程度的偏相关系数r12 3会是个正数 3 6相关阵与偏相关系数 1 两个自变量的偏判定系数 二元线性回归模型为 yi 0 1xi1 2xi2 i 记SSE x2 是模型中只含有自变量x2时y的残差平方和 SSE x1 x2 是模型中同时含有自变量x1和x2时y的残差平方和 因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为 此即模型中已含有x2时 y与x1的偏判定系数 3 6相关阵与偏相关系数 1 两个自变量的偏判定系数 同样地 模型中已含有x1时 y与x2的偏判定系数为 3 6相关阵与偏相关系数 2 一般情况 在模型中已含有x2 xp时 y与x1的偏判定系数为 3 6相关阵与偏相关系数 三 偏相关系数 偏判定系数的平方根称为偏相关系数 其符号与相应的回归系数的符号相同 例3 2研究北京市各经济开发区经济发展与招商投资的关系 因变量y为各开发区的销售收入 百万元 选取两个自变量 x1为截至1998年底各开发区累计招商数目 x2为招商企业注册资本 百万元 表中列出了至1998年底招商企业注册资本x2在5亿至50亿元的15个开发区的数据 3 6相关阵与偏相关系数 三 偏相关系数 北京开发区数据 3 6相关阵与偏相关系数 三 偏相关系数 偏相关系数表 3 6相关阵与偏相关系数 三 偏相关系数 用y与x1做一元线性回归时 x1能消除y的变差SST的比例为 再引入x2时 x2能消除剩余变差SSE X1 的比例为 因而自变量x1和x2消除y变差的总比例为 1 1 0 651 1 0 546 0 842 84 2 这个值84 2 恰好是y对x1和x2二元线性回归的判定系数R2 3 6相关阵与偏相关系数 三 偏相关系数 对任意p个变量x1 x2 xp定义它们之间的偏相关系数 其中符号 ij表示相关阵第i行第j列元素的代数余子式 验证 3 7实例 例3 3中国民航客运量的回归模型 y 民航客运量 万人 x1 国民收入 亿元 x2 消费额 亿元 x3 铁路客运量 万人 x4 民航航线里程 万公里 x5 来华旅游入境人数 万人 根据 1994年统计摘要 获得1978 1993年统计数据 3 7 3 7 3 7 3 7本章小结与评注 4违背基本假设的情况 4 1异方差性产生的背景和原因4 2一元加权最小二乘估计4 3多元加权最小二乘估计4 4自相关性问题及其处理4 5异常值与强影响点 违背基本假设的情况 Gauss Markov条件 4 1异方差性产生的背景和原因 一 异方差产生的原因例4 1居民收入与消费水平有着密切的关系 用xi表示第i户的收入量 yi表示第i户的消费额 一个简单的消费模型为 yi 0 1xi i i 1 2 n低收入的家庭购买差异性比较小 高收入的家庭购买行为差异就很大 导致消费模型的随机项 i具有不同的方差 4 1异方差性产生的背景和原因 二 异方差性带来的问题当存在异方差时 普通最小二乘估计存在以下问题 1 参数估计值虽是无偏的 但不是最小方差线性无偏估计 2 参数的显著性检验失效 3 回归方程的应用效果极不理想 4 2一元加权最小二乘估计 一 异方差性的检验 一 残差图分析法 图2 5 b 存在异方差 4 2一元加权最小二乘估计 一 异方差性的检验 二 等级相关系数法等级相关系数检验法又称斯皮尔曼 Spearman 检验 是一种应用较广泛的方法 这种检验方法既可用于大样本 也可用于小样本 进行等级相关系数检验通常有三个步骤 第一步 作y关于x的普通最小二乘回归 求出ei的估计值 即ei的值 4 2一元加权最小二乘估计 二 等级相关系数法第二步 取ei的绝对值 分别把xi和 ei 按递增 或递减 的次序分成等级 按下式计算出等级相关系数 其中 n为样本容量 di为对应于xi和 ei 的等级的差数 4 2一元加权最小二乘估计 二 等级相关系数法第三步 做等级相关系数的显著性检验 在n 8的情况下 用下式对样本等级相关系数rs进行t检验 检验统计量为 如果t t 2 n 2 可认为异方差性问题不存在 如果t t 2 n 2 说明xi与 ei 之间存在系统关系 异方差性问题存在 4 2一元加权最小二乘估计 二 一元加权最小二乘估计 消除异方差性的方法通常有 加权最小二乘法 Box Cox变换法 方差稳定性变换法加权最小二乘法 WeightedLeastSquare 简记为WLS 是一种最常用的消除异方差性的方法 4 4自相关性问题及其处理 如果一个回归模型的随机误差项cov i j 0则称随机误差项之间存在着自相关现象 这里的自相关现象不是指两个或两个以上的变量之间的相关 而指的是一个变量前后期数值之间存在的相关关系 4 4自相关性问题及其处理 一 自相关性产生的背景和原因1 遗漏关键变量时会产生序列的自相关性 2 经济变量的滞后性会给序列带来自相关性 3 采用错误的回归函数形式也可能引起自相关性 4 蛛网现象 Cobwebphenomenon 可能带来序列的自相关性 5 因对数据加工整理而导致误差项之间产生自相关性 4 4自相关性问题及其处理 二 自相关性带来的问题 1 参数的估计值不再具有最小方差线性无偏性 2 均方误差MSE可能严重低估误差项的方差 3 容易导致对t值评价过高 常用的F检验和t检验失效 如果忽视这一点 可能导致得出回归参数统计检验为显著 但实际上并不显著的严重错误结论 4 当存在序列相关时 仍然是 的无偏估计量 但在任一特定的样本中 可能严重歪曲 的真实情况 即最小二乘估计量对抽样波动变得非常敏感 5 如果不加处理地运用普通最小二乘法估计模型参数 用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释 4 4自相关性问题及其处理 三 自相关性的诊断 一 图示检验法1 绘制 et et 1 的散点图 4 4自相关性问题及其处理 三 自相关性的诊断 一 图示检验法2 按照时间顺序绘制回归残差项et的图形 4 4自相关性问题及其处理 三 自相关性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论