应用统计学一元回归_第1页
应用统计学一元回归_第2页
应用统计学一元回归_第3页
应用统计学一元回归_第4页
应用统计学一元回归_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1本章教学目标:本章教学目标:l了解回归分析在经济与管理中的广泛应用;l掌握回归分析的基本概念、基本原理及其分析应用的基本步骤;l能应用回归分析方法解决实际问题(分析各种变量间的关系,进行预测和控制) 第第11章章 一元回归一元回归2 本章主要内容:本章主要内容:11.1 回归分析概述11.2 一元线性回归11.3 质量控制应用案例分析11.4 残差分析11.5 曲线回归本章内容重点:本章内容重点: 最小二乘法的原理;回归方程和回归系数的显著性检验; 3 在经济管理和其他领域中,人们经常需要研究两个或多个变量(现象)之间的相互(因果)关系,并使用数学模型来加以描述和解释。如:l商品销售量与价格

2、间的关系;l产品的某些质量指标与某些控制因素之间的关系;l家庭消费支出与家庭收入间的关系等等。l回归分析就是对变量间存在的不确定关系进行分析的统计方法。l回归分析是使用得最为广泛的统计学分支,在质量管理、市场营销、宏观经济管理等领域都有非常广泛的应用。 11.1 回归分析概述回归分析概述4 某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。 该合金钢的质量标准要求:抗拉强度应大于32kg/mm2;延伸率应大于33%。 根据冶金学的专业知识和实践经验,该合金钢的含碳量是影响抗拉强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降

3、低。 为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到99%以上。 质量控制应用案例质量控制应用案例5 为达到以上质量控制要求,就需要制定该合金钢冶炼中含碳量的工艺控制标准,也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。 这是一个典型的产品质量控制问题,可以使用回归分析方法求解。 如何制订含碳量的控制标准?如何制订含碳量的控制标准? 这是一个典型的产品质量控制问题,为有效实现质量控制目标,就需要为分析抗拉强度和延伸率这两项指标与含碳量之间的关系,这就需要大量的样本数据。该厂质量

4、管理科查阅了该合金钢的质量检验纪录,在剔除了异常情况后,整理了该合金钢的上述两项指标与含碳量的92炉实测数据 为解决本案例问题,还需要分别建立描述该合金钢的抗拉强度及延伸率与含碳量之间相互关系的回归模型,再根据所得到的样本数据求解出反映该合金钢的抗拉强度及延伸率与含碳量之间相互关系的回归方程,然后再根据概率统计的原理,求解出能满足以上要求的含碳量的控制范围。这些就是本章所要讨论的主要内容。671. 确定性关系确定性关系也即函数关系,即 Y = f(X) ; Y = (X1, X2, , Xp)或 F(X, Y) = 0; F(X1, X2, , Xp, Y) = 0例:例:价格不变时商品销售收

5、入Y与销售量X的关系。Y = cXX销售收入Y销售量OY 与 X 间的确定性关系 一一. . 变量间的两类关系变量间的两类关系8家庭收入非确定性关系O家庭消费支出 = b0 + b1X2. 2. 非确定性关系非确定性关系 指变量间虽存在着相互影响和相互制约关系,但由于许多无法预计和控制的因素的影响,使变量间的关系呈现不确定性。 即不能由一个或若干变量的值精确地确定另一变量的值。但通过大量观察,可以发现非确定性关系的变量间存在着某种统计规律性称为相关关系相关关系或回归关系回归关系。9 以三口之家为单位,某种食品在某年各月的家庭平均月消费量 Y (kg)与其价格 X (元/kg) 间的调查数据如下

6、,试分析该食品家庭平均月消费量与价格间的关系。价格 xi 4.0 4.0 4.8 5.4 6.0 6.0 7.0 7.2 7.6 8.0 9.0 10 消费量 yi 3.0 3.8 2.6 2.8 2.0 2.9 1.9 2.2 1.9 1.2 1.5 1.6 0123450123456789101112= 0+ 1Xyx【案例案例1 1】商品价格与消费量的关系商品价格与消费量的关系10二二. . 线性回归的数学模型线性回归的数学模型11随机误差项产生的原因随机误差项产生的原因(1) 模型中忽略的其他因素对 Y 的影响;(2) 模型不准确所产生的偏差; (例如,将某种非线性关系误设为线性关系)

7、(3) 模型中包含了对 Y 无显著影响的变量;(4) 对变量的观察误差;(5) 其他随机因素的影响。 (例如,人们的经济行为并不是严格按理性规则行事的,其本身就是一种随机现象) 12线性回归模型的数据结构线性回归模型的数据结构当 X 取不完全相同的值 x1, x2, , xN 时,得到 Y 的一组相应的观察值 y1, y2, , yN 。显然,每一对观察值 (xi, yi) 都应满足(11.1.1)式。 因此一元线性回归模型有如下的数据结构:13例例 解释截距和斜率:一名统计学教授打算运用学生为准备期末考试而学习统计学的小时数(X)预测其期末考试成绩(Y)。依据上学期上课班级中收集的数据建立的

8、回归模型如下: Y = 35 + 3X + 如何解释截距0和斜率1?解解 截距=35.0表示当学生不为期末考试做准备的话,期末考试平均成绩是35.0。斜率=3表示每增加1小时学习时间,期末考试平均成绩就变化+3.0。换句话说,每增加1小时学习时间,期末成绩就增加3.0。 141. 各 i N( 0, 2 ),且相互独立;2. 解释变量是可以精确观察的普通变量(非随机变量);3.解释变量与随机误差项是各自独立对被解释变量产生影响的。4.无多重共线性(即在多元线性回归中,各解释变量的样本数据之间不存在密切的线性相关性)。称满足以上条件的回归模型为经典回归模型经典回归模型。本章仅讨论经典回归模型,它

9、是所有回归分析的基础。但在经济领域中,经济变量间的关系通常是不会完全满足上述条件的。例如家庭消费支出 Y 与家庭收入 X 间的回归模型就不会是同方差的。三三. . 回归模型的经典假设条件回归模型的经典假设条件151. 根据问题的实际背景、专业知识或通过对样本数据的分析,建立描述变量间相关关系的回归模型;2. 利用样本数据估计模型中的未知参数,得到回归方程;3.对所得回归方程和回归系数进行显著性检验; 4. 利用通过检验的回归方程对被解释变量进行预测或控制。 四四. . 回归分析的主要内容和分析步骤回归分析的主要内容和分析步骤1611.2 一元线性回归一元线性回归1718分别是参数 0 和 1

10、的点估计,二二. 回归方程回归方程 1 0 , 10XYYiixy10对每一 xi 值,由回归方程可以确定一个回归值回归系数回归系数。而回归方程的图形就称为回归直线回归直线。称(11.2.2) 式为回归方回归方程。记为 Y 的条件期望 E( Y|X ) 的点估计,则由(11.2.1)式, 有(11.2.2) 并称 1 0 ,为回归方程的并记19),Q(10210)() (iiyy,Q。 1iy 就可求出,0; 00Q, 01Q三三. . 回归模型的参数估计回归模型的参数估计回归模型中的参数估计,采用的是“最小二乘法”,其原理如下:Y 的各观察值 yi 与回归值 之差iiyy反映了 yi 与回归

11、直线之间的偏离程度,从而全部观察值与回归值的残差平方和残差平方和210)(iixy反映了全部观察值与回归直线间总的偏离程度。显然, Q 的值越小,就说明回归直线对所有样本数据的拟和程度越好。所谓最小二乘法最小二乘法,就是要使为最小。只要令 20。 。xy0。yi要找一条直线,使min)(2iiyyiy xi最小二乘法原理示意图最小二乘法原理示意图 21iiiiiiixxyQxyQ0)(20)(21011000112()()()iiiiiyxxxyyxxny02223分别是参数 0 和 1 的最小方差无偏估计。 可以证明,, )(1)(2220 xxxNDi221)()(xxDi10 和 以上两

12、式说明,的方差分别为:2.2.10 和10 和 四四. . 最小二乘估计的性质最小二乘估计的性质在满足经典假设的条件下1 1回归系数的估计精度不仅与 2 及样本容量 N 有关,而且与各 xi 取值的分散程度有关。 在给定样本容量下,xi 的取值越分散,的取值越分散, 则估则估计的方差就越小计的方差就越小,即对参数 0 和 1 的估计就越精确;反之估计的精确就差。了解这一点,对指导试验或抽样调查是非常重要的。 242526通过参数估计得到回归方程后,还需要对回归方程进行检验,以确定变量间是否存在显著的线性关系。对一元线性回归模型,如果变量 Y 与 X 之间并不存在线性相关关系,则模型中的一次项系

13、数 1 应为 0;反之,则 10。故对一元线性回归模型,要检验的原假设为 H0:1 = 0以上检验称为对回归方程的显著性检验,使用的仍然是方差分析方法。Y 的观察值 y1, y2, , yN 之间的差异是由两方面的原因引起的:(1) 解释变量 X 的取值 xi 不同;(2) 其他因素和试验误差的影响。 五五. . 回归方程的显著性检验回归方程的显著性检验27 为检验以上两方面中哪一个对 Y 取值的影响是主要的,就需要将它们各自对 Y 取值的影响,从 yi 总的差异中分解出来。 与方差分析类似地,可以用总的偏差平方和2)(yySiT22) ()(yyyySiiiT来表示全部观察值 yi 间总的差

14、异量。1. 1. 偏差平方和的分解偏差平方和的分解RESS 将 ST 作如下分解:称 SR 为回归平方和回归平方和,它主要是由于变量 X 的取值不同引起的,其大小反映了 X 的对 Y 影响的重要程度。称 SE 为剩余平方和剩余平方和或残差平方和残差平方和,它主要是由随机误差和其他因素的影响所引起的。 28291、判定系数的取值在-11之间2、当|r|=1时,x与y变量为完全线性相关,x与y之间存在存在着确定的函数关系3、当r0,表示x与y为正相关;当r0,表示x与y负相关4、当|r|=0时,表示y的变化与x无关,即x与与完全没有线性相关5、|r|的数值越大,越接近于1,表示x与y直线相关程度越

15、高;反之|r|的数值越小,越接近于0,表示x与y直线相关程度越低。302. 2. 检验检验H H0 0 的统计量的统计量31可以证明,2)(N/SSFER因此,在给定显著性水平 下,若 F F (1, N-2) F(1, N-2) 2. 2. 检验检验H H0 0 的统计量的统计量当 H0 为真时, 统计量就拒绝 H0,并称回归方程是显著的, 可以用回归方程对被解释变量进行预测或控制分析; 反之,则称回归方程无显著意义。 若不能拒绝 H0,则可能有以下原因:(1) Y 和 X 之间不是线性关系;(2) 模型中忽略了对 Y 有重要影响的其他因素;(3) Y 和 X 基本无关; (4) 试验误差过大。32 回归方程的显著性检验过程同样可以列成如下方差分析表: 方差分析表来源 平方和 自由度 均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论