相关与回归分析.ppt_第1页
相关与回归分析.ppt_第2页
相关与回归分析.ppt_第3页
相关与回归分析.ppt_第4页
相关与回归分析.ppt_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章 相关与回归分析,8.1 相关与回归分析的概念 8.2 一元回归分析 8.3 Excel回归分析工具 8.4 多元回归分析,8.1 回归与相关的概念,一、相关关系的概念 二、相关关系的种类 三、回归分析与相关分析,(一)函数关系 (二)相关关系,相关关系表现为现象之间客观存在非确定性的数量对应关系。,一.相关关系的概念,函数关系可以用一个确定的公式,即函数式,来表示。,例2、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系:,相关关系,可用统计模型,二.相关关系的种类:,(一)依相关关系所涉及因素的多少,分为单相关与复相关 (二)依相关关系的表现形式不同,分为线性相关与非线性相关 (三)根据变量之间相互关系的方向,分为正相关和负相关 (四)按照变量之间相互关系的密切程度,可分为完全相关、不完全相关和不相关。,三、相关分析与回归分析,相关分析是用一个指标来表明现象间相互依存关系的密切程度。 回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。 相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。,相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量可以都是随机变量。而回归分析则必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。,相关分析与回归分析之间在研究目的和方法上是有明显区别的,相关分析研究变量之间相关的方向和相关的程度。 回归分析则是研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学表达式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供一个重要的方法。,四、相关图,相关图又称散点图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。,五、简单线性相关分析,(一)相关系数 是在直线相关条件下说明两个变量间相关关系密切程度的统计分析指标。 计算公式为:,自变量的标准差,因变量的标准差,两变量的协方差,(二).计算相关系数的公式:,简捷公式,掌握了平均值资料使用,掌握了平均值及标准差可使用,(三)相关系数的计算,具体计算样本相关系数时,通常利用以下公式:,例: 1992年-2003年我国城镇居民人均年消费性支出和人均年可支配收入的有关资料,试计算消费性支出与可支配收入的样本相关系数。,(四).相关系数的性质,完全线性相关,完全没有线性相关,低度相关,显著相关,高度相关,(五)相关系数的检验,对总体相关系数 是否等于进行检验。 计算相关系数r的t值: 根据给定的显著性水平和自由度(n-2),查找t分布表中相应的临界值t /2。若| t | t /2 ,表明r在统计上是显著的。 若| t | t /2 ,表明r在统计上是不显著的。,假设根据6对样本观测数据计算出某公司的股票价格与气温的样本相关系数r =0.5,试问是否可以根据5的显著水平认为该公司的股票与气温之间存在一定程度的线性相关关系? 解:H0: =0; H0: 0 r的t检验值 查表可知: 显著水平为5%,自由度为的临界值t /2 =2.776 ,上式中的t值小于2.776,因此,r不能通过显著性检验。这就是说,尽管根据样本观测值计算的r达到0.5,但是由于样本单位过少,这一结论并不可靠,它不足以证明该公司的股票与气温之间存在一定程度的线性相关关系。,第八章 相关与回归分析,8.1 相关与回归分析的基本概念 8.2 一元线性回归分析 8.3 多元回归分析,8.2 一元线性回归分析,一 回归分析的概念 二 标准的一元线性回归模型 三、一元线性回归模型的估计 四、一元线性回归模型的检验,一、回归分析的概念,现实世界中大多数现象表现为相关关系,人们通过大量观察,将现象之间的相关关系抽象概括为函数关系,并用函数形式或模型来描述与推断现象间的具体变动关系,用一个或一组变量的变化来估计与推算另一个变量的变化。这种分析方法称为回归分析。,二、标准的一元线性回归模型,(一)总体回归函数 上式被称为总体回归函数。式中的 1和 2是未知的参数,又叫回归系数。Yt和Xt分别是Y和X的第t个观测值。u t是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。,(二)样本回归函数 在现实问题研究中,由于总体单位数一般是很多的,需要利用样本的信息对其进行估计。 一元线性回归模型的样本回归线可表示为: 式中的 是样本回归线上与Xt相对应的Y值,可视为E(Yt)的估计; 是样本回归函数的截距系数, 是样本回归函数的斜率系数,它们是对总体回归系数 1和 2的估计。,实际观测到的因变量Yt值,并不完全等于 ,如果用et表示二者之差( ), 则有: ( t=1,2,.,n) 上式称为样本回归函数。式中et称为残差。,三、一元线性回归模型的估计,(一)回归系数的点估计 所谓最小二乘法就是通过使残差平方和为最小来估计回归系数的一种方法。 将对求偏导数,并令其等于零,可得 加以整理后有,设,以上方程组称为正规方程组或标准方程组,式中的n是 样本容量。求解这一方程组可得:,例: 1992年-2003年我国城镇居民人均年消费性支出和人均年可支配收入的有关资料,估计我国城镇居民的边际消费倾向和基础消费水平。,上表已给出我国历年城镇居民人均消费支出和人均可支配收入的数据,来估计我国城镇居民的边际消费倾向和基础消费水平。 解:Yt= 1+ 2Xt+ut 样本回归方程为: 上式中:0.7511是边际消费倾向,表示人均可支配收入每增加1千元,人均消费支出会增加0.7511千元;0.2310是基本消费水平,即与收入无关最基本的人均消费为0.2310千元。,如果人均可支配收入为8千元时,城镇居民人均消费支出是多少?,代入回归模型得:,(二)预测误差 在实际的回归模型预测中,发生预测误差的原因可以概括为以下四个: 1. 模型本身中的误差因素所造成的误差;这一误差可以用总体随机误差项的方差来评价。 2. 由于回归系数的估计值同其真值不一致所造成的误差;这一误差可以用回归系数的最小二乘估计量的方差来评价。 3. 由于自变量X的设定值同其实际值的偏离所造成的误差。 4. 由于未来时期总体回归系数发生变化所造成的误差。 在以上造成预测误差的原因中,3、4两项不属于回归方程本身的问题,而且也难以事先予以估计和控制。因此,在下面的讨论中,假定只存在1、2、两种误差。,(三)总体方差的估计 数学上可以证明, 2的无偏估计S 2可由下式给出: 式中,分子是残差平方和,分母是自由度,其中n是样本观测值的个数,2是一元线性回归方程中回归系数的个数。 S 2的正平方根又叫做回归估计的标准误差。 一般采用以下公式计算残差平方和: 上式的推导过程如下:,解:根据例7-2中给出的有关数据和例7-4中已得到的回归系数估计值,可得: =232.7719-0.231050.073 0.7511294.4539=0.0407 S 2=0.0407/(12-2)=0.00407 进而有:S=0.0638,根据例7-2中给出的有关数据和例7-4中已得到 的回归系数估计值,计算我国城镇居民消费 函数的总体方差S2和回归估计标准差S。,设Xf给定时的真值为Yf , Yf = 1+ 2 Xf + uf 则有 式中, ef是预测的残差。利用期望值与方差的运算规则以及前面给出的回归系数最小二乘估计量的期望值和方差,可以证明: 在此基础上,还可以进一步证明 是Yf的最优线性无偏预测,即在标准假定能够满足的情况下,公式 是Yf的最佳预测方式。,对于每一个给定的X值,计算相应的Y的置信区间,并将连接各点的曲线描绘在平面图上,便可得到右图。 从置信区间和Sef的计算公式以及右图,可以得到以下结论:,回归预测的置信区间,第一,置信区间的上下限对称地落在样本回归直线两边, 呈中间小两头大的喇叭型。当Xf 时的置信区间最窄,而当Xf远离 时,其置信间逐渐增大。这就是说,在用回归模型进行预测时,Xf的取值不宜离开 过远,否则预测精度将会降低,有可能使预测失效。 第二,在样本容量n保持不变时, 的值,随置信度(1- )的提高而增加,因此,要求预测值的概率保证程度增加,在其它条件不变时,也就意味着预测精度的降低。 第三,当其它条件不变时, 和Sef的值均为样本容量n的减函数,即随着n的增加,这二者将逐渐减少。这说明随着样本容量的增加,预测精度将会提高,而样本容量过小,预测的精度就较差。,第四,当n足够大时,Sef会趋近于S; 会趋近于z /2。( z /2是置信度为(1- )的标准正态分布的临界值)。 这时,可以用S和z /2取代Sef和zt /2来确定预测区间。即样本容量充分大时,Yf的(1- )的置信区间为: Yf z /2 S 按上式确定的预测区间的上、下限在平面图上呈两条直线(参见图“回归预测的置信区间”中与样本回归线平行的两条虚线)。,(四)一元线性回归区间预测 若用Sef来表示预测标准误差的估计值, 则数学上可以证明: 服从于自由度为(n-2)的t分布。按照确定置信区间的方法,可以得出Yf的(1- )的置信区间为: 式中, 是置信度为(1- ) 、自由度为(n-2)的t分布的临界值。,假定已知某居民家庭的年人均可支配收入为8千元,要求利用例7-4中拟合的样本回归方程与有关数据,计算置信度为95的年人均消费支出的预测区间。 解:将有关数据代入拟合好的样本回归方程,可得: 从前面几例的结果可知:S = 0.0638, n=12 将其代入求预测标准误差估计值的公式,有,查t分布表可知:显著水平为5,自由度为10的双侧t检验的临界值是2.228。因此,当人均可支配收入为8千元时,置信度为95 的消费支出的预测区间如下: 6.23982.2280.0717 Yf 6.23982.2280.0717 6.0801 (千元) Yf 6.3995(千元),四、一元线性回归模型的检验,(一)拟合程度的评价,总离差平方和的分解 对任一实际观测值Yt总有: 对上式两边取平方并求和,得到: 可以证明: 从而有: 即 SST=SSR+SSE,上式中,SST是总离差平方和;SSR是由回归直线可以解释的那一部分离差平方和,称为回归平方和;SSE是用回归直线无法解释的离差平方和,称为残差平方和。式子两边同除以SST,得: 显而易见,各个样本观测点与样本回归直线靠得越紧,SSR在SST中所占的比例就越大。因此,可定义这一比例为决定系数,即有: 决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差。,决定系数r 2具有如下特性:,1. 决定系数r2具有非负性。 由决定系数的定义式可知, r 2的分子分母均是不可能为负值的平方和,因此其比值必大于零。(但是在回归模型中不包括截距项的场合, 由于总离差平方和的分解公式不成立,按该式计算的r2有可能小于。 ) 2. 决定系数的取值范围为0 r 2 1。 3. 决定系数是样本观测值的函数,它也是一个统计量。 4. 在一元线性回归模型中,决定系数是单相关系数的平方。,利用例7-5中计算的残差平方和,计算例7-3所拟合的样本回归方程的决定系数。 解: 上式中的SST是利用表7-1中给出的数据按下式计算的:,(三)回归系数的显著性检验 所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。 下面我们以 2的检验为例,介绍回归系数显著性检验的基本步骤:,1. t检验 (1)提出假设。对回归系数进行显著性检验,所提出的假设的一般形式是: 式中,H0表示原假设; H1表示备择假设; 是假设的总体回归系数的真值。在许多回归分析的计算机程序里,常常令 0。这是因为 2 是否为0,可以表明X对Y是否有显著的影响。 (2)确定显著水平 。显著水平的大小应根据犯哪一类错误可能带来损失的大小确定。一般情况下可取0.05。 (3)计算回归系数的t值。,(4)确定临界值。 t检验的临界值是由显著水平和自由度决定的。 这时应该注意,原假设和备择假设设定的方式不同,据以判断的接受域和拒绝域也不相同。例如对H0: 2=0,H1: 2 0,进行的是双侧t检验;而对H0: 2=0.9,H1: 2 0.9,进行的是单侧t检验。对此,在双侧检验的场合,依据和df,查t分布表所确定的临界值是(-t /2)和( t /2 );而在单侧检验的场合,所确定的临界值是( t )。 (5)做出判断。 如果 的绝对值大于临界值的绝对值,就拒绝原假设,接受备择假设;反之,如果 的绝对值小于临界值的绝对值,则接受原假设。,2p检验 回归系数的显著性检验还可以采用p检验。其前三步与t检验相同,但t值计算出来之后,并不与t分布的临界值进行对比,而是直接计算自由度为n-2的t统计量大于或小于根据样本观测值计算的 的概率即p值。然后将其与给定的显著水平对比,如果p小于 ,则拒绝原假设,反之则接受原假设。利用Excel进行回归分析时,计算机将直接给出回归系数估计的p值。,例7-8,利用例7-4和例7-6的有关资料和结果,对例7-4中估计的我国城镇居民边际消费倾向进行显著性检验。 (1)以5的显著水平检验可支配收入是否对消费支出有显著影响。 (2)对H0: 2=0.8, H1: 2 0.8进行检验。,解: (1)首先,提出假设H0: 2=0, H1: 2 0。 其次,计算t值 0.7511/0.009876.6429 查t分布表可知:显著水平为5,自由度为10的双侧t检验的临界值是2.228。以上计算的t值远远大于此临界值,所以拒绝原假设,接受备择假设,即认为可支配收入对消费支出的影响是非常显著的。 (2) (0.7511-0.8)/0.0098-4.9898 查t分布表可知:显著水平为5,自由度为10的单侧t检验的临界值是1.812。因为计算的t值的绝对值大于此临界值,所以否定 2=0.8的原假设,接受备择假设,认为我国城镇居民的平均消费倾向小于0.8。,谢谢!,Thank you very much!,(四) 回归分析的主要内容,回归参数估计 方程拟合效果评价 回归参数的推断,上一页,下一页,1.回归参数估计,例如,第十一章 回归分析与相关分析,(一元线性回归模型),上一页,下一页,(相应的回归方程),(应用最小平方法估计回归模型中的参数),返回本节首页,用最小平方法 求解参数 a、b ,有,直线回归方程:,2.方程拟合效果评价,任何一组数据都可以拟合一个回归模型,但这个回归模型并不一定可以用于推断,所以还需要对所拟合的方程进行评价。人们通常使用相关系数描述现象间关系的密切程度,使用估计标准误差来描述方程拟合的程度,使用方差分析评价方程回归的效果。,第十一章 回归分析与相关分析,上一页,下一页,返回本节首页,3.回归参数的推断,总体的模型往往只是一种理论假设,还需要利用统计推断原理对其进行参数估计与假设检验。,11.2一元回归分析,一元回归分析包括一元线性回归分析,即直线回归分析,也包括一元非线性回归分析。由于一元线性回归分析所研究的两个变量之间相关形式简单,方法易于掌握,又是多元回归和非线性回归分析的基础,所以首先介绍一元线性回归分析的理论和方法。,上一页,下一页,返回本章首页,11.2一元回归分析,11.2.1 利用图表进行回归分析 11.2.2 回归方程的评价 11.2.3 Excel中的回归分析工作表函数 11.2.4 利用工作表函数进行回归分析,上一页,下一页,返回本章首页,11.2.1 利用图表进行回归分析,例 近年来国家教育部决定将各高校的后勤社会化。某从事饮食业的企业家认为这是一个很好的投资机会,他得到十组高校人数与周边饭店的季度销售额的数据资料,并想根据高校的数据决策其投资规模。,上一页,下一页,返回本节首页,操作过程:,上一页,下一页,返回本节首页,打开“第11章 简单线性回归.xls”工作簿,选择“饭店” 工作表,如下图所示。,从“插入”菜单中选择“图表”选项,打开“图表向导”对话框如下图所示。在“图表类型”列表中选择XY散点图,单击“下一步”按钮。,上一页,下一页,返回本节首页,在数据区域中输入B2:C11,选择“系列产生在列”,如下图所示,单击“下一步”按钮。,上一页,下一页,返回本节首页,打开“图例”页面,取消图例,省略标题,如下图所示。,上一页,下一页,返回本节首页,单击“完成”按钮,便得到XY散点图如下图所示。,上一页,下一页,返回本节首页,如图1所示,用鼠标激活散点图,把鼠标放在任一数据点上,单击鼠标右键,打开菜单,在菜单栏里选择“填加趋势线”选项,打开趋势线对话框如图2所示。,图1,上一页,下一页,返回本节首页,图2,上一页,下一页,返回本节首页,打开“类型”页面,选择“线性”选项,Excel将显示一条拟合数据点的直线。 打开“选项”页面如图3所示,在对话框下部选择“显示公式”和“显示R平方根”选项,单击“确定”按钮,便得到趋势回归图如图4所示。,图3,上一页,下一页,返回本节首页,图4,上一页,下一页,返回本节首页,(一)离差平方和的分解,第十一章 回归分析与相关分析,观察值y值的波动性表现在两个方面:,11.2.2 回归方程的评价,(1) y的取值围绕其平均数,做上下波动,这种波动,与自变量x的变动无关;,(2) y的取值围绕回归直线,做上下波动。,上一页,下一页,第十一章 回归分析与相关分析,(一)离差平方和的分解,(1) 自变量x的变动;,(2)其它因素。,离差平方和的分解,这种波动的原因可以归结为两个影响因素:,上一页,下一页,第十一章 回归分析与相关分析,(一)离差平方和的分解,上一页,下一页,但是,11.2.2 Excel中的回归分析 工作表函数,截距函数INTERCEPT 功能:利用已知的 x 值与 y 值计算回归直线在y 轴的截距。 语法结构: INTERCEPT(known_ys,known_xs) 斜率函数SLOPE 功能:返回根据 known_ys 和 known_xs 中的数据点拟合的线性回归直线的斜率。 语法结构:SLOPE(known_ys,known_xs),上一页,下一页,返回本节首页,判定系数函数RSQ 功能:返回根据 known_ys 和 known_xs 中数 据点 计算得出的 Pearson积矩法相关系数的平方。 语法结构:RSQ(known_ys,known_xs) 估计标准误差函数STEYX 功能:返回通过线性回归法计算 y 预测值时所产生 的标准误差。标准误差用来度量根据单个 x 变量计算出的 y 预测值的误差量。 语法结构:STEYX(known_ys,known_xs),上一页,下一页,返回本节首页,11.2.3 利用工作表函数进行 回归分析,例 某企业希望确定其产品制造过程中的每月成本支出与产量之间的关系,以制定生产计划。试根据该企业选择历年的产量(吨)和成本支出(千元)的样本,计算上面四个函数值。,上一页,下一页,操作过程:,打开“第11章 简单线性回归.xls”工作簿,选择“成本产量”工作表,如下图所示。,上一页,下一页,在单元格A19、A20、A21和A22中分别输入“截距b0”、“斜率b1”、“估计标准误差”和“判定系数” 。 在单元格B19中输入公式:“=INTERCEPT(C2:C15,B2:B15)” ,单击回车键。 在单元格B20中输入公式: “=SLOPE(C2:C15,B2:B15)”,单击回车键。 在单元格B21中输入公式: “=STEYX(C2:C15,B2:B15)”,单击回车键。 在单元格B22中输入公式: “=RSQ(C2:C15,B2:B15)”,单击回车键。,上一页,下一页,根据上述计算结果,得每月成本支出与产量之间的回归方程:,该方程表明,每月产量每增加1吨,成本支出平均增加2940元。,通过计算估计标准误差,知道实际成本与趋势值成本的平均离差为2.3688元。而判定系数告诉我们,在成本的总的变异中,其中,93.44%是可以用产量的变化来解释的。,上一页,下一页,返回本节首页,11.3 Excel 回归分析工具,11.3.1 回归分析工具的主要内容 11.3.2 回归分析工具的应用 11.3.3 回归分析工具的输出解释,上一页,下一页,返回本章首页,11.3.1 回归分析工具的主要内容,回归分析工具是通过对一组观察值使用“最小平方法”进行直线拟合,以分析一个或几个自变量对单个因变量的影响方向与影响程度的方法。它是Excel中数据分析工具的一个内容。回归分析的对话框如图5所示 。,上一页,下一页,返回本节首页,图5,上一页,下一页,返回本节首页,11.3.2 回归分析工具的应用,例 某房地产经纪人从政府部门列举的地区中随机抽取了15户居民作为样本, 记录了他们的家庭住房面积及其相应的价格,他想确认一下住房面积(平方米)与价格(千元)的关系,并想据此拟合住房价格的回归方程。,上一页,下一页,返回本节首页,操作过程:,打开“第10章 简单线性回归.xls”工作簿,选择“住房”工作表如下图所示。,上一页,下一页,返回本节首页,在“工具”菜单中选择“数据分析”选项,打开“数据分析”对话框如下图所示。,上一页,下一页,返回本节首页,在“分析工具”列表中选择“回归”选项,单击“确定”按钮,打开“回归”对话框如下图所示。,上一页,下一页,返回本节首页,在Y值输入区域中输入C1:C16。 在X值输入区域中输入B1:B16。 选择“标志”,置信度选择95%。 在“输出选项”中选择“输出区域”,在其右边的位置输入“D1”,单击 “确定”按钮。输出结果如下图所示。,上一页,下一页,返回本节首页,Excel的回归分析工具计算简便,但内容丰富, 计算结果共分为三个模块: 回归统计表 方差分析表 回归参数,11.3.3 回归分析工具的 输出解释,上一页,下一页,返回本节首页,回归统计表包括以下几部分内容: Multiple R(复相关系数R):R2的平方根,又称为相关系数,它用来衡量变量x和y之间相关程度的大小。 上节例中:R为0.848466,表示二者之间的关系是高度正相关。 R Square(复测定系数R2 ):用来说明用自变量解释因变量变差的程度,以测量同因变量y的拟合效果。 上节例中:复测定系数为0.719894,表明用自变量可解释因变量变差的71.99%。,1. 回归统计表,上一页,下一页,返回本节首页,Adjusted R Square (调整复测定系数R2):仅用于多元回归才有意义,它用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论