第九章-相关与回归分析_第1页
第九章-相关与回归分析_第2页
第九章-相关与回归分析_第3页
第九章-相关与回归分析_第4页
第九章-相关与回归分析_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章相关与回归分析第九章相关与回归分析PAGE1/PAGE116第九章相关与回归分析第九章相关与回归分析Ⅰ.学习目的和要求本章所要学习的相关与回归分析是经济统计分析中最常重要的统计方法之一。具体要求:1.掌握有关相关与回归分析的基本概念;2.掌握单相关系数的计算与检验的方法,理解标准的一元线性回归模型,能够对模型进行估计和检验并利用模型进行预测;3.理解标准的多元线性回归模型,掌握估计、检验的基本方法和预测的基本公式,理解复相关系数和偏相关系数及其与单相关系数的区别;4.了解常用的非线性函数的特点,掌握常用的非线性函数线性变换与估计方法,理解相关指数的意义;5.能够应用Excel软件进行相关与回归分析。Ⅱ.课程内容要点第一节相关与回归分析的基本概念一、函数关系与相关关系当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,这种关系称为确定性的函数关系。当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但仍按某种规律在一定的范围内变化。这种关系,称为具有不确定性的相关关系。变量之间的函数关系和相关关系,在一定条件下是可以互相转化的。二、相关关系的种类按相关的程度可分为完全相关、不完全相关和不相关。按相关的方向可分为正相关和负相关。按相关的形式可分为线性相关和非线性相关。按所研究的变量多少可分为单相关、复相关和偏相关。三、相关分析与回归分析相关分析是用一个指标来表明现象间相互依存关系的密切程度。回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。通过相关与回归分析虽然可以从数量上反映现象之间的联系形式及其密切程度,但是无法准确地判断现象内在联系的有无,也无法单独以此来确定何种现象为因,何种现象为果。只有以实质性科学理论为指导,并结合实际经验进行分析研究,才能正确判断事物的内在联系和因果关系。四、相关图相关图又称散点图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。第二节简单线性相关与回归分析一、相关系数及其检验(一)相关系数的定义总体相关系数的定义式是:γ=样本相关系数的定义公式是:样本相关系数是总体相关系数的一致估计量。(二)相关系数的特点1.r的取值介于-1与1之间。2.当r=0时,X与Y的样本观测值之间没有线性关系。3.在大多数情况下,0<|r|<1,即X与Y的样本观测值之间存在着一定的线性关系,当r>0时,X与Y为正相关,当r<0时,X与Y为负相关。4.如果|r|=1,则表明X与Y完全线性相关,当r=1时,称为完全正相关,而r=-1时,称为完全负相关。5.r是对变量之间线性相关关系的度量。r=0只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不存在其他类型的关系。(三)相关系数的计算公式:(四)相关系数的检验对总体相关系数是否等于0进行检验:首先,计算相关系数r的t值:t=其次,根据给定的显著性水平和自由度(n-2),查找t分布表中相应的临界值tα/2。若|t|≥tα/2,表明r在统计上是显著的。若|t|≤tα/2,表明r在统计上是不显著的。二、标准的一元线性回归模型(一)总体回归函数Yt=β1+β2Xt+ut 式中的β1和β2是未知的参数,又叫回归系数。Yt和Xt分别是Y和X的第t个观测值。ut是随机误差项。(二)样本回归函数 (t=1,2,...n)(7.9)式中et称为残差,在概念上,et与总体误差项ut相互对应;n是样本的容量。样本回归函数与总体回归函数之间的区别。1.总体回归线是未知的,它只有一条。而样本回归线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。2.总体回归函数中的β1和β2是未知的参数,表现为常数。而样本回归函数中的和是随机变量。3.总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。(三)误差项的标准假定假定1:误差项的期望值为0,即E(ut)=0;假定2:误差项的方差为常数,即Var(ut)=E()=假定3:误差项之间不存在序列相关关系,其协方差为零,即当t≠s时有:Cov(utus)=E(utus)=0假定4:自变量是给定的变量,与随机误差项线性无关。假定5:随机误差项服从正态分布。满足以上标准假定的一元线性模型,称为标准的一元线性回归模型。三、一元线性回归模型的估计(一)回归系数的点估计最小二乘法是通过使残差平方和为最小来估计回归系数的一种方法。利用最小二乘法可得正规方程组:求解这一方程组可得:(二)总体方差的估计σ2的无偏估计S2=式中,分子是残差平方和;分母是自由度,其中n是样本观测值的个数,2是一元线性回归方程中回归系数的个数。S2的正平方根又叫做回归估计的标准误差。一般采用以下公式计算残差平方和:(三)最小二乘估计量的性质高斯.马尔可夫定理:回归系数的最小二乘估计量是最优线性无偏估计量和一致估计量。这一定理表明,在标准的假定条件下,最小二乘估计量是一种最佳的估计方式。但是这并不意味着根据这一方式计算的每一个具体的估计值都比根据其他方式计算的具体估计值更接近真值,而只是表明如果反复多次进行估计值计算或是扩大样本的容量进行估计值计算,按最佳估计方式计算的估计值接近真值的可能性(概率)最大。(四)回归系数的区间估计回归系数区间估计的公式:±tα/2(n-2)×(j=1,2)式中,是回归系数估计的样本标准误差,tα/2(n-2)是显著水平为α,自由度为(n-2)的t分布双侧临界值。=S=三、一元线性回归模型的检验(一)回归模型检验的种类理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。一级检验是对所有现象进行回归分析时都必须通过的检验。二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验。(二)拟合程度的评价拟合程度是指样本观测值聚集在样本回归方程周围的紧密程度。判断回归模型拟合程度优劣最常用的数量尺度是样本决定系数。r2==1-决定系数r2具有如下特性:1.r2具有非负性。2.决定系数的取值范围为0≤r2≤1。3.决定系数是样本观测值的函数,它也是一个统计量。4.在一元线性回归模型中,决定系数是单相关系数的平方。(三)显著性检验回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。回归系数显著性检验的基本步骤:1.t检验(1)提出假设。Ho:β2=,H1:β2≠在许多回归分析的计算机程序里,常常令=0。这是因为β2是否为0,可以表明X对Y是否有显著的影响。(2)确定显著水平α。显著水平的大小应根据犯哪一类错误可能带来损失的大小确定。(3)计算回归系数的t值。=(4)确定临界值。t检验的临界值是由显著水平和自由度df决定的。这时应该注意,原假设和备择假设设定的方式不同,据以判断的接受域和拒绝域也不相同。(5)做出判断。如果的绝对值大于临界值的绝对值,就拒绝原假设,接受备择假设;反之,如果的绝对值小于临界值的绝对值,表明没有充分理由拒绝原假设。2.p检验前三步与t检验相同,但t值计算出来之后,并不与t分布的临界值进行对比,而是直接计算自由度为n-2的t统计量大于或小于根据样本观测值计算的的概率即p值。然后将其与给定的显著水平对比,如果p小于α,则拒绝原假设,反之则接受原假设。利用Excel进行回归分析时,计算机将直接给出回归系数估计的p值。四、一元线性回归模型预测(一)回归预测的基本公式=+Xf式中,Xf是给定的X的具体数值;是Xf给定时Y的预测值;和是已估计出的样本回归系数。回归预测是一种有条件的预测,在进行回归预测时,必须先给出Xf的具体数值。当给出的Xf属于样本内的数值时,利用该式去计算称为内插检验或事后预测。而当给出的Xf在样本之外时,利用该式去计算称为外推预测或事前预测。(二)预测误差在实际的回归模型预测中,发生预测误差的原因可以概括为以下四个:1.模型本身中的误差因素所造成的误差;2.由于回归系数的估计值同其真值不一致所造成的误差;3.由于自变量X的设定值同其实际值的偏离所造成的误差。4.由于未来时期总体回归系数发生变化所造成的误差。E(ef)=0Var(ef)=σ2(三)区间预测Yf的(1-α)的置信区间为:Yf±tα/2(n-2)×Sef式中,Sef=S,tα/2(n-2)是置信度为(1-α)、自由度为(n-2)的t分布的临界值。第三节多元线性相关与回归分析一、标准的多元线性回归模型研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析.多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似。多元线性回归模型总体回归函数的一般形式:多元线性回归模型的样本回归函数:;(t=1,2,…,n)式中,et是Yt与其估计之间的离差,即残差。多元线性回归分析的标准假定除了包括上一节中已经提出的的假定外,还要追加一条假定:回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即n>k。二、多元线性回归模型的估计(一)回归系数的估计多元线性回归模型中回归系数的估计同样采用最小二乘法。总体回归函数的矩阵形式:Y=XB+U样本回归函数矩阵形式:Y=X+e回归系数最小二乘估计的矩阵形式:=(X'X)-1X'Y(二)总体方差的估计S2=(三)最小二乘估计量的性质在标准的多元线性回归模型中,高斯.马尔可夫定理同样成立。三、多元线性回归模型的检验和预测(一)拟合程度的评价在多元回归分析中常用的评价指标是修正自由度的决定系数。=1-=1-(1-R2)修正自由度的决定系数具有以下特点:1.≤R2;2.小于1,但未必都大于0。在拟合极差的场合,有可能取负值。(二)显著性检验1.回归系数的显著性检验多元模型中回归系数的检验同样采用t检验,其原理和基本步骤与一元回归模型中的t检验基本相同。回归系数显著性检验t统计量的一般公式:t=j=1,2,…,k式中,是回归系数的估计值,S是的标准差的估计值。S=式中,是(X'X)-1的第j个对角线元素,S2是误差项方差的估计值。2.回归方程的显著性检验(1)假设总体回归方程不显著,即有H0:β2=β3=……=βk=0(2)进行方差分析,列出回归方差分析表回归模型方差分析表离差名称平方和自由度方差回归平方和SSR=k-1SSR/(k-1)残差平方和SSE=n-kSSE/(n-k)总离差平方和SST=(3)根据方差分析的结果求F统计量F=(4)根据自由度和给定的显著性水平α,查F分布表中的理论临界值Fα。当F>Fα时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关系显著。当F<Fα时,不能拒绝原假设,即认为没有充分证据表明自变量与因变量存在显著线性关系,因而所建立的回归模型没有意义。(三)多元线性回归预测基本公式:该方程的矩阵形式为:多元线性回归预测标准误差的计算公式:多元线性回归预测Yf的(1-α)的置信区间:Yf±tα/2×四、复相关系数和偏相关系数(一)复相关系数样本复相关系数:R=复相关系数反映一个变量Y与其他多个变量X2,X3,……,XK之间线性相关程度的指标,而不能反映其相互之间线性相关的方向。复相关系数的取值区间为:0≤R≤1。(二)偏相关系数在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度和相关方向的指标称为偏相关系数。偏相关系数等于两个相应的偏回归系数的几何平均数。第四节非线性相关与回归分析一、非线性回归分析的意义在许多场合,非线性的回归函数比线性回归函数更能够正确地反映客观现象之间的相互联系。非线性回归分析必须着重解决两个问题:第一、如何确定非线性函数的具体形式;第二、如何估计函数中的参数。二、非线性函数形式的确定选择回归方程的原则:1.方程形式应与有关实质性科学的基本理论相一致。2.方程有较高的拟合程度。3.方程的数学形式要尽可能简单。(一)抛物线函数:Y=a+bX+cX2(二)双曲线函数:Y=a+b(1/X)(三)幂函数:(四)指数函数:Y=abx(五)对数函数:Y=a+blnX(六)逻辑曲线:Y=(L,a,b>0)(七)多项式方程当因变量与自变量之间的确实关系未知时,可以用适当幂次的多项式来近似反映。当所涉及的自变量只有一个时,所采用的多项式方程称为一元多项式,其一般形式为:三、非线性回归模型估计不少具有实用价值的非线性函数,可以通过适当的变换,转化为线性函数,然后再利用线性回归分析的方法进行估计和检验。常用的非线性函数的线性变换方法有以下几种:(一)倒数变换;(二)半对数变换;(三)双对数变换;(四)多项式变换。实际应用线性变换法时要注意:1.对于一些比较复杂的非线性函数,常常需要综合利用上述的几种方法;2.通过变换得到的线性回归方程中的所有变量都不允许包含未知的参数;3.并不是所有的非线性函数都可以通过变换得到与原方程完全等价的线性方程。四、相关指数相关指数是对非线性回归模型进行拟合时所得到的决定系数。相关指数可作为判断变量之间是否显著存在某种类型的非线性相关关系的尺度。Ⅲ.考核知识点与考核要求一、相关与回归分析的基本概念(一)识记:1.函数关系和相关关系;2.相关关系的种类;3.相关分析与回归分析的定义。(二)领会:相关分析与回归分析的关系,相关分析与回归分析的作用。(三)应用:能根据有关数据绘制相关图(手工与利用EXCEL).二、简单线性相关与回归分析(一)识记:1.样本相关系数的定义和计算公式;2.误差项的标准假定;3.高斯.马尔可夫定理;4.回归系数最小二乘估计量的计算公式、随机误差项方差估计量的计算公式;5.模型检验的种类;6.决定系数的意义及其计算公式;7.回归预测的基本公式;8.预测误差的种类。(二)领会:1.相关系数的特点;2.样本回归函数与总体回归函数之间的区别;3.高斯.马尔可夫定理的意义;4.区间预测置信区间的特点及含义。(三)应用:1.相关系数的检验;2.简单线性回归模型的估计(点估计和区间估计)、检验和预测;(包括利用EXCEL计算与利用中间结果手工计算)三、多元线性相关与回归分析(一)识记:1.标准的多元线性回归模型的一般形式与追加的假定;2.回归系数最小二乘估计的矩阵形式;3.总体方差的估计公式;4.修正自由度的决定系数的计算;5.回归系数显著性检验的t统计量和回归方程显著性检验的F统计量;6.复相关系数和偏相关系数的概念;(二)领会:1.修正自由度的决定系数的作用;2.复相关系数和偏相关系数的作用。(三)应用:利用EXCEL进行多元回归分析(包括估计、检验和预测),正确解释计算机输出的结果。四、非线性相关与回归分析(一)识记:1.几种常用的非线性函数的形式及其特点;2.相关指数的概念及其作用。(二)领会:选择回归方程形式的原则。(三)应用:1.能根据所要研究的问题和数据的特点选择合适的非线性模型;2.综合应用各种线性变换方法对常用非线性模型进行线性变换;3.利用EXCEL进行非线性回归分析。Ⅳ.习题详解一、选择题1.(A、B、D)2.(B、C、D)3.(A、C)4.(A、B、D)。5.(A、B、D)。二、判断分析题1.×2.√3.√4.√5.√6.×7.√8.√三、证明题1.证:教材中已经证明是线性无偏估计量。此处只要证明它在线形无偏估计量中具有最小方差。设为的任意线性无偏估计量。也即,作为的任意线性无偏估计量,必须满足下列约束条件:;且又因为,所以:注意:以上式中,利用有关约束条件,所以有:=0由于是常数,所以只能通过的处理使最小化。明显,只有当时,才可以取最小值,即:所以,是标准一元线性回归模型中总体回归系数的最优线性无偏估计量。四、计算题1.解:(1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论