第十一相关与回归分析演示文稿

上传人：1*** IP属地：广东上传时间：2023-04-03 格式：PPT 页数：70 大小：2.94MB 积分：15 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第十一相关与回归分析演示文稿现在是1页\一共有70页\编辑于星期五（优选）第十一相关与回归分析现在是2页\一共有70页\编辑于星期五第一节相关与回归分析的基本概念一、函数关系与相关关系二、相关关系的种类三、相关分析与回归分析四、相关图现在是3页\一共有70页\编辑于星期五一、函数关系与相关关系当一个或几个变量取一定的值时，另一个变量有确定值与之相对应，我们称这种关系为确定性的函数关系。例如，商品的销售收入Ｙ与该商品的销售量Ｘ以及该商品价格Ｐ之间的关系。当一个或几个相互联系的变量取一定数值时，与之相对应的另一变量的值虽然不确定，但它仍按某种规律在一定的范围内变化。变量间的这种相互关系，称为具有不确定性的相关关系。例如，劳动生产率与工资水平的关系。现在是4页\一共有70页\编辑于星期五变量之间的函数关系和相关关系，在一定条件下是可以互相转化的。本来具有函数关系的变量，当存在观测误差时，其函数关系往往以相关的形式表现出来。而具有相关关系的变量之间的联系，如果我们对它们有了深刻的规律性认识，并且能够把影响因变量变动的因素全部纳入方程，这时的相关关系也可能转化为函数关系。现在是5页\一共有70页\编辑于星期五相关关系也具有某种变动规律性，所以，相关关系经常可以用一定的函数形式去近似地描述。客观现象的函数关系可以用数学分析的方法去研究，而研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法。现在是6页\一共有70页\编辑于星期五二、相关关系的种类

按相关的程度可分为完全相关、不完全相关和不相关。当一种现象的数量变化完全由另一个现象的数量变化所确定时，称这两种现象间的关系为完全相关。在这种场合，相关关系便成为函数关系。因此也可以说函数关系是相关关系的一个特例。当两个现象彼此互不影响，其数量变化各自独立时，称为不相关现象。两个现象之间的关系介于完全相关和不相关之间，称为不完全相关，一般的相关现象都是指这种不完全相关。现在是7页\一共有70页\编辑于星期五按相关的方向可分为正相关和负相关。当一个现象的数量增加（或减少），另一个现象的数量也随之增加（或减少）时，称为正相关。例如，消费水平随收入的增加而提高。当一个现象的数量增加（或减少），而另一个现象的数量向相反方向变动时，称为负相关。例如商品流转的规模愈大，流通费用水平则愈低。现在是8页\一共有70页\编辑于星期五按相关的形式可分为线性相关和非线性相关。按所研究的变量多少可分为单相关、复相关和偏相关。两个变量之间的相关，称为单相关。当所研究的是一个变量对两个或两个以上其他变量的相关关系时，称为复相关。在某一现象与多种现象相关的场合，假定其他变量不变，专门考察其中两个变量的相关关系称为偏相关。例如，在假定人们的收入水平不变的条件下，某种商品的需求与其价格水平的关系就是一种偏相关。现在是9页\一共有70页\编辑于星期五三、相关分析与回归分析

相关分析是用一个指标来表明现象间相互依存关系的密切程度。回归分析是根据相关关系的具体形态，选择一个合适的数学模型，来近似地表达变量间的平均变化关系。相关分析和回归分析有着密切的联系，它们不仅具有共同的研究对象，而且在具体应用时，常常必须互相补充。现在是10页\一共有70页\编辑于星期五相关分析与回归分析的区别相关分析研究变量之间相关的方向和相关的程度。回归分析则是研究变量之间相互关系的具体形式，确定一个相关的数学表达式，根据这个数学方程式可以从已知量来推测未知量，从而为估算和预测提供一个重要的方法。相关分析不能指出变量间相互关系的具体形式，也无法从一个变量的变化来推测另一个变量的变化情况。其所涉及的变量可以都是随机变量。而回归分析则必须事先研究确定具有相关关系的变量中哪个为自变量，哪个为因变量。一般地说，回归分析中因变量是随机的，而把自变量作为研究时给定的非随机变量。现在是11页\一共有70页\编辑于星期五【例11-1】教堂数与监狱服刑人数同步增长美国印第安纳州的地区教会想要筹款兴建新教堂，提出教堂能洁净人们的心灵，减少犯罪，降低监狱服刑人数的口号。为了增进民众参与的热诚和信心，教会的神父收集了近１５年的教堂数与在监狱服刑的人数进行统计分析。结果却令教会大吃一惊。最近１５年教堂数与监狱服刑人数呈显著的正相关。那么是否可以由此得出，教堂建得越多，就可能带来更多的犯罪呢？经过统计学家和教会神父深入讨论，并进一步收集近１５年的当地人口变动资料和犯罪率等资料作进一步分析，发现监狱服刑人数的增加和教堂数的增加都与人口的增加有关。教堂数的增加并非监狱服刑人数增加的原因。至此，教会人士总算松了一口气。现在是12页\一共有70页\编辑于星期五四、相关图

相关图又称散点图。它是以直角坐标系的横轴代表变量X，纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来，用来反映两变量之间相关关系的图形。

现在是13页\一共有70页\编辑于星期五第二节简单线性相关与回归分析

一、相关系数及其检验二、标准的一元线性回归模型三、一元线性回归模型的估计四、一元线性回归模型的检验五、一元线性回归模型预测现在是14页\一共有70页\编辑于星期五一、相关系数及其检验（一）相关系数的定义总体相关系数的定义式是总体相关系数是反映两变量之间线性相关程度的一种特征值，表现为一个常数。样本相关系数的定义公式是上式中，和分别是Ｘ和Ｙ的样本平均数。样本相关系数是根据样本观测值计算的，抽取的样本不同，其具体的数值也会有所差异。样本相关系数是总体相关系数的一致估计量。现在是15页\一共有70页\编辑于星期五（二）相关系数的特点r的取值介于-1与1之间。当r=0时，Ｘ与Ｙ的样本观测值之间没有线性关系。在大多数情况下，0<｜r｜<0，即Ｘ与Ｙ的样本观测值之间存在着一定的线性关系，当r>0时，Ｘ与Ｙ为正相关，当r<0时，Ｘ与Ｙ为负相关。如果｜r｜=1，则表明Ｘ与Ｙ完全线性相关，当r=1时，称为完全正相关，而ｒ＝-1时，称为完全负相关。ｒ是对变量之间线性相关关系的度量。r=0只是表明两个变量之间不存在线性关系，它并不意味着Ｘ与Ｙ之间不存在其他类型的关系。现在是16页\一共有70页\编辑于星期五（三）相关系数的计算

具体计算样本相关系数时,通常利用以下公式：现在是17页\一共有70页\编辑于星期五【例11-2】表11-1是

1992年-2003年我国城镇居民人均年消费性支出和人均年可支配收入的有关资料，试计算消费性支出与可支配收入的样本相关系数。现在是18页\一共有70页\编辑于星期五（四）相关系数的检验对总体相关系数是否等于０进行检验。计算相关系数r的ｔ值：根据给定的显著性水平和自由度（n-2），查找ｔ分布表中相应的临界值tα/2。若｜t｜≥tα/2，表明ｒ在统计上是显著的。若｜t｜≤tα/2，表明ｒ在统计上是不显著的。现在是19页\一共有70页\编辑于星期五【例11-3】假设根据６对样本观测数据计算出某公司的股票价格与气温的样本相关系数r=0.5，试问是否可以根据５％的显著水平认为该公司的股票与气温之间存在一定程度的线性相关关系?解：Ｈ0：ρ＝０；Ｈ1：ρ≠０

ｒ的ｔ检验值

查表可知：tα/2=2.776,上式中的t值小于2.776，因此，ｒ不能通过显著性检验。这就是说，尽管根据样本观测值计算的ｒ达到0.5，但是由于样本单位过少，这一结论并不可靠，它不足以证明该公司的股票与气温之间存在一定程度的线性相关关系。现在是20页\一共有70页\编辑于星期五二、标准的一元线性回归模型

(一)总体回归函数上式被称为总体回归函数。式中的β1和β2是未知的参数，又叫回归系数。Ｙt和Ｘt分别是Ｙ和Ｘ的第ｔ个观测值。ut是随机误差项，又称随机干扰项，它是一个特殊的随机变量，反映未列入方程式的其他各种因素对Ｙ的影响。现在是21页\一共有70页\编辑于星期五（二）样本回归函数在现实问题研究中，由于所要研究的现象的总体单位数一般是很多的，在许多场合甚至是无限的，因此无法掌握因变量Ｙ总体的全部取值。也就是说，总体回归函数事实上是未知的，需要利用样本的信息对其进行估计。一元线性回归模型的样本回归线可表示为：式中的是样本回归线上与Ｘt相对应的Ｙ值，可视为Ｅ(Ｙt)的估计；是样本回归函数的截距系数，是样本回归函数的斜率系数，它们是对总体回归系数β1和β2的估计。现在是22页\一共有70页\编辑于星期五实际观测到的因变量Ｙt值，并不完全等于，如果用ｅt表示二者之差(),则有：（ｔ＝１，２，...ｎ）上式称为样本回归函数。式中ｅt称为残差。现在是23页\一共有70页\编辑于星期五样本回归函数与总体回归函数之间的区别总体回归线是未知的，它只有一条。而样本回归线则是根据样本数据拟合的，每抽取一组样本，便可以拟合一条样本回归线。总体回归函数中的β1和β2是未知的参数，表现为常数。而样本回归函数中的和是随机变量，其具体数值随所抽取的样本观测值不同而变动。总体回归函数中的ut是Ｙt与未知的总体回归线之间的纵向距离，它是不可直接观测的。而样本回归函数中的ｅt是Ｙt与样本回归线之间的纵向距离，当根据样本观测值拟合出样本回归线之后，可以计算出ｅt的具体数值。现在是24页\一共有70页\编辑于星期五

(三)误差项的标准假定假定１：误差项的期望值为０，即对所有的ｔ总有假定２：误差项的方差为常数，即对所有的ｔ总有假定３：误差项之间不存在序列相关关系，其协方差为零，即当ｔ≠ｓ时有：假定４：自变量是给定的变量，与随机误差项线性无关。假定５：随机误差项服从正态分布。满足以上标准假定的一元线性模型，称为标准的一元线性回归模型。现在是25页\一共有70页\编辑于星期五三、一元线性回归模型的估计

（一）回归系数的点估计所谓最小二乘法就是根据这一思路，是通过使残差平方和为最小来估计回归系数的一种方法。

加以整理后有

以上方程组称为正规方程组或标准方程组，式中的ｎ是样本容量。求解这一方程组可得：现在是26页\一共有70页\编辑于星期五【例11-４】我们利用例11-2的表11-1中已给出我国历年城镇居民人均消费支出和人均可支配收入的数据，来估计我国城镇居民的边际消费倾向和基础消费水平。解：Ｙt＝β1＋β2Ｘt＋ut

=50.073÷12-0.7511×62.976÷12＝0.2310样本回归方程为：上式中：0.7511是边际消费倾向，表示人均可支配收入每增加1千元，人均消费支出会增加0.7511千元；0.2310是基本消费水平，即与收入无关最基本的人均消费为0.2310千元。现在是27页\一共有70页\编辑于星期五（二）总体方差的估计数学上可以证明，σ2的无偏估计S2可由下式给出：

式中，分子是残差平方和,分母是自由度，其中ｎ是样本观测值的个数，２是一元线性回归方程中回归系数的个数。）S2的正平方根又叫做回归估计的标准误差。一般采用以下公式计算残差平方和：上式的推导过程如下：

现在是28页\一共有70页\编辑于星期五【例11-５】根据例11-２中给出的有关数据和例11-４中已得到的回归系数估计值，计算我国城镇居民消费函数的总体方差S2和回归估计标准差S。解：根据例11-２中给出的有关数据和例7-４中已得到的回归系数估计值，可得：

=232.7719-0.2310×50.073-0.7511×294.4539=0.0407 S2=0.0407/(12-2)=0.00407

进而有：S=0.0638现在是29页\一共有70页\编辑于星期五（三）最小二乘估计量的性质按照最小二乘法求得的估计总体回归系数的数学公式是样本观测值的函数，通常称之为最小二乘估计量。可以证明，在标准假定能够得到满足的条件下，回归系数的最小二乘估计量的期望值等于其真值，即有：其方差为：和的期望值与方差的推导过程基本类似。现在是30页\一共有70页\编辑于星期五（四）回归系数的区间估计根据第五章中介绍的关于参数区间估计的原理，可得到以下回归系数区间估计的公式：（j=1,2）式中，是回归系数估计的样本标准误差，是显著水平为α，自由度为(n-2)的ｔ分布双侧临界值。现在是31页\一共有70页\编辑于星期五【例11-6】利用例11-２的有关资料和例11-４与例11-５的结果，对例11-４中估计的我国城镇居民边际消费倾向进行置信度为95％的区间估计。解：查ｔ分布表可知：显著水平为５％，自由度为10的ｔ分布双侧临界值是2.228，前面已求得，将其代入回归系数区间估计的公式，可得：现在是32页\一共有70页\编辑于星期五四、一元线性回归模型的检验

（一）回归模型检验的种类回归模型的检验包括理论意义检验、一级检验和二级检验。理论意义检验主要涉及参数估计值的符号和取值区间，如果它们与实质性科学的理论以及人们的实践经验不相符，就说明模型不能很好地解释现实的现象。在对实际的社会经济现象进行回归分析时，常常会遇到经济意义检验不能通过的情况。造成这一结果的主要原因是：社会经济的统计数据无法像自然科学中的统计数据那样通过有控制的实验去取得，因而所观测的样本容量有可能偏小，不具有足够的代表性，或者不能满足标准线性回归分析所要求的假定条件。现在是33页\一共有70页\编辑于星期五一级检验又称统计学检验，它是利用统计学中的抽样理论来检验样本回归方程的可靠性，具体又可分为拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。二级检验又称经济计量学检验，它是对标准线性回归模型的假定条件能否得到满足进行检验，具体包括序列相关检验、异方差性检验、多重共线性检验等。二级检验对于社会经济现象的定量分析具有特别重要的意义。现在是34页\一共有70页\编辑于星期五

（二）拟合程度的评价总离差平方和的分解对任一实际观测值Ｙt总有：

对上式两边取平方并求和，得到：

可以证明：

从而有：

即

ＳＳＴ＝ＳＳＲ＋ＳＳＥ

现在是35页\一共有70页\编辑于星期五上式中，SST是总离差平方和；SSR是由回归直线可以解释的那一部分离差平方和，称为回归平方和；SSE是用回归直线无法解释的离差平方和，称为残差平方和。式子两边同除以SST，得：显而易见，各个样本观测点与样本回归直线靠得越紧，SSR在SST中所占的比例就越大。因此，可定义这一比例为决定系数，即有：现在是36页\一共有70页\编辑于星期五决定系数r2具有如下特性：1．决定系数r2具有非负性。由决定系数的定义式可知，r2的分子分母均是不可能为负值的平方和，因此其比值必大于零。2．决定系数的取值范围为０≤r2≤１。3．决定系数是样本观测值的函数，它也是一个统计量。4．在一元线性回归模型中，决定系数是单相关系数的平方。现在是37页\一共有70页\编辑于星期五【例11-7】利用例11-5中计算的残差平方和，计算例11-3所拟合的样本回归方程的决定系数。解：上式中的SST是利用表11-1中给出的数据按下式计算的：现在是38页\一共有70页\编辑于星期五（三）显著性检验所谓回归系数的显著性检验，就是根据样本估计的结果对总体回归系数的有关假设进行检验。下面我们以β2的检验为例，介绍回归系数显著性检验的基本步骤：现在是39页\一共有70页\编辑于星期五1．t检验（1）提出假设。对回归系数进行显著性检验，所提出的假设的一般形式是：式中，Ｈo表示原假设；Ｈ1表示备择假设；是假设的总体回归系数的真值。在许多回归分析的计算机程序里，常常令＝0。这是因为β2

是否为０，可以表明Ｘ对Ｙ是否有显著的影响。现在是40页\一共有70页\编辑于星期五（2）确定显著水平α。显著水平的大小应根据犯哪一类错误可能带来损失的大小确定。一般情况下可取0.05。（3）计算回归系数的ｔ值。

上式中，是回归系数估计的标准误差。现在是41页\一共有70页\编辑于星期五（4）确定临界值。

t检验的临界值是由显著水平和自由度df决定的。在双侧检验的场合，依据α和df，查ｔ分布表所确定的临界值是（-tα/2）和（tα/2

）；而在单侧检验的场合，所确定的临界值是（tα）。（5）做出判断。如果的绝对值大于临界值的绝对值，就拒绝原假设，接受备择假设；反之，如果的绝对值小于临界值的绝对值，则接受原假设。现在是42页\一共有70页\编辑于星期五2．p检验回归系数的显著性检验还可以采用p检验。其前三步与t检验相同，但t值计算出来之后，并不与t分布的临界值进行对比，而是直接计算自由度为n-2的t统计量大于或小于根据样本观测值计算的的概率即p值。然后将其与给定的显著水平α对比，如果p小于α，则拒绝原假设，反之则接受原假设。利用Excel进行回归分析时，计算机将直接给出回归系数估计的p值。现在是43页\一共有70页\编辑于星期五【例11-8】利用例11-4和例11-6的有关资料和结果，对例11-4中估计的我国城镇居民边际消费倾向进行显著性检验。以５％的显著水平检验可支配收入是否对消费支出有显著影响。解：提出假设Ｈ0：β2＝０，Ｈ1：β2≠０。计算ｔ值＝0.7511/0.0098＝76.6429

查ｔ分布表可知：显著水平为５％，自由度为10的双侧ｔ检验的临界值是2.228。以上计算的ｔ值远远大于此临界值,所以拒绝原假设,接受备择假设，即认为可支配收入对消费支出的影响是非常显著的。

现在是44页\一共有70页\编辑于星期五五、一元线性回归模型预测

（一）回归预测的基本公式简单回归预测的基本公式如下：式中，Ｘf是给定的Ｘ的具体数值；是Ｘf给定时Ｙ的预测值；和是已估计出的样本回归系数。回归预测是一种有条件的预测，在进行回归预测时，必须先给出Ｘf的具体数值。当给出的Ｘf属于样本内的数值时，利用该式去计算称为内插检验或事后预测。而当给出的Ｘf在样本之外时，利用该式去计算称为外推预测或事前预测。通常所说的预测是指事前预测。现在是45页\一共有70页\编辑于星期五（二）预测误差在实际的回归模型预测中，发生预测误差的原因可以概括为以下四个：1.模型本身中的误差因素所造成的误差；这一误差可以用总体随机误差项的方差来评价。2.由于回归系数的估计值同其真值不一致所造成的误差；这一误差可以用回归系数的最小二乘估计量的方差来评价。3.由于自变量Ｘ的设定值同其实际值的偏离所造成的误差。4.由于未来时期总体回归系数发生变化所造成的误差。在以上造成预测误差的原因中，3、4、两项不属于回归方程本身的问题，而且也难以事先予以估计和控制。因此，在下面的讨论中，假定只存在1、2、两种误差。现在是46页\一共有70页\编辑于星期五（三）区间预测若用Sef来表示预测标准误差的估计值，则数学上可以证明：服从于自由度为(n-2)的ｔ分布。按照确定置信区间的方法，可以得出Ｙf的(1-α)的置信区间为：式中，是置信度为(1-α)、自由度为(n-2)的ｔ分布的临界值。现在是47页\一共有70页\编辑于星期五对于每一个给定的Ｘ值，计算相应的Ｙ的置信区间，并将连接各点的曲线描绘在平面图上，便可得到右图。从置信区间和Sef的计算公式以及右图，可以得到以下结论：回归预测的置信区间现在是48页\一共有70页\编辑于星期五第一，置信区间的上下限对称地落在样本回归直线两边,呈中间小两头大的喇叭型。当Ｘf＝时的置信区间最窄，而当Ｘf远离时，其置信间逐渐增大。这就是说，在用回归模型进行预测时，Ｘ

f的取值不宜离开过远，否则预测精度将会降低，有可能使预测失效。第二，在样本容量n保持不变时，

的值，随置信度(1-α)的提高而增加，因此，要求预测值的概率保证程度增加，在其它条件不变时，也就意味着预测精度的降低。第三，当其它条件不变时，和Sef的值均为样本容量n的减函数，即随着n的增加，这二者将逐渐减少。这说明随着样本容量的增加，预测精度将会提高，而样本容量过小，预测的精度就较差。现在是49页\一共有70页\编辑于星期五第四，当n足够大时，Sef会趋近于S；会趋近于ｚα/2。（ｚα/2是置信度为（1-α）的标准正态分布的临界值）。这时，可以用S和ｚα/2取代Sef和tα/2来确定预测区间。即样本容量充分大时，Ｙf的（1-α）的置信区间为：Ｙf±ｚα/2×S

按上式确定的预测区间的上、下限在平面图上呈两条直线（参见图“回归预测的置信区间”中与样本回归线平行的两条虚线）。现在是50页\一共有70页\编辑于星期五第三节多元线性相关与回归分析

一、标准的多元线性回归模型二、多元线性回归模型的估计现在是51页\一共有70页\编辑于星期五一、标准的多元线性回归模型研究在线性相关条件下，两个和两个以上自变量对一个因变量的数量变化关系，称为多元线性回归分析，表现这一数量关系的数学公式，称为多元线性回归模型。多元线性回归模型总体回归函数的一般形式如下：多元线性回归模型的样本回归函数如下：

(t＝1,2,…,n)上式中，et是Yt与其估计之间的离差，即残差。多元线性回归分析的标准假定除了包括上一节中已经提出的关于随机误差项的假定外，还要追加一条假定。这就是回归模型所包含的自变量之间不能具有较强的线性关系，同时样本容量必须大于所要估计的回归系数的个数即n>k。我们称这条假定为标准假定6。现在是52页\一共有70页\编辑于星期五二、多元线性回归模型的估计

（一）回归系数的估计

多元线性回归模型中回归系数的估计同样采用最小二乘法。设根据微积分中求极小值的原理，可知残差平方和Ｑ存在极小值，欲使Ｑ达到最小，Ｑ对的偏导数必须等于零。将Ｑ对求偏导数，并令其等于零，加以整理后可得到以下ｋ个方程式：

以上ｋ元一次方程组称为正规方程组或标准方程组，通过求解这一方程组便可以得到。现在是53页\一共有70页\编辑于星期五求解多元回归方程，用矩阵形式来表达较为简便现在是54页\一共有70页\编辑于星期五则总体回归函数(11.50)式可以写为：Y

＝XB＋U样本回归函数(7.51)式可以写为：

标准方程组可以写为：

式中X'表示X的转置矩阵。(X'X)是一个ｋ×ｋ的对称矩阵，根据标准假定6，(k-1)个自变量之间不存在高度的线性相关，因此其逆矩阵存在。在上式两边同时左乘(X'X)-1，可以得到：上式是回归系数最小二乘估计的一般形式。现在是55页\一共有70页\编辑于星期五（二）总体方差的估计多元线性回归模型中的σ2也是利用残差平方和除以其自由度来估计的。即有：上式中，n是样本观测值的个数；k是方程中回归系数的个数；数学上可以证明，S2是σ2的无偏估计。S2的正平方根S又叫做回归估计的标准误差。S越小表明样本回归方程的代表性越强。在编制计算机程序时，残差平方和一般不是按照其定义式计算，而是利用以下公式计算：上式是残差平方和的矩阵形式。式中Y是因变量样本观测值向量；X是自变量样本观测值矩阵；是回归系数估计值向量的转置向量。现在是56页\一共有70页\编辑于星期五（三）最小二乘估计量的性质在标准的多元线性回归模型中，高斯.马尔可夫定理同样成立。

现在是57页\一共有70页\编辑于星期五三、多元线性回归模型的检验和预测

（一）拟合程度的评价利用R2来评价多元线性回归方程的拟合程度，必须注意以下问题。由决定系数的定义可知，R2的大小取决于残差平方和在总离差平方和中所占的比重。在样本容量一定的条件下，总离差平方和与自变量的个数无关，而残差平方和则会随着模型中自变量个数的增加不断减少，至少不会增加。因此，R2是自变量个数的非递减函数。在多元线性回归模型中，各回归模型所含的变量的数目未必相同，以R2的大小作为衡量拟合优劣的尺度是不合适的。现在是58页\一共有70页\编辑于星期五在多元回归分析中，人们更常用的评价指标是所谓的修正自由度的决定系数。该指标的定义如下：式中，n是样本容量；k是模型中回归系数的个数。（n-１）和（n-k

）实际上分别是总离差平方和与残差平方和的自由度。现在是59页\一共有70页\编辑于星期五修正自由度的决定系数具有以下特点：1.。因为k≥1，所以根据和R2各自的定义式可以得出这一结论。对于给定的R2值和n值，k值越大越小。在进行回归分析时，一般总是希望以尽可能少的自变量去达到尽可能高的拟合程度。作为综合评价这两方面情况的一项指标显然比R2更为合适。2.小于1，但未必都大于0。在拟合极差的场合，有可能取负值。现在是60页\一共有70页\编辑于星期五【例7-10】假设有7年的年度统计资料，现利用其对同一因变量拟合了两个样本回归方程。方程一中：k=6，R2=0.82；方程二中：k=2，R2=0.80。试对这两个回归方程的拟合程度做出评价。解：如果仅从R2考察，似乎方程一的拟合程度更佳。但是，由于两个方程选用的自变量个数不同，这一结论是不正确的。将上列数据代入修正自由度的决定系数公式，可得：方程一的=1-((7-1)/(7-6))(1-0.82)=-0.08方程二的=1-((7-1)/(7-2))(1-0.80)=0.76由此可见，方程二的实际拟合程度远远优于方程一。现在是61页\一共有70页\编辑于星期五（二）显著性检验1．回归系数的显著性检验多元回归中进行这一检验的目的主要是为了检验与各回归系数对应的自变量对因变量的影响是否显著，以便对自变量的取舍做出正确的判断。一般来说，当发现某个自变量的影响不显著时，应将其从模型中删除。这样才能够做到以尽可能少的自变量去达到尽可能高的拟合优度。多元模型中回归系数的检验同样采用ｔ检验和P检验，其原理和基本步骤与一元回归模型基本相同，这里不再赘述。下面仅给出回归系数显著性检验ｔ统计量的一般计算公式。现在是62页\一共有70页\编辑于星期五

j=1,2,…,k式中，是回归系数的估计值，

是的标准差的估计值，其按下式计算：式中，是(X’X)-1的第j个对角线元素，S2是随机误差项方差的估计值。上式的t统计量背后的原假设是Ｈ0：βj=0，因此t的绝对值越大表明βj为0的可能

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第十一相关与回归分析演示文稿

文档简介

温馨提示

最新文档

评论

第十一相关与回归分析演示文稿

文档简介

温馨提示

最新文档

评论

相关文档