第9章 相关与回归分析_第1页
第9章 相关与回归分析_第2页
第9章 相关与回归分析_第3页
第9章 相关与回归分析_第4页
第9章 相关与回归分析_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学教程卢小广 编著清华大学出版社 北京交通大学出版社第9章 相关与回归分析 /上午3时48分统计学第9章 相关与回归分析 9.1 相关关系 9.3.4 多元线性回归方程的 9.1.1 相关关系的概念 显著性检验 9.1.2 相关关系的度量 9.3.5 运用多元线性回归方9.2 一元线性回归 程进行估计 9.2.1 一元线性回归模型 9.4 非线性回归的线性化 9.2.2 一元线性回归方程的最小二乘估计 9.2.3 一元线性回归方程的拟合优度 9.2.4 一元线性回归方程的显著性检验 9.2.5 运用一元线性回归方程进行估计9.3 多元线性回归 9.3.1 多元线性回归模型 9.3.2 多元

2、线性回归方程的最小二乘估计 9.3.3 多元线性回归方程的拟合优度第9章 相关与回归分析 9.1 9.1 相关关系相关关系统计学教程卢小广/上午3时48分统计学第9章 相关与回归分析 9.1 9.1 相关关系相关关系 9.1.1 相关关系的概念1 变量的函数关系和相关关系 变量之间的数量关系可区分为确定性与不确定性两类。 数值型数据的确定性数量关系称为函数关系。函数关系遵循严格的因果律。 如在国民经济核算中“国内生产总值=消费+积累+进出口净额”,或者“国内生产总值=固定资产折旧+劳动者报酬+企业盈利+生产税净额”,反映的是国民经济核算中的数量衡等关系,这些都是变量之间确定性的数量关系,即函数

3、关系。 数值型数据的不确定性的数量关系称为统计关系,即相关关系。相关关系也是一种客观存在的变量之间的数量关系,反映了变量之间的一种不严格的数量依存关系。一般来说,相关关系遵循广义的因果律。 相关关系(Correlation)是指变量之间客观存在的不确定的数量关系。/上午3时48分统计学第9章 相关与回归分析 9.1 9.1 相关关系相关关系 2相关分析与回归分析 相关关系是统计学研究的主要对象之一。在现代统计学中围绕相关关系已经形成了两个重要的统计方法相关分析和回归分析。 虽然,相关分析和回归分析都是以相关关系为研究对象,由于其研究相关关系内容的侧重,和所反映相关关系特征的角度不同,两者存在以

4、下区别。(1)描述的方式不同 相关分析主要采用相关系数来度量变量之间的相关关系。通过相关系数数值的大小来度量相关关系的强弱。 回归分析要采用通过拟合回归模型来度量变量之间的相关关系。通过回归模型来反映相关关系的具体形式。有回归模型的一般形式为 (9.2) xfy/上午3时48分统计学第9章 相关与回归分析 9.1 9.1 相关关系相关关系 (2)变量的地位不同 相关分析中变量之间的地位是对等的、可以相互置换的,变量与变量的相关系数,等价于变量与变量的相关系数。 回归分析中变量之间的地位是不对等、不能相互置换的,在回归模型方程式(9.2)等号右边的变量是解释等号右边的变量取值的因素,因此称之为自

5、变量;等号左边的变量是被自变量所解释的因素,所以称之为因变量。 自变量(Independent Variable)是指在回归分析中,解释因变量的一个或一组变量,因此也被称为解释变量,一般用x表示。 因变量(Dependent Variable)是指在回归分析中,被解释的变量,因此也被称为被解释变量,一般用y表示。/上午3时48分统计学第9章 相关与回归分析 9.1 9.1 相关关系相关关系 (3)描述的内容不同 相关分析通过相关系数描述,所反映的是变量之间相关关系的方向和大小程度。 回归分析借助回归模型不仅描述了变量之间相关关系的方向和大小程度,还刻画了变量之间相关关系的的具体形式,回归模型可

6、以用于预测和控制。(4)变量的性质不同 相关分析中的变量都是随机变量。 在回归分析中,因变量是随机变量;自变量可以是随机变量,也可以是非随机的确定性变量。 当自变量为随机变量时,不满足普通最小二乘方法估计回归方程的要求,需要采用工具变量方法,或者最大似然方法来进行估计。因此,在采用普通最小二乘估计时,总是规定自变量为非随机的确定性变量。/上午3时48分统计学第9章 相关与回归分析 9.1 9.1 相关关系相关关系 9.1.2 相关关系的度量1散点图 散点图(Scatter Diagram)是指由变量数值在直角坐标系中的分布点构成的二维数据分布图。 某证券市场价格指数与A证券价格某证券市场价格指

7、数与A证券价格7891011121314151790180018101820183018401850186018701880A证券 /元价格指数 /%/上午3时48分统计学第9章 相关与回归分析 9.1 9.1 相关关系相关关系 散点图的作用就是通过两个数值型变量之间在二维平面的直角坐标中的分布图形,粗略地把握变量之间相关关系的基本态势。例如变量之间的线性特征越显著,说明其相关关系越强,反之则越弱;两个变量之间的数值呈同方向变化为正相关,否则为负相关。 借助散点图还可以概略地区分和识别变量之间的非线性相关的具体类型,为回归分析确定回归方程的具体形式提供依据,这也是散点图的重要功能。例如,通过散

8、点图展示的图形特征,初步地分辨出相关关系是直线,还是二次曲线、三次曲线、指数曲线、对数曲线、S曲线等。所以,散点图不仅是相关分析,也是回归分析中经常使用的最简便的基本分析工具。/上午3时48分统计学第9章 相关与回归分析 9.1 9.1 相关关系相关关系 2相关系数 相关系数(Correlation Coefficient)是度量两个变量之间线性相关的方向和强度的测度。 散点图只是粗略地刻画两个变量之间线性相关关系的方向、强度和形式,不能确切地度量变量之间的相关关系的密切程度。相关系数可以具体度量变量之间的相关关系的密切程度,并且用一个相对数数值表述出来,使之具有直接的可比性。 一般使用样本统

9、计量来估计总体相关系数的数值水平,有 (9.3) 计算相关系数的式(9.3),由三项离差平方和的比值构成。yyxxxyLLLr /上午3时48分统计学第9章 相关与回归分析 9.1 9.1 相关关系相关关系 Lyy为变量y的离差平方和,有 (9.4) Lxx为变量x的离差平方和,有 (9.5) Lxy为变量x和变量y的离差乘积和,有 (9.6)2112121niiniiniiyyynyyyL2112121niiniiniixxxnxxxLniiniiniiiniiixyyxnyxyyxxL11111/上午3时48分统计学第9章 相关与回归分析 9.1 9.1 相关关系相关关系 相关系数的取值范

10、围为 。 当相关系数的取值为正时,说明变量和变量的数值变化是同方向的,即为正相关;若相关系数的取值为负,则说明变量和变量的数值变化是反方向的,即为负相关。 相关系数的正负取值取决于Lxy项的正负。 并且,当相关系数的绝对值越是趋近于1,表明变量和变量的相关程度越高,称之为强相关;反之,当相关系数的绝对值越是趋近于0,表明变量和变量的相关程度越低,称之为弱相关。11r/上午3时48分统计学第9章 相关与回归分析 9.1 9.1 相关关系相关关系 例例9.2 9.2 根据例9.1的表9.1中的数据。表9.1某证券市场价格指数与A证券价格 要求要求 计算A证券价格与该证券市场价格指数的相关系数。 解

11、解 采用式(9.3),可得A证券价格与该证券市场价格指数的相关系数为87749. 0r月份证券市场价格指数/%A证券价格/元1184912.452185414.483187013.564185511.42518309.86618208.52718057.55818018.05917988.6810183010.081118459.4512186512.48/上午3时48分统计学第9章 相关与回归分析 9.1 9.1 相关关系相关关系 3相关系数的显著性检验 相关系数是总体相关系数真值的样本统计量。因此,相关系数只是总体相关系数的在一定样本分布下的估计值,尤其是当计算相关系数的样本容量较小时,相

12、关系数的数值的变异增大。所以,必须对不同样本容量情况下计算出来的相关系数的统计显著性进行假设检验。 相关系数的抽样分布,服从于自由度为n-2的t分布。一般采用T检验统计量对相关系数进行显著性检验,有 (9.7)2122ntrnrT/上午3时48分统计学第9章 相关与回归分析 9.1 9.1 相关关系相关关系 例例9.3 9.3 根据例9.1和例9.2中样本容量n=12,和A证券价格与该证券市场价格指数的相关系数r=0.87749。 要求要求 在显著性水平为0.05下,对该相关系数进行显著性检验。 解解 采用式(9.7)对相关系数进行显著性检验。(1)提出假设(2)计算检验统计值(3)进行统计判

13、断 由于检验统计值大于t分布的临界值,所以拒绝原假设,认为A证券价格与该证券市场价格指数之间存在显著的相关关系。00:H01:H7859. 587749. 0121287749. 02T第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归统计学教程卢小广/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 9.2.1一元线性回归模型 1理论模型 从回归模型的一般形式,式(9.2)出发,一元线性回归模型可以表述为 (9.8) 回归模型(Regression Model)是指因变量依赖自变量和随机误差项取值的方程。 因变量的取值由两个部分构成。一部分反

14、映了自变量的变动引起的线性变化;另一部分为剩余变动,反映了不能为自变量和因变量之间的线性关系所解释的其它剩余的变异。 在理论上,回归分析总是假定一元线性回归模型,即式(9.8)具有统计显著性,有效地解释了因变量的变动,剩余变动为不可观测的随机误差。因此,称式(9.8)为一元线性回归理论模型。 xy10/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 关于随机误差,线性回归理论模型具有以下三项假定。(1) 0均值。剩余变动为不可观测的随机误差,其数学期望为0。(2)方差齐性。对于所有的自变量x,随机误差的方差相同。(3)独立性。各项随机误差之间,以及各项随机

15、误差与对应的自变量之间均不相关,即有0jiEnji, 2 , 1,ji 0iixE/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 2回归方程 根据回归理论模型中对随机误差的三项假定,有 因此有变量的数学期望为自变量的线性函数。 回归方程(Regression Equation)是指因变量y的数学期望依赖自变量x取值的方程。 有一元线性回归方程为 (9.9) 一元线性回归方程在直角坐标系中为一条直线,所以也称为直线回归方程。 20,N xyE10/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 3估计的回归方程 由回归

16、方程中可知,当回归系数确定之后,可以利用式(9.9)计算出因变量在给定自变量数值时的数学期望。在回归方程中的回归系数和随机误差的方差均为未知,需要利用样本数据进行统计估计。当根据样本推断出回归方程中的回归系数的估计量时,就得到了由样本推断出来的估计的回归方程。 估计的回归方程(Estimated Regression Equation)是指根据样本数据的估计量构成的回归方程。 估计的一元线性回归方程为 (9.10) 当估计的一元线性回归方程式(9.10)中的自变量给定某一具体数值时,因变量的对应的取值,也就随之确定下来了。xy10/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一

17、元线性回归一元线性回归 9.2.2 一元线性回归方程的最小二乘估计 最小二乘估计(Least Square Estimation)是指估计量使因变量的观察值与其估计值的离差平方和最小的方法。这里介绍的是普通最小二乘估计(Ordinary Least Square Estimation, OLSE)。 根据回归方程和最小二乘估计定义,一元线性回归方程关于回归系数估计量的解为非负二次函数,必然存在最小值。 因而,可以得出求解一元线性回归方程回归系数估计量的正规方程组,并利用离差平方和的形式,可写为 (9.13) 由式(9.13)计算得到的就是一元线性回归方程回归系数的普通最小二乘估计(OLSE)估

18、计量。xyLLxxxy101/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 例例9.4 9.4 根据例9.1 中某证券市场价格指数与该市场A证券价格数据。 要求要求 以A证券价格为因变量,证券市场价格指数为自变量,构造一元线性回归模型,并采用普通最小二乘估计方法进行估计。 解解 运用式(9.13),有估计的回归方程为 某证券市场价格指数与A证券价格某证券市场价格指数与A证券价格789101112131415178018001820184018601880A证券 /元价格指数 /% 图8.2为本例中,该证券市场价格指数与该市场A证券价格的一元回归方程直线与

19、实际观察值的拟合示意图。 xy08012. 04863.136xy08012. 04863.136/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 9.2.3 一元线性回归方程的拟合优度 将回归直线与观察值的距离作为评价回归方程拟合精度的测度,称为拟合优度(Goodness of Fit)。 1判定系数 在回归分析中,将因变量的观察值之间的变异称为的总离差,反映了因变量的观察值与其均值的离差的距离;并将总离差分解为自变量能够解释的部分,和自变量不能解释的两个部分。 为了避免离差的正负相抵,采用离差平方和的形式,来度量因变量的总离差,并对其进行分解。将因变量

20、的个观察值与其均值的离差平方和称为因变量的总离差平方和(Total Deviation Sum of Squares),记为SST,实际上这一总离差平方和就是变量的离差平方和Lyy。有 (9.14)yyniiTLyySS12/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 可将SST分解为 (9.15) 式(9.15)中等号右边估计值与观察值的均值的离差平方和,称为回归离差平方和(Regression Sum of Squares),记为SSR。反映了在观察值的总变异中,估计的回归方程所解释的这一部分变异的总和。有 (9.16) niiniiiiiinii

21、TyyyyyyyyyySS1212212niiRyySS12/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 式(9.15)中等号右边观察值与其估计值的离差平方和,称为剩余离差平方和,或残差离差平方和(Residual Sum of Squares),记为SSE。反映了在观察值的总变异中,估计的回归方程所未能解释的那一部分变异的总和。有 (9.17) 从而,可将式(9.15)记为 (9.18) 对照图8.2可以看出,回归直线拟合程度决定于SSR与SSE的比较,当SSR的数值越是显著大于SSE时,说明各观察值与回归直线的离差之和越小,回归直线对于因变量的解释

22、能力越强。而SSR与SSE又是对总离差平方和的一个完备的分割,两者存在互为消长的数量关系。因此以与之比作为度量回归方程的拟合优度的测度,称之为判定系数。niiiEyySS12ERTSSSSSS/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 判定系数(Coefficient of Determination)是指回归离差平方和占总离差平方和的比重,有 (9.19) 由于 ,所以 (9.20) 由式(9.20)可知,判定系数就是相关系数的平方。判定系数的取值在0到1 之间,当判定系数的取值趋近于1时,表示回归直线的拟合程度很好;当判定系数的取值趋近于0时,则

23、表示回归直线的拟合程度很差。TRSSSSr 2xxxyxxniiRLLLyySS22112yyxxxyTRLLLSSSSr22/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 判定系数是度量回归直线拟合优度的重要测度。由式(9.20)有 (9.21) (9.22) 式(9.21)和式(9.22)直观地表明,判定系数是一个重要的数量界限,它将因变量的离差平方和分为了能够为自变量所解释的部分,和不能为自变量所解释的部分。判定系数就是在因变量的总离差平方和中自变量所解释的部分所占的份额。yyTRLrSSrSS22yyTELrSSrSS2211/上午3时48分统计

24、学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 例例9.5 9.5 仍然根据例9.1 中某证券市场价格指数与该市场A证券价格数据。 要求要求 计算该证券市场价格指数与该市场A证券价格的判定系数。 解解 运用式(9.20),可以计算得该证券市场价格指数与该市场A证券价格的判定系数为 说明在例4.4的估计的回归方程为中,自变量对因变量变异的解释能力约为77%;或者说,A证券价格的变动中约有77%的部分可以由该证券市场价格指数与其的线性关系来解释。76999. 02r/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 2因变量y估计量的标准差

25、剩余离差平方和为因变量y估计值与观察值的离差平方和,其自由度为n-2,SSE除以自由度n-2为剩余均方MSE,剩余均方MSE的平方根即为因变量y估计量的标准差,也称为标准误差,一般用表示。有 (9.23) 因变量y估计量的标准差作为回归方程拟合优度的测度,从回归直线与观察值的离差平方和,以及与样本容量相联系的自由度两个角度,来综合反映回归方程的解释能力。EEniiiyMSnSSnyys2212 /上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 例例9.6 9.6 采用例9.1 中某证券市场价格指数与该市场A证券价格数据。 要求要求 计算因变量y估计量的标准

26、差,分析例9.4估计的回归方程的解释能力。 解解 运用式(9.23),可以计算得回归方程的因变量y估计量的标准差为元14874. 1ys/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 9.2.4 一元线性回归方程的显著性检验 估计的回归方程是依据样本数据拟合的,样本容量大小,因变量和自变量的抽样分布,都会对回归方程中估计量的与总体参数真值之间的误差生产影响,仅凭回归方程拟合优度的有关测度,不能认定因变量与自变量之间是否真的存在这种线性关系,还需要对估计的回归方程进行假设检验。 一元回归方程的显著性检验的原假设为参数的真值为0,即 (9.24) 当原假设成

27、立,可将因变量的变异归结于剩余因素,表明自变量对因变量不具有显著的线性关系,一元线性方程对于因变量没有显著的解释能力。这时,估计的回归方程不具备任何实际意义,不能用于预测和控制。若原假设不成立,说明因变量的变异显著地来源于自变量,这时估计的回归方程才具有实际意义。010:H/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 在一元线性回归分析中,有回归均方与剩余均方分别服从自由度为1和自由度为n-2的卡方分布,则由回归均方与剩余均方的比值构造的F检验统计量服从第一自由度为1和第二自由度为n-2的F分布。即 (9.25) 利用判定系数,可将式(9.25)写为便

28、于计算的形式,即 (9.26) 2121nFMSMSnSSSSFERER,2112212222nrrrLnrLnSSSSFyyyyER/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 同样,可以采用方差分析表来反映在一元线性回归分析的显著性检验中,对变量的离差平方和分解的分析过程和有关数据。表9.2 一元线性回归的方差分析表构成差异源平方和自由度均方F检验统计量回归1剩余总和RSSRMSERERMSMSnSSSSF21ESSEMSTSS1nTMS2n/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 例例9.7 9.7

29、根据例9.1 中某证券市场价格指数与该市场A证券价格数据。 要求要求 在显著性水平为0.05下,对例9.4估计的回归方程进行显著性检验。 解解 运用式(9.26),采用检验统计量进行显著性检验。 可以利用Excel“分析工具库”中的“回归”工具,对一元线性回归进行显著性检验。表9.3即为本例利用“回归”工具进行显著性检验的方差分析表,有表9.3 Excel“回归”工具一元线性回归方差分析表差异源dfSSMSFSignificance F回归分析144.175644.175633.476480.000176残差1013.1961.3196总计1157.3716/上午3时48分统计学第9章 相关与

30、回归分析 9.2 9.2 一元线性回归一元线性回归 9.2.5 运用回归方程进行估计 拟合回归方程的目的就是要利用回归方程对因变量进行科学的估计,进而取得估计数值对事物及其现象数量特征发展的趋势进行预测或控制。估计的回归方程在通过显著性检验之后,就可以运用它进行对因变量的估计,以实现预期的目的。1点估计 回归方程的点估计是利用估计的回归方程,针对自变量某一给定的数值,计算出因变量的在给定的这一点上的总体均值的估计值。所以,回归方程的点估计实质上是以对应于自变量x某一具体数值的因变量y的总体均值的估计值。即 (9.26) 01000 xyEy/上午3时48分统计学第9章 相关与回归分析 9.2

31、9.2 一元线性回归一元线性回归 2、区间估计 运用回归方程的统计量估计因变量时,剩余误差的数学期望为 (9.28) 当均服从正态分布,并且相互独立时,有 (9.29) 在实际运用时,一般采用样本数据计算的估计量的标准差替代式(9.29)中的标准差进行计算。 000000yEyEyyEE niiyyniiyxxxxnxxxxnyDyEDyDyDyyDD1220221220200000001110 y/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 式(9.30)中的剩余误差方差的估计量,服从自由度为n-2的t分布。由此,可以得出统计量的置信区间为 (9.3

32、1) 式(9.29)中,因变量估计值的均值的方差,它反映的是运用回归方程的统计量估计因变量的均值的平均离差。有 (9.32) 也服从自由度为n-2的t分布。因此,当进行区间估计的对象是对应于数值的因变量的总体均值时,有置信区间为 (9.33)2200ntsyxxEniiyyLxxnMSxxxxnss201220221102200ntsyy/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 回归方程的区间估计有两点特点。 (1) 回归方程的区间估计在 点上取最小值; (2)运用回归方程的统计量估计因变量的个别点的置信区间,要比估计其均值的置信区间大。xx 0/

33、上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 例例9.8 9.8 根据例9.1 中某证券市场价格指数与该市场A证券价格数据。 要求要求 在显著性水平为0.05下,该证券市场价格指数为1840%时,对估计的回归方程进行点估计,并计算A证券价格的置信区间。 解解 (1)A证券价格的点估计 (2)计算A证券价格的置信区间 可计算出A证券价格,在显著性水平为0.05下的置信区间为8.27元到13.60元。元9356.10184008012. 04863.136y434. 16667.688116667.1835184012113196. 1220s3196. 1

34、2ys/上午3时48分统计学第9章 相关与回归分析 9.2 9.2 一元线性回归一元线性回归 例例9.9 9.9 在一次对某市居民生活状态调查中,采集了居民在调查当年的上一个月支出和上年总收入数据,如表9.4所示。 表9.4 某市居民当年上月支出和上年总收入 元家庭编号当年上月支出上年总收入130506875023840531253410069502448008106654500765826390060621759009416484800692669420067024102200483801124505310012210044840平均382065535第9章 相关与回归分析 9.3 9.3

35、多元线性回归多元线性回归统计学教程卢小广/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 9.3.1 多元线性回归模型 1线性回归模型的一般形式 设线性回归模型的一般形式为 (9.34) 多元线性回归模型有p+1项回归系数,自变量为p项。 若有组由因变量和项自变量数据构成的样本,依式(9.34)可组成线性回归模型,可用矩阵表示为 (9.35)其中 ppxxxy22110 XY/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 2线性回归模型的基本假定(1)误差项的数学期望为0,表明估计的回归方程中不存在系统性误差(Sys

36、tematic Error);(2)各误差项的方差相等;(3)各误差项之间的协方差为0;以上三项基本假定一般又称为Gauss-Markov条件。(4)自变量与误差项之间的协方差为0;(5)自变量的样本容量必须大于自变量的项数加1。/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 9.3.2 多元线性回归的最小二乘估计 由式(9.35)回归模型,若有关回归系数的估计量已得,则有 (9.36) 根据最小二乘估计的基本定义,令估计值与观测值在所有点上的残差的平方和最小,经求偏导,并令其为0,有 (9.39)解得 (9.40) 式(9.40)即求解回归系数估计量的

37、正规方程。XY 022XXYXQ YXXX1/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 例例9.10 9.10 若例9.1 中某市场A证券为A股份有限公司的普通股股票,A证券价格不仅与该证券市场价格指数相关,而且与A股份有限公司的主要原料价格相联系,有关数据见表9.5。表9.5 A证券价格与证券市场价格指数和主要原料价格 月份证券市场价格指数/% 主要原料单价/元A证券价格/元1184943012.452185441514.483187043013.564185544511.42518304859.86618205158.52718055407.55

38、818015158.05917985058.6810183053510.081118454959.4512186547012.48/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 9.3.3 多元线性回归方程的拟合优度 1多重判定系数 多重判定系数(Multiple Coefficient of Determination)是指在多元线性回归分析中,回归离差平方和占总离差平方和的比重。有 (9.41) 多重判定系数的算术平方根为多重相关系数(Multiple Correlation Coefficient),一般也称为复相关系数。 2修正的多重判定系数 修

39、正的多重判定系数(Adjusted Multiple Coefficient of Determination)是指运用自变量项数和样本容量进行修正了的多重判定系数,一般也简称为修正的判定系数,有 (9.42)TRSSSSr 2111122pnnrra/上午3时48分统计学第9章 相关与回归分析 3因变量y的估计量的标准差 与在一元线性回归分析中一样,多元线性回归也以因变量y的估计量的标准差作为度量估计的多元线性回归方程拟合优度的重要测度,并且多元线性回归分析中的估计量的标准差也是剩余均方的平方根。 不同的是在一元线性回归分析中估计量的标准差的自由度为n-2;在多元线性回归分析中估计量的标准差

40、的自由度为n-p-1。 多元线性回归的公式是计算估计量的标准差的一般形式,有 (9.43)9.3 9.3 多元线性回归多元线性回归 EEniiiyMSpnSSpnyys1112/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 例例9.11 9.11 根据例9.9 中某市场A证券价格、该证券市场价格指数和主要原料价格数据。 要求要求 计算判定系数、修正的判定系数,和估计量的标准差。(1)计算判定系数,有(2)计算修正的判定系数,有(3)计算估计量的标准差,有89447. 037157.5731715.512TRSSSSr871019. 091189447.

41、011111122pnnrra82019. 09054415. 61pnSSsEy/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 9.3.4 多元线性回归方程的显著性检验 在多元线性回归中,回归方程显著并不意味每个自变量对因变量都显著。因而,多元线性回归的显著性检验包括对回归方程和对每个自变量的两个方面。 1、多元线性回归方程的显著性检验 对多元线性回归方程的显著性检验是从整个方程的角度,检验做作一个整体的全部项自变量是否对因变量存在显著性影响。为此,原假设为 (9.44) 这是从全部的项回归系数出发,对整个回归方程的显著性假设检验。由回归均方与剩余均方

42、的比值构造的检验统计量为 (9.45)0210pH:11pnpFMSMSpnSSpSSFERER,/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 同样,也可以采用方差分析表来反映多元线性回归分析过程中,对变量离差平方和的分解及其检验统计量的计算。表9.6 线性回归的方差分析表构成差异来源平方和自由度均方F检验统计量回归剩余总和RSSRMSERERMSMSpnSSpSSF1ESSEMSTSSTMSp1 pn1n/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 例例9.12 9.12 根据例9.10 中某市场A证券价格、

43、市场价格指数和原料价格数据。 要求要求 对估计的多元回归方程,在显著性水平为0.05下,进行显著性检验。 解解 运用式(9.45),采用检验统计量进行显著性检验。(1)确定原假设 假设该证券市场价格指数和原料价格对A证券价格的变动均不具有显著的线性关系。(2)计算检验统计值(3)统计判断 在显著性水平为0.05下,F检验临界值为4.2565。由于检验统计值38.14195明显大于检验临界值,所以拒绝原假设,认为该证券市场价格指数和原料价格与A证券价格变动之间存在显著的线性关系,估计的多元回归方程具有显著的解释能力。14195.3867271. 065858.259054415. 6231715

44、.511pnSSpSSFER0210:H/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 2自变量x的显著性检验 当多元线性回归方程中某一个自变量与因变量不显著时,就意味该自变量的回归系数真值为0。所以,检验自变量是否显著,即为检验其回归系数真值为0的原假设是否为真,有 (9.46) 其检验统计量为 (9.47) 式(9.47)中的 为矩阵 中主对角线上的第i个元素。 在假设检验中不显著的自变量应从多元线性回归方程中逐步剔除,完成多元线性回归方程的简化和完善。00iH:pi, 2 , 1111111pntMScpnSScTEiiiEiii,iic1XX/上

45、午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 例例9.13 9.13 采用例9.10 中某市场A证券价格、该市场证券价格指数和原料价格,以及有关矩阵数据。 要求要求 对估计的多元回归方程的回归系数,在显著性水平为0.05下,进行显著性检验。 显然有回归系数的检验统计值大于相应的临界值。因此拒绝原假设。认为自变量与因变量之间具有显著的线性相关关系。5054. 211EiiiMScT,2582. 311EiiiMScT,/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 9.3.5 运用多元线性回归方程进行估计 在完成了对多

46、元线性回归方程和及其每个自变量的显著性检验之后,就可以应用该估计的多元线性回归方程进行预测。由式(9.36),有在自变量处的预测,为 1个别点与均值的点估计均为 (9.48) 可记为矩阵的形式,有 (9.49)ppxxxy00220110000XY /上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 (2)个别点y0的置信区间为 (9.50) 式(9.50)中的s0为运用回归方程的统计量估计因变量y0时,误差的标准差的估计量,服从自由度为n-p-1的t分布。有 (9.51)(3)均值 的置信区间为 (9.52) 式(9.52)中的 为运用回归方程的统计量,估

47、计因变量的均值时的标准差的估计量,也服从自由度为为n-p-1的t分布。有 (9.53) 1200 pntsynssy11220XXXXXX0100yE1200 pntsyy0 ysnssyy1220XXXXXX010/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 例例9.14 9.14 根据例9.10 中某市场A证券价格、该证券市场价格指数和原料价格数据。 要求要求 在显著性水平为0.05下,当该证券市场价格指数为1840%,和原料价格为510元时,对估计的回归方程进行点估计,并计算A证券价格的置信区间。 解解 (1)A证券价格的点估计 (2)计算A证券

48、价格的置信区间 可计算出A证券价格,在显著性水平为0.05下的置信区间为7.83元到11.96元 。元89. 951002996. 01840039728. 09295.470y833736. 015603024. 012116727128. 020s/上午3时48分统计学第9章 相关与回归分析 9.3 9.3 多元线性回归多元线性回归 例例9.15 9.15 假定在例9.9中的对某市居民生活状态调查时,不仅采集了居民在调查当年的上一个月支出和上年总收入数据,还调查了该市居民上年的总支出情况,具体数据如表9.8所示。 表9.8 某市居民当年上月支出和上年总收入 元家庭编号 当年上月支出 上年总

49、收入 上年总支出130506875035200238405312546120341006950245280448008106657210545007658239840639006062145890759009416463530848006926654320942006702448860102200483802385011245053100261501221004484023510平均38206553542480 要求要求 假设居民当期支出与上年收入和上年支出情况存在线性相关关系,试根据表9.8中的数据进行多元线性回归分析。 第9章 相关与回归分析 9.4 9.4 非线性回归的线性化非线性回归的线性化统计学教程卢小广/上午3时48分统计学第9章 相关与回归分析 9.4 9.4 非线性回归的线性化非线性回归的线性化 在实际的经济管理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论