讲有关分析与回归分析_第1页
讲有关分析与回归分析_第2页
讲有关分析与回归分析_第3页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二讲相关分析与回归分析第一节相关分析1.1变量的相关性1 .变量的相关性分两种,一种是研究两个变量X与Y的相关性。本节只研究前者,即两个变量之间的相关性;。2 .两个变量X与Y的相关性研究,是探讨这两个变量之间的关系密切到什么程度,能否给出一个定量的指标。这个问题的难 处在于“关系”二字,从数学角度看,两个变量X、Y之间的关系具有无限的可能性,一个比较现实的想法是:确立一种“样板”关系,然后把X、丫的实际关系与“样板”关系比较,看它们“像” 到了什么程度,给出一个定量指标。3 .取什么关系做“样板”关系?线性关系。这是一种单调递增或递减的关系,在现实生活中广为应用;另外,现实世界中大量 的变

2、量服从正态分布,对这些变量而言,可以用线性关系或准线性关系构建它们之间的联系。1 . 2相关性度量1 .概率论中用相关系数(correlation coefficient )度量两个变量的 相关程度。为区别以下出现的 样本相关系数,有时也把这里定义的相关 系数称为 总体相关系数。可见相关系数是判断变量间线性关系的 重要指标。2 .样本相关系数我们也只能根据这个容量为n的样本来判断变量 X和丫的相关性达到怎样的程度。这个估计称为样本相关系数,或Pears on相关系数。它能够根据 样本观察值计算出两个变量相关系数的估计值。和总体相关系数一样,如果"=0,称X和Y不相关。这时它们没有线性

3、关系。多数情况下,样本相关系数取区间(-1, 1)中的一个值。相关系数的 绝对值越大,表明X和丫之间存在的关系越接近线性关 系。1 . 3相关性检验两个变量X和丫之间的相关性检验是对原假设Ho: Corr (X,Y) = 0的显著性进行检验。检验类型为t。如果H。显著,则X和丫之间没有线性关系。1 . 4 计算样本相关系数Correlate'Bivariate例1数据data02,计算变量当前薪金、起始薪金、受教育年 限和工作经验之间的样本相关系数。打开 Correlate'Bivariate 对话框,将变量 salary、salbegin、educ 和prevexp输入Var

4、iables,点击 OK,即得表格:Correlati ons受教育年限当前薪金起始新金工作经验 (月)受教 育年限Pearson Correlation1.661*.633*-.252*Sig. (2-tailed).000.000.000N474474474474当 前薪金Pearson Correlation.661*1.880*-.097*Sig. (2-tailed).000.000.034N474474474474起 始薪金Pearson Correlation.633*.880*1.045Sig. (2-tailed).000.000.327N474474474474工 作经验

5、(月)Pearson Correlation-.252*-.097*.0451Sig. (2-tailed).000.034.327N474474474474.Correlation is significant at the 0.01 level (2-tailed).*. Correlation is sig nifica nt at the 0.05 level (2-tailed).表格中的Pearson Correlation指样本相关系数,例如起始薪金与受 教育年限的相关系数为0.633 ; Sig.为相关性检验结果,起始薪金与受教育年限的相关性检验结果为Sig.=0.000,在0

6、.05和0.01的水平下,都能否定它们不相关的假设。N为观察值个数。1 . 5偏相关系数1 .控制变量以上在计算变量X和Y的相关系数时,并没有考虑有其他变量的影响。例如:计算当前薪金(salary)与起始薪金(salbegin)的相关系数得0.890,但是当前薪金显然还受到受教育年限(educ)的影响,这个影响在计算相关系数时没有被扣除,因此 0.890这个数字不完全真实。如扣除educ的影响,在计算salary和salbegin的相关系数,就更接近真实了。这个被扣除的变量就叫控制变量,这里educ便是控制变量。控制变量可以不止一个。2 .偏相关系数扣除控制变量影响后得到的相关系数称为偏相关系

7、数(partial correlation ),计算命令为: Correlate'Partial.例2数据data02,计算当前薪金与起始薪金在扣除受教育年限 影响后的偏相关系数。在Partial Correlations 对话框中,将变量 salary、salbegin输入 Variables,将变量 educ输入Controlling for,然后 OK,得:Correlati onsCon trol Variables当前薪金起始薪金受教育年限当前薪金Correlati on1.000.795Sign ifica nee (2-tailed).000df0471起始薪金Corre

8、lati on.7951.000Sign ifica nee (2-tailed).000df4710其中Corrlation指偏相关系数,df自由度,Significanee是对原假设Ho: pCorr (X,Y) = 0检验结果得到的水平值。可见:偏相关系数值 等于0.795;不能接受不相关的假设。第二节线性回归方程2 . 1 一元线性回归方程1 .相关分析是以线性关系为“样板”,讨论变量X和丫的相关程度,这一程度用相关系数表示。我们不禁要问:这个“样板”是什么?也就是把这个做“样板”的线性表达式:Y - b0b1X(1)给出来,这也就相当于把系数bo和bi估计出来。这样,变量 X和丫的关

9、系就可以表示成为:Y = b0 JX = Y(2)其中;为误差,是一个随机变量。显然,相关系数绝对值越大,误差:在表达式中占的比重就越小,也就是 线性部分丫占的比重越大,这就有可能用线性表达式(1)近似表达变量X和丫的关系。称线性表达式(1)为变量丫对于X的(一元线性)回归方程。回归分析的主要任务是回答:1 )回归方程(1)能否近似代表变量 X和丫的关系。这实际是对线 性部分与误差部分各占比重的估量;2)怎样估计回归方程(1),也就是怎样估计参数 bo和b1。显然,在任务2)完成前,任务1)无从开始。2 .回归的基本假设解决回归分析的主要任务还是要从样本:(Xi,YJ,1,2,., n (3)

10、入手。套用(2),样本 可以写成:Yi - bo 6Xi , i - 1,2,., n (4)以下所有分析推导都从(4)出发。显然,需要用到一些数学方法。为此提出以下基本假设:假设 1 E(;J = 0, i=1,2,n;假设 2 Var( ;J =二2 = const, i=1,2,,n;假设 3 Cov( ;i, ;j) = 0 , Hj;假设 4N(0, c2), i=1,2,n。3 .回归系数bo、bi的最小二乘估计这一部分内容实际是估计回归方程。作为变量X和丫实际关系的近似,自然要求回归方程(1)计算出的丫值与样本观察值具有最小误差。即把X代入(1)计算出的丫值:丫i = bobiX

11、 i, i = 1,2,,n (5)与实际观察到的 Yi误差最小。回归系数的估计式。通过它,可以 完全确定回归方程。4.回归方程的评价确定了回归方程后,一个重要问题浮出水面:这个回归方程有多大的代表性?能否投入使用?1)平方和分解公式公式中的三个平方和分别叫做:总平方和(total)_ n2ST =丄-丫)2残差平方和(Residual)n2SQ = E-丫"2回归平方和(Regression)SR=送二(丫?_ Y)2于是(9)式也可以写成:ST = SE + SR。设就是平方和分解公式。平方和分解公式指出一个事实:残差平方和SE与回归平方和SR之和是一个常量, 而残差平方和SE越

12、大,表明回归方程跟样本 观察值拟合得越差,反之则越好。但从回归平方和SR看,则正好相反,即:SR越大,回归方程跟样本观察值拟合得越好。2 )判决系数与复相关系数定义 回归平方和SR与平方总和ST的比值称为回归方程的判 决系数,用R2表示判决系数,则有:R 2 二竺(10 )ST判决系数的算术平方根 R 2称为回归方程的复相关系数。显然:0乞R2空1。判决系数或复相关系数接近1则表示回归方程与样本观察值拟合得比较好。判决系数也回答了 (2)中线性部分丫所占比重的问题。3)回归方程的显著性检验原假设 Ho: bi = 0 (回归方程不显著)匚SR检验统计量:FSE /( n - 2)在给定检验的显

13、著性水平:o (例如0.05)后,如果计算得统计量F对应得水平值Sig.< : 0,则拒绝接受H。,这时称 原假设H。不 显著,也就是回归方程显著,这就意味着:接受回归方程近似代 表变量丫和X的关系。5 .回归分析命令 RegressionLinear例3数据data04,计算身高(high)与体重(weight)的相关系数, 并以身高为自变量,体重为因变量求线性回归方程,同时计算判 决系数、检验回归方程的显著性(取检验水平:0= 0.05)。打开Linear Rgression对 话框,将因变量体重(weight)输入 Dependent,将变量 身高(high)输入Independe

14、nt,点击OK,得输出 文件表格系列:ModelVariablesEnteredVariablesRemovedMethod1high aEnterVariables Entered/Removedba. All requested variables entered.b. Dependent Variable: weight该表格是变量进入或移出回归方程的记录,它指出:进入方 程的变量是high,没有变量移出方程,使用的方法为Enter (在回归方程的优化一节中会讨论)。两个注是:a.所有提供的自变量都进入方程。b.因变量是weightModel SummaryModelRR S quare

15、Adjusted R S quareStd. Error of the Estimate1.849a.721.7093.752a. Predictors: (Constant), high模型概况表格。其中 R Square是判决系数,R是复相关系数, Adjusted R Square是校正的判决系数(容以后介绍)。注a.预测元素为:(常数),high。即回归方程等号右端是这两部分组成。ANOVAbModelSum of SquaresdfMean SquareFSig.1Regressi on907.6981907.69864.480.0005Residual351.9312514.077

16、Total1259.63026a. Predictors: (Con sta nt), highb. Depe ndent Variable: weight方差分析表。这部分做回归方程的显著性检验,原假设Ho:回归方程不显著。表中Sum of Square一列:Regression是回归平方 和,Residual是残差平方和,Total是总平方和。df是相应的自由度,Mea n Square为对应均方和,它的定义是:Mea n Sqare = Sum of Square - dfF是统计量的值,F = Regression Mean Square - Residual Mean Square最

17、后的Sig.是F值对应的显著性。由于 Sig.=0.000<0.05,故原假设H。为不显著,即回归方程显著。最后一个表格是系数表:ModelUn sta ndardized Coefficie ntsStan dardized Coefficie ntstSig.BStd. ErrorBeta1(Co nsta nt)-84.60516.193-5.225.000high85.12910.601.8498.030.000Coefficie ntsaa. Depe ndent Variable: weight其中Unstandard Coefficients (非标准化系数)给出回归方程的

18、常数项(Constant)与变量high的系数,它们在 B列中显示。因此,回归方程是:weight = -84.60585.129 high2. 2多元线性回归方程1 .模型 在变量Y和变量X4X2,,Xp, (p > 2)之间建立关系:£Y = b0b1X1 b2X2bpXp ; = Y ;(11)其中;为随机变量,表示误差。线性部分Y 二 b° bX b?X2bpXp(12)对于(X1, X2,Xp,Y)的一个容量为n的观察值(Xi!,Xi2, ,Xip ,Yi), i 二 1,2., n (13)应有Yi 二b° +dXi1 +b2Xi2 +bpXip

19、 + E 二 Y+J , i =12,n(14)对(14)中的随机误差i有与一元线性回归相同的假设。称(12)为变量丫对于变量X1,X2,,Xp的p元线性回归方程。它的基本问题和一 元线性回归方程相同,也是:回归方程如何估计;回归方程能否近似代表原变量的实际关系。2.回归系数的估计弓I入以下向量:一 y 二(丫1,丫2,.,Yn) ,; = ( 1, 2,., n) , b =(“匕,bp),XiiX21X12X 22XipX2pJ Xnl Xn2Xnp则(14)可以表示为矩阵形式:y = Xb ;(15 )残差平方和:n2SE = E 第“ bo dXi1 SXi2 -bpXip)二;=(y

20、 - X b ) ( y - Xb )二 y y - yXb - b X y b X Xb将其对b求导数:-S = -2X y 2X Xb = 0;:b如果矩阵X X可逆,解得:b “xx.xy 三 b?这就是参数b的最小二乘估计。3 .回归方程的显著性检验原假设:Ho: b1 = b2二=bp = 0 (回归方程不显著)检验统计量:FSR/PSE/( n- p - 1)其中SR、SE定义同一元回归4 .回归系数的显著性检验多元线性回归分析也有有别于一元线性回归的特殊问题,回 归系数的显著性即是其一。1)偏回归平方和2)回归系数的显著性检验原假设 Ho: bj=0 (自变量Xj不显著) 备选假

21、设 H。: bj = 0 (自变量Xj显著) 检验统计量SR( j)SE /( n - p - 1)它等价于统计量其中:?2n - p - 15 .关于校正的判决系数(Adjusted R Square)由于判决系数R2的值会随自变量个数增加而变大,因此它不能正确反映方程的拟合效果。校正判决系数旨在消除这种影响。它定义为:2adj=1 一進十 n - 1(1 一 R2)MSTn - p T2 . 3利用回归方程做预测回归方程用途的主要部分是可以用它来做预测。1. 所谓回归方程的预测,就是在给定点(X1(0),x20),xp0)利用 回归方程对变量 丫作出估计。这是一个典型的点估计问题,估计 量

22、就是回归方程。2. 从估计的角度出发,回归方程的预测除点估计外,还有区间 估计,即估计变量 Y的置信区间。例4 数据data05,求变量丫对于变量X1, X2, X3, X4的4元非标准化 线性回归方程,并做显著性检验(水平取0.05),同时利用所得回归方程预测n0=14的丫值。在Linear Regression对话框中:将因变量 Y输入Dependent,将 自变量X1, X2, X3, X4输入 Independent(s),将 no输入Selection Variable并点击Rule |,在菜单中选择 not equal to并填入14。返回, 点 击|Save ,在Save对话框

23、中选择Predicted Values中 的 Un sta ndardized 和 Prediction In tervals 中的 In dividual,填入需要的置 信度。返回,ok。Coefficients a,bModelUn sta ndardized Coefficie ntsStan dardized Coefficie ntstSig.BStd. ErrorBeta1(Co nsta nt)62.40570.071.891.399x11.551.745.6072.083.071x2.510.724.528.705.501x3.102.755.043.135.896x4-.14

24、4.709-.160-.203.844a. Depe ndent Variable: yb. Select ing only cases for which no = 14从表中可知,回归方程是:Y =62.405 1.551Xi 0.510X20.102X3 - 0.144X4在0.05的显著性水平下,自变量都不显著。ANOVAb,cModelSum of SauaresdfMean SauareFSig.1Regressi on2667.8994666.975111.479.00(fResidual47.86485.983Total2715.76312a Predictors: (Con

25、sta nt), x4, X3, x1, Xb. Depe ndent Variable: yc. Select ing only cases for which no = 14此表显示,在0.05的显著性水平下,回归方程显著Model Summary b,cModelRR SquareAdjusted R SquareStd. Error of the Estimateno = 14 (Selected)1.991a.982.9742.4460a. Predictors: (Con sta nt), x4, X3, x1, x2b. Uni ess no ted otherwise, sta

26、tistics are based only on cases for which no = 14 .c. Depe ndent Variable: y进一步还能得到判决系数为0.982,校正判决系数为0.974,复相关系数为0.991。关于no=14观察值的丫预测值在原始数据文件中生成的新变 量PRE_1中,为94.19281,95%置信区间的左、右端点分别由新 变量 LICI _1 和 UICI _1 给出,由是知为(69.87367,118.51195)。例5数据data05,求变量X1的偏回归平方和。在例4中,ANOVA表给出回归平方和是 2667.899,按照偏回 归平方和的定义,求

27、 丫对于X2,X3,X4的回归方程,此时 ANOVA表 格ANOVAb,cModelSum of SquaresdfMean SquareFSig.1Regressi on2641.9493880.650107.375.00(fResidual73.81598.202Total2715.76312a Predictors: (Con sta nt), x4, X3, x2b. Depe ndent Variable: yc. Select ing only cases for which no = 14显示回归平方和为2641.949,故变量X1的偏回归平方和等于SR(X1) = 2667.8

28、99 - 2641.949 = 25.95也就是方程中少了自变量X1,回归平方和就要损失 25.95。2 . 4回归方程的优化本节讨论在给定的显著性水平下,建立一个所有自变量都显著的回归方程的不同方法。为区别以下的方法,称上一节讨论的建立回归方程的方法为强制进入法(Enter方法)1 .前进法(Forward)第一步 建立p个一元线性回归方程:Y?=氏? + fx j , j = 1,2,., p在通过显著性检验的回归方程中,选择F值最大者留下,不妨设这个方程就是:丫?=哄)+ 叽X1第二步用入选的自变量 Xi与其余p-1个自变量生成p-1个搭配:Xi, Xj, j=2,p,求出p-1个回归方

29、程:Y?=瞬 + ?2)Xi + 肉2*2, j = 2,3,., p再从显著的方程中,选择X2最显著的方程留下。以下的步骤与以上相同,直到剩下的自变量中没有一个显著为 止,最后的方程即所求。例6 数据data05,用前进法求回归方程。做法同例 2,只是在 Lin ear Regression对话框的 Mathod 栏 将 Enter 改变为 Forward。Variables En tered/RemovedModelVariables En teredVariablesRemovedMethod1x4Forward (Criteri on: Probabilit y-of- F-to-e

30、nter <=.050)2x1Forward (Criteri on: Probabilit y-of- F-to-e nter <=.050)a. Depe ndent Variable: yb. Models are based only on cases for Wich no = 14此表显示:进入变量检验的临界概率为0.05,即显著水平大于此值的变量都要出局。在此标准下,X4首选入方程,X1次选入方程, 其他变量落选。Model SummaryModelRR SquareAdjusted R SquareStd. Error of the Estimateno = 14

31、(Selected)1.821a.675.6458.96392.98衣.972.9672.7343a. Predictors: (Con sta nt), x4b. Predictors: (Con sta nt), x4, x1此表显示:第一个方程(自变量只有 X4)的判决系数为0.645,而 第二个方程(自变量为 X4和X1)的判决系数为0.967,有了很大的 提升。ANOVAc,dModelSum of SquaresdfMean SquareFSig.1Regressi on1831.89611831.89622.799.0013Residual883.8671180.352Total

32、2715.763122Regressi on2641.00121320.500176.627.00$Residual74.762107.476Total2715.76312a. Predictors: (Con sta nt), x4b. Predictors: (Con sta nt), x4, xlc. Depe ndent Variable: yd. Select ing only cases for which no = 14此表显示:第一、第二两个回归方程都显著。Coefficie ntsModelUn sta ndardized Coefficie ntsStan dardized

33、 Coefficie ntstSig.BStd.ErrorBeta1(Co nsta nt)117.5685.26222.342.000x4-.738.155-.821-4.775.0012(Co nsta nt)103.0972.12448.540.000x4-.614.049-.683-12.621.000x11.440.138.56310.403.000a. Depe ndent Variable: yb. Select ing only cases for which no = 14此表显示:第一个方程是Y = 117.568 - 0.738X4,方程中没有不显著变量;第二个方程是丫4

34、 1.440Xi,方程中也没有不显著变量Excluded V ariables cModelBeta IntSig.Partial Correlati onColli nearity StatisticsTolera nee1x1.56310.403.000.957.940x2.32Z5.415.687.130.053x3-.511a-6.348.000-.895.9992x2.43“2.242.052.599.053x3-.175b-2.058.070-.566.289a. Predictors in the Model: (Con sta nt), x4b. Predictors in t

35、he Model: (Co nsta nt), x4, x1c. Depe ndent Variable: y此表显示每次筛选中未进入方程的变量。注意未进入第二个方程的变量X2和X3,它们的Sig.值分别是0.052和0.070,均大于临界 概率0.05,这就是它们被淘汰的原因。2 .退后法(Backward)做法与前进法相反。即第一步将所有的 p个自变量都进入方程,从第二步开始,每一步都将方程中最不显著的自变量剔除,直到 方程中没有不显著的自变量为止。例7 数据data05,用后退法求回归方程。打开 Lin ear Regression 对话框,Method 栏改为 Backward ,其他

36、一切做法照旧。点击Ok ,得输出:ModelVariables En teredVariablesRemovedMethod1x4, x3, X,En terBackward (criteri on: Probabilit2x23x3y of F-to-remo ve >=. 100). Backward (criteri on: Probabilitx4y of F-to-remo ve >=. 100).Variables En tered/Removedb,ca. All requested variables en tered.b. Depe ndent Variable:

37、 yc. Models are based only on cases for Wich no = 14此表显示:剔除变量的临界概率为0.100,第一个方程按照后退法应该把所有自变量都进入方程,所以Model 1显示X4,X3,X1,X2全都进入方程,注意这时 Method显示的是Enter而非Backward,想- 想这是为什么。第二个方程也就是Model 2把X3剔除出去,这时Method显示Backward。第三个方程即 Model 3又把X4剔除出去, 以后没有剔除动作,这 Model 3就是最终结果。Model SummaryModelRR SquareAdjusted R Squa

38、reStd. Error of the Estimateno = 14 (Selected)1.991a.982.9742.44602.991b.982.9762.30873.98SP.979.9742.4063a. Predictors: (Con sta nt), x4, X3, x1, x2b. Predictors: (Con sta nt), x4, x1, x2c. Predictors: (Con sta nt), x1, X这张表格无需多做解释。提醒读者,从中可以看到随自变量个数 增加,判决系数确有增大的趋势。ANOVAd,eModelSum ofSquaresdfMean S

39、quareFSig.1Regressi on2667.8994666.975111.479.00(fResidual47.86485.983Total2715.763122Regressi on2667.7903889.263166.832.00&Residual47.97395.330Total2715.763123Regressi on2657.85921328.929229.504.00(fResidual57.904105.790Total2715.76312a. Predictors: (Constant), x4, X>, x1, x2b. Predictors: (

40、Con sta nt), x4, xl, x2c. Predictors: (Con sta nt), x1, Xd. Depe ndent Variable: ye. Selecting only cases for which no = 14这张表也无需多做解释,它指出三个模型都显著Excluded V ariables cModelBeta IntSig.Partial Correlati onColli nearity StatisticsTolera nee2x3.0435.135:.896.048.0213x3.10631.354.209.411.318x4-.263b-1.365

41、.205-.414.053a. Predictors in the Model: (Co nsta nt), x4, x1, x2b. Predictors in the Model: (Co nsta nt), x1, x2c. Depe ndent Variable: y这是被剔除变量的清单。Model 2中变量X3被剔除理由是它的Sig.值为0.896,远大于临界值0.100,并且是所有Sig.值大于临界值的变量中最大的一个。类似解释Model 2。Coefficients a,bModelUn sta ndardized Coefficie ntsStan dardized Coeff

42、icie ntstSig.BStd. ErrorBeta1(Co nsta nt)62.40570.071.891.399x11.551.745.6072.083.071x2.510.724.528.705.501x3.102.755.043.135.896x4-.144.709-.160-.203.8442(Co nsta nt)71.64814.1425.066.001x11.452.117.56812.410.000x2.416.186.4302.242.052x4-.237.173-.263-1.365.2053(Co nsta nt)52.5772.28622.998.000x11.468.121.57412.105.000x2.662.046.68514.442.000a. Depe ndent Variable: yb. Select ing only cases for which no = 14这是三个回归方程的清单:模型1方程为Y 二 62.4051.551X10.510X20.102X3 - 0.144X4按系统给的0.100的检验水平,除X1显著外,其余自变量均不显 著,而且Sig.最大者为X3达到0.896,故剔除X3,重新回归,得 模型2,方程为Y = 71.648

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论