




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2021/8/61第十二章第十二章 回归分析回归分析 n学习目标学习目标n掌握简单线性回归模型基本原理。n掌握最小平方法。n掌握测定系数。n了解模型假定。n掌握显著性检验n学会用回归方程进行估计和预测。n了解残差分析。2021/8/621. P370-1 4. P380-202. P372-7 5. P388-283. P380-18 6. P393-35习 题2021/8/63n案例讨论:n1.这个案例都告诉了我们哪些信息?n2.通过阅读这个案例你受到哪些启发?2021/8/64n 根据一个变量(或更多变量)来估计某一变量的方法,统计上称为回归分析回归分析(Regression analys
2、is)。n 回归分析中,待估计的变量称为因变因变量量(Dependent variables),用y表示;用来估计因变量的变量称为自变量自变量(Independent variables),用x表示。 2021/8/65第一节第一节 简单线性回归模型简单线性回归模型 n 只涉及两个变量(一个自变量和一个因变量)之间关系的回归分析称为简简单回归分析单回归分析(Simple regression analysis)。n 两个变量之间的关系大约呈一条直线的简单回归分析称为简单线性回归分简单线性回归分析析(Simple linear regression analysis)。2021/8/66一、从一
3、个实际问题入手一、从一个实际问题入手n用回归分析可以预测运行一条商业航空线的成本吗?n如果可以,那么哪些变量与这一成本有关呢?2021/8/67飞机运行成本飞机型号飞行距离乘客数量乘客数量行李或货物重量天气状况2021/8/68n为了减少自变量个数,我们做如下假定:n飞机类别波音737飞机n飞行距离500公里n航线可比,而且在每年的相同季节n在这种条件下,可以用乘客数来预测飞行的成本吗?2021/8/69n 表12-1是每年相同季节波音737飞机在12条500公里的不同航线不同乘客数时的飞行成本。我们用这些数据以乘客数作为自变量构造模型来预测成本。 2021/8/6102021/8/611二、
4、回归模型和回归方程二、回归模型和回归方程xy10(12.1) :因变量(随机变量):因变量(随机变量) y:自变量(给定变量):自变量(给定变量) x:参数:参数 10、:误差项(随机变量),含义为说明在:误差项(随机变量),含义为说明在 中不能被中不能被 和和 之间线性关系解释的变异之间线性关系解释的变异性。性。 yxy2021/8/612n 在有关 假设中,有一个假设就是的期望值或均值等于0,即 0E(12.2) 如果简单线性回归模型满足了这个条如果简单线性回归模型满足了这个条件,那么就意味着件,那么就意味着 的均值或期望值就是的均值或期望值就是一个线性函数。一个线性函数。 y 描述描述
5、的均值与的均值与 的关系如何的方的关系如何的方程称为程称为回归方程回归方程(Regression equation)。)。 yx2021/8/613n在简单线性回归中 n1.回归方程的图形是一条直线(如图12.1所示); xyE10(12.3) 2021/8/6142021/8/6152. : 的截距;的截距; 0y13. :斜率(回归系数); 的含义:当自变量的含义:当自变量 给定一个具体变动值给定一个具体变动值时,因变量时,因变量 平均平均变化的量。变化的量。1xy2021/8/6162021/8/6172021/8/618三、估计回归方程三、估计回归方程 n 估计回归方程估计回归方程(E
6、stimated regression equation) 就是用样本统计量作为参数的估计值所建立的回归方程。 xbby10(12.4) : 的估计值的估计值y y: 的估计值的估计值 0b0: 的估计值的估计值 1b12021/8/6192021/8/620第二节第二节 最小平方法最小平方法 n 最小平方法最小平方法(Least squares method),也称最小二乘法最小二乘法,是将回归模型的方差之和最小化,以得到一系列方程,从这些方程中解出模型中需要的参数的一种方法。n 2021/8/621n(一)画散点图,以初步观察成本与乘客数量之间是否呈回归直线。 2021/8/622n(二)
7、建立估计回归方程122110,ixbbyii(12.5) 最小平方法运用样本数据求出最小平方法运用样本数据求出 和和 的值,的值,使得因变量的实际观察值使得因变量的实际观察值 与其估计值与其估计值 之之差的平方和最小,即差的平方和最小,即0b1biyiy min2iiyy(12.6) 2021/8/623n(三)估计回归方程斜率和截距的计算公式bxxnyxyxnbaxnxyxyxbiiiiii7 .127 .12221221 xbyb10(12.8)2021/8/6242021/8/6250407. 09307376412690.56930220.4462122221 xxnyxyxnbiii
8、i2021/8/626570. 1129300407. 012690.56110nxbnyxbyb2021/8/627 (四)将(四)将 和和 的计算结果代入式的计算结果代入式(12.5)有:)有: 1b0biixy0407. 0570. 1 计算结果表明,在其他条件相同情况下,计算结果表明,在其他条件相同情况下,12条航线上波音条航线上波音737飞机各条航线每次飞行时飞机各条航线每次飞行时每增加每增加1名乘客,将会使飞行成本平均增加名乘客,将会使飞行成本平均增加40.70元。元。 结论:结论:2021/8/628千元419. 4700407. 0570. 1iy*Y = 4.48千元二者差千
9、元二者差0.061千元或千元或61元。元。2021/8/629第三节第三节 一元线性回归方程的评价一元线性回归方程的评价n测定系数n估计标准误差2021/8/630n一、测定系数n 回归直线与各观测数据的接近程度回归直线与各观测数据的接近程度称为回归直线的称为回归直线的拟合优度拟合优度。n 度量回归直线的拟合优度最常用的度量回归直线的拟合优度最常用的指标是指标是测定系数测定系数,(,(又称又称可决系数可决系数、判判定系数定系数)。)。n 该指标是建立在对总离差平方和进该指标是建立在对总离差平方和进行分解的基础之上的。行分解的基础之上的。 2021/8/631离差分解图离差分解图xyyxy10y
10、yyyyy),(iiyx离差分解图2021/8/632离差平方和的分解离差平方和的分解两端平方后求和有两端平方后求和有)()(yyyyyy222yyyyyyiii总离差平方和(SST)回归平方和(SSR)残差平方和(SSE)22222)()(1)() (yyyyyyyySSTSSRRiiiii(12.9)(12.10)(12.11)2021/8/633决定系数的取值决定系数的取值nR2的取值范围是的取值范围是0,1。nR2越接近于越接近于1,表明回归平方和占总离差,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。越
11、接近,回归直线的拟合程度就越好。n在一元线性回归中,相关系数在一元线性回归中,相关系数r的平方等于的平方等于判定系数,符号与自变量判定系数,符号与自变量x的系数一致。的系数一致。因此可以根据回归结果求出相关系数。因此可以根据回归结果求出相关系数。 2021/8/634n(一)残差(一)残差 n 残差残差(Residual error)是因变量的观察值y和因变量的估计值 之间的偏差。iy iiyy 例如,上面的例子, 705ixi,元061. 0419. 448. 455 yy(12.12)2021/8/635表12-3 残差计算表2021/8/636(二)误差平方和(二)误差平方和 n 残差平
12、方的总和称为残差平方的总和称为误差平方和误差平方和(Sum of squares of error,SSE)。)。 2iiyySSE(12.13) SSE的值是用估计回归方程估计样本中因的值是用估计回归方程估计样本中因变量的值时所产生误差的一种测度。变量的值时所产生误差的一种测度。 2021/8/637(三)总离差平方和(三)总离差平方和n 因变量的值与其均值之间离差的平方和称为总离差平方和总离差平方和(Total sum of squares,SST)。2yySSTi(12.14) 2021/8/638(四)回归平方和(四)回归平方和 n 因变量的值与其估计值之间离差的平方和称为回归平方和回
13、归平方和(Sum of squares due to regression,SSR)。 2iiyySSR(12.15) 2021/8/639例如;飞行成本案例中各种有关数据计算如下n表12-4 计算表 2021/8/640n由表12-4计算结果可知,nSSE = 0.31434,nSSR = 2.79775,nSST = 3.11209,n则 899. 011209. 379775. 22SSTSSRr2021/8/641n 这就是说,在一条商业航线上一架波音这就是说,在一条商业航线上一架波音737飞机飞行成本的方差中有飞机飞行成本的方差中有89.9%可以被可以被乘客数目说明或预测,换句话说,
14、飞行成乘客数目说明或预测,换句话说,飞行成本本Y的方差中不能由的方差中不能由X或回归方程解释的有或回归方程解释的有10.1%。 2021/8/642二、估计标准误二、估计标准误n 估计标准误估计标准误:是对各观测数据在回归直线周围分散程度的一个度量值,它是对误差项的标准差的估计。n估计标准误反映了用估计的回归方程拟合因估计标准误反映了用估计的回归方程拟合因变量变量Y时平均误差的大小。时平均误差的大小。n各观测数据越靠近回归直线,各观测数据越靠近回归直线,sy 就越小,回就越小,回归直线对各观测数据的代表性就越好。归直线对各观测数据的代表性就越好。n与与R2不同的是,估计标准误是一个有单位的不同
15、的是,估计标准误是一个有单位的平均数。平均数。MSEnSSEnyysiiy22)(2(12.16)2021/8/643n在飞行成本的案例中:nsse=0.31414 n=12千元1773. 01031434. 02nSSEsy【统计分析】计算结果表明,在12条商业航线上,每架波音737飞机在飞行500公里和其他条件相同情况下,其飞行成本与它们的平均飞行成本平均相差117.3元。2021/8/644三、利用测定系数计算相关系数三、利用测定系数计算相关系数n样本相关系数 21rbrxy的符号(12.17) 例如,例如,在飞行成本的例子中,在飞行成本的例子中, 899. 02r0407. 01b95
16、. 0899. 02rrxy2021/8/645n 计算结果表明,波音计算结果表明,波音737飞机在相同季飞机在相同季节节12条航线上,乘客数量与运行成本之间条航线上,乘客数量与运行成本之间存在线性高度的正相关关系。存在线性高度的正相关关系。 2021/8/646测定系数与相关系数的联系与区别测定系数与相关系数的联系与区别 n 两种系数都可以用来测量线性相关关系的强弱;n 两种系数的取值范围不同:测定系数在01之间,相关系数在-1 +1之间。n 两种系数的作用范围不同:相关系数只能用来测定双变量之间的线性相关关系的强弱,测定系数除了可以测量双变量之间线性相关关系的强弱外,还可以用来测量非线性相
17、关关系的强弱和多变量时的相关。因此,测定系数的应用范围比相关系数更广泛。2021/8/647第四节第四节 模型假定模型假定 n 在进行回归分析时,为了建立适当的模型来说明因变量和自变量之间的关系,需要做出一些假定。n 简单线性回归的假定模型是: xy102021/8/648n 要确定假定模型是否恰当,就需要进行显著性检验。n 显著性检验建立在以下有关假定的基础上: 关于回归模型中误差项 的假定 (1)误差项 是一个随机变量,它的均值或期望值为0,即 0E(12.18)2021/8/649 xyE10 x2 (2)对于所有 值,误差项 的方差( )相等,即 22221n (3)误差项)误差项 值
18、是相互独立的。值是相互独立的。 jiEji 0(12.19)(12.20)2021/8/650n(4)误差项 是一个服从正态分布的随机变量niNi,2102(12.21)2021/8/651第五节第五节 回归分析中的显著性检验回归分析中的显著性检验 n回归分析中的显著性检验包括两方面的内容:回归分析中的显著性检验包括两方面的内容:n一是对一是对单个自变量回归系数单个自变量回归系数的显著性检验(的显著性检验( t检检验);验);n二是对二是对整个回归方程(所有自变量回归系数)整个回归方程(所有自变量回归系数)显著性的整体检验(显著性的整体检验( F检验)检验)n在一元线性回归模型中,由于只有一个
19、解释在一元线性回归模型中,由于只有一个解释变量变量X,因此,对,因此,对10的的t检验与对整个方检验与对整个方程的程的F检验是等价的。检验是等价的。 2021/8/652一、单个回归系数显著性的一、单个回归系数显著性的t检验检验n第第1步:提出假设。一般为步:提出假设。一般为n对于一些具体问题也可能需要进行单侧检验。对于一些具体问题也可能需要进行单侧检验。n第第2步:确定检验的统计量。可以证明在步:确定检验的统计量。可以证明在回归模型的基本假设成立时,如果零假设回归模型的基本假设成立时,如果零假设正确,则有正确,则有0:0:1110HH)2(11ntsbtb(12.22)2021/8/653n
20、xxssyb221(12.23)2021/8/654n第第3步:计算检验统计量的样本观测值。步:计算检验统计量的样本观测值。n第第4步:进行决策:步:进行决策:n根据显著性水平根据显著性水平a a和自由度和自由度dfn2确定检验统计量的临界值,确定检验统计量的临界值, t taa时拒绝时拒绝H0;2021/8/655例如,已知在飞行成本的例子中, 1773. 0ys。,12737649302nxx004314. 012930737641773. 02221nxxssiiyb0407. 01b2021/8/6564344. 9004314. 00407. 011bsbt查表查表 (P453)=
21、2122/05. 0t228. 22021/8/657n 由于t = 9.43 ,表明t值落在拒绝域。因此,总体斜率 的假设被拒绝,说明X与Y之间线性关系是显著的。n 即12条航线上,波音737飞机在飞行500公里和其他条件相同情况下,其乘客数量与飞行成本之间的线性关系是显著的。 228. 2102/05. 0t012021/8/658单个回归系数的显著性检验的几点说明单个回归系数的显著性检验的几点说明n 为什么要检验回归系数是否等于为什么要检验回归系数是否等于0?n如果总体中的回归系数等于零,说明相应的自如果总体中的回归系数等于零,说明相应的自变量对变量对y缺乏解释能力,在这种情况下我们可能
22、缺乏解释能力,在这种情况下我们可能需要中回归方程中去掉这个自变量。需要中回归方程中去掉这个自变量。n 我们也可以对常数项进行我们也可以对常数项进行t检验,但大部分检验,但大部分情况下我们并不关心常数项的检验结果。情况下我们并不关心常数项的检验结果。n 通常情况下即使常数项在模型中不显著,我通常情况下即使常数项在模型中不显著,我们也会在模型中保留常数项,去掉常数项可能们也会在模型中保留常数项,去掉常数项可能会对模型带来不利影响。会对模型带来不利影响。2021/8/659n第第1步:提出假设。在一元回归为步:提出假设。在一元回归为 第第2步:确定检验统计量:步:确定检验统计量: ) 2, 1 ()
23、 2/(1/nFMSEMSRnSSESSRF二、方程整体显著性的二、方程整体显著性的F检验检验 显著)两个变量间的线性关系不显著)两个变量间的线性关系(0:(0:1110HH(12.24)2021/8/660 MSE:均方误差均方误差(Mean square error)是残差平方和(SSE)除以自由度(n-2)所得的一个平均数,它是残差项方差的一个无偏估计量。 2nSSEMSE(12.25)2021/8/661n例如,在飞行成本的例子中nSSE=0.31434,(n-2)=(12-2)=10,n则031434. 01031434. 02nSSEMSE2021/8/662nMSR:均方回归均方
24、回归(Mean square regression)是回归平方和(SSR)除以它的自由度所得的平均数。回归自由度SSRMSR (12.26)2021/8/663 在这一节所考虑的模型里,将回归自在这一节所考虑的模型里,将回归自由度定义为自变量的个数,则由度定义为自变量的个数,则自变量个数SSRMSR (12.27)2021/8/664n 在双变量回归分析中自变量是1个,所以,MSR=SSRn 例如,在飞行成本的例子中,n SSR = 2.79775,n 所以MSR=SSR=2.79775。 第第3步:计算检验统计量的样本观测值。步:计算检验统计量的样本观测值。2021/8/665n第第4步:进
25、行决策:步:进行决策:n根据显著性水平根据显著性水平a a和自由度和自由度1,n2确定检确定检验统计量的临界值验统计量的临界值Fa a ,FFa a时拒绝时拒绝H0;n或者或者p值值 96. 410105. 0,F所以,我们拒绝 ,并得出结论:0H 当显著性水平为0.05时, F检验提供了必要的统计证据,使我们得出乘客数量与飞行成本之间存在显著性关系的结论。012021/8/668n 在简单回归分析中,还可以利用F值与t值的关系来进行F检验。 2tF 例如,在飞行成本的例子中,已知t=9.43 92.8843. 922 tF(12.28)2021/8/669三、解释显著性检验时应注意的两个问题
26、三、解释显著性检验时应注意的两个问题 n(一)拒绝了零假设,并得出自变量和(一)拒绝了零假设,并得出自变量和 因变量之间存在统计显著性关系的结论,因变量之间存在统计显著性关系的结论,并不能使我们认为和之间存在并不能使我们认为和之间存在因果关系因果关系。 2021/8/670注意:相关关系注意:相关关系因果关系!因果关系!n 典型的错误推断:典型的错误推断:n庆祝生日有利于健康。统计庆祝生日有利于健康。统计分析表明,庆祝生日次数越分析表明,庆祝生日次数越多的人越长寿。多的人越长寿。n学生穿的鞋越大,他的识字学生穿的鞋越大,他的识字水平就越高:对小学各年级学生的抽样调查表明,学生水平就越高:对小学
27、各年级学生的抽样调查表明,学生的识字水平与他们鞋子的尺寸高度正相关。的识字水平与他们鞋子的尺寸高度正相关。n思考问题:如何证明两个变量之间存在思考问题:如何证明两个变量之间存在因果关系因果关系? 2021/8/671(二)仅仅能够拒绝零假设和证明了统计(二)仅仅能够拒绝零假设和证明了统计的显著性,还不能得出结论:的显著性,还不能得出结论:Y和和X之间之间存在线性关系。存在线性关系。 2021/8/672第六节第六节 回归估计和预测回归估计和预测n一、点估计一、点估计 n利用回归方程,对给定的某一特定值时的均值进行估计或预测。例如,上面我们提到的在乘客人数为75人时,对飞行成本的预测就是一种点估
28、计或预测。n二、区间估计二、区间估计n略2021/8/673三、三、Y Y均值的置信区间估计均值的置信区间估计 的估计值ppyEy :自变量某一给定的值:pxppxbby10的均值的对应给定自变量yxyEpp:(12.29)2021/8/674n一般地说,当用 估计 时,不能希望二者正好相等。要推断 是如何接近 真实均值 ,就需要根据回归方程求出方差估计值。py pyEpy pyEnxxxxnssiipyyp/122222(12.30) pys2: 的方差的方差py 2021/8/675n 的标准差为: py nxxxxnssiipyyp/1222(12.31) 的置信区间估计公式为:的置信区
29、间估计公式为: pyEpypsty2/a(12.32) 2021/8/676n例如,在飞行成本的模型中,我们要预测当 (乘客人数)为73时,在95%的置信度内 (飞行成本)的均值。xy置信度置信度=95%; 05. 0adf = n 2 = 12 2 =10;s = 0.1773; 930 x5 .77x737642x228. 2102/05. 0t2021/8/6775411. 4730407. 057. 1pynxxxxnssiipyp/12220533667. 012930737645 .77741211773. 02273px当当 时时2021/8/678pyE的置信区间为:的置信区间为: pypsty2/a66. 442. 41217. 05411. 40533667. 0228. 25411. 4(12.33)2021/8/679n这说明,当 时,在95%的可信度下,Y的均值会落在4.424.66千元之间。73px2021/8/680四、预测某个四、预测某个Y值的单个区间值的单个区间 n 回归预测的另外一种区间是对每个给定自变量的值预测单个Y值的估计区间。 nxxxxnstyiipyp/112222/a(12.34) 2021/8/681n例如,我们利用上一个例子的所有资料,便可预测当X=73时单个Y值的估计区间。12930737645 .777
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 系文宣部培训大会
- 中国传统节日课件背景
- 浙大中控培训
- 制作商务培训
- 企业法治教育培训
- 职业健康防护:噪声与粉尘危害防控
- 城市可持续发展与绿色运营服务的结合
- 浙江汽车职业技术学院《中学英语学科课程标准与教材研究》2023-2024学年第一学期期末试卷
- 北京印刷学院《药剂学(Ⅰ)》2023-2024学年第一学期期末试卷
- 多方参与者在数字化教育资源共建中的协作机制
- 图解“双均线双交叉”期货、股票操作系统课件
- 小学语文扩句、缩句专题
- 农村公路安全生命防护工程施工方案
- (部编版)统编版小学语文教材目录(一至六年级上册下册齐全)
- 抗滑桩专项的施工组织方案[专家评审]
- 常用弹簧钢号对照表
- 应用回归分析(第三版)何晓群_刘文卿_课后习题答案_完整版
- 小学二年级下册劳动教案
- 食品安全及卫生保证措施
- 60m3卧式液化石油气储罐设计
- 树脂的污染及处理
评论
0/150
提交评论