节 相关与回归PPT学习教案_第1页
节 相关与回归PPT学习教案_第2页
节 相关与回归PPT学习教案_第3页
节 相关与回归PPT学习教案_第4页
节 相关与回归PPT学习教案_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1节节 相关与回归相关与回归第1页/共73页第2页/共73页第3页/共73页第4页/共73页()( )XYXYXYXXYYEXE XYE YCov(X,Y)在统计上衡量两个随机变量X、Y取值间相互联系的程度和方向的量是协方差Cov(X,Y)和相关系数,有第5页/共73页1XY证 明2()()D YXE YXE YX证:对于任意实数 ,有2( )()EYE YXE X222( )()2( )()E YE YE XE XEYE YXE X22YYXXXY XYXX令 ,则有()2XYXYXYYYXXXYXXXXXXD YX2()22XYYYYYXX(1-)21YY由方差的性质知,(1-) 0

2、,所以第6页/共73页2211()()11nniiiiXXYYXXYYSSnn;rYX变量 和 之间线性相关的程度可以用样本相关系数 度量。rXYXXYYSSS公式为11()1nXYiiiSXXYYn() 为样本协方差第7页/共73页r样本相关系数 的另一个计算公式为:11122221111r()()nnniiiiiiinnnniiiiiiiinx yxynxxnyy r1r1 相关系数 的取值为:第8页/共73页r1r1r0YXYXYXYX,变量 和 是完全正相关;,变量 和 是完全负相关;在这两种情况下, 和 之间的关系是函数关系。 时,只能说明 和 之间不存在线性统计关系,但可能存在非线

3、性关系xy正正 相相 关关xy负负 相相 关关xy曲线相关曲线相关xy不不 相相 关关第9页/共73页使用年限使用年限x x维修费用(元)维修费用(元)y yxyxy2 25405404 4291600291600108010803 35205209 9270400270400156015604 46406401616409600409600256025604 47407401616547600547600296029605 56006002525360000360000300030005 58008002525640000640000400040006 6700700363649000049

4、0000420042006 67607603636577600577600456045606 69009003636810000810000540054008 88408406464705600705600672067209 910801080818111640011640097209720合计合计5858812081203483486268800626880045760457602x2y第10页/共73xy 42)58(111348l2xx 274764)8120(1116268800l2yy 870274764422945r 计算结果表明,机床使用年

5、限与维修费用之间为计算结果表明,机床使用年限与维修费用之间为高度正相关。高度正相关。第11页/共73页01:0:0HH假设2r02tn21r ntr实际应用中是对 作变换,所以对总体系数 的假设检验,可令()r因为线性相关系数通常是根据样本数据计算出的,带有一定的随机性,因此要通过样本相关系数 对总体相关系数 作出推断。2ttr若,表明 在统计上是显著的,r可作为X和Y之间是否存在线性关系的证据。2ttr若,表明 在统计上是不显著的,r不能作为X和Y之间是否存在线性关系的证据。第12页/共73页第13页/共73页第14页/共73页01,iYXu例如:分析家庭消费支出Y与可支配收入X两变量的关系

6、二者之间有数学结构式:(9.3)019.3iu式中:、 是总体回归参数; 是随机项,表示除可支配收入以外其他影响家庭消费支出变化的因素。式(总体回)被称为归模型。一、一元线性回归的数学模型一、一元线性回归的数学模型iu2是相互独立,具有相同方差的随机变量。随机干扰项的随机干扰项的主要内容主要内容有:有:1.未具体列入模型但又共同影响变量的种种因素未具体列入模型但又共同影响变量的种种因素2.变量的观测误差变量的观测误差3.随机误差随机误差4.模型的设定误差模型的设定误差第15页/共73页i01(|)iiE YXX是一元线性函数1201122(|,)iiiiiE YXXXX是二元线性函数10112

7、01(|).(|)iiniinniiiiE YXXXXE YXX,.是多元线性函数是非线性函数201(|)iiiE YXX是一元线性回归函数01(|)iiiE YXX而就不是线性函数第16页/共73页x1x2x3x4x5x6x7x8x9x1080100120140160180200220240260样本170659095110115120140155120样本255889080118120145135145175第17页/共73页对散点分别拟合直线,是总体回归线的估计线对散点分别拟合直线,是总体回归线的估计线第18页/共73页01iiiiiiYXeeY样本回归模型为:称为残差,是样本观测值 与

8、估计值Y 之间的误差。根据散点图,我们可以用样本回归直线方程对总体回归直线方程进行推断和估计。01iiX样本回归方程为: Y第19页/共73页1.iiiiiXuuXu假定以给定的为条件, 服从条件期望为零的正态分布,即E()=0;简记为:E( )=02.( ,)()()0()ijiijjCov u uE uEuuEuij假定各个随机干扰项之间互不相关,即假定它们之间无序列相关或自相关3.iiiiXuYuu2i假定对于每个给定的, 的方差是一个常数,即各个 总体具有相同方差,即D( |X )=D( )=1.简单线性回归模型的统计假定简单线性回归模型的统计假定4.()()()0iiiiiiiiuX

9、Cov u XE uEuXEX假定与不相关。即,满足以上满足以上4条假设的线性回归模型称为条假设的线性回归模型称为古典或普通线性回归模型古典或普通线性回归模型,其参数估计所采用的最小平方法称作普通最小平方法,其参数估计所采用的最小平方法称作普通最小平方法第20页/共73页0101iiiiiYXYXe设样本线性回归模型为:iiiYe由上两式得 Y01iiiiiiiYYeYYYX就是 的拟合值, 为拟合误差201111nnniiiiiiiieYYYX22即 () ()minie要使拟合的直线“最佳”,就要使 最小,第21页/共73页2011niie分别对、 的一阶偏导数等于零21011niiiii

10、eYX Xi-2()=021010niiiieYXi-2()=001201iiiiiiiiiiiYnXY XXX整理后为;+1012()()()iiiiXX YYYXXX最后得到:第22页/共73页20101.0002()0iiiiiiiiYXi性质剩余残参之和为零,即由公式:可得 ,即e2.iXY性质所拟合的直线通过均值点( , ),即通过样本散点图的重心,因而预测值Y的均值等于观测值的均值。第23页/共73页010111()iiiiiYYXeXnn01111iiiiXYXXYXXY()+(- )111iiiiYXXYYnnY(- )于是:20112()0,0iiiiiiieYX Xeii由

11、公式:可得X ,3.iieX性质剩余项 与解释变量不相关)0iiiXXeiiiii又由于e 与解释变量的协方差为 (e -e)(XX第24页/共73页0011(),()EE014.性质、分别是总体回归参数的无偏估计量。012221100225.(,),(,)()()iiiiiiXNNXXXX性质、 都是服从正态分布的随机变量,有:0101iY在随机误差项为正态分布的假设下,由于、 都是 的线性组合,所以、 的分布也表现为正态分布。2012222iien i在, 的方差中都涉及到随机干扰项u 的方差,令的估计量第25页/共73页iiyYY证:令0101iiiYXuYXu对于回归模型得到: 010

12、11iiiiiyYYXXx1()iixuui两式相减,得到:yE22证明:( )iiiiieYYYYYY11()()iiiiyyuux第26页/共73页21122112() ()2 ()()iiiiiiiiiEeEx uxuEEuu取其期望得:22221111()()2()()iiiiiiiiineuuxx uu对 个样本观察值求剩余平方和,得:222() ()()2 ()iiiiiiiEuuEuEuE uu等式右边第一项212()iiDx第27页/共73页22222112()()iiiiiix Exx于是等式右边第二项有:12201122()()()()iiiiiiiiiiiiiiiiiii

13、iiiiXX YYX YYxXXxxXuxuxx等式右边第三项:112iiiiixux第28页/共73页21122222222211222()2 ()()2 ()2 ()22 ()2()2()iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiixuxuEx uuExuuxExxxuxEExxxx22222()(1)2(2)iiEenn分别代入得到:22()2iieEn于是:22所以: 是总体真实方差的无偏估计量第29页/共73页YXiYYiiYYiYY01iiYX第30页/共73页222()()()iiiiiiiSSTYYSSRYYSSEYYSSTSSRSSE令为总离差平方和为回归离

14、差平方和为剩余平方和则有:第31页/共73页2222()()()2()()()()iiiiiiiiiiiiiiiSSTYYYYYYYYYYYYYY证明:0101()()()()0iiiiiiiii iiiYYYYXY eYeX e因为222()()()iiiiiiiYYYYYY所以第32页/共73页如果如果SSR占的比例越大,则回归线对观察点拟合得越好。占的比例越大,则回归线对观察点拟合得越好。221(01)SSRSSErrSSTSST 称作判定系数,可用于判断回归方程的拟合优度。称作判定系数,可用于判断回归方程的拟合优度。2222122()()iiiiiiiinXXrnYY判定系数的计算公式

15、:第33页/共73页1若由判定系数开平方来求相关系数,可以通过回归系数来判断相关系数的符号,回归系数与相关系数正负号相同。2.回归系数的显著性检验回归系数的显著性检验21121122(,)() (2)iiiiNXXtt nx已知: 因此有检验统计量:第34页/共73页01111.:0,:0HH建立原假设:2.计算检验统计量t22(2),(2),tnXYtnXY3.根据给定的显著水平 ,若t则拒绝原假设,即 作为 的解释变量作用是显著的。若t则不能拒绝原假设,即 作为 的解释变量作用是不明显。第35页/共73页1(1,2)221FSSRSSRFFnSSE nSSEnSSTn方差来源平方和 自由度

16、值临界值回归残差总变差第36页/共73页01iiYX样本回归线为:0101iiiiiiYXuYXe总体回归模型:样本回归模型:00010,XX YX:给测定点值预22000102,()1(,()()iiXXYNXnXX:给定置信水区间预平(测1- )第37页/共73页2220002022() (2)()1()iiiienYE YXtt nXXnXX用代替,得到t统计量2002220022()1(2),()()1(2)()iiiiXXYtnnXXXXYtnnXX总体均值的预测区间为:第38页/共73页00,Ye0对应于给定的X=X 要预测总体的个别值 的取值区间,就要考虑 的分布000eYY已知

17、:222000022202()1()()()()()()1(1)()iiiiXXD eD YD YnXXXXnXX则000Y 与Y 都服从正态分布,则e 也服从正态分布,有202(0,1)()11()iiNXXnXX000(Y -Y)-E(e )第39页/共73页00202 (2)()1 1()iiYYtt nXXnXX当 代替 后,则有2002220022()1(2)1,()()1(2)1()iiiiXXYtnnXXXXYtnnXX0于是得到个别值Y 在给定置信水平1- 下的置信区间为:第40页/共73页例例9.9 随机抽查了生产同种产品的随机抽查了生产同种产品的10个企个企业,得到它们的产

18、量和生产费用的数据:业,得到它们的产量和生产费用的数据:企业编号12345678910产量40424855657988100120140生产费用1501401601701501621851651901851.建立生产费用对产量的回归方程建立生产费用对产量的回归方程2.预测当产量为预测当产量为80千克时,该类企业平均的生产费千克时,该类企业平均的生产费用的置信区间用的置信区间3.预测其产量为预测其产量为80千克的某企业的生产费用的置信千克的某企业的生产费用的置信水平为水平为95的置信区间的置信区间第41页/共73页解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检

19、验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验)回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测总体个别值的置信区间预测第42页/共73页作散点图作散点图从图中看出生产费用与产量之间的关系近似为线性从图中看出生产费用与产量之间的关系近似为线性第43页/共73页解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验)回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区

20、间预测总体个别值的置信区间预测第44页/共73页01iiYX估计回归方程122010.3978()134.79iiiiiiiiiiinX YXYnXXYX根据样本数据计算得:第45页/共73页解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验)回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测总体个别值的置信区间预测第46页/共73页拟合优度检验拟合优度检验2222122()0.652()iiiiiiiinXXrnYY检验结果说明生产费

21、用的变动有检验结果说明生产费用的变动有65.2可以由产量的变动解释可以由产量的变动解释第47页/共73页解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验)回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测总体个别值的置信区间预测第48页/共73页2201889.23iiiiiiiiieYYX Y0111:0:0HH2(2)10.5429iien110.05223.872(8)2.306iittx回归系数检验回归系数检验拒绝原假设,说明

22、拒绝原假设,说明X与与Y存在线性关系存在线性关系第49页/共73页解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测总体个别值的置信区间预测第50页/共73页回归方程检验回归方程检验22211666.33889.23iiSSRXnX因为(-)SSE0.0114.99(1,8)11.3(2)SSRFFSSE n即回归方程是高度显著的,即回归方程是高度显著的,X与与Y之间之间确实存在线性关系

23、确实存在线性关系第51页/共73页解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测总体个别值的置信区间预测第52页/共73页总体均值的置信区间预测总体均值的置信区间预测20022()1(2)()66.6147.707iiXXYtnnXX即置信区间为(即置信区间为(158.844 ,174.321)说明了)说明了当企业的产量为当企业的产量为80千克时,生产费用平均为千克时,生产费用平均为

24、158844元到元到174321元之间,其可信度为元之间,其可信度为95第53页/共73页解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测总体个别值的置信区间预测第54页/共73页总体个别值的置信区间预测总体个别值的置信区间预测20022()1(2)1()166.1425.503iiXXYtnnXX置信区间为(置信区间为(140.637,191.643)。对于产量为)。对于产量为80千

25、克的某个企业而言,其生产费用在千克的某个企业而言,其生产费用在140637元到元到191643元之间,可能性为元之间,可能性为95第55页/共73页第56页/共73页第57页/共73页多元线性回归模型多元线性回归模型1多元线性回归模型的性质多元线性回归模型的性质与模型的确定与模型的确定二元线性回归模型:二元线性回归模型:总体多元线性回归模型的一般形式总体多元线性回归模型的一般形式Y的数学期望的数学期望E(Y)随机误差随机误差表明自变量表明自变量共同变动引起的共同变动引起的Y 的平均变动。也称总体的二元线性回归方差。的平均变动。也称总体的二元线性回归方差。常数项常数项,和和Y构成的平面与构成的平

26、面与Y轴的截距轴的截距偏回归系数,表示在偏回归系数,表示在 固定时固定时 每变化一个单位引起每变化一个单位引起的的Y的平均变动;的平均变动;案例案例01122nnyxxx01122 yxx01122,E Yxx( )12,xx、0 1 12,xx、2x1x第58页/共73页偏回归系数,表示在偏回归系数,表示在 固定时固定时 每变化一个单位引每变化一个单位引起的起的Y的平均变动;的平均变动;2x1x随机误差,其理论假定与一元线性回归模型中的随机误差,其理论假定与一元线性回归模型中的 一一样。样。在多元回归模型中,还要求各自变量之间不存在显著相在多元回归模型中,还要求各自变量之间不存在显著相关,或

27、高度相关也即不得存在多重共线性。关,或高度相关也即不得存在多重共线性。样本多元线性回归模型的一般形式样本多元线性回归模型的一般形式二元线性回归模型为:二元线性回归模型为:其数学期望其数学期望也称样本(或估计的)二元线性回归方程。也称样本(或估计的)二元线性回归方程。2 1122nnyab xb xb x 1122yab xb x 1122E yab xb x( )第59页/共73页二元线性回归方程的确定二元线性回归方程的确定根据实际资料,用最小平方法,即使根据实际资料,用最小平方法,即使 ,分别对,分别对a、b1、b2求编导并令其为零,求得三个标准求编导并令其为零,求得三个标准方程:方程:解此

28、联立方程便可得到解此联立方程便可得到a、b1、b2。1122()yab xb x2()jyy 最最小小1122211121222211222jjjynabxbxx ya xb xbx xx ya xbx xbx 第60页/共73页2多元线性回归模型的判定系数和估计标准误多元线性回归模型的判定系数和估计标准误判定系数判定系数 0r21修正的判定余数:修正的判定余数:2211(1)1nrrnp 2211222222( )()()( )jjjjja ybx ybx yn yyyryyyn y r2和和Sy(x1、x2)都是对回归模型拟合优度的评价指标。都是对回归模型拟合优度的评价指标。 Sy(x1、

29、x2)也是用自变量对因变量进行区间估计的抽样误差。也是用自变量对因变量进行区间估计的抽样误差。估计标准误(估计标准误(Sy(x1、x2)1221122(,)()33jjjjjy xxyyya ybx ybx ySnn 第61页/共73页3多元回归模型的显著性检验多元回归模型的显著性检验对偏回归系数的对偏回归系数的t检验检验 H0: 1=0 , H1: 10;H0: 2=0,H1: 20。检验统计量:检验统计量:1212| |,| |bbbbtt122221(,)22211221122()() () ()()by xxxxSxxxxxxxx 122222b2(,)22211221122()()

30、() ()()y xxxxSxxxxxxxx 按显著性水平按显著性水平和自由度和自由度 (n-3)查查t表可得到临界值表可得到临界值t02(3)tn 2(3)tn 2(3)tn 第62页/共73页模型整体的模型整体的F检验检验检验统计量:检验统计量:(k自变量个数)自变量个数)或或 按给定的按给定的和自由度(和自由度(2)和(和(n-3)查)查F表可得到表可得到临界值临界值F22() /() /(1)jyykFyynk 22() /2() /(3)jyyFyyn 2222/2(3)(1)/(3)2(1)rrnFrnr 2,3nF ()2,3nF ()第63页/共73页4多元回归中的相关分析多元

31、回归中的相关分析 复相关:指一个因变量同多个自变量的相关关系。复相关:指一个因变量同多个自变量的相关关系。复相关系数恒取正值。复相关系数恒取正值。偏相关(净相关)指各个自变量在其他自变量固定不变时,偏相关(净相关)指各个自变量在其他自变量固定不变时,单个变量同因变量的相关关系。单个变量同因变量的相关关系。 计算偏相关系数需借助相关系数矩阵表的资料。计算偏相关系数需借助相关系数矩阵表的资料。二元回归中的相关系数矩阵表二元回归中的相关系数矩阵表yyx1x1x2x2ry1ry2r121.001.001.00 x1与与y的偏相关系数:的偏相关系数: x2与与y的偏相关系数:的偏相关系数:案例案例22122()(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论