实验数据分析方法_回归分析ppt课件_第1页
实验数据分析方法_回归分析ppt课件_第2页
实验数据分析方法_回归分析ppt课件_第3页
实验数据分析方法_回归分析ppt课件_第4页
实验数据分析方法_回归分析ppt课件_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、素。素。0kkkyx 式中,x称为自变量或预测变量,y为因变量,0,为待定的模型参数, 是随机误差项,它表示除自变量x以外的随机因素对因变量y影响的总和。为0、方差为2的正态分布。因为误差项通常代表模型中略去的许多因素的影响,这些因素在一定范围内影响因变量取值,并且随机的变化:依中心极限定理,它们近似服从正态分布。0,1.kkkyxkN0,kkybbx式中b0,b 为参数0, 的估计值,yk为y的回归值。kkkyy22011() ,nnkkkkkQybbx0002()0,2()0,kkkkkybbxbybbxxb 222()()1()()kkkkkkkkkxyx yxxyyNbxxxxN 01

2、(),kkbybxybxN1111,.NNkkkkxxyyNN0.ybbx0,kbbx00(),( ),E bE b22021(),()kxD bNxx221( )().()kD bxx 这表明回归参数的最小二乘估计是无偏估计,它们的方差和随机变量的方差2,观测数据的个数N及自变量的取值范围的大小有关;在相同2的条件下,观测次数越多,自变量取值范围越大,估计值的方差就越小。 在回归分析中,通常把因变量y看作为随机变量,并称某一次观测的实际观测值yk与它的平均值 的差 为离差,N次观测的离差平方和称为总平方和,用lyy表示,即:ykyy21() ,Nyykklyy22()()()yykkkkkk

3、lyyyyyykkkkkyyyy22)()(2200()()() ,kkkkQyybb xy2200()()kkkUyybbxbbx22() .kbxxyylUQ 从回归平方和U和剩余平方和Q的意义很易说明,回归效果的好坏取决于U和Q的大小。下面我们从假设检验的角度来给出衡量回归效果好坏或判别回归方程显著与否的标准。 假设检验必须要给出原假设,在讨论两个变量之间是否有线性关系时,主要就是要检验模型中模型参数是否为零:假如0,则两个变量之间无线性关系。因而,我们把“0作为检验的原假设H0。 有了原假设后就要构造一个统计量,这个统计量必须满足三个条件:(1) 能用样本值计算得到;(2) 和原假设有

4、关;(3) 已知这个统计量的分布。根据这三个条件,统计量应该从反映y变化的回归平方和及剩余平方和中去找。利用正交线性变换可以证明:总平方和、回归平方和、剩余平方和都是变量2,且有: 2(1),yylN2(1),U2(2),QN,/2UFQ N确定了统计量F的分布以后,对给定的显著水平(0.01,0.05,0.1),由F分布表查出置信限F(1,N-2):这意味着p(FF(1,N-2)1-,而FF(1,N-2)是否定域。因而,如果由样本算出的统计量FF(1,N-2),说明原假设H0不成立,我们则称回归直线方程是显著的:且对于FF0.01(1,N-2)的情况属于高度显著,对FF0.05(1,N-2)

5、的情况,称为在0.05水平上显著,对F F0.1(1,N-2)的情况是在0.1水平上显著。当FF(1,N-2)时,则称回归方程在水平上不显著,表明所求得回归直线没有实际意义。这种检验方法就称为F检验法。在统计学中,也通常把上面的检验过程称为方差分析。( )/(2)UFQ N(1,2)FFN (1,2)(2)(1,2)aaaFNrNFN 由r的定义可知rl。当r的绝对值较大时,说明y与x的线性相关较密切;r的绝对值较小时,说明y与x的线性相关程度较弱,这时散点离回归直线较分散;当r1时,所有的点都在回归直线上,表示y与x完全线性相关;而当r0时,则表示y与x毫无线性关系。下图显示了不同线性相关系

6、数散点的分布情况。 可以证明,相关系数显著性检验和回归方程可以证明,相关系数显著性检验和回归方程F F检验是完全等价的。检验是完全等价的。 由回归系数的估计值b的计算公式,在k为正态分布的假定下,我们可以得到 故有:2( ,/),xxbNl (0,1).xxblN利用参数的区间估计的基本原理可得的区间估计为(/,/),axxaxxbNlbNl/,axxNl22/,yyySQ l (2).yyyblt NS(2)/,(2)/),ayxxayxxbtNSlbtNSl1/21/2yyyy00()()0,iiiiEE bbxx()()iiiDD yyb xx22()()()()()()1()xyiix

7、xkiikkjjkiikkjjlD yyxxlxxxxD yyyxxxxxxD yyNxx222()11.()ijxxNxx2221()( )1.()jxxDNxx y221()(0,1).()jxxyyNNxx1,NNP yyy 221()1,()NajxxNNxx(,).NNyyy的置信带的示意图的置信带的示意图 y221()1,()NajxxNNxx x221()11,()jxxNxx y2 预测问题与回归方程的误差问题是密切联系的:对观测数据以外的任一给定的自变量xo,相应的因变量可由回归方程 得到。根据回归方程的误差范围可知, 是预测的最佳值,而回归方程的误差范围也就是预测值的误差范

8、围:N愈大,且靠近自变量的平均值 附近时, ,预测的精度就愈高。这说明,回归方程的适用范围一般仅局限于原来观测数据范围,即适用于用来进行所缺数据的补插,而超出这个范围时预测精度就较差。 000 ybbx0 yx,N 控制是预测的逆问题。要求因变量y在某区间(y1,y2)内取值时,则应把自变量x控制在什么范围内? 也就是要求相应的(x1,x2),使x1xx2时,相应的y至少以1-的置信水平落在区间(y1,y2)内。 在实际应用中,由于多种原因这些假定不一定都满足。观测天文学中最常见的是:x通常也是观测量,它是有误差的,因此两个变量所处的位置是对称的,不能明确指定哪个是因变量哪个是自变量;另外,数

9、据的内禀离散和观测误差相比占了很大的比例,亦即我们在前面提到过的除了观测误差之外,两个变量间关系本身的不确定性较突出。 iixx22 1/2()() .iiiiixxyy,jvarj下面我们首先给出把五种回归方法应用到一个实际的天文例子中,即椭圆星系中恒星的速度弥散和其光学光度之间的关系:Ln (Faber-Jackson关系)。研究这个问题的目的是: 从的测量值估计星系的光度,亦即到星系的距离; 比较n的经验测量值和从椭圆星系形成模型预测的值。下图示出L和的测量数据及利用五种回归方法的系数公式得到的5根回归线。计算的斜率是:OLS(L|): 2.40.4; OLS(|L): 5.40.8;

10、OLS平分线: 3.40.4; RMA: 3.60.4和OR:5.20.8。这个结果表明关于距离和星系形成模型的结论明显依赖于所采用的回归方法,而五种回归线之间的离差大于任何一种估计的方差!n(4) 如果研究目的是了解变量间的基本关系,那么处理对称变量的三种回归方法(OLS平分线,OR方法和RMA方法)都可以使用,但普遍认为OLS平分线方法是值得推荐的。2012,mmyxxx10.xye0001ln ,ln,YyXx01.YX01,kkkYx 利用一元线性回归分析,由N组观测值(xk,yk)可以解得回归参数 , 的估计值 ,利用变量代换关系可以得到曲线回归参数的估值:及曲线回归值:010111

11、0,0e.10kxkey+22()1,()iiiyyRyyiy y2()2iyyySN01 122,mmyxxx(,)1;1,kikxykNim01 122.mmybb xb xb x21() .NkkkQyy11 11221121 1222221 122,.mmymmymmmmmmyl bl bl bll bl bl bll bl blbl01 122,mmbyb xb xb x1111()(),1,()(),1,11,1.NijkiikijkNiykiikkNNkikikklxxxxi jmlxxyyimyyxximNN1111121222122212,.ymymymymmmmmlblll

12、lblllBLLlblll1,1.miij jyjBc lim 在多元回归中,由于各自变量的量纲往往是不一致的,这会使正规方程中各系数之间产生较大差异,影响了求解精度。如果我们采用标准化回归模型,则可在一定程度上避免这方面误差的影响。另外。从最后得到的标准回归系数的大小,可以观察各自变量对因变量关系的密切程度。 所谓标准化模型,就是将原来的数据进行标准化变换,而对变换后的数据建立的回归模型。将原观测数据作如下的标准化变换:其中:,kiikkikiyxxyyxy,iiiyyyll12,1,kkkmkxxxykN0(1),0,1,1.iiyximy11 11221121 1222221 122,.

13、mmymmymmmmmmyl bl bl bll bl bl bll bl blbl 11()()NNijijkikjkikjkklxxxxx x ,1,1,ijii jjlimjm yl l,1,1,ijijii jjlrimjmyl l11 11221121 1222221 122,.mmymmymmmmmmyr br br brr br br brr br br br111212122212,mmmmmmrrrrrrRrrr11221(),yyijymymrbrbCcRRBrb,yR BR ,yBC R1,1.miijjyjbc rim1122,mmyb xb xb x 00b ,(11

14、 ),iiiybbm (一) 回归方程的显著性检验 多元线性回归的显著性检验又称多元回归的方差分析,和一元回归的检验类似。我们仍然利用假设检验,并用全部回归系数均不为“0的假设的对立假设为原假设。即: 012:0,0,0,mH2() .yykklyy2() .kkUyy2() .kkkQyy,yylUQ原假设H0成立的条件下,U 2(m),Q 2(Nm1),且U和Q相互独立。于是,统计量 服从第一自由度为m,第二自由度为Nm1的F分布。 /(1)U mFQNm 和一元回归类似,多元回归方程的显著性检验也可以应用相关系数检验法。定义: ,yyURl 为y与各个自变量xi( i1 m)的复(或全)

15、相关系数。R的大小在一定的程度上反映了y与这些变量之间的密切程度:R越大表明y与这些变量之间的线性关系越密切;反之则表示这种线性关系不密切。但是必须提出,我们不能单纯从R的大小来评定回归效果的好坏,因为R的大小还与自变量个数m及观测组数N有关。(1)mFRmFNm(二) 回归系数的显著性检验 在多元回归中,我们并不只满足于回归方程是显著的这个结论。因为回归方程显著只是拒绝了“回归系数全部为0这一假设,但这并不意味着每个自变量对因变量y的影响都是重要的;即可能其中的某些回归系数为或接近零。我们总是希望在线性回归方程中包含与y有显著关系的那些变量,不包含那些次要的、可有可无的变量。因此对于多元回归

16、来说,除了进行回归方程的显著性检验以外,还必须对每个变量相应的回归系数进行检验。1,mmjjpUU/(1)jjpFQNm 服从第一自由度为l,第二自由度为N-m-1的F分布。于是对给定的置信度,由F分布表可查得F(1,N-m-1)。当统计量FjF(1,N-m-1)时,则认为变量xj对y的影响在水平上显著,在回归方程中应保留这个变量。由于xj是所有变量中对y贡献最小的一个,所以对其他变量可不必再作检验。如果计算的统计量FjF, 则接受原假设,认为和xj对应的回归系数不显著,应从回归方程中将变量xj剔除,然后,重新建立m1元的新的回归方程,计算回归系数和偏回归平方和,再按上面的方法进行回归系数的显

17、著性检验。 *,kjjjkkkcb bbjkc*01,mjjj kbyb x其中ckk,ckj是原m元回归方程中系数矩阵的逆阵C中对应的元素 2,1.jjjjbpjmc 在实用回归分析中,除了对回归方程和回归系数的显著性检验以外,还可以通过对残差的分析来检验模型的适度。残差即因变量观测值yi和回归值 之差,记为ei:这个差是回归方程不能解释的量,如果模型正确,可将ei看作观测误差。在进行回归之前,对误差(未知的真误差iyiE(yi))已作了假定,即误差相互独立、具有零均值和固定方差2;为了求置信区间和进行假设检验,又假定误差服从正态分布。因而,如果拟合的模型正确,残差就应当呈现出所假定的误差的

18、特性。如果回归函数非线性,误差项不独立,误差项方差不相等,模型中缺少一个或几个自变量等偏离模型的情况,都可以通过残差图直观地反映出来。iy (一) 残差图分析 线性模型适合线性模型适合模型不适,应模型不适,应包含更多项包含更多项方差不是常数方差不是常数误差项不独立误差项不独立或缺少自变量或缺少自变量(二) 残差的统计检验 1212111211(2 ),nnkkP Rknnn1212121111111(21).nnnnkkkkP Rknnn121221,n nRnn2121212212122(2)( ).() (1)n nn nnnRnnnn 对给定的显著水平,由R的概率分布可得拒绝域0, R(n1,n2)的临界值R(n1,n2),它可以从数理统计表中的“游程总数检验表查出。 例如对前面列出的残差符号排列,n111, n212,R10,取显著水平0.05,查“游程总数检验表得R0.05(11,12)8,则有RR0.05,应该接受残差序列为随机的假设。实际上,当n1, n210时,游程总数R渐近服从正态分布,即 212( )RRZR 服从标准正态分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论