第八章直线相关与回归分析

上传人：d*** IP属地：天津上传时间：2023-09-25 格式：DOCX 页数：17 大小：109.54KB 积分：15 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ii=1第十章一元回归与相关分析概述：许多问题需要研究多个变量之间的关系，例如生物的生长发育速度就与温度，营养，湿度等许多因素有关。相关关系：两变量X,Y均为随机变量，任一变量的每一可能值都有另一变量的一个确定分布与之对应。回归关系：X是非随机变量（如施肥）或随机变量（如穗长），Y是随机变量，对X的每一确定值xi都有Y的一个确定分布与之对应。区别：1•相关中的两个变量地位对称，互为因果；回归中X是自变量，Y是因变量。两种意义不同，分析的数学概念与推导过程不同，但如果使用共同标准即使y的残差平方和最小（最小二乘法），可得到相同的参数估计式。因此主要讨论X为非随机变量（不包含有随机误差）的情况，所得到的参数估计式也可用于X为随机变量的情况。2•分析目的不同。回归分析是建立X与Y之间的数学关系式，用于预测；而相关分析研究X与Y两个随机变量之间的共同变化规律，例如当X增大时Y如何变化，以及这种共变关系的强弱。分类：从两个变量间相关（或回归）的程度分三种：（1）完全相关。一个变量的值确定后，另一个变量的值可通过公式求出（函数关系）；生物学研究中不太多见。（2）不相关。变量之间完全没有任何关系。一个变量的值不能提供另一个变量的任何信息。（3）统计相关（不完全相关）。介于上述两情况之间。知道一个变量的值通过某种公式就可以提供另一个变量的均值的信息。一个变量的取值不完全决定另一个变量的取值，但可或多或少地决定它的分布。科研中最常遇到。研究“一因一果”，即一个自变量与一个依变量的回归分析称为一元回归分析；

研究“多因一果”，即多个自变量与一个依变量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种；多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。对两个变量间的直线关系进行相关分析称为直线相关分析；研究一个变量与多个变量间的线性相关称为复相关分析；研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。注意：1.相关与回归只是一种工具，不是不相干的数据拼凑在一起。2•除X、Y等需研究的因素外，其他的要严格控制一致。（身高与胸围的关系要控制体重）对子一般在5对以上需限制自变量范围，结果不能随意外延。第一节一元线性回归（一）直线回归方程的建立对于两个相关变量，一个变量用x表示，另一个变量用y表示，如果通过试验或调查获得两个变量的n对观测值：（xl,yl）,（x2,y2）,，（xn,yn）

为直观看出X和y间的变化趋势，可将每一对观测值在平面直角坐标系描点，作出散点图例11.1对大白鼠从出生第6天起，每三天称一次体重，直到第18天。数据见表11.1。试计算日龄X与体重Y之间的回归方程。表11.1大白鼠6-18日龄的体重序号12345日龄X；69121518体重y；1116.5222629散点图对X、Y之间的关系有直观的、整体上的印象，但是否有某种规律性，是接近一条直线还是一条曲线等，哪一条直线或曲线可以最好地代表X,Y之间的关系，不能做出判断。图11.1大白鼠日龄—体重关系图一、一元正态线性回归统计模型：对于每个Y的观察值yi来说，由于总是带有随机误差，观察值就应该是在均值的基础上再加上一个随机误差，即：y二a+Bx+£(11.2)iii其中8〜NID(0,Q2)。随机误差服从正态分布。这是一元正态线性回归的统计模型。i二、参数a和B的估计模型中的a和B是参数，一般不知道。由于只能得到有限的观察数据，无法算出准确的a与B的值，只能求出估计值a和b，并得到y的估计值为：iy=a+bx(11.3)iia和b应使残差e=y-y最小。为了避免使正负e.互相抵消，定义使残差平方和iiii£(y-y)2达到最小的直线为回归线，即令：iiSS=工(y—a—bx)SS=工(y—a—bx)2,且sSe对a、b的一阶偏导数等于0eiii=1dSSdadSSedb=0=0得：整理后,得工(—2)(y-a-bx)=0ii<i=1丫(—2)x(y—a—bx)=0iiii=1an+Vab》x=艺yiii=1i=1xy11.4)i=1iiii=1i=1解此方程,得：b=》nxyii(》x)b=》nxyii(》x)-(》iy)i》nx2—(》ni=1i=1工(x—x)(y—y)ii=-工(x—x)2ii=1=y—bx这种方法称为最小二乘法记S=工(x-x)2,称为X的校正平方和;TOC\o"1-5"\h\zxxii=1S=工(y-y)2,称为y的总校正平方和;yyii=1S=工(x-x)(y-y)，称为校正交叉乘积和，xyiii=1S则：b=亠(11.7)Sxxa叫样本回归截距，是回归直线与y轴交点的纵坐标，当x=0时，y=a；b叫样本回归系数，表示x改变一个单位，y平均改变的数量；b的符号反映了x影响y的性质，b的绝对值大小反映了x影响y的程度；

y叫做回归估计值，是当X在在其研究范围内取某一个值时，y值平均数a+Bx的估计值回归方程的基本性质：1工(y—y)2最小iii=12乙(y—y)=0iii=13.直线通过(x,y)转化后得到回归方程的另一种形式(中心化形式)y=y—bx+bx=y+b(x—x)在实际计算时，可采用以下公式：S乏x2—1x.2,xxini=1S二丈y2—1■y.2,yyini=1S二工xy1x.y.xyiii=1n工x=60,工x2=810,104.5,工y2=2394.25,工x=60,工x2=810,104.5,工y2=2394.25,工xy=1390.5iiii=1i=1表5.1大白鼠6-18日龄的体重序号12345日龄xi69121518体重y.1116.5222629解：把数据代入上述公式,得：工y=TOC\o"1-5"\h\ziiii=1i=1i=1S=810—-(60)2=90xx5S=2394.25—-(104.5)2=210.2,yy5S=1390.5—-x60x104.5=136.5,xy5Sb=〜=136.5/90=1.5167Sxxa=y—bx=104.5/5—1.5167x12=2.6996即：所求的回归方程为：y=2.6996+1.5167x带有统计功能的计算器，只需把数据依次输入，然后按一下键就可得到上述结果。根据直线回归方程可作回归直线，并不是所有的散点都恰好落在回归直线上，说明用y去估计y是有偏差的。三、直线回归的偏离度估计偏差平方和£(y-y)2的大小表示了实测点与回归直线偏离的程度，因而偏差iii=1平方和又称为离回归平方和。统计学已经证明：在直线回归分析中离回归平方和的自由度为n-2。于是可求得离回归均方为：工(y-y)2/(n-2)离回归均方是模型中。2的估计值。S离回归均方的平方根叫离回归标准误，记为yx，即S=&(y-y)2/(n-2)yxS的大小表示了回归直线与实测点偏差的程度，即回归估测值y与实际观测值yyx偏差的程度，于是把离回归标准误Syx用来表示回归方程的偏离度。以后将证明：工(y-y)2=ss-sp2/ssyxyx利用此式先计算出£(y-y)2，然后再求Syx。四、直线回归的显著性检验x和y变量间即使不存在直线关系，但由n对观测值(xi,yi)也可以根据上面的方法求得一个回归方程。显然，这样的回归方程所反应的两个变量间的直线关系是不真实的。需要判断直线回归方程的真实性。先探讨依变量y的变异，然后再作出统计推断。1、直线回归的变异来源(y-y)的分解图1)一元回归的方差分析(1)无重复的情况。y的总校正平方和可进行如下的分解：(y-y)=(y-y)+(y-y)

丫(y—丫(y—y)2=丫[(y—y)+(y—y)]2iiiii=1=丫(y—y)2+丫(y—y)2+2丫(y—y)(y—刃TOC\o"1-5"\h\ziiiiiii=1i=1i=1•••丫(y—y)(y—y)=X(y—a—bx)(a+bx—a—bx)iiiiiii=1i=1=工(y—y+bx—bx)(bx—bx)iiii=1=b[丫(y—刃(x—x)—bX(x—x)2]iiii=1i=1=b(S—b-S)=0xyxx•••工(y-y)2=工(y-y)2+工(y-y)2iiii=1i=1=SSe残差平方和n-2SSR

回归平方和1工(y-yiii=1i=1=SSe残差平方和n-2SSR

回归平方和1工(y-y)2反映了y的总变异程度,称为y的总平方和，记为SSy；工(y—y)2反映了由于y与x间存在直线关系所引起的y的变异程度，称为回归平方和，记为SSR；乂(y—y)2反映了除y与x存在直线关系以外的原因，包括随机误差所引起的y的变异程度，称为离回归平方和或剩余平方和，记为SSe。把y的总校正平方和分解成了残差平方和与回归平方和。MSe可作为总体方差8的估计量，而MSr可作为回归效果好坏的评价。如果MSr仅由随机误差造成的话，说明回归失败,X和Y没有线性关系；否则它应显著偏大。因此可用统计量MSSSF=R=RMSSS/(n—2)ee11.10)对H0：卩=0进行检验。若F<Fa(,则接受H。，否则拒绝。简化公式：SSr丄(y—y)2=Z[b(x—x)]2=b2工(x—x)2=b2SS=bSPSPSP2-SP=

SSxySSxySP2SS=SS—SS=SS—叫eyRySSx对例11.1作方差分析解：由以前计算结果：SSy=210.2，df=4;ySSe=3.1704,df=3,df=1SSR=210.2—3.1704=207.03,df=1207.033.1704/3=207.033.1704/3=195.90查表得F0.95（1，3）=10.13,F0.99（1,3）=34.12F>F0.99（1,3）,拒绝H°,差异极显著。即应认为回归方程有效。（2）有重复的情况：设在每一个xi取值上对Y作了m次观察，结果记为yi1,yi2,yim,则线性统计模型变为：y=a+Bx+&,i=1,2,…n,j=1,2,…mijiij估计值仍为：y二a+bxii现在y的总校正平方和可分解为：SS=SS+SS+SSyRLOFpe其中SS称为失拟平方和，SS为纯误差平方和，表达式和自由度分别为:LOFpeSS=埜"（y一y..）2,df=mn-1yiji=1j=1SS=m•才(y-y..)2,df=1Ridf=n-df=n-2

df=mn-nSS=m•工(y-y)2,LOFi.ii=1SS=工》(y-y)2,peiji.i=1j=1可试证明上述分解中的三个交叉项均为0。统计检验步骤为：令F=L°^，它服从F（n-2,mn-n）1MSpe若F检验差异显著，则可能的原因有：（1）除X以外还有其他变量影响Y的取值，而统计时没有加以考虑；（2）模型不当，即X与Y之间不是线性关系；此时无必要再进一步对MSr作检验，而应想办法找出原因，并把它消除后重作回归。若差异不显著，则把MSlof和MSpe合并，再对MSr作检验：MSF2=SS+RSS，它服从F（1,mn-2）LOFpedf+dfLOFpe若差异显著，说明回归是成功的，X,Y间确有线性关系；若差异仍不显著，则回归失败,其可能的原因为：（1）X，Y无线性关系；(2)误差过大，掩盖了X,Y间的线性关系。如有必要，可设法减小实验误差，或增加重复数重做实验后再重新回归。二)一元回归的t—检验由于MS的自由度为n-2，因此上述两方差的自由度也均为n-2。有了a和b的方差与均e值，我们就可构造统计量对它们进行检验：H0:卩=0HA:卩工0(双侧检验)或：ha：卩＞0(或卩＜0)(单侧检验)、b•歹统计量：t=b/S=壬bb；'MSe其中，Sb为回归系数标准误。当H0成立时，t~t(n-2),可查相应分位数表进行检验。0a对例11・1中的卩作t-检验H。：卩=0SSS-bSS-S2/S解：MS=l=—yy=—yyen-2n-2n-2210.2-136.52/90==1.05835—2t=b/S=b/：MS/Sbexx=1.5167^1.0583/90=1.5167/0.1084=13.99查表，t0.995(3)=5.841＜t，差异极显著，应拒绝H0，即卩工0，或X与Y有着极显著的线性关系。上述统计量还有一个用途:进行两个回归方程间的比较。即检验H0：卩产卩2和H0：w=a2o如果两H0均被接受，则可认为两组数据是抽自同一总体，从而可将两回归方程合并，得到一个更精确的方程。例11.3两组实验数据如下：X,91939496981021051081—y^6668697173788285x28082858789919555576062646771是否可从它们得到统一的回归方程？解：从原始数据计算可得：组别nxSXXSvvSxvMSeba1898.37574.0257.875336.0294.00.13571.140-38.152787.062.286162.0187.429174.00.10801.074-31.15(1).首先检验总体方差是否相等：H:Q2=Q2,H:Q22012A12xxxx百MS0.135712565F=吐==1.2565MS0.1080e2查表，F0.975(6,百MS0.135712565F=吐==1.2565MS0.1080e2查表，F0.975(6,5)=6.978>F,接受H0,可认为两总体方差相等。计算公共的总体方差：MSe(n-2)MS+(n-2)MS1el2e2n+n-4126x0.1357+5x0.108011沁0.1231(2).检验回归系数卩］与卩2是否相等：H0:卩］=卩2；HA:卩］工卩2b-bb-b12—=—12L+丄)Sxx20.066沁=1.8766i'110.03517■0.1231x(+)257.875162t=—.12——=—<Sb1+逬2:MS(eSxx11.140-1.074查表，得t0975(11)=2.201>t,•••接受H0,可认为两回归系数相等。共同总体回归系数的估计值为：7S-b+S-bb=―xx11xx2:S+S

xx1xx2(3).再检验a2是否相等：a-a12S+S—xy1xy2S+Sxx1xx225^〜1.1146H0:%=a2；HA:a1丰a2a-a——12—1X21X2、1++4)nS2xx2-7=q-q-2.17021198.37528723.22556■0.1231x(—+++)87257.875162t=,12=VS2+S2a1a2:MS(+1e匕-38.15+31.15Sxx1查表，t0.975(11)=2.201,•t0975(ll)>|t|,接受H0，可认为:w=a2若检验结果为w"2，此题即可结束；但若检验结果为％=d2,则需把全部原始数据放在一起，重新进行回归：S=902.9333,S=965.4667,S=1035.7333,x=93.067,y=68.533,xxxyyySb=牡=1.0693,Sa=y-bx=-30.9787从而得到合并的回归方程y=-30.9787+1.0693x。现在证明t检验与前述的F检验是一致的前已证明：SS=S—b-S,eyyxy.••SSR=S—SS=b-S,RyyexyS2S2

beSxx厂MSb-Sb2...F二R二4二二12MSS2-SS2ebxxb五、点估计与区间估计前边已经证明a和b是a和B的点估计；但作为预测值仅给出点估计是不够的，一般要求给出区间估计，即给出置信区间。a和B的区间估计已经证明a和b是a和B的点估计，并求出了它们的方差。因此给出置信区间就很容易了：肚〜t(n—2):MS/Sexx.•.B的95%置信区间为：11.13)b土t(n—2\：MS/S11.13)0.975exx同理〜t(n一2)”S(丄+)nSxx.a的95%置信区间为：(11.14)1x2a+1(n一2)：MS(—+—)(11.14)0.975yenSxx这与以前假设检验中的置信区间求法完全一样。若置信水平为99%，把分位数相应换为to.995(n-2)即可。对例11.1中的a和卩给出95%置信区间。解：从前边的计算可知：a=2.6996,b=1-5167，Sxx=90,MSe=1-0568,n=5,x二12查表，得t0.975(3)=3.182t(3),，MSe=3.182x:10568=0.34480-975S90xx1竺)=3.182xJ1.0568x(丄+空)=4.3887S590xxa的95%置信区间为:

即(-1.6891,7.0883)即(即(-1.6891,7.0883)即(1.1719,1.8615)卩的95%置信区间为：1.5167土0.3448,第二节相关分析r=—xyn-11r=—xyn-11x(x-x)(y-y)=SxSyX(x-x)(y-y)n-1_X(x-x)(y-y)_SPxy,，X(x-x)2X(y-y)2；；X(x-x)2(y-y)2V；S-SI、vxxyyin-1xy-互旦n直线相关分析是根据x、y的实际观测值，计算表示两个相关变量x、y间线性相关程度和性质的统计量—相关系数并进行显著性检验。一、相关系数。例：（1）X77165389311总和50Y59613194666总和52(2)X9879653311总和50Y9986654311总和52(3)X1133567189总和50Y9986654311总和52可见：（1）XY关系紊乱（2）X减小、Y也减小（3）X增大、Y减小作散点图，如果再以X和飞的平均数作坐标原点，将原散点图划分为四个象限,如果各点均匀分布则X（X-x）X（y一y）=0,落在2、4象限则小于0负相关，落在1、3象限则大于0――正相关，为消除变异程度（n-1）和单位的影响，需除以标准差。S2bSSSSS根据以前的推导结果，有：r2_xy_牛_R_1-eS・SSSSxxyyyyyyyy性质：|r|<1。当|厂|_1时，从上式可看出SSe=0，即用y可以准确预测y值。此时若X不是随机变量，则Y也不是随机变量了。当r=0时，SS=S，回归一点作用也没有，即用X的线性函数完全不能预测Y的变eyy化。但这时X与Y间还可能存在着非线性的关系。当0<|r|<1时，情况介于上述二者之间隔。X的线性函数对预测Y的变化有一定作用,但不能准确预测，这说明Y还受其他一些因素，包括随机误差的影响。综上，r可以作为X，Y间线性关系强弱的一种指标。非常直观，接近于1就是线性关系强，接近于0就是线性关系弱；而其他统计量都需要查表后才知检验结果。二、决定系数和相关系数前面已经证明了等式：X(y-y)2(y-y)2+X(y-y)2从这个等式:：与x直线回归效果的好坏取决于回归平方和工(y-y)2与离回归平方和工(y-y)2的大小，或者说取决于回归平方和在j的总平方和X(y-y)2中所占的比例的大小。这个比例越大，j与x的直线回归效果就越好，反之则差。比值工(y-y)2/工(y-y)2叫做x对j的决定系数，记为r2,即工(y-y)2r2=乙(y-y)2决定系数的大小表示了回归方程估测可靠程度的高低，或者说表示了回归直线拟合度的高低。显然有OWrzWl。因为：工(y-刃2sp2spsp77乙(y-y)2SSSSSSSSyxxyxyxy而SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。若把y作为自变量、x作为依变量，则回归系数bxy=SPxy/Ssy，所以决定系数r2等于y对x的回归系数与x对y的回归系数的乘积。即决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两个相关变量x与y直线相关的信息，即决定系数表示了两个互为因果关系的相关变量间直线相关的程度。但决定系数介于0和1之间，不能反应直线关系的性质——是同向增减或是异向增减。另外，r显著即一个显著的回归方程并不一定具有实践上的预测意义如一个资料x、y两个变量间的相关系数r=0.5，在df=24时，r0.01(24)=0.496，r>r0.01(24),表明相关系数极显著。而r2=0.25，即x变量或y变量的总变异能够通过y变量或x变量以直线回归的关系来估计的比重只占25%，其余的75%的变异无法借助直线回归来估计。计算相关系数：根据公式三、相关系数的显著性检验在一般情况下r不是正态分布，直接检验有困难。但当总体相关系数P=0时，r的分布近似于正态分布，此时用MSe代替b2，就可以对H:p=0作t检验。这种检验与对回归0系数b的检验：H:卩=0是等价的。可证明如下：0b的t检验统计量为：t=b/Sb。b=S/S,bxyxx

■MSS=e

bSxx■MSS=e

bSxx代入t的表达式，得:■S-bS1yy-:n-2SxxIS2='S•(1-与)

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第八章直线相关与回归分析

文档简介

温馨提示

最新文档

评论

第八章直线相关与回归分析

文档简介

温馨提示

最新文档

评论

相关文档