方差分析与回归分析_第1页
方差分析与回归分析_第2页
方差分析与回归分析_第3页
方差分析与回归分析_第4页
方差分析与回归分析_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

方差分析与回归分析■1Companynumber方差分析与回归分析■1Companynumber:[WTUT-WT88Y-W8BBGB-BWYTT-19998]第八章方差分析与回归分析§1单因素试验的方差分析试验指标:研究对象的某种特征。例各人的收入。与试验指标相关的条件。例各人的学历,专业,工作经历等与工资有关的特征。素水平:因素所在的状态例学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。问题:各因素水平对试验指标有无显着的差异假设TOC\o"1-5"\h\z1)影响试验指标的因素只有一个,为A,其水平有r个:A,,A;1r2)每个水平A下,试验指标是一个总体X。各个总体的抽样过程是独立的。ii3)X〜N(卩Q2),且C2=6。…iiiij

问题:分析水平对指标的影响是否相同1)对每个总体抽样得到样本{X,1<j<n},由其检验假设:iji原假设H:卩=卩,Vi,j;备选假设:H屮北卩,丑,j;0ij1ij2)如果拒绝原假设,则对未知参数卩,,PQ2进行参数估计。1r注1)接受假设即认为:各个水平之间没有显着差异,反之则有显着差异。2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。检验方法TOC\o"1-5"\h\z数据结构式:X=卩+£=卩+§+£,偏差£〜N(0Q2)是相互独立的,ijiijiijij卩二-为n»。不难验证,^5=0。niiii=1k=1各类样本均值水平A的样本均值:X=丄艺X;iinijij=1水平总样本均值:X=-工EX=—工nX,n=工n;nijniiii=1j=1i=1i=1

组间偏差平方和:S二工n(X-X)2=》nX2-nX2;(衡量由不同水平产生的差异)Aiiiii=1i=1组内偏差平方和:i=1ji=1j=1-X)2=工(Kx2-nX2)iijiii=1j=1衡量由随机因素在同一水平上产生的差异)总偏差平方和:TOC\o"1-5"\h\zS=工习(X-X)2=LnX2-nX2;(综合衡量因素,水平之间,随机因素的Tijiiji=1j=1i=1差异)定理1(总偏差平方和分解定理)S=S+S。TAE即工为(X-X)2=工艺(X-X)2+XK(X-X)2,或直接证明。ijijiii=1j=1i=1j=1i=1j=1注:利用工K(X-X)(X-X)=0即可证明。。ijiii=1j=1定理2(统计特性)ES=(n一r)o2,ES=(r—1Q2+工n82,ES=(n—1R2+工n82。TOC\o"1-5"\h\zEAiiTiii=1i=1ii证ES=工(’EX2—nEX2)=工(艺(o2+p2)-o2—np2)iiEijiiii=1j=1i=1j=1定理31)S/o2~x2(n-r),且S与S独立;EEA2)如果假设H成立,那么,S/o2~x2(n-1);且如果假设n=m,0Ti1<i<r,则还有,S/o2~x2(r-1)。A证1)由于不同水平的样本间的独立性,S较易处理。对固定的i,EX~N(p,X~N(p,o2),j=1,,nijiii且独立,所以由第五章定理2的结论,Knij=1(x-x丫—ij——

o…V丿j=1~x2(n-1),i利用X2可加性,即得S/o2-x2(工n-r)=x2(n-r),且X与S独立。EiiEi=1注意到X=—乞nX,因此X也与S独立,从而S也与S独立。niiEAEi=1注这里只需方差假设相同,不需要假设均值相同。ii2)匸匕〜N(0,1),且独立,同样利用第五章定理2,oX—|L11X—|L1(—i-厚匸)2〜x2(n-1)。onoTOC\o"1-5"\h\z-•“-fi,Ji,j但在假设成立时,工(X^-1工Xij-巴)2=丄工(X-X)2,即得结论。

onoo2ij但在假设成立时,i,Ji',j'i,J且X与S独立。2〜2〜X2(r-1)。同时,S/o2=£Ai=1注此处结论证明利用了n都相等,即利用:1》X=1工X。但上述结论在irkniJk=1i,J组样本容量不同时,直接利用正交变换仍可类似证明。从统计角度看,如果假设H成立,那么丄ES=o2=LES,而在假设0n-rEr-1A111r1不成立时,ES=ES+乞n52>ES,即统计量r-1An-rEr-1iin-rE

i=1F=/(r-1)将有偏大的趋势。那么,大到何值可以采信为推翻假设的反例,S/(n-r)E就回到前面的假设检验问题了。定理置信度为«时,假设H的检验问题的拒绝域为W={F>F(r-1,n-r)}。0a参数估计问题如果各因素有显着差异,即对某些水平卩工卩,那么就需要估计这些参数的值ij和o2。1.最大似然估计总体X〜N(卩Q2总体X〜N(卩Q2),ii密度函数为e-202,所以最大似然函数为(xjp)2(xjp)22o2TOC\o"1-5"\h\zL(卩,,卩,o2)=ne1r..V2^o2i,j一般,我们把卩分成两部分:卩=卩+5,其中卩=1Y卩。i•・•iirii所以5即表示了各水平的差异,有工n5=0。iii由此最大似然函数可表示为,i,ji,ji1(x—p—6)2L(p,6,,6,o2)=ne-"20/o..丁2兀o2i,j1r对数最大似然函数:lnL(卩,6i,n「(x-p-6)2,6,o2)=--ln(2KQ2)—工iji-2o2i,j约束条件:工n6=0oiii求其最大值点得:lnL(p,6,Qp1即:工x-np-工iji,jiQ[lnL(p,6,,6,o2)+k工n6]=2工(“-6)+kn=0,Q61ri(k是拉格朗日乘子)即nx一np-n6-ko2n=0;或,xiiiiiiiQlnL(p,6,,6,o2)Qo21,6,o2)=2工(xj-p-6)=0,r2o2i,jn6=0;或,nx-np=0。iii=1ijii2o215jSj-p-6-ko2=0;i=-—^+-^工(x-p-6)2=0)r2o22o4ijii,j即02=工(兀一卩-6)2,或,niji…i,jo2=—{工x2—2pnx—2工niji,j整理结果得:n6x+np2+iiii工n62})iii由此利用工iii所以o2=—{工x2一nx2niji,j同时,工n62-2工n6ii=一工n6x=一工iiii因此S=x-p-kO2o

ii解得ko2=x-po因上匕6=x-xoii-2工n6x+工n62})ii…6xiiiin(x-x)xiiiiiiii=工n6(x-x)-2工n6xiiiiiiiy__'=-nx2+nx2,iiio2=—{Ex2-Enx2}=Seonijiinii=1i=12.区间估计第i个水平的均值:Xi~N(巴,o2/n),即誇〜N©1);且S/o2〜兀2(n-r)与其独立,所以E即可得到置信区间:)。但,必须注意,对整个问题而言,置信水平不再是1-Q。记事件TOC\o"1-5"\h\z-SX+1(n-r)ia/2Ei=皿iX+1(n-r)ia/2则P(E)=1-a。但P(E)=1-P(E)>1-raiiiiinu

§2一元线性回归设有两个总体(X,Y),它们之间不是独立的,而是具有某种依赖关系,即对它们抽样,得到的是一对样本和观测值:(X,Y),,(X,Y),(x,y),,(x,y)。11nn11nn例父子的身高;某种动物体重和体积,等等。现在关心的问题是:从观测的结果,能否找出它们之间的联系即…Y二f(X)+8(X),其中8是随机变量。从实际问题出发,也可认为X是非随机的确定自变量,本来两者之间应该有确定的函数关系,但由于某种干扰,这种关系产生了某种不确定性。如何合理地确定其关系f(x)一元线性回归模型假设y=B+Bx+8;018〜N(Oq2)。每次抽样,Y=B+Bx+8,其中8〜N(0Q2),且相互间是独立。TOC\o"1-5"\h\ziO1iii等价的观点:Y〜N(B+Bx,e)。iO1i问题由样本观测数据(x,y),,(x,y),如何合理估计参数BB11nnO1方法1)确定性观点:最小二乘法min工(y-B-Bx)2,B0,B1i=1i01i使观测得到的8的样本平方和偏差最小。解记y=1Xy,x=1》x,l=》(x-x)(y-y)=Xxy-nxy,ninixyiiiii=1i=1i=1i=1l=X(x-x)2=Xx2-nx2,l=X(y-y)2=Xy2-ny2。xxiiyyiii=1i=1i=1i=1艺(y-B-Bx)=0i01i吕,解方程组得,工(y-B-Bx)x=0i01iiny-nB-ny-nB-nBx二001艺xy-nxB-B为01x2二0,厂i01i1i=1i=1即工xy-nxy一卩(工x2-nx2)=0,因此解为:ii1iPP二y——yx0lxx.lB二1lxx2)随机观点:最大似然估计最大似然函数叫,y”;&,x;最大似然函数叫,y”;&,x;B,B)n01n—£(yi—Bo—BixJ2eT2b因此,由QinL

dB0QinLQBi•••即得类似结论。,Y的统计量。所以,在不代入观n注把X是确定值,则L,L,Y,Y的统计量。所以,在不代入观nTOC\o"1-5"\h\ziyyxy1JJJJ测值时,卩二Y-—X,卩=—也都是随机变量。0L1Lxxxx有结论,…Li—l—定理(1)B二Y十—〜N(B,(—+—2)b2),B十〜N(B,「);0L0nl1L1l—————————cov(B,B)=-—c2;01l——y=B+0—〜N(卩+B—,(丄+_)c2)。0010010nl——工(—―—)(y―Y)证:P=十」i=工Y,显然服从正态分布,TOC\o"1-5"\h\z1L=Li——i=1——EB=艺giEY=艺二(B+B—)=艺二—B=£0—2—n—2)=B1LiL01iLi1Li1i=1—yi=1——i=1————i=1dB=艺(—•―—)2dy=艺(—•―—)2c2=22。1=L2i=L2Li=1——i=1————类似,B=Y-X(—i——)—Y=工[丄—(—i——)—]Y也服从正态分布,且0LinLii=1——i=1——EB丄[1—U—]EY丄[1—g—](B+B—)0nLinL01ii=1——i=1——,=B[1—工(—•―—)—]+—B[1—工(—•―—)—•]=B'0L1L0i=1——i=1——X1(———)—_.(———)亍(———)2——=乙[——i]iC2=—iC2=—-nLLL2Li=1————i=1————最后,y=B+B—是正态分布显然成立,0010

Ey二B+Bx,0010Dy=D0+x2D[B+2xcov(B,B)=g2[1+—]—兰xg2+—x2二[—+-]g20001001nLL0L0nLxxxxxxxx该定理表明,上述参数估计都是无偏的,但要提高有效性,即减小其方差,就要n和L足够大。xx回归方程的显着性检验如果回归方程中卩二0,那么即说明Y和X不具有线性关系,就称回归方程不—显着;否则,就称其是显着的。显着性检验H:卩二0;H:BH00111(我们是准备接受结论H—的,以进行后面的工作;但是,如果直接把其作为原假设,所谓接受该假设,意思是说,H成立时,没有出现小概率事件,就是说1对该次抽样,不能否定H。所以,对自已的主张一般不作为原假设。我们把其1对立面H作为原假设,意思是说,如果小概率事件出现,就有理由认为该假设0不合理,该次抽样是一个反例。因此,接受其对立面H)1抽样后,得到样本Y,及其回归值Y=B+Bx。ii01i各类偏差平方和先把记号定义整理一下:x或X不具有随机性的量。Y是样本,满足iiiY二B+Bx+8,而y是其观测值。B,B是参数,B,B是其无偏估计量,而i01iii0101八八八y=B+Bx是其函数。l,L,Y都是统计量。i01iyyxy总偏差平方和S=£(Y—Y)2二LTiyyi=1回归偏差平方和S=y(Y—Y)2Riy_Iliy_Ilix.(L丿i=1xx=LB2xx1=S(B+Bx—Y)2=y(Y+—»yx—Y)2=\t^TOC\o"1-5"\h\z=01i=LLi(L丿i=1i=1xxxxxx(由随机因素引起的偏差)可以直接计算得到:ES=LEB2=L[DB+(EB)2]=g2+LB2;Rxx1xx11xx1残差平方和S=工(S=工(Y—Y)2Eiii=1=工(Y—Y+-^元一一xyx)2=工[Y—Y+—xy(x—x)]2,iLLiiLii=1xxxxi=12LL—2—L=L—BLxxLxyyy1xyxxL+yyxx;由此,ES=(n—2)q2。E1L)IL丿XX(回归值和观察值的偏差:由随机误差偏差)直接计算得到:ES=(n—2)Q2。E关于这些偏差有如下结果。定理(1)S=S+S;TREnn(利用乙(Y-Y)丄(Y-B-Bx)=0,iii01ii=1i=1(2)S/Q2~x2(n—2)E

可能存在的非线性关系,都会引起该工(Y—Y)x工(Y-B-Bx)x=0)iiii01iii=1i=1⑶在假设H°成立时(4)S(或『)与S,Y独立。R1E》Y2-⑶在假设H°成立时(4)S(或『)与S,Y独立。R1E》Y2-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论