




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
#偏差平方和Q的大小与数据个数(自由度)有关,一般来说,数据越多,其偏差平方和越大。称MS=Q/fQ为均方和,即平均每个自由度上有多少平方和,度量一组数据的离散程度。对因子平方和S与误差平方和S之间进行比较,用其均方和AeMS=S/f,MS=S/fAAA eee进行比较更为合理,因为均方和排除了自由度不同产生的干扰。故用MSS/fF= A=—AAMSS/feee作为检验原假设的统计量,为给出检验拒绝域,需要如下定理:定理8.1.2在单因子方差分析模型及前述符号下,有⑴S/a2〜%2(n-r),从而E(S)=(n-r)o2eeE(S)=(r-1)a2+mXa2,进而,若H成立,则有S/a2〜A i 0Ai=1X2(r-1)oS与S独立。Ae证明从简由上述定理知,若H成立,,则检验统计量F服从自由度为f,f的F分0 Ae布。因此,由假设检验的一般理论,拒绝域为W={F>F(f,f)}1—aAe则计算结果可列成方差分析表单因子方差分析表来源平方和自由度均方和F比因子SAf=r-1AMS=S/fA AAF=MS/MSAe误差S0f=n-rMS=S/f总和STf=n-1T对给定的a,可作如下判断:如果F>F(f,f),则认为因子A显著;若F<F(f,f),则说1-aAe 1-aAe明因子A不显著。若以7记服从F(f,f)的随机变量,则检验的p值为p=P(Y>F)Ae偏差平方和的计算:XrXm T2 1Xr T2S―y2y2——,S=——T^T2——,S―S—ST ijnAmineTAi=1j=1 i=1注意:偏差平方和公式中对数据作一个线性变换是不影响方差分析的结果的。例1在饲料养鸡增肥的研究中,某研究所提出三种饲料配方:A是以鱼粉
为主的饲料,A是以槐树粉为主的饲料,A是以苜蓿粉为主的饲料,为比较23三种饲料的效果,特选24只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量。试验结果如下表所示:鸡饲料试验数据饲料A 鸡重/个A1 10731009106010011002101210091028A 11071092 99011091090107411221001A3 10931029108010211022103210291048解因子为饲料,廿个水平A1,A2,A3。此例中,将原始数据同时减去1000,并用列表的方法给出计算过程:鸡饲料试验数据计算表T2 £y2i ij水平 数据(原始数据-1000)TiA1 739 601 2 129 28 j一 19437636 10024A2 10792-1010990741221585342225 60355A3 93 29 8021 223229 48354125316 209841133505177 91363可以算得各偏差平方和为:11332S=91363- =3787604,f=24-1二23,T 24 T505177113322,S一 一 一9660108f一3一1一A 8 24 AS一S-S一28215.96,f=3(8-1)一21eTA e把上述诸平方和及其自由度填入方差分析表,并继续计算得到各均方和以及比。见下表例1方差分析表来源 平方和 自由度 均方和F比因子 9660.08 2 4830.04误差 28215.96 21 1343.623.59总和 37876.04 23若取a一0.05,则F =3.47,由于F=3.59>3.47,故认为因子A是显著的,0.95即三种饲料对鸡的增肥作用有明显的差别。8.1.5参数估计在检验结果为显著时,可以求出总均值N、各主效应a和误差方差。2的i估计。
、点估计使用最大似然估计方法求出以上各参数的估计。似然函数L(出a,…,a,02)=HH、点估计使用最大似然估计方法求出以上各参数的估计。似然函数L(出a,…,a,02)=HH1 ri=1j=(匕一「史”2o2其对数似然函数n 、nr/ 1lnL(N,a,…,a,o2)=-ln(2兀02)一1r 2 202£工(…一a)2iji=1j=1求偏导,得似然方程视1££/ 、n-=--££(y-N-a)=0SN 2o2ijii=1j=1Sl1£/———(y-N-a)=0,i=1,…,rSa 2o2 %iSl n=1 1££/ 、八+--££(y-N-a)2=02o2 2o4 ijii=1j=1So2再由约束条件£a=0i可求出前述各参数的最大似然估计为i=1N=y,a=y-y,
ii££(y-y)2TOC\o"1-5"\h\zn2o2 ij i-i=1j=1由最大似然估计的不变性,各水平均值目的最大似然估计为由最大似然估计的不变性,各水平均值目的最大似然估计为口=yA由于o2不是o2无偏估计,通常采用如下误差方差的无偏估计o2=MS。\o"CurrentDocument"M e二、置信区间下面讨论N的置信区间。由定理8.1.2知,y〜N(N,o2/m),S/02i i• i eX2(f),且二者独立,故e4m(y-n)——,i• i〜t(f)yS/f eee由此A的水平均值N的1-a置信区间为i i[y±o-t (f)八m]i- 1-a/2eA其中,o2=MS。e例2接例1前面已经指出饲料因子是显著的,下面求诸水平均值的估计。解因子A的三个水平均值的估计分别为N=1000+198/8=1024.251N=1000+585/8=1073.132N=1000+354/8=1044.253从点估计来看,水平A是最优的。误差方差的无偏估计为2Ao2=MS=1343.62e进而可求出各水平的置信区间。0=<1343.62=36.66,取0<=0.05,贝|t (f)=t(21)=2.07961-a/2e0.975从而6t (21)=26.95,于是各水平均值的0.95的置信区间分别为0.975白:1024.25±26.95=[997.30,1051.21]四:1073.13±26.95=[1046.18,1100.08]2白:1044.25±26.95=[1017.30,1071.21]由此可见,在单因子分析中得到如下三个结果:(1)因子A的显著性;(2)试验的误差方差62的估计;(3)诸水平均值目的点估计和区间估计。在因子A显著时,i通常只需要对较优的水平均值8.1.6重复数不等情形有时,每个水平下重复试验次数不全相等,在这最一般情况下进行方差分析与重复数相等情况下的方关差分析极为相似,只在几处略有差别。下面指出差异之处。数据设从第i个水平下的总体获得m个试验结果,记为J,J,…,J,TOC\o"1-5"\h\zi i1i2 imii=1,…/,故总试验次数为n=m+m+…+m,从而其统计模型为:12 rIJ二旦+£,i=1,…,r,j=1,…,mijiij i[各£相互独立,且都服可(0,62)ij总均值诸N的加权平均(所有试验结果的均值的平均)i1/ 、1>日=(mRH Fm日)=乙m日n11 rrniii=1称为总均值。第i个水平均值N与总均值N的差ia=n一旦,i=1,…,r。ii称为因子A的第i个水平的效应。效应约束条件2ma=0iii=1且N=N+a,这表明第i个总体的均值是由总均值与该水平的效应叠加而成ii的。而且有
y=^+8,i=1,-,r,j=1,…,m、j i ij i〈乙ma=0i8相互独立,且都服从/V(0,。2)ij各平方和的计算记号如下T=£记号如下T=£yi ijj=1T•1一,i=1,-,rmiT=Et,y=ii=1rmnSTSA=£2(y-y)2,f =n-STSATOC\o"1-5"\h\zij Ti=1j=1\o"CurrentDocument"=m2(y-y)2,f=r-1ii- Ai=1=r(m-1)=n-rs=22(y-y)2=r(m-1)=n-r\o"CurrentDocument"i=1 j=1例4某食品公司对一种食品设计了四种新包装,为考察哪种包装最受顾客欢迎,选了10个地段繁华程度相似、规模相近的商店做试验,其中两种包装各指定两个商店销售,另两个包装各指定三个商店销售,在试验期内各店货架排放的位置、空间都相同,营业员的促销方法也基本相同,经过一段时间,记录其销售量数据,列于表的左半边,其相应结果列于右侧,则可进行方差分析。销售量数据及计算表包装类型销售量数据miTiT2/mii2y2ij/=1A11218无230450468A2141213339507509A319172135710831091A 2430无25414581476和n=10T=1802rT2/miii=1=349822y2iji=1j=1=3544T2 1802由此可求得各类偏差平方和如下( ==3240)n10S=3544-3240=304,f=10-1=9TTS=3498-3240=258,f=4-1=3TAS=304-258=46,f=10-4=6ee方差分析表如下例4方差分析表来源平方和自由度 均方和F比因子2583 8611.22误差466 7.67总和3049若取a=0.01,查表得F0.01(3,6)=9.78<11.22,故认为各水平间有显著差异。由于因子显著,岢以给出诸水平均值的估计,因子A的四个水平均值的估计分别为口=30/2=15,口=39/3=13,口=57/3=19,口=54/2=271234由此可见第四种包装方式效果最好。误差方差的无偏估计为Ao2=MS=7.67e诸水平均值的置信区间,用m代替m。此处,0=J767=2.7695,若取ia=0.05,则t (f)=t(6)=2.4469,6t(6)=6.7767,于是效果TOC\o"1-5"\h\z1-a/2e0.975 0.975较好的第三和第四个水平均值的0.95置信区间分别为 _口:19土6.7767/v3=[15.09,22.91],口:27土6.7767八2=[22.21,31.79]3 4§8.2多重比较效应差的置信区间方差分析中,如果因子A显著,即因子A各水平的效应不全相同,但这并不是说它们中一定没有相同的。就指定的一对水平A和A,我们通过求ij日一日的区间估计来进行比较,可以推出,ijJ—J〜N(日一日,(+ )o2)i- 卜 ijmmij由定理8.1.2指出,S/o2〜X2(f),且两者独立,故ee(y一y)一(N-日)j- ^j〜t(f);1 1、Se(——十——)-卜mmfije由此给出口一日的置信水平为1-a的置信区间为ij [y-y-1(—十—)0-t (f),y-y+i(—+—)0-t(f)]八j-mmm山/2e八 j- mmm 「a/2 eij ijA其中02=S/f是02的无偏估计。ee例1接上节例1。已知饲料因子是显著的,此处m=8,i=1,2,3,f=21, i e0="343.62=36.66,若取a=0.05,则t (f)=t(21)=2.0796, 1-a/2e0.975口+10t (21)=38.11。于是可算出各个置信区间为\8 80.975
——N:-48.88±38.11=[-86.99,-10.77]12———:-20±38.11=[-58.11,18.11]13———:28.88±38.11=[-9.23,66.99]23从以上区间可见,可以概率95%断言认为—<—。其他区间包含0点,即从12点角度看水平均值估计有差别,但这种差异在0.05水平下是不显著的。这里给出的置信区间与第六章中的两样本的t区间基本一致,区别在于这里的o2使用了全部样本而不仅仅是A,A两个水平下的观测值。ij多重比较问题在方差分析中,如果经过F检验拒绝原假设,表明因子A是显著的,即r个水平对应的水平均值不全相等,此时,我们还需要进一步确认哪些水平均值间是确有差异的,哪些水平均值间无显著差异。在r(r>2)个水平均值中同时比较任意两个水平均值间有无明显差异的问题总量称为多重比较,即要以显著性水平a同时检验如下r(r—1)/2个假设:Hij:—=—,1<i<j<r0ij直观地看,当原假设成立时,y—y不应过大,因此,关于假设的拒绝i- j-域应有如下形式w=U{y—y>C}i- j- ij1<i<j<r诸临界值应在原假设成立时由P(w)=a确定。下面分重复数相等和不等分别介绍临界值的确定。重复数相等场合的T法重复数相等时,由对称性自然可以要求诸C相等,记为。。记C2=S/f,ij ee则由给定条件有t= 〜t(f)io/Jme于是当上述原假设成立时,—「…二—r=—,故有P(w)=P(U||y—y>C})=1—n{Iy—y<c}।i- j- ।i- j-1<i<j<r 1<i<j<r=1—P(max {y—y<c})=P(max {y—y>c})1<i<j<ri- j- 1<i<j<ri' j-=P(max1=P(max1<i<j<rc0/ml})TOC\o"1-5"\h\z=P(max(y「上)-mini0/、m j「 (y——) .一般称为t化极差统计量。这里q(r,f)=max—i一般称为t化极差统计量。e i0/飞m j
q(r,f)的分布与参数N,o2无关,也与m无关,该分布可由随机模拟方法得到。e重复数相同时多重比较的步骤总结如下:TOC\o"1-5"\h\z对给定的显著性水平a,查多重比较的分位数q(r,f)表,计算1—a ec=q(r,f)67m,比较诸y一y与c的大小,若了一y|>c,则认1-a e i• j• i• j•为水平A,A间有显著差异,反之则认为水平A,A间无明显差别。首先由ij ijTurkeyrjbm,称为T法。例2接上例。在饲料因子显著的情况下,进行多重比较。取a=0.05,则查表知q(3,21)=3.57,而6=36.6554,从而计算得到c=46.27。1-0.051yl-y21=|1024.25-1073.13=48.88>46.27,因此认为片,巴有显著差异;卜-y3|=1024.25-1044.25=20<46.27,因此认为4,%无显著差异;|y2-y3|=|1073.13-1044.25=46.88>46.27,因此认为N3,N2有显著差异;重复数不等场合的S法在重复数不等时,沿用上面的记号,我们有(y-y)-(N-N)i।j 匕―〜t(f)TOC\o"1-5"\h\z11 eK-+―mmm1ij在原假设成立时,N=--=N=N,于是有1 r(y-y) (y-y)2ij 〜t(f)或〕:j•—〜F(1,f)\o"CurrentDocument".1 1 e/1 1、人 ei(一+一)6 (——+——)62\o"CurrentDocument"mm mmij ij1 — 1 r" 一工—,,…一从而可以要求c=c,(一+——),类似于重复数相等时的推导,有ijmmm-ijp(w)=n1<ip(w)=n1<i<j<r{y-y>c|'(-+—)}
mj=P(max {1<i<j<r1-6——)6mjc>J)=P(max1<i<j<r((y-y)2{i• j•'/1 1」(——+——)262mmijc2})62c2=P(max F>1<i<j<rij621<i<j<r ij可以证明,(maxF)/(r-1)〜F(r-1,f),从而P(W)1<i<j<r ij=(r-1)F(r—1,f),亦即TOC\o"1-5"\h\z1—a eI 1 1「c=l(r-1)F (r-1,f)(——+——)O2。ijV 1-a emmv ij例3在第一节例4中,已经指出包装方式对食品销量有显著影响,此处r=4,f=6,O2=7.67,若取a=0.05,则F(3,6)=4.76,注意到e 0.95m=m=2,m=m=3,故1 4 2 3 c=c=c=c=、.;3X4.76X(1/2+1/3)x7.67=9.613 24 34 ”c=、3x4.76x(1/2+1/2)x7.67=10.5t c=\3X4.76X(1/3+1/3)X7.67=8.5V由于1-1-2--y|=2<c1-1-2--y|=2<c,2-1 1274-1=12>c14一y=14>c4- 24B1-73-1=4<c,13-y3-l=6<c,23一了4-1=8<c34这说明A,A,A间无显著差异,A,A与A有显著差异,但A与A的差异却12312 443尚未达到显著水平。综合上述包装A4销售量最佳。§8.2方差齐性检验方差齐性检验是对如下一对假设作出检验:H:O2=…=O2VSH:诸O2不全相等01 r 1 i对以上假设进行检验的方法主要有下面三种:Hartley检验,仅适用于样本量相等的场合;Bartlett检验,可用于样本量相等或不等场合,但是每个样本量不得低于5修正Bartlett检验,在样本量较小或较大、相等或不等场合均可使用。Hartley检验当各水平下试验重复次数相等时,即m=…二m=m1rHartley提出检验方瘠相等的检验统计量— max{s2,…,s2}H= 1 min{s2,…,s2}1r它是r个样本方差的最大值与最小值之比。该统计量尚无明确表达式,但在诸方差相等条件下,可通过随机模拟方法获得H分布的分位数,该分布依赖于水平数r和样本方差的自由度f=m-1,因此该分布可记为H(r,f),其分位数表列于附表10中。直观上看,当H成立,即诸方差相等时,H愈大,诸方差间的差异就愈0大,这时应拒绝H。由此可知,对给定的显著性水平a,检验H的拒绝域为00W={H>H(r,f)}1-a其中H(r,f)为H分布的1-a分位数。1—a例1有四种不同牌号的铁锈防护剂(防锈剂),现要比较其防锈能力。为此,制作40个大小形状相同的铁快(试验样品),然后把它们随机分为四组,每组10件样品,在每一组样品上涂上同一牌号的防锈剂,最后把40个样品放在一个广场上让其经受日晒、风吹和雨打。一段时间后再行观察其防锈能力。由于防锈能力无测量仪器,只能请专家评分,五位受聘专家对评分标准进行讨论,取得共识,样品上无锈迹的评100分,全锈评0分。他们在不知牌号的情况下进行独立评分。最后把一个样品的5个专家所给分数的平均值作为该样品的防锈能力,数据列表中防锈能力数据及有关计算因子A(防锈剂)A1A2A3A4数143.989.868.436.2据23987.169.345.2yij346.792.768.540.7443.890.666.440.5544.287.77039.3647.792.468.140.3743.686.170.643.2838.988.165.238.7943.690.863.840.9104089.169.239.7和Ti431.4894.4679.5404.7均值yi43.1489.4467.9540.47组内平方和Qi8144.2842.3353.42这是一个重复次数相等的单因子试验。进行比较分析。第一步是方差齐性检验。s2=81/9=9,s2=44.28/9=4.92,s2=42.33/9=4.7,s2=53.42/9=5.9412 3 4由此得统计量H的值H=9/4.7=1.9149。在a=0.05时,由附表10查得H(4,9)=6.31,由于H<6.31,所以应该接受原假设,即认为四个总体方差0.95间无显著差异。第二步,在正态性(正态概率纸)检验通过的情况下,我们可用方差分析方法对四种不同牌号的防锈剂比较其防锈能力。由上表的数据可以算出T=T+T+T+T=2410从而求得三个偏差平方和分别为1234S=16174.5,f=39,S=15953.47,f=3,S=221.03,f=36。T T A Ae e得到方差分析表,可继续计算各均方和与F比。
防锈能力的方差分析表来源平方和自由度均方和F比因子15953.4735317.82866.09误差221.03366.14总和16174.539若给定显著性水平a=0.05,查表得F(3,36)=2.87<F,故因子A显著,0.95即四种防锈剂的防锈能力有显著差异。各种防锈剂的防锈剂能力均值分别为口=43.14,口=89.44,口=67.95,口=40.471234第二种牌号的防锈剂的防锈能力均值最强。A第三,试验误差的方差的估计o2=6.14,从而a的估计为6==2.48。第四,由于第二种牌号的防锈剂的防锈能力最强,还可求出其均值的95%置信区间,现在t (n-r)=t (36)=2.0281,m=10,则日的95%置信TOC\o"1-5"\h\z1-a/2 0.975 2区间为 _[y±6.t (n-r)/、m]=89.44±1.73=[87.71,91.17]。\o"CurrentDocument"2 1-a/2Bartlett检验在r个水平下的样本的方差的几何平均数记为GMS=[(s2)f1.•.(s2)fr]1/fee1其中f=其中f=f+…+f=2(m-1)=n-re1ri
i=1由于几何平均数总不会超过算术平均数,故有GMS<MSee其中等号成立当且仅当诸s2彼此相等,若诸s2间的差异愈大,则此两个平均值相差也愈大。由此可见,当诸总体方差相等时,其样本方差间不应相差较大,从而比值MS/GMS接近于1。反之,在该比值较大时,就意味诸样本方差差ee异较大,从而反映诸总体方差差异也较大。这个结论对此比值的对数也成立。从而齐性检验表示的一对假设的拒绝域应是W={ln(MS/GMS)>d}eeBartlett证明了:在大样本场合,ln(MS/GMS)的某个函数近似服从自由ee度为r-1的X2分布。具体是:X2(rX2(r-1)B=L(lnMS-lnGMS)Ce e其中c=1+」^[£-1-4],且通常会大于1。3(r-1)i=1fi fe根据上述结论,可取B=1(flnMS-工于lns2)作为检验统计量,对Cee iii=1给定的显著性水平a,检验的拒绝域为W={B>/2(—1)}1_a考虑到这里X2分布是近似分布,在诸样本量m均不小于5时使用上述检验是i适当的。例2茶是世界上最为广泛的一种饮料,但很少人知其营养价值。任一种茶叶都含有叶酸,它是一种维他命B。如今已慢测定茶叶中叶酸含量的方法,为研究各产地的绿茶的叶酸含量是否有显著差异,特选四个产地绿茶,其中A制1作为了7个样品,A制作了5个样品,A,A各制作为了6个样品,共有242 34个样品,按随机次序测试其叶酸含量(mg),测试结果如表水平数据重复数和均值组内和A17.96.26.68.68.910.19.6 m1=7T1=57.98.27Q1=12.83A25.77.59.86.18.4m2=5T2=37.57.5Q2=11.3A36.47.17.94.55.04.0m3=6T3=34.95.82Q3=12.03A-4——6.87.55.05.36.17.4m 4-=6T 4=38.16.35Q 4-=5.61n=24 T=168.4S=41.77e平方和计算得到S=23.5,f=3,S=65.27,f=23,S=41.77,f=20A AT T e e方差分析表如下绿茶叶酸含量的方差分析表来源平方和自由度均方和F比因子23.537.833.75误差41.77202.09总和65.2723若取显著性水平a=0.05,查表得L(3,20)=3]<F,故应拒绝原假设,即认为四种绿茶的叶酸平均含量有显著差异。方差齐性检验如下。由数据表可本得Q=12.83,Q=11.3,Q=12.03,Q=5.6134f=6,f=4,f=5,f=534从而用公式S2 =Q/f 求得s2 =2.14,s2 =2.83,s2 =2.41,s2 =1.12。再从iii 1 2 3 4方差分析表上查得MS=2.09,由公式得eC=1+v1n[£-T~;]T.0856,3(r-1).,ffi=1ie
再由Bartlett检验统计量的计算公式得B=1(flnMS-EfIns2)=0.97Ce e iii=1对给定的显著性水平a=0.05,查表知X2(4-1)=7.815>b,故应接收原假0.95设,即可认为诸水平下的方差间无显著差异。修正的Bartlett检验针对样本量低于5时不能使用Bartlett检验的缺点,Box提出了修正的Bartlett检验统计量fBCBb=— f1(A-BC)其中B与C如下C=C=1+出2f-fi=1ieB=-1(fInMS-EfIns2)Ce e iii=1且有f1f1=r-1,「r+1f= ,2 (C-1)2A= f. 2-C+2/f2在原假设成立下,Box还证明了统计量Bb的近似分布是F分布F(f,f),对12给定的显著性水平。,该检验的拒绝域为W={B'>F(f,f)}1-a1 2其中f的值可能不是整数,这时可通过对F分布的分位数表施行行内插法得到2分位数。例3对例2中绿茶叶酸含量的数据,用修正Bartlett检验再一次对方差齐性作出检验。已经求得C=1.0856B=0.97还可求得:r+1 4+1f=r
1-1f=r
1-1=4-1=3,f2(C-1)2 (1.0856C-1)2A=682.42-C+A=682.42-C+2/f2fBCBb=— =743.92-1.0856+2/682.4682.4x0.97x1.0856 =0.322f1(A-BC) 3(743.9-0.97x1.0856)对给定的显著性水平a=0.05,在F分布的分位数表上可查得F(3,682.4)=F(3,+s)=2.60.950.95由于B'<2.6,故接收原假设,即认为四个水平下的方差间无显著差异。§8.4一元线性回归变量间的两类关系确定性关系:这些变量间的关系完全是已知的,可以用函数y=f(x)来表示。相关关系:变量间有关系但不能用函数来表示。举例说明这两类关系。回归分析的主要任务:变量间的相关关系不能用完全确切的函数形式表示,但在平均意义下有一定的定量关系表达式,寻找这种定量关系表达式就是回归分析的主要任务。一元线性回归模型设y与x间有相关关系,称x为自变量(预报变量),y为因变量(响应变量),在知道x的取值后,y的取值并不是确定的,它是一个随机变量,因此有一个分布,这个分布是在知道x的取值后y的条件密度函数p(y\x),关心的是y的均值E(Y\x),它是x的函数,这个函数是确定性的:f(x)=E(Y\x)=1讨yp(y\x)dy—8上式即为y关于x的理论回归函数一条件期望,即要寻找的相关关系的表达式。以上的叙述是在y,x均为随机变量场合进行的,这是一类回归问题。第二类回归问题是,其自变量x是可控变量(一般变量),只有y是随机变量,它们之间的相关关系可用正式表示y=f(x)+s其中8是随机误差,一般假设8〜N(0,O2),由于8的随机性,导致y是随机变量,本节研究的重点是第二类回归问题。进行回归分析首先是回归函数形式的选择,当只有一个自变量时,通常可采用画散点图的方法进行选择,具体如下例。例1由专业知识知道,合金的强度y(x107Pa)与合金中碳的含量x(%)有关。为了生产强度满足用户需要的合金,在冶炼时如何控制碳的含量?如果在冶炼过程中通过化验得知了碳的含量,能否预测这炉合金的强度?为解决这类问题就需要研究两变量间的关系。首先是收集数据,将其记为数据对(x,y),i=1,2,…,n。ii合金钢强度y与碳含量x的数据序号x(%)y(x107Pa)序号x(%)y(x107Pa)10.14270.164920.114380.175330.124590.185040.1345100.205550.1445110.215560.1547.5120.2360把每个数对描在直角坐标系中,则得到散点图,如下。
从散点图发现12个点基本在一条直线附近,说明两个变量之间有一个线性相关关系,若记y轴方向上的误差为£,这个相关关系可以表示为V=0+0X+£01此即为y关于X的一元线性回归的数据结构式。这里总假定X为一般变量,是非随机变量,其值是可以精确测量或严格控制的,0,0为未知参数,0是直01 1线的斜率,它表示X每增加一个单位E(y)的增加量。£是随机误差,通常假定E(£)=0,Var(£)=o2在对未知参数做区间估计或假设检验时,还需要假定误差服从正态分布yE(£)=0,Var(£)=o2在对未知参数做区间估计或假设检验时,还需要假定误差服从正态分布y〜N(0+0x,02)01显然,假定(2)比(1)更强。则一元线性回归模型为:fy=0+0x+£,i=1,…,ni0 1ii[各£独立同分布,其分布为N(0,02)i由数据对(X,y),i=1,2,…,n可以获得0,0的估计0,0,称(1)即(2)iiyi=00+0iX0101为y关于x的经验回归函数,简称为回归方程,其图形称为回归直线。x=x后,称y=0+0x为回归值(拟合值或预测值)。0 0 0 108.4.3回归系数的最小二乘估计一般采用最小二乘方法估计一元线性回归模型中的0,0,令01Q(0,0)=£(y-0-0x)2给定010,0应该满足01i0 1ii=1Q(0,0)=minQ(0,0)0 1 00 0 101称这样得到的0,0为0,0的最小二乘估计,记为LSE。01 01由于Q>0,且对0,0的导数存在,因此最小二乘估计可以通过求偏导数01并命其为0而得到:那aQ祁"1一2E(r00一%)=0=-22(y-0-0x)X=0i0 1ii这组方程称为正规方程组,经过整理,可得nP+nXP=ny二1Zy,
nilxy-X)(y-y)=ZlXXlyylxy-X)(y-y)=ZlXXlyy=y(xi=y(yii-x)2=yxy-nxy=Zxy--ZxZyii iin i ix2-nx2=yX2i i-1(EX)2
niy-y)2=乙y2-ny2=iy)2i解之得P=l/11xyxx
八 八P=y-Px此即为参数的最小二乘估计,其计算通常可列表进行如下A7yx=1.9iA7yx=1.9iX=0.1583
yx2=0.3194
inx2=0.3008l=0.0186XX例1计算表n=12Exy=95.925iinxy=93.4958l=2.4292
xyP=l/1=130.61 xy户P=y-Px=28.53_0 1 Zy=590.5iy=49,2083Zy2=2939275iny2:29057.52l=335.23yyO2P〜N(P,(厂))b八 八(2)O2P〜N(P,(厂))b八 八(2)Cov(B。,,)XXX O2lXXXX⑶对给定的x0y=P+Px〜N(0+(X0-X)2)o2)证明利用y(X-X)=0i可把P1,p0改写为XXXXXX由此给出回归方程为y=28.53+130.6x定理8.4.1在一元线性回归模型下,有1X2⑴心〜N(P0,(n+厂)O2),
j_yri (%—%)%]=y—p%=乙[—— ]y1nli下面分别求其%%下面分别求其它们是独立正态变量y,…,y的线性组合,故都服从正态分布,1n期望与方差。E(I)=yFE(y)=y『(p°+%)=%%% %%Var(6)=y(i%))2Var(y)=y■(%~~%)—o2=02/11 l i l2 %%%%%%E(p)=E(y)—E(p)%=P+P%—P%=P0 1 01 1 0Var(B)=y[——(%一%)%]2Var(y)=(-+%2)o20nl inl%% %%这就证明了(1)。进而,考虑到诸y之间的独立性,可得iCov(B,B)=Cov(y[——(,i[%)%]y,y%%y)TOC\o"1-5"\h\z\o"CurrentDocument"0— nl ili%% %%Vr1(%一%)%r%—% %=乙[—i]io2=—o2n1 1 1%% %% %%这就证明了(2)。为了证明(3),注意到y=p+p%也是y,…,y的线性组合,0 0 10 1 nE(yE(yj)=E(p)+E(p)%=p+p%
0 0 1 0 0 10八 八=E(y)
0
八 八Var(yj)=Var(p)+Var(p)%+2Cov(p,p)0 0 10 01[(—+:)+
n1%%1%%[(—+:)+
n1%%1%%—2-0—]o2=[_+—o ]o21 n1%% %%证明完成。该定理说明:(i)P,P分别为P,P的无偏估计;(2)y是01 01 0/\/\E(y)=P+P%的无偏估计;(3)除%=0外,P,P是相关的;(4)要提高0 0 10 0 1P,P的估计精度(即降低它们的方差)就要求n在,1大(即要求%,…,%比较0 1 %% 1n分散)。8.4.4回归方程的显著性检验如果p=0,则E(y)不随%的变化而作线性变化,称回归方程不显著。1否则称回归方程显著。即作如下的显著性检验TOC\o"1-5"\h\z\o"CurrentDocument"H:P=0vsH:0W001 11拒绝原假设表示回归方程是显著的。通常有三种等价的检验方法,使用中只需要任选其一。一、F检验记y=p+p%为回归值,y—y为残差。数据总的波动用总偏差平方i0 1i ii
和s=1表示,回归平方和用S=Z(f-y)2表示,残差平方和用s=乙0-Q)2表示。从而可以推导得到S=S+S,此即为一元线性回e ii TRe归场合下的平方和分解式。定理8.4.2设y=p+px+8,其中£ 独立,而且有/ 0 1zi 1 nE8=0,)=02,,=1,…,〃i i沿用上面的记号,有E(S)=02+[32/,矶5)=5—2)6R 1xxeA这说明。2=SJ5-2)是。2的无偏估计。证明首先可以写出s的简化公式:TOC\o"1-5"\h\zs=£(/-了)2=t(y+B(X—无)一刃2=日2/R i 1i 1xx从而E(S)=E(|32)/="(B)+(邱”]/R 1xx 1 1xxO2=(——+廿2)/=02+02// 1XX 1XXXX=£(y-y)2=^(P+p%=£(y-y)2=^(P+p%+s=Z[(B-P)2+X2(P--P-P%)2
0 1i)2+8;2+2(po-po)(p-p)x-2(8—P)£-2(8—P)xe
E(S)=nVar(|3)+2Lx2Wzr(p)+nVar(s)+2nxCov(^,p)证明完毕。将刊写成小—2“(B8)-2^xE(ps)0i i1i线性组合,利用人与& j)的独立性,有人 7将刊写成小—2“(B8)-2^xE(ps)0i i1i线性组合,利用人与& j)的独立性,有人 71(x—元)元E(p8)=E[S乙 Ji、]」(x-x)x)y]=(——^——)02jnIE(p£)=E[S1i ijE(p£)=O2,Z0ixxXXrX-X
y]=^-02JIXXXXxE(p£)=02i1i从而1E(S)从而1E(S)=n[
en元2 V%2 2nx2八八+]O2+乙i(J2+HC2- 02—202—202XX=(l+n-4)J2+XX=(l+n-4)J2+XX XX—-X)2(j2=(〃一2)02XXTOC\o"1-5"\h\z\o"CurrentDocument"定理8.4.3设J,…,J相互独立,且J〜N(P+Px,o2),i=1,…,n,1 n i 0 1i则在上述记号下,有(1)S/02〜/2(n—2)e(2)若H成立,则有S/02〜/2(1)0 R-a11a12・・・a 、1n:A=aaan—2,1 , n—2,2i n—2,n,——(x—a11a12・・・a 、1n:A=aaan—2,1 , n—2,2i n—2,n,——(x—x)/4ll1 "xx(x—x)/.ll2 *xx(x—x)/一n _'xx11/31/4尻1/、;n /(3)S与S、y独立(或p与S、y独立)。Re 1e证明取nxn的正交矩阵A,具有如下形式:由正交性,可得如下一些约束条小\o"CurrentDocument"i ijj ijj j j乙aa=0,1<i<j<n—2ikjkk这里共有n(n—2)个未知参数,约束条件有3(n—2)+C2=(n—2)(n+3)/2n—2因此必定有解。令个,只要n>3,未知参数个数就不少于约束条件数,工qy因此必定有解。令jjj.=AY=AE=AY=An—2jj
j_Vx—x'j其中Zn—1E乙(x—'j其中Zn—1E乙(x—x)y j L二xxE(x—x)(y—y)l,;lPxxx1则Z仍然服从正态分布,且其期望与协方差阵分别为EZ= 0 ,Var(Z)=AVar(Y).At=O21nTOC\o"1-5"\h\zp4r nXX1,质(p0+P1X)J这表明z,…,z相互独立,Z,…,Z 的共同分布为N(0,02),z〜1 n 1 n-2 n-1N(P ,o2),z〜N晨n(p+pX),o2)。1'xx^-^ 、-n 0 1由于乙z2=乙y2=S+ny2=S+S+ny2,而z=.nny,人i iT Re nz=『B=.\S~,于是有z2+…+z2=S,所以S,S,y三者相互独n-1 X.xx1Rr 1 n-2 e eR立,并有S/O2
e=名(z/o2)S/O2
e=名(z/o2)〜X2(n-2),i在p=0时1证明完毕。i=1S/O2R与方差分析类似,F=SRS/(n-2)e可以考虑采用F作为检验统计量在p=0时,F〜F(1,n-2),其中f=1,f=n-2,对于给定的显著性水1 Re平a,拒绝域为F>F(1,n-2)1-a检验过程也可以列成方差分析表。例3在例2中,已经求出了回归方程,这里将对回归方程的显著性加以检验。经计算有S=l=335.23,f=11Tyy TS=p2l=317.26,f=1R1XX RS=S-S=17.97,f=10eTR e把各平方和移入方差分析表,继续进行计算来源平方和自由度均方和F比因子误差S=317.26RS=17.97ef=1Rf=10eMS=317.26RMS=1.80eF=MS/MSRe=176.26总和S=335.23Tf=11T合金钢强度与碳含量回归方程的方差分析表若取a=0.01,则F0.99(1.10)=10<176.55,因此,在显著性水平a=0.01下回归方程是显著的。、t检验O2xxTOC\o"1-5"\h\z对回归方程显著性的检验也可以基于t分布进行。由于P〜N(P,(--)),1 1lxx八Pt- 1 〜t(n—2)O/、〃八Pt- 1 〜t(n—2)O/、〃xx其中0-S/(n-2),由于o.-0/J厂,因此称6.=6/丁为B的标、e p xx p xx1准误,即t的标准差的估计,因此上述t分布的统计量可用来检验假设H:p=0vsH:pw001 11对给定的显著性水平a,拒绝域为卬=卬={t>t (n-2)}1-a/2注意:这里12=F,因此该检验与前述F检验等同。注意:这里12=F,因此该检验与前述F检验等同。例4接例3。计算得八P 130.6022t= 1^== ——0/.1 <1.797/v0.0186xx-13.2872若取a=0.01,则t0.995(10)=3」698<13.2872,因此在显著性水平0.01下回归方程是显著的。三、相关系数检验当一元线性回归方程是反映两个随机变量x,y间的线性相关关系时,它的显著性检验还可通过对二维总体相关系数P的检验进行。它的一对假设是H:p=0vsH:pw001所用的检验统计量为样本相关系数工(x.-所用的检验统计量为样本相关系数工(x.-x)(y-y)xxxxyyy其中(x,y),i=1,2,…,n是容量为n的二维样本。ii利用施瓦茨不等式可以证明:样本相关系数也满足|r<1,其中等号成立条件是存在两个实数a,b,使得对i=1,2,…,n有y=a+bx。由此可见n个ii点(x,y),i=1,2,…,n在散点图上的位置与样本相关系数丫有关。(1)r=±1,iin个点完全在一条上升或下降的直线上;(2)r>0,当x增加时,y有线性增加的趋势,此时称正相关;(3)r<0,当x增加时,y反而有线性减少的趋势,此时称负相关;(4)r=0,n个点可能毫无规律,也可能呈某种曲线趋势,此时称不相关。根据样本相关系数的上述性质,检验的原假设的拒绝域为W-{|r|>c}
其中临界值C可由原假设成立时样本相关系数的分布写出,该分布与自由度n-2有关。对给定的显著性水平a,由P(W)=尸{|r|>c}=a知,临界值c应是原假TOC\o"1-5"\h\z设成立下”的分布的1-a分位数,故记为c=r(n-2)。还可以用f分布来1 1-a确定临界值c如下。由样本相关系数的定义可以得到统计量r与F的之间的关系l2SSS/Sr2=一工=-R-= R——= R e—lSS+SS/S+1xxyy TR eR e而MSSS(n-2)F= R-= R =7 MSS/(n-2)See e综合二者得F2二F+(n-2)这表明|r是F的严格单调增函数,故可以从F分布的1-a分位数Fia(1,n-2)得到r的1-a分位数为:F(1,n-2)c=r(n-2)=——1-a 1-a A:F(1,n-2)+1' 1-a上例中,对于a=0.01,n=12,查表知F(1,10)=10.04,于是0.99r0.99r0.99“oxfi1黑=0.708为实际使用方便,已经编制了r(n-2)表,见附表9。上例中,可以计算得2.4292=0.9728r=上例中,可以计算得2.4292=0.9728r=J0.0186x335.2292若取a=0.01,查附表9知r(10)=0.708<0.9728,因此在显著性水平0.01下0.99回归方程是显著的。8.4.5估计与预测当回归方程检验后是显著的,便可以用来做估计和预测。估计问题:当%=工时,寻求均值E(J)=0+P%的点估计与区间估
0 0 0 10计(这里的E(J0)是常量),此即估计问题。预测问题:当%=%时,y0的观察值在什么范围内,由于丁°是随机变量,为此只能求一个区间,P(y0-yr3为此只能求一个区间,P(y0-yr3)=1-a,称区间[y-3,y+3]为y的概率为1-a的预测00 0区间,这是预测问题。
一、E(y)的估计0在x=x时,其对应的因变量y是一个随机变量,有一个分布,经常需要00对该分布的均值给出估计。该分布的均值为E(y)=0+px,因此,一个直TOC\o"1-5"\h\z0 0 10观的估计应为E^(y)=0+0x0 0 10上述估计记为y(注意它表示E(y)的估计,而不表示y的估计,因为y是随0 0 00机变量,它是没有估计的)。由于0,0分别为0,0的无偏估计,因此y也是01 01 0E(y)的无偏估计。0为得到E(y)的区间估计,需要知道y的分布。由定理8.4.1知00y=b+Bx〜n(B+Bx,((-+(xo:x”内2)0 0 10 0 10nlxxzx又由定理8.4.3知S/o2〜X2(n—2),且与y=y+0(x—x)相互独立,e 0 10记抗=S/(n-2)e1(x-x)(y-Ey1(x-x)(y-Ey)/ +一一,nl xx2_oy0-Ey01S,八/(n-2)O21(x-x)2,'-+ ,nl, xx〜t(n—2)于是E(y0)的1-a的置信区间是[y0-3o,yo+3。],其中3=t0 1-a/2(n-2)%-0——lxx二、%的预测区间事实上,y=Ey+£,由于通常假定8〜N(0,o2),因此y的最可能00 0取值仍然为y,于是可以使用以y为中心的一个区间00(y-3,y+3)00作为y的取值范围,为确定3的值,需要如下的结果:由于y与y独立,故0 00y0-y0〜N(0,[(1+n+ ]O2)xx因此有八yn-yn 0 0 〜t(n—2)1(x-x)2o1+—+—0 nl' xx从而预测区间中3的表达式为1 (x—元)20=0(x)=t (n-2)o1+—+—o 0 「a/2 \nlxx上述预测区间与E(y)的置信区间的差别在于根号里多个1,计算时要注意到0这个差别,这也是导致预测区间要比置信区间宽一些的原因。从0的表达式中可以看出预测区间的长度20与样本量n,x的偏差平方和l,x到x的距离有关。x到x距离越远,预测精度就越差。当xe[x,x]xx0 0 0 (1) (n)时,预测精度可能变得很差,在这种情况下的预测称作外推,需要特别小心。因此,若x,…,x较为集中时,那么l就较小,也会导致预测精度的降低,因1 n xx此,在收集数据时要使x,…,x尽量分散,这对提高精度有利。如下图,在x=x1n时预测区间最短,远离x的预测区间越来越长,呈喇叭状。当n较大时(>30),t分布可以用正态分布近似,进而,若x0与x相差不大时,0可以近似取为0=6u1-a/2其中u 是标准正态分布的1-a/2分位数。如上图。1-a/2例4在例2中,如果x=0.16,则行预测值为0y=28.5364+130.6022x0.16=49.43280 若取a=0.05,则t(10)=2.2281,又。=J17.9703/(12-2)=1.3405,0.975应用0表达式得0 0=1.3405x2.2281X。+(0.6-0,9)2=1.080 \,12 0.0186故x=0.16对应因变量y的均值E(y)的0.95置信区间为0 0049.43±1.08=(48.35,50.51)应用0表达式得 0=1.3405x2.2281xJ1+X+(0.16-0.19)2=3.181 12 0.0186从而y的概率为0.95的预测区间为049.43±3.18=(46.25,52.61)由此可见,E(y)的0.95置信区间比y的概率为0.95的预测区间窄很多,这00是因为随机变量的均值相对于随机变量本身而言要更容易估计。也可以求近似预测区间,用正态分布近似t分布。由于u =1.96,Be1.96X1.34=2.63,则所求区间为0.97549.43±2.63=(46.8,52.06)此处近似预测区间与精确预测区间相差较大是因为n较小的原因。例5在动物学研究中,有时需要找出某种动物的体积与重量的关系。因为动物的重量相对而言容易测量,而测量体积比较困难,因此,人们希望用动物的重量预测其体积,下面是18只某种动物的体积与重量数据,在这里,动物重量被看作自变量,用X表示,单位为kg,动物体积则作为因变量,用y表示,单位为dm3,18组数据列于下表中18只动物的重量X与体积y数据XyXyXy10.410.215.114.816.515.910.510.415.115.116.716.611.911.615.114.517.116.712.111.915.715.717.116.713.813.515.815.217.817.61514.51615.818.418.3为了能用动物重量估计动物体积,必须建立动物体积y关于动物重量X的回归方程。首先画出散点图,如下图从散点中发现18个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,下面求该线性回归方程,计算过程如下例5计算表Zx=270.1iX:15.0056n=18Zy=265iy=14.7222ZX2=4149.39inx2=4053.0006ZXy=4071.71iinXy=3976.4722Zy2=3996.14iny2=3901.3889l=96.3894XXl=95.2378Xyl=94.7511w八p=l/1=0.98811Xy XX0=y-xP1=-0.1048由此给出回归方程为Q=—0.1048+0.988k下面进行回归方程的显著性检验。经计算S=l=94.7511,f=17TOC\o"1-5"\h\zTQQ TS=B21=0.98812x96.3894=94.109,f=1R1xx RS=S—S=0.6421,f=16eTR e将诸平方和移入方差分析表内,继续计算得动物体积与重量回归方程的方差分析表来源平方和 自由度 均方和 F比因子误差F=MS/MSS=94.109f=1MS=94.109 ReR R R =23469S=0.6421f=16MS=0.0401 = .e ee总和ST=94.7511 fT=17若取a=0.01,则F(1,16)=8.53<2346.9,因此,在显著性水平0.01下回归0.99方程是显著的。如果测得某动物的重量为x=17.6kg,则由回归方程计算得0Q=—0.1048+0.9881X17.6=17.28580 若取a=0.05,则t (16)=2.1199,6=%'0.0401=0.2002,由8表0.975达式得 8=0.2002X2.1199x.1+X+(17.6-15"05®2=0.477618 96.3894从而该动物体积的概率为0.95的预测区间为(17.2858±0.4776)=(16.8082,17.7634)近似预测区间,由于u =1.96,则8^1.96x0.2002=0.3924,则所求区0.975间为(17.2858±0.3924)=(16.8934,17.6782)。此处近似预测区间与精确预测区间差距已经不大了,当n更大时,两者差距会更小一些。§8.5一元非线性回归例1炼钢厂出钢水时用的钢包,在使用过程中由于钢水及炉渣对耐火材料的侵蚀,共容积不断增大。现在钢包的容积用盛满钢水时的质量Q(kg)表示,相应的试验次数用x表示。数据见下表,要找出Q与x的定量关系表达式。需要分三步进行。
钢包的重量y与试验次数%数据序号 工y序号Xy12106.42811110.5923108.2914110.634109.581015110.945109.51116110.7657110121811168109.931319111.2710110.498.5.1确定可能的函数形式首先画出散点图,如下图。观测这13个点构成的散点图,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年山东大集物流科技集团有限公司招聘真题
- 2024年宁波卫生职业技术学院招聘真题
- 2024年麻城市市属事业单位考试真题
- 2024年连云港市市属事业单位考试真题
- 2024年贵州榕晟体育文化产业有限责任公司招聘聘笔试真题
- 2024年安康高新中等职业学校专任教师招聘真题
- 2024年安徽省第一轻工业学校专任教师招聘真题
- 窗帘购买安装合同范本
- (一模)桂林市、来宾市2025届高考第一次跨市联合模拟考试 政治试卷(含答案详解)
- 收购抵押吊车合同范本
- 2022年安徽省淮北市电焊工电焊工模拟考试(含答案)
- 有限空间作业安全培训
- 泰国落地签证申请表
- 神经内科住院医师规范化培训结业实践技能考核指导标准
- GB/T 26081-2022排水工程用球墨铸铁管、管件和附件
- GB/T 36362-2018LED应用产品可靠性试验的点估计和区间估计(指数分布)
- GA/T 1356-2018国家标准GB/T 25724-2017符合性测试规范
- 2022年“科技素养提升行动”知识竞赛考试题库700题(含各题型)
- 2022邮储银行综合柜员(中级)理论考试题库大全-上(单选、多选题)
- 【经典】销售就是玩转情商课件
- 如何进行社会调查研究课件
评论
0/150
提交评论