方差分析与回归分析_第1页
方差分析与回归分析_第2页
方差分析与回归分析_第3页
方差分析与回归分析_第4页
方差分析与回归分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章方差分析与回归分析一、教材说明本章内容包括:方差分析,多重比较,方差齐性检验,一元线T回归,一元非线性回归.主要 讲述方差分析和一元线性回归两节内容.1、教学目的与教学要求(1)了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简 单的实际问题.(2) 了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合 的方法,会解决简单的实际问题.(3)熟练掌握Hartley检验,Bartlett检验以及修正的 Bartlett检验三种检验方法,会解决 简单的实际问题.(4)理解变量间的两类关系,认识一元线性和非线性回归模型,熟悉回归系数的估计方法,熟练掌握

2、回归方程的显著性检验.能用R软件来进行回归分析,会解决简单的实际问题 .2、本章的重点与难点本章的重点是平方和的分解,检验方法和参数估计、重复数相等与不相等场合的方法、 检验方法的掌握,回归系数的估计方法,回归方程的显著性检验,难点是检验方法和参数估计,重复数相等与不相等场合的方法.实际问题的检验,回归方程的显著性检验.二、教学内容本章共分方差分析,多重比较,方差齐性检验,一元线,f回归,一元非线性回归等5节来讲述本章的基本内容.§ 8.1 方差分析教学目的:了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.教学重点:平方和的分解,检验方法和参数

3、估计教学难点:检验方法和参数估计教学内容:本节包括方差分析问题的提出,单因子方差分析的统计模型,平方和分解,检验方法,参数估计,重复数不等情形.8.1.1 问题的提出在实际工作中经常会遇到多个总体均值的比较问题,处理这类问题通常采用方差分 析方法.例 8.1.18.1.2 单因子方差分析的统计模型在例8.1.1中,我们只考察一个因子,称为单因子试验.记因子为A ,设其有r个水平,记为A11H,A,在每一水平下考察的指标可看做一个总体,故有 r个总体,假定(1)每一总体均为正态总体,记为N(:,oi2) , i =1,2,|,r ;(2)各总体方差相同,即 C;22 =|=;,2 - 2(3)每

4、一总体中抽取的样本相互独立,即诸数据yj都相互独立在这三个基本假定下,要检验的假设是Ho:*=&=川=* Hi :匕出2,,叫不全相等(8.1.1)如果Ho成立,因子A的r个水平均值相同,称因子 A的r个水平间没有显著差异,简称因子A不显著;反之,若H0不成立,因子A的r个水平均值不全相同,称因子A的r个水平间有显著差异,简称因子A显著.在每一水平下各作m次独立重复试验,若记第i个水平下第j次重复的实验结果为 yj ,得到 r Mm个实验结果:yj ,i =1,2,| |r,j =1,2,| |,m.在水平Ai下的实验结果yj与该水平下的均值叫的差距%=yj-Ni称为随机误差.于是有y

5、j=%+B,(8.1.2)该式称为实验结果yj的数据结构式.把三个假定用于数据结构式就得到单因子方差分析的统计模型:yj= ;j+d,i = 1,2jl|r,j=12H|,m;<(8.1.3 )诸“相互独立,且都服从 N(0,。2)一11 r称诸Ri的平均k=1(k1 + |+kr)=1Z Ni为总均值,第i水平下均值Ni与总均值的差 rr i=1rai = Ni-R称为因子A的第i水平的主效应,简称为 Ai的主效应.则有工ai=o,Ni=N+ai. i=1统计模型(8.1.3 )可改写为yj = +ai +,i=1,2,IHr,j=1,2jll,m;ra =o;i=1、诸色相互独立,且

6、都服从N(0,。2)假设(8.1.1 )可改写为H o: a( = a? = " = ar =0 f H1 : 3),a2,,ar不全为0.8.1.3 平方和分解一实验数据在单因子方差分析中可将实验数据列成如下表格形式A1yny 12y1mT1V1A2ay21y22a H -丫2mT29yz9Ary r1yr2- -y rmTryr|_试验数据因子水平平均和合计组内偏差与组间偏差yj-y=(yj-yiL)+(yi-y),记 文1m _ i r _ 1rmm:j,.二。,yj-3_称为组内偏差,y|_-y称为组间偏差.三偏差平方和及其自由度在统计学中,把k个数据yi,|,yk分别对其均

7、值y=(y1 + |+yk)/k的偏差平方和k _Q = Z (y-1)2称为k个数据的偏差平方和,简称平方和.i=1k _由于£ (yi-y)=0 ,说明在Q中独立的偏差只有k-1个,称为该平方和的自由度,记为i=1f , fQ=k-1.Q四总平方和分解公式各yj间总的差异大小可用总偏差平方和&表示为rm_St =Z Z (yj -y)2,fT=n-1.(8.1.3 )i =1 j =1仅由随机误差引起的数据间差异可用组内偏差平方和,也称误差偏差平方和,记为r m_& =E £ (yj -yii_)2,fe=r(m-1)=n-r.(8.4 )i=1 j =

8、1由效应不同引起的数据差异可用组间偏差平方和表示,也称为因子 A的偏差平方和, r _记为 Sa, Sa =mZ (yiy)2,fA = r-1.(8.1.5 )i 1定理8.1.1在上述符号下,总平方和ST可分解为因子平方和SA.与误差平方和Se之和,其自由度也有相应分解公式:Sr=SA +Se,fT=fA+fe.(8.1.6 )称为总平方和分解式.8 . 1.4检验方法为了度量一组数据的离散程度,称 MS =Q/ fQ为均方和.由均方和的概念,得到MSA=SA/fA, MSe = Se/fe,用F =MSA/MSe作为检验的统计量,为给出检验拒绝域,需要如下定理:定理8.1.2 在单因子方

9、差分析模型及前述符号下,有(1) -se2-X(n-r),从而 E(0)=(n-r)。2CT(2) E(SA)=(r-1R2+m£ a2i ,若 Ho成立,则有 力/2?211) i=1、-(3) Sa与Se相互独立.由定理8.1.2 知F =MSA/MSeLI F(fA, fe),从而可得检验的拒绝域为W =F -F-Ca/)将上述结果列成表格,称为方差分析表来源平方和自由度均方和F比因子SafA = r -1MSa =Sa"aF = MSA/MSe误差Sefe = n-rMSe -Se / fe总和StfT = n -1若F A Fi& fA, fe),则可以认

10、为因子 A显著,即诸正态均值间有显著差异;若F<F1q(fA,fe),则说明因子 A不显著,即保留原假设 H0.常用偏差平方和的计算公式: r m2St ='、' j -i a j an1 r T2Sa =,. Ti2 m p nSe - ST -,例 8.1.28.1.5 参数估计在检验结果为显著时,可进一步求出总均值各主效应ai和误差方差仃2的估计.一点估计总均值R的估计为i? = y;各水平土Mt Ri 的估计用=yiL,i =l,2,|,r ;主效应 ai 的估计 a = y、y, i =1,2,|, r误差方差a2的估计02 =MSe =Se/ fe二置信区间由

11、定理8.1.2知 1N(H,o2/m),普22(fe),且两者独立,故 £i1t (fe),由 二,See此给出Ai的水平均值k的1 a的置信区间是 见士电1也/2 (fe) /后.例 8.1.3单因子试验的数据分析可以知道如下三个结果因子A是否显著试验误差方差。2的估计诸水平均值k的点估计与区间估计(此项在因子A不显著时无需进行)8.1.6 重复数不等情形1.数据设因子A有r个水平Ai,|,a r,并且第r个水平A下重复进行m次试验,可得如下数据:因子水平重复数试验数据平均Aim1yny12y1mlTiy1A 2m2y 21 y22y2m2T2y2Lss-aaaaaArmry r1

12、y r2 yrmrTr九合计nTy2.基本假定、平方和分解、方差分析和判断准则都和前面一样,只是因子A的平方和rSA的计算公式略有不同:记 n =£ m,则i =1_ 2_ 2TiTpF n3.数据结构式及参数估计式基本同前,需要注意下面两点:、,1 r(i)总均值 m = -z mH ;(2)主效应约束条件为r: mi ai =0 i =1类似于8.1.8有yj =2+ai+轴,i=1,2川 r,j=1,2川,m; r"甲ai=0;i=1诸力相互独立,且都服从N(0,。2)4各平方和的计算m Tr m T记T =£ yij,yiL= i,T =£ &#

13、163; y0,y=j 1甲i=1 jdn一 r mio T2则 ST=££ yj ,fT=n-1, i w j 3 nr Ti2T2SA = " , -,fA=r-1,i甲 nSe =ST -SA,fe=n-r.例8.1.4 略§ 8.2 多重比较教学目的:了解效应差的置信区间的求法,了解多重比较问题, 掌握重复数相等与不相等场合的方法,能用 R软件来进行多重比较,会解决简单的实际问题。教学重点:重复数相等与不相等场合的方法.教学难点:重复数相等与不相等场合的方法.教学内容:本节内容包括效应差的置信区间,多重比较问题,重复数相等场合的 T法,重复数不等

14、场合的S法.8.2.1 效应差的置信区问如果方差分析的结果因子A显著,则认为因子 A的r个水平的效应不全相同,但就指定的一对水平 A和入,可通过求Ri-吃的区间估计来进行比较,方法如下:由于 7-以*匕-因,(工+工)。2),又由定理8.1.2知S/l-fe),且两者独m mj立,故(yi -yj )-( -i - -j)j=t(fe),由此给出Ni-'的置信水平为1的置信区间为(1+1)&例8.2.1略yjt :.(fe),(8.2.1)1 2注(8.2.1)给出的置信区间与第六章中两样本的t区间基本一致,区别在于这里 仃2的估mi mj fe计使用了全部样本而不仅仅是A ,

15、 A两个水平下的观测值.8.2.2 多重比较问题对每一组(i,j) (8.2.1)给出的区间置信水平都是1-s,但对于多个这样的区间,要求其同时成立,其联合置信水平就不再是1« .例如,设E/ll ,Ek是k个随机事件,且有nP(Ei )=1 口 i , =11, k,则其同时发生的概率 P(D Ei)=1-k« ,即它们同时发生的概率可能比 i=11-a小很多,为了解决这个问题,常采用多重比较法.在方差分析中,如果经过 检验拒绝原假设,表明因子 A是显著的,即r个水平对应的 水平均值不全相等,此时,我们还需要进一步确认哪些水平均值间确有差异 ,哪些水平均值 间无显著差异.

16、在r(r>2)个水平均值中同时比较任意两个水平均值间有无明显差异的问题称为多重比较,多重比较即要以显著水平a同时检验如下r(r-1)/2个假设:H jo:' = ' ,1 <i<j < r .(8.2.2)关于假设(8.2.2)的拒绝域应有如下形式:w=igj yi-y-cj诸临界值应在(8.2.2)成立时由P(W)二支确定.下面介绍重复数相等和不等时临界值确 定的方法.8.2.3 重复数相等场合的T法A2 仁在重复数相等时,由对称性可要求诸cj相等,记为c,记仃=Sef,则由条件可得-t(fe),于是当(8.2.2)成立时,-二|仁吗=故有 二.m(y

17、;-;)(Vi-i) cP(W)=P(max i-min j -> ),这里:/m 二,m二.m(y: - 口:)(y i - -i)q(r,fe)=maxi a l -min j -一般称为t化极差统计重,q(r,fe)的分布可由随机模u/m二,m拟方法得到,q(r,fe)的1-«分位数q1心(r,f)可查表.重复数相同时的多重比较步骤如下:对给定的显著性水平«,差多重比较的分位数a qMr,。表,计算c=q1dr,f) */Vm ,比较诸X-yj,与c的大小,若y-yj |*c则认为水平A , A ,有显著差异,反之则认为A , Aj,间明显差别.这一方法称为T法

18、.例8.2.2 略8.2.4 重复数不等场合的S法在重复数不等时,仍沿用上面的记号,有(yi -yj )-( 口i -j )t(fe)在假设(8.2.2)成立时,匕=| =5二卜,于是有=VE1-CT+mTt(fe)或 Fj=1/ 、2(:-V;LF(1,fe)11一 +一 二m mj要求 cj =c :+ mi mj于是有 P(W户P(max j<j,Fij _( c 人)2由 P(W)=o(推出()2=(r-1)Fi-Jr-1,fe),即 Cij=J(r-1)Fia(r-1fe)(2+5)。例8.2.3 略§ 8.3 方差齐性检验教学目的:熟练掌握Hartley 检验,Ba

19、rtlett检验以及彳正的Bartlett检验三种检验方法,会解决简单的实际问题。教学重点:检验方法的掌握教学难点:实际问题的检验教学内容:本节内容包括 Hartley 检验,Bartlett 检验,修正的Bartlett 检验.在单因子试验中r个水平的指标可以用r个正态分布N(Ni,o2i),i=1|,r来表示.在进行方差分析时要求r个方差相等,称为方差齐性.所谓方差齐性检验是对如下一对假设做出检验:Ho:52=Q22= 111=仃r2vsH1:诸0不全相等.(8.3.1)下面分别介绍几个常用的检验:(1) Hartley检验,仅适用于样本量相等的场合;(2) Bartlett检验,可用于样

20、本量相等或不等的场合,但每个样本量不得低于5;(3)修正的Bartlett检验,在样本量较小或较大,相等或不等场合均可使用.8.3.1 Hartley 检验在各水平下试验重复次数相等时,即m1 = | =mr=m , Hartley 检验提出检验方max s2“ s2s2 差相等的检验统计量H =sjsj,/) ,在诸方差相等条件下,可通,过随机模拟mins 1s 2, ,s r法获得 H分布的分位数,该分布依赖于水平数 r和样本方差的自由度 f=m-1,故可记该分 布为 H (r,f).对给定的显著性水平 a ,检3处H 0的拒绝域为 W=H > H1晨r,f) , H1晨r,f)为H

21、的 1-a分位数.例8.3.1利用Hartley检验法8.3.2 Bartlett 检验在单因子方差分析中有r个样本,设第i个样本方差为:8.3.3 1mjQs i=(%-yi尸了,i=1,2川,r,5-1j=ifi1 rh误差均万和MSe=£Qi, GMSe=(sj)f1(s22)f2(s2r)fTfe,则 GMSe«MSe,故fe i=1可得检验(8.3.1)的拒绝域为W=ln(MS e/GMSe)>d,可以证明,在大样本场合, ln(MSe/GMSe)的某个函数近似服从自由度为r-1的72分布.故取f21/ 1 1B='ln(MSe/GMSe)口/(r-

22、1),C=1+Z , 选 取C3(r-1) i=1 fi fe1'B= f elnMSe-Z fi ln /作为检验统计量,可得显者性水平口下的检验拒绝域为Ci=1W=B 一 1-12(r-1).例8.3.2应用Bartlett检验法.8.3.3修正的Bartlett 检验针对样本量低于5时不能使用Bartlett检验的缺点,提出修正的Bartlett检验统计量B= f2BC 淇中B, C如前所示 f1(A-BC)f1 = r-1,f2 =r+1(C12,A二f22-C+2/f2在原假设成立的条件下,B的近似分布是F(f1,f2),对给定的显著性水平a,检3(8.3.1)的拒绝域为W=

23、B - Fi- :. (f1 ,f2 ).例8.3.3利用修正的Bartlett 检验法§ 8.4一元线性回归教学目的:理解变量间的两类关系,认识一元线性和非线性回归模型,熟悉回归系数的估 计方法,熟练掌握回归方程的显著性检验,会解决简单的实际问题教学重点:回归系数的估计方法,回归方程的显著性检验教学难点:回归方程的显著性检验.教学内容:本节内容包括:变量间的两类关系,一元线性回归模型,回归系数的最小二乘估计,回归方程的显著性检验,估计与预测.8.4.1变量间的两类关系回归分析处理的是变量与变量间的关系,变量间常见的关系有确定性关系与相关 关系.变量间的相关关系不能用完全确切的函数形

24、式表示,但在平均意义下有一定的定量关系表达式,寻找这种定量关系是回归分析的主要任务8.4.2 一元线性回归模型一元回归分析是研究两个变量之间的相关关系的方法.如果两个变量之间的关系是线性的,这就是一元线性回归问题 .一元线性回归问题主要分以下三个方面:(1)通过对大量试验数据的分析、处理,得到两个变量之间的经验公式即一元线性回归方程.(2)对经验公式的可信程度进行检验,判断经验公式是否可信(3)利用已建立的经验公式,进行预测和控制设y与x间有相关关系,称 x为自变量,y为因变量,f(x)=E(YX)=J yp(y|x)dy是-y关于x的理性回归函数.进行回归分析首先是回归函数形式的选择,当只有

25、一个变量时,可采用散点图的方法 进行选择.通过试验,可得到x、y的若干对实测数据, 将这些数据在坐标系中描绘出来,所得到的图叫做散点图.例8.4.1由专业知识知道,合金的强度与合金中碳的含量有关,为了生产出强度满足用户需要的合金,在冶炼时如何控制碳的含量,如果在冶炼时得知了碳的含量,如何预测合金的强度?为了解决这类问题就需要知道两个变量间的关系.首先是收集数据记为 (K,yi),i=lJII,n ,将每对观察值(x»)在直角坐标系中描出,得散点图,从图可看出,这 些点虽不在一条直线上,但都在一条直线附近.于是,很自然会想到用一条直线来近似地表示x与y之间的关系,这条直线的方程就叫做y

26、关于x的经验回归函数,简称回归方程.设这条直线的方程为y = P0 + P1 x,其图形称为回归直线,给定x0后y0=P0 + P1 x0称为回归值.8.4.3回归系数的最小二乘估计在一次试验中,取得 n对数据(xi,yi),其中yi是随机变量y对应于xi的观察值.我们所要求的直线应该是使所有|yi -?|之和最小的一条直线,其中yi=P0 + P1 xi.由于绝对值在a an处理上比较麻烦,所以用平方和来代替,即要求P0,Pi的值使Q(P0,Pi)=£ (yi -yi)2最小.i 1利用多元函数求极值的方法求回归系数p0, P1,得0 = y 1x1 n 其中 x= 一£

27、 xi ,n y77 - 1 _n_n9 _n 9 1 _2y = y=_£ yi , lxx=£ (x x) =£ xi (Z x)n i 1i 1i 1 nJ _ 2 . .21 . .2lyy=乙(yi -y)=乙 yi (乙 yi),ynnnlxy = x (xi - x)(yi -y)=x xiyi - nxyi 1i 1从而得到一元线性回归方程y = P0 +P1x .其中P0,B1称为参数P0,B1的最小二乘估计,上述方法叫做最小二乘估计法例 8.4.2下面给出最小二乘估计的性质定理8.4.1 在模型(8.4.5)下,有a2a2(1) -0N( -0

28、,( + L);1N( ;)nlxx1 xx(2) Cov( o, 1)=- "x。2 1 xxA A A凸 凸 1(xn-x)22对给定的 x0, yo = p0 + p1x0N(p0+p1xo,(- + -) ) n lxx8.4.4回归方程的显著性检验一般的情况下,给定 n对数组,总能建立一个方程,但是这个方程不一定有意义.若回.原假设归方程中 吃=0,则回归方程变成 y = P0,不再与x有关,此时称回归方程不显著与备择假设为:H0: P1 =0 1 H1 :P1 #0, A A为了寻求检验的统计量.我们把总体平方和分解,令yi = P0+ P1 xi称为回归值.nn&n222St - (yi -y) - (yi -yi)x (yi -y)i 1i 4i 1人 nA 2n2令Z (yi -yi)2 =Se,称为残差平万和.Z (yi -y)2 = SR称为回归平万和.则i 4i 1n* 2 n *_ 2ST = " (yi - yi )一( yi - y) =Se+SR . i 4i 4nn'、(yi - y)2'、(yi - yi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论