数理统计--参数估计、假设检验、方差分析(李志强)(3)讲解

上传人：y*** IP属地：天津上传时间：2021-06-11 格式：DOC 页数：38 大小：489KB 积分：25 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、教学单元案例：参数估计与假设检验北京化工大学李志强教学内容：统计量、抽样分布及其基本性质、点估计、区间估计、假设检验、方差分析教学目的：统计概念及统计推断方法的引入和应用(1) 理解总体、样本和统计量等基本概念；了解常用的抽样分布；(2) 熟练掌握矩估计和极大似然估计等方法；(3) 掌握求区间估计的基本方法；(4) 掌握进行假设检验的基本方法；(5) 掌握进行方差分析的基本方法；(6) 了解求区间估计、假设检验和方差分析的MATLAB命令。教学难点：区间估计、假设检验、方差分析的性质和求法教学时间：150分钟教学对象：大一各专业皆可用一、统计问题引例例1已知小麦亩产服从正态分布，传统小麦品种

2、平均亩产800斤，现有新品种产量未知，试种10块，每块一亩，产量为：775,816,834,836,858,863,873,877,885,901问：新产品亩产是否超过了800斤？一 2例 2 设有一组来自正态总体N (崇 )的样本 0.497, 0.506, 0.518, 0.524, 0.488, 0.510, 0.510,0.512.(i) 已知匚2=0.012，求的95%置信区间；2(ii) 未知二，求的95%置信区间；2(iii) 求匚的95%置信区间。例3现有某型号的电池三批，分别为甲乙丙3个厂生产的，为评比其质量，各随机抽取5 只电池进行寿命测试，数据如下表示，这里假设第i种电池

3、的寿命XiNCli2).工厂寿命/h甲4048384245乙2634302832丙3940435050(1) 试在检验水平-0.05下,检验电池的平均寿命有无显著差异(2) 利用区间估计或假设检验比较哪个寿命最短.二统计的基本概念：总体、个体和样本(1)总体与样本总体在数理统计中，我们将研究对象的某项数量指标的值的全体称为总体，总体中的每个元素称为个体比如，对电子元件我们主要关心的是其使用寿命而该厂生产的所有电子元件的使用寿命取值的全体，就构成了研究对象的全体，即总体，显然它是一个随机变量，常用X表示为方便起见，今后我们把总体与随机变量X等同起来看，即总体就是某随机变量X可能取值的全体.它客观

4、上存在一个分布，但我们对其分布一无所知，或部分未知，正因为如此，才有必要对总体进行研究简单随机样本对总体进行研究，首先需要获取总体的有关信息一般采用两种方法：一是全面调查如人口普查，该方法常要消耗大量的人力、物力、财力有时甚至是不可能的，如测试某厂生产的所有电子元件的使用寿命二是抽样调查抽样调查是按照一定的方法，从总体X中抽取n个个体这是我们对总体掌握的信息数理统计就是要利用这一信息，对总体进行分析、估计、推断因此，要求抽取的这n个个体应具有很好的代表性按机会均等的原则随机地从客观存在的总体中抽取一些个体进行观察或测试的过程称为随机抽样从总体中抽出的部分个体，叫做总体的一个样本从

5、总体中抽取样本时，不仅要求每一个个体被抽到的机会均等，同时还要求每次的抽取是独立的，即每次抽样的结果不影响其他各次的抽样结果，同时也不受其他各次抽样结果的影响这种抽样方法称为简单随机抽样由简单随机抽样得到的样本叫做简单随机样本往后如不作特别说明，提到“样本”总是指简单随机样本从总体X中抽取一个个体，就是对随机变量X进行一次试验抽取n个个体就是对随机变量X进行n次试验，分别记为X1,X2,，Xn.则样本就是 n维随机变量(X1,X2,Xn).在一次抽样以后，(X1,X2,Xn)就有了一组确定的值(x1,x2,xn),称为样本观测值样本观测值(x1,x2，,xn)可以看着一个随机试验的一个结果

6、，它的一切可能结果的全体构成一个样本空间，称为子样空间(2) 样本函数与统计量设X-X2, xn为总体的一个样本，称即 h巒(Xi, X2, , xn )为样本函数，其中为一个连续函数。如果:中不包含任何未知参数，则称：(x11x2/ ,xn)为一个统计量。2、统计量(1)常用统计量样本均值-1 ；xxi -n i 4样本方差1 n -S2 (Xj 一 -)2.n - 1 i 丄(与概率论中的方差定义不同)样本标准差1(Xi-)2.:n - 1 y样本k阶原点矩1 n kM kXi , k = 12n y样本k阶中心矩1 n - kMk(-i -x) ,k=2,3n y1 n 一(二阶中心矩S

7、*2(Xi-X)2与概率论中的方差定义相同)n i吕例6. 2:用测温仪对一物体的温度测量5次，其结果为(C) : 1250, 1265, 1245,1260,1275，求统计计量 X，S2和S的观察值x,s2和S.(2)统计量的期望和方差2E(X)二-J D(X)：nE(S2)L，E(S*2)=g；n2 1 n 2 其中S*2(Xi -X)2，为二阶中心矩。n i三X1,X2, ,XnF(x)，i.i.d，独立同分布。无限总体抽样。(3)随机数生成在Matlab中各种随机数可以认为是独立同分布的，即简单随机样本。以下罗列在Matlab中的实现方法。X1,X2 ,Xn U(0,1)，均匀分布样

8、本n=10;x=ra nd(1, n)Xi,X2, ,Xn U(a,b)n=10;a=_1;b=3;x=ra nd(1, n);x=(b_a)*x+aXi,X2,XnN(0,1)，正态分布样本n=10;x=ra ndn (1, n)Xi,X2,XnN(a,b2)mu=80.2;sigma=7.6;m=1; n=10;x=n ormrnd(mu,sigma,m, n)上面首先对总体均值赋值 mu=80.2;再对标准差赋值 sigma=7.6; m=1;n=10;分别对生成的随机阵对的行数和列数进行赋值，然后可直接利用Matlab自带的函数normrnd生成正态分布的随机数。类似地可生成 m行n

9、列的随机矩阵，服从指定的分布。生成随机数的函数后缀都是 rnd，前缀为分布的名称。常用分布的随机数产生方法罗列如下，注意使用前先要对参数赋值。x=betarnd(a,b,m, n)参数为a,b的beta 分布；x=b inorn d(N,p, m,n)参数为N,p的二项分布；x=chi2r nd(N, m,n)-2自由度为N的分布；x=expr nd(mu ,m,n)总体期望为mu的指数分布；x=frnd(n1,n2,m,n)自由度为n1与n2的F分布；x=gamrnd(a,b,m, n)参数为a,b的-分布；x=log nrn d(mu,sigma, m,n)参数为mu与sigma的对数正

10、态分布；x=poissr nd(mu ,m,n)总体均值为mu的Poisson 分布；x=trnd(N,m, n)自由度为N的T分布；Matlab统计工具箱中还有一些其它分布，不再一一列举。3、三个抽样分布(x 2、t、F分布)1.3三个常用分布以下罗列出数理统计中三个重要分布的概念与性质。1.3.12分布定义1.2设一维连续型随机变量 X的密度函数为fn(x) = n/2；( n/2)2(1-2 )0,则称X服从自由度为n的2分布，记为X 2(n)。图1-22分布密度函数示意图(1)期望与方差：E X二n , D X=2n(2) 来源：若X,X2，,Xn N(0,1)独立同分布，则X2 X；

11、：；川X： 2(n)(3) 可加性：若Y1 2(nJ，Y2 2(n2)，且两者独立，则有丫1 丫2 2(ni 匕)重要结论：若X1，X2/ ,Xn N(点2)，则n_2(n -1)S (Xi -X)22( n-1)i =1以下给出了自由度为5,10,20的2分布的密度函数，如图1-2所示。1.3.2 t分布定义1.3设一维连续型随机变量X的密度函数为fn(X)(1-3)则称X服从自由度为n的t分布，记为X t(n)。图1-3 t分布密度函数与标准正态分布密度函数(1)密度函数特点：与标准正态分布类似，方差较大。n“ 时,X2(x)二2:e 2(标准正态分布密度函数)(2)来源：设X N(0,1

12、)，Y 2(n),且两者独立，则X,Y/n t(n)(3) 重要结论：设 Xi，X2，, Xn N(*2)，则t(n -1)1.3.3 F分布定义1.4设一维连续型随机变量X的密度函数为其中常数cx(1-4 )0,n1-(号)“2 F(n!,n2)。则称X服从第一自由度n 1,第二自由度n2的F分布，记为(1)密度函数特点：在 x =1附近密度函数取值较大，为单峰非对称的。当两个自由度都很大时，X取值以较大概率集中在 x二1附近。以下画出了 F (8,12)的密度函数X 2(n 1)，丫2(n2)，且两者独立，则(2)来源：设(3)重要结论:F 二丫 F(nn2)丫 /n2设X1,X2/ Xn

13、1为来自总体N(7,2)的简单随机样本，丫|,丫2,，丫n2为来自总体Nj,，；拧)的简单随机样本，且两者独立。又设两个样本方差分别为2,S2 与 s；，S2/S；”话F(n1仆-1)三、点估计的两种方法（1）矩法所谓矩法就是利用样本各阶原点矩代替相应的总体矩，来建立估计量应满足的方程，从而求得未知参数估计量的方法。设总体X的分布中包含有未知数“，二2,Cm，则其分布函数可以表成kF（X；九鮎Rm）.显示它的k阶原点矩Vk = E（X ）（k=1,2，m）中也包含了未知参数刊，6,，即Vk二VkCiC2,Cm）。又设XX2，Xn为总体X的n个样本值，其样本的k阶原点矩为A 1 n kVkXi

14、k（k=1,2, ,m）.n i 4这样，我们按照“当参数等于其估计量时，总体矩等于相应的样本矩”的原则建立方程，即有A AA 1 nVi 但 i,日 2,，）=送 X,n yA AA 1 n 2V2（，日2，日 m） = - X , n i =iA AA 1 n mVm（&1,&2,Qm）=-迟 Xi . In yA. A.A由上面的m个方程中，解出的 m个未知参数（宀，二2，rm）即为参数（宀门2,Cm）的矩估计量。例7. 1:设总体X P（），求对的矩估计量。（2）最大似然法所谓最大似然法就是当我们用样本的函数值估计总体参数时，应使得当参数取这些值时，所观测到的样本出现的概率为最大

15、。当总体X为连续型随机变量时，设其分布密度为f（X； V 1 , V 2 ,Cm）,其中-1户2，户m为未知参数。又设 X ,X2, , Xn为总体的一个样本，称Ln（“，R,Cm） =一 f（Xi；“ ,E,，对）i 4为样本的似然函数，简记为Ln.当总体X为离型随机变量时，设其分布律为PX二X二p（x；R ,一,Jm），则称nL（Xi,X2，Xn；r“2,Jm）P（Xi；宀，如）i=1为样本的似然函数。若似然函数L（XX2，Xn；*6,Cm）在二1门2,，九处取到最大值，则称A AAR,d2,，hm分别为R,d 2,Rm的最大似然估计值，相应的统计量称为最大似然估计量。我们把使Ln达到最大

16、的力门2,，=m分别作为比，九,宀皿的估计量的方法称为最大似然估计法。由于Inx是一个递增函数，所以 Ln与In Ln同时达到最大值。我们称ln Ln= 0,i =1,2,为似然方程。由多元微分学可知，由似然方程可以求出比-（x-x?，xn）（i =1,2，m）为二i的最大似然估计量。容易看出，使得Ln达到最大的小也可以使这组样本值出现的可能性最大。2、估计量的评选标准（1）无偏性定义1.5 设总体X含有未知参数二，X1,X2/ ,Xn为来自总体的简单随机样本，又设？二？（X-X2,，Xn）为二的一个估计量。若在给定范围内无论二如何取值，总有E J马-v，则称为v的一个无偏估计量；若

17、E J勺北二，则称彳为二的一个有偏估计量。注意无偏估计的含义是：由于样本的随机性，估计值有时候偏大，有时候偏小，多次估计的平均值才能靠近真实的未知参数值。若总体X的均值E (X)和方差D (X )存在，则样本均值X和样本方差S2分别为E (X) 和D (X)的无偏估计，即 2E( X)=E(X)， E(S)=D(X)。无论无偏估计还是有偏估计，可以统一使用“均方误差” MSE评价：MSE(外二 E(-2 = DJ 外 h - E/細2( 2-1 )对于无偏估计，卩-2 =0,但(另可能很大，果真如此，它就不是一个好的估计量。反之，对于有偏估计，虽然卜_E(？2=0，但如果与D(询相加之后MS

18、E(劣仍然较小，则它就是一个较好的估计量。例2.1 设总体X 2(n)，XX2，,X20为来自总体的简单随机样本，欲估计总体均值.L (注意n未知)，比较以下三个点估计量的好坏：1 ?! =101X! -100X2，?2 =-(X (1o)- X(11)，?3 二 X解本例题给出了利用 MSE评价点估计量的随机模拟方法。由于 2(n)的总体均值为n，因此我们可以先取定一个固定值，例如n二 = 5，然后在这个参数已知且固定的总体中抽取容量为20的样本，分别用样本值依照三种方法分别计算估计值(注意谁也别偷看底牌n = 4。=5)，看看哪种方法误差大，哪种方法误差小。一次估计的比较一般不能说明

19、问题，正如低手射击也可能命中10环，高手射击也可能命中9环。如果连续射击1万次，比较总环数(或平均环数)，多者一定是高手。同理，如果抽取容量为 20的样本N= 10000 次，分别计算1 N 2 MSE(气一送吆(k) %2N心小者为好。N=10000; m=5; n=20;mse1=0; mse2=0; mse3=0;for k=1:Nx=chi2rnd(m,1, n);m1=101*x(1)-100*x(2); m2=media n( x);m3=mea n( x);mes1=mse1+(m1-m)A2; mes2=mse2+(m2-m)A2;mes3=mse3+(m3-m)A2;end

20、 mse仁mes1/Nmse2=mes2/Nmse3=mes3/N以上程序保存为 ex21.m，命令窗口中键入 ex21，运算结果为msel =58.1581mse2 =7.8351e-005mse3 =9.4469e-006可见第一个虽为无偏估计量，但MSE极大，表现很差。第二个虽为有偏估计，但表现与第三个相差不多，也是较好的估计量。另外，重复运行ex21,每次的结果是不同的，但优劣表现几乎是一致的。例2.2 设XX2，X5。为来自0门上服从均匀分布的总体的简单随机样本，容易得到未知参数的矩估计量听=2X，最大似然估计量 = max(X1,X2,，X50)，试用随机模拟的方法比较两者的优劣。

21、解不妨设v - 5，以下程序给出了两者的评价。s=5;N=10000;mse1=0; mse2=0;for k=1:Nx=5.*ran d(1,50);s1= 2*mea n( x);s2=max(x);mse 仁mse1+(s1-s)2;mse2=mse2+(s2-s)A2;endmse1=mse1/N; mse2=mse2/N;mse1,mse2参考运行结果：0.16550.0186本例中，最大似然估计精度较高。注意矩法估计量是无偏估计，本例中最大似然估计量显然是有偏估计，且一定是偏小的。(2)有效性设二1 -6(X1，X，2，Xn)和二2 2(X1,X,2，Xn)是未知参数二的两个无

22、偏估计” AAA A量。右D（T 1 ） :： D V 2，则称V 1比V 2有效。例7. 2 :设Xi,X,2，,Xn是总体的一个样本，试证下列式子并比较有效性。A.131(1)J1X1X2+ X3；5102A115(2)-2X1-X2+ X3；3412A131(3)-3X1X2X3.34-12（3）一致性（相合性）设v n是V的一串估计量，如果对于任意的正数；，都有A lim P（|dn - 二 I 0=0, n :.则称巧为二的一致估计量（或相合估计量）。3、区间估计所谓区间估计，就是用两个估计量 $与碍估计未知参数日，使得随机区间包含未知参数的概率为指定的1 -二。即：P4 专:誇

23、）_ 1 _ ：称满足上述条件的区间（,）为二的置信区间，称1 -=为置信水平。限，纟称为置信上限。（冈，区）能够需称为置信下3.1单正态总体均值的置信区间2 2（1）方差二-0已知情形z-亠a查表求U 一满足：对于 N（0,1），P（ -.）。（上分位数）-222厶2对于总体N（6）中的样本X1,X2/ ,Xn的置信区间为： a. a.（X -Ua, X 十Ua） w n ? P n $其中U可以用norminv（1-a /2）计算。(2-4)2例2.3 设1.1,22, 3,3, 4.4, 5.5为来自正态总体 N(山2.32)的简单随机样本，求二的置信水平为95%的置信区间。解以下

24、用Matlab命令计算：x=1.1,2.2,3.3,4.4,5.5;n=len gth(x) ;m=mea n(x);c=2.3/sqrt( n);d=c* normi nv(0.975);a=m-d; b=m+d;a,b计算结果为1.2840 5.3160(2)方差二2未知情形对于总体NCU2)中的样本XX2,，Xn的置信区间为:(2-4)其中r.为自由度n-1的t分布临界值。2数据同上，继续利用Matlab计算S=std(x); dd=S*ti nv(0.975,4)/sqrt( n);aa=m-dd; bb=m+dd; aa,bb结果为 1.14045.45963.2单正态总体方差的置信

25、区间1 n _由于W 2v(Xj-X)2 2(n-1)，查表求临界值c1与c2，使得则二2的置信区间为(2-5)1 2 1 2 (n-1)S2,- (n -1)S2)c2c1其中查表可用chi2inv进行。数据同上，以下求二2的置信区间。c1=ch i2in v(0.025,4);c2=ch i2in v(0.975,4);T=( n-1)*var(x); aaa=T/c2; bbb=T/c1; aaa,bbb计算结果为1.0859 24.97843.3两正态总体均值差的置信区间(1)方差已知情形2 2，此时设 XX2, ,XmN(叫，G)，丫1,丫2, ,YnN(2f2)，两样本独立叫-七的

26、置信区间为X 一丫 -u：_ 1 ：- 2+弔，X -丫+U斜 m n(2-6)这里我们已经知道 u-.可用normi nv(0.975)求得，Matlab计算很容易。(2)方差未知但相等:匚2此时叫-的置信区间为X -Y -r C , X - Y t.C2(2-7)1 . 1 (m1)S2 (n-1)S；m + n _2，而t.依照自由度m，n-2计算。3.4两正态总体方差比的置信区间此时，查自由度为(m -1, n -1)的F分布临界值表，使得P(c1 ： F : c21 -:2 2则1 /；2的置信区间为:S2 / S；c2s12/s2c1(2-7)例2.4 设两台车床加工同一零件，各加

27、工8件，长度的误差为:0.050.070.210.610.821.24A: -0.12-0.80-0.05-0.04-0.01B： -1.50-0.80-0.40-0.100.20求方差比的置信区间。解用Matlab计算如下：x=-0.12,-0.80,-0.05,-0.04,-0.01,0.05,0.07,0.21;y=-1.50,-0.80,-0.40,-0.10,0.20,0.61,0.82,1.24; v1=var(x); v2=var(y);c仁fin v(0.025,7,7);c2=fi nv(0.975,7,7);a=(v1/v2)/c2;b=(v1/v2)/c1; a,b计算

28、结果为： 0.02290.5720方差比小于1的概率至少达到了95%，说明车床A的精度明显高。三假设检验(换令一个讲)3.1假设检验的基本概念例3.1 已知小麦亩产服从正态分布，传统小麦品种平均亩产800斤，现有新品种产量未知，试种10块，每块一亩，产量为：775,816,834,836,858,863,873,877,885,901问：新产品亩产是否超过了800斤？假设检验就是概率意义上的反证法。要证明命题 H1: J 800 ,可以首先假设 H。：J =800。本体中容易计算样本均值超过 800 了，有没有可能超过800的原因是由于抽样的随机性引起的？是否总体均值根本没有变化？我们看如

29、下的统计量：T _ X - 800S/石容易看出，如果新品种确有增产效应，T应偏大，不利于 H。，取=0.05，查表求临界值t -.，使得P(T )二：，即构造不利于 H。，有利于H1的小概率事件，如果在一次试验中该小概率事件发生了，就有理由拒绝H。，认为Hj成立。严格逻辑意义上的反证法思路如下：欲证H1成立，先假设其否命题H0成立，然后找出逻辑意义上的矛盾，从而推翻H。成立，严格证明H1成立。假设检验的思路类似，只不过引出的不是矛盾，而是小概率事件在一次实验中发生。我们称想要证明的命题H1为备择假设，对立的命题 H0称为原假设，面对样本，我们必须表态是接受原假设还是拒绝原假设，这有可能出现

30、两类错误。如果客观上原假设的确成第一类错误，发立，面对样本的异常我们拒绝了原假设，这种“以真为假”的错误我们称为生的概率用:-表示；如果客观上备择假设成立，我们却接受了原假设，这种“以假为真”的错误我们称为第二类错误，用发生的概率用 1表示。假设假设检验一般首先控制第一类错误，即：当我们拒绝原假设时有比较充足的理由，犯错误的概率不超过预设的：，称：为显著性水平。常用的显著性水平有:=0.1, 0.05, 0.01这种预设显著性水平:的假设检验也称为显著性检验，以后我们提到的假设检验都是显著性检验。对于显著性检验，当接受原假设时，可以认为是拒绝的证据不足。3.2正态总体参数的假设检验321

31、单正态总体均值的假设检验设XX2，Xn为来自正态总体 N（*；2）简单随机样本，为我们关心的已知的值，原假设为：H。： - J（1）方差已知情形X -卩0此时，检验统计量为U. 0 , Ho成立时u N（0,1），依据备择假设的不同提法， /J n分三种情况分别给出拒绝域。1）双侧检验备择假设比：一-0拒绝域：|U卜u2这种情形我们关心的是总体均值是否发生了变化，增多减少都是我们同等关注的。例如要研究某种药物的副作用，是否引起血压的变化，变大变小都是副作用，如果实验证明了确有副作用，就该停产或慎用。2）单侧检验（右侧）备择假设J 拒绝域：U 7：.这种情形我们关心的是总体均值是否有增加

32、效应，例如小麦亩产。无增产效应或者减产都是我们不希望看到的，我们希望证明的是增产了。3）单侧检验（左侧）备择假设比：化拒绝域：U ： - U：.这种情形我们希望看到总体均值变小了。每匹布上疵点的个数。新工艺后是否有减少。（2）方差未知情形原假设H。：-X _巴此时，检验统计量为T0，H0成立时T t（n -1），依据备择假设的不同提法，S/J n分三种情况分别给出拒绝域。双侧检验备择假设比：拒绝域：|T|t.2单侧检验（右侧）备择假设比：- o拒绝域：T t:单侧检验（左侧）备择假设已：0拒绝域：T ： -t其实，上一章中区间估计与这里的双侧检验本质上是相同的：区间套中0接受原假设,没套

33、中则拒绝原假设。只不过检验统计量的计算更简单些。类似于单侧检验，也可以有单侧区间估计。322单正态总体方差的假设检验设Xi,X2，Xn为来自正态总体 N（d； CT）简单随机样本，二为我们关心的已知的值，原假设为 H: c - ; ，检验统计量为22 (n -1)S_ 2n (Xi -X)2i 4当H成立时，2 2（n -1），由此可查 2（n -1）临界值表，构造拒绝域。（1）双侧检验此时备择假设为Hi：匚北匚，也就是说，我们希望通过样本找到总2体方差比较-0有明显变化的证据，无论变大变小都是我们希望证明的。aa此时取临界值c1与c2，使得P （ 2乞c1），P（ 2 - c1），拒绝域

34、为：2 ： c122（方差变小了），或者 2 c2 （方差变大了）。当n已经赋值的时候，执行如下Matlab命令可得到临界值。a=0.05, n=20, c1=chi2i nv（a/2, n-1）, c2=ch i2in v（1-a/2, n-1）,（2 ）单侧检验（右侧）此时备择假设为比：匚二o，也就是说，我们关心的是方差是否变大了。此时临界值为c满足P( 2 c -，可用c=chi2in v(1-a, n-1)（3 ）单侧检验（左侧）此时备择假设为 H1 ：；：；0，也就是说，我们关心的是方差是否变小了。此时临界值为c满足P( 2 ： c) =，可用c=chi2 in v(a ,n

35、-1)3.2.3两正态总体均值的假设检验设X1,X2 / ,Xm为来自正态总体 N（ %；拧）的简单随机样本，,丫2,Yn为来自正2态总体N（2,二2 ）的简单随机样本，且两样本独立。为比较两个总体的期望，提出如下原假设：Ho ： .!_：1 =2与前面类似，备择假设有双侧、单侧（左侧、右侧）等提法。（1）方差已知情形此时检验统计量为uX -Y_2_2 ，当12mnHo成立时U服从标准正态分布，临界值 u：.,u 一.含义及计算方法同前。2此时原假设仍为Ho：亠二丄2，备择假设同样有三种提法。检验统计量为:(m n -2)双侧检验H1：丄1 -2，拒绝域：|U | u右侧检验H1：丄1勺丄2

36、，拒绝域：U u左侧检验H1：亠”：2，拒绝域：U ： -u方差未知但相等情形；一 1 -；2 -厂1）a(2)a2当Ho成立时T t（m n -2），由此得临界值21）双侧检验Hi：叫-一 2，拒绝域:|T| J.2）右侧检验Hi：-2，拒绝域:）左侧检验Hi：匕：:：2，拒绝域:324两正态总体方差的假设检验设X1,X2/ ,Xm为来自正态总体N（ %二1 ）的简单随机样本，丫1,丫2,，丫n为来自正态总体N（J，二；）的简单随机样本，且两样本独立。为比较两个总体的方差，提出如下原假设：十2什2Ho : J 12与前面类似，备择假设有双侧、单侧（左侧、右侧）等提法。此时检验统计量为

37、FSf/S；，当H0成立时，F F(m -1, n 1)，在Matlab中，如果m,n已经赋值，例如 m=8,n=10则c1=finv(0.025,7,9), c2=finv(0.975,7,9)分别给出了=0.05时的两个临界值，双侧检验的拒绝域为F：c1或F .c2。c3=fi nv(0.05,7,9)给出了左侧检验临界值，F : c3时拒绝原假设，认为备择假设比：二成立。c4=fin v(0.95,7,9)给出了右侧检验临界值，Fc4时拒绝原假设，认为备择假设比：二；.；打成立。325大样本非正态总体均值的假设检验设XX2，Xn为来自非正态总体的简单随机样本，设总体均值与总体方差匚2有限

38、，原假设H0：JX 卩此时可以将u作为近似的检验统计量，当样本容量很大时(例如100)，由S/ . n中心极限定理知 H0成立时U近似服从标准正态分布，可以仿照3.2.1小节中的算法检验如下三个备择假设：比：% ；H1：丄弐-0 ； H1：二 ” -0设X1,X2 / ,Xm为来自非正态总体的简单随机样本，丫1,丫2,，丫n为来自非正态总体的简单随机样本，且两样本独立。两个总体有有限的均值与方差，均值为打与2，为比较两个总体的期望，提出如下原假设：H0 : -= J2与前面类似，备择假设有双侧、单侧(左侧、右侧)等提法。此时可以将近似作为检验统计量，当两个样本容量都很大时(例如100)，由

39、中心极限定理知H。成立时U近似服从标准正态分布，可以仿照3.2.3小节中的算法检验如下三个备择假设：H1:叫-,；H1：、 -2 ；H1：亠：J3.5总体分布的假设检验设X1,X2/ ,Xn为来自总体F(x)的简单随机样本，F(x)为已知的一个固定的分布函数，要进行如下的检验：H0： F(x)=F0(x)H1： F(x)=F0(x)对此检验问题，有两种常用的方法。100。对总体分布进行假设检验，一般要求样本容量较大，例如至少3.5.12检验取正整数 m ： . n/2 ，将样本排序为X（1）_ X（2）_-X（n）,将区间X，X（n） m 1等分，分点为ti = X（1）X（n）- X（1

40、），i = 1,2； , mm +1这m个分点将（：）分割为m 1个小区间，二1 =（ - 二角，二 2 = （t1, t2，二 m = （tm d ,tm，二 m 1 = （tm ：）m*V记v为落入Ai的样本点的个数，显然瓦Vi =n，称丄为X落入也i的频率。Pi = P（X E也i）i 二n表示Ho成立时X落入.訂的概率，即p1 = Fo（t1），P2 =Fo（t2）- Fo（t1），Pm = Fo（tm） - Fo（tm），Pm 1 二1 - F0（tm）检验统计量取为：m: ：1V八i =1nPiidnp2可以证明，当Ho成立时V近似服从自由度为 m的2分布，对于显著性水平，取临界值

41、vO=ch i2in v（1-alpha,m）当VvO时，拒绝Ho。四单因素方差分析5.1.1方差分析的基本概念在实际问题中，人们常常需要在不同的条件下对所研究的对象进行对比试验，从而得到若干组数据（样本）。方差分析就是一种分析、处理多组实验数据间均值差异的显著性的统计方法。其主要任务是，通过对数据的分析处理，搞清楚各实验条件对实验结果的影响，以便更有效地指导实践，提高经济效益或者科研水平。在统计中，人们称受控制的条件为因素，因素所处的状态称为水平。如果只让一个因素变动，取该因素的多个不同水平进行试验，而其他因素保持不变，称该试验为单因素试验。例如小麦种植产量，只考虑“品种”这一因素，

42、研究4个不同品种产量的差异，其它诸如施肥方案、灌溉方案等因素保持一致，就是一个4水平单因素试验。如果同时考虑两个因素，例如 4个小麦品种在3种不同施肥方案下的产量，就是一个双因素试验。对于r组实验数据，我们假定都来自正态总体，并且具有相同的方差（称为方差齐性）要检验这相互独立的 r个正态总体N(叫,；2) i =1,2, ,r均值间有无差异，即:H 0：叫= =；前面我们讲过两正态总体均值的假设检验，有Hi:诸叫不全相同T检验的方法。自然有一个想法，对于1 j tOP=P+1;endendP=P/N执行上述程序，发现每次频率都在0.05附近，说明上述两个正态总体均值的T检验的确是水平为

43、=0.05的检验。我们设想有8组数据，客观上都是来自标准正态分布，没有差异，每组样本容量都是10。现在用前述“两两 T检验法”进行检验，下述程序计算出了万次模拟中拒绝的频率。N=10000;n=10; r=8;alpha=0.05;t0=t in v(1-alpha/2, n+n-2);P=0;for k=1:Nx=randn( 8,10);E=mea n( x,2);EE,l=sort(E);X=x(l,:);T=t2test(X(1,:),X(8,:);if abs(T)t0P=P+1;endendP=P/N;上述程序模拟发现，拒绝频率大约在0.45左右，严重偏离0.05，说明依照“两两

44、T检验”犯第一类错误的概率严重增大，判定结果很不可靠。对于8组数据，两两比较共C； =28种组合，若每种组合接受原假设的概率为0.95，则28种组合都接受原假设的概率大致估计为0.9528 =0.2378，拒绝概率大致估计为 0.76。由于相关性，拒绝概率没有达到0.76，但0.45也相当大了。为了避免上述问题的出现，1923年，波兰数学家A.Fisher提出了方差分析(Analysis ofVarianee 简称ANOVA)法，可以同时判定多组数据均值间差异的显著性检验问题。其检验统计量在H。成立时服从F分布，这里F分布就是以Fisher姓氏的第一个字母命名的。512单因素方差分析的计算设有r组数据，表示因素A的r个水平，

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数理统计--参数估计、假设检验、方差分析(李志强)(3)讲解

文档简介

温馨提示

最新文档

评论

数理统计--参数估计、假设检验、方差分析(李志强)(3)讲解

文档简介

温馨提示

最新文档

评论

相关文档