简单随机抽样_第1页
简单随机抽样_第2页
简单随机抽样_第3页
简单随机抽样_第4页
简单随机抽样_第5页
已阅读5页,还剩142页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、简单随机抽样简单随机抽样:1.1.代表性代表性: 中每一个与所考察的总中每一个与所考察的总 体有体有相同的分布相同的分布。2.2.独立性独立性: 是是相互独立相互独立的随机变量。的随机变量。 nXXX,21nXXX,21第六章第六章 样本及抽样分布样本及抽样分布 假如总体的分布函数为假如总体的分布函数为)(xF简单随机样本的简单随机样本的联合分布函数联合分布函数为为)()()(21nxFxFxF. )(),(*121niinxFxxxF概率密度概率密度为:为:. )(),(*121niinxfxxxf 样本平均值样本平均值:niiXnX1;1样本方差样本方差:;11)(11122122niin

2、iiXnXnXXnS 统计量:统计量:由样本由样本构造构造的一些函数,的一些函数,不含任何不含任何未知参数。未知参数。完全由样本决定的量。完全由样本决定的量。 样本标准差样本标准差:niiXXnSS122;11样本样本k k阶阶(原点)(原点)矩矩:nikikkXnA1;, 2 , 1,1样本样本k k阶中心矩阶中心矩:., 3 , 2,11kXXnBnikik经验分布函数经验分布函数定义:设定义:设nXXX,21是取自总体是取自总体X XF F(x x)的一个样本,把)的一个样本,把样本观样本观察值察值从小到大排列从小到大排列为为 nxxx21称函数称函数 nkknxxxxxnkxxxF若若

3、若, 1,011为总体为总体X X的的经验分布函数经验分布函数。 格里汶科(格里汶科(GlivenkoGlivenko)在)在19331933年证明了以年证明了以下的结果:下的结果:对于任一实数对于任一实数x,当,当n时时)(xFn以概率以概率1 1一致收敛于一致收敛于分布函数分布函数)(xF 10| )(|suplimxFxFPnxn 例:从一批标准重量为例:从一批标准重量为500g500g的罐头中,的罐头中,随机抽取随机抽取8 8听,测得误差如下(单位:听,测得误差如下(单位:g g): : 8 8,4 4,6 6,7 7,2 2,1 1,0 0,1 1求求经验分布函数经验分布函数,并作出

4、,并作出图形图形。 解:将样本值按大小顺序排列为解:将样本值按大小顺序排列为 7 74 42 20 01 11 16 68 8则样本经验分布函数为则样本经验分布函数为 8186,8761,8610,8402,8324,8247,817, 0)(8xxxxxxxxxF 抽样分布抽样分布:统计量的分布称为:统计量的分布称为“抽样分布抽样分布”。 精确抽样分布:精确抽样分布: 总体总体X X的分布已知,如对于任一的分布已知,如对于任一n,n,都能导出统都能导出统计量的明显表达式,这种分布称为精确抽样分布。计量的明显表达式,这种分布称为精确抽样分布。它常用于它常用于小样本小样本的统计推断问题。的统计推

5、断问题。 渐近分布渐近分布: 在样本容量在样本容量n n无限大时,能获得统计量的极限无限大时,能获得统计量的极限分布,这种分布称为渐近分布。它常用于分布,这种分布称为渐近分布。它常用于大样本大样本的统计推断问题。的统计推断问题。几个常用统计量的分布几个常用统计量的分布(1 1)2分分布布nXXX,21N N(0 0,1 1),则称统计量),则称统计量222212nXXX服从服从自由度自由度为为n n的的2分布,记为分布,记为)(22n自由度自由度为上式右端包含的为上式右端包含的独立变量的个数独立变量的个数。设设概率密度概率密度图形图形。 2分布的分布的可加性可加性:设:设 ,22221221n

6、n并且并且2221,独立,则有:独立,则有: .2122221nn 分布的分布的数学期望数学期望和和方差方差:若若)(22n.2)(,22nDnE22分布的分布的分位点分位点: 222axadyyfnP表只详列到表只详列到n n=45=45为止。为止。费歇费歇曾证明,当曾证明,当n n充分大时,近似地有:充分大时,近似地有: ,122122nZna(2 2)t t 分布分布 设设),(),1 , 0(2nYNX且且X,YX,Y独立,则称随机变量:独立,则称随机变量: nYXt/服从服从自由度为自由度为n n的的t t分布分布,记为,记为t tt(nt(n) )。 图形图形关于关于t=0t=0对

7、称,当对称,当n n充分大时充分大时其图形类其图形类似于似于标准正态标准正态概率密度的图形。概率密度的图形。 t t分布的分布的分位点:分位点: )()()(ntadtthnttP由图形的由图形的对称性对称性知知)()(1ntntaa45naaznt)((3 3)F F分布分布 设设,2212nVnU且且VU ,独立,则称随机变量独立,则称随机变量21/nVnUF 服从自由度为服从自由度为21,nn的的F F分布分布,记为,记为),(21nnFF),(21nnF 的的图形图形。由定义可知。由定义可知1212,/1nnFnUnVFF F分布的分布的分位点分位点 dyynnFFPaFnnn21,2

8、1),(.),(1),(12211nnFnnFaa定理定理一:设一:设nXXX,21是来自正态总体是来自正态总体2,N的样本,的样本,X是样本均值,则有:是样本均值,则有:nNX/,2(4 4)正态总体正态总体的样本均值与样本方差的的样本均值与样本方差的抽样分布抽样分布 定理定理二:设二:设nXXX,21是总体是总体2,N的样本,的样本,X, ,2S分别是样本均值和样本方差,分别是样本均值和样本方差,;11222nSn2 2X与与2S独立。独立。 则有:则有:1 定理定理三:设三:设nXXX,21是总体是总体2,N的样本,的样本,X, ,2S分别是样本均值和样本方差,分别是样本均值和样本方差,

9、.1/ntnSX则有:则有:定理定理四:设四:设21,2121nnYYYXXX与分别是来自正态总体分别是来自正态总体222211,NN和的样本,且这两个样本相互独立。设的样本,且这两个样本相互独立。设2112111,1niiniiYnYXnX分别是这两个样本的样本均值,分别是这两个样本的样本均值,21122222112111,11niiniiYYnSXXnS分别是这两个样本的样本方差,则有分别是这两个样本的样本方差,则有 1 1;1, 1/2122212221nnFSS 2 2,22121当,211212121nntnnSYXw其中其中 .,2112212222112wwwSSnnSnSnS例

10、例 设总体设总体X X服从正态分布服从正态分布),2 , 0(2N1521,XXX是来自总体是来自总体X X的简单随机样本,则随机变量的简单随机样本,则随机变量)(221521121021XXXXY服从服从什么什么分布,自由度是多少。分布,自由度是多少。 分析分析 根据简单随机样本的性质根据简单随机样本的性质,151,XX相互独立,服从同分布相互独立,服从同分布),2 , 0(2N易见易见21521121021XXXX与也相互独立,并且由于也相互独立,并且由于),2 , 0(2NXi故故2152112210212102)2()2(),10()(41)2()2(XXXXXXi)5()(41221

11、5211XX从而有从而有)5 ,10(25/ )(4110/ )(412152112102121521121021FXXXXXXXX即即)5 ,10( FY 估计量优良性常用的几条估计量优良性常用的几条标准标准: 无偏心无偏心、有效性有效性、相合性相合性。 (1 1)无偏性无偏性 ,E 21DD(2)有效性有效性(3)相合性相合性1limnP第七章第七章 参数估计参数估计两种基本方法两种基本方法:点估计点估计、区间估计区间估计。 X是总体均值是总体均值样本样本方差方差 21211niiXXnS是总体方差是总体方差 2 2的无偏估计。的无偏估计。 样本样本均值均值的无偏估计;的无偏估计;样本二阶

12、中心矩样本二阶中心矩niiXXn121不是不是 2 2的无偏估计,的无偏估计,S S也不是也不是 的无偏估计。的无偏估计。 最小方差无偏估计最小方差无偏估计: ,E为为),()(DD的任一无偏估计。的任一无偏估计。 寻求寻求估计量的方法估计量的方法: : 矩估计法矩估计法 最大似然估计法最大似然估计法 (1 1)矩估计法矩估计法: : 用用样本各阶矩去估计总体各阶矩样本各阶矩去估计总体各阶矩。概率密度为概率密度为),;(21kxfpxXP),;(21kx分布律为分布律为它的前它的前k k阶矩阶矩k,21.,2121222111kkkkk可以解出可以解出k,21.,2121222111kkkkk

13、以以样本矩样本矩iA分别代替上式中的分别代替上式中的kii, 2 , 1,就有就有kiAAAkii, 2 , 1,21分别作为分别作为kii, 2 , 1, 的估计量。的估计量。例例5 5:设总体:设总体X X的均值的均值2及方差都存在,且有都存在,且有02。但。但2,均为未知,又设均为未知,又设nXXX,21是来自总体是来自总体X X的一个样本,求的一个样本,求2,的的矩估计量矩估计量。 解:总体一阶矩:解:总体一阶矩: XE1总体二阶矩:总体二阶矩: 22222XEXDXE由矩法,由矩法,用样本矩去估计总体矩用样本矩去估计总体矩,令,令: : A A1 1 222A解得:解得:niniii

14、XXnXXnAAXA1122221221.11, 所得结果表明,所得结果表明,总体均值总体均值与与方差方差的的矩估矩估计量计量的表达式的表达式不因总体分布不同而异不因总体分布不同而异。 总结总结:l 矩估计法的矩估计法的优点优点是简便易行,并是简便易行,并不需要事先知道不需要事先知道 总体的分布总体的分布;l 缺点缺点是:在总体分布类型已知的场合,没有充分是:在总体分布类型已知的场合,没有充分 利用分布提供的信息。利用分布提供的信息。l 一般场合下,矩估计量一般场合下,矩估计量不具有唯一性不具有唯一性。 由费希尔(由费希尔(R.A.FisherR.A.Fisher)引进的最大似然估计法,就是固

15、)引进的最大似然估计法,就是固定样本观察值定样本观察值nxxx,21,在,在取值的可能范围取值的可能范围内挑选内挑选使似然函数使似然函数;,21nxxxL达到最大达到最大的参数值的参数值,作为参数,作为参数的估计值,即取的估计值,即取使使.;,max;,2121nnxxxLxxxLnxxx,21称为参数称为参数的的最大似然估计值最大似然估计值,而相应的统计量,而相应的统计量nXXX,21称为参数称为参数的的最大似然估计量最大似然估计量。 (2)最大似然估计法最大似然估计法 设设nXXX,21是来自总体是来自总体X X的一个样本,则的一个样本,则nXXX,21的的联合密度联合密度为:为:niix

16、f1,设设nxxx,21是相应于样本是相应于样本nXXX,21的一个样本值,则随机点的一个样本值,则随机点),(21nXXX落在点落在点),(21nxxx的邻域(边长分别为的邻域(边长分别为ndxdxdx,21的的n n维立方体)内的概率近似地为维立方体)内的概率近似地为.;1iniidxxf其值随其值随的取值而变化。与离散型的情况一样,取的取值而变化。与离散型的情况一样,取的估计值的估计值使使概率取到最大值概率取到最大值。 niinxfxxxLL121;,的最大值。这里的最大值。这里 L称为样本的称为样本的似然函数似然函数。若:。若:,;,max;,2121nnxxxLxxxL则称则称nxx

17、x,21为为的的最大似然估计值最大似然估计值,称,称nXXX,21为为的的最大似然估计量最大似然估计量。考虑函数:考虑函数:可从方程:可从方程: 0Ldd解得。解得。也可以从方程:也可以从方程: 0lnLdd求得。求得。从后一方程求解往往比较方便从后一方程求解往往比较方便,称为,称为对数似对数似然方程然方程。 例:设例:设nXXXpbX,., 121试求参数试求参数P P的最大似然估计量。的最大似然估计量。nxxx,21是样本是样本nXXX,21的一个样本值。的一个样本值。X X的分布律为:的分布律为:. 1 , 0,11xppxXPxx似然函数似然函数为:为: niiniiiixnxxnix

18、pppppL11)1 (111取对数取对数 ,1lnlnln11pxnpxpLniinii是来自总体是来自总体X的一个样本,的一个样本,解:设解:设令令 , 01ln11pxnpxpLdpdniinii解得解得p p的最大似然估计值:的最大似然估计值:.11xxnpniip p的最大似然估计量为:的最大似然估计量为:.11XXnpnii这一估计量与矩估计量是相同的。这一估计量与矩估计量是相同的。例:设例:设22,NX为未知参数为未知参数nxxx,21是来自总体是来自总体X X的一个样本值。求的一个样本值。求2,的最大似然估计量。的最大似然估计量。解:解:X X的概率密度为:的概率密度为:,21

19、exp21,;222xxf似然函数为:似然函数为:.21exp221exp21,1222/22/2212niinninixxL取对数取对数 niixnnL1222.21ln22ln2ln令令 niiniixnLnxL12222212. 0212ln, 01ln解得解得niixxn1/1212/1niixxn得得2,的最大似然估计量为:的最大似然估计量为:niiXXnAX1222.1,它们与相应的矩估计量相同。它们与相应的矩估计量相同。 求最大似然估计值的求最大似然估计值的一般步骤一般步骤是:是:1.1.由总体分布导出样本的由总体分布导出样本的联合分布律函数联合分布律函数(或联合概率密(或联合概

20、率密 度);度);2.2.把样本联合分布律函数(或联合概率密度)中自变量看把样本联合分布律函数(或联合概率密度)中自变量看 成已知常数,而把参数成已知常数,而把参数看作自变量,得到似然函数看作自变量,得到似然函数 L3.3.求似然函数求似然函数 L的的最大值点最大值点(常常转化为求(常常转化为求 Lln 的最大值点);的最大值点);4.在最大值点的表达式中,用样本值代入就得参数的最在最大值点的表达式中,用样本值代入就得参数的最 大似然估计值。大似然估计值。 一般,用一般,用最大似然法最大似然法所得的估计的性质所得的估计的性质比比用用矩法矩法所得的要好,故通常多用最大似然法。所得的要好,故通常多

21、用最大似然法。 由所有产品的失效时间由所有产品的失效时间nttt210所组成的样本。所组成的样本。完全样本完全样本:2 基于基于截尾样本截尾样本的最大似然估计的最大似然估计 常用的常用的两种两种截尾寿命试验:截尾寿命试验:1.1.一种是一种是定时定时截尾寿命试验截尾寿命试验,0021ttttm此时此时mm是一个是一个随机变量随机变量,所得的样本,所得的样本mttt,21称为称为定时截尾样本定时截尾样本。 2. 2. 另一种是另一种是定数定数截尾寿命试验截尾寿命试验,21mttto所得的样本所得的样本mttt,21称为称为定数截尾样本定数截尾样本。 有二个要求有二个要求:1.1.要求要求以以很大

22、的可能很大的可能被包含在区间被包含在区间,P2.2.估计的估计的精度精度要要尽可能高尽可能高,即要求,即要求区间的长度区间的长度内,即:概率内,即:概率要要尽可能大尽可能大。尽可能小尽可能小。3 3 区间估计区间估计 置信区间置信区间: ,1,2121nnXXXXXXP称称随机随机区间区间,是是的的置信水平置信水平为为1的的置信区间置信区间。 和和置信和置信上限上限,1称为称为置信水平置信水平。 分别称为分别称为双侧置信区间双侧置信区间的置信的置信下限下限l 可以得到未知参数的可以得到未知参数的任何任何置信水平置信水平小于小于1 1的置信区的置信区 间间l 置信水平置信水平愈高愈高,相应的区间

23、平均长度,相应的区间平均长度愈长愈长(在(在 同样的样本容量下)。同样的样本容量下)。l 在在同样同样的置信水平下,样本容量的置信水平下,样本容量愈大愈大,区间平均长,区间平均长 度度愈短愈短。 求置信区间的求置信区间的步骤步骤如下:如下:1.1.明确问题,求明确问题,求什么参数什么参数的置信区间?的置信区间?置信水平置信水平1 是多少?是多少?2.2.寻找寻找参数的一个良好的参数的一个良好的点估计点估计WW。3.3.寻找(或寻找(或构造构造)一个)一个待估待估参数参数 和和估计量估计量WW的的函数函数 S(W, ),S(W, ),其其分布为已知分布为已知,并且,并且不依赖于任何未知数。不依赖

24、于任何未知数。 称称S(W, )S(W, )为为枢轴量枢轴量。如。如 .1 , 0/NnX4. 4. 对于给定的置信水平对于给定的置信水平1分布,确定常数分布,确定常数a,ba,b使得使得1),(bWSaP5.5.对对“bWSa),(”作作等价变形等价变形,得到如下形式:,得到如下形式:1),(),(2121nnXXXXXXP则则,就是参数就是参数的置信水平为的置信水平为1,根据,根据S(W, )S(W, )的的的的置信区间置信区间。4 4 正态总体正态总体均值与方差的区间估计均值与方差的区间估计(一)(一)单个单个总体总体2,N1 1均值均值(1 1)22/aznX的情况的情况的置信区间的置

25、信区间为已知为已知.1 , 0/NnX,1/2/aznXPa(2 2)2考虑到考虑到2S是是2的的无偏估计无偏估计,将上式中的,将上式中的换成换成2SS ,取,取枢轴量枢轴量1/ntnSX对给定的置信水平对给定的置信水平1,查,查t t分布分位数表的分布分位数表的2/t使使antnSXPa11/2/为未知为未知即即antnSXntnSXPaa1) 1() 1(2/2/于是,得到了于是,得到了的一个置信水平为的一个置信水平为a1的的置信区间置信区间.) 1(),1(2/2/ntnSXntnSXaa或或).1(2/ntnSXa在实际问题中,总体方差在实际问题中,总体方差2未知的情况居多。未知的情况

26、居多。(3 3)总体分布未知,但)总体分布未知,但样本容量样本容量n n很大很大此时由中心极限定理,知此时由中心极限定理,知nX/因此若总体方差因此若总体方差2已知时,得到已知时,得到的一个置信水平为的一个置信水平为a1的近似置信区间的近似置信区间.,2/2/aaznXznX但但一般未知,用一般未知,用S S近似代替,这样得到近似代替,这样得到的一个置信水平为的一个置信水平为a1的近似置信区间的近似置信区间.,2/2/aaznSXznSX近似服从近似服从N(0,1)2 2方差方差2例:设例:设nXXX,21为总体为总体2,N的样本,的样本,未知,求参数未知,求参数2的置信水平为的置信水平为1

27、解:解:2的无偏点估计为样本方差的无偏点估计为样本方差S S2 2。已知。已知) 1(1222nSn的置信区间的置信区间的置信区间。的置信区间。对给定的置信水平对给定的置信水平1,查,查2分布上分布上分位点分位点表可得表可得) 1(2/21na) 1(22/naanSnnPaa1) 1(1) 1(22/222/21即即anSnnSnPaa1) 1(1) 1(122/222/212得到方差得到方差2的一个置信水平为的一个置信水平为a1的的置信区间置信区间) 1(1,) 1(12/21222/2nSnnSnaa标准差标准差的一个置信水平为的一个置信水平为a1的置信区间的置信区间) 1(1,) 1(

28、122/122/nSnnSnaa(二)(二)两个总体两个总体222211,NN1 1两个两个总体均值差总体均值差21的情况的情况 的置信区间的置信区间具体步骤为:具体步骤为: (1) (1) 两总体均为正态,两总体均为正态,2221,设设222211,NYNX,YX,分别为分别为21,的无偏估计,故的无偏估计,故21的的无偏估计量无偏估计量是是YX 由由YX,的独立性以及的独立性以及22221211/,/,nNYnNX得:得:22212121,nnNYX或或 ),1 ,0(22212121NnnYX已知已知。对给定的置信水平对给定的置信水平1 1,查标准正态分布函数表得,查标准正态分布函数表得

29、2/Z使使12/22212121ZnnYXP即得即得21的一个置信水平为的一个置信水平为1 1的的置信区间置信区间:.2221212/nnZYXa(2) (2) 两总体均为正态,两总体均为正态,,22221但但2为为未知未知。 ).2(11212121nntnnSYXw其中,其中,.,2112212222112wwwSSnnSnSnS从而可得从而可得21的一个置信水平为的一个置信水平为1 1的的置信区间置信区间为:为: .11221212/nnSnntYXwa (3) (3) 两两总体分布未知总体分布未知,但,但21,nn用用222121/nSnS去估计去估计222121nn根据中心极限定理,

30、近似有根据中心极限定理,近似有),1 , 0(22212121NnSnSYX类似可得类似可得21的一个置信水平为的一个置信水平为1 1的的近似置信区间近似置信区间为:为:.2221212/nSnSZYXa很大。很大。2 2两个总体两个总体方差比方差比2221/由第六章定理四:由第六章定理四:,1, 1/2122212221nnFSS不依赖任何未知参数。由此得:不依赖任何未知参数。由此得:,11, 1/) 1, 1(212/22212221212/1annFSSnnFPaa即:即:1.1, 111, 11212/122212221212/2221nnFSSnnFSSPaa的置信区间的置信区间对于

31、任意对于任意满足满足1P随机区间随机区间,是是的置信水平为的置信水平为a1的单侧置信区间,的单侧置信区间,称为称为的置信水平为的置信水平为a1的的单侧置信下限单侧置信下限。 6 单侧置信区间单侧置信区间又若统计量又若统计量nXXX,21,对于任意,对于任意满足满足1P称随机区间称随机区间,是是的置信水平为的置信水平为a1的单侧置信区间,的单侧置信区间,称为称为的置信水平为的置信水平为a1的的单侧置信上限单侧置信上限。 概率反证法的概率反证法的逻辑逻辑是:假设原假设成立,如果小概率是:假设原假设成立,如果小概率事件在一次试验中发生,就可以有很大的把握否定原假设。事件在一次试验中发生,就可以有很大

32、的把握否定原假设。 在假设检验中,称这个在假设检验中,称这个小概率小概率为为显著性水平显著性水平。第八章第八章 假设检验假设检验 具体有具体有两类假设检验两类假设检验问题:问题:(1 1)对参数的假设检验对参数的假设检验。(2 2)对总体分布的假设检验对总体分布的假设检验。假设检验的假设检验的一般步骤一般步骤:(1 1)提出提出原假设原假设0H及备择假设(对立假设)及备择假设(对立假设)1H(2 2)选取选取一个适当的一个适当的统计量统计量T T,在,在0H(3 3)根据给定)根据给定显著性水平显著性水平(4 4)算出统计量)算出统计量T T的的实测值实测值,将实测值与拒绝域,将实测值与拒绝域

33、对照对照 ,若实测值落入拒绝域,则否定原假设,若实测值落入拒绝域,则否定原假设0H否则,就认为差异不显著而不能否定原假设。否则,就认为差异不显著而不能否定原假设。 成立的条件下成立的条件下求出它的分布(或近似分布);求出它的分布(或近似分布);,求出,求出拒绝域拒绝域C C;两类错误两类错误及其概率及其概率 第一类错误第一类错误:为真否定00HHP第二类错误第二类错误:第二类错误为假不否定PHHP00 显著性检验显著性检验 控制犯第控制犯第1 1类错误的概率加以,类错误的概率加以,使它不大于使它不大于 ,而而不考虑犯第不考虑犯第II II类错误的概率的检验,称为类错误的概率的检验,称为显著性检

34、验显著性检验。 不管在什么情况下,为了保证不管在什么情况下,为了保证都都不应太小不应太小。 不致太大,不致太大,样本容量样本容量 双侧双侧检验与检验与单侧单侧检验检验 假设检验假设检验 0100:,:HH其中,其中,1H表示表示可能大于可能大于0,也可能小于,也可能小于0的的拒绝域分别在两侧拒绝域分别在两侧。在上述例。在上述例1 1中,拒绝域为中,拒绝域为,2/Z),),(2/Z,在很多情况下,会提出如下形式的原假设:在很多情况下,会提出如下形式的原假设:0000:,:HH或对应的备择假设是对应的备择假设是0101:,:HH或称这类假设检验为称这类假设检验为单侧单侧假设检验或假设检验或单边单边

35、假设检验。假设检验。 ,这类检验,这类检验(),),称这类假设检验为称这类假设检验为双侧双侧假设检验。假设检验。正态总体均值、方差的检验法(显著性水平为正态总体均值、方差的检验法(显著性水平为)已知2000nXZ/00002/aaazzzzzz未知2000nSXt/0000) 1(112/nttnttnttaaa已知2221212121,222121nnYXZ2121212/aaazzzzzz原假设原假设H H0 0检验统计量检验统计量备择假设备择假设H H1 1拒绝域拒绝域原假设原假设H H0 0检验统计量检验统计量备择假设备择假设H H1 1拒绝域拒绝域未知2222121212121111

36、21222211221nnSnSnSnnSYXtww212121)2(22212/2121nnttnnttnnttaaa未知2022022022022) 1(Sn 202202202111122/1222/221222nnnnaaaa或未知21222122212221,2221SSF 2222222221111, 11, 11, 11, 1212/1212/21121nnFFnnFFnnFFnnFFaaaa或)(000成对数据DDDnSDtD/0000DDD) 1() 1() 1(2/nttnttnttaaa例题例题:例例1 1:某种元件的寿命:某种元件的寿命X X(以小时计)服从正态分布(以

37、小时计)服从正态分布22,),(N159 280 101 212 224 379 179 264159 280 101 212 224 379 179 264222 362 168 250 149 260 485 170222 362 168 250 149 260 485 170问是否有理由认为元件的平均寿命大于问是否有理由认为元件的平均寿命大于225225(小时)?(小时)?(05. 0解:检验假设(原假设取与题意相反的假设)解:检验假设(原假设取与题意相反的假设).225:,225:100HH因为因为2,均未知均未知,用,用t t检验法检验法,其拒绝域为:,其拒绝域为:.1/0ntnsx

38、ta均未知。现测得均未知。现测得16只元件的寿命如下:只元件的寿命如下:).7531. 1)15(,1605. 0tn算得算得,7259.98, 5 .241sx即有:即有:.7531. 16685. 0/0nsxt t t没有落在拒绝域中,故接受没有落在拒绝域中,故接受HH0 0,即认为元件的平,即认为元件的平均寿命不大于均寿命不大于225225小时。小时。 3 3 分布拟合检验分布拟合检验l 皮尔逊皮尔逊的的2l 专用于专用于检验分布是否检验分布是否为为正态正态的的“偏度、峰度检验法偏度、峰度检验法”。 检验法检验法(一)(一)2检验法检验法2检验法是在总体的检验法是在总体的分布未知分布未

39、知时,根据它的时,根据它的n n个样本个样本nXXX,21:0H xF:1H总体总体X X的分布函数不是的分布函数不是 xF若总体若总体X X为为离散型离散型,则,则0H: :总体总体X X的的分布律分布律为为., 2 , 1,iptXPii若总体若总体X X为为连续型连续型,则,则:0H总体总体X X的的概率密度概率密度为为 xf来检验总体分布假设的一种方法。来检验总体分布假设的一种方法。原假设为:原假设为:总体总体X的的分布函数分布函数为为(可以不写出)(可以不写出)分布拟合的分布拟合的2(1 1)将总体)将总体X X的可能取值范围或全体的可能取值范围或全体的小区间或子集,记作的小区间或子

40、集,记作.,21kAAA(2 2)把)把落入落入第第i i个小区间个小区间iA的样本值的的样本值的个数个数记作记作), 2 , 1(kifi称为称为实测频数实测频数。所有。所有实测频数实测频数之之和和kfff21(3 3)当)当0H为真时,可以根据为真时,可以根据0H计算事件计算事件iA的的概率概率,得到,得到kiAPpii, 2 , 1),(,于是,于是inp就是落入就是落入iA的样本值的的样本值的理论频数理论频数。 检验法检验法基本思想基本思想和和步骤步骤如下:如下:分成分成k个个互不重迭互不重迭等于样本等于样本容量容量n。所假设的所假设的X的分布函数来的分布函数来显然,显然,实测频数实测

41、频数if与与理论频数理论频数inp 皮尔逊皮尔逊引进了如下引进了如下统计量统计量表示经验分布与理论分布表示经验分布与理论分布之间的差异:之间的差异:kiiiinpnpf122)(其中其中if是是随机变量随机变量,在理论分布已给定的情况下,在理论分布已给定的情况下,inp之间的之间的差差标志着标志着经验分布经验分布与与理论分布理论分布之间的之间的差异差异的大小。的大小。是是常量常量。皮尔逊证明了如下皮尔逊证明了如下定理定理: 如原假设中的理论分布如原假设中的理论分布)(xF已经完全给定,那么当已经完全给定,那么当n时,统计量时,统计量kiiiiikiiiiiikiiiinpfnpfnpnpnpf

42、fnpnpf121221222)(2)( kiikikikiiiiiiiiiifnpffnpfnfnfnpf11112222nnpfkiii12的分布的分布近似服从近似服从) 1( k个个自由度自由度的的2分布。分布。 如果理论分布如果理论分布)(xF估计量来代替(一般估计量来代替(一般用最大似然估计值用最大似然估计值来代替)。那么当来代替)。那么当n时,统计量时,统计量2的分布近似服从的分布近似服从) 1(rk由度的由度的2根据这个定理,对于给定的根据这个定理,对于给定的显著性水平显著性水平a,查,查2分布分位数表可得临界值分布分位数表可得临界值2,使得,使得22aP即即22a122rka中

43、有中有r个未知参数个未知参数,则需用相应的,则需用相应的个自个自分布。分布。为小概率事件。为小概率事件。得得拒绝域拒绝域为为根据所给样本值根据所给样本值nXXX,21计算计算2,如果,如果2的值大于的值大于2,则否定假设,则否定假设0H;否则认为差异不够显著而接受;否则认为差异不够显著而接受0H。这就是。这就是2注意注意,皮尔逊定理是在,皮尔逊定理是在n n无限大时无限大时推导出来的,因而在使用推导出来的,因而在使用时要注意时要注意n n要足够大要足够大以及以及iipnnp或根据计算根据计算实践经验实践经验,要求,要求50n,以及每一个,以及每一个iipnnp或都都不小于不小于5 5。iipn

44、np或满足这个条件。满足这个条件。 拟合检验法拟合检验法。不太小不太小这两个条件。这两个条件。否则应适当否则应适当合并合并区间,使区间,使 一元回归分析:一元回归分析:在回归分析中,在回归分析中,变量只有两个变量只有两个; 多元回归分析:多元回归分析:变量在二个以上;变量在二个以上; 线性回归:线性回归:变量间呈线性关系;变量间呈线性关系; 非线性回归:非线性回归:变量间不具有线性关系。变量间不具有线性关系。 回归分析回归分析就是研究相关关系的一种重要的数理统计就是研究相关关系的一种重要的数理统计方法。即方法。即从数量的角度去研究这种关系从数量的角度去研究这种关系。第九章第九章 回归分析与方差

45、分析回归分析与方差分析1 1一元线性回归分析一元线性回归分析 对一组对一组X X的值的值nxxx,21Y Y相应的观察值相应的观察值nyyy,21 这这n n对数据可作出一个对数据可作出一个散点图散点图,可,可直观地描述直观地描述两变量两变量之间的关系。根据散点图,有以下几个问题:之间的关系。根据散点图,有以下几个问题:(1 1)两变量之间的关系)两变量之间的关系是否密切是否密切,或者说能否由,或者说能否由X X来估来估 计计Y Y;(2 2)两变量之间的关系是呈一条)两变量之间的关系是呈一条直线直线还是某种还是某种曲线曲线;(3 3)是否存在)是否存在其他规律其他规律。 作独立观察,得到随机

46、变量作独立观察,得到随机变量,构成构成n对数据对数据。(一)(一)一元线性回归一元线性回归为了研究为了研究x和和y之间的关系,之间的关系,假定假定有以下结构:有以下结构:bxay其中其中a a和和b b是未知常数,称为是未知常数,称为回归系数回归系数,得率的影响。得率的影响。 表示表示随机因素随机因素对对实际中常假定实际中常假定服从正态分布服从正态分布), 0(2N,即,即未知220)(0)(DE通常称通常称), 0(,2NbxaY上式表明,上式表明,Y Y由两部分组成:由两部分组成:l 一部分是一部分是x x的的线性函数线性函数bxal 另一部分另一部分2, 0N是是随机误差随机误差,是人们

47、不可控制的。,是人们不可控制的。 (1.1)为为一元线性回归模型一元线性回归模型。bxay回归方程:回归方程:),( ,),(),(2211nnYxYxYx),( ,),(),(2211nnyxyxyx该样本的构造可由方程该样本的构造可由方程), 2 , 1(nibxayiii来描述,这里,来描述,这里,i它是不能观察的。它是不能观察的。 n次独立次独立观察,得一样本:观察,得一样本:对应的对应的样本值样本值记为:记为:是是第第i次次观察时观察时随机误差随机误差所取的值,所取的值, 回归分析的回归分析的任务任务是利用是利用n n组独立观察数据组独立观察数据),( ,),(),(2211nnyx

48、yxyx来来估计估计a a和和b b, ,以估计值的以估计值的b和a代替代替a a,b b,xbay称其为称其为经验回归方程经验回归方程。 得回归方程得回归方程1 1用用最小二乘法最小二乘法估计估计ba,偏差的平方和偏差的平方和niixx12) (最小二乘法认为最小二乘法认为:寻找寻找x 这就是最小二乘法的基本思想。这就是最小二乘法的基本思想。 ,使上述平方和达到最小。,使上述平方和达到最小。对对),(yx作了作了n n次观察或试验,得到次观察或试验,得到n n对数据对数据),( ,),(),(2211nnyxyxyx找一条直线找一条直线xbay当当x取值取值ix时,时,y 应取值应取值ibx

49、a 而而实际观察到的实际观察到的为为iy,这样,形成了,这样,形成了偏差偏差(图图))(iiibxay尽可能地拟合这些数据。尽可能地拟合这些数据。 根据最小二乘法思想,类似地提出了如下的根据最小二乘法思想,类似地提出了如下的目标量目标量niiibxayQ12)(它是所有它是所有实测值实测值iy与与回归值回归值iy 设法求出设法求出ba,的估计值的估计值ba, ,使,使Q得到的回归直线得到的回归直线xbay是在所有直线中是在所有直线中Q最小的一条。最小的一条。 的偏差平方和。的偏差平方和。达到达到最小最小,由此,由此用求极值法,求出使用求极值法,求出使Q达到最小的达到最小的ba, 。即解方程。即

50、解方程niiiiniiixbxaybQbxayaQ11. 02, 02得得,1,111212112111niniiiniiniiiniiniiniiniiniiixbyxnbynaxxyyxxxxnyxyxnb其中:其中:.1,111niiniiynyxnx得到回归方程得到回归方程xbay(1.8)为了计算上的方便,引入下述记号:为了计算上的方便,引入下述记号:niniiniiiiniiixyniniiniiiyyniniiniiixxyxnyxyyxxSynyyySxnxxxS1111121122121122.1,11这样,这样,ba,的估计值可写成的估计值可写成.11,11bxnynaSS

51、bniiniixxxy(1.10) (1.9)求出回归方程,求出回归方程,问题尚未结束问题尚未结束。由于。由于xbay是从是从观察观察得到的回归方程,它会随观察结果的不同而改得到的回归方程,它会随观察结果的不同而改变,并且它变,并且它只反映了由只反映了由x的变化引起的的变化引起的y(1 1)回归方程是否)回归方程是否有意义有意义?即?即x的变化是否真的对的变化是否真的对y(2 2)如果方程真有意义,用它预测)如果方程真有意义,用它预测y的偏差能否估计?的偏差能否估计? 的变化,的变化,没有包含误差项没有包含误差项。因此会问这样的问题:。因此会问这样的问题:有影响?因此,要对有影响?因此,要对回

52、归效果回归效果作出检验。作出检验。时,预测值与真值时,预测值与真值2 2回归方程的回归方程的显著性检验显著性检验l 对任意的一组观察值对任意的一组观察值), 2 , 1)(,(niyxii最小二乘法,最小二乘法,形式上形式上求得求得y对对xl 如果如果y与与xl 因此,需要考察因此,需要考察y与与x是否确有线性关系是否确有线性关系,这就是,这就是,都可以用,都可以用的回归方程。的回归方程。没有线性关系,这种形式的回归没有线性关系,这种形式的回归方程就没有意义。方程就没有意义。回归效果的检验问题回归效果的检验问题。 2回S与与残差平方和残差平方和2S残niniiiyySyyS112222) (,

53、)(残回2回Sl 反映了由于反映了由于x的变化引起的的变化引起的y的差异,体现了的差异,体现了x对对y的影响;的影响;2S残l 反映了自变量以外的随机因素对反映了自变量以外的随机因素对y的影响。的影响。22/残回SS为为xl 若它若它不是显著地大不是显著地大,表明所选的,表明所选的x并不是一个重要的并不是一个重要的 回归平方和回归平方和的影响部分与随机因素影响部分的比值的影响部分与随机因素影响部分的比值;因素,因素,它的作用与随机因素的作用相当它的作用与随机因素的作用相当,于是得到的回,于是得到的回归方程就归方程就没有意义没有意义。 l 如果它如果它显著地大显著地大,表明,表明x关于关于回归方

54、程回归方程的的显著性检验问题显著性检验问题 可以证明,当可以证明,当bxaY的关系中的关系中b=0b=0时,有时,有2222)2()(,)(nSESE残回 2)-nF(1,2)-/(nSSF22残回的作用是显著地比随机因素大,的作用是显著地比随机因素大,这样方程才这样方程才有意义有意义。b是否等于是否等于0的检验问题的检验问题用用2222SS2)-(n2)-/(nSSF残回残回来检验来检验b b的绝对值是否大于的绝对值是否大于0 0; ;或者说检验回归方程或者说检验回归方程xbay给定显著性水平给定显著性水平便可判断回归方程是否有意义。即要检验假设便可判断回归方程是否有意义。即要检验假设. 0

55、:, 0:10bHbH检验统计量检验统计量为为)2, 1 (SS2)-(n2)-/(nSSF2222nF残回残回是否有意义。是否有意义。,查,查F分布分位数表,求出分布分位数表,求出否定域否定域,拒绝域为拒绝域为)2, 1 (nFF xyniniiiSbxxbyyS2112222) ()(回 xyyyniiSbSSSyyS) (22122回总残也也可用可用t t检验法检验法来检验回归方程是否有意义,假设来检验回归方程是否有意义,假设. 0:, 0:10bHbH./,2xxSbNb),2(222222nSn残且且b与与2残S独立(见附录独立(见附录5 5),故有),故有),()2(2/222sn

56、tnnSbbxx即即).2(ntSbbxx这里这里.2又又使用使用t检验法检验法来进行检验。有(见附录来进行检验。有(见附录2):):当当H H0 0为真时为真时b=0b=0,此时,此时),2(ntSbtxx即得即得H H0 0的拒绝域为的拒绝域为,22/ntSbtaxx当假设当假设0:0bH就认为回归效果不显著。就认为回归效果不显著。 被拒绝时,认为回归效果是显著的,反之,被拒绝时,认为回归效果是显著的,反之,3. 3. 预测预测(2我们无法确切知道我们无法确切知道yy的值。因此,只能估计的值。因此,只能估计yy的范围。通常的范围。通常假定假定), 0(2Nyy 这样通过对这样通过对2的估计

57、,就可知道的估计,就可知道yy 的估计)的估计)当检验认为回归方程确有意义,则可用来预测或控制。当检验认为回归方程确有意义,则可用来预测或控制。的取值范围。的取值范围。假定假定),(00yx), 0(,(2NbxaY00 yy 是在模型是在模型的条件下进行的一次试验结果,可以证明的条件下进行的一次试验结果,可以证明有:有:2200011, 0SxxxxnNyy.1 , 0112000NSxxnyyxx )2(2222nn因此,因此,.2, 1)11 ()(202200nFSxxnyyxx 给定的给定的置信水平置信水平a1,有,有anFSxxnyyPxx12, 1)11 ()(2022000y的

58、的置信区间置信区间为为),(00yy其中其中xxSxxnnFx202011)2, 1 ()(于是于是根据根据书上书上(用相关系数检验法),也有(用相关系数检验法),也有.22/211222000ntnnSxxnyyxx即即.2112000ntSxxnyyxx给定给定置信水平置信水平a1antSxxnyyPaxx12112/2000,有,有aSxxnntYYSxxnntYPxxaxxa1112112202/00202/0,0yxxaSxxnntx202/0112)( 让让x(x换为换为0 x)变动,有:)变动,有:xxSxxnnFx2211)2, 1 ()(或或xxaSxxnntx22/112)

59、(置信区间置信区间其中其中事实上,当事实上,当n n很大且很大且0 x靠近靠近x时,有时,有2)(, 111122220nyySxxnniixx即即0yy 服从服从), 0(2N,用正态分布的性质有,用正态分布的性质有99. 033000yyyP或或95. 022000yyyP作为实际应用时的作为实际应用时的近似预报近似预报。 总结:总结:1.1.回归方程计算回归方程计算,.11niixnx niiyny11 niiiniiixyniniiiyyniniiixxyxnyxyyxxSynyyySxnxxxS111212212122., .,xbyaSSbxxxyxyniniiiSbxxbyyS2

60、112222) ()(回 xyyyniiSbSSSyyS) (22122回总残 2222SS2)-(n2)-/(nSSF残回残回(2 2)进行统计)进行统计检验检验: 对给定对给定的临界值的临界值F,如果,如果FF 则拒绝假设则拒绝假设0H,说明一元线性回归成立。如果,说明一元线性回归成立。如果FF 则接受假设则接受假设0H,说明一元线性回归不成立。,说明一元线性回归不成立。,由,由F分布表查出自由度为(分布表查出自由度为(1,n-2)(3 3)对回归直线进行)对回归直线进行预测预测。xxSxxnnFx2211)2, 1 ()( )(xyy其中:其中:xbay4可线性化可线性化的一元的一元非线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论