第六章 抽样和参数估计ppt课件_第1页
第六章 抽样和参数估计ppt课件_第2页
第六章 抽样和参数估计ppt课件_第3页
第六章 抽样和参数估计ppt课件_第4页
第六章 抽样和参数估计ppt课件_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章抽样与参数估计第六章抽样与参数估计第一节抽样与抽样分布第一节抽样与抽样分布抽样:抽样调查方法抽样分布:统计量的分布一、总体、个体和样本一、总体、个体和样本调查研究对象的全体称为总体总体的每个对象称为个体或单位,是调查研究的基本单位按一定方法从总体中抽取的部分个体称为样本总体所包含的个体数,称为总体容量;样本所包含的个体数,称样本容量,用 n 表示不包含任何未知参数的样本函数称为统计量二、关于抽样方法二、关于抽样方法、概率抽样、概率抽样从总体中按一定概率抽取样本的方法简单随机抽样从总体中逐个不放回地抽取 n 个个体组成样本,且在每次抽样时总体中的每一个个体都有相同的机会被抽取。简单随机抽样

2、是所有其他抽样方法的基础,它需要一个对全部个体的完整抽样框。分层抽样把总体按某种规则划分为若干个组,每个组称为层。在每层中进行简单随机抽样或其他抽样的方法称为分层抽样。整群抽样把总体按某种规则划分为若干个组,每个组称为群。整群抽样仅对群进行抽取,并且抽中的群进行普查。系统抽样也称等距抽样,这种抽样方法是按一定规则从总体中随机抽取每一个个体后,按等距抽取其他个体组成样本。、非概率抽样、非概率抽样不是按随机方法抽取样本非随机抽样:由调查人员自由选取被调查者判断抽样:按某些条件选择被调查者、配额抽样、配额抽样选择一组特定数目、满足特定条件的被调查者。三、样本均值的分布与中心极限定理三、样本均值的分布

3、与中心极限定理总体分布为正态分布设 是总体的随机样本,即 是相互独立,并且与总体有相同分布的随机变量,那么nXXX,21iX),(2nNX(6.1)总体分布为非正布 由于 niniiniinXEnXnEXE111111 nXDnXnDXDninniinii2122121111则根据中心极限定理,当 n 比较大时,近似服从X),(2nN中心极限定理中心极限定理设从均值为,方差2 的总体中随机抽取样本容量为 n 的样本,当 n 充分大时,样本均值 的抽样分布近似服从均值为,方差为 的正态分布。Xn/2例 设总体容量 ,那么NiiNiiXNXN122125. 11,5 . 21假定 n = 2 ,则

4、在重复抽样条件下,所有可能的样本共有 42=16 个。4,3,2,1,44321XXXXN16个样本与样本均值第一个观察值第二个观察值12341, 1 (1.0)1, 2 (1.5)1, 3 (2.0)1, 4 (2.5)2, 1 (1.5)2, 2 (2.0)2, 3 (2.5)2, 4 (3.0)3, 1 (2.0)3, 2 (2.5)3, 3 (3.0)3, 4 (3.5)4, 1 (2.5)4, 2 (3.0)4, 3 (3.5)4, 4 (4.0)0.000.050.100.150.200.250.301.01.52.02.53.03.54.0所有样本均值的均值与方差所有样本均值的均

5、值与方差 5 . 20 . 430 . 225 . 10 . 1161161161iXXXE 161222625. 0161iXnXXD例例6.1设从均值为8,标准差0.6 的总体中随机抽取样容量为 n25 的样本,假定总体并不是很偏的,那么求样本均值 小于 7.9 的近似概率求样本均值 超越 7.9 的近似概率求样本均值 在总体均值 8 附近 0.1 范围内的近似概率XXX解:解:根据中心极限定理,近似服从正态分布,即X)12. 0,8(2NX2033. 07967. 0183. 0183. 01)83. 0()12. 089 . 712. 08(9 . 7ZPZPXPXP1.2.3.796

6、7.0)83.0(1)9 .7(1)9 .7(ZPXPXP5934.017967.02183.02)83.0(83.0)12.01 .012.012.01 .0()1 .0(ZPZPXPXP例例6.2 一汽车蓄电池商声称其生产的电池具有均值为 54 个月,标准差为 6 个月的寿命分布。现假设某消费团体决定检验该厂的说法是否准确,为此购买了 50 个该厂生产的电池进行寿命试验。假设厂商声称是正确的,试描述 50 个电池的平均寿命的抽样分布。假设厂商声称正确,则50个电池的平均寿命不超过52 个月的概率为多少?解:解:根据中心极限定理,当厂商假定正确时,50个电池的平均寿命 近似服从正态分布,有X

7、85. 072. 072. 0506,54222XXXn即285. 0,54 NX0094. 09906. 0135. 2135. 2135. 285. 0545285. 05452ZPZPXPXP四、样本方差的分布四、样本方差的分布设为来自正态总体的随机样本,则对于样本方差有nXXX,212,N2S11222nSn(6.2)分布的近似查表方法 则设,2nX nXDnXE2,当 n 较大时,近似服从即近似服从标准正态分布,由于。另一方面X21,12 nN2122nX 12nXP 112212)(2122)(222222nnZPnnnXPnXPnXP从而 Znn1222即 221221nZn(6

8、.3)例:例:则取,950,45.n33.3089645. 121145221452295. 0295. 0Z若取,那么05. 037.6189645. 121145221452205. 0205. 0Z五、两个样本方差比的分布五、两个样本方差比的分布设 为来自正态总体的一个随机样本, 是来自正态总体的一个随机样本,两个样本相互独立,那么1,21nXXX211,N(6.4)2,21nYYY222,N1,1/21222212nnFSSYX 称为第一自由度为,第二自由度为的 F 分布。1,121nnF11n12nF 分布的查表分布的查表则设,1,121nnFF1,121nnFFP1,1211nnF

9、FPF一般F 分布表只列出值( ) , 但根据F 分布的性质,有1,111,112211nnFnnF(6.5)例403. 048. 2115,12112,1505. 095. 0FF5 . 0六、六、t 统计量的分布统计量的分布 一个样本均值的分布一个样本均值的分布设为来自正态总体的随机样本,记nXXX,212,N(6.6)niiniiXXnSXnX121211,1那么1ntSXnt即 t 服从自由度为的 t 分布。1n 二个样本均值之差的分布二个样本均值之差的分布设为来自正态总体的一个随机样本,是来自正态总体的一个随机样本,两个样本互相独立,那么1,21nXXX),(21N(6.8)1,21

10、nYYY),(22N2112111,1niiniiYnYXnX121122221211,11niniiYiXYYnSXXnS2112122212nnSnSnSYXP211212121nntnnSYXtP第二节参数估计基本方法第二节参数估计基本方法一、点估计一、点估计用一个统计量作为未知参数的估计量,根据样本数据求得估计量的取值作为未知参数的估计值、矩估计法、矩估计法原点矩:原点矩:设 X 为随机变量,对任意正数 k ,称kkXEm (6.9)为总体 k 阶原点矩,当时, 就是总体均值。1k XEm1设是来自总体的一个随机样本,称nXXX,21nikikXnm11为样本 k 阶原点矩。当时, 就

11、是样本均值。1kniiXXn11中心矩:设 X 为随机变量,对任意正整数 k,称 kkXEXEC为总体 k 阶中心矩,当时2k 222XEXEC所以总体二阶中心矩就是总体方差。设是来自总体的一个随机样本,称nXXX,21nikikXXnC11为样本 k 阶中心矩。当时 就是样本二阶中心矩, 且2kniiXXnC12212121nSnnC所谓矩估计方法就是用 样本矩来估计相应的总体矩。(6.10)例例6.3 已知某种灯泡的寿命,其中、都是未知的。今随机抽得 4 只灯泡,测得寿命单位:小时)为 1502,1453,1367,1650,试估计和。解:因为是全部灯泡的平均寿命,而 是样本的平均寿命。根

12、据矩估计方法,可用 来估计 ,同样,用来估计 。由于从而和的估计值分别是 1493 小时和 118.61 小时。2,NX2x1nsx61.118,14931nsx、最大似然估计、最大似然估计设总体 X 为连续型,概率密度为已知,它只含一个未知参数。于是,总体X 的样本的联合概率密度为。对于样本观察值,它是的函数,记(6.14)称为似然函数。最大似然估计法就是求似然函数的最大值点 作为 的估计量。nxxx,21,xfniixf1,nXXX,21niinxfxxxL121,例例6.4 设 来自正态总体,求与 的最大似然估计。解:正态总体的概率密度为由样本的独立性,得似然函数),(2N2nXXX,2

13、12,N222121xeniiixnxnineexxxL1222221222112122121,对 取对数,得nxxxL,212续例续例 6.4对与分别求偏导数,令偏导数为零,得方程:2niinxnnxxxL122221221ln22ln2,ln 1221ln012niixL4122212112ln0niixnL解上述两个方程,得最大似然估计niiniixxnxn1221,11 设为未知参数的估计量,当时,按概率收敛于。即二、点估计的优良准则二、点估计的优良准则、一致性、一致性n1)(limPn(6.17),则称 为的一致估计量0设为未知参数的估计量,假设)(E(6.18)则称 为的无偏估计量

14、。、无偏性、无偏性例例 6.6 证明样本均值是总体均值 的一个无偏估计量,但样本方差 不是总体方差 的无偏估计量。解:由于2X2nSniinniiXXnSXnX12211,1从而 niniinXEnXE1111又因为niinXXnS12221所以21221222111nnnnXEXEnSEniniin即22nSE有关样本方差的说明有关样本方差的说明是样本二阶中心矩,但 并不是 的无偏估计,而2nS22222111nnnSEnnSnnESE2nS即是无偏估计,所以通常用作为的估计。 和 都称为样本方差,由于通常用作为的估计。 常简写为 。21nS221nS22nS21nS21nS22S21nS设

15、为 的两个无偏估计量,假设21,)()(21DD(6.20)则称 比 有效。1、有效性、有效性2设为 的估计量,称2)()( EMSE为 的均方误差,并且2222)()()()()()(EEEEEEEMSE记,那么)(EB)()()(2BDMSE(6.21)nXXX,21三、区间估计三、区间估计设是来自总体的一个样本,是总体未知参数。对给定的,如能确定两个统计量 和 ,满足) 10(12121P则称为置信度或置信概率,是的置信度的置信区间,称为显著性水平。置信度可以用频率来说明。假设是置信度 0.95 置信区间,当从总体中多次取样本容量为 n 的样本时,则每次可得到一个置信区间,这些置信区间有

16、的包含,而有的则不包含,但平均来说,包含的置信区间的频率应在 0.95 附近波动。),(21111),(21第三节总体均值和总体比例的区间估计第三节总体均值和总体比例的区间估计一、总体均值的区间估计一、总体均值的区间估计 、 2 已知时总体均值已知时总体均值 的区间估计的区间估计设,是来自总体的样本,那么(6.22)那末对于给定的显著水平 ,有nXXX,21),(2NX),(2nNX即) 1,0(/NXZ1/22ZnXZP或122nZXnZXP即总体均值 的置信度为的置信区间为1),(22nZXnZX(6.23)(6.24)(6.25)例例 6.7某种零件的长度服从正态分布,从该批产品中随机抽

17、取9件,测得其平均长度为 21.4 mm 。已知总体标准差 0.15 mm,试建立该种零件平均长度的置信区间,给定置信水平为 0.95。解:知由于,95. 01,9,4 .21, )15. 0,(2nXNX098. 0915. 096. 12nZ根据 (6.25) 式,得 的 0.95 置信区间为) 0.09821.4,0.098-(21.4即) 21.498,(21.302例例 6.8某大学从该校学生中随机抽取 100 人,调查到他们平均每天参加体育锻炼的时间为 26 分钟。试以 95% 的置信水平估计该大学全体学生平均每天参加体育锻炼的时间已知总体方差为 36)解:知由于 n 较大,可认为

18、近似有。而,那么,100,26,362nX176. 1100696. 12nZ得 的 0.95 置信区间为) 27.176,(24.82496. 1,95. 012Z),(2nNX 、 2 未知时总体均值未知时总体均值 的区间估计的区间估计设,那么(6.26)对于给定的显著性水平 ,有),(2NX) 1(/1ntnSXtn1) 1(/) 1(212ntnSXntPn则总体均值 的置信度为的置信区间为1) 1(,) 1(1212nSntXnSntXnn(6.27)例例 6.9对于例 6.8 ,假定总体方差未知,但已知样本方差,试估计全校学生平均每天参加体育锻炼的时间假定)。解:知, ),(2NX

19、16. 110034984. 1) 1(12nSntn从而 的 0.95 置信区间为) 27.16,(24.843421nS),(2NX,26,100 xn,3421nS在时,。由于05. 0984. 1)99(205. 0t二、总体比例的区间估计二、总体比例的区间估计设 ,当 n 较大时,假设 np5,nq5,则近似有),(pnBX)1 (,(npppNp(6.28)从而1,0)1 (NnppppZ(6.29)在的置信度下,p 的置信区间为1) 1 ( ,) 1 ( (22nppZpnppZp(6.30)例例 6.10 某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机抽选了

20、200 人组成一个样本。在对其进行访问时,有140 人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的比例构造 95% 的置信区间。解:知由于,05. 0,560) 1 (,5140,7 . 0,200pnpnpn064. 0200)7 . 01 (7 . 096. 1) 1 ( 2nppZ从而 p 的 0.95 置信区间为) 764. 0,(0.636三、样本容量的确定三、样本容量的确定在 n 给定时,可以根据置信度,计算相应的抽样误差。另一方面,在规定抽样误差时,也可以计算所需的样本容量。样本容量的确定取决以下二个条件所要求的估计精度大小,或置信区间的长度

21、所要求的置信度、估计总体均值时,样本容量的确定、估计总体均值时,样本容量的确定对总体均值的区间估计,置信区间为nZX2那么 是置信区间长度的,称 为允许误差,由此得必要的样本容量21记nZ2(6.31)2222Zn(6.32)( 6.32 ) 式的说明式的说明( 6.32 ) 式表明 n 与 、 和 有如下关系越大,则所需 n 越大,即 n 与 成正比越大,则所需 n 越小,即 n 与 成反比 越大,则所需 n 越大,即 n 与 成正比212211例例 6.11一家广告公司想估计某类商店去年所花的平均广告费有多少经验表明,总体方差约为 1 800 000 。如置信度取 95% ,并要使估计值处

22、在总体平均值附近 500 元的范围内,这家广告公司应取多大的样本?解:知则根据( 6.32 ) 式,得,500,96. 1,05. 0,180000022Z2866.27500180000096. 1222222Zn即这家广告公司应抽取 28 个商店进行调查。、估计总体比例时,样本容量的确定、估计总体比例时,样本容量的确定估计总体比例时,根据( 6.29 ) 式当 p 未知时,可用 替代。从而(6.33)(6.34)nppZ)1 (2222)1 (ppZnp 例例 6.12一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对 p 的估计误差不超过 0.05 ,要求的可靠程度为

23、95% ,应取多大容量的样本?(没有可利用的估计值)解:由于时,方差达到最大,因此当与给定时,取使 n 达到最大。知 根据 (6.34) 式,得,05. 0,05. 03852 .38405. 0)5 . 01 (5 . 096. 1)1 (22222ppZn即应抽取 385 户进行调查。p5 . 0p5 . 0p第四节两个总体均值及两个总体比例之差的估计第四节两个总体均值及两个总体比例之差的估计一、两个总体均值之差的区间估计一、两个总体均值之差的区间估计设两个总体的均值为 和 ,两个总体的方差为和 。两个总体均值之差,即 的估计,分别 和 已知与未知两种情况讨论。122122212122、两

24、个总体的方差已知情况下的区间估计、两个总体的方差已知情况下的区间估计当两个总体都服从正态分布,且 和 知,分别从两个总体抽取的样本均值为 和 ,样本容量分别为 和 ,那么),(2221212121nnNXX21221X2X1n2n(6.35)21从而的 置信度的置信区间为1222121221)(nnZXX(6.36)当两个总体分布非正态,但 和 都很大,则在和 已知时,可近似按 (6.36) 式得出 的置信区间。1n2n212221例例 6.13一个银行负责人想知道储户存入两家银行的钱数。他从两家银行各抽取了一个由 25 个储户组成的随机样本,样本平均值如下:银行 A:4500元;银行 B:3

25、250元。设已知两个总体服从方差分别为和的正态分布。试求的区间估计: 置信度 95% ; 置信度99 % 。解:知从而的置信度为的置信区间为25002A36002BBA, )60,(, )50,(22BBAANXNX25,3250,4500BABAnnxxBA1253600252500)32504500(2Z续例续例 6.13当置信度为 0.95 ,那么,得96. 1205. 0Z25360025250096. 1)32504500(即62.301250于是 的置信度为 0.95 的置信区间为BA(1219.38 , 1280.62)当置信度为 0.99 ,那么,得58. 2205. 0Z25

26、360025250058. 2)32504500(所以 的置信度为 0.99 的置信区间为BA(1209.7 , 1290.3)、两个总体的方差未知情况下的区间估计、两个总体的方差未知情况下的区间估计总体正态且方差相等总体正态且方差相等当两个总体都服从正态分布, 和 未知但相等,即。则对于两个独立样本和,的估计量为2) 1() 1(212222112nnSnSnSp21221n2n(6.37)211(6.39)从而的 置信度的置信区间为222212)2(11)()(21212121nntnnSXXtp212122111)2()(nnSnntXXp(6.40)可以证明例例 6.14 为了比较两位

27、银行职员为新顾客办理个人结算帐目的平均时间长度,分别给两位职员随机按排了 10 位顾客,并记录下为每位顾客办理帐单所需的时间单位:分钟),相应的样本均值和方差为: 。假定每位职员办理帐单所需时间均服从正态分布,且方差相等, 试求两位职员办理帐单所需的服务时间之差的 95% 的区间估计。 36.16,2 .22211sx92.18,5 .28222sx解: 知从而 0.95 的置信区间为10,5 .28,2 .222121nnxx1011012 . 410. 2)5 .282 .22(05. 0,92.18,36.162221SS由于 ,那么21nn 2 . 4292.1836.1622221S

28、SSp查表得10. 2)18(205. 0t即)36. 2,24.10(总体正态且方差不等总体正态且方差不等当两个总体都服从正态分布, 和 未知且这时分别用 和估计 和。可以证明近似有2122211(6.41)f 应取整数。从而 的置信度为 的近似置信区间为2221)()()(2221212121ftnSnSXXt222121221)()(nSnSftXX(6.42)其中21S22S21221)/(1)/()(22222121212222121nnSnnSnSnSf例例 6.15对例 6.14 ,其他条件不变,但假定,试求两位职员办理帐单的平均服务时间之差的 0.95 的置信区间。 解:先按

29、(6.41) 式得从而的 0.95 近似置信区间为211092.181036.1610. 2)5 .282 .22(2221189 .179)1092.18(9)1036.16()1092.181036.16(222f即)36. 2,24.10(由于恰好从而所得置信区间相同。221nnf方差不等时的大样方法方差不等时的大样方法当两个总体分布非正态,且和 都很大,则近似有211(6.43)并用 和 分别作为 和的估计。于是 的置信度为 的近似置信区间为21S22S21221n2n),(2221212121nnNXX222121221)(nSnSZXX二、两个总体比例之差的区间估计二、两个总体比例

30、之差的区间估计设两个总体的比例分别为 和 ,分别从两个总体各抽取样本容量为 和 的随机样本,样本比例为 和 。则当 和 都很大,且 和 大小适中不太接近 0 或 1 )时,近似值有1 p2 p1n2n1p2p1p2p1n2n)1 ()1 (,(2221112121nppnppppNpp21pp 所以 的置信度为 的近似置信区间为21pp 1222111221)1 ()1 ()(nppnppZpp(6.47)例例 6.16某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,他们从两个城市中分别随机地调查了1000个成年人,其中看过该广告的比例分别为和,试求两城市成年人中看过该广告的比例之差的

31、 0.95 的置信区间。解:知1000)14. 01 (14. 01000)18. 01 (18. 096. 1)14. 018. 0(即)072. 0,008. 0( 由于都很大,从而的 0.95 置信区间为100021 nn18. 01p14. 02p14. 0,18. 021pp21pp 032. 004. 0或第五节正态总体方差及两正态总体方差比的区间估计第五节正态总体方差及两正态总体方差比的区间估计一、正态总体方差的区间估计一、正态总体方差的区间估计设是来自总体的样本,那么nXXX,21),(2N) 1() 1(222nSn从而1) 1() 1() 1(2222221nSnnp那么 的置信度为的置信区间为12) 1() 1(,) 1() 1(2212222nSnnSn(6.48)标准差的估计标准差的估计根据 (6.48) 式,那么 的置信度为 的置信区间为1) 1() 1(,) 1()

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论