第5章参数区间估计_第1页
第5章参数区间估计_第2页
第5章参数区间估计_第3页
第5章参数区间估计_第4页
第5章参数区间估计_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、试验统计学试验统计学第四章 概率论与数理统计的基础知识本课程使用区靖祥编著的试验统计学一书作为课本。全程为50学时,占2学分。 第二章 常用的试验设计第三章 试验数据的整理第五章 参数区间估计第八章 常用试验设计的资料分析第六章 统计假设测验第七章 方差分析第九章 直线相关与回归第一章 绪论第十章 协方差分析l作区间估计时,通常计算两尾概率,即区间外两边的概 率各为显著水准 之半,区间内的概率为置信度1- 。第五章 参数区间估计l上一章中讨论了总体分布和抽样总体的分布。所谓抽样总体的分布是指在原总体的分布为已知的情况下,探讨一些样本统计量的概率分布。利用抽样分布可以用一定的概率保证计算出某个样

2、本统计量出现的区间范围。l在这一章中,我们将这个问题反过来讨论,即利用样本数据,以抽样总体的分布为理论基础,用一定的概率保证来计算出原总体中未知参数的区间范围。l这种具有一定概率保证的未知参数的估计区间称为置信区间,其最小值称为“下限”,最大值称为“上限”。l常用的概率为95%和99%,即计算是95%置信区间和99%置信区间。也可按研究目的来决定具体采用的置信度。第五章 参数区间估计第二节 二项总体百分数的置信区间第一节 总体平均数的置信区间第三节 正态总体方差的置信区间l 单个总体平均数的置信区间l 成对法资料两处理观察差数总体均数的置信区间l 两个独立样本所来自的总体均数之差的置信区间l

3、单个二项总体百分数的置信区间l 两个二项总体百分数之差的置信区间l 单个总体方差的置信区间l 两总体方差之比的置信区间l 利用这些分布,可以计算出总体平均数 的置信区间。第一节 总体平均数的置信区间l 单个总体平均数的置信区间l 若已知随机变量X ,并从X总体中抽取样本容量 为 n 的样本,那么,样本平均数 将服从总体平均数为 ,方差为 的正态分布。),(2xxNxxxnxx/22l 如果原来的 X不服从正态分布,但已知它的总体平均数为x,总体方差为 ,那么,只要样本容量n足够大,样本平均数 也将服从总体平均数为 ,方差为 的正态分布。xxxnxx/222xl 若原总体的方差 未知,可以用样本

4、方差代替s2计算, 如果样本容量为n,则样本平均数 的标准化离差 将服从一个自由度为df n1的 t 分布。x2xnsxx/ 正态分布资料并且总体方差已知或非正态分布资料大样本并且方差已知例5.1 已知某品种玉米的单株产量X服从正态分布N(, 2),其中 未知, 5 g。现从该总体随机抽取一个大小为n25的样本,算得样本平均数为35。问该品种玉米的单株产量(即总体平均数 )有95%的可能落在什么区间?第一节 总体平均数的置信区间l 单个总体平均数的置信区间因为)96. 196. 1()96. 1/96. 1()96. 196. 1(%95nxnxPnxPuP将 、 5代入,于是得 35x)96

5、.3604.33()196.135196.135(%95PP判定单株平均产量有95%可能落在(33.04 g,36.96 g)之间。 l 若要用99%的把握作判断,要在附表3查得当=0.01时的u值(2.58),用它代入上式,重新计算。得: P ( 2.58 u 2.58 ) = P ( 32.42 37.58 )。显然,你要说话更有把握,就要把区间扩得宽些。33.04 35 36.9695% =0.0532.42 35 37.5899% =0.01 再举一个非正 态资料的例子 正态分布资料并且总体方差已知或非正态分布资料大样本并且方差已知第一节 总体平均数的置信区间l 单个总体平均数的置信区

6、间将 、 3代入,于是得 5 . 4x判定该乡每户平均人数 有95%可能落在(2.54,5.48)之间。例5.2 某乡内各户人口数X的平均数 未知,标准差 3。现从该乡随机调查36户,算得样本平均数为 ,问该乡每户人家的平均人口数 有95%可能落在什么区间?5 . 4x因为样本容量n3630,所以可以认为平均人口数服从正态分布,并且, 3/60.5。于是有: xn/)96. 196. 1()96. 1/96. 1()96. 196. 1(%95nxnxPnxPuP)48. 554. 2() 5 . 096. 15 . 45 . 096. 15 . 4(PP 这里顺便介绍 一下确定样本容 量的方

7、法 正态分布资料并且总体方差已知或非正态分布资料大样本并且方差已知第一节 总体平均数的置信区间l 单个总体平均数的置信区间例5.3 某灯泡厂要抽样检验一批灯泡的寿命。根据以往的经验,灯泡寿命的标准差为 6小时。现要求调查的误差范围不超过2小时,置信度为95%,问至少应抽多大的样本。)96. 196. 1()96. 1/96. 1()96. 196. 1(%95nxnPnxPuP或 。解不等式 得 nx96. 1|222296. 1n3557.342696. 1222n如果灯泡的真实寿命为,抽得大小为n的样本,并算得样本平均数为 ,那么,误差范围为 。为了保证抽样精确度,采用大样本公式。即xx

8、原总体的方差未知第一节 总体平均数的置信区间l 单个总体平均数的置信区间例5.4 从外地引进一个小麦良种,它在本地的千粒重X的平均数和标准差都不知道。现种植了n8个小区,得其千粒重(单位:g)为:34.6、35.9、36.8、32.7、35.1、33.4、37.6、35.6。试求此品种千粒重的95%置信区间。这时用样本方差s2代替总体方差 2,用 t 分布估计区间。n8,2125.35x58. 08/64. 1/64. 1nsssxxx,)()/()(%9505. 005. 005. 005. 005. 005. 0nstxnstxPtnsxtPtttPxxx当df 817时,t0.05 2.

9、3646。将有关数值代入后,有: )58.3684.33()58. 03646. 22125.3558. 03646. 22125.35(%95PP。95%置信区间为(33.84 g,36.58 g)。 l 成对法资料两样本观察值差数总体均数的置信区间l 如果原来的 D 服从平均数为d ,方差为 的非正态分布,那么,只有当 n 足够大时,其样本平均数 才 服从平均数为 ,方差为 的正态分布。2dDddndd/22l 如果原总体方差未知,可以用样本方差 代替 进行 计算,所得的样本统计量1 ndfnsdsdtdddd/将服从 的 t 分布。2d2dsl 如果原来的 D 服从平均数为d ,方差为

10、的正态分 布,那么,大小为 n 的样本的样本平均数 将服从平均数为 ,方差为 的正态分布。2dDddndd/22大多数情况下,总体方差是不知道的。所以 t 分布应用较多。下面举出几个这种抽样分布的例子。 第一节 总体平均数的置信区间第一节 总体平均数的置信区间l 成对法资料两样本观察值差数总体均数的置信区间例5.5 某药厂研制出一种减肥药,将其分发给20个肥胖志愿者试用。一疗程后,测量他们的体重减少量,如上表所示。请据此资料估计服用了此药物之后,肥胖患者体重的减少量有95%可能落在什么区间?)()/()(%9505. 005. 005. 005. 005. 005. 0nstdnstdPtns

11、dtPtttPddddd当df 20119时,t0.05 2.093。将有关数值代入后,有: )7291.0093.2107291.0093.210(%95dP。95%置信区间为(8.474 kg,11.526 kg)。 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 试验前 87 92 96 86 91 99 97 89 88 86 94 93 89 79 87 99 89 86 95 90 试验后 74 83 88 71 79 89 89 82 75 76 85 81 86 68 78 91 79 71 91 76 d 13 9

12、8 15 12 10 8 7 13 10 9 12 3 11 9 8 10 15 4 14 7291. 020/2606. 3/2606. 36316.106316.1019/20220210202nssssSSdndddd,)526.114747. 8 (dP第一节 总体平均数的置信区间l 成对法资料两样本观察值差数总体均数的置信区间例5.6 两种不同配方A和B制造的汽车轮胎15对,分别安装在15部汽车前轴的两边,进行耐磨性能测验。经五万公里行驶后,测量磨损的厚度,数据如上表所示。试求配方A与B磨损程度差数平均数的95%置信区间。)()/()(%9505. 005. 005. 005. 00

13、5. 005. 0nstdnstdPtnsdtPtttPddddd当df 15114时,t0.05 2.1448。将有关数值代入后,有: )2931. 01448. 248. 02931. 01448. 248. 0(%95dP。95%置信区间为(-1.1087,0.1487 )。 汽车编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 配方A 3.7 4.2 5.3 6.4 2.8 3.4 3.8 5.4 3.3 4.7 4.1 3.2 4.6 3.3 2.9 配方B 4.3 5.2 4.1 5.5 3.4 5.7 4.2 5.1 4.6 3.7 5.5 4.6 3

14、.7 5.4 3.3 d 0.6 1.0 1.2 0.9 0.6 2.3 0.4 0.3 1.3 1.0 1.4 1.4 0.9 2.1 0.4 2931. 015/1353. 1/1353. 12889. 12889. 114/044.18044.1848. 0152nssssSSdndddd,)1487. 01087. 1(dP第一节 总体平均数的置信区间l 成对法资料两样本观察值差数总体均数的置信区间例5.7 为了比较某种新肥料与原肥料对棉花产量的影响,选土壤和其他条件都很相似的相邻小区配成一对,其中一小区施新肥料,另一小区施原肥料作对照,共设9次重复。产量结果如上表所示。试问施用两种肥

15、料后产量之差的平均数有95%落在什么区间?)()/()(%9505. 005. 005. 005. 005. 005. 0nstdnstdPtnsdtPtttPddddd当df 918时,t0.05 2.306。将有关数值代入后,有: )4022. 1306. 222.114022. 1306. 222.11(%95dP。95%置信区间为(7.9888,14.4556 )。 区组 新肥料(x1) 134.8 145.6 136.8 132 141.6 139.2 134.4 137.8 125.2 对照(x1) 121.2 133.2 129.8 123.6 123.4 134.4 124.8

16、 122.6 113.4 差数(d) 13.6 12.4 7 8.4 18.2 4.8 9.6 15.2 11.8 4022. 19/2065. 4/2065. 46944.176944.178/5556.1415556.14122.1192nssssSSdndddd,)4556.149888. 7(dPl 两个独立样本所来自的总体均数之差的置信区间第一节 总体平均数的置信区间l 如果有两个正态总体X1 和X2 。现 从第1个总体抽取一个大小为n1的样本并算得样本平均 数 ;又独立地从第2个总体抽取一个大小为n2的样本 并算得样本平均数 。记样本平均数之差 将服从正态分布 ,其中 总体平均数)

17、,(211N),(222N1x2x21xxd),(22121xxxxN2121xx222121221nnxx总体方差l 可以将d标准化为 。) 1 , 0()()(2221212121Nnnxxul 利用此分布,可计算总体均数之差 1 2 的置信区间。l若 、 未知,但样本足够大,可以用 和 代替它们进行计算,所得的标准化离差仍可视为服从正态分布。212222s21s 只要是大样本, 不管方差是否已 知,都可用正态 分布计算。l 两个独立样本所来自的总体均数之差的置信区间第一节 总体平均数的置信区间l 两个总体方差 和 已知的情况(大小样本都行)2122例5.8 有两个品种的肉鸡,品种A八周龄

18、时的体重X1服从正态分布,平均数1未知,方差为 100 g;品种B八周龄时的体重X2服从正态分布,平均数2未知,方差为 80 g。现分别调查 n110只A鸡和 n215只B鸡,得 900 g, 850 g。问有95%的把握说,两品种肉鸡的平均体重之差 将落在什么区间?21221x2x21因为 )96. 1)()(96. 1()96. 196. 1(%952221212121nnxxPuP将数据代入得 的95%置信区间(42.3251,57.6749)。 21 大样本但总体 方差未知,也类 似处理。这里就 不必举例了。因为可以认为,于是可以将U 式改写为21221212212212111)()(

19、)()(nnxxnnxxl 两个独立样本所来自的总体均数之差的置信区间第一节 总体平均数的置信区间l 小样本、两个总体方差 和 未知但可认为 21222221 再用两个样本方差 和 的加权平均值 来代替 2进行计算,于是得到统计量 。此统计量服从dfn1n2的t分布。) 1() 1(21212nnSSSSse2121212121112)()(nnnnSSSSxxt11121nSSs12222nSSsl 利用此分布,可计算总体均数之差 1 2 的置信区间。例5.9 调查某农场每亩30万苗6块和每亩35万苗的水稻田7块,得每亩产量如表5.4所示(单位:kg)。假如两种密度下水稻产量的变异程度相同,

20、试求两种密度水稻平均亩产差异的95%置信区间。n16,n27,dfn1n211, 895, 875, , 。因此当df 11时,t 0.052.201,于是有47501SS57502SS1x2x55.954276575047502es)7161(55.9542011. 2)875895()7161(55.954201. 2)875895(%9521P)8325.578325.17(45.295201. 22045.295201. 2202121PP 此例中我们假 设两种种植密度下水稻产 量的变异程度相等。至于在 实际问题如何确认两样本所来 自的总体方差是否相等的问 题留待本章第三节和 下章第二

21、节讨论。 x1(30 万苗) 930 920 890 850 910 870 x2(35 万苗) 860 920 830 900 850 890 875 因为 ,不能合并方差,只好各算各的:用代替 ,用 代替 。于是有统计量它近似服从 t 分布,但自由度需要矫正,矫正公式为: 其中12222nSSs212211121nSSs2221212121)()(nsnsxx22212212)1 (1dfkdfkf d22121221221221212121222121121222/ )(/211snsnsnnnsnsnnsnsnsnsssskxxxl 两个独立样本所来自的总体均数之差的置信区间 根据数据

22、,可算得:当df 11时,t0.05 2.201。将有关数值代入后,于是有:8864. 0613. 01098. 5898. 58221212212snsnsnk1122.1100184. 00873. 0118)8864. 01 (1108864. 01)1 (1222212dfkdfkf d第一节 总体平均数的置信区间l 小样本、两个总体方差 和 未知但可认为 21222221l 利用此分布,可计算总体均数之差 1 2 的置信区间。例5.10 测定玉米品种A的蛋白质含量(%)10次,得n1=10, ;又测定另一玉米品种B的蛋白质含量(%)8次,得 。试求两种玉米品种蛋白质平均含量之差 的9

23、5%置信区间。98. 53 .18211sx,613. 06 .1282222sxn,21 此例中我们假 设两种蛋白质含量的变 异程度不等。至于在实际 问题如何确认两样本所来 自的总体方差是否相等的 问题留待本章第三节和 下章第二节讨论。 )508. 7892. 3 (8613. 01098. 5201. 2) 6 .123 .18(8613. 01098. 5201. 2) 6 .123 .18(%952121PP第二节 二项总体百分数的置信区间l 在上一章讨论从二项总体中抽样时指出:在n次试验中,某事件出现的次数X将服从二项分布B (n, p),并且 , 。如果改用样本百分数 X/n来表示

24、,则 , 。此外,当n很大,p(或q)接近1/2时, X/n 近似服从 N( , ),其中 , 。本节中,我们以这些抽样分布为理论基 础,通过样本资料来求总体百分数的置信区间。npxnpqp ppnpqp/p p 2 pppnpqp/l 单个二项总体百分数的置信区间第二节 二项总体百分数的置信区间l 从原理上说,应该按二项分布的函数公式计算例5.11 某品种家蚕的卵在某地区的孵化率p未知。现抽取大小为n20的样本,发现有18个卵能正常孵化。试求总体孵化率p的95%置信区间。 课本附表4提供 了二项分布百分率 的95%和99%置信区 间的上下限。l 若记样本百分率为 ,则 。p %9020/18

25、/nxp于是,所要求的置信区间应该在95%的两边。即有 因为其中的p不知道,没有办法直接用代数方法算出这个“?”。只能通过试探的方法,将不同的数字代入,算出其概率之和,直到所得的概率之和为95%为止。 ?)/?/(?)?(%95nxnXnxPpppP?)?(xxkknkknqpCxXxP本例中,n20,x18,n x2。从附表4中可以查的其95%置信区间为(68.3%,93.8%)。 l 单个二项总体百分数的置信区间第二节 二项总体百分数的置信区间l 当n 较大,p 或q不太小时,可用正态分布近似计算例5.12 在使用某种方法保存花粉一段时间后,取n100粒花粉进行试验,发现有60粒可以正常发

26、芽。试求用这种方法保存花粉,其发芽率的95%置信区间。 用正态分布近 似计算的结果与用 二项分布计算所得 已经相当接近。l 查附表4得:发芽率p的95%置信区间为(49.7%,69.7%)。 因将n100、和以及df99时的t0.051.984代入,得l 用正态近似计算:)96. 1/96. 1()96. 196. 1(%95npqppPUP)()/ (%9505. 005. 005. 005. 0nqptppnqptpPtnqppptP)6972. 05028. 0()04899. 0984. 16 . 004899. 0984. 16 . 0(pPpP因为p未知,用 代替它来估计误差,这时

27、统计量服从自由度dfn1的t分布,于是有: p l 单个二项总体百分数的置信区间第二节 二项总体百分数的置信区间l 举一个确定样本容量 n 的例子。例5.13 对于某种零件,过去质量检查的经验表明合格率 在97%左右。现要检测一批零件,要求置信度为95%, 调查误差不允许超过2%,问至少抽取多大的样本。l 为保证试验精确度,采用大样本公式进行计算,即有)96. 196. 1()96. 1/96. 1(%95npqppnpqPnpqppP或 。要达到题目的要求,应令解不等式得 ,npqpp96. 1|02. 0)1 (96. 1npp2202. 0)1 (96. 1npp28047.27902.

28、 003. 097. 096. 102. 0)1 (96. 12222ppn因此起码要抽取大小为n280的样本。 l 两个二项总体百分数之差的置信区间第二节 二项总体百分数的置信区间l 如果从一个参数为p1的二项总体中抽取一个容量为n1的样本,得样本百分数 ;又独立地从另一个参数为 p2的二项总体中抽取一个容量为n2的样本,得样本百 分数 ,则有统计量 服从N (0, 1)。 2221112121)()(nqpnqpppppu1 p2 pl 若果p1、p2未知,在估计误差时用 和 代替它们计算,则有统计量 服从dfn1n22的t分布。 2221112121)()(nqpnqpppppt1 p2

29、 pl当样本容量n较小或p很小时,应考虑连续型矫正。这时,对于具较大 值的x应减少0.5,具较小 值的x应增加0.5。p p 例如,如果 ,则统计量变成 。 222111212211)()5 . 05 . 0(nqpnqpppnxnxt21pp l 两个二项总体百分数之差的置信区间第二节 二项总体百分数的置信区间例5.14 调查低洼地小麦n1378株,发现有锈病x1355株;调查高坡地小麦n2396株,发现有锈病x2346株。试求两种地形中,锈病发病率之差的95%置信区间。设低洼地的发病率为p1,高坡地的发病率为p2。算得样本发病率 , 。本例为大样本,不用连续性矫正。因为df 3783962

30、772,t0.051.96;9392. 0378/3551p8737. 0396/3462p02073. 000042976. 03961263. 08737. 03780608. 09392. 0222111nqpnqp于是有)()(%9505.0222111212105.0tnqpnqppppptP)02073.096.10655.002073.096.10655.0(21ppP于是求得p1p2的95%置信区间为(2.49%,10.61%)。 再举一个小 样本的例子l 两个二项总体百分数之差的置信区间第二节 二项总体百分数的置信区间例5.15 用农药A处理25只美国蟑螂,结果死亡15只;用

31、另一种农药B处理24只,结果死亡9只。试求两种农药处理美国蟑螂的死亡率之差的95%置信区间。于是求得p1p2的95%置信区间为(9.57%,46.4%)。 设用农药A处理的死亡率为p1,用农药B处理时为p2。算得样本死亡率 , 。采用 t 分布和连续性矫正。因为df 2524247,t0.052.01;并且6 . 025/151p537. 024/92p1392. 0019366. 024625. 0375. 0254 . 06 . 0222111nqpnqp因为,大项的x减去0.5得 ,小项的x加上0.5得 ,两项之差为0.580.39580.1842。58.0255 .0155 .011nx3958. 0245 . 095 . 022nx于是有)1392. 001. 21842. 01392. 001. 21842. 0 (%9521ppP)464. 00957. 0(21ppPl 一个总体方差的置信区间第二节 二项总体百分数的置信区间于是求得 2的95%置信区间为(0.7074,3.7491)。 例5.16

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论