样本均数的抽样误差与置信区间_第1页
样本均数的抽样误差与置信区间_第2页
样本均数的抽样误差与置信区间_第3页
样本均数的抽样误差与置信区间_第4页
样本均数的抽样误差与置信区间_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 样本均数的抽样误差与置信区间 联系:数据/变量在离散点或区间上分布分布特征数应用样本数据x 频数分布表频数分布图描述指标()参考值范围随机变量X ,误差概率分布表概率分布图总体参数() ()置信区间3.1 样本均数的分布·从同一总体中独立抽取多份样本, 他们的均数常大小不一, 这说明样本均数存在变异。通过电脑实验来认识样本均数的变异规律一、正态总体样本均数的分布实验3.1 从正态分布总体抽样的实验 假定正常男子的红血球计数服从正态分布N(4.6602, 0.57462),随机抽取1000份样本, 每份含n5个个体。样本均数依然是一个随机变量, 且 (1) 各样本均数未必等于总

2、体均数(,误差?); (2) 样本均数之间存在差异(,变异); (3) 样本均数的分布很有规律,围绕着总体均数,中间多、两边少, 左右基本对称(对称、正态?); (4) 样本均数的变异范围较原变量变异范围大大缩小(); (5) 随着样本量的增大, 样本均数变异范围逐渐缩小()。图3.1 从正态分布总体抽样的实验结果原正态总体N(4.6602, 0.57462);直方图是样本均数的分布(Luo: 这里横坐标为,若改为便是误差分布图的形状不变)3.74.14.54.95.35.73.74.14.54.95.35.73.74.14.54.95.35.7n=5 n=10 n=30(a) (b) (c)

3、表3_2实3_1a 表3.1 从N(4.6602, 0.57462)中随机抽样, 样本量为5, 100份独立样本的均数、标准差和总体均数的95%置信区间(单位:1012 /L)样本号均数标准差95%置信区间样本号均数标准差95%置信区间15.00.56884.2939, 5.7062514.48.40063.9827, 4.977324.72.34704.2891, 5.1509524.32.54873.6388, 5.001234.24.57633.5246, 4.9554534.88.37324.4167, 5.343444.64.59493.9014, 5.3786544.68.3524

4、4.2425, 5.117554.60.40054.1028, 5.0972554.80.58664.0717, 5.528364.80.81863.7837, 5.8163564.52.35044.0850, 4.955074.68.45024.1211, 5.2389574.88.68694.0272, 5.732884.32.82253.2989, 5.3411584.80.52324.1505, 5.449594.72.59643.9796, 5.4604594.80.27944.4531, 5.1469104.40.44963.8418, 4.9582604.76.58234.037

5、1, 5.4830114.60.56833.8944, 5.3056614.76.70833.8807, 5.6394124.60.34014.1778, 5.0222624.12.57933.4008, 4.8392134.60.66483.7746, 5.4254634.72.44194.1714, 5.2686144.76.62743.9811, 5.5389644.44.28184.0902, 4.7898154.20.68863.3451, 5.0549654.921.02673.6454, 6.1947164.64.30914.2562, 5.0238664.80.71913.90

6、73, 5.6927174.96.42234.4357, 5.4843674.72.43614.1786, 5.2614184.96.40834.4532, 5.4669684.84.58734.1109, 5.5691194.68.58753.9506, 5.4094694.36.48923.7527, 4.9673204.84.53404.1771, 5.5030704.76.33534.3437, 5.1763214.92.28524.5659, 5.2741714.40.43093.8650, 4.9350224.60.45174.0392, 5.1608724.68.68803.82

7、59, 5.5341234.44.43333.9021, 4.9779734.60.43014.0661, 5.1339244.96.37114.4993, 5.4207744.48.64113.6841, 5.2759254.64.47424.0513, 5.228775*4.16.39273.6724, 4.6476264.96.53494.2959, 5.6241764.52.54873.8388, 5.2012274.48.47783.8868, 5.0732774.36.39303.8721, 4.8479284.68.38184.2061, 5.153978*5.04.20524.

8、7853, 5.2947294.68.62893.8992, 5.4608794.56.99633.3231, 5.7969305.28.64674.4771, 6.0829804.80.62434.0249, 5.5751314.84.67244.0053, 5.674781*4.00.20903.7405, 4.2595324.52.32034.1224, 4.9176824.64.34144.2162, 5.0638334.76.58414.0348, 5.4852835.04.40504.5372, 5.5428344.48.20844.2213, 4.7388844.52.53533

9、.8555, 5.1845355.04.66464.2149, 5.8651854.44.32764.0333, 4.8467364.56.39124.0743, 5.0457864.60.37974.1287, 5.0713374.68.51834.0366, 5.3234874.48.28014.1322, 4.8278384.80.74453.8758, 5.7242884.64.24734.3330, 4.9471394.72.72603.8187, 5.621389*5.32.39824.8256, 5.8144404.68.85673.6165, 5.7435904.92.3473

10、4.4888, 5.3512414.561.02413.2887, 5.8313914.72.29414.3548, 5.0852424.76.67863.9175, 5.6025924.44.42733.9096, 4.9704435.04.51764.3974, 5.6826934.48.35944.0338, 4.9262444.52.36584.0659, 4.9741944.92.44564.3668, 5.4732454.52.59443.7821, 5.2580954.64.47584.0494, 5.2306464.72.50244.0963, 5.3437964.76.851

11、63.7027, 5.8173475.12.63544.3312, 5.9088974.64.45604.0739, 5.2061484.76.58374.0354, 5.4846984.36.33683.9419, 4.778149*4.04.35953.5937, 4.4863994.56.61973.7907, 5.3293504.52.60943.7634, 5.27661004.60.45664.0331, 5.1669* 由这份样本估计的95%置信区间实际上并未复盖总体均数图3_1 表3.2 从N(4.6602, 0.57462)中随机抽取1000份独立样本, 其均数的频数分布组段

12、下限(1012 /L)频数频率(%)累积频率(%)3.60- 1 0.1 0.13.80- 5 0.5 0.64.00- 32 3.2 3.84.20-11711.715.54.40-22922.938.44.60-30430.468.84.80-21821.890.65.00- 76 7.698.25.20- 15 1.599.75.40- 3 0.3 100.0合计1000100.0·理论上可以证明, 从正态分布N(m, s2)的总体中随机抽取含量为n的样本,其样本均数N(m, s2 /n)。·样本均数的标准差习惯上又称为样本均数的标准误(standard error)

13、,简称标准误。值得注意的是如下的普遍规律:或 (3.1) ·实际应用中往往总体标准差s未知, 人们只能用样本标准差S代替s,从而获得的估计值,则有 (3.2) ·为方便计,可称为理论标准误,为样本标准误。二、非正态总体样本均数的分布实验3.2 从正偏峰的分布总体抽样的实验(1) 随着样本量的增大, 样本均数分布的对称性逐渐改善, 样本量为30时, 样本均数的分布接近正态分布; (2) 随着样本量的增大, 样本均数的变异范围逐渐变窄。1234578n=5(b)123456789n=10(c)123456789n=20(d)123456789n=30(e)图3.2 从正偏峰的分

14、布总体分布抽样实验的结果(a)是原分布,正偏峰;其它为不同样本含量时样本均数的直方图123456789(a)实验3.3 从不对称钩形分布的总体抽样的实验 图3.3(a): (1) 样本均数分布再不象个钩子, 样本量很小时就象正态分布了; (2) 随着样本量的增大, 样本均数的变异范围也逐渐变窄。·以上两项实验的结果具有普遍性。理论上可以证明, 非正态总体样本均数的分布并不是正态分布;但当样本量较大时(例如,n30), 样本均数的分布接近正态分布。图3_1123456789n=5(b)123456789n=10(c)123456789n=20(d)123456789n=30(e)图3.

15、3 从不对称钩形分布总体抽样实验的结果(a)是原分布,呈钩形;其它为不同样本含量时样本均数的直方图123456789(a)3.2 t分布一、标准正态离差和标准t离差 ·标准正态离差便服从标准正态分布, 记为(3.3) ·若s未知,用样本标准差S代替s,以代替它们不尽相同,即有变异,因而比多了一种与自由度有关的变异。于1908年用笔名Student研究了它的分布规律, 称之t分布, 记为, v=n-1(3.4) ·不妨称为标准t离差(standard t deviate)。n(读作nunju:)是t分布的自由度,不同的自由度对应于不同的t分布曲线。二、t分布的图形与

16、t分布表实验3.1(续) 标准正态离差和标准t离差 对前述实验3.1所得1000份随机样本分别计算标准正态离差和标准t离差, 并绘制相应的直方图, 如图3.4(a)和(b)所示。·本书附表5给出了t分布的双侧尾部面积和对应的t界值。对应于同样大小的尾部面积a,t界值比正态分布界值要大。-5-3-10135(a)-5-3-10135(b)图3.4 从N(4.6602,0.57462)中随机抽取1000份独立样本,n=5(a)样本均数的标准正态离差的直方图;(b)样本均数的标准t离差的直方图图3.5 标准正态分布和t分布的图形=时的t分布即标准正态分布012345-1-2-3-4-50.

17、00.10.20.30.4n=3n=1n=¥ (标准正态分布)3.3 正态分布总体均数的置信区间·95%置信区间:设N(m, s2 ), m和s未知,由t分布面积规律可知:-t0.05t0.05(3.3) ·经移项化简,可改写为(3.4) 置信程度为95%;换言之,这样估计100次,约有95次正确。·应用公式为(, ),或(3.5) ·(1-a)置信区间:(, )(3.6) ·可称为置信区间的精度,它等于置信区间宽度的一半,意指置信区间的两端点离样本均数有多远。表3_1 实验3.1(续) 置信区间与置信水平 对于前述从正态总体随机抽取

18、的每一份样本均可按(3.5)式各计算总体均数的一个95%置信区间。表3.1的第4列给出了由前100份样本作出的的95%置信区间。不难发现, 多数区间(95个)覆盖了总体均数4.6602, 但第49, 75, 78, 81和89号这5个样本算出的区间却“扑空”了,即这样的区间估计95%正确,5%错误。换言之,当我们依据一个样本均数,对总体均数只作一次区间估计时,其置信度为95%。例3.1 从某类患者中随机抽取20例, 其血沉(mm/h)的均数为9.15, 标准差为2.13。假定该类患者的血沉值服从正态分布, 试估计总体均数的95%置信区间和99%置信区间。解 =9.15, s=2.13, n=2

19、0, =10.15和8.15 =10.51和7.78·置信水平由95%提高到99%, 置信区间便由窄变宽, 估计的精度下降。若既要提高置信水平, 又要估计的精度好, 就必须缩小s或加大n。s反映客观存在的个体差异, 通常无法缩小, 但加大样本量是行之有效的办法。3.4 两正态总体均数之差的置信区间·设有标准差相等而均数不等的两个正态总体N(m1, s2)和N(m2, s2),均未知。·N(m1,s2/n1), N(m2, s2/n2),仍服从正态分布()N(m1-m2, s2(1/n1 +1/n2 )(3.7)()N(m1-m2, )(3.7) ·的标准

20、正态离差服从标准正态分布, 即 N(0, 1)(3.8) N(0, 1)(3.8) Luo: 如果m1=m2,N(0, 1)(假设检验)·现s2未知,服从t分布。即的标准t离差 t分布,v=n1+n2(3.9) t分布,v=n1+n2(3.9) 其中, Sc2称为两样本的合并方差:Sc2 =(3.10) Sc2的自由度为S12和S22的自由度之和, (n1 -1)+(n2 -1)= n1+n2-2, 因而, t分布的自由度也是n1n22。·以下公式不讲解了:t0.05 t0.05(3.11)(3.12)(-)-t0.05,(-)+t0.05)(3.13)( ),( )+)(

21、3.14)例3.2 某地随机抽取40岁正常男子20名和40岁正常女子15名, 测定红细胞计数, 男女样本均数和样本标准差分别为 =4.66, s1 =0.47和=4.18, s2 =0.45, 试计算40岁正常男女红细胞计数总体均数之差的95%置信区间。(单位: 1012 /L)解 例3.3 假定某地健康成年男女的红细胞计数(1012 /L)分别服从均数不等、标准差相等的二个正态分布。现有男女各一份随机样本, 样本量n1=300, n2=250, 均数和标准差分别为 =4.66, s1 =0.47和 =4.18, s2 =0.39。试估计男女红细胞计数的总体均数之差的95%置信区间。解 3.5 二项分布总体概率以及概率之差的置信区间1. 二项分布总体概率的置信区间 ·大样本时,利用P近似地服从正态分布的性质进行估计。(3.1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论