抽样误差与区间估计_第1页
抽样误差与区间估计_第2页
抽样误差与区间估计_第3页
抽样误差与区间估计_第4页
抽样误差与区间估计_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 抽样误差与区间估计(中大.公卫学院.医学统计与流行病学系.骆福添第一节 均数的抽样误差·统计推断:用样本的信息去推断总体特征的方法称为统计推断(statistical inference)。·抽样误差(sampling error):样本指标与总体指标(参数)的差别要点:由个体变异引起的、不可避免的、有规律性的·抽样实验:表4-1,图4-1表4-1 从总体N(4.83, 0.522)中抽出100个样本(n=10)的、S、t值与的95%的可信区间 tCI样本号St值95%CI样本号St值95%CI14.580.38-2.014.3

2、14.85515.240.642.074.785.7024.900.450.594.585.22524.890.660.324.425.3634.760.49-0.394.415.11534.830.400.054.545.1144.660.49-1.004.315.02544.850.400.204.565.1354.900.390.624.625.17554.890.590.374.475.3164.920.301.054.715.13565.030.501.324.675.3974.630.43-1.374.324.94574.940.730.514.415.4684.960.650.6

3、64.495.42584.680.34-1.264.444.9394.830.450.054.505.15594.520.49-1.954.174.87104.540.67-1.324.065.02604.860.350.394.615.12114.900.500.494.545.26614.780.57-0.214.385.19124.880.700.264.385.38625.000.730.764.475.52135.040.441.544.725.35635.160.462.344.835.48144.700.59-0.664.275.12644.830.860.024.215.441

4、54.760.37-0.554.495.02654.990.461.164.665.31164.820.34-0.044.575.06664.430.59-2.064.014.86174.970.470.994.635.30674.850.520.184.485.22184.990.441.244.685.31685.110.671.374.635.59195.090.521.634.725.46695.150.522.004.785.53204.910.360.794.655.17704.500.81-1.233.925.08214.970.461.034.645.30715.110.432

5、.124.805.42224.650.68-0.814.165.13725.170.462.434.845.50234.780.60-0.234.345.21734.830.520.084.465.20244.850.580.154.435.27744.770.46-0.374.445.09254.780.55-0.224.395.17754.790.65-0.144.335.26264.880.460.394.555.20765.050.481.524.715.40274.770.41-0.354.485.06775.000.580.974.585.42284.720.42-0.764.41

6、5.02784.780.38-0.354.505.05294.920.520.614.555.30794.770.51-0.314.415.13304.820.340.034.585.07804.470.44-2.504.154.79314.650.48-1.144.304.99814.890.670.324.415.37324.770.23-0.654.614.94824.790.51-0.174.435.15334.560.52-1.604.194.93834.820.430.004.515.13344.890.590.404.475.32844.290.65-2.573.824.7635

7、4.810.43-0.074.515.11854.710.42-0.854.415.01364.710.29-1.224.504.91864.940.560.704.545.34374.680.61-0.724.245.12874.410.50-2.574.064.77384.920.540.574.535.30884.970.431.124.665.28395.010.571.034.605.42894.920.330.934.685.15404.950.620.664.515.39904.900.680.394.425.39414.900.500.504.545.26915.000.491

8、.164.655.35424.870.670.254.395.35924.680.72-0.594.175.20434.950.640.674.505.41935.090.701.224.595.59444.850.510.224.495.22944.620.52-1.184.255.00454.970.281.634.765.17954.640.44-1.314.324.95464.900.550.464.515.30964.750.39-0.534.475.04474.530.54-1.694.154.92974.630.64-0.924.175.09484.720.56-0.554.32

9、5.13984.930.231.494.765.09494.630.73-0.824.115.15994.870.590.284.455.30504.700.53-0.694.325.081004.790.39-0.224.515.07tCI样本均数图4-1 100个样本均数的直方图频数·抽样实验结果提示:(1)样本均数以为中心呈正态分布 ,误差服从正态分布 (2)离样本均数的散程度为 ·标准误(standard error):度量抽样误差大小的指标(统计量),其实质是样本指标的变异程度,(联系抽样实验:样本均数的标准差称为样本均数的标准误)可推导出计算公式为:(4-1)

10、此公式几乎不实用,不妨称之为理论标准误用样本S代替s,得样本标准误为:(4-2) ·标准误意义:(1)标准误小表示样本均数可靠性越大(2)样本均数结合标准误,对总体作统计推断(后述)例4-1随机抽取某地200名成年男性的红细胞数均数为4.95×1012/L,标准差为0.57×1012/L,估计其抽样误差。 (1012/L)所以该样本的抽样误差为0.04×1012/L。第二节 均数的抽样误差的分布t分布·标准化变换:·标准化值的分布:(1)已知总体标准差s时,服从标准正态分布 ,标准化的误差服从标准正态分布 (2)未知总体标准差s时,服

11、从t分布(3)大样本时,近似服从标准正态分布·t分布:, (4-3) 为自由度(degree of freedom),每个自由度都对应一条分布曲线¥(标准正态分布)5图4-2不同自由度下t分布·t分布的特征:以0为中心,左右对称的单峰分布;(外观:)t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近u分布(标准正态分布);(参数:+n)当趋于时,t分布即为u分布。(面积:尾巴较大、界值较大)·t分布界值表(Page406)双侧t0.10(30) 单侧t0.05(30) 1.679 第

12、三节 总体均数的可信区间估计·点估计:估计总体参数在某一点上,如·区间估计:估计总体参数在某一范围内,如·可信度/置信度/把握度:区间估计时,估计正确的概率约定a错误概率,则可信度为(1a) t4_1常用可信度为95%,99%;往后仅以95%可信度为例一、s未知且n较小:按t分布的原理用式(4-4)估计可信区间(4-4) 或写成 t4_1例4-2由随机抽查某地30名20岁男大学生身高均数资料得,=172.01cm,S=4.20cm,试估计该地20岁男大学生身高总体均数的95可信区间。本例n=30,则29,查附表2,t界值表,双侧t0.05(29)=2.045,按式

13、(4-4)计算:所以该地20岁男大学生身高均数的95可信区间为170.42cm173.60cm。二、s未知但n足够大: 这时t分布近似服从标准正态分布(4-5) 例4-3根据例4-1资料,估计该地正常成年男子红细胞数的总体均数的95%可信区间。本例n=200, 4.95, =0.57, 双侧1.96,本资料的n较大,所以可按式(4-5)计算:该地正常成年男性红细胞数的总体均数的95可信区间为4.87 ×1012/L5.03×1012/L。三、s已知(不论样本大小):按正态分布原理(4-6) ·正确与精确问题:区间越大,可信度越大正确率越高,精确度越小区间越小,可信

14、度越小正确率越低,精确度越大第四节 方差的抽样误差与可信区间估计(略)是正态总体的一个样本,样本方差为,则并且分布与无关,故有P(<)=1-由此得,当总体的参数都为未知时,方差的100(1)可信区间为 (4-7) 例4-4随机抽查了某地区80名血吸虫病人,测得血红蛋白均数为95g/L,标准差为15g/L,试估计总体方差。本例n=80,=225,若求总体方差95可信区间, 查界值表得,按式(4-7)得故该地区血吸虫感染者的血红蛋白的总体方差的点估计值为225g/L,95%区间估计值为166.70311.02g/L。第五节 率的抽样误差与可信区间估计·大样本才计算率·率的

15、可信区间用正态近似法一、率的抽样误差率的抽样误差可用率的标准误来表示·理论公式:(4-8) 式中为率的标准误,为总体率,n为样本例数。总体率在·应用公式:(4-9) 例4-5如抽样调查某地4060岁的成年男性高血压患病得P=0.1410,n=780,估计抽样误差。根据式(4-9),求得标准误为 ·率的标准误意义:类似均数标准误的意义二、总体率的可信区间估计1.查表法:n£50,且P接近0或1的资料例4-6某新药的毒理研究中,用20只小白鼠作急性毒性实验,死亡3只,估计该药急性致死率的95%可信区间。解:从附表7查得,在n=20与X=3纵列交叉处的数值为3

16、38,即该药急性致死率的95%的可信区间为3%38%。注意附表7中的X值只列出了部分,当,应以值查表,求总体阴性率的可信区间,然后用1减去阴性率可信区间,即得阳性率的可信区间。如要估计例4-6资料的生存率的95%可信区间,就不能从附表7中直接查得,应先按例4-6求出急性致死率的95%可信区间,然后计算(1-38%,1-3%)=(62%,97%),即该药急性毒性实验的生存率95可信区间为62%97%。2.正态近似法当n足够大,且nP和n(1-P)均大于5时(,)(4-10) 例4-7 例4-5资料,估计该地4060岁成年男性高血压病患病率。可信区间计算如下:(0.1410-1.96´0

17、.0125,0.14101.96´0.0125)(0.1165,0.1655)所以,该地区4060岁成年男性高血压患病率的95可信区间为11.6516.55。 联系:数据/变量分布的概况分布的特征数分布的应用样本数据x 频数分布表频数分布图 描述指标(,Sx)参考范围 随机变量X ,误差-m概率分布表概率分布图 总体参数() ()置信区间 m:假设检验 P(Z³k|m=m0)=?· H0:m=m0· P值是样本信息支持H0的概率· P(Z³k|m=m0)= 在H0: m=m0条件下,误差不小于当前统计量值k的概率 例如,单侧:P(Z³1.96|m=m0)=0.025,双侧:P(|Z|³1.96|m=m0) =0.05假设检验注意事项要点:(1)可比性:病情是干扰(混杂)因素,例如A组轻病人多B组重病人多,无可比性(2)P小差别大: ·“差别大or疗效大”即离差(|)大 · “”

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论