医学统计学抽样误差均数估计(共90页).ppt_第1页
医学统计学抽样误差均数估计(共90页).ppt_第2页
医学统计学抽样误差均数估计(共90页).ppt_第3页
医学统计学抽样误差均数估计(共90页).ppt_第4页
医学统计学抽样误差均数估计(共90页).ppt_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样误差、参数估计抽样误差、参数估计Sampling error and Parameter estimation易洪刚易洪刚Department of Epidemiology & Biostatistics, School of Public Health Nanjing Medical University主要内容主要内容n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n 2 分布分布nF分布分布 n参数估计参数估计1. 抽样误差抽样误差 Sampling error n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计了解抽

2、样误差的重要性了解抽样误差的重要性总体同质、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风 险抽样误差抽样误差nsampling error,sampling variabilityn 由抽样引起的样本统计量与总体参数间的由抽样引起的样本统计量与总体参数间的差别。差别。n 原因:个体变异抽样原因:个体变异抽样n 表现:表现:样本统计量与总体参数间的差别样本统计量与总体参数间的差别不同样本统计量间的差别不同样本统计量间的差别n 抽样误差是不可避免的!抽样误差是不可避免的!n 抽样误差是有规律的!抽样误差是有规律的! n假设一个已知总体,从该总体中抽样,对每假设一个已知总

3、体,从该总体中抽样,对每个样本计算样本统计量个样本计算样本统计量(均数、方差等均数、方差等),观察,观察样本统计量的分布规律样本统计量的分布规律抽样分布规律。抽样分布规律。q正态分布总体正态分布总体q偏三角分布总体偏三角分布总体q均匀分布总体均匀分布总体q指数分布总体指数分布总体q双峰分布总体双峰分布总体均数的模拟试验均数的模拟试验均数的模拟试验均数的模拟试验n考察考察:q样本均数的均数样本均数的均数与与总体均数总体均数有何关系?有何关系?q样本均数的标准差样本均数的标准差与与总体标准差总体标准差有何关系?有何关系?q样本均数的分布样本均数的分布形状如何?形状如何?q不同的样本含量对上述性质的

4、影响如何?不同的样本含量对上述性质的影响如何?抽样分布规律抽样分布规律 = 5.0 = 0.5样本含量样本含量n =10抽样次数抽样次数m =100 =5.19 S =0.42x =5.04 S = 0.44x红细胞计数 =5.03 S =0.52xFractionx2.5 2.8 3.1 3.4 3.744.3 4.6 4.9 5.2 5.5 5.8 6.1 6.4 6.777.3 7.6 7.90.1.2.3图图 正态分布正态分布N(5.00,0.502)总体分布总体分布表表4、1 N(5.00,0.502)总总体体中中11个个随随机机样样本本的的数数据据(n=10)结论结论 1n各样本均

5、数未必等于总体均数;各样本均数未必等于总体均数;n样本均数间存在差异;样本均数间存在差异; 由抽样实验所得的由抽样实验所得的100个样本作出其均数个样本作出其均数 分分布直方图如图布直方图如图4.1。曲线是对抽样得到的。曲线是对抽样得到的100个个 数据拟合的分布曲线。数据拟合的分布曲线。 XFraction2.5 2.8 3.1 3.4 3.744.3 4.6 4.9 5.2 5.5 5.8 6.1 6.4 6.777.3 7.6 7.90.1.2.3.4.5.6.7.8.91图图 从正态分布从正态分布N(5.00,0.502)总体中抽样)总体中抽样样本均数的分布样本均数的分布 x图图 从正

6、态分布从正态分布N(5.00,0.502)总体中抽样)总体中抽样样本均数的分布样本均数的分布 Fraction4.14.44.755.35.65.90.1.2.3.4.5x结论结论2n 的分布很有规律,围绕着的分布很有规律,围绕着 ,中间多,两,中间多,两边少,左右基本对称边少,左右基本对称; ;n样本均数的变异范围较之原变量的变异范围样本均数的变异范围较之原变量的变异范围大大缩小;大大缩小;X2.中心极限定理中心极限定理 central limit theorem n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计中心极限定理中心极限定理(central

7、limit theorem) (一)(一)从均数为从均数为 、标准差为标准差为 的正态总体中,的正态总体中,独立随机抽取例数为独立随机抽取例数为n n的样本,样本均数的样本,样本均数 的分布服从正态分布;的分布服从正态分布;样本均数样本均数的均数为的均数为 ; ;样本均数样本均数的的标准差为标准差为 。X xn 中心极限定理中心极限定理 (二)(二)从非正态从非正态(nonnormal)分布总体分布总体(均数为均数为,方差为方差为)中随机抽样中随机抽样(每个样本的含量为每个样本的含量为n),可,可得无限多个样本,每个样本计算样本均数,则得无限多个样本,每个样本计算样本均数,则只要样本含量足够大

8、只要样本含量足够大(n50),样本均数也近似服样本均数也近似服从正态分布。从正态分布。样本均数样本均数的均数为的均数为 ;样本均数样本均数的标准差为的标准差为 。 xn 3.标准误标准误 standard error n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计标准误标准误(standard error)n样本统计量的标准差称为标准误。样本统计量的标准差称为标准误。样本均数的样本均数的标准标准差差称为均数的标准误。称为均数的标准误。n均数的标准误表示均数的标准误表示样本均数的变异度样本均数的变异度。n当总体标准差未知时,用样本方差代替,当总体标准差未知

9、时,用样本方差代替,n前者称为理论标准误,后者称为样本标准误。前者称为理论标准误,后者称为样本标准误。 xn xssn与样本含量的关系与样本含量的关系nn 越大,越大,均数的均数均数的均数就越接近总体均数;就越接近总体均数;nn 越大,变异越小,分布越窄;越大,变异越小,分布越窄;n对称分布接近正态分布的速度,大于非对称对称分布接近正态分布的速度,大于非对称分布。分布越偏,接近正态分布所需样本含分布。分布越偏,接近正态分布所需样本含量就越大。量就越大。与标准差的关系与标准差的关系1、意义上、意义上n标准差描述个体值之间的变异,即观察值间的离散程度;标准差描述个体值之间的变异,即观察值间的离散程

10、度;n而标准误是描述统计量的抽样误差,即样本统计量和总体而标准误是描述统计量的抽样误差,即样本统计量和总体参数的接近程度;参数的接近程度;2、用途上、用途上n标准差常用于表现观察值的波动范围;标准差常用于表现观察值的波动范围;n标准误常表示抽样误差的大小,估计总体参数可信区间。标准误常表示抽样误差的大小,估计总体参数可信区间。3、与样本含量、与样本含量n标准差是随着样本含量的增多,逐渐趋于稳定。标准差是随着样本含量的增多,逐渐趋于稳定。n标准误是随着样本含量的增多,逐渐减少。标准误是随着样本含量的增多,逐渐减少。区别区别与标准差的关系与标准差的关系n首先,标准差和标准误都是变异指标,说明个体首

11、先,标准差和标准误都是变异指标,说明个体之间的变异用标准差,说明统计量之间的变异用之间的变异用标准差,说明统计量之间的变异用标准误。标准误。n其次,当样本含量不变时,标准差大,标准误亦其次,当样本含量不变时,标准差大,标准误亦越大,均数的标准误与标准差成正比。越大,均数的标准误与标准差成正比。联系联系4. t分布分布 t-distribution n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计正态分布的标准化变化正态分布的标准化变化n若若 X N(,) , 则则 。 (0,1)XN n因因 ,则则 。 (0,1)XXuN XXN( ,) 从正态分布总体中

12、1000次抽样的 u 值的分布(n=4)Fractionu-4-3-2-1012340.05.1.15.2均数为 0.007559标准差为 1.006294 t 分布的概念分布的概念n实际工作中,总体方差未知。所以,用样本实际工作中,总体方差未知。所以,用样本方差代替总体方差,方差代替总体方差,n此时此时 的分布如何?的分布如何?XXs 从正态分布总体中1000次抽样的 值的分布(n=4)Fractiont-8-6-4-2024680.05.1.15.2.25.3.35均数为 0.05696标准差为 1.55827 XXs t 分布的概念分布的概念n用样本方差代替总体方差,此时用样本方差代替总

13、体方差,此时不服从正态分布不服从正态分布。 XXs n1908年,年, (1876-1937)以笔名以笔名Student发表了著发表了著名的名的t分布,证明了:分布,证明了:n设从正态分布设从正态分布N( , 2)中随机抽取含量为中随机抽取含量为n的样本,的样本,样本均数和标准差分别为样本均数和标准差分别为 和和s,设:,设:XXXts则则t值服从自由度为值服从自由度为n-1的的t分布分布(t-distribution)。t 分布的概念分布的概念(1)nXXtts 记为:记为:图图 自由度分别为自由度分别为1、5、时的时的t分布分布t分布图形分布图形 f(t) =(标准正态曲线标准正态曲线)

14、=5 =10.10.2-4-3-2-1012340.3t分布的特征分布的特征nt分布是一簇曲线,当分布是一簇曲线,当不同时,曲线形状不同;不同时,曲线形状不同;n单峰分布,以单峰分布,以0为中心,左右对称;为中心,左右对称;n当当逼近逼近时,时,t分布逼近分布逼近u分布分布,故标准正态分布故标准正态分布是是t分布的特例分布的特例;nt分布曲线下面积是有规律的。分布曲线下面积是有规律的。请看演示请看演示t 分布分布t界值表界值表n表上阴影部分,表示表上阴影部分,表示t , 以外的尾部面积占总面积百分数,即以外的尾部面积占总面积百分数,即概率概率P。n表中数据表示表中数据表示 与与 确定时相应的确

15、定时相应的t界值(界值(critical value),常记为),常记为t , 。-t0t抽样抽样总体总体样本样本t1t2t3t4tn-3tn-2tn-1tn统计量统计量分布分布t分布表明,从正态分布总体中随机抽取的样本,由分布表明,从正态分布总体中随机抽取的样本,由样本计算的样本计算的t值接近值接近0的可能性较大,远离的可能性较大,远离0的可能性的可能性较小。较小。 XXtsn例如,当例如,当 =10,单尾概率,单尾概率 =0.05时,查表时,查表得单尾得单尾t0.05,10=1.812,则:,则:nP(t-1.812)=0.05n或或P(t1.812)=0.05表明:表明:按按t分布的规律

16、,从正态分布总体中抽取样本含分布的规律,从正态分布总体中抽取样本含量为量为n=11的样本,则由该样本计算的的样本,则由该样本计算的t值大于等于值大于等于1.812的的概率为概率为0.05,或者小于等于,或者小于等于-1.812的概率亦为的概率亦为0.05。-1.81200.050.051.812例如,当例如,当 =10,双尾概率,双尾概率 =0.05时,查表得时,查表得双尾双尾t0.05,102.228,则:,则: P(t-2.228)+P(t2.228)0.05或:或:P(-2.228t2.228)=1-0.05=0.95。表明:表明:按按t分布的规律,从正态分布总体中抽取样本含分布的规律,

17、从正态分布总体中抽取样本含量为量为n=11的样本,则由该样本计算的的样本,则由该样本计算的t值大于等于值大于等于2.228的概率为的概率为0.025,小于等于,小于等于-2.228的概率亦为的概率亦为0.025。-2.22800.0250.0252.228n单尾:单尾:P(t- t , )= ,或,或P(tt , )= n双尾:双尾:P(t- t /2, )+P(tt /2, )= , 即即P(-t /2, t t /2, )=1- -t0tt分布曲线下面积规律分布曲线下面积规律5. 2分布分布 chi-distribution n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布

18、分布n参数估计参数估计 2 分布分布 n设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设:n2值服从自由度为n-1的2分布(2-distribution) 222) 1(sn X=4=3=520246810120.00.10.20.30.40.5f(2)=1=2=6 2 分布 请看演示请看演示 2 2 分布分布2分布的特征 n(1) 2分布为一簇单峰正偏态分布曲线 ;随的逐渐加大,分布趋于对称。n(2) 自由度为的2分布,其均数为,方差为2。n(3) 自由度为的2分布实际上是个标准正态分布变量之平方和。 2=u12+ u22+ uv2 3.840.050.025

19、0.0251.96-1.962分布与正态分布的关系n(4) 每一自由度下的2分布曲线都有其自身分布规律。自由度为自由度为1的的 2分布界值分布界值0.00.10.20.30.40.53.840.05n2分布是方差的抽样分布。 n2分布说明,从正态分布的总体中随机抽样,所得样本的方差s2接近于总体方差2的可能性大,远离总体方差的可能性小。n即2值接近其均数n-1的可能性大,远离n-1的可能性小。2分布的特征 n自由度10时,20.025,1020.48,20.975,103.25。n从正态分布的总体中随机抽样,得到的样本其2值大于等于20.48的概率为0.025,小于等于3.25的概率亦为0.0

20、25。nP( 23.25)+P( 220.48)0.05 2分布的特征 n2分布近似描述具有某种属性的实际频数Ai与理论频数Ti之间的抽样误差 iiiTTA22)(6. F分布分布 F-distribution n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计F分布分布 n设从两个方差相等的正态分布设从两个方差相等的正态分布N( 1, 2)和和N( 2, 2)总体中随机抽取含量分别为总体中随机抽取含量分别为n1和和n2的的样本,样本均数和标准差分别为样本,样本均数和标准差分别为 、s1和和 和和s2。设:设:n则则F值服从自由度为值服从自由度为(n1-1,

21、n2-1)的的F分布分布(F-distribution)。 1X2X2221ssF F分布的特征 n(1) F分布为一簇单峰正偏态分布曲线,与两个自由分布为一簇单峰正偏态分布曲线,与两个自由度有关。度有关。 n(2) 若若F服从自由度为服从自由度为( 1, 2)的的F分布,则其倒数分布,则其倒数1/F服服从自由度为从自由度为( 2, 1)的的F分布。分布。n(3) 自由度为自由度为( 1, 2)的的F分布,其均数为分布,其均数为 2/( 2-2),与,与第一自由度无关。第一自由度无关。n(4) 第一自由度第一自由度 11时,时,F分布实际上是分布实际上是t分布之平方;分布之平方;第二自由度第二

22、自由度 2时,时,F分布实际上等于分布实际上等于 2分布。分布。 请看演示请看演示F分布分布n(5) 每一对自由度下的每一对自由度下的F分布曲线下的面积分分布曲线下的面积分布规律。布规律。 PFF分布的特征分布的特征 nF分布表明,从两个方差相等的正态分布总体分布表明,从两个方差相等的正态分布总体中随机抽取含量分别为中随机抽取含量分别为n1和和n2的样本,计算所的样本,计算所得得F值,应接近值,应接近v2/(v2-2)。nF(0.05;20,20)= 2.12表示,从方差相等的正态分布表示,从方差相等的正态分布总体中随机抽取总体中随机抽取n1=n2=21的样本,则由两样的样本,则由两样本计算的

23、本计算的F值大于等于值大于等于2.12的可能性为的可能性为0.025,而小于而小于1/2.12=0.4717的可能性亦为的可能性亦为0.025。 F分布的特征 F分布的特征 样本统计量的抽样分布样本统计量的抽样分布任何一个样本统计量均有其分布规律。任何一个样本统计量均有其分布规律。从正态分布总体中抽样:从正态分布总体中抽样:n均数的抽样分布为正态分布;均数的抽样分布为正态分布;n样本方差的分布服从样本方差的分布服从 2分布;分布;n样本方差之比服从样本方差之比服从F分布;分布;nt 值服从值服从 t 分布;分布;n7.参数估计参数估计 Parameter estimation n抽样误差抽样误

24、差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计1 ) 统计推断的思路统计推断的思路总体总体个体、个体变异个体、个体变异总体参数总体参数未知未知样本样本代表性、抽样误差代表性、抽样误差随机随机抽样抽样样本统计量样本统计量已知已知统计统计 推断推断风风 险险2) 统计推断统计推断(statistical inference)n总体参数的估计总体参数的估计(parameter estimation)n假设检验假设检验(hypothesis test)3) 参数的估计参数的估计n点估计点估计 (point estimation)n区间估计区间估计(interval estima

25、tion)按一定的概率或可信度按一定的概率或可信度(1- )用一个区间估计总体参数用一个区间估计总体参数所在范围。这个范围称作可信度为所在范围。这个范围称作可信度为1- 的可信区间的可信区间(confidence interval, CI),又称置信区间。,又称置信区间。【例【例4.1】随机抽取】随机抽取12名口腔癌患者,检测其发名口腔癌患者,检测其发锌含量,得锌含量,得 =253.05 g/g =27.18 g/g 求发锌含量总体均数求发锌含量总体均数95的可信区间。的可信区间。XXs4)例题:例题:发锌含量t 值的分布值的分布n理论基础:理论基础:t值的抽样分布值的抽样分布-2.201 0

26、 2.201v11( 2.2012.201)0.95Pt 0.0250.025区间估计:区间估计:253.05( 2.2012.201)0.9527.18P ( 2.201 27.18253.052.201 27.18)0.95P (253.05 2.201 27.18253.052.201 27.18)0.95P (193.23321.87)0.95P ( 2.2012.201)0.95Pt 可信区间可信区间(confidence interval):n区间区间193.23321.87( g/g)包含了总体均数,包含了总体均数,其可信度其可信度(confidence level)为为95%。

27、n结论:口腔癌患者发锌含量总体均数为结论:口腔癌患者发锌含量总体均数为193.23321.87( g/g)(可信度为可信度为95%)。n或:口腔癌患者发锌含量总体均数的或:口腔癌患者发锌含量总体均数的95可可信区间为:信区间为: 193.23321.87( g/g)。5)均数的均数的(1- )100%可信区间可信区间构建方法构建方法,()1Pttt -t, v 0 t, v 1- /2 /2,()P tt 1)(,tttP1)(,XXstXstXPXsXt5)均数的均数的(1- )100%可信区间可信区间构建方法构建方法5)均数的均数的(1- )100%可信区间可信区间构建方法构建方法n均数的

28、均数的(1- )100%的可信区间:的可信区间:n可信限可信限(confidence limit):,vXXts ,(, )vvXXXtsXts样本含量较大时,样本含量较大时,u 值的分布值的分布:0-u u /2 /21- ()=1-Puuu 样本含量较大时,均数样本含量较大时,均数(1- )100%的可信区间:的可信区间:( )=1-XXP XusXus ()=1-Puuu ()=1-XXPuus 此时,均数的此时,均数的(1-(1- )100%)100%的可信区间:的可信区间:(, )XXXusXus 6 )均数之差的均数之差的(1- )100%可信区间可信区间例例4.3 转铁蛋白含量(

29、转铁蛋白含量(page41)n正常人:正常人:n1=12,n病人:病人:n2=15,问题:两组平均相差多少?问题:两组平均相差多少?12271.89, 10.38235.21, 14.39XsXs 问题: 正常组 病人组 2?均 数: 235.21ug/dl标准差: 14.39ug/dl 1?均 数: 271.89ug/dl标准差: 10.28ug/dl 1- 2 ?1236.68XX与均数之差有关的抽样分布与均数之差有关的抽样分布 “均数之差均数之差”与与“均数之差的标准误均数之差的标准误”之比,之比,服从自由度服从自由度 = n1+n2 -2的的 t 分布。分布。样本含量较大时,服从标准正

30、态分布。样本含量较大时,服从标准正态分布。1212122 nnXXXXtts 1212 (0,1)XXXXtNs 合并方差与均数之差的标准误合并方差与均数之差的标准误n合并方差合并方差(方差的加权平均方差的加权平均)n均数之差的标准误均数之差的标准误222112212(1)(1)2Cnsnssnn 1221211()CXXssnn 21212121)2( ,21)2( ,21 XXnnXXnnstXXstXX,根据1)(,tttP可得1-2的可信区间:计算:则合并方差为:自由度为自由度为 =n1+n2-2=12+15-2=25、 0.05的的t界值为:界值为:t0.05,25=2.060 ,则

31、两组均数之差的,则两组均数之差的95可信区间为:可信区间为:(271.89235.21 ) 2.060 4.95 = 26.48 46.883679.1632151239.141438.1011222cs95. 41511213679.1631121221nnsscXX结论结论:n病毒性肝炎患者的血清转铁蛋白含量较正常病毒性肝炎患者的血清转铁蛋白含量较正常人平均低人平均低36.68( g/dl),其,其95可信区间为可信区间为26.4846.88( g/dl)。 可信区间可信区间n均数均数n率率n事件数事件数n方差方差7) 可信区间的两个要素可信区间的两个要素n可信度可信度(1- ), 可靠性

32、可靠性q一般取一般取90%,95%。q可人为控制。可人为控制。n精确性精确性q是指区间的大小是指区间的大小(或长短或长短)n兼顾可靠性、精确性兼顾可靠性、精确性影响可信区间大小的因素影响可信区间大小的因素,1,1(, )nnssXtXtnnn可信度q可信度越大,区间越宽可信度越大,区间越宽n个体变异q变异越大,区间越宽变异越大,区间越宽n样本含量q样本含量越大,区间越窄样本含量越大,区间越窄8 ) 正确理解可信区间:正确理解可信区间:n可信度为可信度为95%的的CI的涵义:的涵义:q每每100个样本,按同样方法计算个样本,按同样方法计算95%的的CI,平均有平均有95%的的CI包含了总体参数。包含了总体参数。n这里的这里的95%,指的是方法本身!而不是某个,指的是方法本身!而不是某个区间!区间!

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论