版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、医学统计学抽样误差均数估计医学统计学抽样误差均数估计主要内容抽样误差中心极限定理标准误分布 2 分布F分布 参数估计2医学统计学抽样误差均数估计主要内容抽样误差2医学统计学抽样误差均数估计1. 抽样误差 Sampling error 抽样误差中心极限定理标准误分布参数估计3医学统计学抽样误差均数估计1. 抽样误差 Sampling error 抽了解抽样误差的重要性总体同质、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风 险4医学统计学抽样误差均数估计了解抽样误差的重要性总体总体参数样本随机样本统计量已知统计推抽样误差sampling error,sampling v
2、ariability 由抽样引起的样本统计量与总体参数间的差别。 原因:个体变异抽样 表现:样本统计量与总体参数间的差别不同样本统计量间的差别 抽样误差是不可避免的! 抽样误差是有规律的! 5医学统计学抽样误差均数估计抽样误差sampling error,sampling va假设一个已知总体,从该总体中抽样,对每个样本计算样本统计量(均数、方差等),观察样本统计量的分布规律抽样分布规律。正态分布总体偏三角分布总体均匀分布总体指数分布总体双峰分布总体均数的模拟试验6医学统计学抽样误差均数估计假设一个已知总体,从该总体中抽样,对每个样本计算样本统计量(均数的模拟试验考察:样本均数的均数与总体均数
3、有何关系?样本均数的标准差与总体标准差有何关系?样本均数的分布形状如何?不同的样本含量对上述性质的影响如何? 昆明治疗羊角风/ 昆明军海癫痫病医院/ 昆明治疗羊角风/ 昆明癫痫病专科医院/7医学统计学抽样误差均数估计均数的模拟试验考察:7医学统计学抽样误差均数估计抽样分布规律 = 5.0 = 0.5样本含量n =10抽样次数m =100 =5.19 S =0.42 =5.04 S = 0.44红细胞计数 =5.03 S =0.528医学统计学抽样误差均数估计抽样分布规律 = 5.0样本含量n =10 =5.1Fractionx2.52.83.13.43.744.34.64.95.25.55.8
4、6.16.46.777.37.67.90.1.2.3图 正态分布N(5.00,0.502)总体分布9医学统计学抽样误差均数估计Fractionx3.43.744.34.表4、1 N(5.00,0.502)总体中11个随机样本的数据(n=10)10医学统计学抽样误差均数估计表4、1 N(5.00,0.502)总体中11个随机样本的11医学统计学抽样误差均数估计11医学统计学抽样误差均数估计12医学统计学抽样误差均数估计12医学统计学抽样误差均数估计结论 1各样本均数未必等于总体均数;样本均数间存在差异;13医学统计学抽样误差均数估计结论 1各样本均数未必等于总体均数;13医学统计学抽样误差均 由
5、抽样实验所得的100个样本作出其均数 分布直方图如图4.1。曲线是对抽样得到的100个 数据拟合的分布曲线。 14医学统计学抽样误差均数估计 由抽样实验所得的100个样本作出其均数 分布直方图如Fraction2.52.83.13.43.744.34.64.95.25.55.86.16.46.777.37.67.90.1.2.3.4.5.6.7.8.91图 从正态分布N(5.00,0.502)总体中抽样样本均数的分布 15医学统计学抽样误差均数估计Fraction3.43.744.34.6图 从正态分布N(5.00,0.502)总体中抽样样本均数的分布 Fraction4.14.44.755.
6、35.65.90.1.2.3.4.516医学统计学抽样误差均数估计图 从正态分布N(5.00,0.502)总体中抽样样本均数结论2 的分布很有规律,围绕着,中间多,两边少,左右基本对称;样本均数的变异范围较之原变量的变异范围大大缩小;17医学统计学抽样误差均数估计结论2 的分布很有规律,围绕着,中间多,两边少,左右2.中心极限定理 central limit theorem 抽样误差中心极限定理标准误分布参数估计18医学统计学抽样误差均数估计2.中心极限定理 central li中心极限定理(central limit theorem) (一)从均数为、标准差为 的正态总体中,独立随机抽取例数
7、为n的样本,样本均数 的分布服从正态分布;样本均数的均数为 ;样本均数的标准差为 。19医学统计学抽样误差均数估计中心极限定理(central limit theorem) 20医学统计学抽样误差均数估计20医学统计学抽样误差均数估计21医学统计学抽样误差均数估计21医学统计学抽样误差均数估计中心极限定理 (二)从非正态(nonnormal)分布总体(均数为,方差为)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要样本含量足够大(n50),样本均数也近似服从正态分布。样本均数的均数为 ;样本均数的标准差为 。22医学统计学抽样误差均数估计中心极限定理 (二)从非
8、正态(nonnormal)分布3.标准误 standard error 抽样误差中心极限定理标准误分布参数估计23医学统计学抽样误差均数估计3.标准误 standard error标准误(standard error)样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。均数的标准误表示样本均数的变异度。当总体标准差未知时,用样本方差代替,前者称为理论标准误,后者称为样本标准误。24医学统计学抽样误差均数估计标准误(standard error)样本统计量的标准差称为与样本含量的关系n 越大,均数的均数就越接近总体均数;n 越大,变异越小,分布越窄;对称分布接近正态分布的速度,大于非
9、对称分布。分布越偏,接近正态分布所需样本含量就越大。25医学统计学抽样误差均数估计与样本含量的关系n 越大,均数的均数就越接近总体均数;25医与标准差的关系1、意义上标准差描述个体值之间的变异,即观察值间的离散程度;而标准误是描述统计量的抽样误差,即样本统计量和总体参数的接近程度;2、用途上标准差常用于表现观察值的波动范围;标准误常表示抽样误差的大小,估计总体参数可信区间。3、与样本含量标准差是随着样本含量的增多,逐渐趋于稳定。标准误是随着样本含量的增多,逐渐减少。区别26医学统计学抽样误差均数估计与标准差的关系1、意义上区别26医学统计学抽样误差均数估计与标准差的关系首先,标准差和标准误都是
10、变异指标,说明个体之间的变异用标准差,说明统计量之间的变异用标准误。其次,当样本含量不变时,标准差大,标准误亦越大,均数的标准误与标准差成正比。联系27医学统计学抽样误差均数估计与标准差的关系首先,标准差和标准误都是变异指标,说明个体之间4. t分布 t-distribution 抽样误差中心极限定理标准误分布参数估计28医学统计学抽样误差均数估计4. t分布 t-distributio正态分布的标准化变化若 X N(,) , 则 。 因 ,则 。 29医学统计学抽样误差均数估计正态分布的标准化变化若 X N(,) , 则 从正态分布总体中1000次抽样的 u 值的分布(n=4)Fractio
11、nu-4-3-2-1012340.05.1.15.2均数为 0.007559标准差为 1.006294 30医学统计学抽样误差均数估计从正态分布总体中1000次抽样的 u 值的分布(n=4)Frt 分布的概念实际工作中,总体方差未知。所以,用样本方差代替总体方差,此时 的分布如何?31医学统计学抽样误差均数估计t 分布的概念实际工作中,总体方差未知。所以,用样本方差代替从正态分布总体中1000次抽样的 值的分布(n=4)Fractiont-8-6-4-2024680.05.1.15.2.25.3.35均数为 0.05696标准差为 1.55827 32医学统计学抽样误差均数估计从正态分布总体中
12、1000次抽样的 值的分布(nt 分布的概念用样本方差代替总体方差,此时不服从正态分布。33医学统计学抽样误差均数估计t 分布的概念用样本方差代替总体方差,此时33医学统计学抽样1908年,W.S.Gosset (1876-1937)以笔名Student发表了著名的t分布,证明了:设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设:则t值服从自由度为n-1的t分布(t-distribution)。t 分布的概念记为:34医学统计学抽样误差均数估计1908年,W.S.Gosset (1876-1937)以笔图 自由度分别为1、5、时的t分布t分布图形 f(t) =(
13、标准正态曲线) =5 =10.10.2-4-3-2-1012340.335医学统计学抽样误差均数估计图 自由度分别为1、5、时的t分布t分布图形 f(tt分布的特征t分布是一簇曲线,当不同时,曲线形状不同;单峰分布,以0为中心,左右对称;当逼近时,t分布逼近u分布,故标准正态分布是t分布的特例;t分布曲线下面积是有规律的。请看演示t 分布36医学统计学抽样误差均数估计t分布的特征t分布是一簇曲线,当不同时,曲线形状不同;请看t界值表表上阴影部分,表示t,以外的尾部面积占总面积百分数,即概率P。表中数据表示与确定时相应的t界值(critical value),常记为t,。37医学统计学抽样误差均
14、数估计t界值表表上阴影部分,表示t,以外的尾部面积占总面积百分-t0t抽样总体样本t1t2t3t4tn-3tn-2tn-1tn统计量分布t分布表明,从正态分布总体中随机抽取的样本,由样本计算的t值接近0的可能性较大,远离0的可能性较小。 38医学统计学抽样误差均数估计-t0t抽样总体样本t1t2t3t4tn-3tn-2tn-1例如,当=10,单尾概率=0.05时,查表得单尾t0.05,10=1.812,则:P(t-1.812)=0.05或P(t1.812)=0.05表明:按t分布的规律,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于1.812的概率为0.05,或者小
15、于等于-1.812的概率亦为0.05。-1.81200.050.051.81239医学统计学抽样误差均数估计例如,当=10,单尾概率=0.05时,查表得单尾t0.0例如,当=10,双尾概率=0.05时,查表得双尾t0.05,102.228,则: P(t-2.228)+P(t2.228)0.05或:P(-2.228t2.228)=1-0.05=0.95。表明:按t分布的规律,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。-2.22800.0250.0252.22840医学统计学抽样误差均数估计例如
16、,当=10,双尾概率=0.05时,查表得双尾t0.0单尾:P(t- t,)=,或P(tt,)=双尾:P(t- t/2,)+P(tt/2,)=, 即P(-t/2,t t/2,)=1-t0tt分布曲线下面积规律41医学统计学抽样误差均数估计-t0tt分布曲线下面积规律41医学统计学抽样误差均数估计5. 2分布 chi-distribution 抽样误差中心极限定理标准误分布参数估计42医学统计学抽样误差均数估计5. 2分布 chi-distribu 2 分布 设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设:2值服从自由度为n-1的2分布(2-distributio
17、n) 43医学统计学抽样误差均数估计 2 分布 设从正态分布N(,2)中随机抽取含量为n的=4=3=520246810120.00.10.20.30.40.5f(2)=1=2=6 2 分布 请看演示 c2 分布44医学统计学抽样误差均数估计=4=3=520246810120.00.10.202分布的特征 (1) 2分布为一簇单峰正偏态分布曲线 ;随的逐渐加大,分布趋于对称。(2) 自由度为的2分布,其均数为,方差为2。(3) 自由度为的2分布实际上是个标准正态分布变量之平方和。 2=u12+ u22+ uv2 45医学统计学抽样误差均数估计2分布的特征 (1) 2分布为一簇单峰正偏态分布曲线
18、3.840.050.0250.0251.96-1.962分布与正态分布的关系46医学统计学抽样误差均数估计3.840.050.0250.0251.96-1.962(4) 每一自由度下的2分布曲线都有其自身分布规律。自由度为1的2分布界值0.00.10.20.30.40.53.840.0547医学统计学抽样误差均数估计(4) 每一自由度下的2分布曲线都有其自身分布规律。自由2分布是方差的抽样分布。 2分布说明,从正态分布的总体中随机抽样,所得样本的方差s2接近于总体方差2的可能性大,远离总体方差的可能性小。即2值接近其均数n-1的可能性大,远离n-1的可能性小。2分布的特征 48医学统计学抽样误
19、差均数估计2分布的特征 48医学统计学抽样误差均数估计自由度10时,20.025,1020.48,20.975,103.25。从正态分布的总体中随机抽样,得到的样本其2值大于等于20.48的概率为0.025,小于等于3.25的概率亦为0.025。P(23.25)+P(220.48)0.05 2分布的特征 49医学统计学抽样误差均数估计自由度10时,20.025,1020.48,20.92分布近似描述具有某种属性的实际频数Ai与理论频数Ti之间的抽样误差 50医学统计学抽样误差均数估计2分布近似描述具有某种属性的实际频数Ai与理论频数Ti之间6. F分布 F-distribution 抽样误差中
20、心极限定理标准误分布参数估计51医学统计学抽样误差均数估计6. F分布 F-distributioF分布 设从两个方差相等的正态分布N(1,2)和N(2,2)总体中随机抽取含量分别为n1和n2的样本,样本均数和标准差分别为 、s1和 和s2。设:则F值服从自由度为(n1-1,n2-1)的F分布(F-distribution)。 52医学统计学抽样误差均数估计F分布 设从两个方差相等的正态分布N(1,2)和N(2F分布的特征 (1) F分布为一簇单峰正偏态分布曲线,与两个自由度有关。 (2) 若F服从自由度为(1,2)的F分布,则其倒数1/F服从自由度为(2,1)的F分布。(3) 自由度为(1,
21、2)的F分布,其均数为2/(2-2),与第一自由度无关。(4) 第一自由度11时,F分布实际上是t分布之平方;第二自由度2时,F分布实际上等于2分布。 请看演示F分布53医学统计学抽样误差均数估计F分布的特征 (1) F分布为一簇单峰正偏态分布曲线,与两(5) 每一对自由度下的F分布曲线下的面积分布规律。 PFF分布的特征 54医学统计学抽样误差均数估计(5) 每一对自由度下的F分布曲线下的面积分布规律。 PFF分布表明,从两个方差相等的正态分布总体中随机抽取含量分别为n1和n2的样本,计算所得F值,应接近v2/(v2-2)。F(0.05;20,20)= 2.12表示,从方差相等的正态分布总体
22、中随机抽取n1=n2=21的样本,则由两样本计算的F值大于等于2.12的可能性为0.025,而小于1/2.12=0.4717的可能性亦为0.025。 F分布的特征 55医学统计学抽样误差均数估计F分布表明,从两个方差相等的正态分布总体中随机抽取含量分别为F分布的特征 56医学统计学抽样误差均数估计F分布的特征 56医学统计学抽样误差均数估计样本统计量的抽样分布任何一个样本统计量均有其分布规律。从正态分布总体中抽样:均数的抽样分布为正态分布;样本方差的分布服从2分布;样本方差之比服从F分布;t 值服从 t 分布;57医学统计学抽样误差均数估计样本统计量的抽样分布任何一个样本统计量均有其分布规律。
23、57医7.参数估计 Parameter estimation 抽样误差中心极限定理标准误分布参数估计58医学统计学抽样误差均数估计7.参数估计 Parameter es1 ) 统计推断的思路总体个体、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计 推断风 险59医学统计学抽样误差均数估计1 ) 统计推断的思路总体总体参数样本随机样本统计量统计 风2) 统计推断(statistical inference)总体参数的估计(parameter estimation)假设检验(hypothesis test)60医学统计学抽样误差均数估计2) 统计推断(statistical i
24、nferenc61医学统计学抽样误差均数估计61医学统计学抽样误差均数估计3) 参数的估计点估计 (point estimation)区间估计(interval estimation)按一定的概率或可信度(1-)用一个区间估计总体参数所在范围。这个范围称作可信度为1- 的可信区间(confidence interval, CI),又称置信区间。62医学统计学抽样误差均数估计3) 参数的估计点估计 按一定的概率或可信度(1-)用一个【例4.1】随机抽取12名口腔癌患者,检测其发锌含量,得 =253.05g/g =27.18g/g 求发锌含量总体均数95的可信区间。4)例题:发锌含量63医学统计学
25、抽样误差均数估计【例4.1】随机抽取12名口腔癌患者,检测其发锌含量,得 t 值的分布理论基础:t值的抽样分布-2.201 0 2.201v110.0250.02564医学统计学抽样误差均数估计t 值的分布理论基础:t值的抽样分布-2.201 区间估计:65医学统计学抽样误差均数估计区间估计:65医学统计学抽样误差均数估计可信区间(confidence interval):区间193.23321.87(g/g)包含了总体均数,其可信度(confidence level)为95%。结论:口腔癌患者发锌含量总体均数为193.23321.87(g/g)(可信度为95%)。或:口腔癌患者发锌含量总体均
26、数的95可信区间为: 193.23321.87(g/g)。66医学统计学抽样误差均数估计可信区间(confidence interval):区间195)均数的(1-)100%可信区间构建方法-t, v 0 t, v 1-/2/267医学统计学抽样误差均数估计5)均数的(1-)100%可信区间构建方法-t, v 5)均数的(1-)100%可信区间构建方法68医学统计学抽样误差均数估计5)均数的(1-)100%可信区间构建方法68医学统计学抽5)均数的(1-)100%可信区间构建方法均数的(1-)100%的可信区间:可信限(confidence limit):69医学统计学抽样误差均数估计5)均数
27、的(1-)100%可信区间构建方法均数的(1-)样本含量较大时,u 值的分布:0-uu/2/21-70医学统计学抽样误差均数估计样本含量较大时,u 值的分布:0-uu/2/21-样本含量较大时,均数(1-)100%的可信区间:此时,均数的(1-)100%的可信区间:71医学统计学抽样误差均数估计样本含量较大时,均数(1-)100%的可信区间:此时,均数6 )均数之差的(1-)100%可信区间例4.3 转铁蛋白含量(page41)正常人:n1=12,病人:n2=15,问题:两组平均相差多少?72医学统计学抽样误差均数估计6 )均数之差的(1-)100%可信区间例4.3 转铁问题: 正常组 病人组
28、 2?均 数: 235.21ug/dl标准差: 14.39ug/dl 1?均 数: 271.89ug/dl标准差: 10.28ug/dl 1- 2 ?73医学统计学抽样误差均数估计问题: 正常组 病人组 2?均 数与均数之差有关的抽样分布 “均数之差”与“均数之差的标准误”之比,服从自由度 = n1+n2 -2的 t 分布。样本含量较大时,服从标准正态分布。74医学统计学抽样误差均数估计与均数之差有关的抽样分布 “均数之差”与“均数之差合并方差与均数之差的标准误合并方差(方差的加权平均)均数之差的标准误75医学统计学抽样误差均数估计合并方差与均数之差的标准误合并方差(方差的加权平均)75医学根
29、据可得1-2的可信区间:76医学统计学抽样误差均数估计根据可得1-2的可信区间:76医学统计学抽样误差均数估计医学统计学抽样误差均数估计培训课件结论:病毒性肝炎患者的血清转铁蛋白含量较正常人平均低36.68(g/dl),其95可信区间为26.4846.88(g/dl)。 78医学统计学抽样误差均数估计结论:78医学统计学抽样误差均数估计可信区间均数率事件数方差79医学统计学抽样误差均数估计可信区间均数79医学统计学抽样误差均数估计7) 可信区间的两个要素可信度(1-), 可靠性一般取90%,95%。可人为控制。精确性是指区间的大小(或长短)兼顾可靠性、精确性80医学统计学抽样误差均数估计7) 可信区间的两个要素可信度(1-), 可靠性80医学影响可信区间大小的因素可信度可信度越大,区间越宽个体变异变异越大,区间越宽样本含量样本含量越大,区间越窄81医学统计学抽样误差均数估计影响可信区间大小的因素可信度81医学统计学抽样误差均数估计8 ) 正确理解可信区间:可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。这里的95%,指的是方法本身!而不是某个区间!
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 邮局选址课程设计
- 综合课程设计学什么的
- 颜料生成课程设计
- 早教糖果主题课程设计
- 煤油换热器课程设计模板
- 招标文件课程设计体会
- 遥感课程设计专题图
- 领导的课程设计
- 顺丁烯二酸酐课程设计
- 鱼缸制造课课程设计
- 患者跌倒坠床的应急预案试题及答案
- GB/T 24128-2018塑料塑料防霉剂的防霉效果评估
- 福建省地方标准《先张法预应力混凝土管桩基础技术规程》DBJ13-2023
- 危险作业监护人员培训
- 职业病防治企业台账样本
- 充电桩验收表
- 城市水环境新型污染物的去除新技术课件
- 中长期贷款按实际投向统计统计制度
- 新媒体营销完整版教学课件最全ppt整套教程电子讲义(最新)
- 锅炉专业2020年防非停措施
- 中国铁塔股份有限公司通信铁塔、机房施工及验收规范(试行)
评论
0/150
提交评论