版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六章总体均数的估计福建医科大学公共卫生学院何保昌1主要内容均数的抽样误差与标准误 t 分布 总体均数的估计 2使用样本统计量过程中的问题不同的研究者对相同的总体作类似的抽样研究可能会得到不同的样本统计量各自用样本统计量估计总体的参数,样本统计量与总体参数间是否完全相等?如何评价他们的准确性?3一、均数抽样误差和标准误 已知某地高中三年级男生的身高满足正态分布,其平均身高为168.15厘米,这里,将该地高中三年级男生的身高视为一个总体。现从该总体中随机抽样5次,每次抽取一个样本含量n=10的样本,得到的5个样本的数据及各样本均数如下:4样本号样本含量(n=10) m=168.15cm样本均数1
2、161.1173.7173.7167.3162.2162.2166.6166.6157.4157.4164.822166.8159.1159.1166.1173.3173.3169.1169.1165.2165.2166.633157.4174.0172.3175.8166.6182.1163.1159.4159.4177.3168.744174.5182.1168.5171.3174.1165.6173.7171.9167.5164.1171.335164.1166.6169.6169.6173.8173.2164.3166.6182.1165.4169.535样本均数的抽样分布 仍以某地高
3、三男生的身高为例,设身高变量为x,假定x服从正态分布,记为xN(168.15, 62)从总体X中反复随机抽样,样本含量分别为n=4,n=16和n=36,分别随机抽10000个样本并计算样本均数,把同一样本含量的10000个样本均数视为一个新的样本资料作频数图78 从正态分布总体N(168.15,62)中随机抽样10000次的结果曲线是正态总体N(168.15,62)的概率密度曲线直方图为正态分布总体N(168.15,62)的样本均数的频率密度图样本含量n=36样本含量n=16样本含量n=4样本均数的分布规律 理论上可以证明:从正态分布的总体 中随机抽取样本含量为n的一批样本,样本均数 有如下性
4、质 :样本均数 服从正态分布 样本均数 的总体均数为 101.从正态分布N(,2)中,以固定n抽取样本,样本均数的分布仍服从正态分布,样本均数的总体均数仍为,样本均数的标准差为2.即使是从偏态分布总体抽样,只要n足够大,样本均数的分布也近似正态分布;3.随着样本量的增大, 样本均数的变异范围也逐渐变窄。中心极限定理 central limit theorem11样本均数的标准误为了与个体的标准差相互区别,样本均数的标准差又称为样本均数的标准误( SE),或理论标准误反映了样本均数间的离散程度,如果SE很大则不同的样本均数间参差不齐,同时样本均数的分布范围较大,也反映了样本均数与总体均数间的差异
5、可能较大,因而标准误反映均数抽样误差的大小;它与总体标准差成正比,与总体中的个体数的平方根成反比 代表样本均数的标准误,其表达式为12均数标准误的估计值 由于在实际研究中,我们往往只抽一次样,得到一个样本均数,而且大多数情况下s未知,此时常用样本标准差S估计总体标准差s,这样我们就得到样本均数标准误的估计值 抽样误差越小,表示样本均数与总体均数越接近,用样本均数估计总体均数的可靠性越高;反之则越低 14例6.1随机抽取某地正常成年男性200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,试估计抽样误差:15(2)用途不同标准差表示变量值对均数的波动大小,当资料呈
6、正态分布时,与均数结合估计正常值范围、计算变异系数、标准误等。标准误表示样本统计量对总体参数的波动情况,用于估计参数的置信区间、进行假设检验。17 1)两者均为变异指标;2)样本含量不变时,均数的标准误与标准 差成正比;3)两者均可与均数结合使用(但描述的内 容各不相同)。(3)联系18在应用过程中要注意标准差和标准误的区别:19t分布 t分布的由来t分布的特征t分布曲线下的面积20样本均数标准正态性转换中的实际问题要对样本均数进行Z转换,必须要知道总体的标准差s;但是在实际的情况下,并没有对总体中所有的个体进行观察,所以无法得知 s;而且通常我们也只作一次抽样研究,只能得到s ,只能用样本标
7、准误的估计值 估计 那么 是否仍然满足标准正态分布?假定 ,我们比较一下Z与Z之间是否存在不同21ZvsZ在正态总体N(168.18,62)中随机抽样,样本量分别取n =5,n =100,均抽10000个样本,分别计算Z值和Z值,其结果如下: 样本量统计量平均值P2.5P97.5n=5Z0.0149031-1.9500671.969157Z0.0319309-2.6542142.838163n=100Z0.0033231-1.9508861.971245Z0.0347047-1.9811832.00040722ZvsZ上述10000个样本所计算出的Z值和Z值的平均值都非常接近标准正态分布的集中
8、位置0对于Z值而言,无论n=5和n=100,Z值的P2.5和P97.5都十分接近标准正态分布95的双侧分位点1.96 ;但对于Z值而言,样本量n=5时,其P2.5和P97.5明显远离1.96,而样本量n=100时, Z值的P2.5和P97.5相对比较靠近 当样本量较大时,同样可以发现统计量Z的频数图与标准正态分布曲线非常接近,而当样本含量较小时,统计量Z的分布与标准正态分布则有所区别峰较矮,尾部较高,数据相对Z值分散 24Z的分布 并不满足标准正态分布!在样本含量较大时它与标准正态分布接近,但是当样本含量较小时,它与标准正态分布相差较远25 样本均数 t分布的由来总体中心极限定理标准正态分布
9、标准正态分布 t分布 变量变换27t分布28如果抽取例数n=5的样本k个,每个样本又都可以按下面公式计算出一个t值,可将k个t值编制成频数表,作出直方图,当k无限增大时,则可得到一条光滑的曲线。 同理,如果抽取例数n=10时,仍能得到一条t分布曲线,因此,当n变化时,就可以得到不同的t分布曲线,如下图29xpopulation t1 t2 t3 tkN=5N=5N=5N=530 xpopulationN=10N=10N=10N=1031 t1 t2 t3 tk图3.2 自由度分别为4、9、的t分布 32t分布曲线的特点 单峰分布,曲线在t0 处最高,并以t0为中心左右对称与正态分布相比,曲线最
10、高处较矮,两尾部翘得高(见红线)其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;随自由度增大,曲线逐渐接近正态分布。33 它与样本例数 n 或自由度 有关,某个自由度对应于一条 t 分布曲线。当 n 或不同时,曲线形状不同。当 时,t 分布趋近于标准正态分布。 自由度: = n-1 随机变量能够自由取值的个数34t分布曲线下面积规律t分布曲线下总面积仍为1或100%由于t分布是一簇曲线,故t分布曲线下面积固定面积(如95%或99%)的界值不是一个常量,而是随自由度的大小而变化,如附表3 。 35附表3,t分布表的特点附表3的横标目为自由度,纵标目为概率P,表中数值为其相应的
11、t界值,记作t, ;t 取值于某个区间的概率P相当与横轴上该区间与曲线所夹面积。附表3给出了t分布曲线下单侧或双侧尾部面积所对应的界值;36双侧t0.05/2,92.262单侧t0.025.9单侧t0.05,91.833双侧t0.05/2,1.96单侧t0.025,单侧t0.05, 1.64t分布曲线下面积37其通式为双侧:P(t-t/2,)+P(tt/2,)=单侧:P(t-t,)=或P(tt,)=图中非阴影部分面积的概率为,P(-t/2,tt/2,)=1-t/2,t/2,0以下附图的阴影部分表示t,以外尾部面积的概率 。38/2/2 求自由度v为10,单尾概率a=0.05时的t界值,并简述其
12、含义由表中查得单侧t0.05,101.812从一个正态总体中随机抽样,每次抽11个个体,分别计算各个样本的均数与标准差,并对之进行t转换后,理论上有P(t-1.812)= 0.05或P(t1.812)= 0.0539 求自由度v为100,双尾概率a=0.05时的t界值,并简述其含义由表中查得双侧t0.05/2,1001.984从一个正态总体中随机抽样,每次抽101个个体,分别计算各个样本的均数与标准差,并对之进行t转换后,理论上有 P(t-1.984)P(t1.984)= 0.0540二、总体均数的估计 参数的估计点估计:由样本统计量 直接估计总体参数缺点: 没有考虑抽样误差。区间估计:在一定
13、可信度下,同时考虑抽样误差。 411.点估计11名18岁男大学生身高均数资料得, =172.25cm,S=3.31cm,试估计该地18岁男大学生身高总体均数 ?答:该地18岁男大学生身高总体均数为172.25cm422.区间估计区间估计interval estimate:在点估计的基础上,结合抽样误差的大小,给出总体参数估计的一个区间范围(由上、下限构成的置信区间)该区间按照一定的概率可能性,包含所推断的总体参数43置信区间假设已知的样本均数是从较小的m总体中抽取的,它成立的统计条件是从该总体中抽取一个样本,其均数为当前均数以及更大的可能性并非小概率事件44m=A已知的样本均数置信区间而如果从
14、mA的总体中在一次抽样的前提下,几乎是不可能得到当前的样本的,因为它是一个小概率事件!45mB的总体中在一次抽样的前提下,几乎是不可能得到当前的样本的,因为它是一个小概率事件!47mB已知的样本均数m=B置信区间因而如果m的取值在AB间,在一次抽样的前提下,是有可能得到当前的样本均数的这样就把区间(A,B)称为样本均数所来源的未知总体均数的置信区间48m=A已知的样本均数m=B置信度(confidence coefficient)我们之所以说m=A的总体像是样本所来源的总体,那是因为从它中得到该样本不是小概率事件但是小概率事件是有可能发生的,例如该样本真的来自于m100),t 分布逼近 z 分
15、布。按 z 分布原理计算置信区间。 z -z 由于:则:57/2/2所以,总体均数的100(1-)%之置信区间的通式为: 58例 测得某地110名18岁男大学生身高 =172.73cm,s=4.09cm,估计该地18岁男大学生身高均数的95%置信区间。 本例n=110, =172.73cm,s=4.09cm,双侧z0.05/2=1.96 按式(3.7)计算: 即:该地18岁男大学生身高均数的95%置信区间为171.97cm173.49cm 59(3)已知:故可按正态分布原理估计总体均数的置信区间,计算公式为: 60未知,且n小已知:未知,但n足够大:三种情况61置信区间的注意问题 1置信区间的涵义意思是从总体中作随机抽样,每个样本可以算得一个置信区间。如95%置信区间意味着做100次抽样,算得100个置信区间,平均有95个估计正确,估计错误的只有5次。5%是小概率事件,实际发生的可能性很小,当然这种估计方法会有5%犯错误的风险。622.置信区间的两个要素:一是准确度:反映在可信度的大小,即区间包含总体均数的概率的大小,愈接近1愈好。二是精密度:反映在区间的长度,长度愈小愈好。在样本含量确定的情况下,二者是矛盾的,若只管提高可信度,会把区间变得很长,故不宜认为99%置信区间比95%置信区间好,一般来说95%置信区间更为常用。63区别点 均数的置信区间 参考值范
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 35922-2025不透性石墨浸渍耐蚀作业技术规范
- 2026春招:学习成长企划顾问题目及答案
- 2026年桥梁设计中的地震动参数研究
- 2026年桥梁设计中的非线性分析与优化
- 2026年未来电气传动控制的研究方向
- 2026春招:维修技术员笔试题及答案
- 贩毒与吸毒的法律问题
- 住院部病患护理质量评估
- 2026年邯郸科技职业学院单招综合素质考试备考试题带答案解析
- 2026年黑龙江旅游职业技术学院单招职业技能考试参考题库带答案解析
- 2025年青岛卫生局事业单位考试及答案
- 纪委档案规范制度
- 杭州钱塘新区建设投资集团有限公司2025年度第三次公开招聘工作人员备考题库及完整答案详解
- 眼科质控课件
- 安徽信息会考题库及答案
- 2025年中级消防监控题库及答案
- 隧道施工废水处理人员培训方案
- 2025年射频识别技术面试题库及答案
- 拣货主管年终总结
- 糖尿病重症患者肠内营养血糖调控方案
- CSR社会责任管理手册
评论
0/150
提交评论