医学统计学教学课件:第五章 参数估计_第1页
医学统计学教学课件:第五章 参数估计_第2页
医学统计学教学课件:第五章 参数估计_第3页
医学统计学教学课件:第五章 参数估计_第4页
医学统计学教学课件:第五章 参数估计_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 参数估计(Parameter Estimation )复习计量资料的统计描述集中趋势的描述 均数、中位数、几何均数离散趋势的描述 极差、四分位数间距、 方差和标准差、变异系数正态分布、标准正态分布 医学参考值范围的制定基本概念参数(Parameter):描述总体特征的统计指标。 如:(总体均数)、(总体标准差)。统计量(Statistic):由样本数据计算得到的统计指 标量。 如: (样本均数)、S (样本标准差)总体(Population):根据研究目的确定的同质观察单位的全体。样本(Sample):从总体中随机抽取部分观察单位,其实测值的集合。统计推断抽样研究是期望通过样本提供的信

2、息来推断总体特征,即统计推断(Statistical Interference);其主要内容是参数估计和假设检验。参数估计:用样本均数、样本率推断总体均数、总体率。 11假设检验:用推理的方法来判断某个(某几个)样本是否来源于预先假设的总体。 22populationsamplestatisticparameter现由某地健康成年男子中随机抽得144人,测得红细胞均数为5.38(1012/L),标准差为0.44(1012/L),试估计该地健康成年男子红细胞均数。在某地随机抽取329人,作血清登革热血凝抑制抗体反应检验,结果29人阳性,估计该地人群血清登革热血凝抑制抗体阳性率。 33如果已知健康

3、成年男子的红细胞均数为5.20(1012/L),能否据此认为该地成年男子的红细胞均数(均数为5.38(1012/L),标准差为0.44(1012/L))高于一般成年男子的红细胞均数?X?第一节 抽样分布与抽样误差 一、均数的抽样误差 在医学研究中,绝大多数情况是由样本信息研究总体。 由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数 往往不等于总体均数 。 这种由个体变异和抽样造成的样本统计量与总体参数的差异称为抽样误差( Sampling error)100份样本的均数和标准差 将这100份样本的均数看成新变量值,按第二章的频数分布方法,得到这100个样本均数的直方图见图4

4、-1。图4-1 随机抽样所得100个样本均数的分布 100个样本均数的抽样分布特点: 100个样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。样本均数的分布曲线为中间高,两边低,左右对称,近似服从正态分布。 样本均数的标准差明显变小:标准误(standard error,SE)样本统计量的标准差称为标准误,用来衡量抽样误差的大小。标准误与个体变异 成正比,与样本含量n的平方根成反比。标准误理论值标准误的估计值 通过增加样本含量n来降低抽样误差。 计算了100个样本的标准差S,由此可计算每一样本的抽样误差大小。3个抽样实验结果图示抽样实验小结 均数的均数围绕总体均数上下波动。

5、均数的标准差即标准误 与总体标准差 相差一个常数的倍数,即 样本均数的标准误(Standard Error)=样本标准差/ 从正态总体N(m,s2)中抽取样本,获得均数的分布仍近似呈正态分布N(m,s2/n) 。标准差变量值围绕样本均数的离散程度频数分布估计(医学参考值范围估计)联系:标准误样本均数围绕总体均数的离散程度总体均数估计(样本推论总体)标准差与标准误的异同与联系相同:均为变异指标 练习题:在某地随机抽查成年男子140人,计算得红细胞均数4.771012/L,标准差0.38 1012/L ,试计算均数的标准误。 二、抽样误差的分布 理论上可以证明:若从正态总体 中,反复多次随机抽取样

6、本含量固定为 n 的样本,那么这些样本均数 也服从正态分布,即 的总体均数仍为 ,样本均数的标准差为 。抽样分布 抽样分布示意图 中心极限定理: 当样本含量很大的情况下,无论原始测量变量服从什么分布, 的抽样分布均近似正态。 抽样分布 抽样分布示意图t 分布(t-distribution)随机变量XN(m,s2)标准正态分布N(0,12)Z变换均数标准正态分布N(0,12)Student t分布自由度:n-1 t 分布的特点以0为中心的单峰对称分布曲线的中间比标准正态分布低,两侧翘得比标准正态分布略高 t 分布曲线的形状与自由度()有关f3 2 1 0 1 2 3 不同自由度下t分布示意图 9

7、1标准正态曲线 t 分布曲线下的面积统计应用中最为关心的是 t 分布曲线下的尾部面积(即概率 P)与横轴 t值间的关系。t曲线是一簇曲线,t 曲线下面积为95或99%的界值不是一个常量,而是随自由度变化的。t界值表 (P488,附表4)该表的横标目为自由度,纵标目为概率P,表中数值为其相应的t界值,记作t, (为检验水准)。 阴影部分表示t,以外尾部面积占总面积的百分数,即概率P。t分布是以0为中心的对称分布,表中只列出正值,不管t值正负只用绝对值。1.8122.228-2.228tf (t)=10的t分布图t分布曲线下面积双侧t0.05/2,92.262 单侧t0.025,9单侧t0.05,

8、91.833双侧t0.01/2,93.250 单侧t0.005,9单侧t0.01,92.821双侧t0.05/2,1.96 单侧t0.025,单侧t0.05, 1.64练习题1当样本含量增大时,以下说法正确的是( )A. 标准差会变小B. 样本均数标准误会变小C. 均数标准误会变大D标准差会变大B2. 标准误的英文缩写为:AS BSE C DSD3. 通常可采用以下那种方法来减小抽样误差:A减小样本标准差 B减小样本含量 C扩大样本含量 D以上都不对BC思考题1、抽样误差的大小常用哪个指标衡量? 大小与哪些因素有关?2、正态分布与t分布的关系如何?3、 t分布的单双侧的界值有何关系? 总体均数

9、的点估计(point estimation)与区间估计(interval estimation)参数的估计点估计:由样本统计量 直接估计 总体参数区间估计:在一定可信度(Confidence level) 下,同时考虑抽样误差第二节 总体均数的估计 一、点估计 直接用样本统计量作为总体参数的估计值 方法简单,但未考虑抽样误差的大小在实际问题中,总体参数往往是未知的,但它们是固定的值,并不是随机变量值。而样本统计量随样本的不同而不同,属随机的 二、区间估计指按预先给定的概率,计算出一个区间 (也称为可信区间Confidence Interval, CI),使它能够包含未知的总体均数。事先给定的概

10、率 1-称为可信度,通常取 1-=0.95 。二、总体均数可信区间的计算s已知,或 s 未知但 n 足够大,按 Z 分布s未知,且 n 较小,按 t 分布(一) 已知一般情况其中 为标准正态分布的双侧界值。 可信区间:(二) 未知 通常未知,这时可以用其估计量S 代替,但 已不再服从标准正态分布,而是服从 t 分布。可信区间: 需要注意:在小样本情况下,应用这一公式的条件是原始变量服从正态分布。在大样本情况下(如n100),也可以用 替换 近似计算。 例5-3 随机测得某地9名7岁男孩身高资料,均数为121.44cm,标准差为5.75cm,试计算该地7岁男孩身高总体均数的95%可信区间。P82

11、下限:上限: 例5-4 随机抽的某地90名正常成年女性,计算其红细胞数的均值为4.18( )、标准差为0.29( )。试计算该地成年女性红细胞总体均数的95%可信区间。 本例属于大样本,可采用正态近似的方法计算可信区间。因为 ,则95%可信区间为:下限:上限: 三、可信区间估计的优劣一是可信度1(准确度),愈接近1愈好,如99%的可信度比95%的可信度要好; 二是区间的宽度(精密度),区间愈窄愈好。当样本含量为定值时,上述两者互相矛盾。 在可信度确定的情况下,增加样本含量可减小区间宽度。可信区间的涵义可信区间估计的涵义:可信区间的优劣:P83四、总体均数可信区间与参考值范围的区别P84练习1. 对某人群随机抽取20人,用某批号的结核菌素作皮试,平均侵润直径为10.9mm,标准差为3.86mm。问这批结核菌素在人群中使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论