第6章参数估计基础(NXPowerLite)课件_第1页
第6章参数估计基础(NXPowerLite)课件_第2页
第6章参数估计基础(NXPowerLite)课件_第3页
第6章参数估计基础(NXPowerLite)课件_第4页
第6章参数估计基础(NXPowerLite)课件_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山大学医学统计与流行病学系张晋昕2008.09.23第六章参数估计基础

12/13/20221中山大学医学统计与流行病学系第六章参数估计基础1第一节抽样分布与抽样误差

抽样研究的目的就是要用样本信息来推断相应总体的特征,这一过程称为统计推断。统计推断包括两方面的内容:参数估计和假设检验抽样误差:样本统计量与总体参数之差;抽样误差也表现为样本统计量之间的不同。12/13/20222第一节抽样分布与抽样误差抽样研究的目的1.系统误差:由于受试对象、研究者、仪器设备、研究方法、非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差。可以避免。2.随机误差:由于多种无法控制的偶然因素引起,对同一样品多次测量数据的不一致。无倾向性,不可避免。3.抽样误差:产生的根本原因是个体变异、产生的直接原因是抽样。12/13/202231.系统误差:由于受试对象、研究者、仪器设备、研究方法、非实

一、样本均数的抽样分布与抽样误差

均数的抽样误差:由个体变异产生的、由于抽样而造成的样本均数与样本均数及样本均数与总体均数之间的差异称为均数的抽样误差。

12/13/20224一、样本均数的抽样分布与抽样误差12/12/202抽样实验:

(a)12/13/20225抽样实验:(a)12/12/20225样本均数的分布特点:1.

各样本均数未必等于总体均数;2.

样本均数之间存在差异;3.

样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布。12/13/20226样本均数的分布特点:12/12/20226标准误的概念用于表示均数抽样误差的指标叫样本均数的标准差,根据其实际意义,常称作样本均数的标准误(standarderror)。12/13/20227标准误的概念用于表示均数抽样误差的指标叫实验5-2图5-1(a)是一个正偏峰的分布,用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图。

(a)原始数据12/13/20228实验5-2图5-1(a)是一个正偏峰的分布,用电脑从中随(b)n=5(c)n=10

(d)n=30(e)n=50其他总体12/13/20229(b)n=5(c)n=10

1)从正态总体N(µ,σ2)中,随机抽取例数为n的多个样本,样本均数服从正态分布;即使是从偏态总体中随机抽样,当n足够大时(如n>30),也近似正态分布。数理统计推理和中心极限定理表明:2)从均数为µ,标准差为σ的正态或偏态总体中抽取例数为n的样本,样本均数的标准差即标准误为。12/13/2022101)从正态总体N(µ,σ2)中,随机抽取例数为n的多身高组段频数组中值fiXi

fiXi2

152.6~1152.9153.2~4153.5153.8~4154.1154.4~22154.7155.0~25155.3155.6~21155.9156.2~17156.5156.8~3157.1157.4~2157.7158.0~1158.3合计100表5-2(b)100个样本均数的频数表与标准误的计算表12/13/202211身高组段频数组中值标准误的大小与σ的大小成正比,与n的平方根成反比,而σ为定值,说明可以通过增加样本例数来减少标准误,以降低抽样误差。σ未知,用样本标准差S来估计总体标准差σ。用来表示均数抽样误差的大小。(标准误的理论值)(标准误的估计值)12/13/202212标准误的大小与σ的大小成正比,与n的平方根成反比,而σ为

例5-12000年某研究所随机调查某地健康成年男子27人,得到血红蛋白的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。12/13/202213例5-12000年某研究所随机调查某地二、样本频率的抽样分布与抽样误差

从同一总体中随机抽出观察单位相等的多个样本,样本率与总体率及各样本率之间都存在差异,这种差异是由于抽样引起的,称为频率的抽样误差。表示频率的抽样误差大小的指标叫频率的标准误。12/13/202214二、样本频率的抽样分布与抽样误差从同一总π:总体率,n:样本例数。当π未知时,p

π(为样本含量足够大,且p和1-p不太小)公式为:

:率的标准误的估计值,p:样本率。据数理统计的原理,率的标准误用表示12/13/202215π:总体率,n:样本例数。据数理统计的原理,率的标准误

例5-2某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试计算该样本频率的抽样误差。12/13/202216例5-2某市随机调查了50岁以上第二节t分布12/13/202217第二节t分布12/12/202217一、t分布的概念在统计应用中,可以把任何一个均数为µ,标准差为σ的正态分布N(µ,σ2)转变为µ=0,σ=1的标准正态分布,即将正态变量值X用来代替。由于服从正态分布,故服从标准正态分布N

(0,1)。12/13/202218一、t分布的概念服从标准正态分布N(0,1)。12/12实际资料的分析中,由于σ往往未知,故标准化转换演变为:服从ν=n-1的t分布,即:12/13/202219实际资料的分析中,由于σ往往未服从ν=n-12/13/20222012/12/202220t分布曲线特点:1)

t分布曲线是单峰分布,它以0为中心,左右对称。2)t分布的形状与样本例数n有关。自由度越小,则越大,t值越分散,曲线的峰部越矮,尾部则偏高。3)当n→∞时,则S逼近σ,t

分布逼近标准正态分布。t分布不是一条曲线,而是一簇曲线。二、t分布的图形和t分布表12/13/202221t分布曲线特点:二、t分布的图形和t分布表12/12υ=∞(标准正态分布)υ=5υ=1012345-1-2-3-4-5f(t)0.10.20.312/13/202222υ=∞(标准正态分布)υ=5υ=1012345-1-2-3-与单侧概率相对应的t值用表示,与双侧概率相对应的t值用表示。

由于t分布是以0为中心的对称分布,表中只列出了正值,故查表时,不管t值正负只用绝对值表示。正确使用t界值表!12/13/202223与单侧概率相对应的t值用表示,与双侧概率相

一、参数估计的概念统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。第三节总体均数及总体概率的估计参数估计点估计(pointestimation)区间估计(intervalestimation)12/13/202224一、参数估计的概念第三节,即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L。1.点估计:

用样本统计量直接作为总体参数的估计值。

例如于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。同理,例5-2中776名50岁以上的中老年妇女骨质疏松症的样本患病率作为总体患病率的点值估计值,即认为该市所有50岁以上的中老年妇女骨质疏松症的总体患病率约为41.5%。

12/13/202225,即认为2000年该地所有健康成年男2.区间估计:按预先给定的置信水平(1-α)估计总体参数的可能位置,该范围就称为总体参数的1-α置信区间(confidenceintervalCI)。预先给定的概率(1-α)称为置信度,常取95%或99%。如无特别说明,一般取双侧95%。可信区间由两个数值即置信限(下限和上限)构成。12/13/2022262.区间估计:按预先给定的置信水平(1-α)估计总体参数的二、总体均数置信区间的计算12/13/202227二、总体均数置信区间的计算12/12/202227通式:(双侧)

(1)σ已知,按标准正态分布原理计算由z分布,标准正态曲线下有95%的z值在±1.96之间。95%的双侧置信区间:99%的双侧置信区间:

12/13/202228通式:(双侧)(1)通式:(双侧)(2)σ未知但样本例数n足够大(n>50)时

由t分布可知,自由度越大,t分布越逼近标准正态分布,此时t曲线下约有95%的t值在±1.96之间,即95%的双侧置信区间:99%的双侧置信区间:12/13/202229通式:(双侧)(2)例5-4某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高的95%置信区间。该市19岁健康男大学生的身高的95%置信区间(171.3,173.1)cm12/13/202230例5-4某市2000年随机测量了90名19岁健康男大学生的(3)σ未知且样本例数n较小时,按t分布原理,此时某自由度的t曲线下约有95%的t值在±t0.05/2(ν)之间,

通式:95%的双侧置信区间:99%的双侧置信区间:tа/2,ν是按自由度ν=n-1,由附表2查得的t值。12/13/202231(3)σ未知且样本例数n较小时,按t分布原理,此时通式例5-3已知某地27例健康成年男性血红蛋白量的均数为

,标准差S=15g/L,试问该地健康成年男性血红蛋白量的95%和99%置信区间。

本例n=27,S=1595%CI:99%CI:12/13/202232例5-3已知某地27例健康成年男性血红蛋白量的均数为思考每一个求出的置信区间,都有95%的可能性涵盖总体均数。12/13/202233思考每一个求出的置信区间,都有95%的可能性涵盖总12/13/20223412/12/202234

置信区间的两个要素

准确度:反映置信度1-α的大小。精度:反映区间的宽度。在一定置信度下,增加样本例数,会减小tа,ν和,可减小区间宽度,提高精度。12/13/202235置信区间的两个要素12/12/202235意义:

95%的参考值范围是指同质总体内包括95%个体值的估计范围。若总体为正态分布,常按计算。

95%的可信区间是指按95%的置信度估计的总体参数的所在范围。若为大样本,按计算。计算上:

置信区间用标准误,参考值范围用标准差。三、均数置信区间与参考值范围的区别思考!12/13/202236意义:三、均数置信区间与参考值范围的区别思考!1标准差与标准误的区别

1)概念不同:标准差是描述样本中个体值间的变异程度的指标,标准差越小,表示变量值围绕均数的波动越小。标准误是描述样本均数间变异程度的指标,标准误越小,表示样本均数围绕总体均数的波动越小。

2)

用途不同:标准差常用于表示变量值对均数波动的大小,当资料呈正态分布时,与均数结合可估计正常值范围,计算变异系数等;标准误常用于表示样本统计量(样本均数,样本率)对总体参数(总体均数,总体率)的波动情况,可估计参数的可信区间,进行假设检验。思考!12/13/202237标准差与标准误的区别2)

用途不同:标准

联系:二者均为变异指标,如果把总体中各样本均数看成一个变量,则标准误可称为样本均数的标准差。当样本含量不变时,均数的标准误与标准差成正比。两者均可与均数结合运用,但描述的内容各不相同。3)与例数的关系不同:当样本含量足够大时,标准差趋向稳定。而标准误随例数的增大而减小,甚至趋向于0。若样本含量趋向于总例数,则标准误接近于0。12/13/202238联系:二者均为变异指标,如果把总体中各样本均数看总体概率的置信区间与样本含量n,阳性频率p的大小有关,可根据n和p的大小选择以下两种方法。1.正态近似法当样本含量足够大,且p和1-p不太小,则样本率的分布近似正态分布。公式为:

p为样本率,为率的标准误的估计值,四、总体概率的置信区间12/13/202239总体概率的置信区间与样本含量n,阳性频率p的大小有关

例5-7用某种仪器检查已确诊的乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。分析:本例样本例数较大,且样本率p不太小,可用正态近似法:12/13/202240例5-7用某种仪器检查已确诊的乳2.查表法

当n较小,如n≤50,特别是p和1-p接近0或1时,应按照二项分布的原理估计总体率的可信区间。12/13/2022412.查表法当n较小,如n≤50,特别

例5-5某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间。例5-6某医生用某药物治疗31例脑血管梗塞患者,其中25例患者治疗有效,试求该药物治疗脑血管梗塞有效概率的95%置信区间。注意:此表仅列出X≤n/2的95%置信区间。12/13/202242例5-5某医院对39名前列腺癌患者实施开THANKS!12/13/202243THANKS!12/12/202243中山大学医学统计与流行病学系张晋昕2008.09.23第六章参数估计基础

12/13/202244中山大学医学统计与流行病学系第六章参数估计基础1第一节抽样分布与抽样误差

抽样研究的目的就是要用样本信息来推断相应总体的特征,这一过程称为统计推断。统计推断包括两方面的内容:参数估计和假设检验抽样误差:样本统计量与总体参数之差;抽样误差也表现为样本统计量之间的不同。12/13/202245第一节抽样分布与抽样误差抽样研究的目的1.系统误差:由于受试对象、研究者、仪器设备、研究方法、非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差。可以避免。2.随机误差:由于多种无法控制的偶然因素引起,对同一样品多次测量数据的不一致。无倾向性,不可避免。3.抽样误差:产生的根本原因是个体变异、产生的直接原因是抽样。12/13/2022461.系统误差:由于受试对象、研究者、仪器设备、研究方法、非实

一、样本均数的抽样分布与抽样误差

均数的抽样误差:由个体变异产生的、由于抽样而造成的样本均数与样本均数及样本均数与总体均数之间的差异称为均数的抽样误差。

12/13/202247一、样本均数的抽样分布与抽样误差12/12/202抽样实验:

(a)12/13/202248抽样实验:(a)12/12/20225样本均数的分布特点:1.

各样本均数未必等于总体均数;2.

样本均数之间存在差异;3.

样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布。12/13/202249样本均数的分布特点:12/12/20226标准误的概念用于表示均数抽样误差的指标叫样本均数的标准差,根据其实际意义,常称作样本均数的标准误(standarderror)。12/13/202250标准误的概念用于表示均数抽样误差的指标叫实验5-2图5-1(a)是一个正偏峰的分布,用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图。

(a)原始数据12/13/202251实验5-2图5-1(a)是一个正偏峰的分布,用电脑从中随(b)n=5(c)n=10

(d)n=30(e)n=50其他总体12/13/202252(b)n=5(c)n=10

1)从正态总体N(µ,σ2)中,随机抽取例数为n的多个样本,样本均数服从正态分布;即使是从偏态总体中随机抽样,当n足够大时(如n>30),也近似正态分布。数理统计推理和中心极限定理表明:2)从均数为µ,标准差为σ的正态或偏态总体中抽取例数为n的样本,样本均数的标准差即标准误为。12/13/2022531)从正态总体N(µ,σ2)中,随机抽取例数为n的多身高组段频数组中值fiXi

fiXi2

152.6~1152.9153.2~4153.5153.8~4154.1154.4~22154.7155.0~25155.3155.6~21155.9156.2~17156.5156.8~3157.1157.4~2157.7158.0~1158.3合计100表5-2(b)100个样本均数的频数表与标准误的计算表12/13/202254身高组段频数组中值标准误的大小与σ的大小成正比,与n的平方根成反比,而σ为定值,说明可以通过增加样本例数来减少标准误,以降低抽样误差。σ未知,用样本标准差S来估计总体标准差σ。用来表示均数抽样误差的大小。(标准误的理论值)(标准误的估计值)12/13/202255标准误的大小与σ的大小成正比,与n的平方根成反比,而σ为

例5-12000年某研究所随机调查某地健康成年男子27人,得到血红蛋白的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。12/13/202256例5-12000年某研究所随机调查某地二、样本频率的抽样分布与抽样误差

从同一总体中随机抽出观察单位相等的多个样本,样本率与总体率及各样本率之间都存在差异,这种差异是由于抽样引起的,称为频率的抽样误差。表示频率的抽样误差大小的指标叫频率的标准误。12/13/202257二、样本频率的抽样分布与抽样误差从同一总π:总体率,n:样本例数。当π未知时,p

π(为样本含量足够大,且p和1-p不太小)公式为:

:率的标准误的估计值,p:样本率。据数理统计的原理,率的标准误用表示12/13/202258π:总体率,n:样本例数。据数理统计的原理,率的标准误

例5-2某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试计算该样本频率的抽样误差。12/13/202259例5-2某市随机调查了50岁以上第二节t分布12/13/202260第二节t分布12/12/202217一、t分布的概念在统计应用中,可以把任何一个均数为µ,标准差为σ的正态分布N(µ,σ2)转变为µ=0,σ=1的标准正态分布,即将正态变量值X用来代替。由于服从正态分布,故服从标准正态分布N

(0,1)。12/13/202261一、t分布的概念服从标准正态分布N(0,1)。12/12实际资料的分析中,由于σ往往未知,故标准化转换演变为:服从ν=n-1的t分布,即:12/13/202262实际资料的分析中,由于σ往往未服从ν=n-12/13/20226312/12/202220t分布曲线特点:1)

t分布曲线是单峰分布,它以0为中心,左右对称。2)t分布的形状与样本例数n有关。自由度越小,则越大,t值越分散,曲线的峰部越矮,尾部则偏高。3)当n→∞时,则S逼近σ,t

分布逼近标准正态分布。t分布不是一条曲线,而是一簇曲线。二、t分布的图形和t分布表12/13/202264t分布曲线特点:二、t分布的图形和t分布表12/12υ=∞(标准正态分布)υ=5υ=1012345-1-2-3-4-5f(t)0.10.20.312/13/202265υ=∞(标准正态分布)υ=5υ=1012345-1-2-3-与单侧概率相对应的t值用表示,与双侧概率相对应的t值用表示。

由于t分布是以0为中心的对称分布,表中只列出了正值,故查表时,不管t值正负只用绝对值表示。正确使用t界值表!12/13/202266与单侧概率相对应的t值用表示,与双侧概率相

一、参数估计的概念统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。第三节总体均数及总体概率的估计参数估计点估计(pointestimation)区间估计(intervalestimation)12/13/202267一、参数估计的概念第三节,即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L。1.点估计:

用样本统计量直接作为总体参数的估计值。

例如于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。同理,例5-2中776名50岁以上的中老年妇女骨质疏松症的样本患病率作为总体患病率的点值估计值,即认为该市所有50岁以上的中老年妇女骨质疏松症的总体患病率约为41.5%。

12/13/202268,即认为2000年该地所有健康成年男2.区间估计:按预先给定的置信水平(1-α)估计总体参数的可能位置,该范围就称为总体参数的1-α置信区间(confidenceintervalCI)。预先给定的概率(1-α)称为置信度,常取95%或99%。如无特别说明,一般取双侧95%。可信区间由两个数值即置信限(下限和上限)构成。12/13/2022692.区间估计:按预先给定的置信水平(1-α)估计总体参数的二、总体均数置信区间的计算12/13/202270二、总体均数置信区间的计算12/12/202227通式:(双侧)

(1)σ已知,按标准正态分布原理计算由z分布,标准正态曲线下有95%的z值在±1.96之间。95%的双侧置信区间:99%的双侧置信区间:

12/13/202271通式:(双侧)(1)通式:(双侧)(2)σ未知但样本例数n足够大(n>50)时

由t分布可知,自由度越大,t分布越逼近标准正态分布,此时t曲线下约有95%的t值在±1.96之间,即95%的双侧置信区间:99%的双侧置信区间:12/13/202272通式:(双侧)(2)例5-4某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高的95%置信区间。该市19岁健康男大学生的身高的95%置信区间(171.3,173.1)cm12/13/202273例5-4某市2000年随机测量了90名19岁健康男大学生的(3)σ未知且样本例数n较小时,按t分布原理,此时某自由度的t曲线下约有95%的t值在±t0.05/2(ν)之间,

通式:95%的双侧置信区间:99%的双侧置信区间:tа/2,ν是按自由度ν=n-1,由附表2查得的t值。12/13/202274(3)σ未知且样本例数n较小时,按t分布原理,此时通式例5-3已知某地27例健康成年男性血红蛋白量的均数为

,标准差S=15g/L,试问该地健康成年男性血红蛋白量的95%和99%置信区间。

本例n=27,S=1595%CI:99%CI:12/13/202275例5-3已知某地27例健康成年男性血红蛋白量的均数为思考每一个求出的置信区间,都有95%的可能性涵盖总体均数。12/13/202276思考每一个求出的置信区间,都有95%的可能性涵盖总12/13/20227712/12/202234

置信区间的两个要素

准确度:反映置信度1-α的大小。精度:反映区间的宽度。在一定置信度下,增加样本例数,会减小tа,ν和,可减小区间宽度,提高精度。12/13/202278置信区间的两个要素12/12/202235意义:

95%的参考值范围是指同质总体内包括95%个体值的估计范围。若

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论