参数估计基础-课件_第1页
参数估计基础-课件_第2页
参数估计基础-课件_第3页
参数估计基础-课件_第4页
参数估计基础-课件_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

参数估计基础2023/7/32了解总体特征的最好方法是对总体的每一个体进行观察、试验,但这在医学研究实际中往往不可行。对无限总体不可能对所有个体逐一观察.

对有限总体限于人力、财力、物力、时间或个体过多等原因,不可能也没必要对所有个体逐一研究(如对一批罐头质量检查)。借助抽样研究。2023/7/32023/7/33抽样研究的目的是用样本信息推断总体特征,即用样本资料计算的统计指标推断总体参数常用的统计推断方法有参数估计(总体均数和总体概率的估计)和假设检验2023/7/32023/7/34内容复习参数估计假设检验研究总体统计描述样本统计推断随机抽样统计表统计图统计指标2023/7/32023/7/35第六章总体均数估计抽样误差与标准误t分布总体均数及总体概率的估计案例讨论2023/7/32023/7/36教学目的与要求

掌握:均数和率抽样误差的概念;均数和率标准误的意义和计算;总体均数和总体率区间估计的意义、计算及其适用条件。熟悉:总体均数的点估计;t

0.05,(ν)的概念,标准误和标准差的区别;置信区间与医学参考值范围的区别。了解:t值、t分布、t值表及其应用。2023/7/32023/7/37复习一些概念参数(parameter)与统计量(statistics)参数获取的途径对总体进行研究抽样研究抽样误差(samplingerror)1.抽样误差的概念:由个体变异产生的,随机抽样引起的样本统计量与总体参数间的差异。(抽样误差=总体参数-样本统计量)2.抽样误差产生的原因:3.抽样误差的特点:随机,不可避免,有规律可循。4.在大量重复抽样的情况下,可以展示其规律性2023/7/32023/7/38第一节抽样误差与标准误样本均数的抽样分布与抽样误差样本频率的抽样分布与抽样误差2023/7/3一、抽样试验

从正态分布总体N(5.00,0.502)中,每次随机抽取样本含量n=5,并计算其均数与标准差;重复抽取1000次,获得1000份样本;计算1000份样本的均数与标准差,并对1000份样本的均数作直方图。按上述方法再做样本含量n=10、样本含量n=30的抽样实验;比较计算结果。2023/7/3抽样试验(n=5)2023/7/3抽样试验(n=10)2023/7/3抽样试验(n=30)2023/7/31000份样本抽样计算结果总体的均数总体标准差s均数的均数均数标准差n=55.000.504.990.2212n=105.000.505.000.1580n=305.000.505.000.09202023/7/32023/7/314一、均数的抽样误差样本均数的抽样分布

举例总体样本1样本2样本3……样本n……2023/7/32023/7/315一、均数的抽样误差样本均数的抽样分布

抽样模拟实验假定总体:某年某地13岁女学生身高值

X~N(155.4,5.3)

随机抽样:n=30,K=1002023/7/32023/7/316一、均数的抽样误差μ=155.4σ=5.3………实验6-1从已知的13岁女生身高总体中随机抽样示意图2023/7/32023/7/317100个随机样本的样本均数(n=30)

样本号均数样本号均数1156.751155.72158.152153.73155.653154.84155.254155.65155.055154.86156.456155.67154.957158.2…………45155.495156.146155.996152.747155.397155.148154.698155.349156.199154.650154.7100156.62023/7/32023/7/318一、均数的抽样误差表6-2从总体N(155.4,5.32)抽样得到100个样本均数的频数分布组段(cm)频数频率(%)152.6~11.0153.2~44.0153.8~44.0154.4~2222.0155.0~2525.0155.6~2121.0156.2~1717.0156.8~33.0157.4~22.0158.0~158.611.0合计100100.02023/7/32023/7/319

将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。图6-2从正态分布总体N(155.4,5.3)随机抽样所得样本均数分布2023/7/32023/7/320一、均数的抽样误差

1、样本均数的抽样分布特点各样本均数未必等于总体均数;样本均数之间存在差异;样本均数的分布规律:围绕着总体均数155.4cm,中间多,两边少,左右基本对称,服从正态分布;样本均数的变异较原变量的变异减小。2023/7/32023/7/321一、均数的抽样误差抽样误差概念:由于抽样造成的样本统计量与统计量以及样本统计量与总体参数之间的差异叫作抽样误差。抽样误差产生的基本条件抽样研究个体差异表现形式样本统计量与样本统计量之间的差异样本统计量与总体参数之间的差异2023/7/32023/7/322一、均数的抽样误差

2、均数的抽样误差(1)概念:由个体变异产生的,随机抽样引起的样本均数与总体均数间的差异。(均数的抽样误差=总体均数-样本均数)(2)表现形式:样本均数与总体均数间存在差异样本均数与样本均数间存在差异2023/7/3

m…….2023/7/324均数的抽样误差可表现为样本均数与总体均数的差值均数的抽样误差也可表现为多个样本均数间的离散程度

在实际科研中,上述二者都难以得到。2023/7/32023/7/325

如何度量抽样误差的大小?如何揭示抽样分布的规律?中心极限定理为我们提供解决办法:2023/7/32023/7/326中心极限定理(centrallimittheorem)从均数为、标准差为的总体中独立随机抽样,当样本含量n增加时,样本均数的分布将趋于正态分布,此分布的均数为,标准差为。

X~N~N2023/7/32023/7/327标准误(standarderror,SE)样本统计量的标准差称为标准误,用来衡量抽样误差的大小。样本均数的标准差称为标准误。此标准误与个体变异成正比,与样本含量n的平方根成反比。2023/7/32023/7/3283、均数的标准误(standarderror)(1)概念:将样本均数的标准差称为均数的标准误,它是描述均数抽样误差大小的指标(2)计算:

实际工作中,往往是未知的,一般可用样本标准差s代替:一、均数的抽样误差2023/7/32023/7/3293、均数的标准误

(standarderror)(3)统计学意义均数的标准误越大,样本均数的分布越分散,样本均数离总体均数就越远,样本均数与总体均数的差别越大,抽样误差越大;抽样误差越大,由样本均数估计总体均数的可靠性越差。反之,亦然。(4)影响抽样误差大小的因素

标准差样本含量n

实际工作中,可通过适当增加样本含量n来减少均数的标准误,从而降低抽样误差。2023/7/33个抽样实验结果图示2023/7/32023/7/331

4、总体分布非正态分布时,样本均数的分布规律

中心极限定理表明,即使从非正态总体中随机抽样,只要样本含量足够大,样本均数的分布也趋于正态分布.样本均数的总体均数仍等于μ;样本均数的标准误仍满足均数标准误的计算式;当n较小时,样本均数的分布是偏态的;当n足够大(n≥50)样本均数的分布近似正态分布一、均数的抽样误差2023/7/32023/7/332

非正态总体样本均数的抽样实验图6-1(a)是一个正偏峰的分布,用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图2023/7/32023/7/338影响抽样误差大小的因素有:⑴样本标准差。S越大,也就越大。⑵样本含量。n越大,抽样误差越小。因此如在一定标准差条件下,加大样本含量,可减少抽样误差,以保证的样本均数的代表性和可靠性。2023/7/32023/7/339例6-12000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。

===2.89g/L2023/7/32023/7/340样本频率的抽样分布与抽样误差

在一口袋内装有形状、重量完全相同的黑球和白球,已知黑球比例为20%(总体概率π=20%),从口袋中每摸一次看清颜色后放回去,搅匀后再摸,重复摸球35次(n=35),计算摸到黑球的百分比(样本频率p

i)。重复这样的实验100次,每次得到100个黑球的比例分别为14.4%,19.8%,20.2%,22.5%,······等,将其频数分布列于表6-3。2023/7/32023/7/341黑球比例%样本频数样本频率(%)5.0~33.08.0~77.011.0~55.014.0~88.017.0~1616.020.0~2222.022.0~1515.025.0~77.028.0~77.031.0~55.034.0~33.040.0~22.0合计100100.0

表6-3总体概率为20%时的随机抽样结果(ni=35)2023/7/32023/7/342抽样分布与抽样误差频率的抽样误差:这种样本率样本频率与样本率样本频率之间、样本率样本频率与总体率总体概率之间的差异。频率的标准误:表示频率的抽样误差的指标2023/7/32023/7/343样本频率的总体均数参数为π,

率的标准误计算公式公式2023/7/32023/7/344例6-2某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估计该样本频率的抽样误差。

p=41.5%=0.415,n=776=2023/7/32023/7/345思考题:什么是抽样误差?决定抽样误差大小的因素有哪些?抽样误差能避免么?抽样误差有规律么?标准误和标准差有何区别与联系?2023/7/32023/7/346标准误和标准差有何区别与联系2023/7/32023/7/347第二节t分布t分布的概念t分布的特征t界值表2023/7/32023/7/348一、t分布的概念随机变量X~N(m,s2)标准正态分布N(0,1)Z变换t分布(ν=n-1)标准正态分布N(0,1)2023/7/32023/7/349t分布设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为和s,设:

则t值服从自由度为n-1的t分布(t-distribution)。Gosset于1908年在《生物统计》杂志上发表该论文时用的是笔名“Student”,故t分布又称Studentt分布。

2023/7/32023/7/350二、t值与t分布学习t分布的意义事实上,任何一个样本统计量均有其分布的特点和规律。统计量的抽样分布规律是进行统计推断的理论基础。

t分布是十分有用的,它是总体均数的区间估计和假设检验的理论基础。2023/7/32023/7/352三、t分布的特征t分布的图形t分布的参数:ν=n-1自由度ν对图形的影响t分布的极限是标准正态分布t分布曲线下的尾部面积(概率)-t界值表2023/7/32023/7/353t分布t值的分布与自由度

有关(实际是样本含量n不同)。t

分布的图形不是一条曲线,而是一簇曲线。υ=∞(标准正态分布)υ=5υ=1012345-1-2-3-4-5f(t)0.10.20.3图6-3不同自由度下的t分布图2023/7/32023/7/354t分布的特征

t分布为一簇单峰分布曲线t分布以0为中心,左右对称t分布只有一个特征参数,即为自由度(υ)。

t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高,;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。

2023/7/32023/7/355

=∞(标准正态曲线)

=5

=10.10.2-4-3-2-1012340.3

图6.4自由度分别为1、5、∞时的t分布2023/7/32023/7/356t分布曲线下的面积规律同标准正态分布一样,统计应用中最关心的是t分布曲线下的尾部面积(即概率)与横轴t值间的关系。每一自由度下的t分布曲线都有其自身分布规律2023/7/32023/7/357t界值表

(tcriticalvalue)统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度下的t界值表(附表3)(439页)横标目为自由度(υ=n-1)

纵标目为概率P(即曲线下尾部阴影部分面积)表中的数字为相应的t界值(t≥0)单侧概率(one-tailedprobability)所对应的t界值记为tα,ν双侧概率(two-tailedprobability)所对应的t界值记为tα/2,ν2023/7/32023/7/3582023/7/32023/7/359更一般的表示方法如图5-4(a)和(b)中阴影部分所示为:单侧:P(t

t,

)=

和P(t

t,

)=双侧:P(t

t/2,

)+P(t

t/2,

)=2023/7/32023/7/360t界值表

(tcriticalvalue)不同自由度下的t界值表:附表2

查t0.05,16=1.746(单侧)

P(t≥1.746)=0.05或P(t≤-1.746)=0.05

查t0.05/2,16=1.746(双侧)

P(t≥1.746)+P(t≤-1.746)=0.05或P(-1.746<t<1.746)=0.95

t分布曲线的两端尾部面积表示在随机抽样中获得的等于及大于某|t|值(界值)的概率,即P值。2023/7/32023/7/362t界值表

(tcriticalvalue)t界值表的特点

同一自由度下,t值越大则P值越小;

P值相同时,υ越大,则t值越小;在相同的t值时,双侧概率为单侧概率的两倍即t0.10/2,16=t0.05,16=1.746

υ→∞时,t界值为Z界值2023/7/32023/7/363t界值表

(tcriticalvalue)t界值表的用途已知υ和P(α),可查到相应的t界值;已知υ和t界值,可确定单侧或双侧概率P进行总体均数估计和均数的假设检验2023/7/32023/7/364第三节总体均数及总体概率的估计抽样研究:从总体到样本实际工作:由样本推断总体统计推断(statisticalinference)就是根据样本所提供的信息,以一定的概率推断总体的性质。2023/7/32023/7/365第三节总体均数估计参数估计(parameterestimation)的概念概念用样本统计量估计总体参数方法点估计(pointestimation)区间估计(intervalestimation)2023/7/32023/7/366点估计直接用样本统计量作为总体参数的估计值方法简单,但未考虑抽样误差的大小在实际问题中,总体参数往往是未知的,但它们是固定的值,并不是随机变量值。而样本统计量随样本的不同而不同,属随机的。

2023/7/32023/7/367区间估计按一定的概率或可信度(1-),用一个区间估计总体参数所在范围,这个范围称作可信度为1-的可信区间(confidenceinterval,CI),又称置信区间。这种估计方法称为区间估计。通常用样本均数和均数的标准误估计总体均数的95%

(或99%)置信区间2023/7/32023/7/368

总体均数置信区间的计算需考虑:

(1)总体标准差是否已知,(2)样本含量n的大小通常有两类方法:

(1)t分布法——

未知

(2)正态近似法——

已知或

未知但n足够大

总体均数的区间估计的计算:2023/7/32023/7/369一、样本均数估计总体均数总体均数的置信区间1.t分布法适用条件:σ未知时,且n较小(n≤50)按t分布原理估计总体均数的置信区间。计算公式:

2023/7/32023/7/370一、样本均数估计总体均数总体均数的置信区间2、正态近似法适用条件:σ未知但样本含量足够大(n>100)时,按正态分布原理估计总体均数的置信区间。计算公式:2023/7/32023/7/371例1:为了解某地1岁婴儿的血红蛋白浓度,从该地随机抽取了1岁婴儿35人,测得其血红蛋白均数为123.7g/L,标准差为11.9g/L。试估计该地1岁婴儿的血红蛋白平均浓度。分析:已知样本标准差s,样本例数n=35,不知到总体的信息,选用t分布法估计总体均数的可信区间。95%的CI公式为:例2:某地抽得正常成人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,试估计该地正常成人血清胆固醇均数的95%和99%置信区间2023/7/32023/7/372例

随机抽取12名口腔癌患者,检测其发锌含量,得均数为253.05g/g,标准差为27.18g/g,求发锌含量总体均数95%的可信区间。

本例自由度=12-1=11,经查表得t0.05,11=2.201,则即口腔癌患者发锌含量总体均数的95%可信区间为:193.23~321.87(g/g)。用该区间估计口腔癌患者发锌含量总体均数的可信度为95%。

2023/7/32023/7/373-tt02023/7/32023/7/374例

某地120名12岁男孩身高均数为142.67cm,标准差为0.5477cm,计算该地12岁男孩身高总体均数90%的可信区间。因n=120>100,故可以用标准正态分布代替t分布,u0.10=1.64

即该地12岁男孩平均身高的90%可信区间为:141.77~143.57(cm),可认为该地12岁男孩平均身高在141.77~143.57(cm)之间。

2023/7/32023/7/3752023/7/32023/7/376两总体均数差值的置信区间实际工作中,我们常需要估计两总体均数之差的大小,例如正常成年男、女的血红蛋白平均相差多少?糖尿病患者经某药物治疗后,试验组与对照组的总体血糖值平均降低多少?冠心病患者和正常人的血清胆固醇值平均相差多少?我们可以用两样本均数之差()作为两总体均数之差()的点估计。同理,点估计没有考虑抽样误差的大小,需估计两总体均数之差的置信区间。2023/7/32023/7/377假设正态总体和,当,均未知,但时,则两总体均数之差()的双侧()置信区间为:

=

当n1、

n2较大时,可用来近似计算。2023/7/32023/7/378例6.5测定28例结核病患者和34例对照者的脑脊液中镁(mmol/L)的含量,结果见表6.5,试估计结核病人和对照者的脑脊液中镁含量的总体均数之差的95%置信区间。表6.5

两对比组脑脊液中镁含量(mmol/L)组别例数均数标准差结核组281.040.17对照组341.280.142023/7/32023/7/379假定两组方差齐,

查界值表得

(mmol/L)(mmol/L)

故两总体均数之差的95%置信区间为(0.16,0.32)mmol/L,可以认为结核病患者脑脊液中的镁含量较对照人群平均低0.24mmol/L,其95%置信区间为(0.16,0.32)mmol/L。2023/7/32023/7/380总体概率的置信区间

根据样本含量n和样本频率p的大小,可以采用查表法和正态近似法计算总体概率的置信区间。1、查表法

当样本含量n较小,比如n50,特别是p很接近0或100%时,可以通过查相应统计用表(附表7),确定总体概率的置信区间。2023/7/32023/7/381例某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间。解:查概率的置信区间表(附表7),在n=39的横行,X=2的纵列交叉处的数值为1~17

即该手术合并症发生概率的95%置信区间为1%~17%2023/7/32023/7/382注意:附表7中仅列出X

n/2部分;当X>n/2时,应以nX值查表,然后从100中减去查得的数值即为所求的置信区间。2023/7/32023/7/3832、正态近似法

当n足够大,且样本频率p和(1p)均不太小时,如np与n(1p)均大于5时,p的抽样分布接近正态分布,此时总体概率的置信区间

p

z/2Sp

2023/7/32023/7/384例用某种仪器检查已确诊的乳腺癌患者120名,检出乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。解:本例n比较大,且np=94及n(1p)=26均大于5,

p

z/2Sp=p

z0.05/2

=0.7831.96=0.709~0.857

即该仪器乳腺癌总体检出率的95%可信区间置信区间为(70.9%,85.7%)。2023/7/32023/7/385

在某地随机抽取329人,作血清登革热血凝抑制抗体反应检验,结果29人阳性,问(1)调查的329人的抗体阳性率是多少?(2)抗体阳性率的抽样误差是多少?(3)试估计该地人群血清登革热血凝抑制抗体阳性率?2023/7/32023/7/386三、应注意的一些问题

置信区间和置信限的关系准确度与精密度的关系2023/7/32023/7/387正确理解可信区间的涵义可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。所谓95%的可信度是针对可信区间的构建方法而言的。

以均数的95%可信区间为例,其涵义是:如果重复100次抽样,每100个样本所算得的100个可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。2023/7/32023/7/388可信区间和可信限的关系可信限:分别指两个点值,分别称为下限值和上限值。可信区间:是指以上、下可信限为界的一个范围。用公式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论