数值变量资料的统计推断课件_第1页
数值变量资料的统计推断课件_第2页
数值变量资料的统计推断课件_第3页
数值变量资料的统计推断课件_第4页
数值变量资料的统计推断课件_第5页
已阅读5页,还剩205页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3数值变量资料的统计推断

2022/12/1113数值变量资料的统计推断

2022/12/101回顾上一章内容:集中趋势指标:

算术均数、中位数、几何均数离散趋势指标:

全距、四分位数间距、方差、标准差、变异系数正态分布:概念、特征、面积规律、应用医学参考值估计:步骤、估计方法2022/12/112回顾上一章内容:集中趋势指标:2022/12/102A.想知道合肥市现今新生儿出生体重B.根据某几个学校男大一学生的入学体检身高资料,推测该市大一学生男性身高总体参数的估计2022/12/113A.想知道合肥市现今新生儿出生体重2022/12/103A.经常参加锻炼的女子脉搏是否等于74次/分B.比较来自中国广东省与河北省的一年级男大学生身高。以在合工大和中科大的两省男生为样本,得出样本均值分别为168.2cm与169.9cm,推测总体均值是否相等推测某个总体参数是否等于某个值或两个或两个以上的总体参数是否相等2022/12/114A.经常参加锻炼的女子脉搏是否等于74次/分2022/12/本次讲授内容均数的抽样误差t分布,t分布与u分布的区别总体均数的可信区间估计2022/12/115本次讲授内容均数的抽样误差2022/12/105一、均数的抽样误差和标准误第一节抽样误差与总体均数的估计2022/12/116一、均数的抽样误差和标准误第一节2022/12/106例如,从总体均数μ为4.83×/L、标准差为

0.52×/L的正态分布总体N(4.83,0.522)中,随机抽取10人为一个样本(n=10),并计算该样本的均数、标准差。如此重复抽取100次(g=100),可得到100份样本,可得到100对均数和标准差S。正态总体μ=4.83σ=0.521.4.58,0.382.4.90,0.453.4.76,0.49┆99.4.87,0.59100.4.79,0.39S2022/12/117例如,从总体均数μ为4.83×/L、标准差为

抽样误差

samplingerrorofmean:由于抽样而引起的差异。2022/12/118抽样误差2022/12/108图9-1随机抽样所得100个样本均数的分布2022/12/119图9-1随机抽样所得100个样本均数的分布2022/12标准误(standarderror,SE)概念:样本均数的标准差,可用于衡量抽样误差的大小。σ未知σ已知2022/12/1110标准误(standarderror,SE)概念:样本均数计算了100个样本的标准差S,由此可计算样本的标准误大小。2022/12/1111计算了100个样本的标准差S,由此可计算样本的标准误大小。2

100个样本均数的抽样分布特点:②100个样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。③样本均数的分布曲线为中间高,两边低,左右对称,近似服从正态分布。①2022/12/1112100个样本均数的抽样分布特点:②100个样本均数中,各标准误的特点:当样本例数n一定时,标准误与标准差呈正比;当标准差一定时,标准误与样本含量n的平方根呈反比。通过增加样本含量n来降低抽样误差。2022/12/1113标准误的特点:当样本例数n一定时,标准误与标准差呈正比;n=5n=103个抽样实验结果图示2022/12/1114n=5n=103个抽样实验结果图示2022/12/1014标准误的用途衡量抽样误差的大小;估计总体均数的置信区间;用于假设检验。2022/12/1115标准误的用途衡量抽样误差的大小;2022/12/1015标准误与标准差的区别与联系区别:

标准误标准差定义反映抽样误差反映个体变异用途总体均数可信区间医学参考值范围进行统计学检验计算标准误、CV联系:当n一定时标准差大,标准误也大2022/12/1116标准误与标准差的区别与联系区别:联系:当n一定时标准差大,标抽样实验小结

样本的均数围绕总体均数上下波动。均数的标准差即标准误样本均数的标准误(StandardError)

计算公式为:样本的标准差/

从正态总体N(μ,σ2)中抽取样本,获得均数的分布仍近似呈正态分布N(μ,σ2/n)。抽样实验小结二、

t分布(t-distribution)随机变量XN(m,s2)标准正态分布N(0,12)u变换2022/12/1118二、t分布(t-distribution)随机变量X标均数标准正态分布N(0,12)Studentt分布自由度:n-12022/12/1119均数标准正态分布Studentt分布2022/12/101图3-1

不同自由度下的t分布图2022/12/1120图3-1不同自由度下的t分布图2022/12/102t分布的特征

①以0为中心,左右对称的单峰分布;②t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近u分布(标准正态分布);当趋于∞时,t分布即为u分布。2022/12/1121t分布的特征2022/12/1021参数的估计点估计:由样本统计量

直接估计总体参数区间估计:在一定置信度(Confidencelevel)下,估计总体参数可能存在的范围三、总体均数的估计参数的估计点估计:由样本统计量区间估计:在一定置估计正确的概率(1)称为可信度或置信度(confidencelevel),常取95%或99%。置信区间(confidenceinterval,CI)是根据一定的置信度估计得到的区间。

总体均数的95%CI的涵义:从理论上来说,做100次抽样,可算得100个置信区间,平均有95个置信区间包括总体均数,只有5个置信区间不包括总体均数。(一)置信区间的有关概念2022/12/1123估计正确的概率(1)称为可信度或置信度(confiden(二)总体均数置信区间的计算s未知,且n较小,按t分布s已知,或s未知但n足够大,按u分布2022/12/1124(二)总体均数置信区间的计算s未知,且n较小,按t分布202022/12/11252022/12/10252022/12/11262022/12/1026u0.05/2=1.962.σ未知但n较大时,按u分布计算总体均数的可信区间。双侧1-α可信区间为:3.σ已知时,总体均数双侧1-α可信区间为:u0.05/2=1.96=2022/12/1127u0.05/2=1.962.σ未知但n较大时,按u分布计算总(四)总体均数可信区间与参考值范围的区别2022/12/1128(四)总体均数可信区间与参考值范围的区别2022/12/10本讲小结均数的抽样误差标准误:计算公式、意义和特点

t分布及其特征总体均数可信区间含义估计方法与医学参考值的区别2022/12/1129本讲小结均数的抽样误差2022/12/10291正态曲线下面积分布规律是:A.μ±1.96δ范围内占曲线下面积的99%B.μ±1.96δ范围内占曲线下面积的95%C.μ±1δ范围内占曲线下面积的68%D.μ±2.58δ范围内占曲线下面积的95%E.μ±2.58δ范围内占曲线下面积的99%课堂练习题2022/12/11301正态曲线下面积分布规律是:课堂练习题2022/12/10

2某市120名12岁男孩平均身高为143.10cm,标准差为5.67cm,则身高在128.24-157.96cm范围内的理论频数最接近下列哪个值?A.114B.119C.64D.72E.962022/12/11312某市120名12岁男孩平均身高为143.10cm,2

3衡量抽样误差大小的统计指标是:

A.标准差B.变异系数

C.方差D.标准误2022/12/11323衡量抽样误差大小的统计指标是:2022/12/1

4关于t值有:A.与总体均数和样本均数之差成正比

B.与标准误成反比

C.与样本含量有关

D.自由度一定时,t值愈大,P值越小

E.符合正态分布2022/12/11334关于t值有:2022/12/1033数值变量资料的统计推断第二节假设检验的基本思想和基本步骤2022/12/1134数值变量资料的统计推断2022/12/1034学习要点:1.熟悉假设检验的基本思想和步骤;2.掌握t检验和u检验的方法;2022/12/1135学习要点:1.熟悉假设检验的基本思想和步骤;2022/12/(一)假设检验的基本思想—利用反证法的思想假设检验的基本思想和步骤

利用小概率反证法思想,先建立假设;然后在H0成立的条件下计算检验统计量,最后获得P值来判断。当P值小于或等于预先规定的概率值α,就是小概率事件。根据小概率事件的原理:小概率事件在一次抽样中发生的可能性很小,如果他发生了,则有理由怀疑原假设H0,认为其对立面H1成立,该结论可能犯大小为α的错误。2022/12/1136(一)假设检验的基本思想—利用反证法的思想假设检验的基本思想例

某地抽样调查了26名男性管理人员的空腹血糖,均数为4.84mol/L,标准差为0.85mol/L。已知大量调查的一般健康成年男性空腹静脉血糖的均数为4.70mol/L。试问能否认为该地健康男性管理人员的空腹血糖的均值与一般正常健康成年男性的的均值不同?2022/12/1137例某地抽样调查了26名男性管理人员的空腹血糖,均数为4.差异来自哪里?

(1)由于抽样误差造成的.(实际上,但由于抽样误差不能很好代表)(2)该地男性管理人员的空腹血糖与一般健康成年男性空腹静脉血糖()

2022/12/1138差异来自哪里?2022/12/1038

假设检验的目的就是判断差异的原因:求出由抽样误差造成此差异的可能性(概率P)有多大!若P

较大(P>0.05),认为是由于抽样误差造成的。原因(1),实际上若P

较小(P≤0.05),认为不是由于抽样误差造成的。原因(2),实际上>2022/12/1139假设检验的目的就是判断差异的原因:2022/1(二)假设检验的基本步骤1.建立假设2.确定检验水准3.选定检验统计方法,计算检验统计量4.确定P值,作出推断结论2022/12/1140(二)假设检验的基本步骤1.建立假设2022/12/1041、建立假设H0:(无效假设)µ=µ0H1:(备择假设)µ>µ0

µ≠µ0)2、确定检验水准检验水准的意义及确定(单、双侧检验的选择)(1)根据专业知识事先不知道会出现什么结果双侧事先知道只能出现某种结果单侧(2)问题的提法*通常用双侧(除非有充足的理由选用单侧之外,一般选用保守的双侧较稳妥)2022/12/11411、建立假设H1:(备择假设)µ>µ0(µ≠µ0)检3、选定检验方法,计算检验统计量4、确定P值,作出推断结论P值:在H0成立的情况下,获得比现有统计量更极端的概率。2022/12/11423、选定检验方法,计算检验统计量2022/12/1042

(推断的结论=统计结论+专业结论)

P>0.05,按检验水准,不拒绝H0,差异无统计学意义(差异无显著性),还不能认为……不同或不等。

P≤0.05

,按检验水准,拒绝H0,接受H1,差异有统计学意义,可以认为……不同或不等。

P≤0.01,按检验水准,拒绝H0,接受H1,差异有高度统计学意义,可以认为……不同或不等。2022/12/1143(推断的结论=统计结论+专业结论)P>0.05,按确定P值:

(用求出的t值与查表查出的t值比较)查t

值表:

(t

越大,P

越小)

(1)求出t=1.833,P>0.05

(2)求出t=4.18,

P<0.01

(3)求出t=2.96,

0.01<P<0.05(简写为P<0.05)

(4)求出t=3.25,

P=0.01Pt0.050.013.2502.2621.833P>0.054.18P<0.01P<0.052.962022/12/1144确定P值:(t越大,第三节t检验和u检验t检验应用条件:

①当n<100时,要求样本取自正态分布的总体,总体标准差未知;②两小样本均数比较时,要求两样本总体方差相等(σ12=σ22)。2022/12/1145第三节t检验和u检验t检验应用条件:2022/1一、样本均数与总体均数比较的t检验(即:样本均数代表的未知总体均数µ和已知总体均数µ0的比较)2022/12/1146一、样本均数与总体均数比较的t检验(即:样本均数代表的未知总例

已知一般无肝肾疾患的健康人群尿素氮均值为4.882(mmol/L)。16名脂肪肝患者的尿素氮(mmol/L)的测定值为5.74,5.75,4.26,6.24,5.36,8.68,6.47,5.24,4.13,11.8,5.57,5.61,4.37,4.59,5.18,6.96。问脂肪肝患者尿素氮测定值的均数是否高于健康人?2022/12/1147例已知一般无肝肾疾患的健康人群尿素氮均值为4.882((1)建立假设、确定检验水准H0:µ=µ0即脂肪肝患者尿素氮测定值的均值与健康人相等H1:µ>µ0

即脂肪肝患者尿素氮测定值的均值高于一般健康人2022/12/1148(1)建立假设、确定检验水准H0:µ=µ0即脂肪(2)选定检验方法,计算检验统计量n=16<100,故选用t检验。已知2022/12/1149(2)选定检验方法,计算检验统计量n=16<100,故选用t(3)确定P值,作出推断结论

查t界值表

为单侧检验Pt0.050.012.6021.725P<0.0252.32P<0.05,按检验水准,拒绝H0

,接受H1,认为脂肪肝患者尿素氮测定值的均数高于健康人。0.0252.1312022/12/1150(3)确定P值,作出推断结论Pt0.050.012.6021二、配对设计的均数比较常见的配对设计主要有以下情形:①自身比较:同一受试对象处理前后或不同部位测定值的比较。(目的是判断此处理有无作用)②同一受试对象(或样品)分别接受两种不同的处理。(目的是比较不同方法之间的差异)③成对设计:将条件近似的观察对象两两配成对子,对子中的两个个体分别给予不同的处理。(目的是比较不同方法之间的差异)2022/12/1151二、配对设计的均数比较常见的配对设计主要有以下情形:2022配对t检验的基本原理:

假设两种处理的效应相同,即µ1=µ2

,则µ1-µ2=0,即可看成是差值的样本均数所代表的未知总体均数µd与已知总体均数µ0=0的比较,此时,我们可套用前述t检验的公式。2022/12/1152配对t检验的基本原理:2022/12/1052例

应用某药治疗8例高胆固醇患者,观察治疗前后血浆胆固醇变化情况,如表9-1,问该药是否对患者治疗前后血浆胆固醇变化有影响?表

用某药治疗前后血浆胆固醇变化情况病人编号血浆胆固醇(mmol/L)差值dd2治疗前治疗后⑴⑵⑶⑷=⑵-⑶1

10.10

6.69

3.4111.632

6.78

5.40

1.83

3.353

13.22

12.67

0.55

0.304

7.78

6.56

1.22

1.495

7.47

5.65

1.82

3.316

6.11

5.26

0.85

0.727

6.02

5.43

0.59

0.358

8.08

6.26

1.823.319

7.56

5.06

2.50

6.25合计--

14.59

30.712022/12/1153例应用某药治疗8例高胆固醇患者,观察治疗前后血浆胆固醇变

H0:该药对血浆胆固醇无影响。

H1:该药对血浆胆固醇有影响。2022/12/1154H0:该药对血浆胆固醇无影Pt0.050.011.860P<0.0055.172.896⑶确定P值,判断结果

自由度ν=n-1=9-1=8,查表9-1t界值表,t0.005,8=3.355,今5.17>3.355,故P<0.05,故按α=0.05水准,拒绝H0,接受H1,认为差异有高度显著性,可以认为该药对血浆胆固醇有影响。0.0053.3552022/12/1155Pt0.050.011.860P<0.0055.172.89三、两个样本均数比较的t检验大样本(n>50)----u检验小样本---正态分布资料t检验偏态分布资料秩和检验2022/12/1156三、两个样本均数比较的t检验大样本(n>50)----u检验1、两个大样本均数的比较2022/12/11571、两个大样本均数的比较2022/12/1057

某地随机抽取正常男性264名,测得空腹血中胆固醇浓度的均数为4.404mmol/L,标准差为1.169mmol/L;随机抽取正常女性160名,测得空腹血中胆固醇浓度的均数为4.288mmol/L,标准差为1.106mmol/L,问男、女胆固醇浓度有无差别?2022/12/1158例某地随机抽取正常男性264名,测得空腹血中胆固醇浓度⑴建立假设,确定检验水准

H0:μ1=μ2

H1:μ1≠μ2

α=0.05⑵选择检验方法,计算检验统计量u值(n1,n2>50)2022/12/1159⑴建立假设,确定检验水准2022/12/1059(3)查u界值表(t界值表中自由度为的一行),u=1.02<1.96,故P>0.05,按=0.05水准,不拒绝H0,差异无统计学意义;尚不能认为正常男女血中胆固醇浓度均数不同。2022/12/1160(3)查u界值表(t界值表中自由度为的一行)2、两个小样本均数的比较2022/12/11612、两个小样本均数的比较2022/12/1061例

从40-59岁有无肾脏囊肿的女性中分别随机抽取10与12人,测定她们的尿素氮水平(mmol/L)见下表,问有肾囊肿女性尿素氮水平是否高于无肾囊肿女性?表

40-59岁有无肾脏囊肿的女性尿素氮水平(mmol/L)无肾囊肿4.054.185.934.302.417.606.612.985.934.184.05有肾囊肿4.544.633.64

5.076.445.62

6.144.816.422022/12/1162例从40-59岁有无肾脏囊肿的女性中分别随机抽取10与1⑴建立假设,确定检验水准H0:μ1=μ2H1:μ1<μ2α=0.05⑵选择检验方法,计算检验统计量t值2022/12/1163⑴建立假设,确定检验水准2022/12/10632022/12/11642022/12/1064⑶确定P值,判断结果

查t界值表,t0.05,20=1.725,今1.46<1.725,故P>0.05,故按α=0.05水准,不拒绝H0,尚不能认为有肾囊肿的女性尿素氮水平高于无肾囊肿的女性。PP=?t=1.46P=0.05tt=1.7252022/12/1165⑶确定P值,判断结果PP=?t=1.46P=0.05tt=思考题:

两样本比较作t检验,差别有统计学意义时,P值越小说明A两样本均数差别越大B两总体均数差别越大C两总体均数差别越小D越有理由认为两样本均数不同E越有理由认为两总体均数不同2022/12/1166思考题:两样本比较作t检验,差别第四节方差分析

(analysisofvariance,ANOVA)又称变异数分析或F检验*用途:适用于对多个平均数进行假设检验;以检验所得的多个平均数是否来自相同总体。*对资料的要求:1独立性:每个个体的测量值相互独立;2正态性:总体服从或近似服从正态分布;3方差齐:总体的方差相等。2022/12/1167第四节方差分析

(analysisofvarian一、单因素方差分析单向方差分析(onewayanalysisofvariance)或成组设计(完全随机设计)方差分析,是指试验研究的处理因素,或调查研究资料的分类方式只有一种。这个处理因素(或分类方式)包含有多个离散的水平,分析在不同水平上应变量的平均值是否来自相同总体2022/12/1168一、单因素方差分析单向方差分析(onewayanalyXij表示第i个处理组的第j个观察值,i=1,2,…k,j=1,2,…ni

*(一)基本思想2022/12/1169Xij表示第i个处理组的第j个观察值,i=1,2,…k,j例某院外科对自行制备的三种消毒剂的杀菌效果进行考察,经过使用,以被消毒物品的残余细菌数(cfu/m2)为评价指标。试验结果如表12-5所示,试问三种消毒剂的效果是否存在差异?2022/12/1170例某院外科对自行制备的三种消毒剂的杀菌效果进2022/12/11712022/12/1071变异原因变异表现处理因素(如不同的预防、治疗方案、不同的自然条件等)组间变异随机因素(含随机测量误差,抽样误差,个体变异等)组内变异T+EE组间均方MS组间组内均方MS组内F=MS组间/MS组内若无效假设成立,组内均方MS组间和组间均方MS组内是随机误差方差σ2的估计值,F值理论上应当等于1,F值有抽样误差;F分布是一种偏态分布。它的分布曲线由分子与分母两个自由度决定。方差分析基本思想示意图2022/12/1172变异原因变异表现处1=4,2=10的F值曲线和

=0.05时界值统计量F值等于或大于临界Fα(1,2)值时,就在α水准上拒绝无效假设,否则就不拒绝无效假设。2022/12/11731=4,2=10的F值曲线和=0.05时界值统计2022/12/11742022/12/10741、总变异(sumofsquaresofdeviationfrommean)2022/12/11751、总变异(sumofsquaresofdeviat2、组间变异3、组内变异2022/12/11762、组间变异3、组内变异2022/12/10764、三种变异的关系5、假设检验统计量2022/12/11774、三种变异的关系5、假设检验统计量2022/12/10772022/12/11782022/12/1078(二)分析步骤1.提出检验假设及规定Ⅰ类错误概率水准α的大小。H0:µ1=µ2=…=µk,各组所代表的总体平均值相等;H1:µi≠µj,至少有一个不等式成立。i、j=1,2,…,i≠j。α=0.05。2.计算统计量F3.确定概率,统计推断2022/12/1179(二)分析步骤2022/12/10792022/12/11802022/12/1080

1.建立假设:H0:三类人的空腹血糖均数相同

H1:三类人的空腹血糖均数不全相同α=0.05。2.计算各种离均差平方和、自由度、均方、F值2022/12/11811.建立假设:H0:三类人的空腹血糖均数相同2022/12/

ν总

=N-1=33-1=32,ν组间=k-1=3-1=2,ν组内=N-k=33-3=30MS组间=SS组间∕ν组间=6.7∕2=3.35,MS组内=SS组内∕ν组内=5.63∕30=0.19

F=MS组间∕MS组内=3.35∕0.19=17.632022/12/1182ν总=N-1=33-1=32,2022/12/10822022/12/11832022/12/1083

随机区组设计的两因素方差分析随机区组设计(randomizedblockdesign)是事先将全部受试对象按某种可能与实验因素有关的特征分为若干个区组(block),相当于配对的扩大。例5.22022/12/1184随机区组设计的两因素方差分析2022/12/1081、随机区组设计方差分析变异的分解2022/12/11851、随机区组设计方差分析变异的分解2022/12/1085上式中,总平均值为:处理组平均值为:区组平均值为:2022/12/1186上式中,总平均值为:2022/12/10862、分析计算步骤(1)建立检验假设和确定检验水准H0:三种营养素喂养的小白鼠体重增量相等,8个区组的体重增量相等,即1=2=3,1=2=3=4=5=6=7=8H1:三种营养素喂养的小白鼠体重增量不相等,或不全相等;8个区组的体重增量相等或不全相等,=0.05(2)计算检验统计量F值2022/12/11872、分析计算步骤2022/12/1087上式中:2022/12/1188上式中:2022/12/10882022/12/11892022/12/10892022/12/11902022/12/10902022/12/11912022/12/10912022/12/11922022/12/1092(3)确定P值和作出推断结论F0.05(2,14)=3.74,F处理<F,P>0.05,不拒绝H0。F0.05(7,14)=2.77,F区组>

F,P<0.05,拒绝H0。2022/12/1193(3)确定P值和作出推断结论2022/12/1093

二、多个样本均数间两两比较的q检验

在有k个样本均数的情形下,若进行t检验,可作k!/[2!(k-2)!]次比较,对每个样本均数都要重复比较k-1次,5个均数比较,作10次t检验,=0.05,不犯I类错误的概率(1-0.05)10=0.9510=0.5987,总的检验水准为1-.5987=0.4013。本来差别无统计学意义,则判断为差别有统计学意义。故应用多重比较方法。检验多个样本均数间差别的无效假设H0,检验总体均数是否相等2022/12/1194二、多二、多个样本均数间两两比较的q检验将比较的均数按大小顺序排列,标上秩次,计算q值2022/12/1195二、多个样本均数间两两比较的q检验将比较的均数按大小顺序排列2022/12/11962022/12/10962022/12/11972022/12/1097

变量变换

1、对数变换常用于(1)使对数正态分布资料正态化,(2)使方差齐性,特别是标准差与均数成比例,或变异系数接近常数。

2、平方根变换用途(1)Poisson分布计数资料或轻度偏态资料正态化,(2)样本方差与均数呈正相关,可使资料达到方差齐性。

3、倒数转换用途:数据两端波动较大的资料,使极端值的影响减小。

4、平方根反正弦变换用途:服从二项分布的率或百分比资料。2022/12/1198

用角度表示:用弧度表示:2022/12/11992022/12/10992022/12/111002022/12/10100数值变量的统计分析总结一、描述性分析集中趋势:离散趋势:正态分布:医学参考值估计二、统计推断抽样误差、标准误、t分布、u分布总体均数可信区间两个均数的比较:与总体均数、配对资料、两个均数比较两个及两个以上的均数比较:方差分析、q检验2022/12/11101数值变量的统计分析总结一、描述性分析2022/12/1010第五节假设检验中的两类错误及应注意的问题一、两类错误假设检验建立在小概率原理上的判断,无论拒绝还是不拒绝H0,都有可能犯错误。拒绝了实际正确的无效假设H0称为犯了第Ⅰ类错误(typeIerror),概率用表示,通常称之为检验水准(levelofsignificance),常取=0.05;接受了实际上错误的无效假设H0称为犯了第Ⅱ类错误(typeⅡerror)。概率用表示。在统计学中将1-称为检验效能(poweroftest),其意义是当两个总体存在差异时(即备择假设H1成立时),所使用的统计检验能够发现这种差异(拒绝无效假设H0)的能力。2022/12/11102第五节假设检验中的两类错误及应注意的问题一、两类错误2092022/12/1110392022/12/10103二、假设检验应注意的问题1、资料必须合乎随机化抽样原则这样的样本具有代表性和均衡可比性。2、选用的假设检验方法应符合其应用条件资料性质不同、设计类型不同以及样本例数的多少,所选用的检验方法也不同。2022/12/11104二、假设检验应注意的问题1、资料必须合乎随机化抽样原则这3、实际差别大小与统计意义的区别要正确理解假设检验的结论。4、进行假设检验时,对差异有无统计意义的判断不能绝对化。5、假设检验的单侧检验与双侧检验的正确选择。2022/12/111053、实际差别大小与统计意义的区别要正确理解假设检验的结论3数值变量资料的统计推断

2022/12/111063数值变量资料的统计推断

2022/12/101回顾上一章内容:集中趋势指标:

算术均数、中位数、几何均数离散趋势指标:

全距、四分位数间距、方差、标准差、变异系数正态分布:概念、特征、面积规律、应用医学参考值估计:步骤、估计方法2022/12/11107回顾上一章内容:集中趋势指标:2022/12/102A.想知道合肥市现今新生儿出生体重B.根据某几个学校男大一学生的入学体检身高资料,推测该市大一学生男性身高总体参数的估计2022/12/11108A.想知道合肥市现今新生儿出生体重2022/12/103A.经常参加锻炼的女子脉搏是否等于74次/分B.比较来自中国广东省与河北省的一年级男大学生身高。以在合工大和中科大的两省男生为样本,得出样本均值分别为168.2cm与169.9cm,推测总体均值是否相等推测某个总体参数是否等于某个值或两个或两个以上的总体参数是否相等2022/12/11109A.经常参加锻炼的女子脉搏是否等于74次/分2022/12/本次讲授内容均数的抽样误差t分布,t分布与u分布的区别总体均数的可信区间估计2022/12/11110本次讲授内容均数的抽样误差2022/12/105一、均数的抽样误差和标准误第一节抽样误差与总体均数的估计2022/12/11111一、均数的抽样误差和标准误第一节2022/12/106例如,从总体均数μ为4.83×/L、标准差为

0.52×/L的正态分布总体N(4.83,0.522)中,随机抽取10人为一个样本(n=10),并计算该样本的均数、标准差。如此重复抽取100次(g=100),可得到100份样本,可得到100对均数和标准差S。正态总体μ=4.83σ=0.521.4.58,0.382.4.90,0.453.4.76,0.49┆99.4.87,0.59100.4.79,0.39S2022/12/11112例如,从总体均数μ为4.83×/L、标准差为

抽样误差

samplingerrorofmean:由于抽样而引起的差异。2022/12/11113抽样误差2022/12/108图9-1随机抽样所得100个样本均数的分布2022/12/11114图9-1随机抽样所得100个样本均数的分布2022/12标准误(standarderror,SE)概念:样本均数的标准差,可用于衡量抽样误差的大小。σ未知σ已知2022/12/11115标准误(standarderror,SE)概念:样本均数计算了100个样本的标准差S,由此可计算样本的标准误大小。2022/12/11116计算了100个样本的标准差S,由此可计算样本的标准误大小。2

100个样本均数的抽样分布特点:②100个样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。③样本均数的分布曲线为中间高,两边低,左右对称,近似服从正态分布。①2022/12/11117100个样本均数的抽样分布特点:②100个样本均数中,各标准误的特点:当样本例数n一定时,标准误与标准差呈正比;当标准差一定时,标准误与样本含量n的平方根呈反比。通过增加样本含量n来降低抽样误差。2022/12/11118标准误的特点:当样本例数n一定时,标准误与标准差呈正比;n=5n=103个抽样实验结果图示2022/12/11119n=5n=103个抽样实验结果图示2022/12/1014标准误的用途衡量抽样误差的大小;估计总体均数的置信区间;用于假设检验。2022/12/11120标准误的用途衡量抽样误差的大小;2022/12/1015标准误与标准差的区别与联系区别:

标准误标准差定义反映抽样误差反映个体变异用途总体均数可信区间医学参考值范围进行统计学检验计算标准误、CV联系:当n一定时标准差大,标准误也大2022/12/11121标准误与标准差的区别与联系区别:联系:当n一定时标准差大,标抽样实验小结

样本的均数围绕总体均数上下波动。均数的标准差即标准误样本均数的标准误(StandardError)

计算公式为:样本的标准差/

从正态总体N(μ,σ2)中抽取样本,获得均数的分布仍近似呈正态分布N(μ,σ2/n)。抽样实验小结二、

t分布(t-distribution)随机变量XN(m,s2)标准正态分布N(0,12)u变换2022/12/11123二、t分布(t-distribution)随机变量X标均数标准正态分布N(0,12)Studentt分布自由度:n-12022/12/11124均数标准正态分布Studentt分布2022/12/101图3-1

不同自由度下的t分布图2022/12/11125图3-1不同自由度下的t分布图2022/12/102t分布的特征

①以0为中心,左右对称的单峰分布;②t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近u分布(标准正态分布);当趋于∞时,t分布即为u分布。2022/12/11126t分布的特征2022/12/1021参数的估计点估计:由样本统计量

直接估计总体参数区间估计:在一定置信度(Confidencelevel)下,估计总体参数可能存在的范围三、总体均数的估计参数的估计点估计:由样本统计量区间估计:在一定置估计正确的概率(1)称为可信度或置信度(confidencelevel),常取95%或99%。置信区间(confidenceinterval,CI)是根据一定的置信度估计得到的区间。

总体均数的95%CI的涵义:从理论上来说,做100次抽样,可算得100个置信区间,平均有95个置信区间包括总体均数,只有5个置信区间不包括总体均数。(一)置信区间的有关概念2022/12/11128估计正确的概率(1)称为可信度或置信度(confiden(二)总体均数置信区间的计算s未知,且n较小,按t分布s已知,或s未知但n足够大,按u分布2022/12/11129(二)总体均数置信区间的计算s未知,且n较小,按t分布202022/12/111302022/12/10252022/12/111312022/12/1026u0.05/2=1.962.σ未知但n较大时,按u分布计算总体均数的可信区间。双侧1-α可信区间为:3.σ已知时,总体均数双侧1-α可信区间为:u0.05/2=1.96=2022/12/11132u0.05/2=1.962.σ未知但n较大时,按u分布计算总(四)总体均数可信区间与参考值范围的区别2022/12/11133(四)总体均数可信区间与参考值范围的区别2022/12/10本讲小结均数的抽样误差标准误:计算公式、意义和特点

t分布及其特征总体均数可信区间含义估计方法与医学参考值的区别2022/12/11134本讲小结均数的抽样误差2022/12/10291正态曲线下面积分布规律是:A.μ±1.96δ范围内占曲线下面积的99%B.μ±1.96δ范围内占曲线下面积的95%C.μ±1δ范围内占曲线下面积的68%D.μ±2.58δ范围内占曲线下面积的95%E.μ±2.58δ范围内占曲线下面积的99%课堂练习题2022/12/111351正态曲线下面积分布规律是:课堂练习题2022/12/10

2某市120名12岁男孩平均身高为143.10cm,标准差为5.67cm,则身高在128.24-157.96cm范围内的理论频数最接近下列哪个值?A.114B.119C.64D.72E.962022/12/111362某市120名12岁男孩平均身高为143.10cm,2

3衡量抽样误差大小的统计指标是:

A.标准差B.变异系数

C.方差D.标准误2022/12/111373衡量抽样误差大小的统计指标是:2022/12/1

4关于t值有:A.与总体均数和样本均数之差成正比

B.与标准误成反比

C.与样本含量有关

D.自由度一定时,t值愈大,P值越小

E.符合正态分布2022/12/111384关于t值有:2022/12/1033数值变量资料的统计推断第二节假设检验的基本思想和基本步骤2022/12/11139数值变量资料的统计推断2022/12/1034学习要点:1.熟悉假设检验的基本思想和步骤;2.掌握t检验和u检验的方法;2022/12/11140学习要点:1.熟悉假设检验的基本思想和步骤;2022/12/(一)假设检验的基本思想—利用反证法的思想假设检验的基本思想和步骤

利用小概率反证法思想,先建立假设;然后在H0成立的条件下计算检验统计量,最后获得P值来判断。当P值小于或等于预先规定的概率值α,就是小概率事件。根据小概率事件的原理:小概率事件在一次抽样中发生的可能性很小,如果他发生了,则有理由怀疑原假设H0,认为其对立面H1成立,该结论可能犯大小为α的错误。2022/12/11141(一)假设检验的基本思想—利用反证法的思想假设检验的基本思想例

某地抽样调查了26名男性管理人员的空腹血糖,均数为4.84mol/L,标准差为0.85mol/L。已知大量调查的一般健康成年男性空腹静脉血糖的均数为4.70mol/L。试问能否认为该地健康男性管理人员的空腹血糖的均值与一般正常健康成年男性的的均值不同?2022/12/11142例某地抽样调查了26名男性管理人员的空腹血糖,均数为4.差异来自哪里?

(1)由于抽样误差造成的.(实际上,但由于抽样误差不能很好代表)(2)该地男性管理人员的空腹血糖与一般健康成年男性空腹静脉血糖()

2022/12/11143差异来自哪里?2022/12/1038

假设检验的目的就是判断差异的原因:求出由抽样误差造成此差异的可能性(概率P)有多大!若P

较大(P>0.05),认为是由于抽样误差造成的。原因(1),实际上若P

较小(P≤0.05),认为不是由于抽样误差造成的。原因(2),实际上>2022/12/11144假设检验的目的就是判断差异的原因:2022/1(二)假设检验的基本步骤1.建立假设2.确定检验水准3.选定检验统计方法,计算检验统计量4.确定P值,作出推断结论2022/12/11145(二)假设检验的基本步骤1.建立假设2022/12/1041、建立假设H0:(无效假设)µ=µ0H1:(备择假设)µ>µ0

µ≠µ0)2、确定检验水准检验水准的意义及确定(单、双侧检验的选择)(1)根据专业知识事先不知道会出现什么结果双侧事先知道只能出现某种结果单侧(2)问题的提法*通常用双侧(除非有充足的理由选用单侧之外,一般选用保守的双侧较稳妥)2022/12/111461、建立假设H1:(备择假设)µ>µ0(µ≠µ0)检3、选定检验方法,计算检验统计量4、确定P值,作出推断结论P值:在H0成立的情况下,获得比现有统计量更极端的概率。2022/12/111473、选定检验方法,计算检验统计量2022/12/1042

(推断的结论=统计结论+专业结论)

P>0.05,按检验水准,不拒绝H0,差异无统计学意义(差异无显著性),还不能认为……不同或不等。

P≤0.05

,按检验水准,拒绝H0,接受H1,差异有统计学意义,可以认为……不同或不等。

P≤0.01,按检验水准,拒绝H0,接受H1,差异有高度统计学意义,可以认为……不同或不等。2022/12/11148(推断的结论=统计结论+专业结论)P>0.05,按确定P值:

(用求出的t值与查表查出的t值比较)查t

值表:

(t

越大,P

越小)

(1)求出t=1.833,P>0.05

(2)求出t=4.18,

P<0.01

(3)求出t=2.96,

0.01<P<0.05(简写为P<0.05)

(4)求出t=3.25,

P=0.01Pt0.050.013.2502.2621.833P>0.054.18P<0.01P<0.052.962022/12/11149确定P值:(t越大,第三节t检验和u检验t检验应用条件:

①当n<100时,要求样本取自正态分布的总体,总体标准差未知;②两小样本均数比较时,要求两样本总体方差相等(σ12=σ22)。2022/12/11150第三节t检验和u检验t检验应用条件:2022/1一、样本均数与总体均数比较的t检验(即:样本均数代表的未知总体均数µ和已知总体均数µ0的比较)2022/12/11151一、样本均数与总体均数比较的t检验(即:样本均数代表的未知总例

已知一般无肝肾疾患的健康人群尿素氮均值为4.882(mmol/L)。16名脂肪肝患者的尿素氮(mmol/L)的测定值为5.74,5.75,4.26,6.24,5.36,8.68,6.47,5.24,4.13,11.8,5.57,5.61,4.37,4.59,5.18,6.96。问脂肪肝患者尿素氮测定值的均数是否高于健康人?2022/12/11152例已知一般无肝肾疾患的健康人群尿素氮均值为4.882((1)建立假设、确定检验水准H0:µ=µ0即脂肪肝患者尿素氮测定值的均值与健康人相等H1:µ>µ0

即脂肪肝患者尿素氮测定值的均值高于一般健康人2022/12/11153(1)建立假设、确定检验水准H0:µ=µ0即脂肪(2)选定检验方法,计算检验统计量n=16<100,故选用t检验。已知2022/12/11154(2)选定检验方法,计算检验统计量n=16<100,故选用t(3)确定P值,作出推断结论

查t界值表

为单侧检验Pt0.050.012.6021.725P<0.0252.32P<0.05,按检验水准,拒绝H0

,接受H1,认为脂肪肝患者尿素氮测定值的均数高于健康人。0.0252.1312022/12/11155(3)确定P值,作出推断结论Pt0.050.012.6021二、配对设计的均数比较常见的配对设计主要有以下情形:①自身比较:同一受试对象处理前后或不同部位测定值的比较。(目的是判断此处理有无作用)②同一受试对象(或样品)分别接受两种不同的处理。(目的是比较不同方法之间的差异)③成对设计:将条件近似的观察对象两两配成对子,对子中的两个个体分别给予不同的处理。(目的是比较不同方法之间的差异)2022/12/11156二、配对设计的均数比较常见的配对设计主要有以下情形:2022配对t检验的基本原理:

假设两种处理的效应相同,即µ1=µ2

,则µ1-µ2=0,即可看成是差值的样本均数所代表的未知总体均数µd与已知总体均数µ0=0的比较,此时,我们可套用前述t检验的公式。2022/12/11157配对t检验的基本原理:2022/12/1052例

应用某药治疗8例高胆固醇患者,观察治疗前后血浆胆固醇变化情况,如表9-1,问该药是否对患者治疗前后血浆胆固醇变化有影响?表

用某药治疗前后血浆胆固醇变化情况病人编号血浆胆固醇(mmol/L)差值dd2治疗前治疗后⑴⑵⑶⑷=⑵-⑶1

10.10

6.69

3.4111.632

6.78

5.40

1.83

3.353

13.22

12.67

0.55

0.304

7.78

6.56

1.22

1.495

7.47

5.65

1.82

3.316

6.11

5.26

0.85

0.727

6.02

5.43

0.59

0.358

8.08

6.26

1.823.319

7.56

5.06

2.50

6.25合计--

14.59

30.712022/12/11158例应用某药治疗8例高胆固醇患者,观察治疗前后血浆胆固醇变

H0:该药对血浆胆固醇无影响。

H1:该药对血浆胆固醇有影响。2022/12/11159H0:该药对血浆胆固醇无影Pt0.050.011.860P<0.0055.172.896⑶确定P值,判断结果

自由度ν=n-1=9-1=8,查表9-1t界值表,t0.005,8=3.355,今5.17>3.355,故P<0.05,故按α=0.05水准,拒绝H0,接受H1,认为差异有高度显著性,可以认为该药对血浆胆固醇有影响。0.0053.3552022/12/11160Pt0.050.011.860P<0.0055.172.89三、两个样本均数比较的t检验大样本(n>50)----u检验小样本---正态分布资料t检验偏态分布资料秩和检验2022/12/11161三、两个样本均数比较的t检验大样本(n>50)----u检验1、两个大样本均数的比较2022/12/111621、两个大样本均数的比较2022/12/1057

某地随机抽取正常男性264名,测得空腹血中胆固醇浓度的均数为4.404mmol/L,标准差为1.169mmol/L;随机抽取正常女性160名,测得空腹血中胆固醇浓度的均数为4.288mmol/L,标准差为1.106mmol/L,问男、女胆固醇浓度有无差别?2022/12/11163例某地随机抽取正常男性264名,测得空腹血中胆固醇浓度⑴建立假设,确定检验水准

H0:μ1=μ2

H1:μ1≠μ2

α=0.05⑵选择检验方法,计算检验统计量u值(n1,n2>50)2022/12/11164⑴建立假设,确定检验水准2022/12/1059(3)查u界值表(t界值表中自由度为的一行),u=1.02<1.96,故P>0.05,按=0.05水准,不拒绝H0,差异无统计学意义;尚不能认为正常男女血中胆固醇浓度均数不同。2022/12/11165(3)查u界值表(t界值表中自由度为的一行)2、两个小样本均数的比较2022/12/111662、两个小样本均数的比较2022/12/1061例

从40-59岁有无肾脏囊肿的女性中分别随机抽取10与12人,测定她们的尿素氮水平(mmol/L)见下表,问有肾囊肿女性尿素氮水平是否高于无肾囊肿女性?表

40-59岁有无肾脏囊肿的女性尿素氮水平(mmol/L)无肾囊肿4.054.185.934.302.417.606.612.985.934.184.05有肾囊肿4.544.633.64

5.076.445.62

6.144.816.422022/12/11167例从40-59岁有无肾脏囊肿的女性中分别随机抽取10与1⑴建立假设,确定检验水准H0:μ1=μ2H1:μ1<μ2α=0.05⑵选择检验方法,计算检验统计量t值2022/12/11168⑴建立假设,确定检验水准2022/12/10632022/12/111692022/12/1064⑶确定P值,判断结果

查t界值表,t0.05,20=1.725,今1.46<1.725,故P>0.05,故按α=0.05水准,不拒绝H0,尚不能认为有肾囊肿的女性尿素氮水平高于无肾囊肿的女性。PP=?t=1.46P=0.05tt=1.7252022/12/11170⑶确定P值,判断结果PP=?t=1.46P=0.05tt=思考题:

两样本比较作t检验,差别有统计学意义时,P值越小说明A两样本均数差别越大B两总体均数差别越大C两总体均数差别越小D越有理由认为两样本均数不同E越有理由认为两总体均数不同2022/12/11171思考题:两样本比较作t检验,差别第四节方差分析

(analysisofvariance,ANOVA)又称变异数分析或F检验*用途:适用于对多个平均数进行假设检验;以检验所得的多个平均数是否来自相同总体。*对资料的要求:1独立性:每个个体的测量值相互独立;2正态性:总体服从或近似服从正态分布;3方差齐:总体的方差相等。2022/12/11172第四节方差分析

(analysisofvarian一、单因素方差分析单向方差分析(onewayanalysisofvariance)或成组设计(完全随机设计)方差分析,是指试验研究的处理因素,或调查研究资料的分类方式只有一种。这个处理因素(或分类方式)包含有多个离散的水平,分析在不同水平上应变量的平均值是否来自相同总体2022/12/11173一、单因素方差分析单向方差分析(onewayanalyXij表示第i个处理组的第j个观察值,i=1,2,…k,j=1,2,…ni

*(一)基本思想2022/12/11174Xij表示第i个处理组的第j个观察值,i=1,2,…k,j例某院外科对自行制备的三种消毒剂的杀菌效果进行考察,经过使用,以被消毒物品的残余细菌数(cfu/m2)为评价指标。试验结果如表12-5所示,试问三种消毒剂的效果是否存在差异?2022/12/11175例某院外科对自行制备的三种消毒剂的杀菌效果进2022/12/111762022/12/1071变异原因变异表现处理因素(如不同的预防、治疗方案、不同的自然条件等)组间变异随机因素(含随机测量误差,抽样误差,个体变异等)组内变异T+EE组间均方MS组间组内均方MS组内F=MS组间/MS组内若无效假设成立,组内均方MS组间和组间均方MS组内是随机误差方差σ2的估计值,F值理论上应当等于1,F值有抽样误差;F分布是一种偏态分布。它的分布曲线由分子与分母两个自由度决定。方差分析基本思想示意图2022/12/11177变异原因变异表现处1=4,2=10的F值曲线和

=0.05时界值统计量F值等于或大于临界Fα(1,2)值时,就在α水准上拒绝无效假设,否则就不拒绝无效假设。2022/12/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论