五、均数的抽样误差和假设检验_第1页
五、均数的抽样误差和假设检验_第2页
五、均数的抽样误差和假设检验_第3页
五、均数的抽样误差和假设检验_第4页
五、均数的抽样误差和假设检验_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计描述统计推断指标描述图表描述参数估计假设检验统计分析回顾上一节内容:集中趋势指标:

算术均数、中位数、几何均数离散趋势指标:

全距、四分位数间距、方差、标准差、变异系数正态分布:概念、特征、面积规律、应用医学参考值估计:步骤、估计方法(一)均数的抽样误差与标准误五、均数的抽样误差与总体均数的估计

1、均数的抽样误差

(samplingerrorofmean)由个体变异产生的、抽样造成的样本统计量与总体参数的差别均数的抽样误差:由于抽样造成的样本均数与总体均数的差别两种表现形式样本统计量与总体参数间的差异样本统计量与样本统计量之间的差异

抽样研究

个体变异抽样误差产生的条件

例如,从总体均数μ为4.83×/L、标准差

0.52×/L的正态分布总体N(4.83,0.522)中,随机抽取10人为一个样本(n=10),并计算该样本的均数、标准差。如此重复抽取100次(g=100),可得到100份样本,可得到100对均数和标准差S。正态总体μ=4.83σ=0.521.4.58,0.382.4.90,0.453.4.76,0.49┆99.4.87,0.59100.4.79,0.39S图9-1随机抽样所得100个样本均数的分布

将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。①各样本均数未必等于总体均数;②

各样本均数间存在差异;③

样本均数的分布为中间多,两边少,左右基本对称。近似服从正态分布。④

样本均数的变异范围较之原变量的变异范围大大缩小。可算得这100个样本均数的均数为4.827×/L

、标准差为0.1×/L

。100个样本均数的抽样分布特点:表示样本统计量抽样误差大小的统计指标。可用于衡量抽样误差的大小。均数标准误:说明均数抽样误差的大小,总体计算公式2、标准误(standarderror,SE)实质:样本均数的标准差数理统计证明:

标准误的特点:

当样本例数n一定时,标准误与标准差呈正比;当标准差一定时,标准误与样本含量n的平方根呈反比。通过增加样本含量n来降低抽样误差。实际工作中,往往是未知的,一般可用样本标准差S代替,

降低抽样误差的途径有:①通过增加样本含量n;②通过设计减少S。计算了100个样本的标准差S,由此可计算样本的标准误大小。n=5n=103个抽样实验结果图示标准误的用途

衡量抽样误差的大小(标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大);估计总体均数的置信区间;用于假设检验。标准误与标准差的区别与联系区别:

标准误标准差定义反映抽样误差反映个体变异用途总体均数可信区间医学参考值范围进行统计学检验计算标准误、CV联系:当n一定时标准差大,标准误也大抽样实验小结样本的均数围绕总体均数上下波动。均数的标准差即标准误样本均数的标准误(StandardError)

计算公式为:样本标准差/

从正态总体N(μ,σ2)中抽取样本,获得均数的分布仍近似呈正态分布N(μ,σ2/n)。(二)t分布(t-distribution)W.S.Gosset于1908年在《生物统计》杂志上发表该论文时用的是笔名“Student”,故t分布又称Student

t分布。

戈塞特(WilliamSealeyGosset),英国统计学家“正态总体下t统计量的精确分布,开创了小样本理论的先河。”──摘自《中国大百科全书》

抽样误差的分布规律

↓样本→总体

t分布理论

↑手段(桥梁)目的t分布概述t分布的概念

式中为自由度(degreeoffreedom,df)

3.实际工作中,由于未知,用代替,则不再服从标准正态分布,而服从t分布。

t分布(t-distribution)随机变量XN(m,s2)标准正态分布N(0,12)u变换均数标准正态分布N(0,12)Studentt分布自由度:n-1t转换公式:从同一总体中,抽取样本含量相同的多个样本,每个样本均数都可计算出一个t值,故得到若干个t值,形成一条t分布曲线如抽取许多样本含量不同(严格说是自由度不同)的样本群,则可以分别组合成许多不同形状的t分布曲线,这就形成了t分布t分布为一簇曲线,不是一条曲线,与自由度有关,自由度不同,曲线形状不同(μ

,σ2)n1t分布曲线1n2t分布曲线2……nmt分布曲线mt分布t分布特征以0为中心,左右对称的连续型单峰分布随自由度变化的一簇曲线,自由度越小,t值越分散,曲线低平,两侧尾部越高;自由度越大,峰型越接近u分布,两尾越低;ν=∞,t分布成为u分布t分布曲线下面积分布有一定规律(见P261t界值表)t界值表示方法:ν:[nju],自由度α:t值相对应的单侧或双侧面积或概率p例:双侧t0.05,10=2.228,单侧t0.025,10=2.228(见t界值表)t界值表特征:t分布以0为中心左右对称,故界值表只列单侧t值单侧α与双侧2α的t界值相同,如上例相同自由度,α值越小,越大相同α值,自由度越小,越大-tt0(三)、总体均数置信区间的估计

抽样研究:从总体到样本实际工作:由样本推断总体统计推断(statisticalinference)就是根据样本所提供的信息,以一定的概率推断总体的性质。统计推断:由样本信息推断总体特征。样本统计指标(统计量)总体统计指标(参数)统计推断(statisticalinference):

样本总体

(1)参数估计(2)假设检验推断参数估计(parameterestimation)

由样本信息估计总体参数点估计(pointestimation)区间估计(intervalestimation)参数的估计点估计:由样本统计量直接估计总体参数区间估计:在一定置信度(Confidencelevel)下,估计总体参数可能存在的范围1.点估计(pointestimation)直接用样本统计量作为总体参数的估计值

方法简单,但未考虑抽样误差的大小在实际问题中,总体参数往往是未知的,但它们是固定的值,并不是随机变量值。而样本统计量随样本的不同而不同,属随机的。2.区间估计(intervalestimation)按一定的概率或可信度(1-

)(常取95%或99%)用一个区间估计总体参数所在范围,这个范围称作可信度为1-

的可信区间(confidenceinterval,CI),又称置信区间。这种估计方法称为区间估计。

总体均数可信区间的计算需考虑:(1)总体标准差

是否已知,(2)样本含量n的大小通常有两类方法:(1)t分布法

(2)u分布法可信区间计算方法:1、当σ已知时,总体均数的1-α可信区间为:简写为:2、当σ未知,但样本含量n足够大时,用s代替σ计算总体均数的1-α可信区间简写为:例7-15由例7-1中102名健康女大学生口腔温度均数为=37.06℃,标准差S=0.198℃,标准误=0.0196℃,试估计该地健康女大学生口腔温度总体均数95%可信区间和99%可信区间。本例虽σ未知,但n=102足够大,故采用公式7-23,代入公式得:95%可信区间为37.06±1.96×0.0196,即(37.02,37.10)99%可信区间为37.06±2.58×0.0196,即(37.01,37.11)即该地健康女大学生口腔温度总体均数95%可信区间为(37.02℃,37.10)℃99%可信区间为(37.01℃,

37.11)℃3、σ未知,且样本含量n较小(n<100),按t分布原理计算总体均数的1-α可信区间简写为:例7-16为了了解某地1岁婴儿的血红蛋白浓度,从该地随机抽取了1岁婴儿25人,测得其血红蛋白平均数为123.7g/L,标准差为11.9g/L。试求该地1岁婴儿的血红蛋白平均值总体均数的95%和99%的可信区间本例中σ未知,且n=25较小(g/L)ν=25-1=24查t界值表t0.05,24=2.064,t0.01,24=2.79795%可信区间为123.7±2.064×2.38,即(118.79,128.61)99%可信区间为123.7±2.797×2.38,即(117.04,130.35)标准误和值越小,估计总体均数可信区间的范围越窄,对总体均数的估计也越精确;反之,标准误和值越大,估计总体均数可信区间的范围越宽,对总体均数的估计越差在可信度确定的情况下,增加样本例数,可使和减少,提高估计的精度95%与99%可信区间比较,前者估计的范围较窄,估计精度高,但估计错误的可能性有5%,后者估计范围宽,估计精度差,但估计错误的可能性只有1%。六、均数的假设检验(一)假设检验的意义和一般步骤▲科研数据处理的重要工具;▲某事发生了:是由于碰巧?还是由于必然的原因?统计学家运用假设检验来处理这类问题。例7-17根据大量调查,已知健康成年男子脉搏的均数为72次/分钟,某医生在一山区随机抽查了25名健康成年男子,测其脉搏数的均数为74.2次/分钟,标准差为6.5次/分钟,能否认为该山区健康成年男子的脉搏数与一般健康成年的脉搏数不同?

μ0=72次/分钟)已知总体未知总体=?μn=25

目的:推断山区健康成年男子脉搏的均数(未知总体均数

)与健康成年男子脉搏的均数(已知总体均数

0)间有无差别

μ

=μ0?差异的来源:样本对应的未知总体均数μ等于已知总体均数μ0,差别仅仅是由于抽样误差所致;除抽样误差外,健康男性与山区健康男性存在本质上的差异,即受山区因素影响,本质上有差异74.2次/分≠72次/分假设检验的基本步骤1.建立假设,确定检验水准2.选定检验统计方法,计算检验统计量3.确定P值,作出推断结论1、建立假设

(在假设的前提下有规律可循)

无效假设(nullhypothesis),记为H0

H0:

=μ0,山区健康成年男性与一般成年男性的脉搏均数相等;备择假设(alternativehypothesis),记为H1H1:

≠μ0,山区健康成年男性与一般成年男性的脉搏均数不等;检验假设是针对总体而言,不是针对样本确定检验水准

(确定最大允许误差)

判断差异有无统计学意义的概率水准,判断是否接受H0或拒绝H0的标准,是小概率事件的判断标准。医学研究中一般取

=0.05。可根据不同研究目的给予不同设置。2、选定检验方法计算检验统计量根据变量和资料类型、设计方案、统计推断的目的、是否满足特定条件等(如数据的分布类型)选择相应的检验统计量。P值:在H0规定的总体中随即抽取等于及大于(或等于及小于)现有样本检验统计量的概率简单理解:P值就是在假设H0成立的前提下,从规定总体中随机抽取得到现有样本均数的概率值根据计算出的检验统计量,查相应的统计界值表即可得到概率P3、确定概率p值

四、结论(根据小概率原理作出推断)

在H0成立的前提下出现现有差别或更大差别的可能性抉择的标准为:当P≤

时,拒绝H0,接受H1

当P>

时,不拒绝H0

(推断的结论=统计结论+专业结论)假设检验的基本思想“反证法”的思想先根据研究目的建立假设,从H0假设出发,先假设它是正确的,再分析样本提供的信息是否与H0有较大矛盾,即是否支持H0,若样本信息不支持H0,便拒绝之并接受H1,否则不拒绝H0。

假设检验的基本步骤建立假设确定检验水准计算检验统计量计算概率P结论当P≤

时,拒绝H0,接受H1,差别有统计学意义。当P>

时,不拒绝H0,差别尚无统计学意义。不论,拒绝拒绝H0,还是不拒绝H0都可能犯错误。(二)均数的t检验1、样本均数与已知总体均数比较2、配对资料的比较3、两个样本均数比较

①当n<50时,要求样本取自正态分布的总体,总体标准差未知;

②两小样本均数比较时,要求两样本总体方差相等(σ12=σ22)。t检验应用条件:1、样本均数与总体均数的比较

目的:推断该样本是否来自某已知总体;样本均数代表的总体均数

0是否相等。总体均数

0一般为理论值、标准值或经大量观察所得并为人们接受的公认值、习惯值。

计算公式:

t统计量

自由度:n–1

例7-17根据大量调查,已知健康成年男子脉搏的均数为72次/分钟,某医生在一山区随机抽查了25名健康成年男子,测其脉搏数的均数为74.2次/分钟,标准差为6.5次/分钟,能否认为该山区健康成年男子的脉搏数与一般健康成年的脉搏数不同?分析

已知条件:已知μ0=72次/分钟样本:n=25,次/分钟,S=6.5次/分钟(1)、建立假设H0:μ=μ0,该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数相同H1:μ≠μ0,该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数不同

α=0.05(2)、计算检验统计量t值μ00t(3)、确定P值ν=25-1=24,查界值表P>0.05(4)、推断结论

P>0.05,按检验水准,不拒绝H0

,差异无统计学意义。即尚不能认为此山区健康成年男子脉搏数与一般健康成年男子脉搏数不同。2、配对设计资料的比较

配对设计是研究者为了控制可能存在的主要的非处理因素而采用的一种实验设计方法。配对设计的形式自身配对同一对象接受两种处理,如①同一标本用两种方法进行检验(目的是比较不同方法之间的差异)

,②同一患者接受两种处理方法(处理前后,不同部位)

(目的是判断此处理有无作用)

;异体配对③将条件相近的实验对象配对,并分别给予两种处理。

(目的是比较不同方法之间的差异)若两处理因素的效应无差别,差值d的总体均数

d应该为0,故可将该检验理解为样本均数与总体均数

d

=0的比较差值均数的大小及其抽样误差反应因素的效应配对t检验的基本原理:配对t检验的公式例7-18

某医院在研究肾动脉成形术前后血流动力学的改变中,观察了10例病人手术前后的血压变化情况,其中舒张压变化情况见表,试问手术前后舒张压有无变化?(1)、建立假设H0:μd=0,即假设手术前后舒张压没有变化,样本是从差值均数为0的总体中抽得H1:μd≠0,即假设手术前后舒张压有变化,手术可以引起舒张压下降(2)、计算t值计算可得:(3)、确定p值ν=10-1=9,t0.05,9=2.262本例t<t0.05,9,P>0.05(4)、推断结论

按α=0.05水准,不拒绝H0,差异无统计学意义,即还不能认为手术前后的舒张压不同3、两样本均数的比较也叫成组比较,适用于按完全随机设计而得到的两组资料,比较目的是推断它们各自所代表的总体均数是否相等,即两个样本是来自同一个总体还是分别来自两个总体。两样本均数比较时,要求两样本总体方差相等(σ12=σ22)。计算公式:S1与S2已知时S1与S2已知,且n1=n2时例7-19某克山病区抽样测得11例急性克山病患者和13名健康人的血磷值(mmol/L)如下,问该地区急性克山病患者与健康人的血磷值是否不同?患者X1:0.841.051.201.201.391.531.671.801.872.072.11健康X2:0.540.640.640.750.760.811.161.201.341.351.481.561.87(1)建立假设H0:μ1=μ2,即该地急性克山病患者与健康人血磷值相同H1:μ1≠μ2,即该地急性克山病患者与健康人血磷值不同α=0.05(2)、计算t值(3)、确定P值ν=11+13-2=22,t0.05,22=2.074t=2.522>t0.05,22,P<0.05(4)、推断结论按α=0.05水准,拒绝H0,接受H1,两样本均数差异有统计学意义,可认为急性克山病患者和健康人的血磷值不同。(三)两个大样本均数比较的u检验当两个样本含量均比较大时(n1、n2均大于50),其t分布曲线接近标准正态分布曲线,可以使用u检验进行两样本均数的比较,检验结果与t检验相差不大,但u检验计算方法简单计算公式:例7-20某地对40~50岁年龄组的男、女

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论