医学统计学及SAS应用:第四章 总体均数的估计和t检验_第1页
医学统计学及SAS应用:第四章 总体均数的估计和t检验_第2页
医学统计学及SAS应用:第四章 总体均数的估计和t检验_第3页
医学统计学及SAS应用:第四章 总体均数的估计和t检验_第4页
医学统计学及SAS应用:第四章 总体均数的估计和t检验_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章总体均数的估计和t检验

2

从总体中随机抽取部分观察单位形成样本的过程称为抽样。

利用样本信息推断总体特征的研究称为抽样研究

抽样的目的是样本信息推断总体特征总体样本

参数(、)统计量3样本1样本2样本3样本k抽样研究…………………45抽样误差(samplingerror)

指由于抽样本身的随机性而导致的样本统计量与总体指标之间的差异。

由于生物间的个体差异是客观存在的,因此在抽样研究中抽样误差无法避免。数理统计研究表明,抽样误差遵循一定的规律并可以控制。6第一节总体均数的估计一、标准误1.均数的抽样误差:

从同一总体中随机抽取样本含量相等的若干个样本,得到若干个样本均数,这些样本均数不完全相等,并且与总体均数也存在差异。由于抽样而产生的样本均数和总体均数间的差异称为均数的抽样误差7标准误(standarderror,SE):样本统计量的标准差。标准误小,表示抽样误差小,统计量较稳定,与所估计的参数较接近。

均数的标准误(standarderrorofmean):样本均数的标准差,它反映来自同一总体的样本均数的离散程度,即均数的抽样误差大小。8均数标准误的计算:均数标准误的用途

衡量样本均数的可靠性;

估计总体均数的可信区间;

用于均数的假设检验。(估计值)通过增加样本例数来减少标准误,降低抽样误差9标准差:描述某总体或样本内部个体值的变异标准误:描述样本统计量的变异标准误与标准差除了均数的标准误外,还有率的标准误,回归系数的标准误等。通常用“均数±标准差”:表示一组数据的平均水平和离散程度。有时用“均数±标准误”:表达样本均数及其离散程度。

——必须注明以免误解。区别意义描述原始数据的离散程度,衡量均数对原始数据的代表性

反映抽样误差的大小,衡量样本均数估计总体均数的可靠性

计算直接法、加权法

与均数的关系s越小,对样本数据的代表性好

越小,估计

的可靠性大

与n的关系n→∞,s→

n→∞,→0应用表示观察值波动的大小

表示抽样误差的大小

用于计算变异系数

用于均数的假设检验

计算标准误

结合样本均数和正态分布的规律,估计参考值范围结合样本均数和正态分布的规律,估计参数的可信区间区别11总体均数μ的估计包括点估计和区间估计:点估计:用样本均数来估计总体均数。区间估计:按一定的概率估计总体均数在哪个范围内,这个范围称为可信区间(或置信区间)这个概率称为可信度(或置信度),用1-α表示,常取95%或99%。

二、总体均数的估计1-aa/2a/2Pa/2P1-a/212正态曲线下的面积规律

-1.96

+1.96

2.5%2.5%95%13中心极限定理当样本容量足够大时(n>30),样本均数的抽样分布逐渐趋于正态分布中心极限定理:设从均数为

,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均数的抽样分布近似服从均数为μ、方差为σ2/n的正态分布一个任意分布的总体X14落在总体均值某一区间内的样本X95%的样本

-1.96

x

+1.96

xX=

1.96

x2.5%2.5%

=X

1.96

x15总体均值的置信区间

(

2已知)1.假定条件

总体服从正态分布,且总体方差(

2)已知如果不是正态分布,可以由正态分布来近似(n>30)2.使用正态分布统计量u3.总体均值

在95%置信水平下的置信区间为16总体均值的置信区间

(

2未知)1.假定条件

总体方差(

2)未知总体必须服从正态分布2.使用t分布统计量3.总体均值

在95%置信水平下的置信区间为)1(~--=ntnsxtm)1(~--=ntnsxtm17m均数抽样分布呈一般正态分布

=1u标准正态分布

t不同自由度的t分布标准正态分布(df=∞)t(df=13)t(df=5)u18

095%19总体均数的95%可信区间为:

例4.2随机抽样调查了某市120名4岁男童的身高(cm),得到这120名4岁男童的平均身高为104.89cm,标准差为3.54cm,求该地区4岁男童身高总体均数的95%可信区间。n=120,=104.89,s=3.54,==0.32自由度ν=n-1=119,查t界值表得20可信区间的两个要素可信区间的准确度:表现为可信度(1-

)的大小,即区间包含总体均数的概率大小,可信区间的精度:表现为区间的长度正确理解可信区间的涵义

可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。所谓95%的可信度是针对可信区间的构建方法而言的。

以均数的可信区间为例,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按构建可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。

图4.1100个来自N(0,1)的样本所估计的可信区间示意

95%可信区间99%可信区间

公式区间范围

窄宽

估计错误的概率大(0.05)小(0.01)例题程序ch4_1procmeansdata=shgnmeanstdclm;varx;run;Procmeansdata=shgnmeanstdclmalpha=0.01;varx;run;选择项clm表示要计算总体均数的可信区间可信区间的可信水平α可用选择项alpha=α规定

第二节t检验目的:推断样本所代表的未知总体均数与已知总体均数是否相等。假设:检验统计量:一.样本均数和总体均数比较的t检验26求得t值后,据ν查t临界值表得t0.05/2,进行比较:样本均数与总体均数比较的t检验

如果,t<t0.05/2,ν

,则P>0.05,不拒绝H0。样本均数和μ0的差别无统计学意义。 如果,

t≥t0.05/2,ν

,则P≤

0.05,在α=0.05水平上拒绝H0,样本均数和μ0的差别有统计学意义。认为该样本并非来自均数为μ0的总体。27

例4.3据大量调查,健康成年男子脉搏的均数为72次/分,某医生在某山区随机调查了25名健康成年男子,得其脉搏均数为74.2次/分,标准差为6.5次/分,能否据此认为该山区成年男子的脉搏均数高于一般人群?总体均数

=72次/分

样本均数由于抽样误差所致?由于环境条件的影响?28建立假设

(在假设的前提下有规律可循)

零假设(nullhypothesis),记为H0

H0:

=72备择假设(alternativehypothesis),记为H1H1:

>72根据专业知识,山区成年男子的脉搏数一般不会低于正常人29其中H0假设比较单纯、明确,在H0下若能弄清抽样误差的分布规律,便有规律可循。而H1假设包含的情况比较复杂。因此,我们着重考察样本信息是否支持H0假设(因为单凭一份样本资料不可能去证明哪个假设是正确的,哪一个不正确)。

30选定检验方法计算检验统计量

(计算样本与总体的偏离)统计量t表示,在标准误的尺度下,样本均数与总体均数

0的偏离。这种偏离称为标准t离差。31根据抽样误差理论,在H0假设前提下,统计量t服从自由度为n-1的t分布,即t值在0的附近的可能性大,远离0的可能性小,离0越远可能性越小。t值越小,越利于H0假设

t值越大,越不利于H0假设自由度:25-1=2432计算概率P(与统计量t值对应的概率)

在H0成立的前提下,获得现有这么大的标准t离差以及更大离差的可能性。P=P(t≥1.692)

33单侧t0.05,24=1.71101.7115%

=24P=P(t>1.692)>0.05本研究样本得到的t(1.692)34确定检验水准

(确定最大允许误差)

设定检验水准的目的就是确定拒绝假设H0时的最大允许误差。医学研究中一般取

=0.05。检验水准实际上确定了小概率事件的判断标准。35

结论(根据小概率原理作出推断)

在H0成立的前提下出现现有差别或更大差别的可能性是否小于检验水准,如小于,则是小概率事件,即现有样本信息不支持H0。抉择的标准为:当P≤

时,拒绝H0,接受H1

当P>

时,不拒绝H0

本例P>0.05,按

=0.05的水准,不能拒绝H0,差别无统计学意义。36假设检验的意义从样本得到关于总体的结论如本例假设检验的意义在于分辨手头样本所代表的未知总体和已知总体是否为同一总体,换句话说,即分辨手头样本是否为已知总体的一个随机样本。37假设检验的基本思想“反证法”的思想先根据研究目的建立假设,从H0假设出发,先假设它是正确的,再分析样本提供的信息是否与H0有较大矛盾,即是否支持H0,若样本信息不支持H0,便拒绝之并接受H1,否则不拒绝H0

。38假设检验的基本步骤

建立假设确定检验水准计算检验统计量计算概率P

结论

当P≤

时,拒绝H0,接受H1,差别有统计学意义。当P>

时,不拒绝H0,差别尚无统计学意义。不论拒绝H0,还是不拒绝H0都可能犯错误。39解:H0:μ=72H1:μ>72

ν=25-1=24现t=1.692<单侧t0.05,24=1.711,故P>0.05。所以按=0.05水准不拒绝H0,差异无统计学意义,根据现有样本的信息,尚不能认为该山区健康成年男子的脉搏均数高于一般健康成年男子的脉搏均数。

=0.05(单侧)40二.配对t检验(PairedtTest)医学科研中配对资料的三种主要类型:按性质相近配对,配对的两个受试对象分别给予两种处理;同源配对,同一受试对象或同一样品的两个部分分别给予两种处理,推断两种处理的效果有无差别;自身配对,同一受试对象治疗前后某些生理、生化指标的比较,推断该处理有无作用。配对实验设计得到的资料称为配对资料。

41表4.1不同饲料组大白鼠肝中维生素A含量(IU/g)按性质相近配对(大白鼠对号⑴正常饲料组⑵维生素E缺乏组⑶差值d⑷=⑵-⑶d2⑸13550245011001210000220002400-4001600003300018001200144000043950320075056250053800325055030250063750270010501102500734502500950902500830501750130016900009335021001250156250010365025501100121000088501014250042表4.2两种方法测定14份血清样品Mg2+(mmol/L)结果血清样品号⑴葡萄糖激酶两点法⑵甲基百里酚蓝法⑶10.850.8421.021.0131.131.1341.081.0650.920.9261.171.1671.221.2381.061.0791.141.14100.980.98111.251.24121.111.11131.231.23141.101.10同源配对43表4.3康复疗法治疗前后的癌症患者生命质量得分患者号⑴治疗后⑵治疗前⑶170.5564.29288.6064.07368.4445.88461.6445.23564.7350.40674.6861.59769.1551.85860.5160.13965.5964.291069.0451.93自身配对44假设:检验统计量:45

例4.5

某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白鼠按性别相同、年龄、体重相近者配成10对后,将每对中的两只大白鼠随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测其肝中维生素A的含量,结果见表4.1第⑴~⑶栏。问两组大白鼠肝中维生素A的含量有无差别?46解:H0:μd=0,即两组大白鼠肝中维生素A含量相同

H1:μd≠0,即两组大白鼠肝中维生素A含量不同

α=0.05

=8850/10=885,=506.65

查t界值表,df=9时,t0.05/2,9=2.262

现t>t0.05/2,9,故P<0.05,所以按=0.05水准拒绝H0,差异有统计学意义,可认为两组大白鼠肝中维生素A的含量不同,即维生素E缺乏对大白鼠肝中维生素A的含量有影响。47三.成组设计的两样本均数比较的t检验

也称为团体t检验(GroupedtTest)按完全随机化设计的两个样本均数比较比较的目的是它们各自所代表的总体是

否具有相同的均数其假设检验为H0:μ1=μ2,H1:μ1≠μ2

48两个独立样本之差的抽样分布m1s1总体1s2

m2总体2抽取简单随机样样本容量n1计算X1抽取简单随机样样本容量n2计算X2计算每一对样本的X1-X2所有可能样本的X1-X2m1-m2抽样分布第四节团体t检验

H0:μ1-μ2=0492.大样本时,用各自方差估计法:t检验公式:(自由度:df=n1+n2-2)分母:两样本之差的标准误1.小样本时,用合并方差估计法:50例4.8

为研究某种治疗儿童贫血新药的疗效,以常规药作为对照,将30名贫血的儿童随机分到新药组和常规药组,每组15名,分别接受两种药物治疗,过一定时期测量他们血红蛋白的增加量(g/L),结果见表4.4。

问两组贫血儿童的血红蛋白的增加量是否相同?

新药组常规药组血红蛋白增加量

x1血红蛋白增加量

x2266762144132102423529256251832422484245762040023529287841936124576162561936122484298412040017289256253411562352921441172892040015225235292667627729224843679315314672851H0:

1=2,即新药组与常规药组儿童的血红蛋白增加量均数相同H1:1

2,即新药组与常规药组儿童的血红蛋白增加量均数不同

=0.05水准拒绝H0,差异有统计学意义,可认为新药组与常规药组儿童的血红蛋白增加量均数不同,新药的疗效比常规药的疗效好。521.样本均数和总体均数比较的t检验:样本来自正态分布的总体。2.配对t检验:差值的总体为正态分布。3.团体t检验:

1)两个样本都来自正态分布的总体。

2)两个总体方差相等。t检验的条件53t检验条件不满足时的对策1.进行变量变换,如对数变换,变换成正态分布后再进行t检验。2.用非参数检验的方法。3.两样本比较的t检验时,如正态分布但方差不齐,可用t’检验。54

变量变换

服从对数正态分布的资料可用对数变换

y=log(x)服从泊松分布的资料可用平方根变换

y=

表达成百分数的资料可用平方根反正弦变换

y=

55

第三节方差齐性检验和t’检验

方差齐性检验(TestforHomogeneityofVariance)

两个均数比较的t检验,其中重要前提是两个样本所代表的总体具有相同的方差56两个方差齐性检验

H0:,即两总体的方差相等

H1:,即两总体的方差不等

F检验:

s12:为较大样本方差,

1为其自由度

s22:为较小样本方差,

2为其自由度

方差齐性检验(TestforHomogeneityofVariance)

第三节方差齐性检验和t’检验57自由度值有2个,分别为分子的自由度与分母的自由度。据分子,分母的自由度查方差齐性检验专用的F界值(附表四,P428)得:F0.05

,F0.01值

如果F<F0.05,则P>0.05,不拒绝H0;如果F≥F0.05

,则P≤0.05,在α=0.05水平上,拒绝H0;58t’检验检验统计量:界值结论59第四节正态性检验(normalitytest)统计指标:偏度系数、峰度系数;检验法:W检验(3<n<50)、D检验(50<n<1000)、矩法(对偏度系数和峰度系数进行U检验)等统计图:P-P图、Q-Q图、直方图、茎叶图、箱图等

60假设检验应注意的问题

1.

要有严密的研究设计,组间要具有可比性要保证样本是从同质总体中随机抽取。除了对比的因素外,其它影响结果的因素应一致。

2.选用的假设检验方法应符合其应用条件要了解变量的类型是计量的还是计数的,设计类型是配对设计还是成组设计,是大样本还是小样本。613.正确理解差别有无统计意义差别有统计意义,指我们有很大的把握认为原假设不正确,并非是说它们有较大的差别。差别无统计意义,我们只是认为以很大的把握拒绝原假设的理由还不够充分,并不意味着我们很相信它。4.结论不能绝对化

结论具有概率性,并受抽样误差大小、检验水平高低、单/双侧检验的影响。5.统计学意义和显著性的意义不同例题程序ch4_2datamb;inputx@@;d=x-72;cards;747368757582806972748372717476796773817067707869707267748066;procmeansdata=mbmeanstdstderrtprt;varxd;run;例题程序ch4_3datava;inputzhchquefa@@;d=zhch-quefa;cards;35502450200024003000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论