计量的统计推断_第1页
计量的统计推断_第2页
计量的统计推断_第3页
计量的统计推断_第4页
计量的统计推断_第5页
已阅读5页,还剩133页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第四章第四章 抽样误差抽样误差2掌握内容:掌握内容:1 1t t分布的特征分布的特征 2 2总体均数的区间估计总体均数的区间估计 熟悉:熟悉:1 1、抽样误差的概念、抽样误差的概念2 2、引起抽样误差的原因、引起抽样误差的原因3 3、标准差和标准误的区别、标准差和标准误的区别 了解内容:了解内容:1 1、抽样研究的意义、抽样研究的意义2 2、中心极限定理的内容、中心极限定理的内容3 统计描述统计描述统计推断统计推断应应 用用计量资料计量资料 频数分布频数分布集中趋势集中趋势离散趋势离散趋势统计图表统计图表抽样误差抽样误差标准误标准误 t u F检验检验秩和检验秩和检验正常值范围估计正常值范围

2、估计可信区间的估计可信区间的估计计数资料计数资料相对数及其相对数及其标准化标准化统计图表统计图表u 、 2检验检验秩和检验秩和检验 疾病统计疾病统计 人口统计人口统计 相关与回归相关与回归 r b统计图表统计图表 t 检验检验 4v了解总体特征的最好方法是对总体的每一个了解总体特征的最好方法是对总体的每一个体进行观察、试验,但这在医学研究实际中体进行观察、试验,但这在医学研究实际中往往不可行。往往不可行。v对对无限总体无限总体不可能对所有个体逐一观察不可能对所有个体逐一观察, 对对有限总体有限总体限于人力、财力、物力、时间或个限于人力、财力、物力、时间或个体过多等原因,不可能也没必要对所体过多

3、等原因,不可能也没必要对所 有个有个体逐一研究体逐一研究(如对一批罐头质量检查如对一批罐头质量检查)。v借助借助抽样研究。抽样研究。5v统计推断统计推断:在医学研究中,通常在总体中随在医学研究中,通常在总体中随机抽取一定数量观察单位作为样本进行抽样机抽取一定数量观察单位作为样本进行抽样研究,然后由样本信息推断总体特征,这一研究,然后由样本信息推断总体特征,这一过程称为统计推断过程称为统计推断. 区间估计区间估计v统计推断统计推断v 假设检验假设检验6假定正常成年男子红细胞计数服从假定正常成年男子红细胞计数服从N(5.00,0.502)N(5.00,0.502)的正态的正态分布总体,从该总体中重

4、复进行分布总体,从该总体中重复进行100100次抽样,每个样本含次抽样,每个样本含量为量为1010,抽样见下面,抽样见下面 4.1 均数的抽样误差与标准误均数的抽样误差与标准误NXXX.5 . 00 . 52122 第一份样本的第一份样本的10个观察值分别是个观察值分别是: 5.59 5.11 4.26 5.11 4.74 4.95 5.06 4.834.51 5.55iXiS 5.04 0.44 5.03 0.52 4.71 0.33. 4.90 0.29100个个 第二份样本的第二份样本的10个观察值分别是个观察值分别是: 5.40 5.29 4.31 5.14 4.78 4.93 5.0

5、6 4.835.51 4.55正常成年男子红细胞数正常成年男子红细胞数N(5.00, 0.502)1012/L的抽样示意图的抽样示意图74.5 4.6 4.7 4.8 4.9 5.0 5.1 5.2 5.3 5.4 5.5 平均红细胞数(平均红细胞数(1012/L) 将此将此100个样本均数看成新变量值,则这个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。个样本均数构成一新分布,绘制直方图。从正态分布总体从正态分布总体N(5.00, 0.52)中随机抽样所得样本均数分布中随机抽样所得样本均数分布8 样本均数(正态总体中抽样)的抽样分布具有如下特点:样本均数(正态总体中抽样

6、)的抽样分布具有如下特点: ,各样本均数,各样本均数 未必等于总体均数未必等于总体均数 各样本均数间也互不相等。各样本均数间也互不相等。 样本均数的分布样本均数的分布以以 为中心,为中心, 左右左右 基本对称,基本对称,近似正态近似正态。 样本均数的变异样本均数的变异程度程度 较之原变量的较之原变量的 变异程度变异程度 大大减小大大减小,且且n 越大,越大, 越小。越小。 可证明可证明: : XXX XXX;XX。 X 9v抽样误差抽样误差 (sampling error) :由于个体差由于个体差异导致的样本统计量与总体参数间的差别。异导致的样本统计量与总体参数间的差别。10均数的标准差均数的

7、标准差即即标准误标准误 与总体标与总体标准差相差一个常数的倍数,即准差相差一个常数的倍数,即 样本样本均数的标准误(均数的标准误(Standard Error)Standard Error)= =样本标准差样本标准差/ / 从正态总体从正态总体N N(m,s2)(m,s2)中抽取样本,获得中抽取样本,获得均数的分布仍近似呈均数的分布仍近似呈正态分布正态分布N N(m,(m,s2/s2/n n) ) 。4.2标准误(标准误(standard error,SE)XnX/nS样本含量11v意义:意义:反映抽样误差的大小。标准误越小,反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数

8、的抽样误差越小,用样本均数估计总体均数的可靠性越大。可靠性越大。v与样本量的关系:与样本量的关系:S 一定,一定,n,标准误,标准误12 例例4.1 某市随机抽查某市随机抽查12岁男孩岁男孩100人人,得身高均数得身高均数139.6cm,标准差标准差6.85cm,计算其标准误计算其标准误按公式按公式4-2 )(685. 0100/85. 6/cmnSSx13标准误的应用:标准误的应用:v1衡量样本均数的可靠性衡量样本均数的可靠性 由于均数标准由于均数标准误越小,均数的抽样误差越小,样本均数就误越小,均数的抽样误差越小,样本均数就越可靠,代表性越好。越可靠,代表性越好。v2估计总体均数的可信区间

9、。估计总体均数的可信区间。v3用于均数的假设检验。用于均数的假设检验。 标准差和标准误有如下区别标准差和标准误有如下区别154.3 t分布分布1908年,英国统计学家年,英国统计学家 W.S. Gosset 以笔名以笔名“Student”在在Biometrics杂志上发表论杂志上发表论文,首次提出文,首次提出t分布概念,后分布概念,后人 又 称人 又 称 S t u d e n t s t -distribution,开创了小样本,开创了小样本统计推断的新纪元,被认为统计推断的新纪元,被认为是统计学发展史上的里程碑是统计学发展史上的里程碑之一。之一。16中心极限定律:中心极限定律:v若从均数为

10、若从均数为的正态总体中以固定的正态总体中以固定n反复多反复多次(比如次(比如100次)抽样时,所得的样本均数次)抽样时,所得的样本均数的分布是正态分布;即使是从偏态总体中抽的分布是正态分布;即使是从偏态总体中抽样,只要样,只要n足够大,均数的分布也近似正态足够大,均数的分布也近似正态分布(以数值变量资料为例)分布(以数值变量资料为例)。171819, 1XXXtnSSn 3实际工作中,由于实际工作中,由于 未知,用未知,用 代替,代替,则则 不再服从标准正态分布不再服从标准正态分布z分分布,而服从布,而服从t 分布。分布。 XXS() /XXS式中式中 为自由度为自由度(degree of f

11、reedom, df)。20/ )( xuxxu/ )( xsxt21t 分布的图形(分布的图形(u 分布分布 是是t 分布的特殊形式)分布的特殊形式)0.00.10.10.20.20.30.30.40.4-4-3-2-101234tf(t)自由度为1的t分布自由度为9的t分布标准正态分布22t分布的特征分布的特征1以以0为中心,左右对称的单峰分布为中心,左右对称的单峰分布2t分布是一簇曲线,其形态变化与分布是一簇曲线,其形态变化与n(确切地说与(确切地说与自由度自由度)大小有关。自由度)大小有关。自由度越小,越小,t分布曲线越分布曲线越低平;自由度低平;自由度越大,越大,t分布曲线越接近标准

12、正态分布曲线越接近标准正态分布(分布(u分布)曲线,如图分布)曲线,如图4.1。t分布曲线下面积分布曲线下面积与横轴与横轴t值间关系值间关系(附表附表2)vt界值表中一侧尾部面积称单侧概率界值表中一侧尾部面积称单侧概率 () 两侧尾部面两侧尾部面积之和称双侧概率积之和称双侧概率(/2) v在相同自由度时,在相同自由度时, 值增大,值增大,减小减小v在相同在相同 时,单尾时,单尾 对应的对应的t值比双尾值比双尾 的小的小t25双侧双侧t0.05/2,92.262 单侧单侧t0.025,9单侧单侧t0.05,91.833双侧双侧t0.05/2,1.96 单侧单侧t0.025,单侧单侧t0.05,

13、1.6426t分布的应用分布的应用v1.总体均数的区间估计总体均数的区间估计v2.t检验检验27v参数估计参数估计: 运用统计学原理,用从样本计算运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行出来的统计指标量,对总体统计指标量进行估计。估计。v假设检验:假设检验:又称显著性检验,是指由样本间又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在存在的差别对样本所代表的总体间是否存在着差别做出判断。着差别做出判断。284.5 均数的参数估计(均数的参数估计(P75)v 一一. .可信区间的概念可信区间的概念pSX、参数的估计参数的估计点估计:点估计:由样本统计量由

14、样本统计量 直接估计直接估计 总体参数总体参数区间估计:区间估计:在一定在一定可信度可信度(Confidence level) 下下,同时考虑抽样误差,同时考虑抽样误差、v参数估计:参数估计:由样本指标值(统计量)由样本指标值(统计量)估计总体指标值(参数),是统计推估计总体指标值(参数),是统计推断的重要内容。断的重要内容。点估计:点估计:v用样本均数直接作为总体均数的估计用样本均数直接作为总体均数的估计值值 。v比较简单,未考虑抽样误差的影响,比较简单,未考虑抽样误差的影响,所以估计的正确度很难评价。所以估计的正确度很难评价。区间估计区间估计(interval estimation):根据

15、预先给根据预先给定的概率估计未知总体均数的可能范围。定的概率估计未知总体均数的可能范围。 预预先给定的概率先给定的概率 (1-)称为可信度称为可信度 95可信区间可信区间:从总体中作随机抽样,作:从总体中作随机抽样,作100次抽次抽样,每个样本可算得一个可信区间,得样,每个样本可算得一个可信区间,得100个可信个可信区间,平均有区间,平均有95个可信区间包括个可信区间包括(估计正确估计正确),只,只有有5个可信区间不包括个可信区间不包括(估计错误估计错误)。v可信区间可信区间通常由两个数值可信限构成通常由两个数值可信限构成, ,其其中较小数值为中较小数值为下限下限, ,较大数值称为较大数值称为

16、上限上限. .可信下限可信下限(L)可信上限可信上限(U)总体参数是未知的、一个固定的值(所以要总体参数是未知的、一个固定的值(所以要用包含来描述)。用包含来描述)。CI 的的 2个要素个要素(P76)v区间估计的准确度:区间估计的准确度:说对的可能性大小,说对的可能性大小, 用用 (1- ) 来衡量。来衡量。99%的可信区间好于的可信区间好于95%的可信区间。的可信区间。v区间估计的精确度:区间估计的精确度:指区间范围的宽窄,指区间范围的宽窄,范围越宽精确度越差。范围越宽精确度越差。99%的可信区间的可信区间差差于于95%的可信区间的可信区间。 准确度与精确度的关系:准确度与精确度的关系:需

17、要兼顾准确度和精密度。需要兼顾准确度和精密度。一般来说一般来说95%可信区间更为常用,在可信度确定可信区间更为常用,在可信度确定的情况下,增加样本含量,可减少区间长度,提的情况下,增加样本含量,可减少区间长度,提高精密度。高精密度。nxastx)(知未知未知小小二、总体均数可信区间的计算二、总体均数可信区间的计算(一一)4-4:1-可信度可信度 :n-1(二)已知或已知或 未知未知 大(大(n50)nxasux 表表4-1 常用常用 u 值表值表可信区间(%) 单侧 双侧 95 1.645 1.960 99 2.326 2.57937该例该例n=20, n较小,因此,可认为平均浸润直径服从较小

18、,因此,可认为平均浸润直径服从t分分布。自由度布。自由度=20-1=19,查,查t 界值表,得界值表,得 =2.093 例例 对某人群随机抽取对某人群随机抽取20人,用某批号的结核菌素作皮试,人,用某批号的结核菌素作皮试,平均浸润直径为平均浸润直径为10.9cm,标准差为,标准差为3.86cm。问这批结核菌。问这批结核菌素在该人群中使用时,皮试的平均浸润直径的素在该人群中使用时,皮试的平均浸润直径的95%可信区可信区间是多少?间是多少? (10.9-2.093*3.86/19,05. 0t2020,10.9+2.093*3.86/即(9.1,12.7)cm。 )cmttnsX,2,2 38 对

19、于轻度原发性高血压患者进行治疗,一般病人接受治疗对于轻度原发性高血压患者进行治疗,一般病人接受治疗后可使舒张压平均降低后可使舒张压平均降低10mmHg10mmHg。现提出一种新的治疗方法,。现提出一种新的治疗方法,对对100100名患者进行治疗,平均降压名患者进行治疗,平均降压12.7mmHg12.7mmHg,血压治疗前,血压治疗前后变化的标准差为后变化的标准差为5.6mmHg5.6mmHg,能否说新疗法优于标准疗法?,能否说新疗法优于标准疗法?)(8 .11100/6 .566.17 .12.99,05.0mmHgStXXXSuX均数的可信区间与参考值范围的区别均数的可信区间与参考值范围的区

20、别40第第5章章 假设检验假设检验411 1假设检验的基本步骤假设检验的基本步骤 2 2假设检验的基本原理假设检验的基本原理掌握内容掌握内容熟悉:熟悉:假设检验中概率假设检验中概率P P与检验水准与检验水准的关系的关系42 一、基本概念一、基本概念 假设检验(显著性检验)对所估计的总假设检验(显著性检验)对所估计的总体先提出假设,再计算数据,最后推断体先提出假设,再计算数据,最后推断是否拒绝假设。是否拒绝假设。 5.1 假设检验的意义和基本原理假设检验的意义和基本原理43假设检验的目的假设检验的目的 判断是由于何种原因造成的不同,来推断样判断是由于何种原因造成的不同,来推断样本统计量与总体参数

21、之间,各个样本所代表本统计量与总体参数之间,各个样本所代表的总体的参数之间是否存在差异。的总体的参数之间是否存在差异。44 根据大量调查,已知健康成年男根据大量调查,已知健康成年男子的脉搏均数为子的脉搏均数为7272次次/ /分。某医生在分。某医生在某山区随机调查某山区随机调查2525名健康男子,求名健康男子,求得脉搏均数为得脉搏均数为74.274.2次次/ /分分, ,标准差为标准差为6.06.0次次/ /分分, , 能否认为该山区男子的能否认为该山区男子的脉搏均数高于一般脉搏均数高于一般? ?45两种可能:两种可能: 1)1)由抽样误差所致;由抽样误差所致;( (点估计值点估计值) ) 2

22、) 2)环境条件影响环境条件影响, , 二者有本质区别。二者有本质区别。 为了判断可能性是第一种还是第二种,为了判断可能性是第一种还是第二种,即为了判断是抽样误差引起的原因还是即为了判断是抽样误差引起的原因还是本质性的差别,必须通过假设检验来回本质性的差别,必须通过假设检验来回答这个问题。答这个问题。 46二、假设检验的基本思想二、假设检验的基本思想 假设检验的基本思想是小概率假设检验的基本思想是小概率(P(0.05) (0.05) 样本差别无统计学意义样本差别无统计学意义PPtt()统计量当前值的绝对值57vP值的含义值的含义:从从 样本规定的总体随机样本规定的总体随机抽得等于或大于抽得等于

23、或大于(或等于或小于或等于或小于)现有样现有样本统计量得概率本统计量得概率. 0H58 小概率思想小概率思想: P0.05(或(或P(0.05) 样本差别无统计样本差别无统计学意义学意义59统计推断统计推断v统计结论统计结论 - 有无统计学意义有无统计学意义v专业结论专业结论 - 专业知识专业知识v两者结合两者结合 作出最终结论作出最终结论.60v如果如果p ,H0不属于小概率事件,不拒绝不属于小概率事件,不拒绝H0,差别无统计学意义,不认为两总体均,差别无统计学意义,不认为两总体均数不相等。数不相等。如果如果p ,H0为小概率事件,拒绝为小概率事件,拒绝H0,接,接受受H1,差别有统计意义,

24、认为两总体均数,差别有统计意义,认为两总体均数不相等。不相等。615.5.注意:假设检验的结果注意:假设检验的结果拒绝拒绝H H0 0,接受,接受H H1 1,认为,认为有统计学差异或差异有统有统计学差异或差异有统计学意义;计学意义;一般不说差异显著,有显著性差异。一般不说差异显著,有显著性差异。不拒绝不拒绝H H0 0 ,认为,认为无统计学差异已或差异无统计学无统计学差异已或差异无统计学意义;意义;一般不说差异不显著,无显著性差异。一般不说差异不显著,无显著性差异。P P值越小,我们越有理由认为差异有统计学意义,而值越小,我们越有理由认为差异有统计学意义,而不是说差异越大。不是说差异越大。6

25、2 例:为研究某山区成年男子的脉搏均数是否高于一般成年男例:为研究某山区成年男子的脉搏均数是否高于一般成年男子的脉搏均数,如某医生在某山区随机测量了子的脉搏均数,如某医生在某山区随机测量了2525名健康成名健康成年男子的脉搏,平均次数为年男子的脉搏,平均次数为74.274.2次分钟,标准差为次分钟,标准差为6.06.0次分钟,但是根据医学常识,一般男子的平均脉搏次数次分钟,但是根据医学常识,一般男子的平均脉搏次数为为7272次分钟,问该山区男子脉搏均数是否高于一般男子次分钟,问该山区男子脉搏均数是否高于一般男子的脉搏均数?的脉搏均数?833.1250.6722.740 nsxt71112405

26、0.tt,. 050.P 1.建立检验假设,确定检验水准。建立检验假设,确定检验水准。 双侧双侧 H0: 两地男子脉搏均数相同。两地男子脉搏均数相同。 H1: 两地男子脉搏均数不同。两地男子脉搏均数不同。 =0.052. 选择统计方法,计算统计量选择统计方法,计算统计量 。 3.确定确定P值,查界值表:值,查界值表:00 拒绝拒绝H H0 0,接受接受H H1 1。差异有统计学意义,可认为山差异有统计学意义,可认为山区男子的平均脉搏数比一般人群的高区男子的平均脉搏数比一般人群的高。 假设检验的步骤假设检验的步骤:1.建立检验假设建立检验假设,确定检验水准确定检验水准H0:无效假设无效假设H1:

27、备择假设备择假设 =0.052.选择检验方法选择检验方法,计算检验统计量计算检验统计量3.确定确定P值值4.做推做推断结论断结论拒绝拒绝H0,接受接受H1,所比较的所比较的两组有差异两组有差异不拒绝不拒绝H0,尚尚不能说明所比不能说明所比较的两组有差较的两组有差异异PP65第第6章章 定量资料定量资料 t 检验检验66掌握的内容:掌握的内容: 各种设计各种设计t检验和检验和U检验的条件、检验的过检验的条件、检验的过程、计算公式的选择程、计算公式的选择熟悉熟悉 常见的常见的t检验和检验和U检验的类型、一类错误和检验的类型、一类错误和二类错误二类错误了解了解 t检验检验67统计推断(统计推断(St

28、atistical inference) :用样本信息推论总体特征的过程。用样本信息推论总体特征的过程。即采用样本统计量对相应总体参数所做的即采用样本统计量对相应总体参数所做的非非确定性的推估。确定性的推估。主要包括:参数估计主要包括:参数估计 假设检验假设检验68 统计描述统计描述统计推断统计推断应应 用用计量资料计量资料 频数分布频数分布集中趋势集中趋势离散趋势离散趋势统计图表统计图表抽样误差抽样误差标准误标准误 t u F检验检验秩和检验秩和检验正常值范围估计正常值范围估计可信区间的估计可信区间的估计计数资料计数资料相对数及其相对数及其标准化标准化统计图表统计图表u 、 2检验检验秩和检

29、验秩和检验 疾病统计疾病统计 人口统计人口统计 相关与回归相关与回归 r b统计图表统计图表 t 检验检验 69v假设检验是通过两组或多组的样本统计量的差别假设检验是通过两组或多组的样本统计量的差别或样本统计量与总体参数的差异来推断他们相应或样本统计量与总体参数的差异来推断他们相应的总体参数是否相同;的总体参数是否相同;v医疗卫生实践中最常见的是计量资料两组比较的医疗卫生实践中最常见的是计量资料两组比较的问题;问题;vt t检验检验 ( (t t test, student test, student t t test) test)和和u u检验检验( (u u test)test)是用于计量

30、资料两组比较的最常用的假设检是用于计量资料两组比较的最常用的假设检验方法验方法v如两种疗法治疗糖尿病的疗效比较如两种疗法治疗糖尿病的疗效比较2525例糖尿病患者例糖尿病患者随机分成两组,随机分成两组,甲组单纯用药物甲组单纯用药物治疗,乙组采用治疗,乙组采用药物治疗合并饮药物治疗合并饮食疗法,二个月食疗法,二个月后测空腹血糖后测空腹血糖(mmol/L) (mmol/L) 问两种问两种疗法治疗后患者疗法治疗后患者血糖值是否相同血糖值是否相同? 总体总体?推断推断 1药物治疗药物治疗药物治疗合药物治疗合并饮食疗法并饮食疗法 2 样本样本 甲组甲组乙组乙组=15.21 n1=12 1Xn2=13 =1

31、0.85 2X71差异的原因:差异的原因:v v(1)由于抽样误差造成的由于抽样误差造成的.(实际上实际上 = 0 ,但,但由于抽样误差由于抽样误差 不能很好代表不能很好代表 0 )v(2)可能由于职业等因素的影响,样本所代可能由于职业等因素的影响,样本所代表的总体与已知总体确实不同:表的总体与已知总体确实不同: 072 t检验以检验以t分布分布为基础,是计量资料为基础,是计量资料中最常用的的假设检验方法。中最常用的的假设检验方法。完全随机设计单样本完全随机设计单样本完全随机设计两样本完全随机设计两样本配对设计配对设计73应用条件应用条件:v1) 样本来自正态样本来自正态(近似正态近似正态)总

32、体总体v2)两总体方差具有齐性两总体方差具有齐性v3)两个小样本资料两个小样本资料746.1 单个样本单个样本 t 检验检验 即:即:样本均数与总体均数比较的检验,样本均数与总体均数比较的检验,实际上是推断实际上是推断该样本来自的总体均数该样本来自的总体均数与与已知的某一总体均数已知的某一总体均数0 0(常为理论值或(常为理论值或标准值)标准值) 有无差别。有无差别。 单样本均数:平时抽样或观察所得,其单样本均数:平时抽样或观察所得,其 总体均数总体均数 是未知的。是未知的。已知总体均数已知总体均数 :指已知的理论值、标:指已知的理论值、标准值、或经大量观察所得到的稳定值。准值、或经大量观察所

33、得到的稳定值。 0 75统计量统计量t的计算公式的计算公式小样本小样本xsxt大样本大样本nsXu 76例题例题77附表2 t界值表78注意:注意:vt值有正负值,由于值有正负值,由于t分布是以分布是以0为中心的对为中心的对称分布,故表中只列正值,查表时,不管称分布,故表中只列正值,查表时,不管t值正负只用绝对值查表得概率值值正负只用绝对值查表得概率值.79根据专业知识确定单、双侧检验根据专业知识确定单、双侧检验80t0.05,v 0.05 不拒绝不拒绝H0 无无统计学意义统计学意义 t0.05 ,v 0.05 拒绝拒绝H0,接受,接受H1 有有统计学意义统计学意义 t0.01 ,v 0.01

34、 拒绝拒绝H0,接受,接受H1 有有统计学意义统计学意义t值、值、P值与统计结论的关系(值与统计结论的关系(0.050.05)t值值 P值值 结论结论 差异的统计学意义差异的统计学意义81查查t值表时,先查值表时,先查P=0.05时的界值。时的界值。v 当当P0.05时,需继续往时,需继续往P更大的一侧查,更大的一侧查,直到最大的直到最大的P值为止。值为止。826.2 配对样本配对样本t检验检验v应用配对设计可以减少实验的误差和控应用配对设计可以减少实验的误差和控制非处理因素,提高统计处理的效率。制非处理因素,提高统计处理的效率。83配对设计的三种情况配对设计的三种情况v1.两种同质的受试对象

35、分别接受两种处理两种同质的受试对象分别接受两种处理v2.同一受试对象或同一样本的两个部分,分同一受试对象或同一样本的两个部分,分别接受两种不同处理。别接受两种不同处理。v3.自身对比。即将同一受试对象处理(实验自身对比。即将同一受试对象处理(实验或治疗)前后的结果进行比较。或治疗)前后的结果进行比较。84v人群试验中:人群试验中:常将性别相同、年龄、生活条件、常将性别相同、年龄、生活条件、工作条件、病情等因素相近的人配成对子。工作条件、病情等因素相近的人配成对子。v动物实验中:动物实验中:常将动物的种属、窝别、性别相常将动物的种属、窝别、性别相同、体重相近的动物配成对子。同、体重相近的动物配成

36、对子。85配对样本配对样本t检验的基本原理检验的基本原理条件:条件:配对样本资料差值正态分布配对样本资料差值正态分布目的:目的:86配对样本配对样本 t 检验公式检验公式,0nsdsdtdd5-2d d:每对数据的差值:每对数据的差值 :差值样本的标准误:差值样本的标准误 n n :配对样本的对子数:配对样本的对子数 :差值样本的均数:差值样本的均数 :差值样本的标准差:差值样本的标准差ddsds87配对配对t检验:检验:优点:配对设计优点:配对设计减少了个体差异。减少了个体差异。 特点:资料成对,每对数据不可拆分。特点:资料成对,每对数据不可拆分。88 配对配对t检验的实质同于单样本的检验的

37、实质同于单样本的t检验,以上检验,以上述第一种情况,两同质受试对象配对分别接述第一种情况,两同质受试对象配对分别接受两种不同的处理为例。若两种处理效应相受两种不同的处理为例。若两种处理效应相同,即同,即1=2,则,则12=0(当成已知总体(当成已知总体均数均数0)。因此,可将此类资料看成是差值)。因此,可将此类资料看成是差值的样本均数的样本均数 所代表的未知总体均数所代表的未知总体均数 d 与与已知总体均数已知总体均数0= 0的比较。的比较。89v从某大学一年级同学中随机抽取从某大学一年级同学中随机抽取15名同学,名同学,进行艾滋病相关知识培训,同一份问卷在培进行艾滋病相关知识培训,同一份问卷

38、在培训前后对该训前后对该15名同学进行调查,得分情况见名同学进行调查,得分情况见表,问接受培训前后,该表,问接受培训前后,该15名同学问卷得分名同学问卷得分情况有无差异?情况有无差异?9091v1.1.建立检验假设,确定检验水准建立检验假设,确定检验水准H H0 0: d d=0=0,培训前后调查问卷得分差值的总体均数为,培训前后调查问卷得分差值的总体均数为0;0;H H1 1: d d 0 0,培训前后调查问卷得分差值的总体均数不为,培训前后调查问卷得分差值的总体均数不为0 0 0.050.05。92 先计算差数的标准差先计算差数的标准差 v按公式计算,得:按公式计算,得:2.2.计算检验统

39、计量计算检验统计量639. 1,600. 5,15dsdn233.13/0nsdtd93v3.3.确定确定 P P 值,作出推断结论值,作出推断结论 自由度计算为自由度计算为 = =n n-1=-1=n n-1=15-1=14-1=15-1=14, 查附表查附表2 2,得,得t t0.05(14)0.05(14) = 2.145 = 2.145, P P 0.05 0.05,差别有统计学意义,拒绝,差别有统计学意义,拒绝H H0 0,接受,接受H H1 1, 可认为两种方法皮肤浸润反应结果的差别有统计学意可认为两种方法皮肤浸润反应结果的差别有统计学意义。义。94v在日常工作中,我们经常要比较某

40、两组计量资料在日常工作中,我们经常要比较某两组计量资料的均数间有无显著差别,如研究不同疗法的降压的均数间有无显著差别,如研究不同疗法的降压效果或两种不同制剂对杀灭鼠体内钩虫的效果效果或两种不同制剂对杀灭鼠体内钩虫的效果(条数)等。这时假若事先难以找到年龄、性别(条数)等。这时假若事先难以找到年龄、性别等条件完全一样的人(或动物)作配对比较,那等条件完全一样的人(或动物)作配对比较,那么不能求每对的差数只能先算出各组的均数,然么不能求每对的差数只能先算出各组的均数,然后进行比较。两组例数可以相等也可稍有出入。后进行比较。两组例数可以相等也可稍有出入。检验的方法同样是先假定两组相应的总体均数相检验

41、的方法同样是先假定两组相应的总体均数相等,看两组均数实际相差与此假设是否靠近,近等,看两组均数实际相差与此假设是否靠近,近则把相差看成抽样误差表现,远到一定界限则认则把相差看成抽样误差表现,远到一定界限则认为由抽样误差造成这样大的相差的可能性实在太为由抽样误差造成这样大的相差的可能性实在太小,拒绝假设而接受小,拒绝假设而接受H1,作出两总体不相等的结论。作出两总体不相等的结论。 956.3 6.3 两独立样本两独立样本t t检验检验 完全随机设计完全随机设计(completely random design) :把受把受试对象完全随机分为两组,分别给予不同处理,试对象完全随机分为两组,分别给予

42、不同处理,然后比较独立的两组样本均数。各组对象数不必然后比较独立的两组样本均数。各组对象数不必严格相同。严格相同。 目的目的:比较两总体均数是否相同比较两总体均数是否相同。96 两种情况:两种情况:两小样本均数比较两小样本均数比较 方差不齐方差不齐 方差齐方差齐t检验检验t检验检验变量变换变量变换 秩和检验秩和检验 97总体方差具有齐性时的总体方差具有齐性时的t检验检验v两独立样本两独立样本t t检验的检验假设是两总体均数检验的检验假设是两总体均数相等相等, ,即即H H0 0:1 1= =2 2,也可表述为,也可表述为1 12 2=0,=0,这里可将两样本均数的差值看成一个这里可将两样本均数

43、的差值看成一个变量样本变量样本, , 就是差值的标准误就是差值的标准误, ,则在则在H H0 0条件条件下两独立样本均数下两独立样本均数t t检验可视为样本与已知检验可视为样本与已知总体均数总体均数1 12 2=0=0的单样本的单样本t t检验检验, , 统计统计量计算公式为量计算公式为98总体方差具有齐性时的总体方差具有齐性时的t检验检验计算公式:计算公式:)11(212-21nnSScXX 2-) 1-() 1-(1-1-/)( -/)( -212222112122222121212nnSnSnnnnXXnXXSc 2-1 -1 -,-2121-2121nnnnSXXtXX其中,均数差的标

44、准误其中,均数差的标准误 99vScSc2 2称为合并方差称为合并方差(combined/pooled (combined/pooled variance),variance),上述公式可用于已知两样本观察上述公式可用于已知两样本观察值原始资料时计算值原始资料时计算, ,当两样本标准差当两样本标准差S S1 1和和S S2 2已知时已知时, ,合并方差合并方差ScSc2 2为为: : 2) 1() 1(212222112nnSnSnSc100例题例题:v白血病组:白血病组:12.3 13.2 13.7 15.2 15.4 15.8 16.9v正常组正常组 : 10.8 11.6 12.3 12

45、.7 13.5 13.5 14.8v问正常鼠和白血病鼠脾脏中问正常鼠和白血病鼠脾脏中DNA平均含量平均含量(mg/g)是否不同?)是否不同?v解法解法:首先做方差齐性检验首先做方差齐性检验101方差齐性检验方差齐性检验v由于存在抽样误差由于存在抽样误差,即使两总体方差相等即使两总体方差相等,两样两样本方差也可能不具有齐性本方差也可能不具有齐性.所以要判断两总体所以要判断两总体方差是否具有齐性,可用方差齐性检验方差是否具有齐性,可用方差齐性检验,也称也称F检验。检验。vF检验是两样本检验是两样本t检验的第一步。检验的第一步。计算计算F值的公式值的公式:1, 1)()(22112221nnssF较

46、小较大103v 为较大的样本方差,为较小的样本方差;为较大的样本方差,为较小的样本方差;v 检验统计量检验统计量F F 值为两个样本方差之比,若样本方差的不值为两个样本方差之比,若样本方差的不同仅为抽样误差的影响,同仅为抽样误差的影响,F F值一般不会偏离值一般不会偏离1 1太远。太远。v 求得求得F F值后,查附表值后,查附表3 3(方差齐性检验用的(方差齐性检验用的F F界值表)得界值表)得P P值。值。 v 取取=0.05=0.05水准,若水准,若F FF F0.05(0.05(, ,2)2),P P0.05,0.05,拒绝拒绝H H0 0,接受接受H H1 1,可认为两总体方差不等;,

47、可认为两总体方差不等; v 若若F FF F0.05(0.05(, ,2 2),P P0.050.05,两总体方差相等。,两总体方差相等。 21S22S104105例题:例题:例例3 3- -9 9 白白血血病病组组)(1X:1 12 2. .3 3 1 13 3. .2 2 1 13 3. .7 7 1 15 5. .2 2 1 15 5. .4 4 1 15 5. .8 8 1 16 6. .9 9 正正常常组组 )(2X: 1 10 0. .8 8 1 11 1. .6 6 1 12 2. .3 3 1 12 2. .7 7 1 13 3. .5 5 1 13 3. .5 5 1 14

48、4. .8 8 问问正正常常鼠鼠和和白白血血病病鼠鼠脾脾脏脏中中D DN NA A 平平均均含含量量(m mg g/ /g g)是是否否不不同同? 解解:本本例例:1n= =7 7,1X= =1 14 4. .6 64 4,1S= =1 1. .6 62 2,2n= =7 7,2X= =1 12 2. .7 74 4,2S= =1 1. .3 33 3 1 1. .建建立立假假设设、确确定定检检验验水水准准。 H H0 0:21 H H1 1:21 = =0 0. .0 05 5 2 2. .计计算算检检验验统统计计量量。 222(7 1) 1.62(7 1) 1.332.207 7 2cS

49、12212|14.64 12.74|2.391111()2.20 ()77cXXtSnn,12277 3 3. .查查相相应应界界值值,确确定定P P值值,下下结结论论。 查查表表179. 212, 2/05. 0t, , 0.05/2,12tt,P P u0.01/2,得,得P0.01,按,按=0.05水准,拒绝水准,拒绝H0,接受,接受H1,2003年当年当地地20岁应征男青年与岁应征男青年与1995年相比,差别有统计学意义。年相比,差别有统计学意义。可认为可认为2003年当地年当地20岁应征男青年的身高有变化,比岁应征男青年的身高有变化,比1995年增高了。年增高了。113t检验与检验与

50、u检验区别检验区别 公式公式 查表查表 与与n关系关系 计算精度计算精度 t检验检验 较复杂较复杂 需需 无关无关 精确精确 u检验检验 简单简单 否否 n较大较大 近似近似114t t检验(两总体方差不齐)检验(两总体方差不齐)t检验通过对临界值的校正、自由度的校正来提检验通过对临界值的校正、自由度的校正来提高检验效能。高检验效能。常用的方法有常用的方法有CochranCox法、法、Satterthwaite法、法、Welch法。法。注意:注意:t检验检验只是统计量的计算或自度进行校正只是统计量的计算或自度进行校正1151,1221122212121nnnsnsxxt22)(2)(22122

51、11:xxxxsstststt为校正临界值116注意注意:.,1,2121检验也可用此时即使方差不齐时当tnttnn117完全随机设计两样本几何均数的比较完全随机设计两样本几何均数的比较适用于用几何均数表示平均水平的资料适用于用几何均数表示平均水平的资料.(如抗如抗体滴度的资料体滴度的资料).118具体做法具体做法:v1.将这些观察值将这些观察值x用用lgx来代替来代替(即做对数变换即做对数变换),则则lgx往往服从正态分布往往服从正态分布,相应的两总体方差也可能相应的两总体方差也可能具有齐性具有齐性.v2.然后就可用总体方差具有齐性的两独立样本然后就可用总体方差具有齐性的两独立样本t检验对检

52、验对lgx进行分析进行分析.119计算检验统计量的公式计算检验统计量的公式:21lglg21lglgxxsxxt21-21-XXSXXt 1206.4 假设检验的两类错误假设检验的两类错误v假设检验是利用小概率反证法思想,从问题假设检验是利用小概率反证法思想,从问题的对立面的对立面(H0)出发间接判断要解决的问题出发间接判断要解决的问题(H1)是否成立,然后在假定是否成立,然后在假定H0成立的条件下计算成立的条件下计算检验统计量,最后根据检验统计量,最后根据P值判断结果,此推值判断结果,此推断结论具有概率性,因而无论断结论具有概率性,因而无论拒绝拒绝还是还是不拒不拒绝绝H0,都可能犯错误。,都

53、可能犯错误。121一、一、型错误型错误v拒绝了实际上成立的拒绝了实际上成立的H0,即即“弃真弃真”错误。错误。v犯了犯了型错误的概率可以用型错误的概率可以用表示,研究者表示,研究者可根据不同研究目的来确定可根据不同研究目的来确定水平。水平。v一般规定一般规定0.05或或 0.01,v其意义为:假设检验中如果拒绝时,发生其意义为:假设检验中如果拒绝时,发生型错误的概率为型错误的概率为5或或1,即,即100次拒绝的次拒绝的结论中,平均有结论中,平均有5次或次或1次是错误的。次是错误的。122v型错误型错误是指接受了实际上不成立的是指接受了实际上不成立的H0,即即“存伪存伪”错误。用错误。用表示表示

54、。 其意义为:假设检验中不拒绝其意义为:假设检验中不拒绝H0时,发生时,发生型错误的概率为型错误的概率为100,即,即100次实际抽次实际抽样中,平均有样中,平均有100次错误。次错误。123陪审团审判陪审团审判裁决裁决实际情况实际情况无罪无罪有罪有罪无罪无罪正确正确错误错误有罪有罪错误错误正确正确H0 检验检验决策决策实际情况实际情况H0为真为真H0为假为假不拒绝不拒绝H01 - 第二类第二类错误错误( (b)b)拒绝拒绝H0第一类第一类错误错误( ()功效功效(1-(1-b)b)124v对于一般的假设检验,对于一般的假设检验,定为定为0.05(或(或0.01),),的大小取决于的大小取决于

55、H1。通常情况下,通常情况下,比较总体间有无差异并不知道,即比较总体间有无差异并不知道,即H1不明不明确,确, 值的大小无法确定,也就是说,对于值的大小无法确定,也就是说,对于一般的假设检验,我们并不知道犯一般的假设检验,我们并不知道犯型错误型错误的概率的概率有多大有多大。125 与与 间的关系间的关系减少(增加)减少(增加)I型错误型错误,将会,将会增加(减少)增加(减少)II型错误型错误增大增大n 同时降低同时降低 与与 b b b b126v如何确定如何确定和和的取值?的取值?v 1、若重点减少、若重点减少,则取,则取0.01 v 例如例如:为避免把疗效与常规药本无差别的为避免把疗效与常规药本无差别的新药当做有差别,致使无故废弃常规药,新药当做有差别,致使无故废弃常规药,即即严格要求。严格要求。127v2、若重点减少、若重点减少,则取,则取0.1或或0.2。 例如:当欲用新方法取代旧方法时,为了慎例如:当欲用新方法取代旧方法时,为了慎重起见,宁可把无差别当成有差别。重起见,宁可把无差别当成有差别。128v3、若需兼顾、若需兼顾和和,则取,则取0.05较为恰当。较为恰当。v4、若要同时减少、若要同时减少和和,只能增加样本的含,只能增加样本的含量。量。1296.5 t检验中的注意

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论