数值变量统计推断_第1页
数值变量统计推断_第2页
数值变量统计推断_第3页
数值变量统计推断_第4页
数值变量统计推断_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022-6-141数值变量资料的统计推断数值变量资料的统计推断本节要求n掌握均数抽样误差的概念、熟悉样本均数的分布规律n掌握均数标准误的概念、计算与作用n了解t分布的概念、熟悉t分布曲线的特点n掌握t界值表的使用n熟悉总体均数可信区间的概念、了解其估计方法。2022-6-1422022-6-1432022-6-144样本均数的分布样本均数的分布2022-6-145样本均数的分布样本均数的分布表表 1 100 个个样样本本均均数数的的频频数数分分布布表表 身身高高组组段段(cm) 频频数数(f) 169 1 170 7 171 19 172 36 173 26 174 8 175 2 1761

2、77 1 合合计计 100 可可算算得得,这这 100 个个样样本本均均数数的的均均数数=172.66,标标准准差差为为 1.21 2022-6-146样本均数的分布样本均数的分布2022-6-147标准误的标准误的计算计算2022-6-1482022-6-149标准误的作用与性质标准误的作用与性质v作用作用:v描述均数抽样误差的大小描述均数抽样误差的大小v估计总体均数可信区间估计总体均数可信区间v用于数值变量资料的假设检验用于数值变量资料的假设检验v性质性质vn ,标准误趋于标准误趋于0 2022-6-14102022-6-1411 三、t 分布分布2022-6-1412 三、t 分布分布X

3、 N( , ) / )( xu XN( (,X ) ), XXu;XsXt 2022-6-1413 2022-6-1414 2022-6-1415t t 分布与标准正态分布相比,二者分布与标准正态分布相比,二者均为单峰分布,以均为单峰分布,以 0 0 为中心,左右两侧为中心,左右两侧对称。对称。 t t 分布的峰部较矮而尾部翘得较分布的峰部较矮而尾部翘得较高;高;t t 分布的形状与自由度分布的形状与自由度 ( (= =n n- -1)1)有有关,自由度越小,上述现象越明显;关,自由度越小,上述现象越明显; 逐渐增大时,逐渐增大时,t t 分布逐渐逼近标准正态分布逐渐逼近标准正态分布分布, ,

4、当当 时时 t t 分布就完全成为标准分布就完全成为标准正态分布了正态分布了( (见上图见上图) )。 2022-6-1416 2.5% 2.5% 2.5% 2.5% 95% 95% - -t t0.05,1 0.05,1 +t+t0.05,10.05,1(12.706) (12.706) =1=1 2.5% 2.5% 95% 2.5% 95% 2.5% - -t t0.05,10 0.05,10 +t+t0.05,100.05,10(2.228)(2.228) =10=10 不同自由度下,相同尾部面积(5%)的 t 界值示意图 2022-6-14172022-6-1418四、总体均数的估计四

5、、总体均数的估计n1. 点估计点估计 2 2. .区区间间估估计计 即即按按一一定定的的概概率率估估计计总总体体均均数数在在哪哪个个范范围围内内。有有两两种种估估计计方方法法(以以估估计计 9 95 5% %可可信信区区间间为为例例) : 2022-6-14192022-6-14202022-6-14212022-6-14222022-6-1423关于可信区间n可信区间的涵义可信区间的涵义 n可信区间的两要素可信区间的两要素n准确性(准确性(1 1)n精确性(区间的宽度)精确性(区间的宽度)2022-6-1425 某医生用某医生用A、B两药分别治疗两两药分别治疗两组高血压患者(每组各组高血压患

6、者(每组各5人)人) ,治,治疗后疗后A组平均降压组平均降压10mmHg,B组平组平均降压均降压5mmHg。问。问A、B两药疗效两药疗效有无差别?有无差别?数值变量资料的假设检验数值变量资料的假设检验 2022-6-14262022-6-1427第四节 假设检验的基本思想 与步骤 n1假设检验的意义假设检验的意义n2假设检验的基本步骤假设检验的基本步骤l 建立检验假设,决定取单、双侧;建立检验假设,决定取单、双侧;l 确立检验显著性水准确立检验显著性水准 。l 选定检验方法并计算检验统计量选定检验方法并计算检验统计量l 确定确定P值值l 作出推断性结论作出推断性结论本节要求n了解假设检验的意义

7、了解假设检验的意义n熟悉假设检验的基本步骤熟悉假设检验的基本步骤n熟悉下列名词概念:熟悉下列名词概念: 检验假设、备择假设;单侧检验、双侧检验;检验假设、备择假设;单侧检验、双侧检验;检验水准(显著性水准);检验统计量;检验水准(显著性水准);检验统计量;P值值n掌握掌握、P及与检验结论的关系及与检验结论的关系 2022-6-14282022-6-1429假设检验的意义假设检验的意义n假设检验的基本意义就是通过分辨两个样本假设检验的基本意义就是通过分辨两个样本是否分别属于两个不同总体,从而对总体作是否分别属于两个不同总体,从而对总体作出适当的结论。出适当的结论。n两个样本的概念也可以扩展为三个

8、及以上的两个样本的概念也可以扩展为三个及以上的样本。样本。n与此类似的,假设检验的意义也包括:分辨与此类似的,假设检验的意义也包括:分辨一个样本是否属于某特定总体等一个样本是否属于某特定总体等n概括地说:通过分析样本数据推论总体信息概括地说:通过分析样本数据推论总体信息2022-6-1430 例例10-16 经大规模调查得一般经大规模调查得一般健康成年男子血清总胆固醇均数为健康成年男子血清总胆固醇均数为4.6mmol/L,今随机调查某单位食,今随机调查某单位食堂成年男性炊事员堂成年男性炊事员25名,测得血清名,测得血清总胆固醇均数为总胆固醇均数为5.1mmol/L,标准,标准差为差为0.88m

9、mol/L,问该单位食堂成,问该单位食堂成年男性炊事员血清总胆固醇均数与年男性炊事员血清总胆固醇均数与健康成年男性血清总胆固醇均数有健康成年男性血清总胆固醇均数有无差别?无差别?2022-6-1431实例分析:例实例分析:例10-1610-16 2022-6-14322022-6-14332022-6-1434关于n就是拒绝还是不拒绝H0 的界线,也即拒绝H0 时允许犯(假阳性)错误的概率n可大可小,研究者应根据研究目的而定:如果为筛选可疑因素(病例), 应大些;如果为确诊, 则应小些。n最常选用的为0.052022-6-1435关于P与t的关系n若检验统计量t相应的 t界值( t, ),即t

10、 t,,则P;n若检验统计量t相应的 t界值( t, ),即t t,,则P 2022-6-14362022-6-1438第五节 均数的t检验与u检验n一一. .样本均数与总体均数比较的样本均数与总体均数比较的t t检验检验( (掌握掌握) )n二二. .成组设计两样本均数比较的成组设计两样本均数比较的t t 检验检验 ( (重点掌握重点掌握) )n三三. .配对设计的配对设计的t t检验检验( (重点掌握重点掌握) )n四四. .成组成组 设计两大样本均数比较的设计两大样本均数比较的u u检验检验 (了解)(了解)n五五. .关于关于I型错误与型错误与II型错误型错误(了解)(了解) n六六.

11、 .假设检验的注意事项假设检验的注意事项(自学)(自学) 2022-6-1439一、样本均数与总体均数比较一、样本均数与总体均数比较 2022-6-14412022-6-1442二、成组设计的两样本均数比二、成组设计的两样本均数比较的较的t检验检验2022-6-14432022-6-14442022-6-14452022-6-1446二、成组设计两样本均数比较的二、成组设计两样本均数比较的t检验(续)检验(续)2022-6-14472022-6-14482022-6-1449三、配对设计的三、配对设计的t t检验检验2022-6-14502022-6-14512022-6-1452三、配对设计

12、的三、配对设计的t检验(续)检验(续)n资料类型资料类型n配对目的配对目的n资料处理方法资料处理方法 2022-6-14531 1、资料类型:、资料类型:l同一对象处理前后;同一对象处理前后; l同一对象接受两种处理;同一对象接受两种处理; l不同对象组成对子不同对象组成对子 特点:成对数据特点:成对数据2022-6-14542022-6-14552022-6-14562022-6-14572022-6-14582022-6-1459t t检验的应用条件是检验的应用条件是:2022-6-1460四四. 成组设计两大样本均数比较的成组设计两大样本均数比较的U检验检验n例例10-21 男女健康成人

13、红细胞数(单男女健康成人红细胞数(单位位:1012/L),), 各测定各测定150人,男性均数人,男性均数为为4.71,标准差为标准差为0.50;女性均数为;女性均数为4.22,标准差为标准差为0.55。问该地男女红细胞数有。问该地男女红细胞数有无差别。无差别。2022-6-14612022-6-1462归纳:假设检验的基本过程n首先分析样本信息,选择正确的假设检验方首先分析样本信息,选择正确的假设检验方法法n建立假设,确立显著性水准并计算相应的检建立假设,确立显著性水准并计算相应的检验统计量验统计量n根据检验统计量的分布规律,求得检验假设根据检验统计量的分布规律,求得检验假设成立的概率成立的

14、概率P(查表得到)(查表得到)n根据根据P的大小,按照事先设立的显著性水准,的大小,按照事先设立的显著性水准,对检验假设作出取舍,从而得出检验结论。对检验假设作出取舍,从而得出检验结论。2022-6-1463关于检验统计量的计算公式n不同的检验方法,需计算不同的(相对应的)统计统计量;n即使是同一种假设检验,由于资料的不同,检验统计量的计算公式也不同。故需正确选择之。2022-6-1464五、五、I型错误与型错误与II型错误型错误 2022-6-1465五、五、I型错误与型错误与II型错误型错误 2022-6-1466五、五、I型错误与型错误与II型错误型错误 2022-6-1467 H0成立

15、 判 断 正 确 判断错误 第一类错误 H0不成立 判 断 错 误 判断正确 第二类错误 2022-6-1468六、应用假设检验时的注意事项六、应用假设检验时的注意事项 1. 要有严密的设计, 以保证样本来自同质总要有严密的设计, 以保证样本来自同质总体, 组间必须保证其均衡性与可比性。 除研究因体, 组间必须保证其均衡性与可比性。 除研究因素以外, 其它对结果有影响的因素应尽可能相同素以外, 其它对结果有影响的因素应尽可能相同或相近。或相近。 2. 应根据设计的类型及变量的类型、样本应根据设计的类型及变量的类型、样本含量的大小,选用正确的方法。含量的大小,选用正确的方法。 2022-6-14

16、693 同同一份资料,用同一种检验法,取单侧或一份资料,用同一种检验法,取单侧或双侧检验可能会导致相反的结论,双侧检验可能会导致相反的结论,单侧检验单侧检验容易得出“有差异”这一结论。所以若无充容易得出“有差异”这一结论。所以若无充分的根据或理由,一般不作单侧检验分的根据或理由,一般不作单侧检验。如果如果作作单侧检验应表明之,双侧则可省略。单侧检验应表明之,双侧则可省略。 2022-6-14704 4正正确确理理解解差差别别有有无无统统计计学学意意义义的的含含义义:假假设设检检验验中中,凡凡拒拒绝绝0H,接接受受1H者者,称称作作“差差别别有有统统计计学学意意义义” ;反反之之,若若不不拒拒绝

17、绝0H,则则称称“差差别别无无统统计计学学意意义义” 。此此处处差差别别有有无无统统计计学学意意义义仅仅表表明明被被比比较较的的双双方方之之差差别别由由抽抽样样误误差差引引起起的的概概率率的的大大小小, 并并不不表表示示双双方方实实际际差差别别的的大大小小。 因因此此假假设设检检验验只只能能得得出出是是否否有有差差别别的的结结论论,不不能能得得出出差差别别是是否否显显著著的的结结论论。若若要要判判断断实实际际差差别别之之大大小小,必必须须考考察察实实际际资资料料,并并结结合合专专业业知知识识作作出出判判断断。 2022-6-14715 结论不能绝对化,尤其是当结论不能绝对化,尤其是当 P 接近

18、于接近于 时,下结论更要慎重。时,下结论更要慎重。另外,如前所述,拒绝另外,如前所述,拒绝H0,有可能产生,有可能产生 I 型误差;型误差;不不拒绝拒绝 H0,有可能产,有可能产生生 II 型误差。型误差。换言之,任何一种统计结论均存在换言之,任何一种统计结论均存在犯错误的概率(当然是小概率) ,所以不能用“证犯错误的概率(当然是小概率) ,所以不能用“证明”一类的词语作检验结论。明”一类的词语作检验结论。 6 报告结论时应同时标明检验统计量、报告结论时应同时标明检验统计量、P值、单双侧。除统计结论外,还应包括专业结论值、单双侧。除统计结论外,还应包括专业结论 2022-6-14722022-

19、6-14732022-6-14742022-6-1475第六节 方差分析n一、方差分析的基本思想一、方差分析的基本思想(熟悉)(熟悉)n二、完全随机设计的多个样本均数二、完全随机设计的多个样本均数 的比较的比较(掌握)(掌握)n三、多个样本均数间的两两比较的三、多个样本均数间的两两比较的 q q检验(检验(SNKSNK法)法)(了解)(了解)n四、随机区组资料的方差分析四、随机区组资料的方差分析(了解)(了解)n五、多个实验组与一个对照组均数间的五、多个实验组与一个对照组均数间的 n 两两比较(两两比较(LSDLSD法)法)(了解)(了解)2022-6-1476方差分析概述(掌握)nAnaly

20、sis of variance (ANOVA)n可看作是t检验的扩展n1928年由英国统计学家R.A.Fisher首先提出,故又称F检验检验n检验统计量为F值n多个均数比较的最常用方法n变异度分析:对变异进行分解:总变异、组间变异、组内变异2022-6-1477一、方差分析的基本思想一、方差分析的基本思想n 例例10-22 为研究为研究胃癌与胃黏膜细胞中胃癌与胃黏膜细胞中DNA含量的关系含量的关系,分别分别测定正常人、胃黏膜测定正常人、胃黏膜增生和胃癌患者的胃增生和胃癌患者的胃黏膜细胞中黏膜细胞中DNA含量含量(A.U),数据如表数据如表10-7,试问三组人群的胃黏试问三组人群的胃黏膜细胞中膜

21、细胞中DNA含量是含量是否不同?否不同?iXiX03613482152.s.x 表表10-7资料中资料中:N=39 k=32022-6-1478变异的分析:变异的分析:2022-6-14792022-6-14802022-6-14812022-6-1482方差分析的基本思想方差分析的基本思想2022-6-1483方差分析的基本思想(续)方差分析的基本思想(续)nF值值大到什么程度方可拒绝检验假设?大到什么程度方可拒绝检验假设?此应根据此应根据F值的分布概率及检验水准来值的分布概率及检验水准来决定决定n F值的分布概率可查表获得值的分布概率可查表获得n方差分析从分析各种变异入手,通过比方差分析从

22、分析各种变异入手,通过比较组内与组间变异的相对大小,作出统较组内与组间变异的相对大小,作出统计学结论。计学结论。2022-6-1484完全随机设计资料的方差分析完全随机设计资料的方差分析2022-6-1485例10-24 方差分析过程1.1.建立检验假设:建立检验假设: H H0 0: : 1 1= = 2 2 = = 3 3 H H1 1: 1 1、 2 2 、 3 3不等或不全相等。不等或不全相等。 双侧双侧 =0.05=0.052 .2 .计算检验统计量计算检验统计量F F值(见下表):值(见下表): F F=63.73=63.732022-6-14862022-6-1487二、完全随机

23、设计的多个样本均二、完全随机设计的多个样本均数的比较(单因素方差分析)数的比较(单因素方差分析)2022-6-1488例10-24 方差分析过程3. 3. 确定确定P P值,作结论:值,作结论: 以组间以组间为为1 1,组内,组内为为2 2,查附表,查附表 3 3、4 4,得,得, , F F0.01(2,36)0.01(2,36)=5.25,=5.25,今今F F=63.73=63.73 P P0.01 ,0.01 ,可认为三种人群可认为三种人群胃黏膜细胞胃黏膜细胞 中中DNA含量含量不同或不全相同不同或不全相同。 2022-6-1489n上述结论仅说明比较的几个总体间有差别,但并不说明每两

24、个总体间均有差别,也不说明差别存在于哪些总体间。要回答这些问题,应进一步作两两比较,也称作均数的多重比较(注意:不可以作注意:不可以作多次多次t 检验检验)n多重比较的方法较多,本节介绍两种:n多个样本均数间的两两比较(掌握)n多个实验组与一个对照组均数间的两两比较(了解)2022-6-1490三、三、多个样本均数间的两两比较多个样本均数间的两两比较的的 q q检验检验(Student-Newman-Keuls(Student-Newman-Keuls法法, ,简称简称SNKSNK法法) )nn(2MSss/ )XX(qBAXXXXBABABA11 误差误差2022-6-1491例10-27,

25、对例10-24资料进一步分析:H H0 0:任:任两对比组人群的胃黏膜细胞中两对比组人群的胃黏膜细胞中 DNADNA含量的总体均数相等,即含量的总体均数相等,即 A A= = B B H H1 1: A A B B 双侧双侧 =0.05=0.052022-6-1492n将将3个样本均数由大到小顺序排列并编个样本均数由大到小顺序排列并编秩:秩: 均数均数 12.221 14.725 19.692 秩次秩次 1 2 3 组别组别 正常人正常人 胃黏膜增生胃黏膜增生 胃癌胃癌2022-6-1493计算n本例n1=14 n2=12 n3=13, nMS误差误差= MS组内组内=3.03n代入公式,A,

26、B,C分别代表1,2,3组。得:BAXXs2022-6-1494计算BAXXs4741. 0)131141(203. 34927. 0)131121(203. 34842. 0)121141(203. 3313221 XXXXXXsss2022-6-1495列出两两比较的q检验计算表:2022-6-1496推断结论:n按按=0.05水准,三种组合均拒绝水准,三种组合均拒绝H0,接,接受受H1,差别有统计学意义。即可以认为,差别有统计学意义。即可以认为三种三种人群的胃黏膜细胞中人群的胃黏膜细胞中DNA含量的总含量的总体均数均不等体均数均不等,以正常人最低,胃癌患,以正常人最低,胃癌患者最高。者最

27、高。2022-6-1497三、随机区组资料的方差分析n即配伍组设计,为配对设计的扩展即配伍组设计,为配对设计的扩展n例例10-26 10-26 某医师为研究脾切除手术过某医师为研究脾切除手术过程中门静脉压力(程中门静脉压力(kPakPa)的变化,分别)的变化,分别测定测定1313名患者切脾后、贲门周围断流后、名患者切脾后、贲门周围断流后、胃底断流后三个不同时期门静脉压力,胃底断流后三个不同时期门静脉压力,数据见表数据见表10-910-9。试作分析。试作分析。2022-6-1498表10-9 脾切除手术中不同时期的门静脉压力病例号门脉压(kPa)切脾后贲门周围断流后胃底断流后46.5646.97

28、49.30142.833.5823.6133.7923.662173.737178.167196.412548.316jXiXiX2iX2022-6-1499例10-26ni表示不同时期(处理),表示不同时期(处理),j表示不同区表示不同区组(个体)组(个体)n处理因素处理因素i:3个不同的手术时期个不同的手术时期n区组因素区组因素j:13个不同个体个不同个体n总变异包括处理间、区组间及随机误差总变异包括处理间、区组间及随机误差nSS总总=SS处理处理SS区组区组SS误差误差2022-6-14100例10-26n总总=处理处理区组区组误差误差n总总=n-1; 处理处理=k-1; 区组区组=b-

29、1; n误差误差= 总总 - 处理处理 -区组区组2022-6-14101例10-26 建立检验假设:n处理组间处理组间:H H0 0: 1 1 = = 2 2 = = 3 3 nH H1 1:三个时期的门脉压力不等或不全相等:三个时期的门脉压力不等或不全相等n区组间:区组间: H H0 0:不同病例间门脉压力相等:不同病例间门脉压力相等nH H1 1:不同病例的门脉压力不等或不全相等:不同病例的门脉压力不等或不全相等n均取均取0.05各种变异(SS)的计算2022-6-14102CXbCbXSSii221处理CXSS2总CXkCkXSSjj221配伍2022-6-14103例10-26 检验

30、统计量的计算nC=(X)2/N=142.832/39=523.087nSS总总=X2-C=548.316-523.087=25.229nSS处理处理=1/13(46.562+46.972+49.302)-C=0.336nSS区组区组=1/3(10.982+5.302+9.612)-Cn =546.901-523.087=23.814nSS误差误差= SS总总 SS处理处理 SS区组区组n 25.2290.33623.8141.0792022-6-141042022-6-14105例10-26 结论:n处理组间处理组间:拒绝:拒绝H H0 0,接受,接受H H1 1,可认为三个,可认为三个时期的门脉压力不等或不全相等时期的门脉压力不等或不全相等n区组间:区组间:拒绝拒绝H H0 0,接受,接受H H1 1,可认为不同病,可认为不同病例的门脉压力不等或不全相等例的门脉压力不等或不全相等2022-6-14106例10-28 对例10-26中其他两组与“切脾组”比较:n方法:多个实验组与一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论