统计推断原理和基本方法课件_第1页
统计推断原理和基本方法课件_第2页
统计推断原理和基本方法课件_第3页
统计推断原理和基本方法课件_第4页
统计推断原理和基本方法课件_第5页
已阅读5页,还剩116页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

均数的抽样误差和总体均数估计均数的抽样误差和总体均数估计1参数估计2.假设检验统计推断的两部分内容:参数估计统计推断的两部分内容:2总体样本随机抽取部分观察单位

μ?

推断inference参数估计总体样本随机抽取部分观察单位μ?推断inference3一、抽样误差与标准误一、抽样误差与标准误42009年某市18岁男生身高N(167.7,5.32)的抽样示意图

2009年某市18岁男生身高N(167.7,5.32)的抽5

将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制频数图从正态分布总体N(167.7,5.32)随机抽样所得样本均数分布将此100个样本均数看成新变量值,则这100个样本均数构成6①

,各样本均数未必等于总体均数;②各样本均数间存在差异;③样本均数的分布为中间多,两边少,左右基本对称。

④样本均数的变异范围较之原变量的变异范围大大缩小。可算得这100个样本均数的均数为167.69cm、标准差为1.69cm。

样本均数分布具有如下特点:①,各样本均数未必等于总体均数;

样本71、抽样误差:

由个体变异产生的、抽样造成的样本统计量与总体参数的差别原因:1)抽样

2)个体差异1、抽样误差:由个体变异产生的、抽样造成的样本统计8表示样本统计量抽样误差大小的统计指标。标准误:说明抽样误差的大小,总体计算公式(7-27)2、标准误(standarderror,SE)实质:样本均数的标准差表示样本统计量抽样误差大小的统计指标。2、标准误(stand9若用样本标准差s

来估计,

(7-28)当样本例数n一定时,标准误与标准差呈正比当标准差一定时,标准误与样本含量n的平方根呈反比。通过增加样本含量n来降低抽样误差。若用样本标准差s来估计,当样本例数n一定时,标准10随机抽样调查7岁男孩120名,的身高均数为120.88,标准差为5.23,则其标准误是多少?例子:随机抽样调查7岁男孩120名,的身高均数为120.88,标准11指标意义应用标准差(s)衡量变量值变异程度,s越大表示变量值变异程度越大,s越小表示变量值变异程度越小描述正态分布(近似正态分布)资料的频数分布;医学参考值范围的估计标准误()样本均数的变异程度,表示抽样误差的大小。标准误越大表示抽样误差越大,样本均数的可靠性越小;标准误越小表示抽样误差越小,样本均数的可靠性越大总体均数区间估计;两个或多个总体均数间比较标准差和标准误的区别指标意义应用标准差衡量变量值变异程度,s越大表示变量值变异程12二、t分布(一)t分布概念二、t分布(一)t分布概念13随机变量XN(m,s2)标准正态分布N(0,12)z变换随机变量X标准正态分布z变换14统计推断原理和基本方法课件15

式中为自由度(degreeoffreedom,df)

3.实际工作中,由于未知,用代替,则不再服从标准正态分布,而服从t分布。

式中为自由度(degreeoffreedom16均数标准正态分布N(0,12)Studentt分布自由度:n-1均数标准正态分布Studentt分布17(二)t分布的图形与特征分布只有一个参数,即自由度(二)t分布的图形与特征分布只有一个参数,即自由度18

图不同自由度下的t分布图

图不同自由度下的t分布图191.特征:1.特征:202、t界值表:详见附表,可反映t分布曲线下的面积。单侧概率或单尾概率:用表示;双侧概率或双尾概率:用表示。

2、t界值表:21-tt0-tt022举例:

举例:23三、参数估计用样本统计量推断总体参数。总体均数估计:用样本均数(和标准差)推断总体均数。三、参数估计24点估计(pointestimation):用相应样本统计量直接作为其总体参数的估计值。如用

估计μ、s估计

等。其方法虽简单,但未考虑抽样误差的大小。点估计(pointestimation):用相应样本统计量25

按预先给定的概率(1

)所确定的包含未知总体参数的一个范围。总体均数的区间估计:按预先给定的概率(1

)所确定的包含未知总体均数的一个范围。

如给定

=0.05,该范围称为参数的95%可信区间或置信区间;如给定

=0.01,该范围称为参数的99%可信区间或置信区间。2.区间估计(intervalestimation):按预先给定的概率(1)所确定的包含未知总26计算总体均数可信区间需考虑:(1)总体标准差

是否已知,(2)样本含量n的大小通常有两类方法:(1)t分布法

(2)z分布法计算总体均数可信区间27

(1)

未知且n比较小:按t分布(1)未知且n比较小:按t分布28统计推断原理和基本方法课件29统计推断原理和基本方法课件30(2)按z分布(2)按z分布31某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数的95%可信区间。

举例某地抽取正常成年人200名,测得其血清胆固醇的均32

故该地正常成年人血清胆固醇均数的双侧95%可信区间为(3.47,3.81)mmol

L。故该地正常成年人血清胆固醇均数的双侧95%可33四、假设检验的基本概念和步骤四、假设检验的基本概念和步骤34举例大规模调查表明,健康成年男子血红蛋白的均数为136.0g/L,今随机调查某单位食堂成年男性炊事员25名,测得其血红蛋白均数121g/L,标准差48.8g/L。问题:根据资料推论食堂炊事员血红蛋白均数是否与健康成年男子血红蛋白均数有无差别(一)假设检验的基本思想举例(一)假设检验的基本思想35假设检验目的——判断差别是由哪种原因造成的。①

抽样误差造成的;②

本质差异造成的。造成的可能原因有二:案例假设检验目的——判断差别是由哪种原因造成的。①

抽样误差造36炊事员血红蛋白总体均数

136.0g/L

121g/L炊事员血红蛋白总体均数

136.0g/L一种假设H0另一种假设H1抽样误差总体不同炊事员血红蛋白总体均数121g/L炊事员血红37

假定假如炊事员均数为136.0g/L,即则,服从t分布,绝大多数t应该分布在主要区域

根据t

分布能够计算出有如此大差异的概率P,如果P值很小,即计算出的t值超出了给定的界限,则倾向于拒绝H0,认为山区血红蛋白均数不是136.0g/L

假定假如炊事员均数为136.0g/L,即38统计推断原理和基本方法课件39假设检验的基本思想—利用小概率反证法的思想利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。当P小于或等于预先规定的概率值α,就是小概率事件。根据小概率事件的原理:小概率事件在一次抽样中发生的可能性很小,如果他发生了,则有理由怀疑原假设H0,认为其对立面H1成立假设检验的基本思想—利用小概率反证法的思想利用小概率反证法思401.建立检验假设,确定检验水准(选用单侧或双侧检验)(1)无效假设,记为H0;(2)备择假设,记为H1。对于检验假设,须注意:1)检验假设是针对总体而言,而不是针对样本;2)H0和H1是相互联系,对立的假设,后面的结论是根据H0和H1作出的,因此两者不是可有可无,而是缺一不可二、假设检验的基本步骤1.建立检验假设,确定检验水准(选用单侧或双侧检验)二、假设413)H1的内容直接反映了检验单双侧。若H1中只是

0

或只是

<

0,则此检验为单侧检验。它不仅考虑有无差异,而且还考虑差异的方向。

4)单双侧检验的确定,首先根据专业知识,其次根据所要解决的问题来确定。若从专业上看一种方法结果不可能低于或高于另一种方法结果,此时应该用单侧检验。一般认为双侧检验较保守和稳妥。

3)H1的内容直接反映了检验单双侧。若H1中只是042

(3)检验水准

,是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取

=0.05。可根据不同研究目的给予不同设置。例如本题:

=0.05(3)检验水准,是预先规定的概率值,它确定了小概率事件432.计算检验统计量根据变量和资料类型、设计方案、统计推断的目的、是否满足特定条件等(如数据的分布类型)选择相应的检验统计量。如t检验、z检验、F检验和检验等。2.计算检验统计量44本例采用t检验方法本例t值为1.54本例采用t检验方法45

是指根据所计算的检验统计量确定H0成立的可能性大小,即确定在检验假设条件下由抽样误差引起差别的概率。

3.确定P值,做出推断结论查表得到检验用的临界值,然后将算得的统计量与拒绝域的临界值作比较,确定P值。如对双侧t检验,则,按检验水准

拒绝H0。是指根据所计算的检验统计量确定H0成立的可能性大小,即46本例查t界值表自由度v=24,t=1.54按照a=0.05的水准,不拒绝H0,差异没有统计学意义,还不能认为炊事员血红蛋白和健康成年男子有差别。本例查t界值表47数值变量资料假设检验的基本方法(t检验、z检验)数值变量资料假设检验的基本方法48概述t检验适用于总体标准差未知的假设检验。已知总体标准差的假设检验,采用z检验。总体标准差未知的大样本均数的假设检验,可近似用z检验。当样本含量较大时,t检验与z检验可以等同使用。概述t检验适用于总体标准差未知的假设检验。49一、样本均数与总体均数比较单样本t检验二、配对t检验三、完全随机设计两均数比较两样本t检验两样本z检验一、样本均数与总体均数比较50一、样本均数与总体均数比较

样本均数(代表未知总体均数

)与已知总体均数

0(一般为理论值、标准值或经过大量观察所得稳定值等)的比较。一、样本均数与总体均数比较51(一)单样本t

检验

应用条件:数值变量资料样本来自正态分布的总体计算公式:(一)单样本t检验52单个样本t检验——实例分析以往通过大规模调查已知某地新生儿出生体重为3.30kg.从该地难产儿中随机抽取35名新生儿作为研究样本,平均出生体重为3.42kg,标准差为0.40kg,问该地难产儿出生体重是否与一般新生儿体重不同?本例已知总体均数

0=3.30kg,但总体标准差

未知,n=35,S=0.40kg,故选用单样本t检验。单个样本t检验——实例分析以往通过大规模调查已知某地新生儿出53检验步骤1.建立检验假设,确定检验水准H0:

0,该地难产儿与一般新生儿平均出生体重相同;H1:

0,该地难产儿与一般新生儿平均出生体重不同;

0.05。检验步骤1.建立检验假设,确定检验水准542.计算检验统计量在μ=μ0成立的前提条件下,计算统计量为:2.计算检验统计量553.确定P值,做出推断结论

本例自由度

n-1

35-1

34,查t界值表,得t0.05/2,34=2.032。

t

t0.05/2,34,故P

0.05,差异无统计学意义,按

0.05水准,不拒绝H0,根据现有样本信息,尚不能认为该地难产儿与一般新生儿平均出生体重不同。3.确定P值,做出推断结论56适用条件:

配对设计的数值变量资料差值来自正态分布的总体二、配对t检验适用条件:二、配对t检验57自身配对同一受试对象身体两个部位的数据同一个体自身前后的比较(如高血压患者治疗前后的舒张压比较)同一对象同时分别接受两种不同处理(同一份标本分成两部分用两种方法检验)配对设计主要有两种情况配对设计主要有两种情况58异体配对:

配成对子的两个个体分别给予两种不同的处理(如把同窝、同性别和体重相近的动物配成一对;把同性别、同病情和年龄相近的病人配成一对等)。异体配对:59案例现用两种测量的仪器对12名妇女测得收缩压(SBP),资料如表10-5,请问两种方法的检测结果有无差别案例现用两种测量的仪器对12名妇女测得收缩压(SBP),资料60表

两种方法测量收缩压(mmHg)被测编号水银电子差值dd21120115-525211012515225310811241641231296365130136636612012663679090008110116636910298-4161010511274591196100416128880864合计--53555被测编号水银电子差值dd21120115-52521101261对于配对样本数据,应该首先计算出各对差值的均数。当两种处理结果无差别或某种处理不起作用时,理论上差值的总体均数应该为0,故可将配对样本资料的假设检验视为样本均数与总体均数=0的比较,所用方法为配对t检验。对于配对样本数据,应该首先计算出各对差值的均数。当两种处理62配对t检验公式:配对t检验公式:63

(1)建立检验假设,确定检验水准H0:

d=0,两种方法测量血压值结果相同H1:

d≠0,两种方法测量血压值结果不相同

=0.05(1)建立检验假设,确定检验水准64(2)计算检验统计量本例n=12,d=53,d2=555,

(2)计算检验统计量65(3)确定P值,作出推断结论查附表1的t界值表得P<0.05。按=0.05水准,拒绝H0,接受H1,差异有统计学意义。可认为两种方法测量收缩压的结果不一样。(3)确定P值,作出推断结论66

三、完全随机设计两均数比较(两样本)

两样本t检验,适合于独立成组的两个样本(成组设计),或完全随机设计两样本均数的比较,此时研究者关心的是两样本均数所代表的两总体均数是否不等。

三、完全随机设计两均数比较(两样本)两样本t检验,适67统计推断原理和基本方法课件68案例将出生28天的20只大白鼠随机分成两组,分别饲以高蛋白和低蛋白饲料,8周后观察其体重(g)。问两种不同饲料对大白鼠的体重影响有无差别?

高蛋白组:133,145,112,138,99,157,126,121,139,106,115低蛋白组:118,75,106,87,94,110,102,124,130案例69高蛋白组:低蛋白组:高蛋白组:70统计推断原理和基本方法课件71

(2)计算检验统计量

(2)计算检验统计量72(3)确定P值,作出推断结论(3)确定P值,作出推断结论73举例为研究某中医疗法的降血糖效果,某医院用40名II型糖尿病病人进行同期随机对照试验。试验者将这些病人随机等分到试验组(用中药成药)和对照组(用传统药物拜唐苹胶囊),分别测得试验开始前和8周后的空腹血糖,算得空腹血糖下降值见下表,能否认为中成新药与拜唐苹胶囊对空腹血糖的降糖效果不同?举例74统计推断原理和基本方法课件75

(2)计算检验统计量

(2)计算检验统计量76(3)确定P值,作出推断结论(3)确定P值,作出推断结论77

若变量变换后总体方差齐性

可采用t检验(如两样本几何均数的t检验,就是将原始数据取对数后进行t检验);

若变量变换后总体方差仍然不齐可采用t’检验或Wilcoxon秩和检验。2、若两总体方差不等()2、若两总体方差不等()78

四、成组设计计量资料的z检验样本含量较大,z检验可以代替t检验计算公式为:四、成组设计计量资料的z检验样本含量较大,z检验可以代79I型错误和II型错误

I型错误和II型错误80I型错误和II型错误

假设检验是利用小概率反证法思想,根据P值判断结果,此推断结论具有概率性,因而无论拒绝还是不拒绝H0,都可能犯错误。见下表。I型错误和II型错误假设检验是利用81

可能发生的两类错误可能发生的两类错误82

I型错误:实际无差别,但下了有差别的结论,假阳性错误。犯这种错误的概率是

(其值等于检验水准)

II型错误:

实际有差别,但下了不拒绝H0的结论,假阴性错误。犯这种错误的概率是

(其值未知)

但n一定时,

增大,则减少。1-

:检验效能,当两总体确有差别,按检验水准

所能发现这种差别的能力。I型错误:83I型错误与II型错误示意图(以单侧u检验为例)I型错误与II型错误示意图(以单侧u检验为例)84减少I型错误主要方法:假设检验时设定值减少II型错误主要方法:提高检验效能。提高检验效能的最有效方法:增加样本量如何减少两型错误减少I型错误主要方法:假设检验时设定值如何减少两型错误85假设检验时应注意的问题1.要有严密的研究设计2.选用的假设检验方法应符合其应用条件3.正确理解检验水准和P值的含义4.单侧检验和双侧检验假设检验时应注意的问题1.要有严密的研究设计86t检验

单样本

单样本t检验

两样本

成组设计两样本均数比较的t检验

配对设计样本均数比较的t检验t检验单样本单样本t检验两样本成组设计两样本87

样本均数与总体均数的比较即单样本的t

检验通过

One-SampleTTest过程实现。建立假设:

H0:μ=μ0,样本均数与总体均数的差异完全是抽样误差造成。

H1:μ

μ0

,样本均数与总体均数的差异除了由抽样误差造成外,也反映了两个总体均数确实存在的差异。

=0.05单样本

t检验样本均数与总体均数的比较即单样本的t检验通过单样本88例1

为研究某山区成年男子的脉搏均数是否高于一般成年男子的脉搏均数。某医生在一山区随机抽查了20名健康成年男子,求得其脉搏的均数为74.2次/分,标准差为6.0次/分。根据大量调查,已知健康成年男子脉搏数均数为72次/分,能否据此认为该山区成年男子的脉搏均数高于一般成年男子的脉搏数?数据见pulse.sav

:75、74、72、74、79、78、76、69、77、76、70、73、76、71、78、77、76、74、79、77。单样本

t检验例1为研究某山区成年男子的脉搏均数是否高于一般成年男子的脉89单样本

t检验单样本t检验90单样本

t检验要检验的变量:pulse总体均数单样本t检验要检验的变量:总体均数91

共有20个测量值,质量均值为75.05次/分,标准差为2.892次/分,标准误为0.647次/分。单样本

t检验分析结果(1)单样本统计量共有20个测量值,质量均值为75.05次/分,标准差为2.92单样本

t检验

t值为4.716,自由度为19,双侧检验p值小于0.001,则按所取检验水准0.05,则拒绝H0,接受H1,即表明可认为样本该山区健康成年男子脉搏的均数高于一般健康成年男子。另外,差值的均值为3.050,95%可信区间为1.70~4.40。分析结果(2)单样本检验单样本t检验t值为4.716,自由度为19,双侧检验p93单样本

t检验1.总体均数置信区间与t检验的一致性上述分析结果同时给出了均数的置信区间和t检验的结果,两者的结论实际上是完全一致的。置信区间可用于回答假设检验的问题,同时这两者又是互为补充的关系:置信区间回答“量”的问题,即总体均数的范围在哪里,而假设检验是回答“质”的问题,即总体均数之间是否存在差异,以及在统计上确认这种差异的把握有多大。置信区间在回答有无统计学意义的同时,还可进一步回答这种差异有无实际意义。单样本t检验1.总体均数置信区间与t检验的一致性94单样本

t检验2.单样本t检验的应用条件当样本例数较小时,一般要求样本取自正态总体。由中心极限定理可知,如果原始数据不服从正态分布,只要样本量足够大,其样本均数的抽样分布仍然是正态的。也就是说只要数据分布不是强烈的偏态,一般而言单样本t检验都是适用的。总的来说,单样本t检验非常稳健,只要没有明显的极端值,其分析结果都是非常稳定的。单样本t检验2.单样本t检验的应用条件95成组设计

t检验

两样本均数的比较即两样本t检验通过Independent-SamplesTTest过程实现。建立假设:

H0:μ1=μ2,两个样本均数的差异完全是抽样误差造成,两个总体均数相同。

H1:μ1

μ2,两个样本均数的差异除了由抽样误差造成外,两个总体均数确实存在差异。

=0.05成组设计t检验两样本均数的比较即两样本t检验通过I96例2

现希望评价两位老师的教学质量,试比较其分别任教的甲、乙两班(设甲、乙两班原成绩相近,不存在差别)考试后的成绩是否存在差异?见score.sav甲班:8573867794688283908876858774858082889093乙班:7590629873757576836665788068877464687280成组设计

t检验例2现希望评价两位老师的教学质量,试比较其分别任教的甲、97成组设计

t检验成组设计t检验98要检验的变量:Score分组变量成组设计

t检验要检验的变量:Score分组变量成组设计t检验99

定义组别具体数值成组设计

t检验定义组别具体数值成组设计t检验100成组设计

t检验成组设计t检验101成组设计

t检验

给出两个班级的各种统计量,包括样本含量、均数、标准差、标准误分析结果(1)各组统计量成组设计t检验给出两个班级的各种统计量,包括样本含量、102成组设计

t检验方差齐性检验,结果p=0.397表明方差齐。

若方差齐,参考Equalvariancesassumed一行统计量若方差不齐,参考Equalvariancesnotassumed一行统计量分析结果(2)两样本检验成组设计t检验方差齐性检验,结果p=0.397表明方差齐103独立性(independence)

各观察值之间相互独立,不能相互影响正态性(normality)各个样本均来自正态总体方差齐性(homoscedascity)各个样本所在总体的方差相等成组设计

t检验

应用条件独立性(independence)成组设计t检验应用104独立性:在实际应用中,独立性对结果的影响较大,但检验数据独立性的方法比较复杂,一般都是根据资料的性质来加以判断。例如遗传性疾病、传染病的数据可能就存在非独立的问题。如果从专业背景上可以肯定数据不存在这些问题,则一般独立性总是能够满足的。独立性独立性:在实际应用中,独立性对结果的影响较大,但检验数据独立105

正态性:在SPSS中,正态分布的考察方法有:偏度系数、峰度系数;直方图、P-P图;也可进行各种假设检验。而最常用的对于正态分布的检验就是K-S单样本检验。

t

检验对资料的正态性有一定的耐受能力,如果资料只是少许偏离正态,则结果仍然很稳健。若偏离正态很远,则最好考虑变量变换,或用非参数方法加以分析。以例2(score.sav)为例,用K-S单样本检验考察数据的正态性。

注意:应分组考察正态性,而不是合并进行正态性正态性:在SPSS中,正态分布的考察方法有:偏度系数、峰度106

为分组进行正态性检验,首先对数据进行拆分正态性为分组进行正态性检验,首先对数据进行拆分正态性107

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论