抽样误差与假设检验培训课件_第1页
抽样误差与假设检验培训课件_第2页
抽样误差与假设检验培训课件_第3页
抽样误差与假设检验培训课件_第4页
抽样误差与假设检验培训课件_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章抽样误差与假设检验Samplingerror&Hypothesistest第四章抽样误差与假设检验Samplingerror&1本章结构均数的抽样误差与标准误t分布总体均数的估计假设检验的意义和步骤本章结构均数的抽样误差与标准误2均数的抽样误差与标准误Standarderror均数的抽样误差与标准误Standarderror3统计推断(statisticalinference)总体样本sampling

统计量

参数

inference参数估计假设检验统计推断(statisticalinference)总体样4一、均数的抽样误差和标准误

抽样研究,一定存在着抽样误差。因此,估计抽样误差的大小,就成为统计推断必须要解决的问题。抽样误差的概念?抽样误差的大小?一、均数的抽样误差和标准误抽样研究,一定存在着抽样5抽样误差的概念定义:由抽样引起的样本统计量与总体参数间、以及样本统计量与样本统计量之间的差别。原因:个体变异+随机抽样表现:样本统计量与总体参数间的差别不同样本统计量间的差别抽样误差的概念定义:由抽样引起的样本统计量与总体参数间、以及6假设一个已知总体,从该总体中重复抽取样本量相等(为m)的样本n次,对每个样本计算样本统计量(均数、方差等),观察n个样本统计量的分布规律--抽样分布规律。考察:不同的分布----正态分布、偏态分布不同的样本含量抽样试验假设一个已知总体,从该总体中重复抽取样本量相等(为m)的样本7

由中心极限定理及大数定理得出:

若原变量X服从正态分布,随机抽取样本含量为n的样本均数也服从正态分布。即使从偏态总体中随机抽样,当n足够大(n>50),样本均数也近似服从正态分布。这个定理不仅具有理论价值,而且具有很高的实用价值。因为在实际工作当中,许多医学测量结果并不知道它的确切分布,有了这个性质,就可以利用正态分布的原理对其特征进行统计推断。样本均数的分布:由中心极限定理及大数定理得出:样本均数的分布:8

从正态分布总体N(5.00,0.502)中,每次随机抽取样本含量n=5,并计算其均数与标准差;重复抽取1000次,获得1000份样本;计算1000份样本的均数与标准差,并对1000份样本的均数作直方图。按上述方法再做样本含量n=10、样本含量n=30的抽样实验;比较计算结果。从正态分布总体N(5.00,0.502)中,每次随机9抽样试验(n=5)抽样试验(n=5)10抽样试验(n=10)抽样试验(n=10)11抽样试验(n=30)抽样试验(n=30)12抽样误差与假设检验培训课件133个抽样实验结果图示3个抽样实验结果图示14样本均数的抽样分布特点各样本均数未必等于总体均数;样本均数之间存在差异;样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称,也服从正态分布;样本均数的变异较原变量的变异大大缩小。随着样本含量的增加,样本均数的变异范围逐渐缩小。样本均数的抽样分布特点各样本均数未必等于总体均数;15标准误的概念(standarderror)样本均数的标准差称为均数的标准误。均数的标准误表示样本均数的变异度。当总体标准差未知时,用样本方差代替,抽样误差的大小用标准误来衡量!标准误的概念(standarderror)样本均数的标准差16标准误的概念抽样的样本量越大,标准误就越小;原来总体变异度小,标准误就越小。标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数之间的差异。当标准误大时,用样本均数对总体均数的估计的可靠程度就小;反之亦然。标准误的概念抽样的样本量越大,标准误就越小;17例,2000年某研究者随机调查某地健康成年男子27人,测其血红蛋白量均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。272.89例,2000年某研究者随机调查某地健康成年男子27人,18标准差与标准误意义:标准差用于描述个体值之间的变异,即观察值间的离散度,标准差小,表明观察值围绕均数的波动小;标准误描述统计量的抽样误差,即样本统计量与总体参数的接近程度。标准误小,表明抽样误差小,则统计量稳定,与参数接近。用途:标准差表示观察值间波动的大小,用于医学参考值范围;标准误表示抽样误差的大小,用于参数估计。关系:随着样本含量增加,都减小。联系:都是表示变异度的指标,当样本量一定时,两者成正比。标准差与标准误意义:标准差用于描述个体值之间的变异,即观察值19标准误用途衡量样本均数的可靠性:标准误越小,表明样本均数越可靠;参数估计:估计总体均数的置信区间(区域);假设检验:用于总体均数的假设检验(比较)。标准误用途衡量样本均数的可靠性:标准误越小,表明样本均数越可20抽样误差与假设检验培训课件21t-分布t-distributiont-分布t-distribution22抽样误差与假设检验培训课件23t分布的概念用样本方差代替总体方差,此时不再服从正态分布。而服从t分布。记为:t分布的概念用样本方差代替总体方差,此时24t分布曲线

t分布有如下性质:①单峰分布,曲线在t=0处最高,并以t=0为中心左右对称②与正态分布相比,曲线最高处较矮,两尾部翘得高(见绿线)③随自由度增大,曲线逐渐接近正态分布;分布的极限为标准正态分布。t分布曲线t分布有如下性质:25抽样误差与假设检验培训课件26t分布曲线下面积(附表2)双侧t0.05/2,9=2.262=单侧t0.025,9单侧t0.05,9=1.833双侧t0.01/2,9=3.250=单侧t0.005,9单侧t0.01,9=2.821双侧t0.05/2,∞=1.96=单侧t0.025,∞单侧t0.05,∞=1.64t分布曲线下面积(附表2)双侧t0.05/2,9=2.26227总体均数的估计Parameterestimation总体均数的估计Parameterestimation28总体均数估计方法总体均数估计方法29总体均数的估计:

点值估计(pointestimation):例,120名成年男子血清铁含量的均数是18.57。那么,该总体范围(这个地区)的成年男子血清铁含量的均数就是18.57。这种方法虽简单,但未考虑抽样误差,一般不用。总体均数的估计:点值估计(pointestimat30区间估计(intervalestimation)也称置信区间。利用样本信息给出一个区间,并同时给出按预先给定的概率估计该区间包含总体均数的可能范围。可信度:给定的概率称为可信度。用表示。通常取99%、95%。区间估计(intervalestimation)也称置信区31t分布方法应用条件:总体方差未知,样本量小t分布方法应用条件:总体方差未知,样本量小32例4.2某医师测的40名老年性慢性支气管炎病人尿中17-酮类固醇排出量均数为15.19umol/d,标准差为5.03umol/d,试估计该种病人尿17-酮类固醇排出量总体均数的95%可信区间。分析条件:总体方差未知,样本量小(13.58~16.80)例4.2某医师测的40名老年性慢性支气管炎病人尿中17-33正态分布近似法应用条件:当总体标准差已知时;或总体标准差未知,而样本量较大时(n>50)0-11-1.961.96-2.582.5868.27%95.00%99.00%正态分布近似法应用条件:当总体标准差已知时;或总体标准差未知34例4.3某市随机抽查12岁男孩100人,得身高均数139.6cm,标准差6.85cm。计算该地12岁男孩身高均数的95%的可信区间。分析条件:总体方差未知,但样本量大,用正态分布法例4.3某市随机抽查12岁男孩100人,得身高均数133595%可信区间:从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。可信区间的涵义95%可信区间:从总体中作随机抽样,作100次抽样,每个样本36假设检验Hypothesistest假设检验Hypothesistest37假设检验是统计推断的另一个重要内容。假设检验是对所估计的总体首先提出一个假设,然后通过样本数据去推断是否拒绝这一假设,如果拒绝,认为该样本很可能不是来自这个总体;否则,认为该样本很可能来自这个总体。假设检验是统计推断的另一个重要内容。38让我们先看一个例子.例4.4根据大量调查,已知健康成年男子的脉搏均数为72次/分。某医生在某山区随机调查30名健康男子,求得脉搏均数为74.2次/分,标准差为6.5次/分。能否认为该山区的成年男子的脉搏均数高于一般成年男子的脉搏均数?让我们先看一个例子.例4.4根据大量调查,已知健康成年男39对差别的可能原因分析山区男子脉搏的总体均数与一般成年男子的脉搏均数相等,差异是由抽样误差引起的——提示山区男子是一般男子总体的一部分(研究总体)。山区男子脉搏的总体均数与一般成年男子的脉搏均数不相等,差异可能是由地域等因素引起的——提示山区男子与一般男子是两个不同的总体。对差别的可能原因分析山区男子脉搏的总体均数与一般成年男子的脉40假设检验——通过对假设作出取舍抉择来达到解决问题的目的A.山区男子脉搏的总体均数与一般成年男子的脉搏均数相等无差异假设、零假设H0(nullhypothesis)B.山区男子脉搏的总体均数与一般成年男子的脉搏均数不相等对立假设、备择假设H1(alternativehypothesis)假设检验41证明A还是证明B?在H0成立的条件下,均数之间的差异是由抽样误差引起的,有规律可循;在H1成立的条件下,均数间的不同包含种种未知情形,无规律可循。故从H0成立的角度出发,寻求其成立的概率。证明A还是证明B?42变量值(脉搏)X服从正态分布,且为小样本,假定H0成立,样本均数服从t-分布,则在H0成立的前提下,当前t值出现的概率有多大???变量值(脉搏)X服从正态分布,且为小样本,假定H0成立43如何给出这个量的界限?小概率事件在一次试验中基本上不会发生!从附表2中查出在显著性水平=0.05(双侧),自由度为29所对应的t界值,即为拒绝域与接受域的界限。如果计算出的t统计量大于相应的t界值,则落在拒绝域中,该统计量出现的概率小于5%,为小概率事件。如何给出这个量的界限?小概率事件在一次试验中基本上不会发生44常取的选择要根据实际情况而定通常取0.05检验水准的概念在假设检验中,称预先规定的小概率值为检验水准,也称为显著性水准,用表示。常取的选择要根据实际情况而定通常取0.05检验水准的45这里所依据的逻辑是:如果H0是成立的,那么衡量差异大小的某个统计量落入区域拒绝域是个小概率事件。如果该统计量的实测值落入拒绝域,也就是说,H0成立下的小概率事件发生了,那么就认为H0不可信而否定它。否则我们就不能否定H0(只好接受它).这里所依据的逻辑是:如果H0是成立的,那么461.建立检验假设,确定检验水准;

H0:零假设、无效假设。是与研究假设有关的、被推断特征某种确定的关系;H1:备择假设、对立假设。是被推断总体特征的另一种关系或状况,与H0既有联系又互相对立。检验水准,将小概率事件具体化,即规定概率不超过就是小概率。2.根据试验设计、资料类型、统计方法的条件选择检验方法,计算相应的统计量;3.确定P值,下结论。假设检验的基本步骤:1.建立检验假设,确定检验水准;假设检验的基本步骤:47P值的概念指从H0规定的总体中随机抽样抽得等于或大于(或等于或小于)现有样本统计量的概率。-2.0452.045P值的概念指从H0规定的总体中随机抽样抽得等于或大于(或等48本章总结conclusion本章总结conclusion49第四章抽样误差与假设检验Samplingerror&Hypothesistest第四章抽样误差与假设检验Samplingerror&50本章结构均数的抽样误差与标准误t分布总体均数的估计假设检验的意义和步骤本章结构均数的抽样误差与标准误51均数的抽样误差与标准误Standarderror均数的抽样误差与标准误Standarderror52统计推断(statisticalinference)总体样本sampling

统计量

参数

inference参数估计假设检验统计推断(statisticalinference)总体样53一、均数的抽样误差和标准误

抽样研究,一定存在着抽样误差。因此,估计抽样误差的大小,就成为统计推断必须要解决的问题。抽样误差的概念?抽样误差的大小?一、均数的抽样误差和标准误抽样研究,一定存在着抽样54抽样误差的概念定义:由抽样引起的样本统计量与总体参数间、以及样本统计量与样本统计量之间的差别。原因:个体变异+随机抽样表现:样本统计量与总体参数间的差别不同样本统计量间的差别抽样误差的概念定义:由抽样引起的样本统计量与总体参数间、以及55假设一个已知总体,从该总体中重复抽取样本量相等(为m)的样本n次,对每个样本计算样本统计量(均数、方差等),观察n个样本统计量的分布规律--抽样分布规律。考察:不同的分布----正态分布、偏态分布不同的样本含量抽样试验假设一个已知总体,从该总体中重复抽取样本量相等(为m)的样本56

由中心极限定理及大数定理得出:

若原变量X服从正态分布,随机抽取样本含量为n的样本均数也服从正态分布。即使从偏态总体中随机抽样,当n足够大(n>50),样本均数也近似服从正态分布。这个定理不仅具有理论价值,而且具有很高的实用价值。因为在实际工作当中,许多医学测量结果并不知道它的确切分布,有了这个性质,就可以利用正态分布的原理对其特征进行统计推断。样本均数的分布:由中心极限定理及大数定理得出:样本均数的分布:57

从正态分布总体N(5.00,0.502)中,每次随机抽取样本含量n=5,并计算其均数与标准差;重复抽取1000次,获得1000份样本;计算1000份样本的均数与标准差,并对1000份样本的均数作直方图。按上述方法再做样本含量n=10、样本含量n=30的抽样实验;比较计算结果。从正态分布总体N(5.00,0.502)中,每次随机58抽样试验(n=5)抽样试验(n=5)59抽样试验(n=10)抽样试验(n=10)60抽样试验(n=30)抽样试验(n=30)61抽样误差与假设检验培训课件623个抽样实验结果图示3个抽样实验结果图示63样本均数的抽样分布特点各样本均数未必等于总体均数;样本均数之间存在差异;样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称,也服从正态分布;样本均数的变异较原变量的变异大大缩小。随着样本含量的增加,样本均数的变异范围逐渐缩小。样本均数的抽样分布特点各样本均数未必等于总体均数;64标准误的概念(standarderror)样本均数的标准差称为均数的标准误。均数的标准误表示样本均数的变异度。当总体标准差未知时,用样本方差代替,抽样误差的大小用标准误来衡量!标准误的概念(standarderror)样本均数的标准差65标准误的概念抽样的样本量越大,标准误就越小;原来总体变异度小,标准误就越小。标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数之间的差异。当标准误大时,用样本均数对总体均数的估计的可靠程度就小;反之亦然。标准误的概念抽样的样本量越大,标准误就越小;66例,2000年某研究者随机调查某地健康成年男子27人,测其血红蛋白量均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。272.89例,2000年某研究者随机调查某地健康成年男子27人,67标准差与标准误意义:标准差用于描述个体值之间的变异,即观察值间的离散度,标准差小,表明观察值围绕均数的波动小;标准误描述统计量的抽样误差,即样本统计量与总体参数的接近程度。标准误小,表明抽样误差小,则统计量稳定,与参数接近。用途:标准差表示观察值间波动的大小,用于医学参考值范围;标准误表示抽样误差的大小,用于参数估计。关系:随着样本含量增加,都减小。联系:都是表示变异度的指标,当样本量一定时,两者成正比。标准差与标准误意义:标准差用于描述个体值之间的变异,即观察值68标准误用途衡量样本均数的可靠性:标准误越小,表明样本均数越可靠;参数估计:估计总体均数的置信区间(区域);假设检验:用于总体均数的假设检验(比较)。标准误用途衡量样本均数的可靠性:标准误越小,表明样本均数越可69抽样误差与假设检验培训课件70t-分布t-distributiont-分布t-distribution71抽样误差与假设检验培训课件72t分布的概念用样本方差代替总体方差,此时不再服从正态分布。而服从t分布。记为:t分布的概念用样本方差代替总体方差,此时73t分布曲线

t分布有如下性质:①单峰分布,曲线在t=0处最高,并以t=0为中心左右对称②与正态分布相比,曲线最高处较矮,两尾部翘得高(见绿线)③随自由度增大,曲线逐渐接近正态分布;分布的极限为标准正态分布。t分布曲线t分布有如下性质:74抽样误差与假设检验培训课件75t分布曲线下面积(附表2)双侧t0.05/2,9=2.262=单侧t0.025,9单侧t0.05,9=1.833双侧t0.01/2,9=3.250=单侧t0.005,9单侧t0.01,9=2.821双侧t0.05/2,∞=1.96=单侧t0.025,∞单侧t0.05,∞=1.64t分布曲线下面积(附表2)双侧t0.05/2,9=2.26276总体均数的估计Parameterestimation总体均数的估计Parameterestimation77总体均数估计方法总体均数估计方法78总体均数的估计:

点值估计(pointestimation):例,120名成年男子血清铁含量的均数是18.57。那么,该总体范围(这个地区)的成年男子血清铁含量的均数就是18.57。这种方法虽简单,但未考虑抽样误差,一般不用。总体均数的估计:点值估计(pointestimat79区间估计(intervalestimation)也称置信区间。利用样本信息给出一个区间,并同时给出按预先给定的概率估计该区间包含总体均数的可能范围。可信度:给定的概率称为可信度。用表示。通常取99%、95%。区间估计(intervalestimation)也称置信区80t分布方法应用条件:总体方差未知,样本量小t分布方法应用条件:总体方差未知,样本量小81例4.2某医师测的40名老年性慢性支气管炎病人尿中17-酮类固醇排出量均数为15.19umol/d,标准差为5.03umol/d,试估计该种病人尿17-酮类固醇排出量总体均数的95%可信区间。分析条件:总体方差未知,样本量小(13.58~16.80)例4.2某医师测的40名老年性慢性支气管炎病人尿中17-82正态分布近似法应用条件:当总体标准差已知时;或总体标准差未知,而样本量较大时(n>50)0-11-1.961.96-2.582.5868.27%95.00%99.00%正态分布近似法应用条件:当总体标准差已知时;或总体标准差未知83例4.3某市随机抽查12岁男孩100人,得身高均数139.6cm,标准差6.85cm。计算该地12岁男孩身高均数的95%的可信区间。分析条件:总体方差未知,但样本量大,用正态分布法例4.3某市随机抽查12岁男孩100人,得身高均数138495%可信区间:从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。可信区间的涵义95%可信区间:从总体中作随机抽样,作100次抽样,每个样本85假设检验Hypothesistest假设检验Hypothesistest86假设检验是统计推断的另一个重要内容。假设检验是对所估计的总体首先提出一个假设,然后通过样本数据去推断是否拒绝这一假设,如果拒绝,认为该样本很可能不是来自这个总体;否则,认为该样本很可能来自这个总体。假设检验是统计推断的另一个重要内容。87让我们先看一个例子.例4.4根据大量调查,已知健康成年男子的脉搏均数为72次/分。某医生在某山区随机调查30名健康男子,求得脉搏均数为74.2次/分,标准差为6.5次/分。能否认为该山区的成年男子的脉搏均数高于一般成年男子的脉搏均数?让我们先看一个例子.例4.4根据大量调查,已知健康成年男88对差别的可能原因分析山区男子脉搏的总体均数与一般成年男子的脉搏均数相等,差异是由抽样误差引起的——提示山区男子是一般男子总体的一部分(研究总体)。山区男子脉搏的总体均数与一般成年男子的脉搏均数不相等,差异可能是由地域等因素引起的——提示山区男子与一般男子是两个不同的总体。对差别的可能原因分析山区男子脉搏的总体均数与一般成年男子的脉89假设检验——通过对假设作出取舍抉择来达到解决问题的目的A.山区男子脉搏的总体均数与一般成年男子的脉搏均数相等无差异假设、零假设H0(nullhypothesis)B.山区男子脉搏的总体均数与一般成年男子的脉搏均数不相等对立假设、备择假设H1(al

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论