抽样误差与假设检验_第1页
抽样误差与假设检验_第2页
抽样误差与假设检验_第3页
抽样误差与假设检验_第4页
抽样误差与假设检验_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第四章

抽样误差与假设检验2第一节均数的抽样误差与标准误

假设某地12岁男孩身高的总体均数为138.7cm,现在随机抽取200例,其身高的样本均数为139.6cm,两均数不相等,为什么?

由抽样造成的样本均数与总体均数的差异称为抽样误差(samplingerror)。3若随机变量X服从正态分布N(µ,σ2),那么:当n足够大时,均数也服从正态分布。样本均数的总体均数仍然为µ。样本均数的标准差为:实际工作中总体标准差往往未知,用样本标准差S

代替σ,可求得样本均数标准误:样本均数的标准差称为标准误(standarderror,SE)。4

例4.1在某地随机抽查成年男子140人,计算得红细胞均数4.77×1012/L,标准差0.38×1012/L,试计算均数的标准误。

标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。5第二节总体均数的估计可信区间的概念参数估计(parameterestimation)用样本的统计量估计总体的参数。有两种方法:点估计(pointestimation)用样本的统计量直接作为总体的参数值。该法没有考虑抽样误差,无法评价其可信度。区间估计(intervalestimation)按预先给定的概率估计总体参数的可能范围,即总体参数的置信区间(confidenceinterval,CI)。6可信区间的两个要素:准确度(accuracy):反映可信度(1-α)的大小,即可信区间包容μ的概率大小,愈接近1愈好。精确度(precision):反映在区间的长度,区间长度愈小精确度愈高。7总体均数可信区间的计算σ已知或未知,样本含量n≥50,按正态分布原理,估计总体均数的可信区间。按标准正态分布规律,95%(1-α)的u值在-1.96和1.96之间,即:一般情况:8

σ未知,样本含量n<50

可以用其估计量S代替,但已不再服从标准正态分布,而是服从著名的t分布。

W.S.Goset于1908年证明了服从自由度ν=n–1的t

分布(t-distribution),也可称为studentt分布。9曲线以0为中心,两边对称。曲线的变化与自由度ν有关。ν趋于∞时,t分布趋向标准正态分布。10可信区间的计算按t分布原理,总体的均数的区间估计为:对上式进行变换,总体的均数可信区间为:11

例4.2某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32g/L,标准差为0.57g/L,试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。样本含量n=25,=3.32,S=0.57,ν=n–1=24,α取0.05,查t界值表:

t0.05/2(24)=2.064该种病人血浆纤维蛋白原含量总体均数的95%可信区间为:(3.08g/L

,3.56g/L

)12

例4.3试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。

本例属于大样本,可采用正态近似的方法计算可信区间。因为,则95%可信区间为:下限:上限:13模拟实验模拟抽样成年男子红细胞数。设定:

产生100个随机样本,分别计算其95%的可信区间,结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数,只有6个可信区间没有包含总体参数(用星号标记)。14

图4-2模拟抽样成年男子红细胞数100次的95%可信区间示意图

******15可信区间的含义:以95%的可信区间为例,意味着在同一总体中作100次重复抽样,可得100个可信区间,平均有95个可信区间包含总体均数(估计正确),只有5个可信区间不包含总体均数(估计不正确),对于某一个区间而言,它包含总体均数的可能性为95%,而不包含总体均数的可能性仅为5%。16总体均数可信区间与参考值范围的区别区别点参考值范围总体均数可信区间含义“正常人”的解剖、生理、生化某项指标的波动范围。个体值的波动范围以95%的可信区间为例,意味着在同一总体中作100次重复抽样,可得100个可信区间,平均有95个可信区间包含总体均数,只有5个可信区间不包含总体均数。总体均数的可能范围计算公式正态分布:偏态分布:

PX~P100~Xn≥50:n<50:用途绝大多数(如95%)观察对象某项指标的分布范围。总体均数的区间估计17第三节假设检验的意义和步骤

对所估计的总体首先提出一个假设,然后通过样本数据去推断是否拒绝这一假设,称为假设检验(hypothesistesting)假设检验是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。18

假设检验的原理与思想例4.4使用黑加仑油软胶囊治疗高脂血症,30名高脂血症患者治疗前后血清甘油三酯检测结果的差值的均数为1.38±0.76(g/L),问治疗后血清甘油三酯是否有所改善?本例中,治疗前后甘油三酯的变化的差异可能有两种原因造成:

抽样误差所致

环境条件的影响19

假定治疗前后血清甘油三酯检测结果的差值服从正态分布,若则服从t分布。

根据t

分布能够计算出有如此大差异的概率P,如果P值很小,即计算出的t值超出了给定的界限,则倾向于拒绝H0,认为治疗前后有差别。

图4-3

利用t分布进行假设检验原理示意图

20假设检验的基本步骤建立假设和确定检验水准无效假设(nullhypothesis)符号H0,即认为样本均数与总体均数相等。记为H0:μ=μ0

或μ-μ0=0

若不拒绝H0

,则认为两均数的差异由抽样误差所致。备择假设(alternativehypothesis)符号为H1,它是在拒绝H0的情况下而接受的假设。即认为样本均数与总体均数相等。记为H1:μ≠μ0

若拒绝H0

,则认为两均数存在本质差异。21假设检验中单双侧检验的选择需根据研究目的和专业知识而定。除非已知不会出现μ<μ0

(或μ>μ0

)的情况,否则均采用双侧检验(two-sidedtest)。对于总体均数的推断,均采用双侧检验。22检验水准检验水准(leveloftest)用α表示。通常取0.05。α取值较小时,有利于提高检验结果的可靠性,但是精密度下降。α取值加大时,有利于发现研究总体可能存在的差异,但是其可靠性降低。23

选择检验方法和统计推断分析选择检验方法和计算检验统计量根据资料类型,设计方案和统计推断的目的,选择适当的检验方法,并计算相应的检验统计量。如:u检验,t检验,F检验等等。确定P值和作出统计推断P≤α,按α检测水准,拒绝H0

,接受H1

。P>α,现有样本信息不足以拒绝H0

。最后的统计推断需结合统计结论和专业结论进行推断。24小结

进行统计推断,就是要求通过从样本中所获得的信息推断总体的规律。

由于个体存在差异,因此通过样本推论总体时会存在一定的误差。这种由抽样造成的样本均数与总体均数的差异称为抽样误差。抽样误差的大小可以用标准误进行衡量。25参数估计有点估计和区间估计两种方式。点估计:用样本的统计量直接作为总体的参数值。区间估计:按预先给定的概率估计总体参数的可能范围,使它能够包含未知的总体均数。总体均数可信区间的计算方法大样本时,利用u分布计算小样本时,利用t分布计算26

假设检验的思想

对所需要比较的总体提出一个无差别的假设,然后通过样本数据去推断是否拒绝这一假设。其实质是:判断观察到的“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论