第04章 抽样误差与假设检验_第1页
第04章 抽样误差与假设检验_第2页
第04章 抽样误差与假设检验_第3页
第04章 抽样误差与假设检验_第4页
第04章 抽样误差与假设检验_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第四章第四章 抽样误差与假设检验抽样误差与假设检验 (Sampling Sampling E Error and rror and H Hypothesis ypothesis T Testest) 哈尔滨医科大学哈尔滨医科大学 李康李康 第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误 一、均数的抽样误差一、均数的抽样误差 在医学研究中,绝大多数情况是由样本信息研在医学研究中,绝大多数情况是由样本信息研究总体。由于个体存在差异,因此通过样本推论究总体。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数总体时会存在一定的误差,如样本均数 往往不往往不等于总体均数等

2、于总体均数 ,这种由抽样造成的样本均数与总,这种由抽样造成的样本均数与总体均数的差异称为抽样误差体均数的差异称为抽样误差。对于抽样研究,抽。对于抽样研究,抽样误差不可避免。样误差不可避免。X 二、抽样误差的分布二、抽样误差的分布 理论上可以证明:若从正态总体理论上可以证明:若从正态总体 中,反中,反复多次随机抽取样本含量固定为复多次随机抽取样本含量固定为n 的样本,那么的样本,那么这些样本均数这些样本均数 也服从正态分布,即也服从正态分布,即 的总体均的总体均数仍为数仍为 ,样本均数的标准差为,样本均数的标准差为 。2N( ,) XX/n抽样分布抽样分布 抽样分布示意图抽样分布示意图 中心极限

3、定理中心极限定理: : 当样本含量很大的情况下,无论原始测量变量服当样本含量很大的情况下,无论原始测量变量服从什么分布,从什么分布, 的抽样分布的抽样分布均均近似正态。近似正态。 X抽样分布抽样分布 抽样分布示意图抽样分布示意图 三、标准误(三、标准误(Standard ErrorStandard Error) 样本均数的标准差称为标准误。样本均数的标准差称为标准误。样本均数的样本均数的变异越小说明估计越精确,变异越小说明估计越精确,因此可以用标准误表因此可以用标准误表示抽样误差的大小:示抽样误差的大小: 实际中总体标准差实际中总体标准差 往往未知,故只能求往往未知,故只能求得样本均数标准误的

4、估计值得样本均数标准误的估计值 : nXXSnSSX 例例4.1 在某地随机抽查成年男子在某地随机抽查成年男子140人,计算得红人,计算得红细胞均数细胞均数4.771012/L,标准差标准差0.38 1012/L ,试计,试计算均数的标准误。算均数的标准误。 标准误是抽样分布的重要特征之一,可用于衡标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重要的是可以用于参数的区量抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。间估计和对不同组之间的参数进行比较。120.380.032( 10 /L)140XSSn 第二节第二节 总体均数的估计总体均数的估计 一

5、、可信区间的概念一、可信区间的概念( (Confidence IntervalConfidence Interval) 区间估计:区间估计:指按预先给定的概率,计算出一个区间,指按预先给定的概率,计算出一个区间, 使它能够包含未知的总体均数。事先给定的概率使它能够包含未知的总体均数。事先给定的概率 称为可信度,通常取称为可信度,通常取 。 参数估计参数估计点估计:不考虑抽样误差,如点估计:不考虑抽样误差,如区间估计:考虑抽样误差区间估计:考虑抽样误差195. 01X二、可信区间的计算二、可信区间的计算 (一)(一) 已知已知nXu/95. 096. 1/96. 1nXP95. 096. 196

6、. 1nXnXP)96.1 ,96.1(XXXX),(2/2/XXuXuX一般情况一般情况其中其中 为标准正态分布的双侧界值。为标准正态分布的双侧界值。 2/u 可信区间:可信区间:v 5v 1v ( )f t标准正态分布(二)(二) 未知未知 通常未知,这时可以用其估计量通常未知,这时可以用其估计量S 代替,但代替,但 已不再服从标准正态分布,而是服已不再服从标准正态分布,而是服从著名的从著名的 t 分布。分布。)/()(nSX 图图4-2 4-2 不同自由度的不同自由度的 t 分布图分布图 可信区间的计算可信区间的计算: : 计算可信区间的原理与前完全相同,仅仅是两计算可信区间的原理与前完

7、全相同,仅仅是两侧概率的界值有些差别。即侧概率的界值有些差别。即1)/()(2/)(2/tnSXtP). .()(2/)(2/XXStXStX,可信区间:可信区间: 需要注意:在小样本情况下,应用这一公式的需要注意:在小样本情况下,应用这一公式的条件是原始变量服从正态分布。在大样本情况下条件是原始变量服从正态分布。在大样本情况下(如(如n100),100),也可以用也可以用 替换替换 近似计算。近似计算。2/u2/t 例例4.2 4.2 某医生测得某医生测得2525名动脉粥样硬化患者血浆名动脉粥样硬化患者血浆纤维蛋白原含量的均数为纤维蛋白原含量的均数为3.32 3.32 g/Lg/L,标准差为

8、标准差为0.57 0.57 g/Lg/L,试计算该种病人血浆纤维蛋白原含量总体均试计算该种病人血浆纤维蛋白原含量总体均数的数的95%95%可信区间。可信区间。下限:下限:上限:上限:(g/L) 09. 325/57. 0064. 232. 3.)(2/XStX(g/L) 56. 325/57. 0064. 232. 3.)(2/XStX 例例4.3 4.3 试计算例试计算例4.14.1中该地成年男子红细胞总体中该地成年男子红细胞总体均数的均数的95%95%可信区间。可信区间。 本例属于大样本,可采用正态近似的方法计算本例属于大样本,可采用正态近似的方法计算可信区间。因为可信区间。因为 ,则,则

9、95%95%可可信区间为:信区间为:14038.077.4n,)L/10(71. 4140/38. 096. 177. 4.122/XSuX)L/10(83. 4140/38. 096. 177. 4.122/XSuX下限:下限:上限:上限: 三、模拟实验三、模拟实验 模拟抽样成年男子红细胞数。设定模拟抽样成年男子红细胞数。设定: : 产生产生100100个随机样本,分别计算其个随机样本,分别计算其95%95%的可信区间,的可信区间,结果用图示的方法表示。从图可以看出:绝大多数结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数可信区间包含总体参数 ,只有,只有6 6个可信区间个可

10、信区间没有包含总体参数(用星号标记)。没有包含总体参数(用星号标记)。14039.075.4n,754. 图图4-4-2 2 模拟抽样成年男子红细胞数模拟抽样成年男子红细胞数100100次的次的95%95%可信区间示意图可信区间示意图 )14039.075.4(n,* 第三节第三节 假设检验的意义和步骤假设检验的意义和步骤 ( (H Hypothesis ypothesis T Test)est) 统计推断的另一个重要内容,目的是统计推断的另一个重要内容,目的是通过样通过样本数据本数据比较总体参数之间有无差别。比较总体参数之间有无差别。 一、假设检验的基本思想一、假设检验的基本思想 例例4.4

11、 4.4 使用使用黑加仑油软胶囊黑加仑油软胶囊治疗治疗高脂血症高脂血症,3030名名高脂血症高脂血症患者治疗前后血清甘油三酯检测结患者治疗前后血清甘油三酯检测结果的差值为果的差值为1.381.380.76 (0.76 (g/L)g/L),问治疗后血清甘问治疗后血清甘油三酯是否有所改善?油三酯是否有所改善? 样样 本本治疗前后甘油三治疗前后甘油三酯的变化(差值)酯的变化(差值)d38. 1 76. 0 30dSnd?0d问题归纳:问题归纳: 样本疗效样本疗效 药物作用药物作用 + 机遇机遇 ?d01.38d对上面问题可以作如下考虑:对上面问题可以作如下考虑: 问题:问题: 究竟多大能够下究竟多大

12、能够下“有效有效”的结论?的结论?|d|0 假定治疗前后血清甘油三酯检测结果的差值服从正态分布,假定治疗前后血清甘油三酯检测结果的差值服从正态分布,若若 则则 服从服从t t 分布。分布。 根据根据 t 分布能够计算出有如此大差异的概率分布能够计算出有如此大差异的概率P P ,如果,如果P P 值很小,即计算出的值很小,即计算出的t t 值超出了给定的界限,则倾向于拒绝值超出了给定的界限,则倾向于拒绝H0 0,认为治疗前后有差别。认为治疗前后有差别。 0:0dHnSdtd/0图图4-4-3 3 利用利用t t 分布进行假设检验原理示意图分布进行假设检验原理示意图 二、假设检验的基本步骤二、假设

13、检验的基本步骤 1. 1.建立假设和确定检验水准建立假设和确定检验水准 无效假设无效假设H0 0( (null hypothesis)null hypothesis)指需要检验的假设,指需要检验的假设,备择假设备择假设H1 1( (alternative hypothesis)alternative hypothesis)指在指在H0 0成成立证据不足的情况下而被接受的假设。例如建立立证据不足的情况下而被接受的假设。例如建立治疗前后血清甘油三酯疗效的无效假设和备择假治疗前后血清甘油三酯疗效的无效假设和备择假设分别为设分别为 0:0dH0:1dH 检验水准检验水准 是预先规定的拒绝域的概率值,实

14、是预先规定的拒绝域的概率值,实际中一般取际中一般取 。 05. 0 说明说明 :备择假设有双侧和单侧两种情况。双侧:备择假设有双侧和单侧两种情况。双侧检验指不论正方向还是负方向的误差,若显著地超出检验指不论正方向还是负方向的误差,若显著地超出检验水准则拒绝检验水准则拒绝H0 0, 即为双侧检验;单侧即为双侧检验;单侧检验指仅在出现正方向或负方向误差超出规定的水准检验指仅在出现正方向或负方向误差超出规定的水准时则拒绝时则拒绝H0 0 ,如治疗后血清甘油三酯下降的假设可如治疗后血清甘油三酯下降的假设可表示为表示为 ):H :Hd1d10(或 001d:H 双侧检验和单侧检验应如何选择,需根据研究目

15、的双侧检验和单侧检验应如何选择,需根据研究目的和专业知识而定。和专业知识而定。一般情况下,双侧检验更为稳妥,一般情况下,双侧检验更为稳妥,因为对相同的样本,双侧检验得出有显著性差别的结因为对相同的样本,双侧检验得出有显著性差别的结论,单侧检验也一定是显著的。论,单侧检验也一定是显著的。 2.2.选择检验方法和计算检验统计量选择检验方法和计算检验统计量 根据资料类型、研究设计方案和统计推断的目的,根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法,不同检验方法各有其相应的检选择适当的检验方法,不同检验方法各有其相应的检验统计量及计算公式。许多假设检验方法是以检验统验统计量及计算公式。

16、许多假设检验方法是以检验统计量来命名的,如计量来命名的,如 t 检验、检验、u检验、检验、F检验和检验和 检验检验等。等。 3. 3.确定确定P P 值并做出统计推断结论值并做出统计推断结论 查表得到检验用的临界值,然后将算得的统计量查表得到检验用的临界值,然后将算得的统计量与拒绝域的临界值作比较,确定与拒绝域的临界值作比较,确定P 值。如对双侧值。如对双侧 t 检检验验 ,则,则 , ,按检验水准按检验水准 拒绝拒绝H0 0。 2/2()t| t |P 小小 结结 1.1.总体参数值在现实中通常不能获得总体参数值在现实中通常不能获得, ,而是通过而是通过随机样本来进行估计。由于个体存在差异,

17、因此通随机样本来进行估计。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,这种由抽样过样本推论总体时会存在一定的误差,这种由抽样造成的样本均数与总体均数的差异称为抽样误差造成的样本均数与总体均数的差异称为抽样误差。抽样误差抽样误差的大小可以用标准误进行衡量。的大小可以用标准误进行衡量。 2. 2.参数估计有点估计和区间估计两种方式。点估参数估计有点估计和区间估计两种方式。点估计计的重要表达方式是平均值;的重要表达方式是平均值;区间估计是指按预先区间估计是指按预先给定的概率,计算出一个区间,使它能够包含未知给定的概率,计算出一个区间,使它能够包含未知的总体均数。区间的总体均数。区间越窄

18、说明估计的准确度越高。越窄说明估计的准确度越高。 3.3.总体均数可信区间的计算公式可以利用总体均数可信区间的计算公式可以利用 的的抽样分布获得。抽样分布获得。一种重要的方法是利用一种重要的方法是利用 t 分布计算分布计算区间两端的可信限区间两端的可信限 。单侧可信区间只需单侧可信区间只需将公式中的双侧界值换成单侧界值将公式中的双侧界值换成单侧界值。 4. 4.假设检验假设检验的的思想是,首先对所需要比较的总思想是,首先对所需要比较的总体提出一个体提出一个无差别的无差别的假设,然后通过样本数据去推假设,然后通过样本数据去推断是否拒绝这一假设断是否拒绝这一假设。其。其实质是判断观察到的实质是判断观察到的“差差别别”是抽样误差引起还是总体上的不同,目的是抽样误差引起还是总体上的不同,目的是评是评价两个不同的参数或两种不同处理引起效应不同的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论