抽样误差和假设检验_第1页
抽样误差和假设检验_第2页
抽样误差和假设检验_第3页
抽样误差和假设检验_第4页
抽样误差和假设检验_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关于抽样误差与假设检验第一张,PPT共二十四页,创作于2022年6月 第一节 均数的抽样误差与标准误 一、均数的抽样误差 在医学研究中,绝大多数情况是由样本信息研究总体。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数 往往不等于总体均数 ,这种由抽样造成的样本均数与总体均数的差异称为抽样误差。对于抽样研究,抽样误差不可避免。第二张,PPT共二十四页,创作于2022年6月 二、抽样误差的分布 理论上可以证明:若从正态总体 中,反复多次随机抽取样本含量固定为n 的样本,那么这些样本均数 也服从正态分布,即 的总体均数仍为 ,样本均数的标准差为 。抽样分布 抽样分布示意图第三张

2、,PPT共二十四页,创作于2022年6月 中心极限定理: 当样本含量很大的情况下,无论原始测量变量服从什么分布, 的抽样分布均近似正态。 抽样分布 抽样分布示意图第四张,PPT共二十四页,创作于2022年6月 三、标准误(Standard Error) 样本均数的标准差称为标准误。样本均数的变异越小说明估计越精确,因此可以用标准误表示抽样误差的大小: 实际中总体标准差 往往未知,故只能求得样本均数标准误的估计值 : 第五张,PPT共二十四页,创作于2022年6月 例4.1 在某地随机抽查成年男子140人,计算得红细胞均数4.771012/L,标准差0.38 1012/L ,试计算均数的标准误。

3、 标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。第六张,PPT共二十四页,创作于2022年6月 第二节 总体均数的估计 一、可信区间的概念(Confidence Interval) 区间估计:指按预先给定的概率,计算出一个区间, 使它能够包含未知的总体均数。事先给定的概率 称为可信度,通常取 。 参数估计点估计:不考虑抽样误差,如区间估计:考虑抽样误差第七张,PPT共二十四页,创作于2022年6月二、可信区间的计算 (一) 已知一般情况其中 为标准正态分布的双侧界值。 可信区间:第八张,PPT共二十四页,创作于2022年

4、6月标准正态分布(二) 未知 通常未知,这时可以用其估计量S 代替,但 已不再服从标准正态分布,而是服从著名的 t 分布。 图4-2 不同自由度的 t 分布图 第九张,PPT共二十四页,创作于2022年6月 可信区间的计算: 计算可信区间的原理与前完全相同,仅仅是两侧概率的界值有些差别。即可信区间: 需要注意:在小样本情况下,应用这一公式的条件是原始变量服从正态分布。在大样本情况下(如n100),也可以用 替换 近似计算。第十张,PPT共二十四页,创作于2022年6月 例4.2 某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32 g/L,标准差为0.57 g/L,试计算该种病人

5、血浆纤维蛋白原含量总体均数的95%可信区间。下限:上限:第十一张,PPT共二十四页,创作于2022年6月 例4.3 试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。 本例属于大样本,可采用正态近似的方法计算可信区间。因为 ,则95%可信区间为:下限:上限:第十二张,PPT共二十四页,创作于2022年6月 三、模拟实验 模拟抽样成年男子红细胞数。设定: 产生100个随机样本,分别计算其95%的可信区间,结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数 ,只有6个可信区间没有包含总体参数(用星号标记)。第十三张,PPT共二十四页,创作于2022年6月 图4-2 模拟抽样

6、成年男子红细胞数100次的95%可信区间示意图 *第十四张,PPT共二十四页,创作于2022年6月 第三节 假设检验的意义和步骤 (Hypothesis Test) 统计推断的另一个重要内容,目的是通过样本数据比较总体参数之间有无差别。 一、假设检验的基本思想 例4.4 使用黑加仑油软胶囊治疗高脂血症,30名高脂血症患者治疗前后血清甘油三酯检测结果的差值为1.380.76 (g/L),问治疗后血清甘油三酯是否有所改善?第十五张,PPT共二十四页,创作于2022年6月 样 本治疗前后甘油三酯的变化(差值)问题归纳: 样本疗效 药物作用 + 机遇 对上面问题可以作如下考虑: 问题: 究竟多大能够下

7、“有效”的结论?第十六张,PPT共二十四页,创作于2022年6月 假定治疗前后血清甘油三酯检测结果的差值服从正态分布,若 则 服从t 分布。 根据 t 分布能够计算出有如此大差异的概率P ,如果P 值很小,即计算出的t 值超出了给定的界限,则倾向于拒绝H0,认为治疗前后有差别。 图4-3 利用t 分布进行假设检验原理示意图 第十七张,PPT共二十四页,创作于2022年6月二、假设检验的基本步骤 1.建立假设和确定检验水准 无效假设H0(null hypothesis)指需要检验的假设,备择假设H1(alternative hypothesis)指在H0成立证据不足的情况下而被接受的假设。例如建

8、立治疗前后血清甘油三酯疗效的无效假设和备择假设分别为 检验水准 是预先规定的拒绝域的概率值,实际中一般取 。 第十八张,PPT共二十四页,创作于2022年6月 说明 :备择假设有双侧和单侧两种情况。双侧检验指不论正方向还是负方向的误差,若显著地超出检验水准则拒绝H0, 即为双侧检验;单侧检验指仅在出现正方向或负方向误差超出规定的水准时则拒绝H0 ,如治疗后血清甘油三酯下降的假设可表示为 双侧检验和单侧检验应如何选择,需根据研究目的和专业知识而定。一般情况下,双侧检验更为稳妥,因为对相同的样本,双侧检验得出有显著性差别的结论,单侧检验也一定是显著的。 第十九张,PPT共二十四页,创作于2022年

9、6月 2.选择检验方法和计算检验统计量 根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法,不同检验方法各有其相应的检验统计量及计算公式。许多假设检验方法是以检验统计量来命名的,如 t 检验、u检验、F检验和 检验等。 3.确定P 值并做出统计推断结论 查表得到检验用的临界值,然后将算得的统计量与拒绝域的临界值作比较,确定P 值。如对双侧 t 检验 ,则 ,按检验水准 拒绝H0。 第二十张,PPT共二十四页,创作于2022年6月 小 结 1.总体参数值在现实中通常不能获得,而是通过随机样本来进行估计。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,这种由抽样造成的样本均数

10、与总体均数的差异称为抽样误差。抽样误差的大小可以用标准误进行衡量。 2.参数估计有点估计和区间估计两种方式。点估计的重要表达方式是平均值;区间估计是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。区间越窄说明估计的准确度越高。第二十一张,PPT共二十四页,创作于2022年6月 3.总体均数可信区间的计算公式可以利用 的抽样分布获得。一种重要的方法是利用 t 分布计算区间两端的可信限 。单侧可信区间只需将公式中的双侧界值换成单侧界值。 4.假设检验的思想是,首先对所需要比较的总体提出一个无差别的假设,然后通过样本数据去推断是否拒绝这一假设。其实质是判断观察到的“差别”是抽样误差引起还是总体上的不同,目的是评价两个不同的参数或两种不同处理引起效应不同的证据有多强,这种证据的强度用概率P 度量和表示。 第二十二张,PPT共二十四页,创作于2022年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论