版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于抽样误差与假设检验
第一节
均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研究总体。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数往往不等于总体均数,这种由抽样造成的样本均数与总体均数的差异称为抽样误差。对于抽样研究,抽样误差不可避免。第2页,共24页,2024年2月25日,星期天二、抽样误差的分布
理论上可以证明:若从正态总体中,反复多次随机抽取样本含量固定为n的样本,那么这些样本均数也服从正态分布,即的总体均数仍为,样本均数的标准差为。抽样分布抽样分布示意图第3页,共24页,2024年2月25日,星期天
中心极限定理:当样本含量很大的情况下,无论原始测量变量服从什么分布,的抽样分布均近似正态。
抽样分布抽样分布示意图第4页,共24页,2024年2月25日,星期天三、标准误(StandardError)
样本均数的标准差称为标准误。样本均数的变异越小说明估计越精确,因此可以用标准误表示抽样误差的大小:
实际中总体标准差往往未知,故只能求得样本均数标准误的估计值:
第5页,共24页,2024年2月25日,星期天例4.1在某地随机抽查成年男子140人,计算得红细胞均数4.77×1012/L,标准差0.38×1012/L,试计算均数的标准误。
标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。第6页,共24页,2024年2月25日,星期天
第二节总体均数的估计一、可信区间的概念(ConfidenceInterval)
区间估计:指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。事先给定的概率称为可信度,通常取。
参数估计点估计:不考虑抽样误差,如区间估计:考虑抽样误差第7页,共24页,2024年2月25日,星期天二、可信区间的计算
(一)已知一般情况其中为标准正态分布的双侧界值。
可信区间:第8页,共24页,2024年2月25日,星期天标准正态分布(二)未知通常未知,这时可以用其估计量S代替,但
已不再服从标准正态分布,而是服从著名的t分布。
图4-2不同自由度的t
分布图
第9页,共24页,2024年2月25日,星期天
可信区间的计算:计算可信区间的原理与前完全相同,仅仅是两侧概率的界值有些差别。即可信区间:需要注意:在小样本情况下,应用这一公式的条件是原始变量服从正态分布。在大样本情况下(如n>100),也可以用替换近似计算。第10页,共24页,2024年2月25日,星期天
例4.2某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32g/L,标准差为0.57g/L,试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。下限:上限:第11页,共24页,2024年2月25日,星期天例4.3试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。本例属于大样本,可采用正态近似的方法计算可信区间。因为,则95%可信区间为:下限:上限:第12页,共24页,2024年2月25日,星期天三、模拟实验模拟抽样成年男子红细胞数。设定:产生100个随机样本,分别计算其95%的可信区间,结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数,只有6个可信区间没有包含总体参数(用星号标记)。第13页,共24页,2024年2月25日,星期天
图4-2模拟抽样成年男子红细胞数100次的95%可信区间示意图
******第14页,共24页,2024年2月25日,星期天
第三节假设检验的意义和步骤
(HypothesisTest)
统计推断的另一个重要内容,目的是通过样本数据比较总体参数之间有无差别。一、假设检验的基本思想例4.4使用黑加仑油软胶囊治疗高脂血症,30名高脂血症患者治疗前后血清甘油三酯检测结果的差值为1.38±0.76(g/L),问治疗后血清甘油三酯是否有所改善?第15页,共24页,2024年2月25日,星期天
样本治疗前后甘油三酯的变化(差值)问题归纳:样本疗效药物作用+机遇对上面问题可以作如下考虑:
问题:究竟多大能够下“有效”的结论?第16页,共24页,2024年2月25日,星期天
假定治疗前后血清甘油三酯检测结果的差值服从正态分布,若则服从t分布。
根据t
分布能够计算出有如此大差异的概率P,如果P值很小,即计算出的t值超出了给定的界限,则倾向于拒绝H0,认为治疗前后有差别。
图4-3
利用t分布进行假设检验原理示意图
第17页,共24页,2024年2月25日,星期天二、假设检验的基本步骤1.建立假设和确定检验水准无效假设H0(nullhypothesis)指需要检验的假设,备择假设H1(alternativehypothesis)指在H0成立证据不足的情况下而被接受的假设。例如建立治疗前后血清甘油三酯疗效的无效假设和备择假设分别为
检验水准是预先规定的拒绝域的概率值,实际中一般取。
第18页,共24页,2024年2月25日,星期天
[说明]:备择假设有双侧和单侧两种情况。双侧检验指不论正方向还是负方向的误差,若显著地超出检验水准则拒绝H0,即为双侧检验;单侧检验指仅在出现正方向或负方向误差超出规定的水准时则拒绝H0,如治疗后血清甘油三酯下降的假设可表示为
双侧检验和单侧检验应如何选择,需根据研究目的和专业知识而定。一般情况下,双侧检验更为稳妥,因为对相同的样本,双侧检验得出有显著性差别的结论,单侧检验也一定是显著的。
第19页,共24页,2024年2月25日,星期天
2.选择检验方法和计算检验统计量根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法,不同检验方法各有其相应的检验统计量及计算公式。许多假设检验方法是以检验统计量来命名的,如t检验、u检验、F检验和检验等。3.确定P值并做出统计推断结论查表得到检验用的临界值,然后将算得的统计量与拒绝域的临界值作比较,确定P值。如对双侧t检验,则,按检验水准拒绝H0。第20页,共24页,2024年2月25日,星期天
小结
1.总体参数值在现实中通常不能获得,而是通过随机样本来进行估计。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,这种由抽样造成的样本均数与总体均数的差异称为抽样误差。抽样误差的大小可以用标准误进行衡量。2.参数估计有点估计和区间估计两种方式。点估计的重要表达方式是平均值;区间估计是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。区间越窄说明估计的准确度越高。第21页,共24页,2024年2月25日,星期天
3.总体均数可信区间的计算公式可以利用的抽样分布获得。一种重要的方法是利用t分布计算区间两端的可信限
。单侧可信区间只需将公式中的双侧界值换成单侧界值。4.假设检验的思想是,首先对所需要比较的总体提出一个无差别的假设,然后通过样本数据去推断是否拒绝这一假设。其实质是判断观察到的“差别”是抽样误差引起还是总体上的不同,目的是评价两个不同的参数或两种不同处理引起效应不同的证据有多强,这种证据的强度用概率P度量和表示。
第22页,共24页,2024年2月25日,星期天
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024版精购销合同范本
- 2024汽车客运租赁合同书(含车辆保养)3篇
- 2024年销售业绩奖励合同15篇
- 《国际结算》教学大纲
- 2024年综合消防安全管理协议3篇
- 个人房地产抵押贷款合同(2024版)2篇
- 专用仪器设备2024年度合作供应协议版B版
- 6《芣苢》《插秧歌》联读说课稿 2024-2025学年统编版高中语文必修上册
- 专用消防系统升级补充合作合同版B版
- 工业阀门用齿轮箱-标准文本-意见征求稿
- 华电考试初级理论复习试题及答案
- 第十七届山东省职业院校技能大赛市场营销赛项赛卷第一套
- 塔吊司机和指挥培训
- 红色简约2025蛇年介绍
- 专题3-6 双曲线的离心率与常用二级结论【12类题型】(解析版)-A4
- 光伏电站运维课件
- 粮库工程合同范本
- 江苏省苏州市2023-2024学年高一上学期期末学业质量阳光指标调研试题+物理 含解析
- 农业合作社线上线下营销方案
- 研发实验室安全培训
- 电信公司网络安全管理制度
评论
0/150
提交评论