抽样误差与假设检验_第1页
抽样误差与假设检验_第2页
抽样误差与假设检验_第3页
抽样误差与假设检验_第4页
抽样误差与假设检验_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 抽样误差与假设检验要求: 掌握:均数的抽样误差与标准误,t分布的特征,t界值表,总体均数可信区间及其与参考值范围的区别。 了解:t变换。第一节均数的抽抽样误差差与标准准误一、均数数的抽样样误差在医学研研究中,绝大多多数情况况是由样样本信息息研究总总体。由由于个体体存在差差异,因因此通过过样本推推论总体体时会存存在一定定的误差差,如样样本均数数往往往不等等于总体体均数,这种种由抽样样造成的的样本均均数与总总体均数数的差异异称为抽抽样误差差。对于于抽样研研究,抽抽样误差差不可避避免。样本均数数样本n1样本n2样本nk各样本均均数不相相同,为为什么?总体假定某年年某地所所有13岁女学学生身高

2、高服从N(155.4,5.32),在该该总体中中作100次随随机抽样样,ni= 30153.6153.1157.7从正态总总体N(155.4,5.32)抽样得得到的100个个样本均均数的频频数分布布组段(cm)频数频率()152.611.0153.244.0153.844.0154.42222.0155.02525.0155.62121.0156.21717.0156.833.0157.422.0158.0158.611.0合计100100.0二、抽样样误差的的分布理论上可可以证明明:若从从正态总总体中中,反复复多次随随机抽取取样本含含量固定定为n的样本,那么这这些样本本均数也也服从正正态分布

3、布,即的的总总体均数数仍为,样本本均数的的标准差差为。抽样分布布抽样分布布示意图图中心极限限定理:当样本含含量很大大的情况况下,无无论原始始测量变变量服从从什么分分布,的的抽抽样分布布均近似似正态。抽样分布布抽样分布布示意图图三、标准准误(StandardError)样本均数数的标准准差称为为标准误误。样本本均数的的变异越越小说明明估计越越精确,因此可可以用标标准误表表示抽样样误差的的大小: 实际中总总体标准准差往往往往未知,故只能能求得样样本均数数标准误误的估计计值: 例4.1 在某某地随机机抽查成成年男子子140人,计计算得红红细胞均均数4.771012/L,标标准差0.38 1012/L

4、,试计算算均数的的标准误误。 标准误的的用途:标准误是是抽样分分布的重重要特征征之一,可用于于衡量抽抽样误差差的大小小,更重重要的是是可以用用于参数数的区间间估计和和对不同同组之间间的参数数进行比比较。标准差与与标准误误的区别别与联系系意义标准差:描述个体体值间的的变异,标准差差较小,表示示观察值值围绕均均数的波波动较小小。说明样本本均数的的代表性性。标准误:描述统计计量的抽抽样误差差,标准准误较小,表表示样本本统计量量与参数数较接近。说说明样本本均数的的可靠性性。标准差:表示变量量值离散散程度的的大小,结合均数数估计参参考值范范围。随样本含含量的增增多,逐逐渐趋于于稳定。标准误:表示抽样样误

5、差的的大小,估计参数数的可信信区间。随样本含含量的增增多逐渐渐减小。标准差与与标准误误的区别别与联系系区别标准差与与标准误误的区别别与联系系联系(1)标标准差与与标准误误都是变变异指标标,说明明个体值值之间的的差异时时用标准准差,说说明统计计量之间间的差异异时用标标准误。(2)当当样本含含量不变变时,标标准差越越大,标标准误亦亦越大。t分布变量变换换总体样本均数数中心极限限定理标准正态态分布变量变换换未知服从自由由度=n1的t分布1.单峰峰分布,以0为为中心,左右两两侧对称称标准正态分布图4-2不不同自由由度的t分布图标准正态分布图4-2不不同自由由度的t分布图2.t分布只有有一个参参数,曲线

6、形形状与样样本含量量有关。是一簇簇曲线。标准正态分布图4-2不不同自由由度的t分布图3.当当自由度度逼近,t分布则逼逼近u分布,故标准正正态分布布是t分布的特特例。标准正态分布图4-2不不同自由由度的t分布图4.t分布曲线线下的面面积为1(100)。t界值表表概率P自由度双双侧0.100.050.020.01单侧0.050.0250.010.005211.7212.0802.5182.831221.7172.0742.5082.819231.7142.0692.5002.807241.7112.0642.4922.797251.7082.0602.4852.787261.7062.0562.4

7、792.779271.7032.0522.4732.771自由度度相同时时,t值越大大,概率率P越小;t值相同时时,t0.05/2,22=t0.025,22=2.074。第二节总总体均均数的估估计一、可信信区间的的概念(ConfidenceInterval) 参数估计点估计:不考虑抽样误差,如区间估计:考虑抽样误差Parameterestimationpointestimationintervalestimation总体均数数的估计计1.点点(值)估计(pointestimation):用样本统统计量直直接作为为总体参参数的估估计值。例为为了解解某地1岁婴儿儿的血红红蛋白浓浓度,从从该地随随机

8、抽取取1岁婴婴儿25人,测测得血红红蛋白的的平均数数为123.7g/L,标准准差为11.98g/L。试试估计该该地1岁岁婴儿血血红蛋白白的平均均浓度。2.区区间估估计(intervalestimation):指按预先先给定的的概率,计算出出一个区区间,使它能够够包含未未知的总总体均数数。事先先给定的的概率称为可信信度,通通常取可信度(置信率率、置信信度):由样本信信息推断断总体特特征时,估计正正确的概概率,用1表示。:类错误误的概率率可信区间间(confidence intervalCI):按预先给给定的概概率确定定的包含含未知总总体参数数的可能能范围。可信限(confidencelimitC

9、L):构成可信信区间的的两个点点值上限值:较大的的值下限值:较小的的值模拟实验验模拟抽样样成年男男子红细细胞数。设定:产生100个随随机样本本,分别别计算其其95%的可信信区间,结果用用图示的的方法表表示。从从图可以以看出:绝大多多数可信信区间包包含总体体参数,只只有6个个可信区区间没有有包含总总体参数数(用星星号标记记)。图4-2模模拟抽样样成年男男子红细细胞数100次次的95%可信信区间示示意图*二、可信信区间的的计算(一)已已知一般情况况其中为为标标准正态态分布的的双侧界界值。可信区间间:(二)未未知知通常未知知,这时时可以用用其估计计量S代替,但但已不再服服从标准准正态分分布,而而是服

10、从从著名的的t分布。可信区间:计算可信信区间的的原理与与前完全全相同,仅仅是是两侧概概率的界界值有些些差别。即需要注意意:在小样本本情况下下,应用用这一公公式的条条件是原原始变量量服从正正态分布布。在大样本本情况下下(如n50),也也可以用用替替换近近似计计算。例4.2某某医生测测得25名动脉脉粥样硬硬化患者者血浆纤纤维蛋白白原含量量的均数数为3.32g/L,标准准差为0.57 g/L,试试计算该该种病人人血浆纤纤维蛋白白原含量量总体均均数的95%可可信区间间。下限:上限:例4.3 试计计算例4.1中中该地成成年男子子红细胞胞总体均均数的95%可可信区间间。下限:上限:对于轻度度原发性性高血压

11、压患者进进行治疗疗,一般般病人接接受治疗疗后可使使舒张压压平均降降低10mmHg。现现提出一一种新的的治疗方方法,对对100名患者者进行治治疗,平平均降压压12.7mmHg,血压治治疗前后后变化的的标准差差为5.6mmHg,能否说说新疗法法优于标标准疗法法?(三)单单侧侧可信区区间意义按按预先先给定的的概率“正正常人”的各项项生估计未知知参数的的可理理、生化化数据,组能范围。其含义义是织织或排泄泄物中各各种该可信区区间有(1成成分的的含量等等指标)的可能能性包的的波动动范围含了总体体均数公式用用标准准误用用标标准差用途估估计总总体参数数判判断观察察对象的的某项指标正正常与否否均数可信信区间与与

12、参考值值范围的的区别均数可信信区间参考值范范围某地调查查100人得收收缩压均均数为18.62kPa,标标准差为为1.33kPa。试试估计:该地95的人人收缩压压在什么么范围?该地所有有人收缩缩压的均均数可能能在什么么范围?要求:掌握:假设检验验的基本本思想和和基本步步骤,样样本均数数与总体体均数的的比较,配对资料料的比较较,两个个样本均均数的比比较,假假设检验验应注意意的问题题。了解:假设检验验中的两两类错误误。假设检验验的意义义和步骤骤(HypothesisTest)假设检验验(hypothesistest)亦称显著著性检验验(significanttest),是先先对总体体的参数数或分布布

13、作出某某种假设设,然后后用适当当的方法法,根据据样本对对总体提提供的信信息,推推断此假假设应当当拒绝或或不拒绝绝。统计推断断的另一一个重要要内容,目的是是通过样样本数据据比较总总体参数数之间有有无差别别。一、假设设检验的的基本思思想例4.4 使用用黑加仑仑油软胶胶囊治疗疗高脂血血症,30名高高脂血症症患者治治疗前后后血清甘甘油三酯酯检测结结果的差差值为1.380.76(g/L),问治疗疗后血清清甘油三三酯是否否有所改改善?样本本治疗前后后甘油三三酯的变化化(差值值)问题归纳纳:样样本疗效效药药物作作用+ 机遇遇对上面问问题可以以作如下下考虑:问题:究究竟多大大能够下下“有效效”的结结论?图4-

14、3 利用t 分布进行假设检验原理示意图 假定治疗疗前后血血清甘油油三酯检检测结果果的差值值服从正正态分布布,若则则服服从从t分布。根据t分布能够够计算出出有如此此大差异异的概率率P,如果P值很小,即计算算出的t值超出了了给定的的界限,则倾向向于拒绝绝H0,认为治治疗前后后有差别别。假设检验验的基本本思想利用反证证法的思思想利用小概概率反证证法思想想,从问问题的对对立面(H0)出发间间接判断断要解决决的问题题(H1)是否成成立。然然后在H0成立的条条件下计计算检验验统计量量,最后后获得P值来判断断。当P小于或等等于预先先规定的的概率值值,就是小小概率事事件。根根据小概概率事件件的原理理:小概概率

15、事件件在一次次抽样中中发生的的可能性性很小,如果他他发生了了,则有有理由怀怀疑原假假设H0,认为其其对立面面H1成立,该该结论可可能犯大大小为的错误。二、假设设检验的的基本步步骤1.建立立假设和和确定检检验水准准无效假设设H0(null hypothesis)指需要要检验的的假设,备择假假设H1(alternativehypothesis)指在H0成立证据据不足的的情况下下而被接接受的假假设。例例如建立立治疗前前后血清清甘油三三酯疗效效的无效效假设和和备择假假设分别别为 说明 :备备择假设设有双侧侧和单侧侧两种情情况。双双侧检验验指不论论正方向向还是负负方向的的误差,若显著著地超出出检验水水准

16、则拒拒绝H0,即即为双双侧检验验;单侧侧检验指指仅在出出现正方方向或负负方向误误差超出出规定的的水准时时则拒绝绝H0,如治疗疗后血清清甘油三三酯下降降的假设设可表示示为双侧检验验和单侧侧检验应应如何选选择,需需根据研研究目的的和专业业知识而而定。一一般情况况下,双双侧检验验更为稳稳妥,因因为对相相同的样样本,双双侧检验验得出有有显著性性差别的的结论,单侧检检验也一一定是显显著的。二、假设设检验的的基本步步骤1.建立立假设和和确定检检验水准准检验水准准(sizeofa test)显著性水水准(significantlevel)是预先规规定的拒拒绝域的的概率值值,实际际中一般般取。2.选择择检验方方法和计计算检验验统计量量根据资料料类型、研究设设计方案案和统计计推断的的目的,选择适适当的检检

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论