分类资料的统计推断_第1页
分类资料的统计推断_第2页
分类资料的统计推断_第3页
分类资料的统计推断_第4页
分类资料的统计推断_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,第六章 分类资料的统计推断,2,统计资料分类type of data,3,定量资料的基本统计分析方法 统计描述: 均数、几何均数、中位数、百分位数全距、四分位数间距、方差、标准差和变异系数统计推断:可信区间假设检验:t检验、u检验、方差分析,4,定性资料的统计描述相对数(率、构成比、比)分类资料的频数表,5,6.1 率的区间估计,6.1.1 率的抽样误差及标准误率的抽样误差用率的标准误p表示总体率未知时,以样本资料计算的p=X/n作为的估计值,p的估计值为,6,6.1.2 总体率的区间估计(1) 精确概率法 例6.1 有人调查29名非吸毒妇女,出狱时有1名HIV(人免疫缺陷病毒)阳性,试问HIV阳性率的95%的可信区间是多少? n=29,X=1,查附表7得0.117.8, 即该HIV阳性率的95%的可信区间是0.1%17.8% 。,7,(2) 正态近似法 当n足够大(如n50),且p和1-p均不太小,即np和n(1-p)均大于5时,总体率的1- 可信区间为:pu/2sp 如当=0.05时,u=1.96, 当=0.01时,u=2.58,8,例6.2 从某地人群中随机抽取144人,检查乙型肝炎表面抗原携带状况,阳性率为9.03%,求该地人群的乙型肝炎表面抗原阳性率的95%可信区间。 n=144,p= 9.03%因此该地人群的乙型肝炎表面抗原阳性率的95%可信区间为:4.35%13.71%,9,6.1.3 两总体率之差1-2的区间估计(略),10,6.2.1 正态近似法 当n较大,且p和1-p均不太小,即np和n(1-p)均大于5时,利用样本率近似正态分布原理,可作样本率p与已知总体率0的比较,检验统计量,6.2 样本率与总体率的比较,11,例6.3 根据以往经验,一般胃溃疡病患者有20%发生胃出血症状,现某医院观察65岁以上溃疡病人304例,有31.6%发生胃出血症状,问老年胃溃疡病患者是否较一般患者容易出血? H0:老年胃溃疡病患者胃出血率= 0=0.2; H1:老年胃溃疡病患者胃出血率 0=0.2; =0.05(单侧)P0.001,拒绝H0,接受H1,差别有统计学意义,可认为老年胃溃疡病患者较容易出血,12,6.2.2 直接计算概率法(1)单侧检验A:若是回答“差”或“低”的问题,则计算出现“阳性”次数至多为k次的概率,即B:若是回答“优”或“高”的问题,则计算出现“阳性”次数至少为k次的概率,即,13,例6.4 据以往经验,新生儿染色体异常率一般为1%,某医院观察了当地400名新生儿,只有1例异常,问该地新生儿染色体异常率是否低于一般? H0:该地新生儿染色体异常率与一般相同,即异常率= 0= 0.01 H1:该地新生儿染色体异常率低于一般,即0.05 不拒绝H0,差别无统计学意义,尚不能认为该地新生儿染色体异常率低于一般,14,(2)双侧检验(不要求): P值等于实际样本出现的概率及更极端事件(即更背离无效假设的事件)的概率之和,即P=P(X=k)+P(X=i),其中i满足 P(X =i)0.05,不拒绝H0,差别无统计学意义,尚不能认为两组有效率有差别。,17,6.3.2 两个样本率比较的2检验,18,例6.5 某医生在用蛙王露口服液治疗贫血的临床试验中,将109名受试者随机分为两组,一组为试验组,接受蛙王露口服液的治疗,结果为有效43人,无效10人;另一组为对照组,接受复方阿胶浆的治疗,结果为有效40人,无效16人,问两组有效率有无差别?,19,四格表资料,表6.1中,43、10、40、16是整个表的基本数据,其余数据都是从这四个基本数据相加而得的,这种资料是两组两分类资料,称为四格表(fourfold table) ,亦称22表(contingency table),20,表 完全随机设计下两组的四格表,21,提出问题,研究目的:比较两组有效率有无差别?81.1371.43能否说明试验组的有效率比对照组高?检验假设:H0:两组总体有效率相同,即1= 2H1:两组总体有效率不同,即12,22,检验的基本思想,假设:试验组与对照组的效果相同,即 。则可计算两组合计的有效率为76.15%(即83/109) 说明:试验组与对照组的有效率均为76.15 %,23,计算理论频数,按两组合计的有效率为76.15 %,则理论上:试验组有效人数为:试验组无效人数为:对照组有效人数为:对照组无效人数为:,24,为第i行的合计(R=1,2 ) 为第j列的合计(C=1,2) n 为总例数。,理论数的公式:,25,四格表资料的 检验,基本思想:实际频数和理论频数吻合的程度 检验的计算公式 A 为实际频数 ( actual frequency) T 为理论频数(theoretical frequency),26,如果假设成立,则实际频数和理论频数吻合,即: 对每一个格子有: 对所有格子有: 而实际上:Why? 43-40.362.64 10-12.64 -2.64 40-42.64-2.64 16-13.362.64,27,为消除符号的影响,则:考虑绝对数不能完全体现其对 值的贡献:统计量服从自由度为的 分布。,28,确定P值,如果检验假设成立,则实际数与理论数之差一般不会很大,2值应很小,即此时出现大的2值的概率P很小。2与P值的对应关系可查2界值表(附表8)。2值愈大,P值愈小。,29,(1)建立检验假设,确定检验水准H0:两组总体有效率相等,即1=2H1:两组总体有效率不同,即1 2 =0.05(2)计算统计量理论频数:T11=5383/109=40.36; T12= 5326/109=12.64T21=5683/109=42.64;T22=5626/109=13.36,30,(3)确定P值得出结论按=1查附表8,得0.10P40,且T5,普通卡方检验(chi square test)n40,1T5,校正卡方检验(adjusted chi square test)或确切概率法(fisher exact test)n40或T1,确切概率法(fisher exact test),33,检验校正公式,34,例6.6 某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取15名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病率,结果如表6.3,问两组工人的皮肤炎患病率有无差别?,表6.3 穿新旧两种防护服工人的皮肤炎患病率比较,35,H0:两组工人的皮肤炎患病率无差别,即1=2H1:两组工人的皮肤炎患病率有差别,即12=0.05 考查最小行合计和最小列合计所对应的理论数,即最小理论数。最小的理论频数T11=1511/43=3.8440,所以用校正卡方检验,36,查附表8,得0.05P0.10,按=0.05水准不拒绝H0 ,差别无统计学意义,尚不能认为穿不同防护服的皮肤炎患病率有差别。,37,四格表的Fisher确切概率法,其英文Fisher exact probability适用条件四格表若有理论频数小等于1, 或n小等于40时用其他检验方法所得概率接近检验水准时,38,例6.7 用两种方法治疗黑色素瘤患者病人。结果如表6.4所示,问两种疗法治疗该病的疗效是否相同?,表6.4 两种方法治疗黑色素瘤疗效比较,39,6.4 多组率或构成比的比较,行列表的2检验统计量,v=(R-1)(C-1),40,例6.8 某县防疫站观察三种药物驱钩虫的疗效,在服药后7天得粪检够虫卵阴转率(%)如下,问三药疗效是否不同?表6.6 三种药物的虫卵阴转率的比较,6.4.1 多个率比较,41,(1)H0:三种药物的虫卵阴转率相同,即1=2=3 H1:三种药物的虫卵阴转率不同,即 1、2、3不等或不全相等。 =0.05 (2) 计算统计量,v=2,查附表8的2界值表得P0.005。按=0.05水准拒绝H0 ,差别有统计学意义,可以认为三种药物的虫卵阴转率不同。,42,6.4.2 多个构成比比较,例6.9 某医院研究鼻咽癌患者与眼科病人的血型构成情况有无不同,收集到资料如表6.7所示,问两组患者血型构成比有无差别?,表6.7 鼻咽癌患者与眼科病人的血型构成比较,43,(1) 建立检验假设和确定检验水准 H0:两组患者中血型构成比相同 H1:两组患者中血型构成比不同 =0.05 (2) 计算统计量:,v=3,查附表8的2界值表得0.10P0.25。按=0.05水准不拒绝H0 ,差别无统计学意义,尚不能认为两组患者中血型构成比不同。,44,6.4.3 行列表的2检验的注意事项行列表中不宜有1/5以上格子的理论数小于5或有一个格子的理论数小于1 。若发生上述情况,可采用下述处理方法中的一种 将理论数过小的格子所在的行或列与性质相近的邻近行或列中的实际数合并; 删去理论频数太小的行与列; 增大样本含量 采用精确概率检验法或似然比卡方检验法,45,当多个样本率或构成比比较的2检验,结论为拒绝检验假设,只认为总体率或总体构成比之间总的来说有差别。但不能说明每两两之间有差别,若要对每两个率或构成比进行比较,须进行行列表的2分割。,46,6.5 配对两分类资料的假设检验,配对两分类资料的2检验又称作McNemar 检验,47,例6.10 有205份咽喉涂抹标本,把每份标本依同样的条件分别接种于甲、乙两种白喉杆菌培养基上,观察白喉杆菌生长的情况,观察结果见表6.8,问两种培养基的阳性率有无差别?,表6.8 两种白喉杆菌培养基培养结果比较,48,若 2040,若 b+c20,利用二项分布的概率公式直接进行计算,49,H0:两种检验方法的阳性率相同,即总体B=C ; H1:两种检验方法的阳性率不同,即总体BC。=0.05 本例b+c=34,用校正公式查2界值表得0.01P0.05。按=0.05水准拒绝H0 ,差别有统计学意义,可以认为两种检验方法的阳性率不同,表 2检验在分类资料统计推断的应用用途 基本方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论