统计-4分类资料统计分析_第1页
统计-4分类资料统计分析_第2页
统计-4分类资料统计分析_第3页
统计-4分类资料统计分析_第4页
统计-4分类资料统计分析_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章分类变量资料的统计分析

statisticalanalysisforcategoricaldata李云1统计-4分类资料统计分析共94页,您现在浏览的是第1页!简要回顾数值变量分类变量:将观察单位按事物的某种属性或类别进行分组,再清点每组观察单位的个数得到的资料。2统计-4分类资料统计分析共94页,您现在浏览的是第2页!简要回顾统计分析统计描述统计推断参数估计假设检验均数、标准差总体均数估计t检验,方差分析Example数值资料3统计-4分类资料统计分析共94页,您现在浏览的是第3页!主要内容分类变量资料的统计描述常用的相对数指标应用相对数时应注意的几个问题;率的标准化法。分类变量资料的统计推断估计率的抽样误差总体率可信区间的估计两个率的比较4统计-4分类资料统计分析共94页,您现在浏览的是第4页!常用的相对数比例率比相对数应用的注意事项率的标准化5统计-4分类资料统计分析共94页,您现在浏览的是第5页!绝对数和相对数绝对数:实际数反映某事物现象发生的实际情况,总量指标缺点:不利于比较。相对数是两个有联系的数据的比值。目的:将基数化为相同,便于比较。6统计-4分类资料统计分析共94页,您现在浏览的是第6页!一、常用的相对数指标构成比(proportion)率(rate)比(ratio)动态数列(dynamicseries)7统计-4分类资料统计分析共94页,您现在浏览的是第7页!例:手术前后胸腔积液白细胞分类8统计-4分类资料统计分析共94页,您现在浏览的是第8页!2、率(rate)

定义:一定时间内,实际发生某现象的观察单位数与可能发生该现象的观察单位总数之比。计算公式:K比例基数9统计-4分类资料统计分析共94页,您现在浏览的是第9页!例几种药物不良反应发生情况半合成青霉素不良反应发生水平最高,达35.5‰总发生率:87/3803=22.9‰

(‰)10统计-4分类资料统计分析共94页,您现在浏览的是第10页!‰病死率

死亡率

11统计-4分类资料统计分析共94页,您现在浏览的是第11页!12统计-4分类资料统计分析共94页,您现在浏览的是第12页!绝对增长量:说明事物在一定时期内所增减的绝对数量,表现为两指标之差。累计绝对增长量报告期与基期指标之差。逐年绝对增长量报告期与前一期指标之差13统计-4分类资料统计分析共94页,您现在浏览的是第13页!107.5%-100%14统计-4分类资料统计分析共94页,您现在浏览的是第14页!正确计算平均率不能将这几个率直接相加求其均值,而应将各个率的分子、分母分别相加后,再求总率即平均率相互比较时注意可比性除研究因素不同外,其他影响研究结果的因素应尽可能相同或相近研究对象同质、方法相同、其他基本条件一致、内部构成要相同,不同则进行率的标化后再比较同一地区不同时期资料的比较,应注意客观条件的变化15统计-4分类资料统计分析共94页,您现在浏览的是第15页!三、标准化法16统计-4分类资料统计分析共94页,您现在浏览的是第16页!1、标化法的基本思想当两组资料进行比较时,如果其内部不同小组率有明显差别,而且各小组内部构成也明显不同,直接比较不合理。在两个及两个以上总率(总均数)进行对比时,为了消除内部构成不同的影响,采用统一标准,分别计算标准化率后再作对比的方法称为标准化法。17统计-4分类资料统计分析共94页,您现在浏览的是第17页!以人口数作为标准

预期发生数=标准人口数x原发生率18统计-4分类资料统计分析共94页,您现在浏览的是第18页!以人口构成比作为标准19统计-4分类资料统计分析共94页,您现在浏览的是第19页!3.标准化率已经不再反映当时当地的实际水平,它只是表示相互比较的资料间在共同标准下的相对水平,用于比较。4.两样本标准化率是样本值,存在抽样误差。比较两样本的标准化率,当样本含量较小时,应作假设检验。20统计-4分类资料统计分析共94页,您现在浏览的是第20页!统计推断用样本信息推论总体特征的过程。包括:参数估计:

运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。21统计-4分类资料统计分析共94页,您现在浏览的是第21页!主要内容率的抽样误差和总体率的区间估计率的u检验2检验22统计-4分类资料统计分析共94页,您现在浏览的是第22页!1、率的抽样误差与标准误概念:样本率(p)和总体率(π)的差异称为率的抽样误差(samplingerrorofrate),用率的标准误(standarderrorofrate)度量。1如果总体率π未知,用样本率p估计23统计-4分类资料统计分析共94页,您现在浏览的是第23页!2、总体率的可信区间点估计:就是把样本率看作总体率;区间估计:按一定的概率,以样本信息来估计总体率所在的范围,即计算总体率的1-α置信区间。这里,α一般取0.05或0.01查表法:正态近似法24统计-4分类资料统计分析共94页,您现在浏览的是第24页!正态近似法条件:当n足够大,p和(1-p)均不太小,且np和n(1-p)均大于5时,样本率p的抽样分布近似服从正态分布。可用公式估计总体率的置信区间。

公式:(p-usp,p+usp)式中,uα:标准正态分布曲线下,双尾面积为α时对应的u界值,当α=0.05时,u0.05=1.96;α=0.01时,u0.01=2.58。25统计-4分类资料统计分析共94页,您现在浏览的是第25页!二、率的u检验26统计-4分类资料统计分析共94页,您现在浏览的是第26页!1、样本率与总体率的比较条件:当样本率的分布近似服从正态分布时,样本率p与已知总体率π0的比较,可用u检验公式:式中,π0:总体率,一般为理论值、经验值或大量观察得到的稳定值。27统计-4分类资料统计分析共94页,您现在浏览的是第27页!2)计算u值28统计-4分类资料统计分析共94页,您现在浏览的是第28页!2、两样本率的比较条件:两样本含量n1与n2均较大;两样本率p1、(1-p1)及p2、(1-p2)均不太小;如n1p1、或n1(1-p1)及n2p2、或n2(1-p2)均大于5时,可采用正态近似法。公式:

式中,p1和p2:分别为两个样本率;Sp1-p2:两率之差的标准误;Xl和X2:分别表示两样本发生某现象的观察单位数。29统计-4分类资料统计分析共94页,您现在浏览的是第29页!2)计算u值30统计-4分类资料统计分析共94页,您现在浏览的是第30页!当样本量不大,或几个率进行比较时——2检验两样本率的比较除可用u检验,还可采用2检验,且ν=1时,u2=2

。31统计-4分类资料统计分析共94页,您现在浏览的是第31页!用途:推断两个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个样本率比较的分割两个分类变量之间有无关联性频数分布拟合优度的检验。检验统计量:应用:计数资料32统计-4分类资料统计分析共94页,您现在浏览的是第32页!Supposeyoutossacoin100timesH:40timesT:60timesIfyouhypothesizethatthecoinisfair,theoretical:50timeseach.33统计-4分类资料统计分析共94页,您现在浏览的是第33页!Whethertheyarequitedifferent?whetherthedeviationsbetweenAandTaresignificant.Deviations=34统计-4分类资料统计分析共94页,您现在浏览的是第34页!2-distribution,df=16.83P=0.053.84P=0.012valueProbabilitydistributionforthestatistic,whenthesamplesizesandthetheoreticalfrequenciesarenottoosmall.35统计-4分类资料统计分析共94页,您现在浏览的是第35页!P<0.05Supposethedeviationsarenotsignificant,orthereisnodifferencebetweentheAandT,theprobabilitythatwegetthevalueof2islessthan0.05.Impossible!Sothedeviationsaresignificant.Rejectthehypothesis.36统计-4分类资料统计分析共94页,您现在浏览的是第36页!c20.05,1=3.84df=1卡方界值表p12237统计-4分类资料统计分析共94页,您现在浏览的是第37页!四格表资料的2检验配对设计四格表资料2检验行×列表资料2检验二、卡方检验类型38统计-4分类资料统计分析共94页,您现在浏览的是第38页!理论频数由下式求得:TRC为第R行C列的理论频数

nR为相应的行合计

nC为相应的列合计

n为总样本量T11=116×98/224=50.75T12=116×126/224=65.2539统计-4分类资料统计分析共94页,您现在浏览的是第39页!确定P值,做出结论6.830.053.840.0140统计-4分类资料统计分析共94页,您现在浏览的是第40页!四个表2值的校正不校正:n>40,且全部T>5时校正:当n>40,但有任一格子1≤T<5时确切概率:当n≤40或T<l时41统计-4分类资料统计分析共94页,您现在浏览的是第41页!42统计-4分类资料统计分析共94页,您现在浏览的是第42页!2、配对设计四格表资料2检验常用于比较两种检验方法或两种培养基的阳性率是否有差别。特点:对同一观察对象分别用两种方法处理,观察其阳性与阴性结果。资料整理为配对四格表形式.43统计-4分类资料统计分析共94页,您现在浏览的是第43页!例4.8为比较两种检验方法中和法和血凝法检测关节痛病人的抗“O”结果,观测105例关节痛患者,结果见表4-11,问两种检验结果有无差别?44统计-4分类资料统计分析共94页,您现在浏览的是第44页!①

多个样本率比较时,有R行2列,称为R×2表;②

两个样本的构成比比较时,有2行C列,称2×C表;③

多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为R×C表。3、行×列表资料2检验45统计-4分类资料统计分析共94页,您现在浏览的是第45页!例4.9某医院研究急性白血病与慢性白血病患者的血型构成情况有无不同,资料见表4-12,问两组差别有无统计学意义。46统计-4分类资料统计分析共94页,您现在浏览的是第46页!1.行列表中的各格T≥1,并且1≤T<5的格子数不宜超过1/5格子总数,否则可能产生偏性。处理方法有三种:增大样本含量将理论频数太小的行或列与性质相近的邻行或邻列合并;删去理论频数太小的格子所对应的行或列。行×列表资料χ2检验的注意事项47统计-4分类资料统计分析共94页,您现在浏览的是第47页!掌握常用相对数指标构成比,率,比率的标准化法基本思想,计算方法卡方检验四格表资料的卡方检验配对资料的卡方检验48统计-4分类资料统计分析共94页,您现在浏览的是第48页!统计分析统计描述统计推断参数估计假设检验Example分类资料率、比、构成比总体率可信区间χ2检验49统计-4分类资料统计分析共94页,您现在浏览的是第49页!节分类变量资料的统计描述50统计-4分类资料统计分析共94页,您现在浏览的是第50页!计数资料用定性的方法得到的资料称作分类变量资料按某种属性分类,然后清点每类的数据住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月202583025管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月201991527无中学顺产死产51统计-4分类资料统计分析共94页,您现在浏览的是第51页!

问题某部队野营训练,发生中暑12人,北方籍战士10人,南方籍战士2人,结论:北方籍战士容易中暑。1999年某幼儿园有36名儿童患了腮腺炎,该幼儿园有200名儿童(其中25名儿童以前患过腮腺炎),该幼儿园儿童1999年腮腺炎发病率是多少?52统计-4分类资料统计分析共94页,您现在浏览的是第52页!1、构成比(proportion)概念:说明某一事物内部各组成部分所占的比重,常以百分数表示,又称比例。

计算公式:53统计-4分类资料统计分析共94页,您现在浏览的是第53页!构成比特点:各部分构成比的总和为100%,值在0-1间变动;某部分构成比发生变化时,其他部分也相应变化。54统计-4分类资料统计分析共94页,您现在浏览的是第54页!用以说明某现象发生的频率或强度K:比例基数,常用百分率(%)、千分率(‰)、万分率(1/万)或十万分率(1/10万)等表示。使计算结果保留1~2位整数。

平均率不能由各组率相加后求平均,应为分子合计除以分母合计。关于率…55统计-4分类资料统计分析共94页,您现在浏览的是第55页!发病率‰患病率

率常用统计指标56统计-4分类资料统计分析共94页,您现在浏览的是第56页!3、比(ratio)定义:也称相对比,指两个有联系的指标之比,常以百分数或倍数表示。计算公式:两个指标可以性质相同,也可以性质不相同;可以是相对数、绝对数或平均数等。57统计-4分类资料统计分析共94页,您现在浏览的是第57页!4、动态数列(dynamicseries)概念:指一系列按时间顺序排列起来的统计指标(包括绝对数、相对数和平均数),用以说明事物在时间上的变化和发展趋势。常用指标:有绝对增长量、发展速度和增长速度、平均发展速度与平均增长速度。58统计-4分类资料统计分析共94页,您现在浏览的是第58页!发展速度和增长速度:说明事物在一定时期内发展变化的幅度和速度。定基比发展速度环比发展速度定基比增长速度环比增长速度59统计-4分类资料统计分析共94页,您现在浏览的是第59页!二、应用相对数应注意的问题计算相对数的分母不宜过小稳定性差,缺乏代表性例数较少时,用绝对数分析时不能以构成比代替率构成比是比例指标,它用来说明事物内部各组成部分所占的比重或分布,分子仅是分母中同一事物现象的一部分,是概率的估计值。率则与时间有关,它具有速率的概念,也具有概率估计值的意义,是与时间有关的比例60统计-4分类资料统计分析共94页,您现在浏览的是第60页!样本率或构成比的比较应进行假设检验样本率(或构成比)是通过抽样得到的,存在抽样误差,因此不能只凭数值表面相差的大小作结论,应进行差别的假设检验。61统计-4分类资料统计分析共94页,您现在浏览的是第61页!为什么要进行标化62统计-4分类资料统计分析共94页,您现在浏览的是第62页!2、标准化率的计算标准化方法1.以人口数作为标准2.以人口构成比作为标准选择标准人口1.选择有代表性的、较稳定的、数量较大的人群作标准。2.两组之和的人口数或人口构成比;3.两组间较稳定一组的人口数或人口构成比;63统计-4分类资料统计分析共94页,您现在浏览的是第63页!计算标准化率64统计-4分类资料统计分析共94页,您现在浏览的是第64页!3、应用标准化时的注意事项1.标准化法只适用于某因素两组内部构成不同,并有可能影响两组总率比较的情况。对于因其它条件不同而产生的不具可比性的问题,标准化法不能解决。2.由于选择的标准人口不同,算出的标准化率也不同。当比较几个标准化率时,应采用同一标准人口。65统计-4分类资料统计分析共94页,您现在浏览的是第65页!第二节

分类变量资料的统计推断66统计-4分类资料统计分析共94页,您现在浏览的是第66页!简要回顾统计分析统计描述统计推断参数估计假设检验Example分类资料率、比、构成比总体率的可信区间χ2检验、u检验67统计-4分类资料统计分析共94页,您现在浏览的是第67页!

一、率的抽样误差和总体率的估计68统计-4分类资料统计分析共94页,您现在浏览的是第68页!率的标准误越小,说明率的抽样误差越小,用样本推论总体时,可信程度越高。例4.5某地随机抽取500名儿童,乙肝感染率为4.50%,求乙肝感染率的标准误。该地500名儿童乙肝感染率的标准误为0.93%。69统计-4分类资料统计分析共94页,您现在浏览的是第69页!查表法对于小样本资料(n≤50),可根据样本阳性例数X及样本例数n,直接查二项分布参数π的置信区间表,例:某新药的毒理研究中,用20只小白鼠作急性毒性实验,死亡3只,估计该药急性致死率的95%可信区间。

从附表(根据二项分布原理制成)查得,在n=20与X=3纵列交叉处的数值为3~38,即该药急性致死率的95%可信区间为3%~38%70统计-4分类资料统计分析共94页,您现在浏览的是第70页!例某地随机抽取500名儿童,乙肝感染率为4.50%,估计该地儿童乙肝感染率的95%可信区间?

(p-usp,p+usp)=(0.045-1.96×0.0093,0.045+1.96×0.0093)=(2.68%,6.32%)该地儿童95%乙肝患病率置信区间为(2.68%,6.32%)。71统计-4分类资料统计分析共94页,您现在浏览的是第71页!样本率存在抽样误差,比较两样本的率时,应作假设检验。当样本例数n较大,样本率p和1-p均不太小,且np和n(1-p)均大于5时,样本率与总体率、两样本率间差别进行比较时,可采用u检验。72统计-4分类资料统计分析共94页,您现在浏览的是第72页!例4.6根据以往经验,一般胃溃疡患者中有20%发生胃出血症状。某医院观察65岁以上溃疡病患者152例,有31.6%的患者出现胃出血症状。问老年人溃疡病患者是否容易发生胃出血?1)建立假设,确定水准

73统计-4分类资料统计分析共94页,您现在浏览的是第73页!3)确定P值,做出结论74统计-4分类资料统计分析共94页,您现在浏览的是第74页!例4.7调查两个城市的甲状腺肿患病率,其中甲市调查3315例,甲状腺肿患病率为1.78%,乙市调查3215例,患病率为5.60%,问两个城市甲状腺肿患病率有无差别?1)建立假设,确定检验水准75统计-4分类资料统计分析共94页,您现在浏览的是第75页!3)确定P值,做出结论76统计-4分类资料统计分析共94页,您现在浏览的是第76页!三、2检验77统计-4分类资料统计分析共94页,您现在浏览的是第77页!一、2检验基本思想Foragivenphenomenon,thechi-squaretestparestheactualfrequencies(A)withthetheoreticalfrequencies(T).实际频数(A):observedfrequencies理论频数(T).:calculatedfromsomehypothesis.78统计-4分类资料统计分析共94页,您现在浏览的是第78页!WhethertheHypothesisistrue?ComparetheAwiththeT.Iftheyarequitedifferent,thenthetheorymightnotbetrue;Otherwise,thetheoryisacceptable.79统计-4分类资料统计分析共94页,您现在浏览的是第79页!基本公式:

A:实际频数,如四个基本数据;T:理论频数,是根据检验设,且用合并率来估计而定的。80统计-4分类资料统计分析共94页,您现在浏览的是第80页!PvalueSupposethedeviationsarenotsignificant,orthereisnodifferencebetweentheAandT,theprobabilitythatwegetthevalueof2.Withdf=1,theprobabilitythatwegetthevalueof3.84is0.05.81统计-4分类资料统计分析共94页,您现在浏览的是第81页!Whetherthecoinisfair?hypothesisthatthecoinisfair,2

=4P=0.05P<0.0543.8482统计-4分类资料统计分析共94页,您现在浏览的是第82页!2值反映了实际频数与理论频数的吻

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论