研究生医学统计学定性资料统计描述_第1页
研究生医学统计学定性资料统计描述_第2页
研究生医学统计学定性资料统计描述_第3页
研究生医学统计学定性资料统计描述_第4页
研究生医学统计学定性资料统计描述_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

研究生医学统计学定性资料统计描述相关概念定性资料是指将观察单位按照某种属性或类别进行分组,然后计数各组的观察单位个数所收集的资料。根据变量类别之间是否有顺序、等级、大小关系,分为无序分类变量资料和有序分类变量资料。定性资料常见的数据形式是绝对数绝对数:调查研究和实验研究得到的定性资料经过整理,清点数目得到的数值。如某病的出院人数、治愈人数、死亡人数等。绝对数反映一定条件下某种事物的规模或水平,是计划或总结工作的依据。绝对数通常不具有可比性。因此需要在绝对数的基础上计算相对数。例:调查得,某年小学生中流脑发病:

甲地区63例,乙地区35例。

甲地区流脑流行比乙地区严重×√

如已知小学生总人数:甲地区50051人,乙地区14338人,可算出两个发病率:

甲地区流脑发病率:63/50051×1000‰=1.26‰乙地区流脑发病率:35/14338×1000‰=2.44‰

乙地区流脑流行比甲地区严重一、定性资料的频数分布

某医院2001年住院病人5类疾病的死亡情况疾病种类死亡人数百分比(%)恶性肿瘤5033.33呼吸系统疾病3020.00消化系统疾病2013.33循环系统疾病4026.67传染病106.67合计150100.00针刺合谷治疗胃痛的效果疗效例数百分比(%)治愈5960.82有效2323.71无效1515.46合计97100.00

二、定性资料的描述指标——相对数(Relativenumber)相对数:两个有联系的指标(数值)之比常用的相对数指标大致有三种类型:频率(relativefrequencyorproportion)强度(intensityorrate)相对比(relativeratio)1.分类资料的描述—频率和频率分布2.人时资料的描述—强度3.复合指标—相对比4.相对数应用中需注意的问题*注意指标计算中的分子和分母的含义1.分类资料的描述—频率和频率分布1.1二分类资料的描述—频率当事物只有两种可能的结局时,如存活与死亡、患病与未患病等,常用一个频率来描述结局的规律性。频率型指标是最常见的,通常近似地反映某一事件出现的机会大小,如发病概率、死亡概率等分子是分母的一部分分子分母量纲相同比例无量纲,取值在[0,1]K是比例基数,如100%,也可取为1000‰、1万/1万和10万/10万等,

例:某妇产科医生记录了1402名临产母亲的妊娠情况,结果足月产者1148例。足月产率=1148/1402=81.9%proportion阳性率的本质是频率,它是对总体中阳性事件发生概率的估计。1.2多分类资料的描述—频率分布当事物有多于两种可能的结局时,常用频率分布(构成比)来描述结局的规律性。各结局频率总和必为100%。某一结局的频率变化必然导致其他部分的变化。设某事物结局数的合计由n1,n2,···,nk个部分组成,某一结局的频率(构成比)的计算为:…..…….

某医院2001年住院病人5类疾病的死亡情况疾病种类死亡人数频率(%)恶性肿瘤5033.33呼吸系统疾病3020.00消化系统疾病2013.33循环系统疾病4026.67传染病106.67合计150100.002.人时资料的描述—强度在流行病学随访中,不同个体被观察的事件长度各不相同,常用人时总和表示被观察的人和事件的总和。“强度”是流行病学、统计学术语——单位时间内某现象发生的频率。强度型指标通常是指一段时间内的平均概率。如人时发病率的分子是新发生的事件数,分母是人时数(观察人数乘以时间)的总和,多用于大人群长时间随访的资料。例1在某医院的院内感染调查中,5031名病人共观察了127859人日(例均25.4日),其中有596人在医院发生感染,请计算院内感染率。平均每天有0.47%的病人在医院发生感染。例2某医院对同一疾病开展甲、乙两种手术治疗,分别随机抽取100名患者评价复发率。已知手术完成时间各不相同,而未复发患者的最后随访时间均为2006年1月1日。限于篇幅,在下表中仅给出部分数据,以说明此类资料的统计描述方法。两种手术方案的复发率比较(部分数据)手术方案手术完成时间复发情况复发前被观察人年数甲1990-1-12005-1-1复发15.01991-7-1未复发14.51996-1-1未复发10.0合计——39.5乙1994-1-11995-1-1复发1.02004-1-1未复发2.02004-7-1未复发1.5合计——4.5甲方案:1/39.5×100%=2.53%/年,乙方案:1/4.5×100%=22.22%/年3.复合指标—相对比(ratio)概念:是两个有关联的变量A与B之比,它表示相对于B的一个(或十个、百个、千个等)单位,A有多少个单位。或A是B的若干倍或几分之几。ratioA和B可以是绝对数、平均数,也可以是相对数A和B的量纲可以相同,也可以不同A和B彼此分离,互不重叠或包含如:人口出生性别比;每千人口的医生数、每千人口的病床数、每医生的门诊工作量、变异系数等。人口出生性别比国际上一般以每出生100个女性人口相对应出生的男性人口的数值来表示。一般在102~107之间。

我国1981年第3次人口普查是108;1989年第4次人口普查是112;2000年第5次人口普查高达116,远超国际认同的可以容忍的最高警戒线107。

2.2.4相对数应用中需注意的问题1)分母数据一般不宜过小2)防止概念混淆3)正确合并估计频率(或强度)型指标4)相对数进行比较应注意可比性请问该说法是否正确?

例:某医生治疗了4例支气管哮喘病患者,其中3例有效,即报告有效率为75。goback某医院统计1985-1990年儿科住院病人疾病种类分布情况见表:疾病种类病人数%先天性心脏病25023.8风湿性心脏病75071.4其它504.7表某医院儿科住院病人疾病种类分布情况结论:我国少年儿童(18岁以下)的风湿性心脏病发病率约为71.4%。表某社区高血压防治干预试验(5年)前后死亡原因变化表死亡原因干预前干预后充血性心力衰竭23.24.3脑血管病39.623.2尿毒症12.29.8冠状动脉病和心脏病猝死17.148.7其它死因7.914.0合计100.0100.0有人据此提出干预试验虽然可以降低充血性心力衰竭等的死亡率,但却增高了冠状动脉病和心脏病猝死的死亡率。表某市1980年和1990年五种传染病发病情况病种1980年1990年病例数构成比(%)病例数构成比(%)痢疾360449.39203237.92肝炎120316.49114321.33流脑6989.5654210.11麻疹89012.2076714.31腮腺炎90212.3687516.33合计7297100.005359100.00有人据此得出1990年和1980年相比,痢疾发病下降,肝炎发病上升最明显的结论。goback例某病两种疗法的治愈率(%)比较的资料如表表某病两种疗法的治愈率(%)的比较西医疗法组中西医结合疗法组病例数治愈数治愈率(%)病例数治愈数治愈率(%)普通型603660201365重型20840602745爆发型2042020525合计10048481004545goback()()例:某班有男生50人,女生20人,男生英语四级通过率为80%,女生四级通过率为100%,请问该班四级通过率为多少?答案1:90%。答案2:85.7%goback1.观察对象是否同质,研究方法(如检测手段、抽样方法)是否相同,观察的时间是否一致等。2.其他在专业上认为有意义的影响因素应接近均衡。相对数进行比较应注意可比性例某病两种疗法的治愈率(%)比较的资料如表表某病两种疗法的治愈率(%)的比较西医疗法组中西医结合疗法组病例数治愈数治愈率(%)病例数治愈数治愈率(%)普通型603660201365重型20840602745爆发型2042020525合计10048481004545一、医学人口统计常用指标频率型指标相对比型指标实践中,因为一年中不断有人去世,又不断有人出生,分母的精确值很难得到。假定当年每位去世者平均活了半年,每位出生者也平均活了半年,则粗死亡率可近似地写成强度型指标(近似)频率型指标近似相对比型指标强度型指标(近似)频率型指标二、疾病统计常用指标频率型指标频率型指标强度型指标(近似)发病率(incidencerate,IR)表示一定时期内,在可能发生某病的一定人群中新发生某病的强度。患病率(prevalencerate,PR)又称为现患率,指某时点上受检人数中现患某种疾病的频率,患病率分为时点患病率(pointprevalencerate)和期间患病率(periodprevalencerate)。治愈率(curerate)表示受治病人中治愈的频率。有效率表示受治病人中治疗有效的频率。生存率(survivalrate):指病人能活到某一时点的概率。疾病统计常用指标指标分子分母基数类型某病发病率时期内新发生的某病病例数年平均人口数×1年10万/10万强度型(近似)时点患病率时点现患疾病人数检查人口数10万/10万频率型期间患病率时期现患疾病人数检查人口数10万/10万频率型治愈率治愈人数接受治疗人数100%频率型生存率活满特定时期的人数期初存活的人数100%频率型残疾患病率残疾患者人数检查人数100%频率型三、动态数列

动态数列,按照一定的时间顺序,将一系列描述某事物的统计指标依次排列起来,就可以观察和比较事物在时间上的变化和发展趋势,这些统计指标可以为绝对数、相对数或平均数。相对比指标(一)、绝对增长量1、累计增长量,即报告年的指标与某一固定水平(基期水平)指标值差。2、逐年增长量,即报告年的指标与前一年指标之差年份指标符号年末床位数绝对增长量发展速度%增长速度%累计逐年定基环比定基环比1990a05420——————1991a15608188188103.4103.43.43.41992a25766346158106.4102.96.42.91993a35886466120108.6102.18.62.11994a45991571105110.5101.710.51.71995a56284864293115.9104.915.94.91996a666091189325121.9105.221.95.21997a769551535346128.3105.328.35.31998a873521932397135.6105.735.65.7表某地1990~1998年床位发展动态(二)、发展速度与增长速度1、定基发展速度,即用报告期的指标与某一时期(固定为基期)指标之比。2、环比发展速度,即用报告期的指标与其上一期指标之比。年份指标符号年末床位数绝对增长量发展速度%增长速度%累计逐年定基环比定基环比1990a05420——————1991a15608188188103.4103.43.43.41992a25766346158106.4102.96.42.91993a35886466120108.6102.18.62.11994a45991571105110.5101.710.51.71995a56284864293115.9104.915.94.91996a666091189325121.9105.221.95.21997a769551535346128.3105.328.35.31998a873521932397135.6105.735.65.7表某地1990~1998年床位发展动态(三)、平均发展速度和平均增长速度平均发展速度是各环比增长速度的几何平均数,说明某事物在一个较长的时期中逐年平均增长的程度。1、某医院某年住院病人中胃癌患者占5%,则_______。A.5%是强度指标B.5%是频率指标C.5%是相对比指标D.5%是绝对数2、计算麻疹疫苗接种后血清检查的阳性率,分母为_______。A.麻疹易感人群B.麻疹患者数C.麻疹疫苗接种人数D.麻疹疫苗接种后的阴性人数3、某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为_________。A.该病男性易得B.该病女性易得C.根据该资料可计算出男女性的发病人数D.尚不能得出结论4、定基比与环比的指标是_______。A.构成比B.平均数C.频率D.相对比5、一项新的治疗方法可延长病人的生命,但不能治愈该病,则最有可能发生的情况是_______。A.该病的患病率增加B.该病的患病率减少C.该病的发病率增加D.该病的发病率减少常用统计图表统计表(statisticaltable)是把统计分析结果中数据和统计指标用表格列出。统计图(statisticalgraph)

统计图是用点的位置、线段的升降、直条的长短或面积的大小等来表达统计资料的一种形式。统计表一、统计表的意义与制作原则1.统计表的意义

统计表用简明的表格形式,替代某些文字叙述,便于计算和分析。2.制表原则:重点突出、层次清楚3.统计表的结构标题标目线条数字注释或备注

某医院2001年住院病人5类疾病的死亡情况疾病种类死亡人数频率(%)恶性肿瘤5033.33呼吸系统疾病3020.00消化系统疾病2013.33循环系统疾病4026.67传染病106.67合计150100.00标题横标目纵标目4.制表的基本要求(1)标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。(2)标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。横标目相当于句子的主语部分:被说明的对象,列在表的左侧。纵标目相当于句子的谓语部分:用以阐述主语具备的特征。列在表的右侧。(3)线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。(4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。(5)备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。二、统计表的分类简单表:按研究对象的单一特征分组。复合表:按研究对象的两个或以上特征结合起来分组。

某医院2001年住院病人5类疾病的死亡情况疾病种类死亡人数频率(%)恶性肿瘤5033.33呼吸系统疾病3020.00消化系统疾病2013.33循环系统疾病4026.67传染病106.67合计150100.00简单表例某病两种疗法的治愈率(%)比较的资料如表表某病两种疗法的治愈率(%)的比较西医疗法组中西医结合疗法组病例数治愈数治愈率(%)病例数治愈数治愈率(%)普通型603660201365重型20840602745爆发型2042020525合计10048481004545复合表是将疾病类型和治疗方法结合起来分组。统计图1.统计图的意义:将统计数据形象化,把资料所反映的趋势、多少、分布、动态和现象之间的数量关系等形象地表现出来,易于做分析比较。2.统计图的种类:根据资料类型和统计分析目的不同,需要用不同的统计图表达数据和统计指标值。常用的统计图有直条图、直方图、百分比条图和圆图、线图、散点图和统计地图等,还有在数据探索性分析中应用的茎叶图、残差图、箱式图,序贯分析的检验区域图,判别分析的类别分布图,聚类分析的谱系图等特殊分析图等。3.统计图制作的一般原则

(1)根据资料性质和分析目的正确选用适当的统计图。(2)必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题一般放在图的下方。(3)统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即原点处定为0。纵横轴的比例一般以5:7为宜。(4)统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置。二、常用统计图

1.直条图(barchart)

2.圆图(piechart)和百分比条图(percentbarchart)

3.线图(linegraph)

4.直方图(histogram)

5.统计地图(statisticalmap)

6.其他特殊分析图

箱式图(boxplot)

茎叶图(stem-leafplot)1.直条图(barchart)用相同宽度的直条长短表示相互独立的某统计指标值的大小。直条图按对象的分组分单式和复式两种。

例图1显示某地某年主要死因死亡率资料,不同死因是相互独立的不连续指标,因此用直条图。该图只按死因分类,为单式直条图。图1某年某地主要死因的死亡率(/10万)直条图的纵轴尺度起点必须为零示意图2.圆图和百分比条图适合于描述定性变量的频率分布资料。圆图(piechart)是以圆形总面积作为100%,将其分割成若干个扇面表示事物各类别的频率。百分比条图(percentbarchart)是以矩形总长度作为100%,将其分割成不同长度的段表示各类别的频率。

例某年某地进行婴儿死亡原因的调查,根据城市婴儿死因的构成资料绘制成图3。

从图3可见出生窒息是婴儿死亡的首位死因,出生窒息、早产和肺炎头三位死因占总死亡的60.3%,是婴儿死亡防治的重点。

图3

某年某地城市婴儿死因构成比

例图4是根据某地20世纪70年代和80年代恶性肿瘤发病登记资料绘制成的百分比条图。由图4可见不同年代主要恶性肿瘤频率分布中,鼻咽癌和肝癌频率减少,肺癌明显增加。百分比条图特别适合作多个频率分布的比较,将不同组别,不同时间或不同地区的某分类指标的频率分布平行地绘制成多个百分比条图,可以方便地比较其各部分的频率的差异。图420世纪70年代和80年代某地7常见恶性肿瘤发病构成比较

3.线图(linegraph)线图是用线段的升降来表示数值的变化,适合于描述某变量随另一连续性数值变量变化的趋势,最常用于描述变量随时间而变化的趋势。

普通线图:横轴和纵轴都是算术尺度。

半对数线图:横轴是算术尺度,纵轴是对数尺度,特别适宜作不同指标变化速度的比较。

例图5是根据1990~2000年某沿海城市甲状腺功能亢进(甲亢)发病率资料绘制的普通线图。图5可看出在1995年开始食盐加碘后,甲亢发病率有一突增高峰,1999年以后又逐渐下降的趋势。图51990~2000年某沿海城市甲状腺功能亢进发病率变化趋势

0123lgY

例调查某地1997年~2001年两种与性传播有关疾病—艾滋病和梅毒的发病率变化趋势,资料分别绘制成普通线图和半对数线图。

普通线图显示梅毒的增长幅度较大,但半对数线图则显示艾滋病的增长速度更快。图61997~2001年某地艾滋病和梅毒发病率的变化趋势(a)纵轴为算术尺度;(b)纵轴为对数尺度。两者的区别:普通线图的横、纵坐标均为算术尺度,在某两个不同的时间段上,如果终点相对于起点的“绝对改变量”相同,将在图形上表现为相同的增幅(或减幅),直观呈现的是数量变化的态势;半对数线图的横坐标仍为算术尺度(如时间),纵坐标的观察指标(如发病率、病死率等)则进行了对数转换——即对数尺度,在某两个不同时间段上,如果终点相对于起点的“相对改变量”相同,将在半对数线图上表现为相同的增幅(或减幅),所以半对数线图适用于呈现事物发展变化的速度。如:以两个观察指标A和B变化速度的比较为例,在某一时间段当指标A发生10→100的变化、指标B发生100→1000的变化时,“绝对增长量”分别是90和900,相差较远;“相对增长量”却都是10倍于起点水平。显然,变化速度的比较所注重的正是“相对增长量”,注意:普通线图的纵轴一般以0点作起点,否则需作特殊标记或说明,以防给读者错误印象。标记直线的连接点时要注意,如测定值是在某时间段或数值段的,应标记在段的中点;如测定值是在某时点或确定值的,标记在相应时点或数值上。

4.直方图(histogram)适合表示定量变量的频数分布。以直方面积描述各组频数的多少,面积的总和相当于各组频数之和。直方图的横轴是定量变量,纵轴是频数(或频率)。注意如各组的组距不等时,要折合成等距后再绘图,即将频数除以组距得到单位组距的频数作为直方的高度,组距为直方的宽度。另一种表示数值变量资料频数分布的方式是将各组段观察频数除以总观察频数得到各组段的频率,以各组段频率除以组距得到的频率密度作为直方图高度,绘制的直方图称为频率直方图,它以各直方面积表示各组频率,其面积的总和为1。

例1997年某地共报告乙型病毒性脑炎104例,其年龄分布如图7。图71997年某地乙型病毒性脑膜炎病例的年龄分布

5.统计地图(statisticalmap)

统计地图是用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。例2003年广东省发生了某急性传染病的流行,下图描述了该急性传染病发病数在广东省的分布情况。图8 2003年广东省某急性传染病发病数的地理分布图例中括号内是发生相同病例数的行政区频数,其余指数据缺失的行政区6.其他特殊分析图

在探索性数据分析中,一些特殊的统计图对于发现数据分布特征有着重要的意义。这里介绍常用的箱式图、茎叶图。箱式图(boxplot)

使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。显然箱子越长,数据变异程度越大。中间横线在箱子中点表明分布对称,否则不对称。

四分位数间距IQRP75P25P50本体最大值本体最小值离群值(>P75+1.5IQR)极值(>P75+3IQR)箱图boxplot

例某地调查不同类型化妆品厂车间内粉尘数,结果绘制成图9。图中显示粉尘数的分布呈偏态分布,净化厂粉尘数较少,非净化厂粉尘数较多。图9某地不同类型化妆品厂车间粉尘数分布箱式图

茎叶图(stem-leafplot)将数据分离成两部分:整数部分和尾数部分,整数部分形成图的茎,尾数部分形成图的叶。茎叶图的排列方式与频数表有些相似,每行由一个整数的茎和若干叶构成。左边是茎的数值,茎宽一般标在图的下方。右边是叶,图显示每个叶的尾数数值,同样在图的下方标示每个叶代表几个实际观察值。茎叶图可以非常直观地显示数据的分布范围和形态,近年非常流行。例

绘制茎叶图10。图中茎的宽度为1,即观察值的整数位。每个叶代表1个观察值,显示的尾数即观察值的第一位小数。从图可以看出血清总胆固醇的分布范围从2.3到5.7,基本近似正态分布。而且可以查看每个观察值的取值情况。Stem:实际观察值除以茎宽后的整数部分。Leaf:实际观察值除以茎宽后的小数部分。&:残叶

Stem:实际观察值除以茎宽后的整数部分。Leaf:实际观察值除以茎宽后的小数部分。&:残叶Extremes:极端值,计算方式同箱图

常用统计图适用资料及实施方法图形适用资料实施方法条图组间数量对比直条高度表示数量大小直方图定量资料的频数分布直条的面积表示各组段的频率百分条图频率分布直条分段的长度表示各部分的频率饼图频率分布圆饼的扇形面积(或其张角)表示各部分的频率线图定量资料变动的增量采用横坐标和纵坐标均为算术尺度的坐标系半对数线图定量资料变动的倍数采用横坐标为算术尺度、纵坐标为对数尺度的坐标系箱式图定量资料的分布用箱体、线条标志

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论