医学统计学全册配套最完整精品课件2_第1页
医学统计学全册配套最完整精品课件2_第2页
医学统计学全册配套最完整精品课件2_第3页
医学统计学全册配套最完整精品课件2_第4页
医学统计学全册配套最完整精品课件2_第5页
已阅读5页,还剩772页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学全册配套最完整精品课件2医学统计学

(MedicalStatistics

)

课程设置课时:72学时,4学时/次/周,共18周。教材:《生物医学研究的统计学方法》

方积乾主编,高等教育出版社。注意课后尽快准备计算器与练习簿。计算器要求能够进行统计运算和相关回归运算.上课时间手机请设定在静音或振动状态。授课主要内容绪论

定量及定性资料的统计描述与统计推断统计图表

两变量关联性分析简单线性相关与回归医学科研设计生存分析*流行病学资料分析*统计学软件使用简介*如何学习医学统计学?理解基本的统计学原理培养统计思维能力:抽象的逻辑推理阳性结果是否是虚假联系(如治疗感冒药有效)阴性结果是否真是阴性(也许样本含量小)多练习:课堂认真听讲,课下多做习题***(要求:上课带计算器)联系实际:阅读相关文献联系工作和生活实际统计学发展及有关问题

20世纪20年代,英国统计学家R.A.Fisher爵士(1890-1962)创立了实验设计方法和统计分析技术,奠定现代生物统计的基础。1948年,英国发表了评价链霉素治疗肺结核疗效的随机对照的临床试验报告,第一次采用生物统计方法进行临床干预试验。1948年,郭祖超教授(1912~1999)编著的《医学与生物统计方法》,是我国第一部医学统计方法的教科书。1.实例

遗传学家F.Galton爵士(1822-1911)对上千家庭父亲身高和儿子身高的观察发现遗传的“回归”现象1960年英国医生Doll,Hill等发现吸烟与肺癌有关Regression

释义2.医学论文中的统计学问题60年代到80年代,国外医学杂志调查结果:有统计错误的论文20%~72%。1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。3.伪造统计数据违反科学道德1976年NewScience杂志关于科研舞弊行为的调查⑴74%的调查表反映有不正当修改数据的情况⑵17%拼凑实验结果⑶7%凭空捏造数据⑷2%故意曲解结果qdmcstatistics@126.com密码:qdmc123绪论

一、医学统计学定义

(medicalstatistics)

医学统计学是运用数理统计的原理和方法,研究医学领域中数据的收集、整理与分析的一门应用科学。它是认识医学现象数量特征的重要工具。二、统计学研究的对象统计学所要研究的对象是在性质相同基础上有变异的事物或现象有关概念:同质与变异

同质(homogeneity)

同质是指研究对象被研究指标(变量)的影响因素相同。同质是相对的。在统计学中,同质可以理解为:影响被研究指标较大的、可以控制的主要因素相同或相近,即可视为同质。研究对象的同质是使研究结果反映事物客观规律的基础。

变异(variation)

变异是指由于已知的或未知的多种因素的综合影响,使得看起来同质(即具有可比性)的个体其某项指标值间存在差异。变异使得观察研究或实验研究的结果具有不确定性,但在一定数量观察的基础上,不确定性现象能够呈现事物的规律性。例1调查2013年青岛市7岁男童的身高和体重同质:2013年、青岛市、7岁、男童变异:每位儿童身高和体重各不相同例2研究某降压药的疗效同质:高血压患者、Ⅱ期、某药治疗变异:每例患者疗效各不相同同质的要求与研究目的有关例3:调查某地2012年正常成年女性的糖化血红蛋白(HbA1C)水平研究对象:该地2012年的正常成年女性同质:同一地区、同一年份、同为正常成年人和同为女性构成了研究对象同质的要素。变异:每个人的糖化血红蛋白测量值不相同。例4:调查某地2012年正常成年女子的雌性激素水平。尽管研究对象也是同一地区、同一年份、同为正常成年人和同为女性,由于女性在绝经后的雌性激素水平有较大下降,如果研究者把绝经和未绝经的研究对象混合在一起,并且不加区分,则对于研究雌性激素水平而言,这些研究对象显然是异质的。

三、基本概念例:研究2013年某地7岁男孩身高情况假如该地在2013年的7岁男孩有10万人。普查:调查这10万名儿童,测量每人身高,然后进行统计分析。工作量巨大。随机抽样:如随机抽取1000名儿童,测量身高,通过分析这1000名儿童的身高推断该地10万名7岁男孩身高发育情况。研究目的:了解2013年某地7岁男孩的身高发育情况。研究对象:该地2013年10万名7岁男孩。观察单位(个体):每名7岁男孩。观察指标:又称为变量,身高;身高的测量值(观察值又称为变量取值或变量值)。总体:该地2013年的10万名7岁男孩身高观察值的全体(即:10万个身高观察值构成的一个集合)。这10万名7岁男孩的身高平均数在这个研究中称为身高的总体均数,样本:随机抽样所得到的1000名7岁男孩身高观察值。这1000名7岁男孩的身高平均数在这个抽样研究中称为身高的样本均数。抽样研究的目的:通过样本的信息,了解推断总体的情况。即:通过分析1000名7岁男孩的身高了解10万名7岁男孩身高情况。(一)观察单位(observationunit)根据研究目的所确定的最基本的研究对象单位。根据不同的研究目的,观察单位可以是一个人、一只大白鼠、一个家庭、一个地区、一个检测样品、一个采样点等。例如,观察单位是一个人,则100个观察单位就是100个人;又如观察单位是检测样品,则50个观察单位就是50个检测样品。(二)变量

(variable)对观察单位(即个体:一个人、一个家庭或一个地区等)的某项特征或属性进行观察和测量,所得指标称为变量。观察和测量的结果称为变量值或观察值(valueofvariable)。观察值可以是定量、半定量或定性的.1、定量变量(数值变量)

(numericalvariable)

是指观察单位所具有的变量值是定量的,表现为数值的大小,一般有度量衡单位。如身高、体重、血红蛋白、血压。可分为两类:连续变量,如年龄、身高、体重。离散变量,如住院天数、心率。2、定性变量(分类变量)

(categoricalvariable)

是指观察单位所具有的变量值是定性的,表现为互不相容的类别或属性。如性别、职业、文化程度、疗效。可分为两类:名义变量(无序分类),即分类之间没有顺序、等级、大小关系,类别只代表名称或标签的含义,没有数量的意义,如血型、职业、民族。两项分类,如性别多项分类,如血型、职业、民族等。有序变量(有序分类),即分类之间有一定顺序或分类的排列有程度差别。如文化程度、疾病严重程度等。3、变量的转化不同类型的资料采用不同的统计分析方法。实际应用中,根据分析的需要,各类变量间可以互相转化。如:血红蛋白量(g/L

):疗效:

正常:0

无效:0

重度贫血

好转:1

异常:1

中度贫血控制:2

轻度贫血治愈:3

血红蛋白增高(三)统计资料的类型*定量资料定性资料名义分类(无序分类)变量资料有序分类变量资料1、定量资料又称为数值变量资料,计量资料

对每个观察单位用定量的方法测定某项指标数量的大小所收集的资料观察单位之间只有量的差别,没有质的不同。

如:患者的身高(cm)体重(kg)血压(mmHg)脉搏(次/分)红细胞计数(1012/L)住院天数(天)等。2、定性资料2.1名义分类变量资料又称无序分类变量资料、计数资料将观察单位按照不同性质或类别进行分类,所收集得到的资料。观察单位之间只有质的不同,没有量的差别。

如:肤色(黑、白、黄)血型(ABO)职业(工农兵)性别(男女)民族(56个民族)国籍等。2.2有序分类变量资料

又称等级资料将观察单位按照某种性质或属性的不同程度分类,所收集得到的资料。与无序分类变量资料的不同点为:属性分类有程度的差别,各类别间按不同程度或顺序排列;与定量资料的不同点为:每个观察单位没有进行确切定量。如:

①癌症分期:早、中、晚。

②药物疗效:治愈、好转、无效、死亡。

③尿蛋白:+

+++++及以上住院号年龄身高体重住院天数职业文化程度分娩方式妊娠结局20256552716571.55无中学顺产足月20256532216074.05无小学助产足月20258302515868.06管理员大学顺产足月20225432316169.05无中学剖宫产足月20224662515962.011商业中学剖宫产足月20245352715768.02无小学顺产早产20258342015866.04无中学助产早产20194642415870.53无中学助产足月20257832915457.07干部中学剖宫产足月观察单位observations变量variables定量资料(数值变量资料)定性资料(分类变量资料)Units;elements4.三类资料间关系

例:一组2040岁成年人的血压以12kPa为界分为正常与异常两组,统计每组例数,1kpa=101.972mmHg

<8低血压8

正常血压12

轻度高血压15

中度高血压17

重度高血压数值变量资料无序分类变量资料有序分类变量资料(四)、总体与样本

(populationandsample)

总体(population)

根据研究目的所确定的性质相同的观察单位的全体,即性质相同的所有观察单位某一变量值的集合。总体又可分为:有限总体和无限总体。

样本

(sample)

在抽样研究中,从总体中随机抽取的一部分有代表性的观察单位,称为样本。或从研究的总体中随机抽取一部分有代表性的观察单位的某一变量值的集合。抽样研究的目的是通过样本信息来推论总体特征。

随机化(randomization)为了保证样本的可靠性和代表性,需要采用随机化的抽样方法(在总体中每个观察单位被抽到的机会相等)。(五)参数与统计量

(parameterandstatistic)样本随机抽取部分观察单位

统计量

参数

推断inference总体

参数

(parameter)

在统计学中,把描述总体的统计指标,或描述总体特征的指标称为参数。总体参数一般用希腊字母表示,如总体均数、总体标准差记为μ和σ、总体率记为π等。总体参数一般是未知的,而且是固定不变的。

统计量(statistic)

在抽样研究中,根据样本变量值计算出来的描述样本的统计指标或描述样本特征的指标称为统计量。样本统计量随不同的样本在参数附近随机波动。样本统计量用拉丁字母表示,如样本均数和样本标准差记为、样本率为p等。抽样研究的目的是要由样本统计量来推断总体参数,包括区间估计和假设检验。(六)误差(error)概念误差:一般指实测值与真实值之差、

样本指标与总体指标之差。分类系统误差(非抽样误差):仪器未校正、测量者偏差、标准不统一(偏高或偏低)等引起的误差。偏倚:观察性研究组间不可比引起的系统误差。随机误差(主要是抽样误差):排除系统误差后存在的误差。包括抽样误差和随机测量误差。误差的特点系统误差:有方向性、系统性、周期性,是错误与不足,应避免。通常用准确度描述。随机误差:随机性、无方向性和系统性,无法消除的机会,应减少。通常受精确度限制。抽样误差(samplingerror)从总体中随机抽样时,总体参数与样本统计量或样本统计量与样本统计量之间的差异,称为抽样误差。产生抽样误差的原因是因为总体中的个体之间存在差异。抽样误差是不可避免的,但它有一定的规律性。(七)概率(probability)又称作机率,是对总体而言。反映某随机事件发生可能性大小的指标,称为概率,以符号P表示。P值的取值范围为0≤

P

≤1。随机试验根据研究的目的,在一定的条件下,对某一随机现象所进行的观察或试验。随机现象(不确定性现象):在一定条件下,随机试验可能会出现两种或多种结局,究竟会发生哪种结局,事先是不能确定的称为随机现象。其结果表现为随机事件。随机事件的概率:

0<P

<1。确定性现象:

在一定条件下,一定会发生或一定不会发生某种结局的现象。其结果表现为两种事件:必然事件:肯定发生某种结果,P=1不可能事件:肯定不发生某种结果,P=0必然事件P

=1不可能事件P

=0随机事件0<P

<1当随机事件发生的概率P≤0.05(5%)或P≤0.01(1%)称为小概率事件。含义:当随机现象只重复一次时,统计学上认为该随机事件不大可能发生。小概率事件尽管发生了“挑战者”号爆炸和“哥伦比亚”号解体这样严重的事故,但美国航天飞机从总体看还是非常可靠的。

2005年9月,美国白宫批准NASA提出的用新一代航天运载工具——“乘员探索飞行器”(CEV)替代航天飞机的计划,可使航天飞机的飞行事故发生率从以往的1/220(0.0045)降低为1/2000(0.0005),安全系数比航天飞机提高10倍。

频率

(frequency)

频率是对样本而言,样本中某事物或现象发生的可能性大小称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f

次,则事件A出现的频率为f

/n。频率与概率间的关系:样本频率总是围绕概率上下波动样本含量n越大,波动幅度越小,频率越接近概率。当样本含量n足够大时,常以频率作为概率的估计值。

由上表可以看到频率f呈某种随机性。随着抽样人数n的增大,频率(患病率)f随机波动的幅度越来越小并且趋向常数10%。可以证明:当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向于一个常数,这个常数被称为随机事件A发生的概率(又称为统计学上的概率定义)。四、统计工作基本步骤1.研究设计2.收集资料3.整理资料4.分析资料(一)研究设计设计是后三个步骤的依据,是统计工作中最关键的一步。医学研究有观察研究和实验研究。医学科研设计有调查设计和实验设计。调查设计包括专业设计和统计设计,统计设计应包括数据搜集整理与分析全过程的统计设想和安排;实验设计包括动物实验、临床试验、社区干预试验。应遵循随机、对照、重复、均衡的原则。(二)资料的搜集目的:取得准确可靠的原始资料要求:原始数据准确、完整、及时。医学统计资料的主要来源:1.常规保存记录,报告卡(单)报告卡2.实验记录3.专题调查调查表

(三)

4.其它,如统计报表,公开发表的有关数据;(二)(三)资料的整理目的:是使原始资料系统化、条理化,便于进一步计算和分析方法:1.检查、核对、纠错

2.设计分组

3.设计整理表,归纳汇总整理表

某医院2001年住院病人5类疾病的死亡情况疾病种类死亡人数百分比(%)恶性肿瘤5033.33呼吸系统疾病3020.00消化系统疾病2013.33循环系统疾病4026.67传染病106.67合计150100.00四、资料的分析

按设计的要求,根据研究目的和资料的类型,对整理的基础数据作进一步的统计计算和分析处理,并用适当的统计图表表达出来,最后结合专业做出结论。1.某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高也大于乙班?为什么?2.用A,B两种药物分别治疗一批患者。如果A药的治愈率高于B药,证明A药的疗效优于B药。这种说法对吗?为什么?思考题qdmcstatistics@126.com密码:qdmc1232统计描述青岛大学医学院公共卫生学院流行病与卫生统计学教研室姜秀波定量资料的统计分析

定量资料的统计描述

定量资料的统计推断

集中趋势指标离散趋势指标总体均数的估计假设检验2.1定量资料的统计描述主要内容频数分布表集中趋势指标离散趋势指标定量资料的

频数/频率分布表

(frequencydistributiontable)步骤频数:将定量资料的变量值按大小进行分组,则某组段内所包含的变量值的个数称为频数,以f表示。频率是某组段频数在总例数中所占的百分比。频数表(/频率表):表示各组段及其对应的频数(/频率)的表格称为频数表或频数分布表。频数分布表格步骤编制频数表的步骤1.求全距(R)。R=最大值-最小值=84.3-64.3=20(g/L)2.确定组数和组距。频数表

一般设8-15组。各组段的起点和终点分别称为下限和上限。

组距为相邻两组段的下限差。组距i=R/组数≈R/10.

本例i=20/10=2(g/L)3.确定组段值。原始数据表

第一组段应包含最小值,最末组段应包含最大值并写出其下限和上限值。4.列出频数表。采用划记法或计算机汇总。频数表频数表的概念编制频数表的意义:1.由频数表可以看出频数分布的两个重要特征:集中趋势和离散趋势。2.可以根据频数分布的不同类型,选择适当的统计方法,进行计算与分析。频数分布的两个特征:①集中趋势:变量值集中位置。②离散(/中)趋势:变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。频数分布的类型:

对称分布例题直方图

偏态分布(集中位置偏向小的一侧叫正偏态,偏向大的一侧叫负偏态)。偏态分布图示曲线下面积的含义频数表的用途:1.揭示资料的分布特征和分布类型;2.发现特大值和特小值;3.由组中值近似代表原始数据,便于手工计算集中趋势指标与离散趋势指标。集中趋势指标(centraltendency)平均数(average)定义:描述一组性质相同的定量观察值的集中趋势、中心位置或平均水平的指标。平均数是一组定量数据典型的或有代表性的值。常用平均数的种类算术均数中位数几何均数众数*调和均数*一、算术均数

(arithmeticmean)

算术均数简称为均数(mean)1.适用资料:适用于正态分布或近似正态分布资料。2.符号:样本均数,总体均数μ。3.计算:(1)不分组资料的均数计算法(2)分组资料的均数计算法编制频数分布表

注意:合理分组才能求均数,否则没有意义。利用加权法计算均数二、中位数和百分位数(一)中位数(median)

1.定义:把一组观察值按从小到大的顺序排列,位次居中的那个观察值称中位数。2.适用资料:⑴偏态分布资料;⑵资料分布的末端无确切数据的开口资料;⑶分布类型不清的资料。3.符号:用M

表示。中位数是一个特定的百分位数P50。4.计算:

⑴未分组资料

n为奇数时,

n为偶数时,

⑵分组资料

表格164名食物中毒者潜伏期百分位数计算

潜伏期(h)频数f累积频数(n)累积频率(%)

(1)(2)(3)(4)=(3)/n0~252515.212~588350.624~4012375.036~2314689.048~1215896.360~516399.472~841164100.0公式(二)百分位数(percentile)

1.定义:把n个变量值从小到大依次排列,再把它分成100等份,对应于x%位的变量值称为第x百分位数。2.符号:以Px表示。3.意义:百分位数也是一种常用来描述计量资料特征的统计指标。一个百分位数将总体或样本的全部变量值分为两部分,理论上有x%的变量值比它小,有(100%-x%)的变量值比它大。但样本含量过少,计算的百分位数误差较大,不稳定,宜慎用。4.应用:

⑴常用以描述一组资料在某百分位置上的变量值水平。⑵确定偏态分布资料的医学正常值范围。5.计算:

164名食物中毒者潜伏期百分位数计算

潜伏期(h)频数f累积频数(n)累积频率(%)

(1)(2)(3)(4)=(3)/n0~252515.212~588350.624~4012375.036~2314689.048~1215896.360~516399.472~841164100.0公式三、几何均数

(geometricmean)

1.意义:n个数值的乘积开n次方即为这n

个数的几何均数。

2.适用资料:⑴等比级数资料;⑵对数正态分布资料。3.符号:用G

表示4.计算:(1)不分组资料(直接法)(2)分组资料课本例题G=lg-1(1.9698)=91.41应用几何均数注意事项

1、几何均数常用于等比级数资料,如抗体平均滴度和药物平均效价、卫生事业平均发展速度、人口的几何增长等,或用于对数正态分布资料;2、观察值不能有0,因为0不能取对数,不能与任何其它数值呈倍数关系;3、观察值不能同时有正值和负值。若全是负值,计算时可把负号去掉,得出结果后再加上负号。离散(/中)趋势指标

(tendencyofdispersion)描述一组定量数据参差不齐的变异程度的指标姚明229CM蒂尼-博格斯160CM

身高差距69CM平均194.5CM马努特-波尔231CM蒂尼-博格斯160CM

身高差距71CM平均195.5CM常用离散趋势指标全距(极差)四分位数间距方差、标准差变异系数一、全距(range)1.符号:R2.计算:R=最大值-最小值3.优点:简单明了4.缺点:不能反映组内所有数据的变异度,并易受个别特大或特小值的影响。样本含量越大,其抽样误差越大。例:三组同性别、同年龄儿童的体重(Kg)如下,分析其集中趋势与离散趋势。甲组2628303234乙组2427303336丙组2629303134R甲=8,R乙=12,R丙=8二、四分位数间距quartileinterval

1.适用资料:⑴偏态分布资料⑵资料分布的末端无确切数据的开口资料2.符号:Q3.计算:Q=Qu-QL=P75-P25,Qu上四分位数,QL下四分位数4.意义:即其间包含了一半的变量值。此间距越大,变量值的离散程度越大。5.优缺点:比极差稳定,但仍未考虑到每个观察值的变异度。三、方差(variance)

标准差(standarddeviation)

1.适用资料:正态分布或近似正态分布资料。2.符号:样本S/S2,总体σ/σ2。3.计算:离均差离均差的和离均差的平方离均差的平方和变量值的平方的和变量值和的平方4.计算:⑴不分组资料S=10.61(g/L)(1)不分组资料(n较小)

(2)分组资料(n较大)f表示频数S=3.91(g/L)4.意义:

全面反映了一组观察值的变异程度。两组或多组定量资料进行比较时,在各组均数相近,度量衡单位相同的条件下:标准差小,说明变量值围绕均数分布越集中,变异度小;标准差大,说明变量值围绕均数分布越离散,变异度大。5.标准差的应用⑴表示变量值的离散程度。①标准差可以描述正态分布资料的离散趋势或变异程度及样本均数的代表性,文献中表示为:或

②结合均数计算变异系数:

⑵可以概括地估计变量值的频数分布;⑶应用于求正常值范围。标准差与均数相结合,按照正态分布的规律性,制定医学正常值范围,如95%正常值范围:双侧:,单侧:⑷计算均数的标准误。四.变异系数coefficientofvariation

1.适用资料:正态分布或近似正态分布资料2.符号:CV3.用途:比较两组或多组资料变异程度大小。4.应用:⑴比较度量衡单位(量纲)不同的变量之间的变异程度;⑵比较度量衡单位相同但均数相差悬殊的变量之间的变异程度;5.计算:定性资料的统计描述青岛大学医学院公共卫生学院流行病与卫生统计学教研室姜秀波相关概念定性变量定性资料是指将观察单位按照某种属性或类别进行分组计数所收集的资料。根据变量类别之间是否有顺序、等级、大小关系,分为无序分类变量(名义变量)资料和有序分类变量资料(等级资料)。定性资料常见的数据形式是绝对数。绝对数:调查研究和实验研究得到的定性资料经过整理后,清点各类别的观察单位数而得到的数值。如某病的出院人数、治愈人数、死亡人数等。绝对数反映一定条件下某种事物的规模或水平,是计划或总结工作的依据。绝对数通常不具有可比性。因此需要在绝对数的基础上计算相对数。例:调查得,某年小学生中流脑发病:

甲地区63例,乙地区35例。

甲地区流脑流行比乙地区严重()如已知小学生总人数:甲地区50051人,乙地区14338人,可算出两个发病率:

甲地区流脑发病率:63/50051×1000‰=1.26‰乙地区流脑发病率:35/14338×1000‰=2.44‰

乙地区流脑流行比甲地区严重()一、定性资料的频数分布

某医院2001年住院病人5类疾病的死亡情况疾病种类死亡人数百分比(%)恶性肿瘤5033.33呼吸系统疾病3020.00消化系统疾病2013.33循环系统疾病4026.67传染病106.67合计150100.00疾病种类—无序分类变量针刺合谷治疗胃痛的效果

疗效例数百分比(%)

治愈5960.82

有效2323.71

无效1515.46

合计97100.00疗效—有序分类变量60.82%23.71%15.46%二、定性资料的描述性指标——相对数(Relativenumber)相对数:两个有联系的指标(数值)之比常用的相对数指标

大致有三种类型:频率(relativefrequencyorproportion)强度(intensityorrate)相对比(relativeratio)主要内容1.分类资料的描述—频率和频率分布2.人时资料的描述—强度3.复合指标—相对比4.相对数应用中需注意的问题*注意指标计算时分子和分母的含义1.分类资料的描述—频率和频率分布1.1二分类资料的描述—频率

当事物只有两种可能的结局时,常用频率来描述结局的规律性。如存活与死亡、患病与未患病、阳性与阴性等。

频率型指标是最常见的,通常近似地反映某一事件出现的机会大小,如发病概率、死亡概率等。注意:分子是分母的一部分;分子分母量纲相同;比例无量纲,取值在[0,1];K是比例基数,如100%,也可取为1000‰、1万/1万和10万/10万等。习惯上保证计算结果的分子有1-2位整数。例:某妇产科医生记录了1402名临产母亲的妊娠情况,结果足月产者1148例。

proportion阳性率的本质是频率,它是对总体中阳性事件发生概率的估计。1.2多分类资料的描述—频率分布当事物有多于两种可能的结局时,常用频率分布(即构成比)来描述结局的规律性。特点:⑴各结局的频率总和等于100%。⑵某一结局的频率变化必然导致其它部分的相应变化。设某事物结局为A、B、C、D、…,其观察单位数分别为n1,n2,…,nk,计算出现某一种结局的频率(构成比):…………白细胞分类计数正常值范围白细胞分类正常值(×109/L)百分比(%)中性粒细胞杆状核0.04-0.51-5

分叶核2-750-70嗜酸粒细胞0.05-0.50.5-5.0嗜碱粒细胞0-0.10-1淋巴细胞0.2-0.420-40单核细胞0.08-0.83-8合计4-10100.00某医院2001年住院病人5类疾病的死亡情况疾病种类死亡人数频率(%)恶性肿瘤5033.33呼吸系统疾病3020.00消化系统疾病2013.33循环系统疾病4026.67传染病106.67合计150100.002.人时资料的描述—强度流行病学随访研究中,不同个体被观察的时间长度经常各不相同,因此常用人时数总和表示被观察的人和时间的总和。强度是流行病学、统计学术语。指单位时间内(如年、月、日等)某事件发生的频率。强度型指标通常是指一段时间内的平均概率。如人时发病率的分子是新发生的事件数,分母是人时数(观察人数乘以单位时间个数)的总和,多用于大人群长时间随访的资料。例1在某医院的院内感染调查中,5031名病人共观察了127859人日(例均25.4日),其中有596人在医院发生感染,请计算院内感染率。平均每天有0.47%的病人在医院发生感染。例2某医院对同一疾病开展甲、乙两种手术治疗,分别随机抽取100名患者评价复发率。已知手术完成时间各不相同,而未复发患者的最后随访时间均为2006年1月1日。限于篇幅,在下表中仅给出部分数据,以说明此类资料的统计描述方法。两种手术方案的复发率比较(部分数据)方案手术完成时间复发情况复发前被观察人年数

甲1990-1-12005-1-1复发15.01991-7-1未复发14.51996-1-1未复发10.0

合计——

39.5

乙1994-1-11995-1-1复发1.02004-1-1未复发2.02004-7-1未复发1.5

合计——

4.5甲方案:1/39.5×100%=2.53%/年乙方案:1/4.5×100%=22.22%/年3.复合指标—相对比(ratio)概念:是两个有关联的变量A与B之比,它表示相对于B的一个(或十个、百个、千个等)单位,A有多少个单位。表现为A是B的若干倍或几分之几。ratioA和B可以是绝对数、平均数,也可以是相对数A和B的量纲可以相同,也可以不同A和B彼此分离,互不重叠或包含如:人口出生性别比;每千人口拥有的医生数、每千人口的病床数、每名医生的门诊工作量、变异系数等。人口出生性别比国际上一般以每出生100个女婴相对应出生的男婴人数来表示。一般在102~107之间。

我国1981年第3次人口普查是108;1989年第4次人口普查是112;2000年第5次人口普查高达116,在2008年甚至达到120.56的最高值,2012年出生人口性别比为117.7,远超国际认同的可以容忍的最高警戒线107。2.2.4相对数应用中需注意的问题1)分母数据一般不宜过小2)防止概念混淆3)正确合并估计频率(或强度)型指标4)相对数进行比较应注意可比性统计图表人口统计指标请问该说法是否正确?例:某医生治疗了4例支气管哮喘病患者,其中3例有效,即报告有效率为75。goback某医院统计1985-1990年儿科住院病人疾病种类分布情况见表:

疾病种类

病人数

%先天性心脏病25023.8风湿性心脏病75071.4其它504.7表某医院儿科住院病人疾病种类分布情况结论:我国少年儿童(18岁以下)的风湿性心脏病发病率约为71.4%。某社区高血压防治干预试验(5年)前后死亡原因变化表

死亡原因

干预前

干预后充血性心力衰竭23.24.3脑血管病39.623.2尿毒症12.29.8冠状动脉病和心脏病猝死17.148.7其它死因7.914.0合计100.0100.0有人据此提出干预试验虽然可以降低充血性心力衰竭等的死亡率,但却增高了冠状动脉病和心脏病猝死的死亡率。某市1980年和1990年五种传染病发病情况病种1980年1990年病例数%病例数

%痢疾360449.39203237.92肝炎120316.49114321.33流脑6989.5654210.11麻疹89012.2076714.31腮腺炎90212.3687516.33合计7297100.005359100.00有人据此得出1990年和1980年相比,痢疾发病下降,肝炎发病上升最明显的结论。goback例某病两种疗法的治愈率(%)比较的资料如表某病两种疗法的治愈率(%)比较

西医疗法组

中西医结合疗法组病例数治愈数治愈率(%)

病例数治愈数治愈率(%)普通型603660201365重型20840602745爆发型2042020525合计10048481004545goback()()例:某班有男生50人,女生20人,男生英语四级通过率为80%,女生四级通过率为100%,请问该班四级通过率为多少?答案1:90%。答案2:85.7%goback1.观察对象是否同质,研究方法(如检测手段、抽样方法)是否相同,观察的时间是否一致等。2.其他在专业上认为有意义的影响因素应接近均衡。相对数进行比较应注意可比性某病两种疗法的治愈率(%)的比较统计图表

西医疗法组

中西医结合疗法组病例数治愈数治愈率(%)

病例数治愈数治愈率(%)普通型603660201365重型20840602745爆发型2042020525合计10048481004545两种疗法的病人在疾病类型的频率分布上不一致,采用率的标准化法可消除和控制疾病类型对结果的影响。一、医学人口统计常用指标频率型指标相对比型指标人口老龄化的具体标准:

国际上通常把60岁以上的人口占总人口比例达到10%,或65岁以上人口占总人口的比重达到7%作为国家或地区是否进入老龄化社会的标准。

实践中,因为一年中不断有人去世,又不断有人出生,分母的精确值很难得到。假定当年每位去世者平均活了半年,每位出生者也平均活了半年,则粗死亡率可近似地写成强度型指标(近似)频率型指标近似相对比型指标强度型指标(近似)频率型指标二、疾病统计常用指标频率型指标频率型指标强度型指标(近似)发病率(incidencerate,IR)表示一定时期内,在可能发生某病的一定人群中新发生某病的强度。患病率(prevalencerate,PR)又称为现患率,指某时点上受检人数中现患某种疾病的频率。患病率分为时点患病率(pointprevalencerate)和期间患病率(periodprevalencerate)。治愈率(curerate)表示受治病人中治愈的频率。有效率表示受治病人中治疗有效的频率。生存率(survivalrate):指病人能活到某一时点的概率。疾病统计常用指标指标分子分母基数类型某病发病率时期内新发生的某病病例数年平均人口数×1年10万/10万强度型(近似)时点患病率时点现患疾病人数检查人口数10万/10万频率型期间患病率时期现患疾病人数检查人口数10万/10万频率型治愈率治愈人数接受治疗人数100%频率型生存率活满特定时期的人数期初存活人数100%频率型残疾患病率残疾患者人数检查人数100%频率型三、动态数列

动态数列,按照一定的时间顺序,将一系列描述某事物的统计指标依次排列起来,就可以观察和比较事物在时间上的变化和发展趋势,这些统计指标可以为绝对数、相对数或平均数。相对比指标年份指标符号年末床位数绝对增长量发展速度%增长速度%累计逐年定基环比定基环比1990a05420——————1991a15608188188103.41992a25766346158106.41993a35886466120108.61994a45991571105110.5101.710.51.71995a56284864293115.9104.915.94.91996a666091189325121.91997a769551535346128.3105.328.35.31998a873521932397135.6105.735.65.7某地1990~1998年床位发展动态(一)绝对增长量1、累计增长量,即报告年的指标与某一固定水平(基期水平)指标值差。累计增长量=an-a02、逐年增长量,即报告年的指标与前一年指标之差。逐年增长量=an-an-1(二)发展速度与增长速度1、定基发展速度,即用报告期指标与某一时期(固定为基期)指标之比。2、环比发展速度,即用报告期的指标与其上一期指标之比。年份指标符号年末床位数绝对增长量发展速度%增长速度%累计逐年定基环比定基环比1990a05420——————1991a15608188188103.41992a25766346158106.41993a35886466120108.61994a45991571105110.5101.710.51.71995a56284864293115.9104.915.94.91996a666091189325121.91997a769551535346128.3105.328.35.31998a873521932397135.6105.735.65.7某地1990~1998年床位发展动态2014年2月70城房价环比:9城市停止上涨

,4城市开始下跌。新建商品住宅价格变动情况:

(一)与上月相比,70个大中城市中,价格下降的城市有4个,持平的城市有9个,上涨的城市有57个。环比价格变动中,最高涨幅为0.7%,最低为下降0.2%。

(二)与去年同月相比,70个大中城市中,价格下降的城市有1个,上涨的城市有69个。2月份,同比价格变动中,最高涨幅为18.7%,最低为下降4.1%。2014年2月70个大中城市新建住宅价格指数注:环比以上月价格为100,同比以去年同月价格为100,定基以2010年价格为100。(三)、平均发展速度和平均增长速度平均发展速度是各环比增长速度的几何平均数,说明某事物在一个较长的时期中逐年平均增长的程度。1、某医院某年住院病人中胃癌患者占5%,则_______。A.5%是强度指标B.5%是频率指标C.5%是相对比指标D.5%是绝对数2、计算麻疹疫苗接种后血清检查的阳性率,分母为_______。A.麻疹易感人群B.麻疹患者数C.麻疹疫苗接种人数D.麻疹疫苗接种后的阴性人数3、某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为_________。A.该病男性易得B.该病女性易得C.根据该资料可计算出男女性的发病人数D.尚不能得出结论4、定基比与环比的指标是_______。A.构成比B.平均数C.频率D.相对比5、一项新的治疗方法可延长病人的生命,但不能治愈该病,则最有可能发生的情况是_______。A.该病的患病率增加B.该病的患病率减少C.该病的发病率增加D.该病的发病率减少统计图表统计表(statisticaltable)是把统计分析结果中数据和统计指标用表格列出。统计图(statisticalgraph)

统计图是用点的位置、线段的升降、直条的长短或面积的大小等来表达统计资料的一种形式。统计表一、统计表的意义与制作原则1.统计表的意义

统计表用简明的表格形式,替代某些文字叙述,便于计算和分析。2.制表原则:重点突出、层次清楚3.统计表的结构标题标目线条数字注释或备注

某医院2001年住院病人5类疾病的死亡情况疾病种类死亡人数频率(%)恶性肿瘤5033.33呼吸系统疾病3020.00消化系统疾病2013.33循环系统疾病4026.67传染病106.67合计150100.00标题横标目纵标目4.制表的基本要求(1)标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。(2)标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。横标目相当于句子的主语部分:被说明的对象,列在表的左侧。纵标目相当于句子的谓语部分:用以阐述主语具备的特征。列在表的右侧。(3)线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。(4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。(5)备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。二、统计表的分类简单表:按研究对象的单一特征分组。复合表:按研究对象的两个或以上特征结合起来分组。

某医院2001年住院病人5类疾病的死亡情况疾病种类死亡人数频率(%)恶性肿瘤5033.33呼吸系统疾病3020.00消化系统疾病2013.33循环系统疾病4026.67传染病106.67合计150100.00简单表某病两种疗法的治愈率(%)比较疾病分型

西医疗法组

中西医结合疗法组病例数治愈数治愈率(%)

病例数治愈数治愈率(%)普通型603660201365重型20840602745爆发型2042020525合计10048481004545复合表复合表是将疾病分型和治疗方法两个特征结合起来分组。统计图1.统计图的意义:

将统计数据形象化,把资料所反映的趋势、多少、分布、动态和现象之间的数量关系等形象地表现出来,易于做分析比较。2.统计图的选择:根据资料类型和统计分析目的不同,需要用不同的统计图表达数据和统计指标值。常用的统计图有直条图、直方图、百分比条图和圆图、线图、散点图和统计地图等,还有在数据探索性分析中应用的茎叶图、残差图、箱式图,序贯分析的检验区域图,判别分析的类别分布图,聚类分析的谱系图等特殊分析图等。3.统计图制作的一般原则

(1)根据资料性质和分析目的正确选用适当的统计图。(2)必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题一般放在图的下方。(3)统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即原点处定为0。纵横轴的比例一般以5:7为宜。(4)统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置。二、常用统计图1.直条图(barchart)

2.圆图(piechart)

百分比条图(percentbarchart)

3.线图(linegraph)

4.直方图(histogram)

5.统计地图(statisticalmap)

6.其他特殊分析图

箱式图(boxplot)

茎叶图(stem-leafplot)1.直条图(barchart)用相同宽度的直条长短表示相互独立的不同类别间某统计指标值的大小。直条图按研究对象的分组特征分单式和复式两种。

例图1显示某地某年主要死因死亡率(纵标目)资料,主要死因是相互独立的不同类别(横标目),因此用直条图。该图只按死因分类,为单式直条图。图1某年某地主要死因的死亡率(/10万)

直条图的纵轴尺度起点必须为零示意图2.圆图和百分比条图适合于描述定性变量的频率分布资料。圆图(piechart)是以圆形总面积作为100%,将其分割成若干个不同面积的扇面表示事物各类别的频率。百分比条图(percentbarchart)是以矩形总长度作为100%,将其分割成不同长度的段表示各类别的频率。例某年某地进行婴儿死亡原因的调查,根据城市婴儿死因的构成资料绘制成图3。

从图3可见出生窒息是婴儿死亡的首位死因,出生窒息、早产和肺炎前三位死因占总死亡的60.3%,是婴儿死亡防治的重点。

图3

某年某地城市婴儿死因构成比

(%)

例图4是根据某地20世纪70年代和80年代恶性肿瘤发病登记资料绘制成的百分比条图。由图4可见不同年代主要恶性肿瘤频率分布中,鼻咽癌和肝癌频率减少,肺癌明显增加。

百分比条图特别适合作多个频率分布的比较,将不同组别,不同时间或不同地区的某分类指标的频率分布平行地绘制成多个百分比条图,可以方便地比较其各部分的频率的差异。

图420世纪70、80年代某地7种常见恶性肿瘤发病构成比较3.线图(linegraph)线图是用线段的升降来表示数值的变化。适合于描述某变量随着另一连续性数值变量变化的趋势,最常用于描述变量随时间而变化的趋势。

普通线图:横轴和纵轴都是算术尺度。

半对数线图:横轴是算术尺度,纵轴是对数尺度,特别适宜作不同指标变化速度的比较。

例图5是根据1990~2000年某沿海城市甲状腺功能亢进(甲亢)发病率资料绘制的普通线图。图5可看出在1995年开始食盐加碘后,甲亢发病率有一突增高峰,1999年以后又逐渐下降的趋势。图51990~2000年某沿海城市甲状腺功能亢进发病率变化趋势

123lgYlg1=0,lg2=0.30,lg3=0.48,lg4=0.60,lg5=0.70,…XY=5X2Y‵=lgY150.6989702201.3010303451.6532134601.90309051252.09691061802.25527372452.38916683202.50515094052.607455105002.698970051015202530100004100031002

10190.9580.9070.85

60.7850.70

40.6030.4820.30

10.00算术尺度对数尺度例调查某地1997年~2001年两种与性传播有关疾病—艾滋病和梅毒的发病率变化趋势,资料分别绘制成普通线图和半对数线图。

普通线图显示梅毒的增长幅度较大,

半对数线图则显示艾滋病的增长速度更快。图61997~2001年某地艾滋病和梅毒发病率的变化趋势

(a)纵轴为算术尺度(b)纵轴为对数尺度两者的区别:普通线图:横、纵坐标均为算术尺度。在某两个不同的时间段上,若终点相对于起点的“绝对改变量”相同,则图形上表现为相同的增幅(或减幅),直观呈现的是数量变化的态势;半对数线图:横坐标为算术尺度(如时间),纵坐标的指标值(如发病率、病死率等)则进行对数转换——即对数尺度,在某两个不同时间段上,如果终点相对于起点的“相对改变量”相同,则半对数线图上表现为相同的增幅(或减幅),所以半对数线图适用于呈现事物发展变化的速度。如:以两个观察指标A和B变化速度的比较为例在某一时间段当指标A发生100→1000的变化、指标B发生10→100的变化时,“绝对增长量”分别是900和90,相差较远;“相对增长量”却都是10倍于起点水平。显然,变化速度的比较所注重的正是“相对增长量”。

绝对差与对数差的比较

A/B绝对差相对比对数差(A-B)(A/B)(lgA-lgB)

1000→10090010lg1000-lg100=3-2=1

100→109010lg100-lg10=2-1=1

10→1910lg10-lg1=1-0=1三组数据绘制在算术(a)和半对数(b)格纸上的线图比较注意:普通线图的纵轴一般以0点作起点,否则需作特殊标记或说明,以防给读者错误印象。标记直线的连接点时要注意,如测定值是在某时间段或数值段的,应标记在段的中点;如测定值是在某时点或确定值的,标记在相应时点或数值上。

4.直方图(histogram)适合表示定量变量的频数(或频率)分布资料。以直方面积描述各组频数的多少,面积的总和相当于各组频数之和。直方图的横轴是定量变量,纵轴是频数。注意当各组的组距不等时,要折合成等距后再绘图,即将频数除以组距得到单位组距的频数作为直方的高度,组距为直方的宽度。其面积的总和为观察单位总数。

另一种表示数值变量资料频数分布的方式是将各组段观察频数除以总观察频数得到各组段的频率,以各组段频率除以组距得到的频率密度(单位组距的频率)作为直方图高度,绘制的直方图称为频率直方图,它以各直方面积表示各组频率,其面积的总和为1或100%

。例

1997年某地共报告乙型病毒性脑炎104例,其年龄分布如图7。图71997年某地乙型病毒性脑膜炎病例的年龄分布

5.统计地图(statisticalmap)

统计地图是用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。例

2003年广东省发生了某急性传染病的流行,下图描述了该急性传染病发病数在广东省的分布情况。图8 2003年广东省某急性传染病发病数的地理分布图例中括号内是发生相同病例数的行政区频数,其余指数据缺失的行政区6.其他特殊分析图

在探索性数据分析中,一些特殊的统计图对于发现数据分布特征有着重要的意义。这里介绍常用的箱式图、茎叶图。箱式图(boxplot)

使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。

显然箱子越长,数据变异程度越大。中间横线在箱子中点表明分布对称,否则不对称。

四分位数间距IQRP75P25P50本体最大值本体最小值离群值(>P75+1.5IQR)极值(>P75+3IQR)体重(kg)病人年龄

例某地调查不同类型化妆品厂车间内粉尘数,结果绘制成图9。图9中显示粉尘数的分布呈偏态分布.净化厂粉尘数较少,非净化厂粉尘数较多。图9某地不同类型化妆品厂车间粉尘数分布箱式图

茎叶图(stem-leafplot)

将数据分离成两部分:整数部分和尾数部分,整数部分形成图的茎,尾数部分形成图的叶。茎叶图排列方式与频数表有些相似,每行由一个整数的茎和若干叶构成。左边是茎的数值,茎宽一般标在图的下方。右边是叶,图显示每个叶的尾数数值,同样在图的下方标示每个叶代表几个实际观察值。茎叶图可以非常直观地显示数据的分布范围和形态,近年非常流行。例绘制茎叶图10。图中茎的宽度为1,即观察值的整数位。每个叶代表1个观察值,显示的尾数即观察值的第一位小数。从图可以看出血清总胆固醇的分布范围从2.3到5.7,基本近似正态分布。而且可以查看每个观察值的取值情况。Stem:实际观察值除以茎宽后的整数部分。Leaf:实际观察值除以茎宽后的小数部分。&:残叶

Stem:实际观察值除以茎宽后的整数部分。Leaf:实际观察值除以茎宽后的小数部分。&:残叶Extremes:极端值,计算方式同箱图

常用统计图适用资料及实施方法

图形

适用资料

实施方法条图组间数量对比直条高度表示数量大小直方图定量资料的频数分布直条的面积表示各组段的频率百分条图频率分布直条分段的长度表示各部分的频率饼图频率分布圆饼的扇形面积(或其张角)表示各部分的频率线图定量资料变动的增量采用横坐标和纵坐标均为算术尺度的坐标系半对数线图定量资料变动的倍数采用横坐标为算术尺度、纵坐标为对数尺度的坐标系箱式图定量资料的分布用箱体、线条标志四分位数间距及中位数、全距茎叶图定量资料的分布用茎表示组段的设置,叶片为个体值,叶长为频数案例分析案例2-2某人编制了一张统计表,你认为哪些需要改进?疾病

年龄组0~15~35~55~75~胃癌无1.13/10万19.92/10万150/10万313.44/10万食管癌无0.1/10万2.18/10万35.20/10万73.56/10万肝癌0.34/10万1.64/10万25.30/10万97.51/10万

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论