人群健康研究的统计方法培训讲义_第1页
人群健康研究的统计方法培训讲义_第2页
人群健康研究的统计方法培训讲义_第3页
人群健康研究的统计方法培训讲义_第4页
人群健康研究的统计方法培训讲义_第5页
已阅读5页,还剩112页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本资料起源人群健康研究的统计方法培训讲义第1页人群健康研究统计方法第四军医大学卫生统计学教研室张玉海人群健康研究的统计方法培训讲义第2页第七章医学统计学基本

概念和步骤

人群健康研究的统计方法培训讲义第3页一、统计学基本概念

1.总体与样本2.同质与变异3.参数与统计量4.误差5.概率与频率人群健康研究的统计方法培训讲义第4页1.总体与样本总体:依据研究目标而确定同质观察单位全体。样本:从总体中抽取部分观察单位。人群健康研究的统计方法培训讲义第5页随机抽样randomsampling为了确保样本可靠性和代表性,需要采取随机抽样方法(在总体中每个个体含有相同机会被抽到)。人群健康研究的统计方法培训讲义第6页2.同质与变异同质:除了试验原因外,影响被研究指标非试验原因相同被称为同质。变异:在同质基础上被观察个体之间差异被称为变异。人群健康研究的统计方法培训讲义第7页3、参数与统计量parameterandstatistic参数:总体统计指标,如总体均数、标准差,采取希腊字母分别记为μ、σ。是固定常数。

总体样本抽取部分观察单位

统计量

参数

推断inference统计量:样本统计指标,如样本均数、标准差,采取拉丁字母分别记为。在参数附近波动随机变量。人群健康研究的统计方法培训讲义第8页4、误差(error)误差:实际观察值与客观真实值之差(1)系统误差(2)随机误差人群健康研究的统计方法培训讲义第9页

90mmhg。。。。。。85真值血压计测定值系统误差。。。。。。随机误差和系统误差随机误差人群健康研究的统计方法培训讲义第10页概率:随机事件发生可能性大小,用大写P表示;取值[0,1]。频率:样本实际发生率称为频率。频率与概率间关系:样本频率总是围绕概率上下波动样本含量n越大,波动幅度越小,频率越靠近概率。5、概率与频率人群健康研究的统计方法培训讲义第11页二、数据类型1.计量资料用仪器、工具等测量方法取得数据

2.计数资料按某种属性分类,然后清点每类数据。也叫定性数据

3.等级资料半定性或半定量观察结果。有大小次序,所以也叫有序分类资料(ordinalcategorydata)。

①癌症分期:早、中、晚。

②药品疗效:治愈、好转、无效、死亡。

③尿蛋白:,,++,+++及以上人群健康研究的统计方法培训讲义第12页三类资料间关系

例:一组2040岁成年人血压值以12kPa为界分为正常与异常两组,统计每组例数

<8低血压

8

正常血压

12

轻度高血压

15

中度高血压

17

重度高血压计量资料等级资料计数资料人群健康研究的统计方法培训讲义第13页实例数据人群健康研究的统计方法培训讲义第14页第八章数值变量资料

统计描述人群健康研究的统计方法培训讲义第15页一、计量资料统计描述

平均指标(算术均数、几何均数、中位数)变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)人群健康研究的统计方法培训讲义第16页1、平均指标1.算术均数(mean):适用条件:资料呈对称分布,普通用于正态或近似正态分布。2.

几何均数(geometricmean)。适用条件:呈倍数关系等比资料或对数正态分布资料。3.

中位数

(median)。适用条件:适合各种类型资料。尤其适合于①大样本偏态分布资料;②资料有不确定数值;③资料分布不明等。人群健康研究的统计方法培训讲义第17页2.变异指标

反应数据离散程度。即个体观察值变异程度。

1.极差

(全距)

2.四分位数间距

3.方差

Variance

4.标准差StandardDeviation

5.变异系数CV人群健康研究的统计方法培训讲义第18页变异指标小结1.极差较粗糙,适合于任何分布2.标准差最惯用,适合于正态或近似正态分布3.变异系数主要用于单位不一样或均数相差悬殊资料4.平均指标和变异指标分别反应资料不一样特征,

常配套使用如正态分布:均数±标准差偏态分布:中位数(四分位间距)人群健康研究的统计方法培训讲义第19页图形特点:钟型(中间高,两头低,左右对称,以X轴为渐进线)最高处对应于X轴值就是均数两个参数:位置参数和形态参数。曲线下面积恒为1或100%。二、正态分布人群健康研究的统计方法培训讲义第20页1.意义:医学参考值是指包含绝大多数正常人人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。因为存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采取医学参考值范围(medicalreferencerange)作为判定正常和异常参考标准,但不是“金标准”。三、医学参考值范围制订人群健康研究的统计方法培训讲义第21页双侧:血清总胆固醇不论过低或过高均属异常白细胞数不论过低或过高均属异常单侧上限:如:血清转氨酶、体内有毒物质过高异常单侧下限:如:肺活量过低异常

单双侧常依据医学专业知识而定。2.单、双侧问题:人群健康研究的统计方法培训讲义第22页

3.医学参考值范围有90%、95%、99%等,最惯用为95%。计算医学参考值范围惯用方法:

1.正态分布法

2.百分位数法人群健康研究的统计方法培训讲义第23页第九章数值变量资料

统计推断人群健康研究的统计方法培训讲义第24页一、均数抽样误差与标准误总体样本抽取部分观察单位

统计量

参数

统计推断如:样本均数样本标准差S

如:总体均数总体标准差

抽样误差(samplingerror):因为个体变异产生、抽样造成样本统计量与总体参数间差异,称为抽样误差。人群健康研究的统计方法培训讲义第25页1.标准误(standarderror,SE)统计量标准差称为标准误,是衡量样本统计量抽样误差大小统计指标。均数标准误:样本均数标准差称为均数标准误,它用来说明均数抽样误差大小。人群健康研究的统计方法培训讲义第26页降低抽样误差路径有:①减小S。②增加样本含量n。

因为总体标准差通常是未知,而用样本标准差S来预计,所以,均数标准误预计值为

人群健康研究的统计方法培训讲义第27页二、总体均数预计

总体均数点预计(pointestimation)与区间预计(intervalestimation)参数预计点预计:由样本统计量直接预计总体参数区间预计:按预先给定概率(1-)所确定、包含未知参数一个范围,这个范围称为参数可信区间(Confidenceinterval,CI)人群健康研究的统计方法培训讲义第28页区间预计:可信度与可信区间

预先给定概率1-称为可信度或置信度(confidencelevel),常取95%或99%。没有尤其说明,普通取双侧95%。可信区间有可信下限(lowerlimit,L)和可信上限(upperlimit,U),普通表示为(L,U)。人群健康研究的统计方法培训讲义第29页t检验,亦称studentt检验,主要用于样本含量较小(如n<60)两个样本均数比较。

1.单样本t检验

2.配对样本t检验

3.两样本t检验三、t

检验人群健康研究的统计方法培训讲义第30页四、方差分析

1、完全随机设计

2、随机区组设计人群健康研究的统计方法培训讲义第31页

(1)设计将全部试验对象随机分配到g个处理组,各组分别接收不一样处理,试验结束后比较各组均数之间差异有没有统计学意义,推论处理原因效应。1、完全随机设计人群健康研究的统计方法培训讲义第32页(2)统计分析方法选择1.对于正态分布且方差齐性资料,常采取完全随机设计单原因方差分析(one-wayANOVA);2.对于非正态分布或方差不齐资料,可采取Wilcoxon秩和检验。人群健康研究的统计方法培训讲义第33页2、随机区组设计

先按影响试验结果非处理原因(如性别、体重、年纪、职业、病情、病程等)将受试对象配成区组,再分别将各区组内受试对象随机分配到各处理或对照组。(1)随机分组方法人群健康研究的统计方法培训讲义第34页(2)统计方法选择1.正态分布且方差齐同资料,应采取两原因方差分析(two-wayANOVA);2.当不满足方差分析时,可采取随机区组设计资料FriedmanM检验。人群健康研究的统计方法培训讲义第35页

当方差分析结果为拒绝H0,接收H1时,只说明g个总体均数不全相等。若想深入了解哪两个总体均数不等,需进行多个样本均数间两两比较或称多重比较。3、多个样本均数间多重比较人群健康研究的统计方法培训讲义第36页多重比较不能用两样本均数比较t检验!

若用两样本均数比较t检验进行屡次重复重比较,将会加大犯Ⅰ类错误(把本无差异两个总体均数判为有差异)概率。人群健康研究的统计方法培训讲义第37页1、LSD-t检验适用范围:一对或几对在专业上有特殊意义样本均数间比较。人群健康研究的统计方法培训讲义第38页2、Dunnett-t检验

适用条件:适合用于g-1个试验组与一个对照组均数差异多重比较。

人群健康研究的统计方法培训讲义第39页3、SNK-q检验适合用于多个样本均数两两之间全方面比较。人群健康研究的统计方法培训讲义第40页第十章分类变量统计描述人群健康研究的统计方法培训讲义第41页心理反应病例数焦虑102抑郁57自我认同紊乱10恐惧5累计174反应该指标(心理反应)分类分布

1.一个原因分类计数频数表

一、分类数据统计描述方法人群健康研究的统计方法培训讲义第42页2.两原因交叉频数表不一样用药与疗效关系分组疗效(Y)(X)有效数无效数累计

A药组203050B药组104050人群健康研究的统计方法培训讲义第43页

不一样用药、性别与疗效比较

男女用药有效无效有效无效试验组20101010对照组10151520反应用药与疗效、性别与疗效关系。3.两原因以上交叉分组表人群健康研究的统计方法培训讲义第44页

1.定义:是两个相关绝对数之比,统称为相对数。相对数意义:消除基数影响,便于事物间比较。给出事物发生频率(强度)预计。相对数是工作决议依据。二、惯用相对数人群健康研究的统计方法培训讲义第45页3、惯用相对数指标(1)率:又称为强度相对数,说明某事物在单位观察数中发生频率和强度。率计算通式:

人群健康研究的统计方法培训讲义第46页率指标做统计结论描述描述内容:描述某现象发生频率水平。不一样组间频率指标可作比较。人群健康研究的统计方法培训讲义第47页例:某地中老年人白内障患病情况年纪组受检白内障患者白内障(岁)人数患者组成比%患病率%

40-5606815.1812.1450-44112928.7929.2560-29613530.1345.6170-1499721.6565.10≥8022194.2486.36累计1468448100.0030.52描述:伴随年纪增加,白内障患病率增加,80岁人群达86.36%人群健康研究的统计方法培训讲义第48页2.组成比

概念:说明某事物内部各组成部分在总量中所占比重.普通为组成比、百分比。计算通式:

人群健康研究的统计方法培训讲义第49页例:某地中老年人白内障患病情况年纪组受检白内障患者白内障(岁)人数患者组成比%

患病率%40-5606815.1812.1450-44112928.7929.2560-29613530.1345.6170-1499721.6565.10≥8022194.2486.36累计1468448100.0030.52人群健康研究的统计方法培训讲义第50页组成比特点和意义特点:(1)各部分组成比累计为100%。(2)事物内部某一部分组成比发生改变,其它部分组成也发生改变。意义:研究事物按一个特征分类,组成比反应事物内部组成结构特征,指出工作重点。人群健康研究的统计方法培训讲义第51页3.相对比相对比:反应两个指标(指标可为绝对数、相对数;性质相同或不一样)相比倍数或百分数。例:某医院出生性别比=男性婴儿数/女性婴儿数

=370/358=1.03(或

103%)医护比=医生人数/护士人数人群健康研究的统计方法培训讲义第52页第十一章分类变量资料统计推断人群健康研究的统计方法培训讲义第53页

χ2检验(Chi-squaretest)是当代统计学创始人之一,英国人K.Pearson(1857-1936)于1900年提出一个含有广泛用途统计方法,此方法以χ2分布为理论依据,可用于两个或多个率间比较,计数资料关联度分析等等。

人群健康研究的统计方法培训讲义第54页表两组降低颅内压有效率比较组别有效无效累计有效率(%)试验组99510495.20对照组75219678.13合计1742620087.001、四格表资料卡方检验人群健康研究的统计方法培训讲义第55页组别阳性阴性累计A组a

b(a+b)B组c

d(c+d)合计(a+c)(b+d)(n)四格表专用公式人群健康研究的统计方法培训讲义第56页①

多个样本率比较时,有R行2列,称为R×2表;②

两个样本组成比比较时,有2行C列,称2×C表;③

多个样本组成比比较,有R行C列,称为R×C表。2、行×列表资料检验2人群健康研究的统计方法培训讲义第57页(1)多个样本率或两个组成比比较2检验三种疗法有效率比较

疗法有效无效累计有效率(%)

物理疗法199720696.60

药品治疗1641818290.11

外用膏药1182614481.94

合计4815153290.41人群健康研究的统计方法培训讲义第58页(2)双向无序分类资料关联性检验

表某地5801人血型ABO血型MN血型累计MNMNO4314909021823A3884108001598B4955879502032A计1451166626845801问题:(1)两分类变量有没有关联?(2)关联程度怎样?人群健康研究的统计方法培训讲义第59页第十二章基于秩转换

非参数检验人群健康研究的统计方法培训讲义第60页参数检验方法回顾参数检验方法:t检验,方差分析;总体分布假定:各组样本所来自总体为正态分布;各总体分布间关系假定:各总体分布形状相同,即方差相等(方差齐性)。人群健康研究的统计方法培训讲义第61页一、非参数检验方法概述1、定义:不依赖于总体分布类型,对样本所来自总体分布不作严格假定统计推断方法,称为非参数检验。又可称为任意分布检验。非参数检验是一类统计学方法总称,基于秩转换(ranktransformation)非参数检验只是其中一个。人群健康研究的统计方法培训讲义第62页2、秩次以及秩转换概念秩次(rank):某种测量值按照从小到大次序排序后,每一测量值所对应序号。秩转换:将某一变量值从小到大排序后,取得每一变量值秩次,并用此秩次代替原有变量值过程。人群健康研究的统计方法培训讲义第63页3、非参数检验应用场所计量资料,不满足参数检验条件,且无适当变量变换方法处理此问题时;分布类型无法获知小样本计量资料;一端或两端存在不确定数值(如>1000IU)计量资料;等级资料,比较各组间等级强度差异时。人群健康研究的统计方法培训讲义第64页4、非参数检验优点与不足优点:1.适用范围广泛;2.多数方法计算简便;3.易于了解和掌握;4.无法准确测量资料及等级资料能够采取;不足:1.参数检验适用资料,非参数方法会降低检验效能;2.一些方法计算过程依然复杂。人群健康研究的统计方法培训讲义第65页二、几个非参数方法:1.配对样本比较Wilcoxon符号秩检验;2.两个独立样本比较Wilcoxon秩和检验;3.完全随机设计多个样本比较Kruskal-WallisH检验;人群健康研究的统计方法培训讲义第66页一、配对样本比较Wilcoxon符号秩检验人群健康研究的统计方法培训讲义第67页例两种方法ALT测量结果比较编号(1)原法(2)新法(3)差值d(4)=(3)-(2)正秩(5)负秩(6)160761682142152105319524348114808221.55242240-21.56220220071902051578253813691982434591038446411236190-4610129510053累计———54.511.5人群健康研究的统计方法培训讲义第68页二、两个独立样本比较Wilcoxon秩和检验人群健康研究的统计方法培训讲义第69页例两类肺病患者RD值比较肺癌病人矽肺0期工人RD值秩次RD值秩次2.7813.232.53.232.53.5044.2074.0454.87144.1565.12174.2886.21184.3497.18194.47108.05204.64118.56214.75129.60224.82134.95155.1016n1=10T1=141.5n2=12T2=111.5人群健康研究的统计方法培训讲义第70页三、完全随机设计多个样本比较Kruskal-WallisH检验人群健康研究的统计方法培训讲义第71页例三种药品杀灭钉螺死亡率比较甲药乙药丙药死亡率秩次死亡率秩次死亡率秩次32.51016.046.5135.51120.569.0240.51322.5712.5346.01429.0918.0549.01536.01224.08Ri63—38—19ni5—5—5人群健康研究的统计方法培训讲义第72页2.参数检验和非参数检验对应关系比较类型参数检验非参数检验配对样本比较配对t检验Wilcoxon符号秩检验两组独立样本比较成组t检验Wilcoxon秩和检验多组独立样本比较单原因方差分析Kruskal-Wallis秩和检验人群健康研究的统计方法培训讲义第73页第十二章直线相关与直线回归人群健康研究的统计方法培训讲义第74页一、直线相关相关----变量间在数量上相互关系

直线相关(linearcorrelation):用于描述含有线性关系两变量X、Y间相互关系。人群健康研究的统计方法培训讲义第75页

相关系数示意图

散点呈椭圆形分布(相关)X、Y同时增减---正相关(positivecorrelation);

X、Y此增彼减---负相关(negativecorrelation)。

散点在一条直线上(完全相关)

X、Y改变趋势相同----完全正相关;反向改变----完全负相关。人群健康研究的统计方法培训讲义第76页

相关系数示意图

X、Y改变互不影响(无直线相关关系)----零(不)相关(zerocorrelation)人群健康研究的统计方法培训讲义第77页1、相关系数概念

相关系数又称为Pearson相关系数(软件中惯用此名称)相关系数说明两变量间相互直线关系亲密程度和方向指标。

r——样本相关系数2、相关系数计算和假设检验人群健康研究的统计方法培训讲义第78页二、直线回归函数关系:确定,各点在线上。比如y=5+3x回归关系:不确定,各点并非恰好都在线上。比如血压和年纪关系(血压随年纪增加而增高,并呈直线趋势)。

目标:建立直线回归方程(linearregressionequation)人群健康研究的统计方法培训讲义第79页1、直线回归方程

普通表示式:a:截距(intercept),直线与Y轴交点纵坐标。

b:斜率(slope),回归系数(regressioncoefficient)。

人群健康研究的统计方法培训讲义第80页2、直线回归方程求法

3、回归方程检验人群健康研究的统计方法培训讲义第81页4、直线回归与相关应用注意事项(1)直线回归与相关分析要有实际意义(变量选择要结合专业背景,相关未必真有内在联络)(2)分析结果解释及正确应用,不能任意“外延”(3)正确选择自变量与应变量(分析目标、专业知识、因果、变异大小、测量难易程度)(4)相关与回归分析前应绘制散点图(两变量间可能关系主要提醒、考查现有数据是否满足正态分布、有利于异常点识别与处理)

人群健康研究的统计方法培训讲义第82页第十六章统计表与统计图人群健康研究的统计方法培训讲义第83页

一、统计表统计表(statisticaltable)是表示统计分析结果中数据和统计指标表格形式,是统计描述主要方法,也是科研论文中数据表示主要工具。人群健康研究的统计方法培训讲义第84页人群健康研究的统计方法培训讲义第85页人群健康研究的统计方法培训讲义第86页人群健康研究的统计方法培训讲义第87页人群健康研究的统计方法培训讲义第88页1、统计表结构人群健康研究的统计方法培训讲义第89页2、统计表意义清楚地展示数据结构、分布和特征方便阅读、比较和计算研究论文中可代替冗长文字叙述人群健康研究的统计方法培训讲义第90页3、统计表制表标准重点突出:一张表,一个中心内容表述清楚:主语与宾语选择、位置确实定简单明了:文字、数字、线条应尽可能从简人群健康研究的统计方法培训讲义第91页4、制表基本要求标题:概括表主要内容标目:横标目、纵标目、总标目线条:三条基本线:顶线、底线、纵标目下横线。无斜线、竖线。数字:无数字“-”,缺失数字“…”,不留空项,小数位对齐。备注:列于统计表下方。人群健康研究的统计方法培训讲义第92页5、常见不良统计表统计表过大、内容过多标目设置不合理,造成统计表内容表述混乱线条过多,如出现无须要竖线、斜线等数字区有空项,同一指标小数位不一样、未对齐将备注列于统计表中统计表基本结构中要素缺失:无标题、少线条人群健康研究的统计方法培训讲义第93页人群健康研究的统计方法培训讲义第94页人群健康研究的统计方法培训讲义第95页人群健康研究的统计方法培训讲义第96页人群健康研究的统计方法培训讲义第97页二、统计图

统计图(statisticalgraph)是用点、线、面等各种几何图形来形象化地表示统计数据图形。与统计表相比,统计图含有形象直观特点,易于给读者留下深刻印象;但不象统计表那样,能提供准确数值。人群健康研究的统计方法培训讲义第98页1、统计图结构标题:概括统计图主要内容、时间和地点;置于图下方;横轴和纵轴:横标目、纵标目(指标名称、单位),纵横轴百分比以5:7为宜;图例:说明图中不一样颜色或线条所表示对象人群健康研究的统计方法培训讲义第99页刻度图例人群健康研究的统计方法培训讲义第100页2、几个惯用统计图(1)直条图(barchart)意义:等宽直条长短表示相互独立统计指标值大小(绝对数、相对数、平均数);制图要求:纵轴必须从“0”开始;直条等宽、条间距等宽;直条由高到低或按自然次序排列;分类:单式条图、复式条图、误差条图人群健康研究的统计方法培训讲义第101页单式条图(simplebarchart):

一个分组标志、一个统计指标人群健康研究的统计方法培训讲义第102页复式条图(clusteredbarchart):

多个分组标志、一个统计指标人群健康研究的统计方法培训讲义第103页误差条图(errorbarchart):用条图表示均数基础上,在图中附上标准差范围。图2-27四种营养素喂养小白鼠三周后所增体重(克)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论