卫生统计学基本知识课件_第1页
卫生统计学基本知识课件_第2页
卫生统计学基本知识课件_第3页
卫生统计学基本知识课件_第4页
卫生统计学基本知识课件_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、卫生统计学基础知识健康管理师培训公共卫生导论流行病学:研究疾病在人群中分布特点的一门方法学医学统计学:流行病学得出科学结论所必需的方法。什么是统计学(Statistics)?统计学是科学(Science)研究的一种方法学。是对数字收集、整理和解释的科学。主要是通过对样本的推论来分析总体的特征。统计学按照应用的领域分为不同分支学科:卫生统计学、理论统计学、经济统计学、社会统计学、人口统计学、生物统计学等历史上著名的统计学家统计学建立在17世纪概率论的基础上18世纪诞生了世界上最伟大的统计学家19、20世纪出现了大量的统计学家20世纪计算机的出现是统计学飞速发展的前提。皮埃尔德费马布莱兹帕斯卡卡尔

2、弗里德里希高斯Johann Gregor Mendel, Karl Pearson,Ronald Aylmer Fisher, Jerzy Neyman统计应用软件开源的(免费):R商业的(收费):SPSS(PASW), Stata, S-PLUS, SAS, MATLAB 这些都为统计学的广泛应用提供了条件,也对我们的工作质量提出了要求!要学习什么?了解一些统计学的基本概念。统计学的思维。明白一些统计学的术语。知道用哪些统计学方法。知道怎么解释统计结果。学会如何归纳统计结论。进一步了解:哪些统计学方法不能用?用这种方法容易出现哪些错误?对一个结果采用不同的统计方法进行比较,验证。7统计工作的

3、步骤第一步设计(design):第二步收集资料(collection of data):第三步整理资料(sorting data):第四步分析资料(analysis of data):试验设计、实施后的数据分析过程面对一个问题(一堆数据)- 想得到一个什么结论(了解哪些问题)- 需要哪些数据 - 使用什么方法 - 这种方法是否适合这些数据 - 这个方法有哪些优缺点 - 通过这个得出的结果是否有实际意义、与事实相符、符合逻辑 - 从一堆结果中选出对自己有用的条目 - 形成结论基本概念和术语总体与样本、个体总体(Population):根据研究目的确定的研究对象的全体。当研究有具体而明确的指标时,

4、总体是指该项变量值的全体。总体可大、可小。大到宇宙、小到一个班级。样本(Sample):或称抽样。总体中的一部分。好的抽样能近似地反映总体的特征。个体(Individual):总体中的单个观察单位(Observation unit)。或者称为一个样本。抽样(sample)表达的是一个动作,一个过程。个体表达的是一个静止的物体。总体表达的是一个不可测的动态全体。例子:为了了解某地2029岁健康女性血红蛋白的正常值范围,现随机调查了该地2000名2029岁的健康女性,并对其血红蛋白进行测量,请问本次调查的总体是?样本是什么?个体是什么?2. 变量(Variable)与变异(Variation)变量

5、:一个观察单位(个体)所表现的特征。比如,身高、体重、血压特征:一次抽样中,所有个体的变量值的集合为这个样本的特征。变量、个体、样本变异:针对同一个特征,个体间的差异。比如,每个人的身高都有差异。变异产生的原因:来源于未知的、已知的,可以控制的和不可控制原因。比如,身高产生差异的原因有归根结底,统计学其实就是在研究变异。3. 误差(Error)与偏倚(Bias)误差:在研究中得到的错误的结果(定性概念);测量值与(理论)真实值之差(定量概念)。误差按性质可分为系统误差和随机误差/抽样误差。随机误差:由随机性产生,无方向性,无法完全避免。系统误差:由一个可识别的来源造成。比如人为主观因素、比如测

6、量工具的缺陷。有方向性(始终一个方向)。原则上可以避免。随机变化系统误差舒张压(mm Hg)8090真实舒张压(动脉内置管)一般的测量方法(血压计)Difference between Radom error and Systematic error随机误差系统误差来源客观存在主观造成方向性无(不可预测)始终一个方向消除可能性无法完全消除可以消除,并应尽可能消除解决方法增加样本量,取平均值改进设备,方法,流程偏倚(Bias)在数据的收集、分析、解释、发表、监测等所有过程中,由于系统性的原因导致观察结果推论与真实情况存在的差异。偏倚就是系统误差。偏倚的类型选择偏倚(Selection bias)

7、信息偏倚(Information / Measurement bias)混杂偏倚(Confounding bias)4. 概率与小概率事件概念:描述随机事件发生的可能性大小的数值,常用 P 来表示。大小:P 的大小在0和1之间,越接近于1,说明发生的可能性越大,越接近于0,说明发生的可能性越小。统计学中的许多结论是带有概率性质的,通常一个事件的发生小于5%,就叫小概率事件。频率:在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。频率是概率的估计值。 统计分析的两件事统计工作的两件事:描述性、探索性统计描述(Statistical description)统计推断(Statistic

8、al inference)统计描述:数据加工、整理。生成统计指标(Statistic)、统计表格、统计图形,对资料的数量特征及分布规律进行描述和检验。统计推断:从样本的信息推断总体的特征。-用于描述总体特征的指标称为参数(Parameter)-通过样本计算得到的特征指标称为统计量(Statistic)统计推断分成两种工作:参数估计和假设检验参数估计(parameter estimation)分为点估计和区间估计点估计:用样本的一个统计量值来估计总体的参数值。比如平均身高、治愈率。区间估计:通过可信区间(confidence interval)来估计总体参数值在一个范围内的概率。常用95% CI

9、。假设检验(hypothesis testing)先提出假设(试验设计),再检验假设的正确性。-比如提出一个假设:较高职称的干部因为工作压力导致血压升高。科级干部 VS. 处级干部到底是由工作压力引起的,还是其他原因(年龄、性别、肥胖)?假设检验的步骤结论的表述I类错误与II类错误客观实际主观推断拒绝H0不拒绝H0H0成立推断正确H0不成立推断正确描述性统计分析认识你的数据变量的类型一般分为两类:定量数据(quantitative data)和定性数据(qualitative data)数量变量分类变量计量变量无等级计数变量和有等级分类变量(ordinal category)。定量数据定性资料

10、别名1数值变量分类变量别名2连续性变量间断性变量无等级有等级别名3计量资料计数资料分类等级变量特点有度量衡单位无度量衡单位例子身高、体重性别,种族疾病严重程度一、对定量数据(连续变量)的统计描述定量资料:年龄、身高、体重、血压、血脂、血糖数据的特点:连续性的数字,分布有一定的特征。频数及其分布100名18岁健康女大学生身高的频数分布身高组段划记频数 f 1541121561111415811111,11111,11116011111,11111,1111316211111,11111,11111,11111,112216411111,11111,11111,11111916611111,111

11、11,111111516811111,111191701111417217411合 计10037频数:当汇总大量的数据时,把数据按区段分组,其中每个组的数据个数,称为该组的频数。频数表(频数分布):表示各组及它们对应的组频数的表格称为频数表或频数分布。通过直方图可以直观地了解频数的分布。39频数分布的两个特征: 集中程度与离散程度频数分布的类型: 对称分布与偏态分布(集中位置偏向小的一侧叫正偏态,反之叫负偏态)频数表的主要用途: 1. 揭示分布类型 2. 发现特大值和特小值 3. 计算集中趋势指标与离散趋势指标40集中程度集中程度:表示大多数数值落在什么位置。对集中程度的特征描述用平均值:算数

12、平均值(均数,Mean)几何均数(Geometric mean)中位数(Median)算数平均数几何均数意义:N个数值的乘积开N次方即为这N个数的几何均数。表示:G 计算:应用:原始数据分布不对称,经对数转换后呈对称分布的资料。例如抗体滴度。443.中位数、百份位数(percentile)、众数(mode)应用范围离散程度统计学研究的对象是富于变化的事物,同一总体中的各个体之间存在着变异,同质各观察值之间具有的相互偏离、弥散的趋向,这种趋向叫离散趋势。 描述离散程度的常用指标:全距(极差,Range)四分位数间距( Quartile range)方差 (Variance)标准差(Standar

13、d deviation)变异系数 (coefficient of variation, CV)计算方法方差(Variance) 描述定量资料分布离散程度的指标之一,它反映了各观察单位与均数之间的离散程度。适用于对称分布的计量资料,包括正态分布和近似正态分布的计量资料。总体方差的计算样本方差的计算 标准差(Standard deviation)标准差是方差的算术平方根,与方差的应用条件相同,适用于对称分布的计量资料包括正态分布和近似正态分布的资料。计算方法变异系数(Coefficient of Variation)变异系数:标准差与均数之比。描述了数据的变异相对于其平均水平的大小。可用于比较单位

14、不同或者均数大小相差悬殊的多组数据之间的离散程度正态分布(高斯分布)正态分布是对称分布的一种理想状态。57正态分布的特征标准正态曲线下的面积与横轴数值的关系非标准正态曲线下的面积与横轴数值的关系正态分布用于正常参考值的估计正态分布的意义正态分布是参数检验的基础。参数检验包括t-test,ANOVA(方差分析)等。如果一个大样本符合正态分布(近似正态),或者一个随机抽样的小样本来自一个正态分布的总体,这时候才能够采用正态分布。样本的正态性检验观察法(图示法)1、P-P图如果资料服从正态分布,则样本点应围绕第一象限的对角线分布。2、Q-Q图如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线

15、的直线。以上两种方法以Q-Q图为佳,效率较高。3、直方图判断方法:是否以钟形分布,同时可以选择输出正态性曲线。4、箱式图判断方法:观测离群值和中位数。5、茎叶图判断方法:类似直方图计算法1.偏度系数(Skewness)和峰度系数(Kurtosis)除以各自的标准误2.非参数检验方法包括适用于大样本的Kolmogorov-Smirnov检验(D检验)和适用于小样本的Shapiro- Wilk (W 检验)二、对定性数据(分类变量)的统计描述定性资料:性别、种族、肤色、血型、患病与否、治愈与否、有无并发症数据的特点:间断性,可以用“是/否,轻/中/重,A/B/C/D,1/2/3/4/5”表示。分类资料的描述绝对数,或称计数(count)相对数:两个数值之比。分为:构成比(proportion),指一事物内部某一组成部分所占的比重。 学历 人数构成比(%)本科 99 0.14大专 1248 1.74中专53521 72.65无学历18763 25.47合计73667100.00某地1992年护理人员学历构成2.率(rate):在某一事件中,实际发生某一现象的观察数与可能会发生该现象的总观察数之比。用于说明某现象发生的频率或强度。如:患病率、发病率、感染率、治愈率、死亡率、病死率 2022/7/2170病名平均人口数人数死亡率(1/10万)高血

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论