卫生统计学-绪论课件_第1页
卫生统计学-绪论课件_第2页
卫生统计学-绪论课件_第3页
卫生统计学-绪论课件_第4页
卫生统计学-绪论课件_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、卫生统计学刘金辉宝坻区疾病预防控制中心 第一章 绪 论统计学概念:统计学是处理数据中变异性的科学与 艺术,内容包括数据的收集 、 分析、 解释和表达,目的是求得可靠的结果。 以往教材中概念:是研究数据的收集、整 理、分析和推断的一门科学。第一节 概述 根据研究领域和研究对象的不同,统计学又分为:数理统计、经济统计、生物统计、卫生统计、医学统计医学统计学(medical statistics):用统计学的原理和方法研究医学中的问题。卫生统计学(health statistics):与医学统计学基本相同,但更侧重于社会、人群的卫生问题。 采用统计学方法,发现不确定现象背后隐藏的规律。 变异是个体间

2、存在的差异,是绝对的,是社会和生物医学中的普遍现象。 变异使得实验或观察的结果具有不确定性,如每个人的身高、体重、血压等各有不同。 为什么要学习统计学?2. 用统计学思维方式考虑有关医学研究中的问题 “阳性”结果是否是虚假联系? 某感冒药治疗1周后,治愈率为90%,能否说该感冒药十分有效? “阴性”结果是否是样本含量不足? 有人曾对发表在Lancet, N Engl J Med,JAMA等著名医学杂志上的71篇阴性结果的论文作过分析,发现其中有62篇( 93%)可能是由于样本含量不足造成的假阴性。3. 保证你的研究论文能通过统计学审查 据国外6080年代对不同医学杂志发表论文的调查,有统计错误

3、的论文的百分比最高达72%,最低也有20%。国内1984年对中华医学杂志、中华内科杂志、中华外科杂志、中华妇产科杂志、中华儿科杂志595篇论文的调查结果,相对数误用为11.2%,抽样方法误用15.9%,统计图表误用11.7%。某研究者1996年对4586篇论文统计(中华医学会系列杂志仅占6.9%),数据分析方法误用达55.7%。第二节 医学统计工作内容及资料类型一、原始统计数据的来源:常规保存数据医院信息系统(HIS)、统计报表等2. 现场调查记录3. 实验记录4. 其他 一、研究设计二、搜集资料三、整理资料四、分析资料五、结果表达二、统计工作的内容 设计的内容包括资料的收集、整理和分析全过程

4、的设想和安排。常有:1.调查设计(survey design)对研究对象不施加任何干预,通常建立随机抽样(random sampling)方案。2.实验设计(experiment design)对研究对象施加干预,如动物实验研究、临床试验,通常建立随机分组(random allocation)方案。(一)、研究设计 (二)、收集资料 收集资料要遵循完整、准确、及时三个原则。 卫生工作中统计资料主要来源于三个方面: 1.统计报表:由国家统一设计,要求医疗卫生机构 定期逐级上报。如传染病防治法。 2.经常性工作记录:如经常性卫生监测记录等。 3.专题调查和实验:我们常把前两个来源称经常性资料,后者

5、称为一时性资料。(三)、整理资料 目的是将搜集到的原始资料系统化、条理化,便于进一步计算与分析。编码,将数据输入计算机纠错改错、补漏等(五)、结果表达使用的统计学方法使用的统计学软件(SAS、SPSS)假设检验的统计量、P值等结论三、资料的类型: 只有认识了数据的特点,才 能正确地选用统计分析方法 基本概念:变量及变量值 研究者对每个观察单位的某项特征进行观察和测量,这种特征称为变量,变量的测得值叫变量值(也叫观察值),全部变量值的集合也称为资料。按变量值的性质可将资料分为: 计量资料 计数资料 等级分组资料1.计量资料(定量资料、数值变量)定义:通过度量衡的方法,测量每一个观察单位的某项研究

6、指标的量的大小,得到的一系列数据资料。例如:体重与身高特点:表现为数值大小 有度量衡单位 多为连续性资料 (通过测量得到)定义:将全体观测单位按照某种性质或特征 分组,然后再分别清点各组观察单位 的个数。特点:没有度量衡单位 多为间断性资料 (通过枚举或记数得来)可分为二项与多项定性资料2. 定性资料(分类资料、分类变量)定义: 介于计量资料和计数资料之间的一种资 料,通过半定量方法测量得到。特点: 每一个观察单位没有确切值 各组之间有性质上的差别或程度上的不 同。示例: 检查尿蛋白,观察单位是每一份尿标本, 按结果等级不同可分为、 、等。3. 等级分组资料(有序变量)三类数据间的关系 例:一

7、组2040岁成年人的血压(变量)以12kPa为界分为正常与异常两组,统计每组例数 8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压定量数据等级数据定性数据三类数据的编码与计算(1) 例:一组2040岁成年人的血压以12kPa为界分为正常(0)与异常(1)两组,统计每组例数 单纯随机抽样系统抽样分层抽样(2) 增加样本量n ;(3)选择变异程度较小的研究指标。减少抽样误差的方法:频率:样本的实际发生率称为频率。设在相 同条件下,独立重复进行n次试验, 事件A出现m次,则事件A出现的频率 为f = m /n。概率:随机事件发生的可能性大小,用大写 的P 表示;取值0,

8、1。 5、频率与概率 必然事件 P = 1随机事件 0 P 1不可能事件 P = 0 统计学上把P 0.05(5)或P 0.01(1)称为小概率事件(习惯) ,认为不大可能发生。CertainImpossible0.501通常我们把经常遇到的事件分为三种类型:频率与概率间的关系: 1. 样本频率总是围绕概率上下波动; 2. 样本含量n越大,波动幅度越小,频 率越接近概率。6、 参数与统计量 (parameter and statistic)参数:总体的统计指标,如总体均数、总体标准差,分别用希腊字母记为、。固定的常数 总体样本抽取部分观察单位 统计量 参 数 推断inference统计量:样本

9、的统计指标,如样本均数、标准差,采用拉丁字母分别记为 。 参数附近波动的随机变量 。第二章 集中趋势的统计描述主要内容2.1 频数分布2.2 平均数 第一节 频数分布 表9-1 2002年某市150名正常成年男子的尿酸浓度(mol/L) 142.3 148.8 142.7 144.4 144.7 145.1 143.3 154.2 152.3 142.7 156.6 137.9 143.9 141.2 139.3 145.8 142.2 137.9 141.2 150.6 142.7 151.3 142.4 141.5 141.9 147.9 125.9 139.9 148.9 154.9 1

10、45.7 140.8 139.6 148.8 147.8 146.7 132.7 149.7 154.0 158.2 138.2 149.8 151.1 140.1 140.5 143.4 152.9 147.5 147.7 162.6 141.6 143.6 144.0 150.6 138.9 150.8 147.9 136.9 146.5 130.6 142.5 149.0 145.4 139.5 148.9 144.5 141.8 148.1 145.4 134.6 130.5 145.2 146.2 146.4 142.4 137.1 141.4 144.0 129.4 142.8 1

11、32.1 141.8 143.3 143.8 134.7 147.1 140.9 137.4 142.5 146.6 135.5 146.8 156.3 150.0 147.3 142.9 141.4 134.7 138.5 146.6 134.5 135.1 141.9 142.1 138.1 134.9 146.7 138.5 139.6 139.2 148.8 150.3 140.7 143.5 140.2 143.6 138.7 138.9 143.5 139.9 134.4 133.1 145.9 139.2 137.4 142.3 160.9 137.7 142.9 126.8 频

12、数分布及其制作 对某个随机事件进行重复观察,其中某变量值出现的次数被称作频数。 当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,称为该组的频数。 频数表是用于反映各组及其相对应的组频数之间的关系。频数表的制作步骤如下,以例2.1为例: 1. 计算极差R(最大值和最小值的差值) 本例中R=5.95-3.82=2.13 (1012/L ) 2. 决定组数(10-15组,最常用10-12组) 3. 计算组距i (等于极差与组数的比值,取 整数和取偶数的原则) 本例中i=2.13/10=0.213 1012/L ,取整数等 于0.2 1012/L 写组段(第一组段应包含最小值,最后一组

13、段包含最大值,每个组段为前闭后开区间,最后一个组段为闭区间。也应遵循取整数和偶数的原则) 本例中第一组段应包含最小值3.82,取3.80为第一组段的下限,写为前闭后开区间,3.80。最后一组段应包括最大值,写为闭区间5.806.00。5. 列表划记(组段和频数是频数表的基本要素)表2-2 某地140名正常男子红细胞数的频数表( 1012/ L)图 2-1 140名正常男子红细胞数频数分布的直方图 对频数表和图的观察,可以看出两个重要特征: 1.集中趋势:平均水平,向中间集中,中等数据的人数最多。 2.离散趋势:变异水平,即随着红细胞数测量值逐渐变大或变小,人数越来越少,向两端分散。频数表的主要

14、用途1.作为陈述资料的形式,可以替代繁杂的原始资料,便于进一步分析2.便于观察数据的分布类型3.便于发现资料中某些远离群体的特大或特小的可疑值4.当样本含量比较大时,可用各组段的频率作为概率的估计值5. 计算集中趋势指标与离散趋势指标数据的分布类型对称分布和不对称分布正态分布:图形中间的直条最高,高峰在中央,两边对称或基本对称地减少。偏态分布:若高峰不在中央,而位于一侧。若高峰位于左侧,称正偏态分布,如高峰位于右侧,称负偏态分布。 对数据的描述指标也分为两类:描述集中趋势或 平均水平的指标。2. 描述离散趋势或变异水平的指标。第二节 平均数常用几种平均值:1.算术均数2.几何均数3.中位数 集

15、中趋势常用平均值来描述。平均值是一组数据的典型或有代表性的值。由于这样典型的值趋向于落在根据数据大小排列的数据的中心,因此可以用于度量集中位置(位置指标) 算术平均数(简称为均数) 一、定义: 一组已知性质相同的数值之和除以数值个数所得的商。以 (总体) (样本)表示。 二、特征: (X- )=0 估计误差之和为0。 三、适用资料类型: 1.描述正态分布和近似正态分布资料集中 趋势的最好指标。 2. 适用于大多数正常人的生理、生化指标。 四、计算方法: 1.直接法 2.加权法 直接法 适用条件: 当观察例数不多时,或观察例数虽然很多,但有计算机及统计软件,宜选择直接法。 式(2-1) 例2.1

16、 见书P10 加权法 适用条件:当无原始数据或观察例数很多又缺乏计算机及统计软件时,若用直接法很容易出错,可以用加权法处理。 式(2-2) 利用表2-2资料,用加权法计算140名正常男子红细胞数浓度的均数,计算见表1表1 某地140名正常男子红细胞数均数和标准差( 1012/ L )加权法计算用表加权法计算的结果根据表1得: =669.80/140=4.78( 1012/ L )而将该资料输入计算机用统计软件和直接法计算,得到均数为4.77 (1012/ L) 。由此可见,加权法得到的均数是近似值,但这种算法的近似程度很好。算术平均数有如下特征:(1)对于以定量化测量所得的计量数据存在唯一的均

17、数。(2)样本均数具有抽样的稳定性与对总体均数的可估性特征;能方便地作进一步计算分析。(3)均数对极值特别敏感,极大值或极小值通常将均数拉向自己。(4)每个变量值到均数距离的和为零。(5)每个变量值到均数距离的平方和为最小。 几何均数一、定义: 将n个观察值x的乘积再开n次方所得的根,用G表示。二、适用条件: 1、当一组观察值不呈正态分布、且其差距较大时,用均数表示其平均水平会受少数特大或特小值影响; 2、原始数据分布不对称,观察值呈倍数关系或近似倍数关系,经对数变换后呈正态分布的资料,又称对数正态分布资料。 3、免疫学或微生物学领域中的某些指标,如抗体滴度、药物的平均效价等。 直接法 适用条

18、件: 当观察例数不多时,宜选择直接法。 式(2-3) 例2.2见书P11 加权法适用条件: 当观察例数较多或无原始数据,仅有频数表资料时,宜选择加权法。 式(2-4)例2.3 见书P11 表2-3 胎盘浸液钩端螺旋体菌苗接种两个月后血清IgG抗体滴度的计算用表G=lg-1(698.9792/326)=139该地326名农民胎盘浸液钩端螺旋体菌苗接种两个月后血清IgG抗体的平均滴度为:1:139 几何均数的特征: (1)变量x服从对数正态分布,即表示变量log(x)服从正态分布。几何均数用以描述一群服从对数正态分布的测量值在对数量值上的集中性特征与平均水平。 (2)变量x在取对数后的log(x)

19、具有算术均数的所有特征。中位数(Median)和百分位数 一、定义: 中位数是把一组观察值,按大小顺序排列,位置居中的那个数值。 中位数是一个位置指标,它将所有观察值分为两个相同的部分,各占除中位数以外的观察值的百分之五十。用M表示。 百分位数也是一个位置指标,先把一组数据从小到大排列, 将数据中的所有观察值看成一个整体,即100%。则百分位数将自身以外的观察值分成了两个部分,其中有x%的观察值比它小,而(100-x)%的个体具有比它大的观察值。 中位数就是一个特殊的百分位数,即50。 中位数和百分位数 二、适用资料: 偏态分布的资料 开口资料 分布未明的资料 某些毒物指标,如血铅,发汞值;某

20、些 传染病或食物中毒的潜伏期;生存时间等中位数和百分位数 三、计算方法: 直接法:适用于有原始数据; 样本 例数不太多; 容易将原始数据排序。 频数表法Take Median for example (n=odd number)100%X1 X2 X3 X4 X5 X6 X7X4Median(P50)50%(100-50)%=50%结论:Median=X4中位数的计算公式直接法: 当n=奇数时,中位数即为第(n+1)/2位的数值 例1见书P12Take Median for example (n=even number)100% X1 X2 X3 X4 X5 X6 X7 X8Median(P5

21、0)50%(100-50)%=50%结论:Median=1/2(X4+X5)X4 X5中位数的计算公式直接法:当n=偶数时,中位数并非直接对应某一数值,而是在两个数值之间,于是,取与中点位置相邻的两个变量值的算术平均数为中位数。 例1见书12Px的含义100%X1 X2 X3 X4 Xn-2 Xn-1 Xn(100-X)%结论:Pxis a limit value or position indexX%PX 频数表法 适用于: 无原始数据,只有频数表提供的信息; 原始数据太多,排序比较麻烦此计算公式的前提条件为: 假设观察值在每个组段内是均匀分布的。 表2 健康男子血清铅的浓度 组距为5 (mol/L) 血清铅水平 频数 累计频数 累计频率 (mol/L) 0 18 18 0.0796 5 51 69 0.3053 10 43 106 0.4690 15 36 142 0.6283 20 30 172 0.7611 25 26 198 0.8761 30 14 212 0.9381 35 6 218 0.9646 40 3 221 0.9779 45 3 224 0.9912 50 1 225 0.9956 55 0 225 0.9956 60 1 226 1.0000PX所在组段的下限PX所在组段的频数PX所在组段的组距PX所在组段前一组段的累计频

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论