卫生统计学第1-2章绪论及定量资料描述_第1页
卫生统计学第1-2章绪论及定量资料描述_第2页
卫生统计学第1-2章绪论及定量资料描述_第3页
卫生统计学第1-2章绪论及定量资料描述_第4页
卫生统计学第1-2章绪论及定量资料描述_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卫生统计学卫生统计学第一章绪论什么是统计学(statistics)?“Asciencedealingwiththecollection,analysis,interpretation,andpresentationofmassesofnumericaldata”(Webster'sInternationalDictionary)。“Thescienceandartofdealingwithvariationindatathroughcollection,classification,andanalysisinsuchawayastoobtainreliableresults”(JohnM.Last,ADictionaryofEpidemiology)什么是统计学(statistics)?内容:收集、分析、解释和表达数据统计学:处理数据中变异性的科学与艺术目的:求得可靠的结果统计学的现实地位:合作、审稿、基金申请(NIH)、药物开发与申报(FDA)、卫生决策

统计学的若干概念1.总体与样本总体(population):大同小异的对象全体。目标总体(targetpopulation):试图下结论的某个总体.例如,英国成年男子为目标总体研究总体(studypopulation):资料来源的较小的总体.例如,1951年英国全部注册医生需要谨慎:就研究总体所下的结论未必适用于目标总体。抽样(sampling):从研究总体抽取部分个体样本(sample):抽取的部分个体数据(data):观察所得资料推断(inference):分析样本数据,获得关于总体的知识数据信息信息知识统计推断的工具:有关概率的理论。

推断的结论从来不是完全肯定或完全否定的。

关键与核心:抽样方法、样本的代表性和推断的方法

2.同质与变异同质性(homogeneity)共性,大同小异

变异(variation)个体间差异,多样性

没有同质性就构不成一个总体;

总体内没有变异性就无需统计学。

统计学的任务:

在变异的背景上

描述同一总体的同质性,

揭示不同总体的异质性(heterogeneity)。

3.变量的类型变量(variable):个体特性的数量描述(1)定性变量

(i)分类变量(categoricalvariable)或名义变量(nominativevariable)。分类变量的水平(level)代码(code)用1、2、3、4、5等来表示各个水平。二分类变量(binaryvariable),也称0-1变量或假变量(dummyvariable)(ii)有序变量(ordinalvariable)

种种可能的“取值”中自然地存在着次序。

(2)定量变量

(i)离散型变量只能取整数值。例如,手术病人数;新生儿数

(ii)连续型变量可以取实数轴上的任何数值。由测量而得到的大多属于连续型变量例如,血压、身高、体重等“连续”:指该变量可以在实数轴上连续变动。变通:红细胞记数也视为连续型变量。(一个、两个、三个之间的差别并不重要)变量类型的转化:只能由高级向低级转化,

不能作相反方向的转化

连续型→有序→分类→二值离散型变量常常通过适当的变换或连续性校正后借用连续型变量或有序变量的方法来分析。4.因果与联系公共卫生领域常常要探究危险因素与疾病之间的因果关系(causation)。首先应当问存在不存在联系(association)然而,存在联系未必有因果关系在解释统计分析的结果以及下结论时,

务必对“因果”二字慎之又慎。学习目的与方法(1)统计思维享用一生事件的不确定性----概率由样本推断总体,结论的不确定性----有可能犯错误

统计学任务

----限定犯错误概率的大小,在此前提下,作决策(2)理解概念是首位研究设计的原则确定样本量的依据参数估计的精度决策的两类错误

案例辨析:在辨析中提高,从反面吸取教训

----平时争论、课堂讨论(3)重在理解和解释结果通过计算,体验统计概念和思想正确理解、解释和表达计算结果

中英文结果报告:内容齐全,表达规范

----作业要按照规格撰写(4)电脑实验用电脑模拟现实世界,从实验中看随机现象统计软件:反复实践,灵活运用

----机房开放,勤动手!(5)考试

*笔试:理论、方法不记公式,无数学推导,无复杂计算*上机考试:已做过的电脑实验;不编程序第二章定量资料的统计描述

把握资料的基本特征为统计分析打下基础统计表描述性统计量统计图统计描述

----从资料中获取信息最基本的方法第一节频数与频数分布

频数分布表(frequencydistributiontable),又称频数表

一、

离散型定量变量的频数分布例2-11998年某山区96名孕妇产前检查次数资料如下:

0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7直条图(barchart)横坐标:产前检查次数;纵坐标:频率,检查k次的妇女所占的比例(%)等宽矩形长条:高度相当于检查次数的频率二、连续型定量变量的频数分布

例2-2抽样调查某地120名18岁~35岁健康男性居民血清铁含量(μmol/L),数据如下:直方图(频率直方图)横轴:血清铁含量纵轴:频率密度

=频率/组距面积=频率注:组距相等时,矩形直条的高度与相应组段的频率成正比。

图2-2120例健康成年男子血清铁含量分布

单峰、对称-----对称分布图2-3某地居民238人发汞含量(μmol/kg)分布

正偏峰分布(positivelyskeweddistribution)负偏峰分布(negativelyskeweddistribution)

第二节定量变量的特征数

定量地描述集中趋势与离中趋势是统计描述的重要内容一、

描述集中趋势的统计指标

对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数和中位数。1.算术均数简称均数(mean,),适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为

n:样本含量

X1,X2,…,Xn:观察值或:观察值之和例2-3测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。按式(2-1),算术均数为

对于偏峰分布资料算术均数不能较好地反映分布的集中趋势。

2.几何均数(geometricmean,G)

适用于观察值变化范围跨越多个数量级的资料

频数图一般呈正偏峰分布

例2-57名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。3.中位数(median,M)

可用于各种分布的定量资料总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。

基于样本资料将n例数据按升序排列,第i个数据记为

n为奇数时

n为偶数时

例2-7某药厂观察9只小鼠口服高山红景天醇提取物(RSAE)后在乏氧条件下的生存时间(分钟)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.6,69.0。试求其中位数。百分位数(percentile)总体中,数值小于它的个体恰有X%,大于它的个体恰有1-X%样本估计:按照升序排列的数列里,其左侧(即小于它)的个体数在整个样本中所占百分比为X%。4.众数(mode)总体中出现机会最高的数值。样本估计:在样本中出现次数最多的数值。例2-11998年某山区96名孕妇产前检查次数资料:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7

众数为4(次)二、描述离散趋势的特征数同一总体中不同个体之间的离散趋势又称为变异(variation)。

例2-11试观察三组数据的离散状况。(均数都是30)

A组:26,28,30,32,34

B组:24,27,30,33,36

C组:26,29,30,31,341.极差(range,R)R=最大值-最小值计算简便,但仅利用了两个数据的信息一般,样本量n越大R也往往会越大,不够稳定

例2-12计算上述三组数据的极差A组R=34-26=8B组R=36-24=12C组R=34-26=82.四分位数间距(quartilerange,Q)Q=P75-P25

P25与P75之间恰好包含50%的个体四分位数间距Q是总体中数值居中的50%个体散布的范围Q越大意味着数据间变异越大

3.方差(variance)与标准差(standarddeviation)

用于反映一组对称分布的观察值在数量上的变异程度。总体中:样本中:例2-14分别计算例2-11中三组数据的标准差。按照公式(2-11)与标准差的定义

C组数据的离散趋势最小,B组的最大5.变异系数(coefficientofvariation,CV)

例2-151985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm。体重的变异大还是身高的变异大?体重的变异系数身高的变异系数

用于量纲不同的变量间变异程度的比较或均数差别较大的变量间变异程度的比较四、描述分布形态的统计指标1.偏度系数(coefficientofskewness,SKEW)总体偏度系数为0时,分布是对称的;取正值时,分布为正偏峰;取负值时,分布为负偏峰。例2-2中血清铁含量(μmol/L)数据偏度系数SKEW=-0.1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论