医学统计学——变量的分类与统计资料的类型_第1页
医学统计学——变量的分类与统计资料的类型_第2页
医学统计学——变量的分类与统计资料的类型_第3页
医学统计学——变量的分类与统计资料的类型_第4页
医学统计学——变量的分类与统计资料的类型_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 医学统计学医学统计学Medical Statistics医学统计学讲授内容医学统计学讲授内容第一章第一章 绪论绪论第二章第二章 计量资料的统计描述计量资料的统计描述第三章第三章 总体均数的估计与假设检验总体均数的估计与假设检验第四章第四章 多个样本均数比较的方差分析多个样本均数比较的方差分析 第五章第五章 计数资料的统计描述计数资料的统计描述第六章第六章 几种离散型变量的分布及其应用几种离散型变量的分布及其应用第七章第七章 检验检验第八章第八章 秩转换的非参数检验秩转换的非参数检验第九章第九章 双变量回归与相关双变量回归与相关第十章第十章 统计表与统计图统计表与统计图2第十一章第十一章 多因

2、素试验资料的方差分析多因素试验资料的方差分析第十二章第十二章 重复测量设计资料的方差分析重复测量设计资料的方差分析第十五章第十五章 多元线性回归分析多元线性回归分析第十六章第十六章 logistic回归分析回归分析第十七章第十七章 生存分析生存分析第十八章第十八章 判别分析判别分析第十九章第十九章 聚类分析聚类分析第二十三章第二十三章 常用综合评价方法常用综合评价方法第二十四章第二十四章 量表研制与量表资料的统计分析方法量表研制与量表资料的统计分析方法 “非常痛心地看到,因为数据分析的缺陷和错误,那么多非常痛心地看到,因为数据分析的缺陷和错误,那么多好的生物研究工作面临着被葬送的危险好的生物研

3、究工作面临着被葬送的危险” ” 。 - - F. Yates,M.J.R. Healy 统计知识统计知识的运用的运用撰写论文:报告自己观撰写论文:报告自己观察或实验的研究结果。察或实验的研究结果。阅读论文:吸收新知识,阅读论文:吸收新知识,了解学术进展。了解学术进展。为什么要学医学统计学? 60年代到年代到80年代,国外医学杂志调查表明:年代,国外医学杂志调查表明:20%72%的论文有统的论文有统计错误。计错误。 1984年对中华医学杂志、中华内科杂志、中华外科杂年对中华医学杂志、中华内科杂志、中华外科杂志、中华妇产科杂志、中华儿科杂志志、中华妇产科杂志、中华儿科杂志595篇论文的调查结篇论文

4、的调查结果为:果为: 相对数误用占相对数误用占 11.2%,抽样方法误用占抽样方法误用占15.9%,统计图表误用占统计图表误用占11.7% 1996年对年对4586篇论文统计(中华医学会系列杂志占篇论文统计(中华医学会系列杂志占6.9%),数据),数据分析方法误用达分析方法误用达55.7%。 2001年中华预防医学杂志:中华医学会系列杂志误用约年中华预防医学杂志:中华医学会系列杂志误用约54%(1995)。)。 1996年,有机构对申报科技成果的年,有机构对申报科技成果的4586篇科研论文分篇科研论文分析,统计方法使用率为析,统计方法使用率为76%。 医学论文中统计运用错误,除了影响论文的科学

5、性,医学论文中统计运用错误,除了影响论文的科学性,还可能导致严重的伦理学问题。还可能导致严重的伦理学问题。 为什么要学医学统计学? 英国统计学家英国统计学家R.A.Fisher(1890-1962)对遗传学家对遗传学家Mendel(1822-1884)杂交试验结果的评价杂交试验结果的评价:Mendel的豌豆杂交试验的豌豆杂交试验: 父本父本 母本母本第一代第一代 YG YG第二代第二代 Y/Y Y/G G/Y G/G杂交试验结果杂交试验结果:绿色种子的频率绿色种子的频率2001/8023期望值期望值=8023 0.25=2006, 标准差标准差=39Prop(2001.52011.5)=0.1

6、1, 结合结合Mendel历次报告的其它实历次报告的其它实验结果验结果,每次都有如此好的吻合的概率约每次都有如此好的吻合的概率约10万分之万分之4。为什么要学医学统计学?绪论Introduction 讲授内容:一、医学统计学的意义二、统计学中的几个基本概念三、统计资料的类型四、医学统计工作的基本步骤五、学习医学统计学应注意的问题一、医学统计学的意义 1.统计学(statistics):应用数学的原理与方法,研究数据的搜集、整理与分析的科学,对不确定性数据作出科学的推断。2.医学统计学( statistics of medicine ):统计学的原理与方法应用于医学科研与实践。一、医学统计学的意

7、义3.统计学方法的特点: (1)用数量反映质量 1)体格检查(量血压、脉搏) 个体健康质量 2)考试分数个体学习质量 3)期望寿命期望寿命反映人群健康状况的指标反映人群健康状况的指标 4) 婴儿死亡率婴儿死亡率反映卫生服务质量的指标反映卫生服务质量的指标 .一、医学统计学的意义 (2)用群体归纳个体 请同学们回答: 2002年长沙市7岁男孩有多高?1) 7岁男孩身高有高有矮2)n=100 , 平均身高 =119.5cm 95%的长沙市7岁男孩的身高在 110.20cm129.20cm之间二、统计学中的几个基本概念)、变量值(value of variable) (1)、 研究单位(unit)

8、:研究中的个体(individual),是根据研究目的确定的。 二、统计学中的几个基本概念例如:研究7岁男孩身高的正常值范围 一个人 研究大学生视力 一只眼睛 研究水污染情况 一毫升水 研究细胞变性 一个细胞 研究肝癌的地区分布 一个地区二、统计学中的几个基本概念 (2): 研究单位的研究特征。 例如:研究7岁 男孩身高的正常值范围 变量: 身高 (3)变量值(value of variable)二、统计学中的几个基本概念变量值(value of variable) : 变量的观察结果。 例如:研究7岁男孩身高 变量值:测得的身高值 (120.2cm,118.6cm,121.8cm,) 研究某

9、人群性别构成 变量值:男、女。 二、统计学中的几个基本概念 2、同质(homogeneity)和变异 (variation) (1)、同质(homogeneity):根据研究目的给研究单位确定的相同性质。 研究长沙市2004年7岁 男孩身高的正常值范围? 同质:同长沙市、同7岁、同男孩、同无影响身高的疾病。二、统计学中的几个基本概念 (2)、变异 (variation) 变异 (variation):同质研究单位中变量值间的差异。 例如:1)长沙市2004年7岁男孩身高有 高有矮 2)相同的药方治疗相同的疾病的病人,疗效有好有坏二、统计学中的几个基本概念 3、总体(population)和样本

10、(sample) (1)、总体(population):是根据研究目的确定的同质研究单位的全体。更确切地说是同质研究单位某种变量值的集合。 例如:调查某地2002年正常成年男子的红细胞数的正常值范围二、统计学中的几个基本概念 研究单位:一个人 变量:红细胞数 同质:同某地、同2002年、同成年男子、 同正常。 总体:1)某地所有的正常成年男子 2)某地所有的正常成年男子的 红细胞数二、统计学中的几个基本概念 1)有限总体(finite population):研究单位数是有限的 例如:调查某地2002年正常成年男子的红细胞数的正常值范围 2)无限总体(infinite population):

11、研究单位数是无限的 例如:高血压患者无时间、空间限制。二、统计学中的几个基本概念(2)样本(sample):是总体中抽取的有代表性的一部分。注意:随机抽样(无主观性)样本含量( sample size):样本中包含的研究单位数。例如:某药治疗高血压患者30名 样本含量(n)为30二、统计学中的几个基本概念 4、参数(parameter)和统计量(statistic) (1)参数(parameter):根据总体个体 值统计计算出来的描述总体的特征量。 一般用希腊字母表示 (2)、统计量(statistic):根据样本个体值统计计算出来的描述样本的特征量。 一般用拉丁字母表示二、统计学中的几个基本

12、概念 总体参数一般是不知道的 统计学抽样研究的目的就是: 样本统计量总体参数二、统计学中的几个基本概念 5、系统误差(systematic error) 、非系统误差(nonsystematic error) 、抽样误差(sampling error) 误差(error)是指实际观察值与观察真值之差、样本指标与总体指标之差。二、统计学中的几个基本概念 (1)、系统误差(systematic error):由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。 例如:测量血糖,有斑氏法和葡萄糖氧 化法,斑氏法的

13、测量结果偏高易受体内还原性物质的影响。二、统计学中的几个基本概念这类误差可以通过实验设计和技术措施实验设计和技术措施来消除或使之减少。 观察性研究由于组间不可比性产生的系统误差称为偏倚(bias),如吸烟组的平均年龄大于吸烟组,两组死亡率的差异包含年龄偏倚。二、统计学中的几个基本概念 (2)、非系统误差(nonsystematic error) 由于研究者偶然 失误而造成的误差。 例如:仪器失灵、抄错数据、点错小数点、写错单位等,亦称过失误差(gross error) 这类误差应当通过认真检查核对予以清除,否则将会影响研究结果的准确性。二、统计学中的几个基本概念 (3)、抽样误差(sampli

14、ng error):由于抽样所造成的样本统计量与总体参数的差别。 例如:=120.0cm n=100 N=5万 =118.6cm 特点:1)不可避免性 2)有统计规律性X二、统计学中的几个基本概念产生原因:个体差异(生物变异)二、统计学中的几个基本概念 6、频率(relative frequency)、概率(probability)、小概率事件(1)、频率(relative freguency): 一次随机试验有几种可能结果,在重复进行试验时,个别结果看来是偶然发生的,但当重复试验次数相当多时,将显现某种规律性。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种,现在,我们看一掷币模拟试

15、验:二、统计学中的几个基本概念实验者 投掷次数 出现“正面”次数 频率Hu Pingcheng 1 1 1.0000Hu Pingcheng 2 0 0.0000Hu Pingcheng 3 2 0.6667Hu Pingcheng 4 3 0.7500Hu Pingcheng 5 3 0.6000Hu Pingcheng 6 2 0.4000Hu Pingcheng 7 4 0.5714 Buffon 4040 2048 0.5069K.Pearson 12000 6019 0.5016K.Pearson 24000 12012 0.5005二、统计学中的几个基本概念可见,在相同条件下重复试

16、验,试验结果为“正面”或“反面”虽不能事先断定,但我们知道试验的所有可能结果只有两种。 在重复多次后,出现“正面” 或“反面”这个结果的比例称之为频率。二、统计学中的几个基本概念(2)、概率(、概率(probability) 概率是度量随概率是度量随机事件发生可能性大小的一个数值。机事件发生可能性大小的一个数值。 设在相同条件下,独立地重复设在相同条件下,独立地重复n次试验,次试验,随机事件随机事件A出现出现 次,则称次,则称 为随机事为随机事件件A出现的频率。当出现的频率。当n逐渐增大时,逐渐增大时, 频率频率 趋向于一个常数,则称该常数为随机事趋向于一个常数,则称该常数为随机事件件A的概率

17、,可记为的概率,可记为 P(A) ,简记为,简记为 。 0 P(A)1 ff nf n二、统计学中的几个基本概念 0 P(A) 1 随机事件 P(A)=1 必然事件 P(A)=0 不可能事件。二、统计学中的几个基本概念 频率是就样本而言的,而概率从总体的意义上说的,m/n是概率 p(A) 的估计值。试验次数越多,估计越可靠。二、统计学中的几个基本概念(3)小概率事件:统计分析中的很多结论都基于一定置信程度下的概率推断,习惯上将 称为小概率事件,我们认为小概率事件在一次试验中不可能发生。( )0.05 ( )0.01P AP A或二、统计学中的几个基本概念 湖南风采: 中奖概率大约为: 1/67

18、1万 交通事故: 发生概率为:1/20万三、统计资料的类型 变量与统计资料的分类方法 1.概述 .数值变量(numerical variable)和计量资料(measurement data) .无序分类变量(unordered categories variable )和计数资料 (enumeration data) .有序分类变量(ordinal categories variable)和等级资料(ranked data) 三、统计资料的类型1. 概述 数值变量数值变量.构成计量资料构成计量资料 分类变量 无序分类变量无序分类变量.构成计数资料构成计数资料 有序分类变量有序分类变量.构成等

19、级资料构成等级资料变量三、统计资料的类型. 数值变量与计量资料 1). 数值变量(numerical variable) :变量值是定量的,表现为数值 大小,一般有度量衡单位。如:身高(cm)、体重(kg)、血压(pa)、 坐高/身高。2). 计量资料(measurement data) :由一群个体的数值变量值构成 的资料,即一群变量值。 如:长沙市99年7岁男孩身高值(120.2cm,118.6cm,121.8cm) 三、统计资料的类型3.无序分类变量与计数资料1). 无序分类变量(unordered categories variable):变量值是定性的, 有类别。 特点:类别是客观存

20、在的,各类无秩序,可任意排列;类与 类之间界限清楚,(理论上)不会错判。如:性别:男、女。 血型:O、A、 B、AB。2). 计数资料(enumeration data):一群个体按无序分类变量的 类别清点每类有多少个个体,即分类个体数。 如:卫生统计学教研室教师性别构成:男:, 女:7。 某人群血型构成: O:20 A:35 B:30 AB:10三、统计资料的类型4.有序分类变量与等级资料 1). 有序分类变量(ordinal categories variable) :变量值是定 性的、 分等级。 特点:等级是主观划分的,各级没有大小但有秩序,必须从低到高或由高到低;级和级之间界限模糊,可

21、能错判。 如: 疗效:无效、好转、显效、治愈。 血清反应:、+、+、+2). 等级资料(ranked data):一群个体按有序分类变量的级别清 点每级有多少个个体,即分级个体数。 如:某地某人群EB病毒抗体反应: +: +: +: 四、医学统计工作的基本步骤 1、设计(design) 专业设计 统计设计 调查设计 医学科研设计 实验设计 临床实验设计 医学科研设计的程序医学科研设计的程序 科研选题科研选题: : 选题又叫立题,确定所要研究的问选题又叫立题,确定所要研究的问题。题。选题是科研的起点,也是关系到成败的关键。选题是科研的起点,也是关系到成败的关键。(1 1)题意产生:)题意产生:(

22、 (综述综述) ) 背景材料来源:个人经验的积累;背景材料来源:个人经验的积累; 向有关专家请教向有关专家请教 ; 文献检索文献检索等等. .专业设计文献检索的要点文献检索的要点 (1 1)有助于认识本课题的重要性)有助于认识本课题的重要性(2 2)了解有关的既往研究工作情况)了解有关的既往研究工作情况(3 3)了解有关研究现状)了解有关研究现状(4 4)寻找可借鉴的研究方法)寻找可借鉴的研究方法(5 5)注意有关的不同见解与争论。)注意有关的不同见解与争论。 如:与如:与* * * * *商榷类文章商榷类文章专业设计文献检索的几种查法文献检索的几种查法(1 1) 先查国内文献,再查国外文献先

23、查国内文献,再查国外文献(2 2) 先查综述性文章,后原始文章。先查综述性文章,后原始文章。(3 3) 先近期后远期先近期后远期(4 4) 先核心期刊后一般期刊。先核心期刊后一般期刊。专业设计 综述性文章:是收集大量文献资料经综述性文章:是收集大量文献资料经过分析综合,结合自己的工作和体会整理过分析综合,结合自己的工作和体会整理成的文章。它是对某一课题或新进展作出成的文章。它是对某一课题或新进展作出的总结,并指明发展方向,有较大的参考的总结,并指明发展方向,有较大的参考价值,是专题性文献资料最集中的表现形价值,是专题性文献资料最集中的表现形式。式。 专业设计科研选题的原则科研选题的原则(1 1

24、)创新性)创新性:包括探索和创新两个连续的过程,创新就是:包括探索和创新两个连续的过程,创新就是选择前人没有解决或没有完全解决的问题。是本学科的空选择前人没有解决或没有完全解决的问题。是本学科的空白点,或者将会在理论上或应用上有新的发展和补充。白点,或者将会在理论上或应用上有新的发展和补充。(2 2)科学性)科学性:以科学理论为指导,符合客观规律。:以科学理论为指导,符合客观规律。(3 3)先进性)先进性:先进性是相对的,有国际先进和国内先进。:先进性是相对的,有国际先进和国内先进。 更重要的是结合实际条件选择适合的先进技术。更重要的是结合实际条件选择适合的先进技术。(4 4)可行性)可行性:

25、研究课题的主要技术指标实现的可能性。它:研究课题的主要技术指标实现的可能性。它包括人、财、物的支持和工作基础。包括人、财、物的支持和工作基础。 专业设计选题方法选题方法(1 1) 从招标范围中选题。从招标范围中选题。(2 2) 从碰到的问题中选题从碰到的问题中选题(3 3) 从文献的空白点选题从文献的空白点选题(4 4) 从已有的课题延伸中选题从已有的课题延伸中选题(5 5) 从改变研究内容组合中选题从改变研究内容组合中选题(6 6) 从其他学科移植中选题。从其他学科移植中选题。专业设计四、医学统计工作的基本步骤统计设计的内容要包括资料的收集、整理和分析全过和的设想和安排。 例如:研究目的和假

26、说? 研究对象和研究单位? 研究因素(变量)? 收集哪些原始资料? 用什么方式和方法取得这些原始 资料? 怎样整理汇总和计算统计指标? 如何控制误差? 预期会得到什么结果? 需要多少经费?统统计设计四、医学统计工作的基本步骤在研究者对统计设计的构思过程中,有以下几个问题最为关键: 如何进行抽样?如何安排设计所规定的如何进行抽样?如何安排设计所规定的 干预干预措施或称处理(措施或称处理(treatment)。)。要达到研究目的应抽取多少个观察单位?要达到研究目的应抽取多少个观察单位?如何在诸多的影响因素中,分离出研究同素对如何在诸多的影响因素中,分离出研究同素对结果的效应?结果的效应?统计设计四

27、、医学统计工作的基本步骤(1)、对照的原则 对照(control)原则,即在均衡条件下实现实验组与对照组间科学对比的原则,它回答如何从诸多影响因素中,分离出研究因素对实验结果的效应问题。 所谓均衡性,即可比性,是指在对比组中,除研究因素不同外,或施加的处理不同外,其他影响实验结果的非研究因素,包括实验过程中的实验条件和辅助措施,都应相同。统计设计无对照的研究夸大了门腔分流手术的作用无对照的研究夸大了门腔分流手术的作用表表1-21-2 关于门腔分流手术的关于门腔分流手术的5151次研究结果次研究结果对照方式对照方式 门腔分流手术的价值门腔分流手术的价值 小计小计 非常支持非常支持支持支持 不支持

28、不支持 无对照无对照 24 7 1 32 非随机对照非随机对照 10 3 2 15 随机对照随机对照 0 1 3 4 合合 计计 3411 6 51 统计设计统计学家统计学家 Student 1930年年2月至月至6月月主持的牛奶营养主持的牛奶营养试验的现场观察试验的现场观察研究:研究:对照组(对照组(1万儿童)万儿童)饮奶组(饮奶组(1万儿童)万儿童)对照组对照组饮奶组饮奶组 年龄(岁)年龄(岁) 体重(磅)体重(磅)结论:对照组体重饮奶组结论:对照组体重饮奶组统计设计四、医学统计工作的基本步骤 ( 2 )、重复(repetition)的原则 重复( repetition )原则,即确定样本含量的原则,它回答至少应抽取多少个观察单位的问题。 统计设计四、医学统计工作的基本步骤 (3)、随机化(randomization)的原则 1)、 随机抽样(randomized sampling):指总体中的每一个观察单位都有同等机会进入样本; 2)、 随机分配(randomized allocation):指本次研究所选定的实验受试对象都有同等机会进入根据研究目的而设定的处理组和对照组。统计设计四、医学统计工作的基本步骤 2、收集资料(collection of data)(1)资料来源第一手资料 1) 经常性:统计报表(传染病报表、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论