版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章绪论与统计学基本概念
流行病统计学系韩少梅
统计学的定义
统计学(statistics)就是运用概率论和数理统计的基本原理和方法,来研究数据的搜集、整理和分析的一门学科。统计学既是描述、归纳、搜集数据规律和解释数据的科学,也是研究人员合理地、灵活地应用统计学原理和方法,充分提取信息,深入解释事物客观规律的一种手段。
一、医学统计学
“根据数理统计的原理、方法紧密结合医学实践,研究医药卫生领域中的资料收集、整理、分析和推断的一门应用学科,来分析和解释生物界各种现象和实验调查资料的科学”。医学统计学是统计学与基础医学、预防医学、临床医学相结合的一门交叉学科。它是以基础医学、预防医学、临床医学理论为指导,用统计学的原理和方法来研究其领域数据的搜集、整理和分析,并以资料所提供的信息来指导我们更好的开展疾病控制和治疗工作。主要学习内容1、统计描述(定量资料和分类资料的集中趋势和离散趋势指标、抽样误差和参数估计及常用统计图表);2、常见的理论分布及其应用(正态分布、二项分布与Poisson分布);3、总体参数的估计(分总体均数、总体率和总体平均数);4、假设检验(t检验、u检验、方差分析、相对数、二项分布及其应用、四格表及列联表资料的卡方检验、秩和检验等);5、回归与相关、多元线性回归与logistic回归;6、实验设计和调查设计研究对象医学统计学的研究对象是人体及与人体有关的各种具有不确定性的医学数据。统计学所要研究的是有变异的信息,即随机变量。在同类的对象中往往存在着变异。如果各观察个体都完全相同,没有什么变异,就不是统计学的研究对象了。医学统计学的主要内容统计学基本原理和方法
包括资料的收集、整理和分析的基本原理和方法。医学研究设计
包括观察性研究中的现场调查、病例对照研究和队列研究设计,实验研究中的临床试验、动物实验及实验室研究设计等。统计学的应用
包括医学人口统计、生命统计及疾病监测与控制中常用的综合评价方法。医学统计学的任务
结合专业知识和具体要求进行医学科研设计;对收集到的资料进行整理,做统计描述;对资料进行统计分析和解释。医学统计学的作用
保证调查和试验设计的科学性和完整性;指标的确定应具有特异性、客观性、灵敏性和精密度高;比如:要评价某种治疗方法对某种恶性肿瘤的治疗效果,所选用的评价指标应该是一年生存率、五年生存率等指标,而不应选用治愈率或死亡率等指标。样本量足够大,数据真实可靠;选用统计分析方法正确。二、统计工作的基本步骤
1.研究设计2.搜集资料3.整理资料4.分析资料
Webster国际大辞典(第三版)对统计学的定义是“asciencedealingwiththecollection,analysis,interpretationandpresentationofnumericaldata”。LastJM主编的一本流行病学辞典对统计学的定义是“thescienceandartofdealingwithvariationindatathroughcollection,classificationandanalysisinsuchawayastoobtainreliableresults”。
由此可知:统计学是处理资料中变异性的科学和艺术,是关于数据收集、整理、表达和解释的普遍原理和方法。这里强调了“过程”,但在实际工作中,许多人往往是忽略了设计、收集和归类(整理),到了分析数据时才想到统计学,此时难免发生“悔之晚矣”的憾事。科学研究过程任何一项医学研究,在确定研究目的之后,首要问题:考虑怎样安排试验或者说需要一份良好的研究计划(称为研究设计),它是使研究结果满足科学性的重要保证。数据采集数据分析设计报告1.研究设计研究设计(design)是对整个研究过程的总体设想和安排,是统计工作和医学科研工作的基础。研究设计的质量直接影响着试验结果的准确性、可靠性、严密性和代表性,一旦出现设计上的失误或缺陷,可能会导致整个研究的失败。研究设计的主要内容研究的目的、意义和预期结果;具体的研究内容或调查项目;样本含量的估计及研究对象的选择;随机抽样的方法,观察单位和分析指标的选取;数据库的建立和维护,资料整理和分析的方法;数据库软件和统计分析软件的选用;在资料的搜集、整理和分析的全过程中控制误差的方法和具体措施;在研究的整个过程中需动用的人力、物力和财力;研究的进度和参与人员,等等。
根据内容可分为专业设计和统计设计。专业设计要求运用医学专业知识进行设计,它反映了研究者对医学专业知识的掌握程度和能力;统计设计是运用统计学知识进行设计,是保证研究者正确运用统计学知识进行统计描述和统计推断的前提。
研究设计类型统计设计可按照在研究过程中是否对研究对象进行干预分为调查研究设计和实验研究设计。调查设计是指研究者通过客观地观察、描述调查对象来搜集资料,未加任何的干预措施,比如:调查了解某地学龄前儿童的乙肝表面抗原的阳性率,某地新生儿出生缺陷的发生率等;实验设计是指研究者根据研究假设主动地对研究对象加以干预措施,并观察总结其结果,回答研究假设所提出的问题。实例:调查设计-某地老年人生活质量和需求的研究设计研究目的是了解某地老年人生活质量现状并探讨影响老年人生活质量的主要因素;研究方法是以问卷访谈方式来评价老年人的生活质量状况;资料收集是由经过专门培训的调查员(学生和教师)对老年人进行入户访问获得;调查量表采用专门生活质量量表,并根据当地的实际情况进行适当的修改;收集到的资料经核查整理后建立数据库,并用统计分析软件进行相应的整理和分析。实例:实验设计-研究脂健乳是否有降脂作用
首先假设脂健乳可以降低血脂,再将条件相似的20只大鼠先用高脂饲料喂养做成高脂血症的模型。然后将动物随机分为实验组和对照组实验组服用脂健乳对照组单纯服用豆奶喂养一个月后观察比较两组之间各项血脂指标的差别有无统计学意义,进而得出脂健乳是否具有降低血脂的保健作用的结论。2.搜集资料搜集资料是研究人员按照研究设计的具体要求,获得准确、完整、可靠的原始数据。医学统计资料主要来源于三方面:统计工作报表和报告卡
常规保存的工作记录
专项调查和实验研究资料3.整理资料整理资料是按照研究设计的目的对资料进行分组归纳,使分散的数据条理化,系统化,为资料的进一步分析做准备。原始资料的人工检查、核对
输入计算机、建立数据库
对数据库资料进行计算机检查
4.分析资料分析资料是指计算有关的统计指标,以反映数据的综合特征,阐明事物的内在联系和规律。统计描述是根据研究设计的要求,选用适当的统计指标、统计表、统计图等方法,对资料的数量特征及分布规律进行测定和描述。统计推断是根据概率分布和抽样的原理,在随机变量的样本信息基础上推断总体特征。统计推断包括参数估计和假设检验。在进行统计分析时,要根据统计设计的目的和要求,选用正确的统计推断方法,对样本资料进行准确的描述和推断,才能得到真实可靠的分析结果。三、统计学的基本概念同质与变异随机变量与研究资料的类型医学研究中常用的测量尺度个体、总体与样本参数与统计量误差频率与概率①同质就是性质相同,它是进行统计分析的前提。统计分析是在一定数量的观察单位的基础上进行的,这一定数量的观察单位在研究的主要方面必须具有相同的性质。比如,研究某地高血压病人的生活质量,研究对象必须是同质的,即都是同一地区的高血压病人。如果不能满足同质的要求,那么研究资料就是杂乱无章的,便不能得出有用的信息和结论。②变异
同质是相对的,研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着变异。比如,同一地区、同一年龄的男童的身高并非完全相同,而是千差万别、参差不齐的,这种参差不齐的情况就是变异。与同质的相对性不同,变异是绝对的、客观存在的,这在生物学和医学界是非常普遍的。
统计学就是通过对变异的研究来探索生物随机现象内在规律的一门科学。③变量与随机变量变量是指我们观察或测量到的每个观察单位的特征或指标,对观察单位的各个变量的观察结果称为变量值或观察值,因为测量不同的观察单位会得到不同的观察结果,所以称之为变量。变异是生物个体的共有特征,反映了生物个体的不确定性。在测量观察单位的变量值之前,只知道变量值所在的可能范围,并不知道其具体取值情况,比如只知道8岁男童的身高可能在50-150厘米的范围内,但不能确定某个男童的具体身高,正是因为变量的这种不确定性,概率论中将其称为随机变量。④医学研究中常用的测量尺度名义尺度:指变量的结果是按事物属性分类来进行的测量,如性别、职业,所有符号与属性一一对应,同一符号内各变量值的本质相同。顺序尺度:其变量值不但可以分类,而且各类之间有某种特征程度上的不同,可用数学上大于或小于来表达它们之间的关系,如治疗结果、文化程度。区间尺度:指用数量大小来度量某种特征,它不仅表示顺序,而且可把两次测量之间的相差表达出来。其变量值可以是实数轴上的一个连续区间,任意两个取值之间可有无穷多个值,表现为连续型变量,也可以是整数范围内的随机变量。比数尺度:指以比值、比例等来度量某种特征,如中性粒细胞占白细胞总数的百分比、体重指数等。⑤个体、总体与样本
个体:
可以是一个人、一个动物、一个家庭、一个地区、一份样品等,是科学研究的基本观察单位。总体:
根据研究目的所确定的性质相同的所有观察单位的某种变量值的集合。如:调查某地1999年正常成年男子的红细胞数,则观察对象是该地1999年正常成年男子,总体就是该地1999年正常成年男子的血红细胞数。根据总体中观察单位数是否已知,分为:有限总体:有确定的时间、空间和有限个观察单位,如上例。无限总体:没有确定的时间和空间限制,观察单位数为无限。样本:
从总体中随机抽取的部分观察单位的某个变量的测量值所组成的集合。抽样的目的是用样本信息来推断总体特征,因此要保证样本的可靠性和代表性,使样本能够充分地反映总体的真实情况。这就要求抽样要遵守随机化的原则,并保证足够的样本含量。随机抽样是保证总体中每一个观察单位均有同等机会被抽取。样本含量:指样本中所包含的观察单位数。
⑥参数和统计量在科研工作中,通过对样本中的观察单位的变量值进行统计分析所得到的统计指标称为统计量。如:样本均数、样本回归系数、样本标准差、样本率等。参数是反映总体特征的统计指标,如果样本的代表性好,那么统计量与相应的参数的数值非常接近,就可以用样本统计量来估计总体参数,所以样本的统计量也称为参数的估计值,例如用样本均数、样本回归系数和样本率来估计总体均数、总体回归系数和总体率。⑦误差
统计学研究中,将观察值(实际值)与真实值(理论值)之差称之为误差,由于生物个体的变异性等原因使得误差在医学领域中广泛存在。误差按其产生的原因和性质可分为:
1.过失误差过失误差是由于观察者的错误造成的误差,比如观察者有意或无意的记录错误,计算错误,数据核查、录入错误,度量衡单位错误,甚至故意修改数据导致的错误。过失误差在统计学研究中是不允许的,必须通过加强调查、录入和分析人员的责任心,完善检查核对制度等方法来避免和消除过失误差,以保证数据和结果的真实性。2.系统误差系统误差是由于设计人员、受试者、观察者、研究者、仪器设备、研究方法及外部环境的非实验因素等原因的影响造成的有一定的变化规律的误差。总的来说,系统误差的产生原因复杂,而且不能通过适当的统计方法来消除,所以对研究结果的影响很大。但是系统误差一般是恒向、恒量的,且有其特定的变化规律,故可以通过严格、科学的实验设计将其减小或控制在最小范围之内。3.随机误差随机误差是排除过失误差、系统误差之后尚存在的误差,它由多种无法控制的因素引起的,大小和方向是随机变化的。尽管随机误差是不可避免的,但其以零为中心呈正态分布,所以可以利用概率统计学的方法对随机误差进行估计。随机误差包括抽样误差和随机测量误差两类。抽样误差是在随机抽样研究中,由于抽样而引起的样本统计量和总体参数之间的差异。抽样误差的大小主要取决于个体之间变异程度的大小和样本含量的多少,变异程度越大,样本含量越小,抽样误差就越大;反之亦然。随机测量误差指在同一条件下对同一观察单位的同一指标进行重复测量所产生的误差。由于医学技术水平的限制,随机测量误差目前也是无法避免
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《第二单元 多彩的游记 2 设计版面》教学实录-2024-2025学年川教版信息技术(2019)四年级下册
- 设计制作校园植物名片(教学实录)2024-2025学年四年级上册信息技术苏科版
- 商品贸易采购合同范例
- 临安区房产买卖合同范例
- 承包土地写合同范例
- 2025年镇江道路客货运输从业资格证b2考试题库
- 员工激励股合同范例
- 人工智能风险治理报告(2024年)-构建面向产业的人工智能安全治理实践方案
- 版纳租车合同范例
- 个人租房合同范例版
- 数学文化欣赏
- 脊柱区1教学讲解课件
- KK5-冷切锯操作手册-20151124
- 人工智能对中学教学的影响与应对策略
- 闭合导线自动计算表
- 分管学校安全、德育、后勤等业务副校长述职报告
- 笔试考试:HSK笔试(三级)真题模拟汇编(共603题)
- 全国城市一览表-excel
- 国际金融课后习题答案(吴志明第五版)第1-9章
- 《WPS演示制作与设计》计算机应用基础高职专科一等奖(含课件制作试题及答案)
- 《基于杜邦分析法周大福珠宝企业盈利能力分析报告(6400字)》
评论
0/150
提交评论