版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
流行病与卫生统计学基本知识第一页,共一百五十二页,2022年,8月28日健康管理对个体和群体的健康进行全面监测、分析、评估,提供健康咨询和指导以及对健康危险因素进行干预的全过程。第二页,共一百五十二页,2022年,8月28日特点管理学健康维护疾病预防临床治疗康复第三页,共一百五十二页,2022年,8月28日基本步骤健康信息、收集资料健康风险评估一般健康状况分析评估、疾病风险预测健康干预、咨询、指导干预效果评估第四页,共一百五十二页,2022年,8月28日一、流行病学二、统计学基础第五页,共一百五十二页,2022年,8月28日流行病学Epidemiology第六页,共一百五十二页,2022年,8月28日研究对象传染病慢性病及所有疾病人群健康状况、公共卫生问题第七页,共一百五十二页,2022年,8月28日定义研究人群中疾病与健康状况的分布及其影响因素,并研究防制疾病及促进健康的策略和措施的科学。第八页,共一百五十二页,2022年,8月28日基本含义从群体的角度研究疾病和健康状况从研究各种疾病与健康的分布的现象入手,探讨分布的规律,研究影响分布的因素运用流行病学的理论与方法,研究控制疾病流行,促进群体健康的策略与措施第九页,共一百五十二页,2022年,8月28日研究方法观察法实验法数理法描述流行病学
分析流行病学
横断面调查监测生态学研究病例对照研究队列研究实验流行病学
临床试验现场试验社区干预项目理论流行病学
产生假设
检验假设
验证假设
三、第十页,共一百五十二页,2022年,8月28日常用指标第十一页,共一百五十二页,2022年,8月28日一、相对数指标比(ratio):两个变量的数值之商特点:表示分子和分母间的数量关系;不管分子和分母所来自的总体如何;分子和分母是两个彼此分离的互相不重叠或包含的量;分子和分母本身可以是绝对数、比例、比。
第十二页,共一百五十二页,2022年,8月28日2.比例(proportion):表示同一事物局部与总体之间数量上的比值。构成比例:是自身构成的部分与全体的比值。代表随机抽样,抽取到某种成分的概率。发生(频率)比例:在其内发生某变化的部分与全体的比值。反映在一定时间内,发生某种变化者占全体的比例。无量纲,取值范围在[0,1]。第十三页,共一百五十二页,2022年,8月28日
构成比例
常用来表示疾病或死亡的顺位、位次或所占比重第十四页,共一百五十二页,2022年,8月28日有100台电视机,连续开放1000小时,有8台坏了,这100台电视机1000小时的损坏比例等于8%。
发生频率比例第十五页,共一百五十二页,2022年,8月28日3.率(rate):在某一确定人群中某事件发生的频率。有量纲,可以取任何值,不一定在[0,1]当观察期间为一个单位时段,变量的变化远远小于变量的值时,率与发生比例在数值上近似相等。第十六页,共一百五十二页,2022年,8月28日发病指标发病率(incidencerate)罹患率(attackrate)患病率(prevalencerate)感染率(infectionrate)病残率(disabilityrate)第十七页,共一百五十二页,2022年,8月28日(一)发病率
表示在一定期间内,一定人群中某病新病例出现的频率。K=100%,1000/千,或10000/万……
第十八页,共一百五十二页,2022年,8月28日应用
用作描述疾病分布反映疾病发生比率它的变化意味着病因因素的变化可按病种、年龄、性别、职业等特征分别统计计算获得发病专率
第十九页,共一百五十二页,2022年,8月28日注意事项分子:一定期间内的新发病人数。分母:指可能会发生该病的人群。发病率一般根据病例报告来计算,若病例报告制度不健全,病例报告漏报情况严重时或诊断的标准不一致时,其准确性将受到影响。比较不同地区的发病资料时,应考虑年龄或性别结构不同,注意可比性,常用发病的标化率进行比较。第二十页,共一百五十二页,2022年,8月28日(二)患病率
某特定时间内总人口中某病新旧病例所占的比例。按观察时间:期间患病率时点患病率
第二十一页,共一百五十二页,2022年,8月28日K=100%,
1000/千,或
10000/万
……
若未加任何说明,一般是指时点患病率第二十二页,共一百五十二页,2022年,8月28日
当某地某病的发病率和该病的病程在相当长时间内保持稳定时,患病率、发病率和病程三者的关系是:
P患病率I发病率D病程
第二十三页,共一百五十二页,2022年,8月28日
表示病程较长的慢性病的发生或流行为医疗设施规划,估计医院床位周转,卫生设施及人力的需要量,医疗质量的评估和医疗费用的投入等提供科学依据。注意:研究发病的病因时,应选用发病率而不选用患病率。应用第二十四页,共一百五十二页,2022年,8月28日死亡指标
死亡率(mortalityrate)
病死率(fatalityrate)
生存率(survivalrate)
累积死亡率(cumulativemortalityrate)第二十五页,共一百五十二页,2022年,8月28日
表示在一定期间内,在一定人群中,死于某病(或死于所有原因)的频率。测量人群死亡危险最常用的指标。
K=100%,
1000/千,或
10000/万
……死亡率
用于衡量某一时期,一个地区人群死亡危险性大小的指标。第二十六页,共一百五十二页,2022年,8月28日注意事项
分母中同年平均人口数可用斜面两种办法代替:该年7月1日人口数年初人口数加年终人口数之和除以2第二十七页,共一百五十二页,2022年,8月28日注意事项粗死亡率:死于所有原因的死亡率是一种未经过调整的率。比较不同地区或年代的疾病死亡率时,不宜直接用粗死亡率来比较。各地区人口的年龄或性别构成可能不同,使得不同地区或人群间的死亡率可能不具有可比性,常需将死亡率进行标化后才可以比较。第二十八页,共一百五十二页,2022年,8月28日
表示一定时期内(通常为1年),患某病的全部病人中因该病死亡者的比例。
K=100%,
1000/千,或
10000/万
……病死率第二十九页,共一百五十二页,2022年,8月28日应用
表示某确诊疾病的死亡概率可反映该疾病的严重程度反映医疗水平和诊断能力通常多用于急性传染病,较少用于慢性病第三十页,共一百五十二页,2022年,8月28日生存率
指接受某种治疗的病人或患某病的人中,经若干年随访(通常为1、3、
5年)后,尚存活的病人数所占的比例。
第三十一页,共一百五十二页,2022年,8月28日应用研究疾病对生命的危害程度评价某些病程较长疾病的远期疗效在某些慢性病、传染病,如结核病、癌症、冠心病等的研究中常应用第三十二页,共一百五十二页,2022年,8月28日累积死亡率在一定时间内死亡人数占某确定人群中的比例。
累积死亡率是由各年龄组死亡专率构成,不受人口构成的影响,两个累积死亡率可直接比较。第三十三页,共一百五十二页,2022年,8月28日注意事项计算某病的发病率或死亡率时,从理论上讲应以所有可能患某种疾病的人数作为分母才能正确地反映发病或死亡的强度。但在实际计算时有一定困难。分子应有确切的定义或标准并应当坚持始终计算疾病的频率时,通常是以年为时间单位,但也可根据研究者的需要另外规定时间单位第三十四页,共一百五十二页,2022年,8月28日关联强度的流行病学指标相对危险度特异危险度人群特异危险度人群特异危险度百分比第三十五页,共一百五十二页,2022年,8月28日相对危险度(危险比/率比)RR
意义:暴露组发病或死亡的危险是非暴露组的多少倍RR值越大,暴露的效应越大,暴露与结局关联强度越大
Ie:暴露组率Io:非暴露组率概念:暴露组发病(或死亡)率与非暴露组发病(或死亡)率的比值。第三十六页,共一百五十二页,2022年,8月28日意义RR=1,表示暴露与疾病危险无关联RR>1,说明疾病的危险度增加,正相关,暴露越多,疾病越多,可能是致病因素。RR<1,说明疾病的危险度减少,负相关,暴露越多,疾病越少,具有保护意义。第三十七页,共一百五十二页,2022年,8月28日特异危险度(归因危险度/率差)AR
意义暴露与非暴露人群比较,所增加的疾病发生数量,表示单独由某因素所致的发病(或死亡)危险AR值越大,暴露因素消除后所减少的疾病数量越大或概念:暴露组发病(或死亡)率与非暴露组发病(或死亡)率之差。第三十八页,共一百五十二页,2022年,8月28日
意义:吸烟对于每个受害者,患肺癌的危险性比患心血管病的危险大得多;对于整个人群,吸烟引起心血管的死亡率却比肺癌的高。RR吸烟对肺癌的病因学意义较大AR戒烟对心血管疾病的预防作用较大,即公共卫生意义较大RR与AR的区别疾病吸烟者非吸烟者RRAR肺癌48.334.6910.843.84心血管疾病294.67169.451.7125.13(1/10万人年)第三十九页,共一百五十二页,2022年,8月28日人群归因危险度
PAR
意义暴露人群与一般人群比较,所增加的疾病发生率的大小PAR值越大,暴露因素消除后所减少的疾病数量越大
PAR=It-I0
It:全人群发病率Io:非暴露组发病率概念:指总人群发病率中归因于暴露的部分。第四十页,共一百五十二页,2022年,8月28日人群归因危险度百分比PAR%
意义
PAR占总人群全部发病(或死亡)的百分比
或
Pe:总人群的暴露比例概念:人群中因暴露于某因素所致某病占人群中某病发病的百分比。第四十一页,共一百五十二页,2022年,8月28日流行病学研究方法分类第四十二页,共一百五十二页,2022年,8月28日按设计类型分类描述流行病学分析流行病学横断面调查疾病监测生态学研究筛检病例对照研究队列研究实验流行病学随机化临床实验现场试验社区干预实验理论流行病学—流行病学模型第四十三页,共一百五十二页,2022年,8月28日描述流行病学收集资料(现有资料、专门目的调查所得资料)计算相应统计指标和疾病率比较不同时间、地区、人群中的分布情况探索病因、评价防治措施及其效果第四十四页,共一百五十二页,2022年,8月28日研究特定时点或期间内对特定人群某种疾病或健康状况进行的调查研究。调查人群:社区居民、企业员工、社区卫生服务中心的患者又称横断面研究、患病率研究第一节、现况研究现况调查第四十五页,共一百五十二页,2022年,8月28日描述疾病的患病率或健康状况的分布提供疾病致病因素的线索确定高危人群对疾病监测、预防接种效果及其他资料的质量评价第二节现况调查目的第四十六页,共一百五十二页,2022年,8月28日方法及种类面访信访电话访问自填式问卷调查:个人基本情况、个人与家族病史、行为及生活方式体格检查和实验室检查敏感问题的调查方法第四十七页,共一百五十二页,2022年,8月28日常用抽样调查,结果有较强推广意义有来自同一群体的自然形成的同期对照组,结果具有可比性可同时观察多种因素第二节现况调查优点第四十八页,共一百五十二页,2022年,8月28日难以确定先因后果的时相关系不能获得发病率资料研究对象可能处于临床前期而被误定为正常人第二节现况调查缺点第四十九页,共一百五十二页,2022年,8月28日研究实例P234第五十页,共一百五十二页,2022年,8月28日练习某社区卫生服务中心想了解社区居民慢性病患病及相关因素的现状,为制定社区慢性病管理及慢性病健康教育措施提供依据。第五十一页,共一百五十二页,2022年,8月28日方式:抽样调查步骤:确定研究对象,估计样本量第五十二页,共一百五十二页,2022年,8月28日调查方法:问卷包括:人口学特征、慢性病患病的情况、慢性病相关危险因素情况以及慢性病相关知识分析指标:患病率(病种、性别、年龄组);暴露率(各危险因素、性别、年龄组、暴露率与患病的关系);知晓率(相关知识、性别、年龄组)第五十三页,共一百五十二页,2022年,8月28日分析流行病学描述性研究分析疾病和健康状态与可能的致病因素之间的关系筛选致病因素形成和检验病因假说第五十四页,共一百五十二页,2022年,8月28日队列研究对一定范围内未患有的人群按是否暴露于某因素(或具备某种特征)进行分组,随访一定的时间,比较两组的发病率或死亡率,以研究某因素或某特征是否与某疾病发生或死亡存在着关系。第五十五页,共一百五十二页,2022年,8月28日目标人群未患某研究疾病代表性样本NoYesNo暴露组非暴露组时间顺序
是否暴露某个危险因子结局(疾病)队列研究的结构模式图Yes第五十六页,共一百五十二页,2022年,8月28日时间顺序
过去
现在
将来
历史性队列双向性队列前瞻性队列回顾性收集已有的历史资料回顾性收集已有的历史资料继续前瞻性收集资料前瞻性收集资料队列研究类型示意图第五十七页,共一百五十二页,2022年,8月28日观察法设立对照由因到果,符合时间顺序确证暴露和结局因果关系追踪两组间的发病或死亡率差异特点第五十八页,共一百五十二页,2022年,8月28日队列研究优点:从原因(病因)到结果(疾病)可直接进行因果推断可进行一因多果研究缺点:所需人数较多,时间较长,易产生失访偏倚第五十九页,共一百五十二页,2022年,8月28日研究实例P236第六十页,共一百五十二页,2022年,8月28日探讨超重/肥胖与糖尿病的关系第六十一页,共一百五十二页,2022年,8月28日确定暴露因素超重:24≤体重指数<28肥胖:体重指数≥28第六十二页,共一百五十二页,2022年,8月28日结局随访观察中将出现的预期结果事件,即研究者希望追踪观察的时间糖尿病第六十三页,共一百五十二页,2022年,8月28日确定研究现场一个或多个社区代表性:研究人群能够反映目标人群的情况可行性:人力、物力的耗费,研究现场的工作基础,研究对象的依从性第六十四页,共一百五十二页,2022年,8月28日确定研究人群超重组、肥胖组对照组(体重正常组)要求:三组人群?糖尿病除了体重外,其他各种影响因素或人群特征都应尽可能地相同,即具有可比性第六十五页,共一百五十二页,2022年,8月28日估算样本量资料收集与随访:随访的方法、内容、时间间隔、观察终点及随访者基线资料和随访资料:问卷调查、体格检查和实验室检查随访周期:每年1次第六十六页,共一百五十二页,2022年,8月28日分析指标超重组、肥胖组和对照组的可比性及资料的可靠性分析计算两组的糖尿病的发病率、病死率和年发病率等指标计算超重或肥胖与糖尿病的关联强度第六十七页,共一百五十二页,2022年,8月28日评估研究过程中可能存在的各种偏倚失访偏倚信息偏倚混杂偏倚第六十八页,共一百五十二页,2022年,8月28日病例对照研究在疾病发生之后,以现在患有该病的病人为一组(病例组),以未有该病但其它条件如性别、年龄与病人相同的人为另一组(对照组),通过询问,化验比较或复查病史,按其既往各种可疑致病因素或验证病因假说。第六十九页,共一百五十二页,2022年,8月28日
图1病例对照研究原理示意图调查方向:收集回顾性资料
比较人数暴露疾病病例对照+-+-acbd第七十页,共一百五十二页,2022年,8月28日特点
观察性研究设立对照由果推因不能证实暴露与疾病的因果关系只能推测判断暴露与疾病是否有关联第七十一页,共一百五十二页,2022年,8月28日病例对照研究优点:回顾性,需要人力、物力较小所需样本量不大,资料易于收集缺点:易于产生偏倚第七十二页,共一百五十二页,2022年,8月28日研究实例P237第七十三页,共一百五十二页,2022年,8月28日
将来自同一总体的研究人群随机分为实验组和对照组,研究者对实验组人群施加某种干预措施后,随访并比较两组人群的发病(死亡)情况或健康状况有无差别及差别大小,从而判断干预措施效果的一种前瞻性、实验性研究方法。实验性研究第七十四页,共一百五十二页,2022年,8月28日实验流行病学特点:前瞻性必须施加一种或多种干预处理研究对象来自同一个总体的抽样人群分组按照随机分配原则必须有平行的实验组和对照组,两者具有可比性第七十五页,共一百五十二页,2022年,8月28日分类按研究场所划分现场试验临床试验按设计类型划分个体试验社区试验第七十六页,共一百五十二页,2022年,8月28日
临床试验研究的结构示意图临床试验(clinicaltrial)
研究对象(病人)实验组(干预组)无效无效有效对照组
有效第七十七页,共一百五十二页,2022年,8月28日
现场试验研究的结构示意图研究对象(未患病者)实验组(干预组)无效无效有效对照组
有效第七十八页,共一百五十二页,2022年,8月28日个体试验基本单位:个人管理对象:未患病人群、高危人群、患病人群第七十九页,共一百五十二页,2022年,8月28日某社区卫生服务中心想了解非药物的生活方式干预在糖尿病防治中的效果第八十页,共一百五十二页,2022年,8月28日确定研究对象糖尿病患者估计样本量随机分组干预组:综合干预组(常规治疗+健康教育+个体针对性指导)发放糖尿病健康知识材料、糖尿病专题讲座、组织患者交流讨论饮食、运动、用药指导、自我监测指导对照组:常规治疗组第八十一页,共一百五十二页,2022年,8月28日确定干预时间随访收集资料资料分析:两组基线资料的均衡性分析干预的有效性分析:两组各自干预前后的对比分析干预组的效果?对照组的效果两组变化情况的对比分析第八十二页,共一百五十二页,2022年,8月28日社区干预试验对象:社区尽可能相似的两个社区某学校的班级或某个年龄组的人群基线调查随机选择干预组和对照组干预结束后对两个社区进行随访调查干预效果:比较两个社区的疾病和危险因素的暴露水平的差异第八十三页,共一百五十二页,2022年,8月28日诊断试验第八十四页,共一百五十二页,2022年,8月28日
筛检试验
诊断试验
对象不同
健康人或无症状的病人
病人
目的不同
把病人及可疑病人与无病者区分开来
病人与可疑有病但实际无病的人区分开来
要求不同
快速、简便、高灵敏度
科学性、准确性
费用不同
简单、廉价
一般花费较贵
处理不同
阳性者须进一步作诊断试验以便确诊
结果阳性者要随之以治疗
筛检试验与诊断试验的区别第八十五页,共一百五十二页,2022年,8月28日指标客观指标:如体温计测定的体温主观指标:如疼痛半客观指标:根据诊断者的主观感知判断(如肿物的硬度、大小)第八十六页,共一百五十二页,2022年,8月28日受试者工作特性曲线(receiveroperatorcharacteristiccurve,ROC)
是用真阳性率和假阳性率作图得出的曲线,它可表示灵敏度和特异度之间的关系第八十七页,共一百五十二页,2022年,8月28日糖尿病血糖试验的ROC曲线(李立明2002)第八十八页,共一百五十二页,2022年,8月28日
ROC曲线常用来决定最佳临界点,通常最接近左上角那一点,可定为最佳临界点第八十九页,共一百五十二页,2022年,8月28日
ROC曲线也可用来比较两种和两种以上诊断试验的诊断价值,从而帮助临床医师作出最佳选择。第九十页,共一百五十二页,2022年,8月28日评价指标(一)真实性(validity)测量值与实际值相符合的程度,亦称效度。包括◆灵敏度与假阴性率◆特异度与假阳性率◆似然比◆正确诊断指数第九十一页,共一百五十二页,2022年,8月28日(二)可靠性(reliability)
又称信度,指某一筛检方法在相同条件下重复测量同一受试者时,所获结果的一致性。◈变异系数
◈符合率
◈诊断试验的一致性分析
第九十二页,共一百五十二页,2022年,8月28日(三)收益◈阳性预测值(positivepredictivevalue):是指试验阳性者患目标疾病的可能性◈阴性预测值(negativepredictivevalue):是指试验阴性者不患目标疾病的可能性
第九十三页,共一百五十二页,2022年,8月28日提高诊断质量的方法:◈选择患病率高的人群◈采用联合试
串联:全部筛检试验结果均为阳性者才定为阳性。该法可以提高特异度。并联:只要有任何一项筛检试验结果为阳性就可定为阳性。该法可以提高灵敏度。第九十四页,共一百五十二页,2022年,8月28日医学统计学第九十五页,共一百五十二页,2022年,8月28日定义
运用数理统计的基本原理和方法对预防医学和公共卫生领域中的科学研究进行设计,以及研究资料的收集、整理和分析的一门应用科学。第九十六页,共一百五十二页,2022年,8月28日统计设计调查设计实验设计第九十七页,共一百五十二页,2022年,8月28日A、实验设计:研究对象接受了某种干预(或处理)后获得的数据例:某研究者为了解螺旋藻的保健功能对患有糖尿病的小鼠作降血糖实验,按初始血糖浓度将20只小鼠随机分为两组,一组为空白对照,另一组给螺旋藻,然后观察血糖是否有变化。第九十八页,共一百五十二页,2022年,8月28日B、调查设计:为了对某个特定人群的现状作调查而进行的研究设计例:2005年某地区小学生营养膳食调查第九十九页,共一百五十二页,2022年,8月28日统计分析Ⅰ统计描述统计指标统计图表统计分布平均数指标变异指标相对数指标统计表统计图正态分布t分布F分布Χ2分布第一百页,共一百五十二页,2022年,8月28日统计分析Ⅱ统计推断参数估计点估计区间估计
假设检验:比较它们的样本均数或样本率2第一百零一页,共一百五十二页,2022年,8月28日统计资料的类型常指单个反应变量的数据类型。
计量资料计数资料等级资料
计量、计数和等级资料间可相互转化。why第一百零二页,共一百五十二页,2022年,8月28日
计数资料是先将观察单位按某种属性或类别分成若干组,再清点各组观察单位个数所得到的资料。
如:检验结果-用阳性或阴性反应表示,又如型,按A、B、AB、O四型分型。第一百零三页,共一百五十二页,2022年,8月28日
计数资料每个观察单位之间没有量的差别,但各组之间具有质的不同,不同性质的观察单位不能归入一组。对这类资料通常是先计算百分比或率等相对数,需要时做百分比或率之间的比较,也可做两事物之间相关的相关分析。第一百零四页,共一百五十二页,2022年,8月28日
计量资料是用仪器、工具或其它定量方法对每个观察单位的某项标志进行测量,并把测量结果用数值大小表示出来的资料,一般带有度量衡或其它单位。如检查一批应征青年体重,需要磅秤测量,通常以公斤为单位,测得许多大小不一的体重值。其它如身长(cm)、血压mmHg)、脉搏(次/分)、红细胞(万/mm3)转氨酶(单位)等,都属于计量资料。第一百零五页,共一百五十二页,2022年,8月28日
每个观察单位的观测值之间有量的区别,但同一批观察单位必须是同质的。对这类资料通常先计算平均数与标准差等指标,需要时做各均数之间的比较或各变量之间的分析。第一百零六页,共一百五十二页,2022年,8月28日
等级资料或半定量资料还有一些资料,也是将观察单位按某种属性或某个标志分组,然后清点各组观察单位个数得来的,但所分各组之间具有等级顺序。这些资料既具有计数资料的特点,又兼有半定量的性质,称为等级资料或半定量资料。第一百零七页,共一百五十二页,2022年,8月28日
例如对一批急性病毒性肝炎患者作麝香草酚絮状试验,将试验结果按-、+、++、+++、++++分组,显然各组之间既有等级顺序,又有程序与量的差别。又如某病住院病人的治疗结果,按治愈、好转、无效、死亡分组,同样各组之间具有顺序与程度之别。分析等级资料常用的统计指标有比和率,常用的统计方法有秩和检验、参照单位分析等。第一百零八页,共一百五十二页,2022年,8月28日统计工作的步骤
设计(design)
收集资料(collectionofdata)
整理资料(Sortingdata)
分析资料(analysisofdata)第一百零九页,共一百五十二页,2022年,8月28日1.设计(design)
资料收集、整理、分析全过程的设想和安排。(制定周密的研究计划)
选题:目的、意义、假说;确定观察对象和观察单位:普查、抽样调查;收集资料指标和方法:报表、专项调查;分析指标和方法;质控:误差、偏倚控制;经费预算;组织;预期成果;第一百一十页,共一百五十二页,2022年,8月28日2.收集资料(collectionofdata)
统计报表;资料来源经常性工作记录;专题调查或实验。完整、准确和及时资料要求有足够数量,即n够大代表性及可比性第一百一十一页,共一百五十二页,2022年,8月28日3.整理资料(Sortingdata)
资料核查、录入、分组、汇总。4.分析资料(analysisofdata)
计算相关指标,阐明事物的内在联系和规律。
统计描述(descriptivestatistics)
统计推断(inferentialstatistics)第一百一十二页,共一百五十二页,2022年,8月28日医学统计学的重要概念总体(population)
根据研究目的确定的同质观察单位的全体。(同质的所有观察单位某种变量值的集合)例:调查某地2004年20岁健康男大学生的身高了解某市某年三级甲等医院的病床数
第一百一十三页,共一百五十二页,2022年,8月28日样本与随机抽样(1)样本(sample)
从总体中随机抽取有代表性的一部分个体,其测量值(观察值)的集合。(2)随机抽样(randomsampling)总体中每个体都有均等机会被抽取,抽到谁具有一定的偶然性。包括:单纯随机抽样、整群抽样、系统抽样、分层抽样等例:要了解某地2004年所有20岁健康男大学生的身高。第一百一十四页,共一百五十二页,2022年,8月28日我们从总体中抽取一部分观察单位加以实际观察或调查研究,根据对这一部分观察单位的观察研究结果,再去推论和估计总体情况。观察样本的目的在于推论总体,这就是样本与总体的辩证关系。为了使样本能够正确反映总体情况,对总体要有明确的规定;总体内所有观察单位必须是同质的;在抽取样本的过程中,必须遵守随机化原则;样本的观察单位还要有足够的数量。第一百一十五页,共一百五十二页,2022年,8月28日变量与变量值
(1)变量(variable):观察单位(或个体)的某种属性或标志。(2)变量值(valueofvariable):对变量进行测量或观察的值。即测量值或观察值。例1:调查某市某年三级甲等医院的病床数例2:调查某地成年人的高血压患病情况(年龄、性别、职业、文化程度、体重、血压等)第一百一十六页,共一百五十二页,2022年,8月28日同质与变异(1)同质(homogeneity):研究对象具有相同的背景、条件、属性。
(2)变异(variation):同一性质的事物,其个体观察值(变量值)之间的差异。生物因素及其他综合因素、偶然性→个体差异→同质单位的各个体指标的差异例1:调查某地2004年所有20岁健康男大学生的身高例2:研究某种新药治疗胃溃疡的效果
第一百一十七页,共一百五十二页,2022年,8月28日参数与统计量(1)参数(parameter):总体指标。凡是来自总体的指标均称之。(2)统计量:样本指标。从总体中随机抽取的样本所算得的指标值。例:某地2002年全部正常成年男子的平均红细胞数,从该总体中随机抽取的144名正常成年男子的平均红细胞数第一百一十八页,共一百五十二页,2022年,8月28日误差(error):测量值与真值,样本指标与总体指标之差。系统误差随机误差随机测量误差抽样误差第一百一十九页,共一百五十二页,2022年,8月28日(1)系统误差(systematicerror)
由于测量系统失准所导致的误差。a.操作方法不正确或对调查问卷理解有误b.医生掌握疗效标准偏高或偏低c.周围环境的改变:室温、作用时间等d.仪器不准或试剂不合格例:测血压特点:①有倾向性。②通过校正、培训等可避免,但不能用统计方法解决。第一百二十页,共一百五十二页,2022年,8月28日(2)随机测量误差(randomerror)
偶然机遇所致,无方向性。无法避免,只要将误差控制在允许范围内,数据仍可用。第一百二十一页,共一百五十二页,2022年,8月28日(3)抽样误差(samplingerror)
在抽样研究中,即使消除了系统误差,控制了随机测量误差,样本统计指标和总体参数间仍会存在差别。由抽样引起,是个体变异造成,无倾向性。无法避免,但有规律可循,用统计方法估计或增大样本使其减少。第一百二十二页,共一百五十二页,2022年,8月28日例:假定已知某年某地所有13岁女大学生身高的总体均数是155.4cm,总体标准差是5.3cm。在此有限总体中多次重复抽样,每次均抽取100例组成一个样本,可算出每一个样本的平均身高。得到的样本均数可能是153.6、153.1、154.9,…,158.7等。第一百二十三页,共一百五十二页,2022年,8月28日概率与频率(1)概率(probability)
某随机事件发生的可能性大小的数值。随机事件的概率在0与1之间,即≤P≤1。P越接近1,表明事件发生可能性越大,P越接近0,表明事件发生可能性越小。P≤0.05或P≤0.01称为小概率事件,表示在一次实验或观察中某事件发生的可能性很小,可以视为很可能不发生。第一百二十四页,共一百五十二页,2022年,8月28日(2)频率(frequency)
一次试验结果计算得到的样本率。例:某药治疗200个病人,其治愈率为80%;
经过多次试验和许多人的治疗,其治愈率稳定在80%。第一百二十五页,共一百五十二页,2022年,8月28日统计描述第一百二十六页,共一百五十二页,2022年,8月28日连续型定量变量的频数分布表
1.求全距(极差,range)R=最大值-最小值
2.定组数、组距、组段
i=R/kk为组段数(8~15组)3.列表归纳第一组下限含最小值(略小于最小值),末组上限含最大值(略大于最大值),组中值=(相邻两组下限之和)/2,列出各组频数,计算各组频率、累积频数、累积频率。第一百二十七页,共一百五十二页,2022年,8月28日举例
1.计量资料的频数分布表
[例1]某市1995年对110名7岁男孩测量身高(cm)资料。
R=134.5-110.2=24.3(cm)i=24.3/102(cm)
注意:分组可等距或不等距。第一百二十八页,共一百五十二页,2022年,8月28日
表1110名7岁男孩身高频数组段组中值频数频率累积频数累积频率
Xff%f(f)%110~11110.9110.91112~11332.7343.64114~11598.181311.82116~11798.182220.00118~1191513.643733.64120~1211816.365550.00122~1232119.097669.09124~1251412.739081.82126~127109.0910090.91128~12943.6410494.55130~13132.7310797.27132~13321.8210999.09134-13613510.91110100.00合计110100.00--第一百二十九页,共一百五十二页,2022年,8月28日
直方图(histogram)(本图为近似对称分布)
111113115117119121123125127129131133135
身高(cm)
图1
某市110名7岁男骇身高的频数分布05101520人数第一百三十页,共一百五十二页,2022年,8月28日定量变量的特征数
集中趋势(centraltendency)离散趋势(tendencyofdispersion)(一)描述集中趋势的统计指标算术均数(均数)
常用(样本)、
(总体)
指标几何均数G
中位数M第一百三十一页,共一百五十二页,2022年,8月28日常用指标
1.均数(mean)
算术均数(arithmeticmean)
条件:观察值呈正态分布或近似正态分布
(对称或近似对称分布)的资料公式:直接法加权法x0为组中值特性:
第一百三十二页,共一百五十二页,2022年,8月28日2.几何均数G(geometricmean)
条件:观察值呈倍数(等比级数)
或对数正态分布的资料。公式:直接法加权法
注意:观察值不能有0;数据不能同时有正值与负值。同一资料的G<
第一百三十三页,共一百五十二页,2022年,8月28日3.中位数M(median)
概念:一组观察值按大小顺序排列,位次居中的数值。条件:任何分布资料。常用于偏态分布、未知分布、一端或两端无界分布的资料。公式:直接法(n为奇数)(n为偶数)
第一百三十四页,共一百五十二页,2022年,8月28日离散趋势概念:描述一组观察值的离散程度。
极差R
四分位间距Q(QR)
方差S2
标准差S(最常用)
变异系数CV常用指标第一百三十五页,共一百五十二页,2022年,8月28日
1.极差R(全距,range)R=xmax–xmin
缺点:不稳定(易受极大值、极小值影响;即使不变,R的抽样误差也较大。)
浪费信息大(只考虑两端点值,与n无关)
适用:任何分布资料(末端无确切值数据除外)2.四分位数间距Q(inter-quartilerange)
Q=QU–QL=P75–P25=中间一半观察值的极差特点:较全距稳定;浪费信息较全距少。适用:偏态分布;未知分布;末端无界资料。第一百三十六页,共一百五十二页,2022年,8月28日3.方差(variance)
均方差(meansquaredeviation)总体方差样本方差直接法:加权法:第一百三十七页,共一百五十二页,2022年,8月28日4.标准差(standarddeviation,SD)
总体标准差
样本标准差
条件:资料呈正态分布或对称分布。特点:单位与均数同;S0;
常用描述计量资料。第一百三十八页,共一百五十二页,2022年,8月28日5.变异系数CV(coefficientofvariation)
离散系数(coefficientofdispersion)
特点:CV为无量纲应用:量纲不同的多组变异度的比较;均数相差悬殊的多组变异度的比较。方差、标准差、变异系数均能综合反映全部观察值的变异程度。第一百三十九页,共一百五十二页,2022年,8月28日6.频数表百分位数法
M=P50
找中位数所在组段,即累积频率刚大于50%的组按下式计算中位数
式中:x表示第几百分位数;lx
表示该组段的下限;i表示该组段的组距;fx表示该组段的频数;fL
表示该组段对上一组段的累积频数;n表示样本例数。用上式可计算任意百分位数。第一百四十页,共一百五十二页,2022年,8月28日分类资料统计描述绝对数
调查或实验搜集来的原始资料,经过汇总之后得到的小计或总计数值称为绝对数(即总量指标)。如发病人次数、医院收容人数、治愈人数等。总量指标反映一定条件下某种事物的规模或水平,是计划或总结工作的依据,同时,又是计算相对数与平均数的基础,但是绝对数往往不便于比较,因此在实际工作中还必须计算相对数与平均数。
第一百四十一页,共一百五十二页,2022年,8月28日一、相对数及其意义
相对数是两个有关的绝对数之比,通常用百分比、千分比或万分比等表示,是医学研究中最常用的统计指标之一。
第一百四十二页,共一百五十二页,2022年,8月28日
二、相对数
(率)
表示在一定范围内,某现象的发生数与可能发生某现象的总数之比,说明某现象出现的强度或频度(即频繁的程度)。计算公式为:强度相对数=某现象的发生数/可能发生某现象的总数×100℅(或1000‰)(3.1)例如:某部队某年发生菌痢136人次,该部队同年平均人数为14,080人。求该部队的痢疾发病率。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025《黑神话:悟空》高中语文试卷(1)含答案
- 毕业协议书户口
- 儿童期保健课件
- 档案室管理制度样本(二篇)
- 2021年10月广西浦北县事业单位公开招聘工作人员(卫生类)强化练习卷(一)
- 2021年10月广西柳州市柳北区市场监督管理局公开招聘编外合同制协办员强化练习卷(一)
- 高压氧治疗脑梗塞
- 大学英语三级考试B级真题
- 消费无人机未来发展趋势报告
- 人力资源激励与绩效评估培训考核试卷
- 住院医师规范化培训教学病例讨论教案(模板)
- 2023年合肥市轨道交通集团有限公司招聘笔试真题
- 地磅施工技术交底
- 民法Ⅱ学习通超星期末考试答案章节答案2024年
- 2024年安全教育培训变更新增记录
- 医学文献检索复习试题和答案解析(四)
- 校园消防安全宣传教育课件
- 2024-2025学年一年级语文上册第四单元测试卷(统编版2024新教材)
- 2024-2025形势与政策:促进高质量充分就业 为中国式现代化建设提供有力支撑
- 小学科学五年级上册第四单元《健康生活》作业设计
- (二) 跨学科实践教学设计- 2024-2025学年人教版八年级上册物理
评论
0/150
提交评论