




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十五章医学统计学概述统计(Statistics)学的涵义?工作生活中常见的统计问题如何判断药物的疗效?体育彩票能否中奖?子女为什么像父母,其强度有多大?糖尿病的危险因素是什么?济南市10岁女童的身高是不是和北京市的一样?思考1:两种药物治疗某种疾病,甲法治愈20例,乙法治愈40例,是否说明乙法就优于甲法?常见的医学统计问题思考2
吸烟导致肺癌,抗生素治疗胃溃疡,锻炼有助于预防心脏病……我们怎么知道这些?
统计学是什么?
《大英百科全书》指出:“统计学是一门收集数据、分析数据、并根据数据进行推断的艺术和科学”。
统计学是什么?本书:医学统计学是以医学理论为指导,运用数理统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。统计学:是关于数据(data)的科学,是从数据中提取信息的一门学科。医学统计学:用统计学的原理和方法研究医学中的问题。
统计学是什么?主要内容第一节统计学中的几个基本概念第二节统计资料的类型第三节统计工作的基本步骤第四节统计表与统计图一、同质与变异
同质(homogeneity):统计学的各个观察单位的一些相同的性质。实际工作中,影响被研究指标的主要的可控制的因素达到相同或基本相同就可认为是同质。例1.调查2013年济南市山东英才学院大二女生的身高和体重。一、同质与变异
同质?一、同质与变异
变异(variation):宇宙中的事物千差万别,各不相同,即使是同质事物,就某一观察指标来看,各观察单位(亦称个体)之间也有差别,这种同质事物间的差别即为变异。例1.调查2013年济南市山东英才学院大二女生的身高和体重。
一、同质与变异
变异?
1.没有同质性就构不成一个总体供人们研究,如不同年龄组男童的身高不能计算平均数,因为所得结果没有意义。
2.变异表现在两个方面:个体与个体间的差别;同一个体重复测量值间的差别。3.变异是有规律的,统计学就是探讨变异规律、并运用其规律性进行深入分析的一门学科。
二、总体与样本总体(population):根据研究目的所确定的同质观察单位的全体,确切地说,是同质的所有观察单位某种变量值的集合。(N)样本(sample):从总体中随机抽取部分观察单位变量值的集合。其大小称为样本含量(n
)。例1.调查2013年济南市山东英才学院大二女生的身高和体重。
二、总体与样本
总体?样本?样本总体总体是唯一的、确定的,而样本是不确定的、可变的、随机的。样本例2为了了解某地20~29岁健康女性血红蛋白的正常值范围,现随机调查了该地2000名20~29岁的健康女性,并对其血红蛋白进行测量。总体?样本?二、总体与样本例2为了了解某地20~29岁健康女性血红蛋白的正常值范围,现随机调查了该地2000名20~29岁的健康女性,并对其血红蛋白进行测量。总体:某地所有20~29岁健康女性血红蛋白测量值。样本:该地2000名20~29岁的健康女性血红蛋白测量值。二、总体与样本二、总体与样本例3
调查某地某年正常成年男子的红细胞数。同质基础:观察单位:研究总体:样本:二、总体与样本例3
调查某地某年正常成年男子的红细胞数。同质基础:同一地区,同一年份,同为正常人,同为成年男性;观察单位:该地该年的每一个正常成年男子;研究总体:该地该年全部正常成年男子的红细胞数的集合;样本:从中抽取若干名,分别测得其红细胞数,则这些检测值构成一个样本。二、总体与样本有限总体与无限总体上述的总体明确规定了空间、时间、人群范围内有限的观察单位,称为有限总体(finitepopulation)。有时总体是假想的,是没有时间和空间概念的,因而观察单位是无限的,称为无限总体(infinitepopulation)。二、总体与样本有限总体与无限总体上述的总体明确规定了空间、时间、人群范围内有限的观察单位,称为有限总体(finitepopulation)。有时总体是假想的,是没有时间和空间概念的,因而观察单位是无限的,称为无限总体(infinitepopulation)。三、参数与统计量
总体参数:根据总体个体值统计计算出来的描述总体的特征。一般用希腊字母表示。样本统计量:根据样本个体值统计计算出来的描述样本的特征量。一般用拉丁字母表示。例1.调查2013年济南市山东英才学院大二女生的身高和体重。
三、参数与统计量
参数?统计量?总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。样本统计量:根据样本分布计算的指标。是随机变量。平均数标准差、方差成数参数
、2p统计量S、S2P
总体
样本统计学的分析思路samplepopulationSampling(抽样研究)Inferring(统计推断)例4.研究某年某地出生的所有新生儿的畸形发生率,随机抽取500名新生儿进行观察。参数?统计量?三、参数与统计量
例4.研究某年某地出生的所有新生儿的畸形发生率,随机抽取500名新生儿进行观察。参数:某年某地出生的所有新生儿的畸形发生率的均数(μ),标准差(σ)。统计量:500名新生儿畸形发生率的均数(X),标准差(S)。三、参数与统计量
例5.
研究英才学院大一女生的平均身高。随机抽取100名女生,
平均身高158.2cm;随机抽取1000名女生,平均身高163.1cm;随机抽取2000名女生,平均身高163.8cm。误差(error):是指实测值和真实值之差。四、误差四、误差误差按其产生原因和性质可分为随机误差与非随机误差,后者又分为系统误差与非系统误差。随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析。四、误差抽样误差(samplingerror):样本的统计指标(统计量)与总体的统计指标(参数)的差别,可以被控制,但是不能被消除。
例6
从某地某年13岁女生的总体中随机抽取含量为120的样本,算得其平均身高(统计量)为155.4cm,这个数不一定恰好等于该地13岁女生的总体均数(参数)。四、误差非随机误差系统误差:是一类恒定不变或遵循你一定变化规律的误差,其产生原因往往是可知的或可能掌握的。受确定因素影响,大小变化有方向性。非系统误差(过失误差):是由研究者偶然失误而造成的误差。例5.双色球一等奖的中奖率为1/17721088。概率(probability):是描述事件发生的可能性大小的一个量值,记作P(A)或P。P值取值范围在0~1之间。五、概率P(A)=0表示A为不可能事件,即A不可能发生;P(A)=1表示A为必然事件,即A必然要发生。可能发生也可能不发生的事件称为随机事件。五、概率投掷一枚硬币,观察出现正面的频率。按照下面表格的方式来统计实验结果:玩一玩五、概率
在n次随机试验中,事件A发生了m次,则比值:
f称为事件A在这n次试验中出现的频率,0≤f≤1。m称为频数。
(一)频率通过实验,我们可以发现:每次试验出现正面的次数和投掷次数存在一个比值关系,即频率。而随着试验次数的增加,这个比值越来越接近一个常数,这个常数我们就成为概率(P)。因此概率为一常数,是固定不变的。五、概率投掷一枚质量均匀的硬币,出现正面和反面的概率各为1/2;投掷一枚骰子出现1~6点的概率各为1/6。
在重复试验中,事件A的频率,随着试验次数的不断增加将愈来愈接近一个常数p,频率的这一特性称为频率的稳定性。在实际问题中,当重复观测次数足够大时,可以频率作为概率的估计值。
五、概率五、概率例6
如检查某药品的合格率,其结果如下:
某药抽样次品率随抽样次数变化情况随着抽样的大量进行,抽取的样品数逐渐增加,次品率f将愈来愈接近常数1%。五、概率统计学上一般将P≤0.05或P≤0.01的事件称为小概率事件。这种小概率事件虽不是不可能事件,但一般认为小概率事件在一次随机试验中基本上不会发生,这就是小概率原理。小概率事件主要内容第一节统计学中的几个基本概念第二节统计资料的类型第三节统计工作的基本步骤第四节统计表与统计图一、变量和变量值变量:确定总体之后,研究者对每个观察单位的某项特征进行观察或测量,这种特征性表现观察单位的变异性,称为变量。如患者的年龄、性别、职业等。变量值或观察值:变量的观测值。如实际的年龄、体重、性别的男女等。二、变量的分类
变量
离散型变量连续性变量无序分类有序分类二项多项定量变量定性变量
数值变量资料(定量资料或计量资料),为观测每个观察单位某项指标的大小而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。根据其观测值取值是否连续,又可分为连续型或离散型两类。
1.离散型变量:如儿童龋齿数、胎次等;
2.连续性变量:如身高、体重等。(一)数值变量资料1.无序分类变量资料例.测量200人红细胞数,正常组176人,异常组24人。
无序分类变量资料:将观察单位按某种属性或类别分组计数后得到的资料,通常没有度量衡单位,其值通过计数后获得,因此也称计数资料(enumerationdata)。(1)二项分类。表现为互相对立的两种结果。(2)多项分类。表现为互不相容的多类结果。(二)定性资料(计数资料)2.有序分类变量资料(半定量资料)有序分类变量:将观察单位按某种属性的不同程度分成等级后分组计数。因此也称为等级资料(rankeddata)。
例.
测量200人红细胞数,过低10人,正常160人,过高30人。
又如:问卷调查常问对某件事情的满意程度,给出5项答案极不满意、有点满意、中度满意、很满意、极满意,请对象挑选。(二)定性资料(计数资料)(二)三类数据间的关系
例:20
40岁100个成年人的血压以12kPa为界分为正常与异常两组,统计每组例数
<8低血压8
正常血压12
轻度高血压15
中度高血压17
重度高血压定量资料等级数据定性资料观察单位observations个体individuals变量variablesQuantitativedata定量资料Qualitativedata定性资料Units;elements想一想三种统计资料的区别:三种资料有规律,计量计数和等级;计量资料有单位,一般都是连续的;计数资料没单位,一般要靠数数字;等级计数很相像,特点就是爬楼梯。练一练观察某人群的体温值,(30℃、36.5℃、34.8℃、39℃、36.2℃、37℃、35.7℃、36℃、38.2℃、36.5℃)如果正常值在35~37℃之间,如何用计量资料,计数资料和等级资料对其进行描述?(三)变量的转换
变量只能由“高级”向“低级”转化:定量→有序→分类。如上述“体重”变量属数值变量,如按体重小于2500g为低体重儿,大于2500g为正常儿,则“体重”变量转化为二项分类变量。
注意:这种转换可能损失部分信息。主要内容第一节统计学中的几个基本概念第二节统计资料的类型第三节统计工作的基本步骤
第四节统计表与统计图
统计设计收集资料整理资料分析资料统计调查、实验描述统计推断统计统计学理论与相关实质性学科理论基本步骤:——统计设计(Design):医学统计设计(design)是根据特定的研究目的,对一项医学科学研究的全过程进行科学、有效和周密的计划和安排。包括专业设计和统计设计两部分内容。专业设计主要考虑专业方面的需要,如研究对象的选择,实验技术与方法的确定等。统计设计围绕专业设计确定,其内容包括资料搜集、整理和分析全过程总的设想和安排。——搜集资料(Datacollection)
统计报表(经常性)
统计资料来源医疗卫生工作记录
(经常性)
专题调查或实验
(一时性)——整理资料(Datasorting)整理工作核对检查原始数据 分组汇总资料完整性检查:缺项,漏项准确性检查:逻辑性错误区间错误计算错误
——分析资料(Dataanalysis)
统计描述统计指标统计图表统计分析 参数估计 统计推断 假设检验统计学的内容1、统计描述指搜集、整理、分析并提供统计资料的理论和方法。主要任务:使反映客观事物的统计数据可以一目了然,条理清晰,使用方便,可以说明现象的数量特征和数量关系。2、统计推断是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设检验的方法。描述统计是推断统计的前提,推断统计是描述统计的发展。主要内容第一节统计学中的几个基本概念第二节统计资料的类型第三节统计工作的基本步骤第四节统计表与统计图【统计学研究内容】统计设计统计描述区间估计:即参数估计,包括点值估计和区间估计假设检验:t-testu-testx2-test数值变量离散趋势算术均数几何均数G中位数M百分位数PX集中趋势极差R四分位数间距Q方差标准差S2变异系数CV分类资料:率、构成比、相对比等统计表和统计图统计推断【教学要求】统计表与统计图的作用。统计表的结构和种类,列表的原则和基本要求。统计图制图的基本要求。几种常用统计图适用条件、绘制要点。统计表和统计图一、统计表(一)统计表的内容
标题:位于表的正上方,高度概括表的主要内容。标目:包括纵、横两种。线条:多采用三线条,即顶线、底线、纵标目下的分隔线。数字:一律用阿拉伯数字表示。备注:不属于统计表固有的组成部分,一般不列入表内。统计表的结构表序标题备注:表3.142001年某省不同地区的卫生系统反应性评分比较表序标题横标目纵标目表注:横标目名称(二)应用统计表的注意事项简明扼要,重点突出。每张表最好只表达一个中心内容。统计表要层次分明。即标目的安排及分组符合逻辑,便于分析比较。表内数据要认真核对、准确可靠。(三)统计表种类:简单表(simpletable):由一组横标目和一组纵标目组成。复合表(combinativetable):由两组及以上的横标目和纵标目结合起来或一组横标目及以上纵标目结合起来以表达它们之间关系的统计表。表9-1某地2003年男、女活动性肺结核发病率1.简单表二、统计表的种类表9-2两医院2004年住院病人五种疾病死亡人数和构成比
2.复合表二、统计表的种类表3.152001年某省不同地区、性别的卫生系统反应性评分比较例7
某研究欲分析居民饮用水源与肠道传染病的患病情况的关系,结果见下表15-5.请指出缺点并加以改正。表15-5水源与肠道传染病例7某研究欲分析居民饮用水源与肠道传染病的患病情况的关系,结果见下表15-5.请指出缺点并加以改正。表15-5水源与肠道传染病缺点:标题太简单;主谓颠倒;线条表15-6
某年某村居民饮用水源与肠道传染病的患病情况二、统计图常用的统计图条图
bargraph直方图Histogram圆图Piechart线图Linegraph统计地图Map散点图
Scatter百分条图Percentbar
【举例】
有甲、乙、丙三个样本人群,每组各有100例,检测其血清乙型肝炎表面抗原的结果,各组阳性人数分别为7例、5例、3例,比较哪组乙肝患病严重?
.(一)条图(bargraph)●概念:用等宽长条的高度来表示按性质分类资料各类别数值的大小及相互的对比关系。●
适用条件:相互独立的资料。●
分类:分为单式和复式两种(但是一般为了便于理解,分组标志不宜超过3个)。单式适用于只有一组观察资料(见图1)复式适用于有若干组观察资料(见图3)1.横轴为基线,表示各个类别(观察项目),纵轴表示为数值的大小。
.2.
纵轴坐标一定要从0开始,中间不宜折断。
.3.各直条宽度应相等,各直条之间的间隙应相等或为其一半。。4.排列顺序可根据数值从大到小,或按时间顺序排列。.制图要求:5.复式条图在同一观察项以组为单位,一个组包括两个以上的直条,直条所表示的类别应用图例说明,同一组的直条间不留空隙。图32001年某省不同地区、性别的卫生系统反应性评分比较(二)圆图(piegraph)●概念:以圆形总面积代表100%,把面积按比例分成若干部分,以角度大小来表示各部分所占的比重,即构成比例。●适用条件:百分构成比资料。●
应用:描述各部分的百分构成。【举例】
2001年某医科大学公共卫生学院人员组成,教授占9.8%、副教授33.2%、讲师21.4%、助教10.2%、教辅人员25.5%,比较人员的构成情况。图3.42001年某医科大学公共卫生学院专业技术人员构成副教授33.2%教辅人员25.5%教授9.8%助教10.2%讲师21.4%制图要求:1.绘制一大小合适的圆,每3.6o为1%,用3.6乘以百分数即为各构成部分所占扇形的度数,用量角器画出。2.从相当于时钟12点或9点的位置开始顺时针方向绘图。3.每部分用不同线条或颜色表示,注明简要文字及百分比或用图例。4.当比较不同资料的百分构成时,可以画两个直径相同的两个圆,使各圆中各部分的排列次序一致,并用相同的图例表示同一个构成部分。图15-2某医院1998年住院病人5种疾病构成比(三)百分条图(percentbar)●概念:以直条总长度作100%,直条中各段表示事物各组成部分的构成情况,亦称构成条图。●适用条件:百分构成比资料。●
应用:描述各部分的百分构成。制图要求:1.标尺:一定要有标尺,画在图的上方或下方。2.绘一直条,全长等同标尺,以直条内相对面积大小代表数量的百分比,一般由大到小、自左向右排列。3.直条各部分用线分开,注明简要文字或加图例表示。4.多组比较:若要比较的事物不止一个时,可以画几个平行的百分条图。各条图的排列顺序同,图例同。【举例1】
2001年某医科大学公共卫生学院人员组成,教授占9.8%、副教授33.2%、讲师21.4%、助教10.2%、教辅人员25.5%,比较人员的构成情况。图3.42001年某医科大学公共卫生学院专业技术人员构成副教授教辅人员讲师助教教授【举例2】
某地5岁以下儿童死因分布,呼吸系统疾病占43.5%、传染病30.8%、先天缺陷17.2%、其它8.5%,比较其构成情况。(四)线图(linegraph)●概念:以线段的上升或下降来表示资料的变化,并可表明一种事物随另一种事物(如时间)变迁的情况。●适用条件:连续性资料。●
应用:反映事物的连续的动态变化规律。制图要求:1.坐标轴:横轴表示某一连续变量(时间或年龄等),纵轴表示某种率或频数。其尺度必须等距,或有规律性。2.图线应按实际数字绘制成折线,不能任意改为光滑曲线,无数据的组段用虚线连接,直线不能任意外延。3.同一张线图上不要画太多条曲线,通常≤5条。4.有几根线须用不同颜色或图线(虚、实线)区分,并附图例。【举例1】描述某地在1949年—1958年婴儿死亡率的变化趋势。【举例2】描述某地2001年0—7岁儿童受教育的情况,并比较男女受教育情况的差异。年龄(岁)受教育率(%)图3.62001年某地0-7岁儿童的受教育率●
概念:以不同的直方形面积代表数量,各直方表面积与各组的数量(频数)多少呈正比关系。●
适用条件:连续性资料。●
应用:用于表达连续性变量的频数分布。(五)直方图(histogram)制图要求:1.横轴表示连续变量,纵轴表示被观察现象的频数(或频率),以各直条(宽为等距)的面积表示各组段频数;纵轴坐标一般从0开始。2.各直条间不留空隙。3.组距不等时,横轴仍表示连续变量,但纵轴是每个横轴单位的频数。图3.62001年某地0-7岁儿童的受教育率女童男童【举例1】描述某市100名男童的身高频数的分布情况。
图8某市100名8岁男童身高(cm)的频数分布【举例2】描述某地2001年0—7岁儿童受教育的情况,并比较男女受教育情况的差异。年龄(岁)受教育率(%)图3.62001年某地0-7岁儿童的受教育率图3.62001年某地0-7岁儿童的受教育率女童男童(六)散点图(scatterdiagram)●概念:以直角坐标系中各点的密集程度和趋势来表示两种现象间的相关关系。●适用条件:双变量资料。
●
应用:反映两事物间的相关关系,主要用于相关回归分析。制图要求:1.一般横轴代表自变量或可进行精确测量、严格控制的变量,纵轴则代表与自变量有依存关系的因变量。2.纵横轴的尺度起点可根据需要设定。3.组距不等时,横轴仍表示连续变量,但纵轴是每个横轴单位的频数。图3.8某年某地区饮水中氟含量与氟骨症患难率的散点图y=6.3942x+18.784R2=0.882氟含量氟骨症患病率%【举例】描述某年某地区饮水中氟含量与氟骨症患难率的相关关系。y=6.3942x+18.784R2=0.882图3.8某年某地区饮水中氟含量与氟骨症患难率的散点图氟含量氟骨症患病率%
箱式图(boxplot)通常选用5个描述统计量(最大值、P75、中位数、P25、最小值)来绘制。
例9-4图9-5为A、B、C、D四个处理组患者低密度脂蛋白(LDL)含量分布的箱式图。图中显示A、B、C、D四个处理组LDL含量的分布近似对称分布,可能的异常值有3例(样品号分别为13、33、59)。(七)箱式图图9-54个处理组患者低密度脂蛋白含量分布箱式图(七)箱式图(八)统计地图(map)统计地图:用于表示某现象的数量在地域上的分布。(九)绘制统计图注意事项根据资料的性质和分析目的选择最合适的图形。每一张统计图都要有标题,简明扼要地说明图形要表达的主要内容。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 餐饮业精英经理职务劳动合同范本(含绩效考核标准)
- 彩票店品牌授权与区域独家经营合同
- 卓尔系跨境电商平台合作开发合同
- 草莓种植合作社与冷链物流企业合作协议
- 智能停车系统车位租赁及数据共享协议
- 各种骨折的护理
- 冯氏旋转定位法治疗颈椎病
- 精密仪器运输及安装合同
- 汽车抵押贷款合同纠纷处理规则
- 产权式车库买卖及车位共享服务协议
- 小区装修工程安全协议书
- 【MOOC】老子的人生智慧-东北大学 中国大学慕课MOOC答案
- 科研伦理与学术规范(研究生)期末试题
- 成都市2022级(2025届)高中毕业班摸底测试(零诊)数学试卷(含答案)
- (高清版)DZT 0145-2017 土壤地球化学测量规程
- 基于html5外文参考文献
- 食堂安全管理、操作培训考试题与答案
- 工序单位能耗地计算方法、及企业吨钢可比能耗计算方法
- 低温早强耐久混凝土的集中拌和施工
- 三环路道路照明工程技术标
- 摩托车产品开发流程
评论
0/150
提交评论