第1、2、3章 绪论、计量统计描述_第1页
第1、2、3章 绪论、计量统计描述_第2页
第1、2、3章 绪论、计量统计描述_第3页
第1、2、3章 绪论、计量统计描述_第4页
第1、2、3章 绪论、计量统计描述_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章

医学统计学中的基本概念叶孟良统计学(statistics):1.Statistics:Asciencedealingwiththecollection,analysis,interpretation,andpresentationofnumericaldata.(Webster’s国际大辞典)2.Statistics:Thescienceandartofdealingwithvariationindatathroughcollection,classification,analysisinsuchawayastoobtainreliableresults.(JohnM.Last,流行病学词典)总之,统计学是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结论一、绪论

统计学思维和方法已经渗透到医学研究和卫生决策之中,在科研的总体设计、资料的收集、整理、分析直到最后得出结论都与之密切相关。例:1.北京某医院某大夫使用“乌贝散”治疗胃溃疡出血107例,有效101例,有效率94.4%,那么别的医生也一定是94.4%吗?那么是多少?高还是低?(求置信区间)

2.重庆某医院有位老大夫,用“冠心灵”治疗冠心病,其对照组用西药,观察结果如表

表冠心灵与单存西药疗效对比显效有效无效合计单纯西药925640冠心灵1918542请问:冠心灵是否比单纯西药有效?(涉及统计学中假设检验的问题)二、医学统计工作的内容和资料的类型1、医学统计工作的内容:①design(设计)②collectiondata(收集)③sortingdata(整理资料)④analyzingdata(分析资料)①design(设计)根据研究目的制定研究方案专业设计:统计设计:研究对象的选择(纳入与排除标准),样本量和样本取得的方法,实验组与对照组的分组原则,观察指标及其精度,试验过程中的质量控制,拟采用的统计分析方法等。②collectiondata(收集)收集准确、完整、充满信息的原始资料资料的来源:

专题试验(实验)研究、流行病学调查等常规登记资料:例如门诊病例、住院登记资料等卫生工作报表③sortingdata(整理资料)把收集到的原始资料,有目的地进行加工,使资料系统化、条理化,以便进一步统计分析归类核查资料的完整性、可靠性(例如:漏项、逻辑性检查、专业合理性、专业一致性检查)④analyzingdata(分析资料)

统计描述统计分析

统计推断参数估计假设检验把经过整理的资料做一系列的统计描述和统计推断,阐明事物的特征和规律。2、typeofdata(资料的类型)两类:①定量(计量、数值变量)资料②定性(计数、分类变量)资料①定量(计量、数值变量)资料每个观察对象通过定量测定的方法都有一个确切的值,通常有单位,但也有例外(例如淋巴细胞转化率)。医学中:身高、体重、血压、血红蛋白值等②定性(计数、分类变量)资料按照研究对象的某个特征进行分组,然后分组计数所获得的资料。例如:男25女35无序分类资料:分组时表现为互不相容的类别

二分类:性别(男25女35有效无效)多分类:血型(A10B5AB7O3)、职业有序分类资料(等级资料):按照程度递增或递减例:①癌症分期:早、中、晚。

②药物疗效:治愈、好转、无效、死亡。

③幽门螺旋杆菌感染程度(-+++++++++)判断资料类型的标准:

看每个观察对象是否有一个确切的值,有:计量无:计数

资料可以由高级向低级转化(高精度向低精度),如血压值(正常、异常)住院号年龄身高体重住院天数职业文化程度分娩方式妊娠结局20256552716571.55无中学顺产足月20256532216074.05无小学助产足月20258302515868.06管理员大学顺产足月20225432316169.05无中学剖宫产足月20224662515962.011商业中学剖宫产足月20245352715768.02无小学顺产早产20258342015866.04无中学助产早产20194642415870.53无中学助产足月20257832915457.07干部中学剖宫产足月观察单位observations个体individuals变量variablesQuantitativedata计量资料Qualitativedata计数资料Units;elements三、统计学中的几个基本概念

(一)同质与变异(二)总体与样本(三)参数与统计量(四)误差(五)频率与概率

(一)同质与变异

homogeneityandvariation

1、同质:是指观察单位间被研究指标的影响因素相同。如:研究儿童的生长发育,规定的同性别、同年龄、同地区、同民族、健康的儿童即为同质的儿童。

研究目的条件下的性质相同

观察单位的研究特征为变量。变量的观察结果为变量值。2、变异:性质相同的同质对象的某个或某几个特征值不同。同质与变异的例子例1调查2006年重庆7岁男童的身高和体重同质:2006年、重庆市、7岁男童变异:身高和体重各不相同例2研究某降压药的疗效同质:高血压患者、用某药治疗变异:疗效各不相同(二)总体与样本

populationandsample总体:根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体样本:从总体中随机抽取的部分观察单位

代表性的条件随机抽样足够数量(样本含量)样本的分布与总体的分布一致(构成)随机抽样randomsampling为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。足够数量:样本含量样本的结构分布与总体的分布特征一致例如:欲研究重庆市7岁儿童的生长发育情况总体:男107:女100样本:应该接近或近似男107:女100(三)参数与统计量

parameterandstatistic参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数

总体样本抽取部分观察单位

统计量

参数

推断inference统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。(四)误差

error误差:实际观察值与客观真实值之差,以及统计量与参数之差。(1)系统误差(2)随机误差(1)系统误差systematicerror在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为偏倚(bias)。特点:观察值有系统性、方向性、周期性的偏离真值。可以通过严格的实验设计和技术措施消除。(2)随机误差randomerror排除上述误差后尚存的误差,受多种无法控制的因素的影响。特点:大小方向不一的随机变化。随机测量误差(randommeasurementerror)——提高操作者熟练程度可以减少这种误差

随机抽样误差(random

samplingerror):由抽样造成的样本统计量和总体参数间的差异。——不可避免,但有一定的分布规律,可估计。(五)概率与频率

probabilityand

frequency

确定性现象:在一定条件下,一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。

随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。随机事件的特征:①随机性;②规律性:每次发生的可能性的大小是确定的。概率:随机事件发生的可能性大小,用大写的P表示,是一个稳定的值;取值[0,1]。必然事件P=1不可能事件P=0随机事件0<P<1

P≤0.05(5%)或P≤0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。小概率事件样本的实际发生率称为频率,具有波动性。设在相同条件下,独立重复进行n次试验,事件A出现f次,则事件A出现的频率为f/n。频率与概率间的关系:

样本频率总是围绕概率上下波动样本含量n越大,波动幅度越小,频率越接近概率。频率frequency复习:总体与样本、统计量与参数、系统误差与抽样误差1、调查某地某年7岁正常男童的身高2、观察某人群脉搏数(次/分)3、观察某人群脉搏数,定义脉搏数在60次/分-100次/分为正常,<60次/分或>100次/分为异常,按“正常”与“异常”分别清点人数得到的资料4、某单位职工体检101名正常成年女子的血清总胆固醇(mmol/L)5、某医院1998年在某城区随机调查了8589例60岁以上老人,体检发现高血压患者为2823例,高血压患病率为2823/8589*100/%=32.87%资料的统计描述叶孟良统计描述的意义

社会活动看似杂乱无章,对个体来说有很多不确定性,但总体上都是服从一些统计规律的。医学工作有很多数据,统计学描述就是对这些数据进行加工和提炼,找出规律、预测未知。统计描述是最简洁有力的语言。概念:即用少量几个统计指标刻画出原始数据的特征称为统计描述。计量资料的统计描述方法:(单变量)1.通过频数表描述数据特征2.用统计指标定量描述数据的特征。

描述计量资料的统计方法有两类:统计图表:主要是频数分布表(图)

统计指标:定量描述数据的特征一、数值变量的频数分布(一)、频数分布表频数分布表:将变量值分为不同数量的组段,清点各组段的例数。意义:概括了解变量值在各组段的分布和规律。频数表的编制

例:某年某市120名12岁男童的身高(cm)资料如下,作统计描述。142.3156.6142.7145.7138.2141.6142.5130.5132.1135.5134.5148.8134.4148.8137.9151.3140.8149.8143.6149.0145.2141.8146.8135.1150.3133.1142.7143.9142.4139.6151.1144.0145.4146.2143.3156.3141.9140.7145.9144.4141.2141.5148.8140.1150.6139.5146.4143.8150.0142.1143.5139.2144.7139.3141.9147.8140.5138.9148.9142.4134.7147.3138.1140.2137.4145.1145.8147.9146.7143.4150.8144.5137.1147.1142.9134.9143.6142.3143.3140.2

125.9132.7152.9147.9141.8141.4140.9141.4146.7138.7

160.9154.2137.9139.9149.7147.5136.9148.1144.0137.4134.7138.5138.9137.7138.5139.6143.5142.9146.5145.4129.4142.5141.2148.9154.0147.7152.3146.6139.2139.91、求数据的极差(range):极差是全部数据中的最大值与最小值之差,它描述了数据变异的幅度。本例极差:

R=160.9-125.9=35cm2、划分组段(1)确定组数:制作频数表是为了简化资料,显示数据的分布规律,因此组数不能太多。也不能太少,太少会掩盖数据分布的规律。适宜的分组数与观察值的个数n的多少有关。n为30时,可分5到6组,随着n的增加,分组适当增加,较大样本时,一般取10组左右。(2)确定组距一般采取等距分组。

组距=极差/组数

本例组距=35/10=3.5≈4(3)确定各组段的上下限:下限(lowlimit):每个组段的起点上限(upperlimit):每个组段的终点上限=下限+组距

第一组段必须包含最小值,其下限一般取包含最小值的较为整齐的数值。本例最小值为125.9,取125为第一组段的下限。其上限=125+4=129。各组段不能重叠,每一组段均为半开半闭区间。3、用手工或电脑编制画记表3、统计各组段内的数据频数得到频数表组段划记频数f频率(%)累计频数(1)(2)(3)(4)(5)125~一10.81129~正43.35133~正正97.514137~正正正正正正2823.342141~正正正正正正正3529.277145~正正正正正正2722.5104149~正正一119.2115153~正43.3119157~161一10.8120合计120100身高是一个连续变化的量,被称为连续性变量。已婚育龄妇女的现有子女数、幼儿的牙齿数等,其取值是0、1、2等不连续的量,这种变量被称为离散型变量。4、频率与累计频率频率:频数表中的各组频数之和等于总例数n,将各组的频数除以n所得的比值被称为频率。累计频数:某组段及前面各组段的频数之和。累计频率:累计频数除以总例数。(二)频数分布图125129133137141145149153157(三)频数分布特征从频数表,特别是频数分布图可以看到频数分布有两个特征:1、大多数12岁男童的身高向中央集中,为集中趋势;2、少部分男童的身高较低和较高,向两端离散,为离散趋势。(四)、频数分布的类型1、对称分布:指集中位置在中间,左右两侧对称。2、偏态分布:指集中位置偏向一侧,频数分布不对称。正偏态

负偏态(五)频数分布表的用途1、揭示资料的分布类型及特征2、便于发现某些特大或特小的可疑值3、便于进一步计算统计指标和作统计处理4、组段的频率作为概率的估计。125129133137141145149153157对称分布图2-1

101名正常成年女性血清总胆固醇频数分布

频数血清总胆固醇正态分布对称分布图2-259名链球菌咽喉炎患者潜伏期正偏态分布负偏态分布集中趋势的描述平均数指标的概念和作用平均数表示一组同质计量数据集中趋势的位置和平均水平。作用:是一组计量数据平均水平的代表值;可作为不同组间的比较值。

常用的三种平均数指标有:算术均数、几何均数、中位数(一)算术均数简称均数

总体均数用表示

样本均数用表示公式适用频数为正态或近似正态分布的计量资料.适用条件1、直接法(样本例数较少)将所有数据直接相加,再除以总例数n:例如:测定了5名健康人第一小时末血沉,分别是6、3、2、9、10mm,求均数2、加权法(样本例数较多,近似计算)

用各组段的组中值代替该组段中的任一观察值,该组段的频数是f,即有f个组中值,则有组中值与频数的乘积代替该组段的各个值相加.计算公式:

利用频数表,将每组段的组中值即(下限+上限)/2代替该组段观察值的实际取值,用加权法求算术平均数。在样本例数较多的情况下,加权法与直接法算得的结果相差不大。见P10当数据呈单峰对称分布时,位于分布的中心,它是频数分布最集中的位置。若数据分布不对称,则不位于分布的中心,也不在分布的集中趋势位置,它不反映数据的一般水平。二、几何均数(G,geometricmean)适用于原始①数据分布不对称,但经对数转换后呈对称分布的资料;②滴度资料(等比资料)。如血清滴度资料。公式:例2.2测得10个人的血清滴度的倒数分别为2,2,4,4,8,8,8,8,32,32,求平均滴度。

几何均数是对数转换后的数据的算术均数的反对数。当资料中出现相同观察值时,也可用加权法计算几何均数:例2.3(频数表资料)

应用:主要用于血清学和微生物学中。

三、中位数(median)

中位数是指将一组观察值从小到大排序后居于中间位置的那个数值,全部观察值中,大于和小于中位数的观察值个数相等。任何分布的定量数据均可用中位数描述其分布的集中趋势。直接法公式:

当n为偶数时

当n为奇数时1.原始资料如测得5个人的VLDL中的apo_B的含量(mg/dl)为0.84、2.85、5.46、8.58、9.60,则

M=5.46(mg/dl)若测量结果:0.84、2.85、8.58、9.6,则

M=(2.85+8.58)/2=5.72(mg/dl)

2.频数表资料表2-4某地630名正常女性血清甘油三脂含量(mg/dl)甘油三脂频数累积频数累积频率(%)0.10~27274.30.40~16919631.10.70~16736357.6M1.00~9445772.51.30~8153885.41.60~4258092.11.90~2860896.52.20~1462298.72.50~462699.42.80~362999.83.10~1630100.0

合计630--L、iM、fM分别为M所在组段的下限、组距和频数,fL为M所在组段之前各组段的累积频数。连续型变量中位数的的计算可用公式:

组距中位数所在组前一组的累计频数

中位数所在组下限中位数所在组的频数四、百分位数(percentile)是一种位置指标,样本的第X百分位数常记为Px,它是指把数据从小到大排列后处于第X百分位置的数值。它将全部数据分成两部分,在不包括Px的全部数据中有X%的数据小于Px,有(100-X)%的数据大于Px。中位数是特殊的百分位数,第50百分位数,M=P50。连续性变量频数表资料百分位数计算公式:百分位数的应用1、中位数是百分位数的特例。其特点是不易受异常值的影响,适用于描述明显偏态分布、或两端无确定数值数据的平均水平。2、多个百分位数相结合可以用来说明一特定的问题:离散程度、参考值范围、把资料划分等级第三章变异程度的统计描述

前面一节讲述了一组观察值的集中趋势,但平均数并不能使我们全面地认识事物,试看下例:例:

对甲、乙两名高血压患者连续观察5天,测得的收缩压分别为(mmHg):甲患者162145178142186(=162.6)乙患者164160163159166(=162.4)

平均水平差不多,但甲患者的血液波动较大第一节衡量变异程度的指标分为两类:1、间距计算:极差(R)、四分位数间距(Q)2、平均差距计算:平均偏差、离均差平方和、均方差(σ2、s2)、标准差(σ、s)和变异系数(cv)等一、极差和四分位数间距

1、全距(range)极差R=max-min

优点:

该法简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等缺点:①只用到最大、最小值,样本信息没能充分利用。②当资料呈明显偏态时,最大、最小值不稳③样本例数越多,R可能越大,两组观察值例数悬殊时不用R比较。2、四分位间距(inter-quartilerange)Q极差不稳定,主要是受两端的数据的影响,所以有人建议将两端数据截去一定比例,如各去掉25%Q=p75-p25=Qu-QL

例如:50岁~60岁正常女性血清甘油三脂含量的百分位数P75和P25的位置分别为63.2mg/dl和135.7mg/dl,则

四分位间距比R稳定,但仍未考虑每个观察值,在统计分析应用得不普遍

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论