版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 统计描述 统计分析分为统计描述与统计推断两部分,统计描述是统计推断的基础,它作用是通过绘制统计图表和计算数据分布特征的基本统计量来了解样本观察值的分布特征,为进一步的统计推断打下基础。1主要内容频数表集中趋势离散趋势相对数动态数列统计图表2原始资料例4.1 81例3049岁健康男子血清中的总胆固醇值(mg/dl)测定结果如下:219.7184.0130.0237.0152.5137.4163.2166.3181.7176.0168.8208.0243.1201.0278.8214.0131.7201.0199.9222.6184.9197.8200.6197.0181.4183.113
2、5.2169.0188.6241.2205.5133.6178.8139.4131.6171.0155.7225.7137.9129.2157.5188.1204.8191.7109.7199.1196.7226.3185.0206.2163.8166.9184.0245.6188.5214.397.5175.7129.3188.0160.9225.7199.2174.6168.9166.3176.7220.7252.9183.6177.9160.8117.9159.2251.4181.1164.0153.4246.4196.6155.43一、 频 数 表frequency table 频数:
3、当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,称为该组的频数。 频数表(频数分布):表示各组及它们对应的组频数的表格称为频数表或频数分布。481例3049岁健康男子血清中的总胆固醇值(mg/dl)的频数分布总胆固醇组段(1)划记频数 f (2) 90112110111313011111,111815011111,11111,11111,111717011111,11111,11111,111112019011111,11111,111111521011111,111823011111525011227029011合 计815表4.1 81例健康男子血清中的总胆固醇值的频数分布
4、表组段(mg/dL)频数频率(%)累计频数累计频率(%)9022.4722.4711033.7056.1713089.881316.051501720.993037.041702024.695061.731901518.526580.2521089.887390.1223056.177896.3025022.478098.7727029011.2381100.00合计81100.007810对于等级资料,如果类别数不多,可以按计数资料频数分布表的方法编制,即直接计算出每一个观察值的频数、频率、累计频数和累计频率,然后将它们按照取值的顺序列在一个表中。如果类别数较多,则可先按照观察值的顺序合并成
5、较少的组,然后分别计算各组的频数和频率;再按顺序列在一个表中。例4-2 对某地30名大学生作了视力检查,其视力检测等级结果分别为:0,0,0,0,1,1,1,1,2,2,2,2,3,3,3,3,3,3,3,3,4,4,4,4,4,4,5,5,5,5。 11 表4-3 30名大学生视力的频数分布表 视力频数频率(%)累计频数累计频率(%)01 8 26.67 8 26.6723 12 40.0020 66.6745 10 33.3330100.00合计 30100.0012频数分布的两个特征: 集中趋势与离散趋势频数分布的类型: 对称分布与偏态分布(集中位置偏向小的一侧叫正偏态,反之叫负偏态)频
6、数表的主要用途: 1. 揭示分布类型 2. 发现特大值和特小值(远离群体的离群值) 3. 描述集中趋势指标与离散趋势指标14频数分布图 频数分布图是直观地显示数据分布形状的方法。数据的分布形状有对称分布和偏态分布两种。例如,图4-1基本呈对称分布。偏态分布包含右偏态和左偏态两种。右偏态分布,也称为正偏态分布,即频数分布向右拖尾。左偏态分布,也称为负偏态分布,即频数分布向左拖尾。例如,图4-4a和图4-4b显示的是两种偏态分布。 151718二、集中趋势的描述集中趋势(central tendency)指的是一个计量资料的大多数观察值所在的中心位置。常用平均值来描述。由于这样典型的值趋向于落在根
7、据数据大小排列的数据的中心,因此可以用于度量集中位置(位置指标)常用几种平均值 1.算术均数 (arithmetic mean) 2.几何均数 (geometric mean) 3.中位数 (median)191.算术均数(简称均数)意义:一组性质相同的观察值在数量上的平均水平。表示 (总体) (样本)计算:直接法、间接法、计算机特征: (X- )=0 估计误差之和为0。应用:正态分布或近似正态分布。注意:合理分组,才能求均数,否则没有意义。20算术均数的计算21举例:计算5个同学的平均成绩,93,92,95,94,912224举例:测得5个人的血清滴度的倒数分别为2,4,8,16,32,求平
8、均滴度用算术均数来计算 :25例如:X 10 100 1000 10000 100000 lg X 1 2 3 4 527几何均数的计算28举例:如上例:29举例:例4-6 某研究者收集了10例类风湿关节炎患者血清中某抗体滴度,其测定值为:110,120,140,180,180,1160,1160,1320,1320,1640, G = lg -1 (lg10+lg20+lg40+2lg80 +2lg160+2lg320+lg640)/10 = lg -1 1.9934 = 98.49303.中位数意义:将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。记为M。将N个观察值
9、从小到大依次排列,再分成100等份,对应于X%位的数值即为第X百分位数。中位数是百分位的特殊形式。同样的例子还有四分位数、十分位数等。表示:M 、PX计算:直接法、频数表法应用:偏态资料,开口资料31计算公式n为奇数时, n为偶数时, 321.直接法:n 为奇数时,举例:2,4,5,6,7的中位数为5 n 为偶数时,举例:2,4,5,6,7,8的中位数为5.533频数表法计算LM:M所在组段的下限iM:M所在组段的组距fM:M所在组段的频数fL :M所在组段之前各组段的累积频数34中位数具有的重要作用 中位数对极端值不敏感,所以,当数据中有极端值,即数据呈偏态分布(包括左偏和右偏),或数据的下
10、限或上限不明确时,均宜采用中位数来描述数据的集中趋势; 当数据呈对称分布时,均数和中位数接近。当数据呈右偏分布时,均数大于中位数,当数据呈左偏分布时,均数小于中位数。所以,可以根据中位数和均数的大小,来判断数据的分布对称性。 35三、离散程度的描述60 70 80 90 10010 75 80 85 15036三、离散程度的描述离散(dispersion)性指的是数值型数据的所有观察值与中心位置的发散程度。描述离散性的主要统计指标有:全距(range)四分位数间距(quartile range)方差(variance)标准差(standard deviation)变异系数 (coefficie
11、nt of variation) 371.全距全距(range,R)等于一个变量的所有观察值中的最大值与最小值之间的差值。其计算公式为:R=Max-Min 382. 分位数、分位数间距分位数是介于一个变量的最大值和最小值之间的一个数值,它使得变量的一部分观察值小于或等于它,另一部分观察值大于或等于它。两个分位数之间的距离可以用来描述数据的离散程度。392. 分位数、分位数间距统计学中常用的分位数是百分位数。百分位数(percentile)是一个位置指标,用Xp%表示, p 用百分数表示,0p100。对样本来说,它表示在按照升序排列的数列中,其左侧(即小于Xp%侧)的观察值个数在整个样本中所占百
12、分比为p%,其右侧(即大于Xp%侧)的观察值个数在整个样本中所占百分比为(100-p)%。显然,中位数M就是一个特定的百分位数,即第50百分位数(X50%)。402. 分位数、分位数间距百分位数的计算公式为41例4-9 下表列出的是101名正常人的血清肌红蛋白含量(g/ml)的观察值的频数分布表。 肌红蛋白含量(g/ml)组中值频数累计频数 0 2.5 1 1 5 7.5 2 31012.5 4 71517.5 6 132022.5 7 202527.5 9 293032.513 423537.523 654042.534 99 455047.5 21014243四分位间距 Q统计学将特殊的三
13、个分位数X25%、X50%和X75%统称为四分位数。并且分别称为第一四分位数、第二四分位数和第三四分位数,记为Q1、Q2和Q3。即, Q1= X25% ,Q2= X50% =M,Q3= X75% 并且称Q3与Q1的差值为四分位间距,记为Q,其计算公式如下 Q =Q3-Q1 四分位间距是上四分位数(X75)Qu与下四分位数Ql (X25)之差,包含了全部观察值位于中间的那一半。443.方差、标准差描述一个变量的所有观察值与总体均数的平均离散程度的指标 。方差: 2表示总体方差 S2 表示样本方差 标准差: 表示总体标准差 S 表示样本标准差 45计算公式46相关概念:离均差、离均差平方和、方差(
14、2 S2 )标准差的意义:全面反映了一组观察值的变异程度。(越大说明围绕均数越离散,反之说明较集中在均数周围,均数代表性越好)标准差的应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围。474.变异系数是一个度量相对离散程度的指标 意义:标准差与均数之比用百分数表示。符号: CV计算: CV= 100%无单位应用:单位不同的多组数据比较 均数相差悬殊的多组资料48度量离散程度的几个指标比较全距简单易求,单位和原变量的单位相同。它的缺点是:仅使用了原变量中很少部分的信息;没有涉及数据的集中位置的信息;对极端值很敏感;与样本含量n有关,n越大,全距可能越大,一般来说,样本全
15、距低估(underestimate)了总体全距。分位数也比较简单易求,单位和原变量的单位相同,且它对极端值的敏感远远低于全距,受样本含量的影响较少。它的缺点是:仅使用了原变量中部分的信息;没有涉及数据的集中位置的信息。49方差与标准差的计算使用了变量的全部信息,特别是利用了数据的集中位置的信息,而且样本方差是总体方差的无偏估计,因此用方差与标准差来度量数据的离散程度远远优于全距和分位数。但是,方差的单位是原变量的单位的平方,使用起来不方便。而标准差的单位和原变量的单位相同,使用方便,是描述离散程度的最好的度量指标。变异系数是用来度量一个变量的相对变异程度,是一个无量纲指标,可以用来比较不同量纲
16、变量之间的变异程度,也可以用来比较量纲相同但均数相差较大的几个变量之间的变异程度。 50计数资料的统计描述一、常用相对数二、应用相对数的注意事项三、标准化法四、诊断试验中的概率 51为什么引入相对数?绝对数的局限性52相对数的概念:两个有联系的(数值)指标之比。相对数的种类:比: 构成比 相对比率重要区别:分子、分母 相对数531.相 对 比(ratio)概念:是指两个有联系的指标之比,是对比的最简单形式。计算公式:A、B两个指标,A/B(或100%) 若干倍或百分之几。 性别比、OR、RR、CV等。注意:1. A、B可以相同,也可以不同 2. A、B可以是绝对数,也可以是相对数542.构成比
17、(proportion)概念:也叫构成指标,是指一事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总数之比,用以说明某一事物内部各组成部分所占的比重或分布。计算公式:某一组成部分的观察单位数/同一事物各组成部分的观察单位总数100%注意:各组成部分的构成比之和为100% 某一部分比重增大,则其它部分相应减少。55例4-17 某医院统计了2001年住院病人的5类疾病的死亡情况 疾病种类死亡人数百分比 (%)恶性肿瘤 50 33.33循环系统疾病 40 26.67呼吸系统疾病 30 20.00消化系统疾病 20 13.33传染病 10 6.67合计150100.00563. 率(rat
18、e) 概念:是指某种现象在一定条件下,实际发生的观察单位数与可能发生该现象的总观察单位数之比,用以说明某种现象发生的频率大小或强度。 计算公式: 注意:不受其它指标的影响;各率相互独立,其之和不为1(如是则属巧合)。57病名平均人口数死亡人数死亡率(1/10万)高血压172665 40 23.2冠心病172665 11 6.4恼卒中172665253146.5风心病172665 38 22.0某地某年四种常见心血管病死亡率58率、构成比和比的区别 (1)构成比表示某事物内部各部分所占的比例或比重,而率表示某事件发生的频率或概率;构成比与时间单位无关,而率与时间单位有关,即率有速率或强度的含义,
19、它表示单位时间内某事件发生的可能性大小。例如,婴儿死亡率与观察时间单位有关,但男女性结构比与观察时间单位无关。因此,构成比与率不能混淆使用。59率、构成比和比的区别 (2)构成比的分子中的个体一定是分母中的一部分,而比的分子中的个体不一定是分母中的一部分;构成比是同一类事物的数值之比,比可以是任意两个数值之比,仅说明分子是分母的多少倍。例如,女性所占的比例=(女性人口)/(女性人口+男性人口),其分子中的个体包含在分母中。但是,某地区某年每千人口的病床数=(某地区某年所有医院的病床数之和)/(同地区同年总人口数),其分子中的个体不是分母中的一部分,且不是同一类事物。60相对危险度 相对危险度(
20、relative risk, RR)指的是同一事件在两种不同情况下的发生率之比。其计算公式是:61优势比或比数比优势比 (odds ratio,OR)是一个事件在某一种情况下的发生率与不发生率之比,与该事件在另一种情况下的发生率与不发生率之比的比。其计算公式是:62应用相对数时的注意事项计算相对数时分母不能太小(即总观察单位足够多)。分析时不能以(构成)比代(替)率。当总观察单位数不同时:总率(平均率)的计算不能直接相加求和。资料的可比性:两个率要在相同的条件下进行比较。 研究方法相同、研究对象同质、观察时间相等、地区、民族、年龄、性别等。当比较的率是样本率时,应进行假设检验以作出正确结论。6
21、3构成比与率的区别率构成比概念发生的频率或强度各组成部分所占的比重强调点随机发生事件各部分的构成资料获得较难容易特点不一定合计为10064 例1 在进行某遗传病的研究中,一研究人员发现,在该病患者中,有90%是第一个孩子,由此可见该病的遗传与出生顺序有关-更容易遗传给第一个孩子。这个结论是否正确,为什么? 例2 该县为提高医疗卫生的服务水平,对卫生人员进行培训,但是,经过1年培训,与培训前相比,该县孕产妇的死亡率却升高,统计学检验差异有显著性。如何解释?培训前:2000孕产妇 100/10万 ( 死亡2人)培训后:2010孕产妇 149/10万 (死亡3人)65率的标准化什么是标准化?为什么要
22、进行标(准)化? 内部结构不同的两组对象进行比较:例如A组病情严重者多,B组病情较轻的多,但要比较两种不同方法的治疗效果,结果会怎样?66治疗分组旧疗法新疗法治疗人数痊愈人数治愈率%治疗人数痊愈人数治愈率%成人组1005050.020010050.0儿童组2002010.01001010.0合计3007023.330011036.7两种疗法疗效比较67标化法的基本思想从表中的合计看,新疗法的治愈率比旧疗法高。但分别观察成人组和儿童组的治愈率相同。其合计的差别之所以大,是由于两种疗法的选择的样本人群年龄构成不同。新疗法成人所占比例高,而成人的治愈率高,造成总率较旧法高。要正确比较两法的疗效,需按
23、照统一标准进行校正,然后进行比较。当两组资料进行比较时,如果其内部不同小组率有明显差别,而且各小组内部构成也明显不同 ,直接比较不合理。68 标化法的方法:按照统一标准进行校正,然后进行比较。标化法的计算:1.选择标准:任意一组、两组之和、有代表性2.计算标化率:69治疗分组(以旧疗法组病人构成)标准治疗人 数旧疗法新疗法原治愈率%预期治愈人数原治愈率%预期治愈人数成人组10050.05050.050儿童组20010.02010.020合计30023.37036.770新旧两种疗法的标准化治愈率(1)70治疗分组(以两组 各部分病人之和)标准治疗人 数旧疗法新疗法原治预率%预期治预人数原治预率
24、%预期治预人数成人组30050.015050.0150儿童组30010.03010.030合计60023.318036.7180新旧两种疗法的标准化治预率(2)71甲乙两个医院对同一种疾病的治疗效果的比较 病情甲医院乙医院病人数治愈数治愈率(%)病人数治愈数治愈率(%)轻100070070.0 100 9090.0重 100 2020.0100040040.0合计110072065.5110049044.672甲乙两医院对同一种疾病的治疗效果的比较疾病程度合并人数标准人口构成甲医院乙医院原治愈率(%)分配治愈率(%)原治愈率(%)分配治愈率(%)轻11000.570.035.090.045.0
25、重11000.520.010.040.020.0合计22001.065.545.044.665.073实际的率 标准化率1.哪个能反映实际情况?2.标准化率的作用?3.实际率与标化率的比较:甲、乙两个国家,2000年的死亡水平12,进行年龄标化后,甲国的死亡率20,乙国的9,请问以下那种正确: 甲国的实际死亡率比乙国高乙国的实际死亡率比甲国高甲国的年龄较乙国轻乙国的年龄较甲国轻74注意事项1.标准不同得到的标化值不同;2.内部各小组比较时,可不标化;3.标化后的数值再不反映实际水平。75诊断试验中的概率 所谓诊断试验(diagnostic test),直观而言是指应用有关的实验、医疗仪器、试剂
26、等技术手段通过检测受试者的生理、病理指标来帮助判断其有无患病的方法。对诊断试验真实性的评价,常须计算两种概率,即诊断试验的灵敏度和特异度。 76诊断试验中的概率灵敏度(sensitivity,Se) -就是指实际患某病的试验对象被诊断为阳性的概率,也称为真阳性率(true positive rate,TPR)。特异度(specificity,Sp) -是指实际未患某病的试验对象被诊断为阴性的概率,也称为真阴性率(true negative rate,TNR)。 77诊断试验中的概率灵敏度、特异度、漏诊率及误诊率之间的关系可用图5-4表示。图中间的垂与横轴的交点定义为诊断试验为阳性与阴性的临界点
27、,称为诊断界点。 78图 灵敏度、特异度重叠示意图 诊断界点正常人病人误诊率漏诊率特异度灵敏度正常人病人误诊率漏诊率特异度79金标准诊 断+ 合计病人aba+b非病人cdc+d数据格式80计算公式81统计表和统计图 统计表和统计图是描述性统计分析中常用的重要工具,它以形象直观、简单明了、清晰易懂的方式对数据的基本特征进行描述,使人们对所要研究的数据有一个整体上的直观的印象。统计学对统计表和统计图有一定的规定和要求,应充分了解和严格把握,以免因表述错误而引起误解。82统计表 概念统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。统计表的结构 外形上包括:标题、标
28、目、线条、数字及注释。 内容上包括: 主语:被研究的事物,在左侧 宾语:说明主语的各项指标,在右侧统计表的种类:简单表和组合表83表1 不同药物治疗急性冠周炎效果比较分组治愈未愈合计替硝唑25 429甲硝唑181432合计43186184表2 A、B两种药物在甲、乙两医院的疗效药物甲医院乙医院总计有效无效合计有效无效合计A40105042 850100B351550331750100合计7525100752510020085统计表的绘制原则 重点突出、简单明了:不要包罗万象,要使人看过后能明白表格所要表达的主要内容。主宾分明,层次清楚:避免层次过多或结构混乱。 86制表的基本要求 1.标题 标
29、题一般写在表格的上方,内容应包括时间、地点、主要事件,要求用最少的文字说清楚。 2.标目 简明清楚,位置正确;纵标目有单位的要注明单位。注意标目的层次要清楚,不要太多、太复杂。 3.表线 统计表中只有横线,无竖线和斜线,三条线,开放式的 。 4.数值 一律用阿拉伯数字。同一列的小数位数应一致,且位次对齐。表格中不应有空格,暂无记录或未记录用“ ”(点号)表示,无数据用“”表示,这两种情况都不能填“0”。 5.备注 位于表下方,不列入表内 87 统计图 统计图的定义 用点的位置、线段的升降、直条的长短或面积的大小来表达统计资料。直观、形象。种类:直条图、百分条图、圆图、线图、半对数线图、直方图、
30、散点图、箱式图、统计地图等。88绘制统计图的基本要求 1. 按资料的性质和分析目的选用合适的图形。 2.标题:位于图的下方,简明扼要,必要时注明时间、地点。3.纵横轴应有标目单位,尺度一般从左至右、从下而上,分别由小到大,纵横轴长度比例为5:7或7:5。4.附图例:比较不同事物时用不同的线条和颜色来表示,位于右上角或下方 。89直条图(bar chart)1概念:用等宽直条的长短来表示各个相互独立的指标大小的图形。2适用资料:适用于各组统计指标的比较 。3分类:分为单式和复式两种。90直条图(bar chart)4绘制要点: 条图的构造方法和计量资料的频数分布直方图很相似。它和直方图的区别是可
31、以将几个组的直条并列在一起,用于比较组间差异。条图分为横向条图和纵向条图两种,一般常用纵向条图。 直条的宽度:各直条应等宽,等间距,间距宽度和直条相等或为其一半。复式直条图在同一观察项目的各组之间无间距。 排列顺序:可以根据数值从大到小,从小到大,或按时间顺序排列。919293百分条图(percent bar chart) 概念:适用于描述一个计数资料的构成比或比较多个计数 资料的构成比。以长条面积为100%,用长条内各段面积所占的百分比来表示各部分在全体中所占的比例 适用资料:构成比资料。绘制要点: 标尺:一定要有标尺,画在图的上方或下方,起始的位置、总长度和百分条图一致,并和百分条图平行。
32、全长为100%,分成10格,每格10%。 分段:按各部分所占百分比的大小排列,在图上标出百分比。 图例:在图外要附图例说明。9495圆图(pie chart)概念:以一个圆面积为100%,用圆内各扇形面积所占的百分比来表示各部分所占的构成比例 适用资料:构成比资料。绘制要点: 1.每3.6o为1%,用3.6乘以百分数即为所占扇形的度数。用量角器画出。 2.从相当于时钟12点或9点的位置开始顺时针方向绘图。 3.每部分用不同线条或颜色表示,并在图上标出百分比,下附图例说明。9697 2010年大连市市民健康生活方式状况调查对象年龄构成11.5%19.6%23.8%24.2%16.2%4.7%14
33、岁25岁35岁45岁55岁65岁69岁98线图(line graph) 概念:以线段的上升或下降来表示事物在时间上的发展变化或一种现象随另一种现象变迁的情况。 适用资料:反映事物的连续的动态变化规律。两个指标变量的观察值必须一一对应 。99线图(line graph) 绘制要点: 坐标轴:纵轴坐标可以不从0开始,因此在看图时要注意纵轴的起点坐标。 相邻的点用直线连接,不要用平滑的曲线连接。 同一张线图上不要画太多条曲线,否则不易分清。当有两条或两条以上曲线在同一张线图上时,须用不同颜色或不同的图形形式加以区分,并附图例加以说明。100表4-23 某地区1975-2000年痢疾和百日咳死亡率(1/10万)年度痢疾百日咳19751.450.22019800.820.05019850.230.02019900.140.01019950.100.00520000.040.002101102半对数线图(semi-l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度影视作品制作及发行合同
- 2024年度防火门窗产品设计与定制合同
- 非金属矿工业应用
- 洪雅县部分事业单位2024公开考试招聘工作人员岗位表(A类)管理单位遴选500模拟题附带答案详解
- 2024年度企业并购重组融资合同
- 2024年度工程分包合同标的明细
- 激光雕刻微纳加工成本控制
- 课堂纪律主题班会
- 眼保健策略研究
- 2024年度房屋买卖合同房屋位置与交易价格
- 机房整改报告
- 人教版八年级上册数学课后习题
- 基因扩增实验室常用仪器设备的正确操作
- 铁道供电技术《1.2接触网的组成》
- 北京市西城区2023-2024学年八年级上学期期末数学检测卷(含答案)
- 筑梦青春志在四方规划启航职引未来
- 溶血发生的应急预案课件
- 《基金销售话术》课件
- 中医药研究院设计方案
- 动物的遗传改良与繁殖
- 宝宝肌张力高演示课件
评论
0/150
提交评论