版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计量资料的统计描述李星明首都医科大学社会医学系流行病学博士libright2003@电话计描述集中趋势:离散趋势:相关系数:偏度(态)系数峰度(态)系数计量资料统计表统计图计数资料率构成比比主要内容一、理论讲解1、频数分布表的编制和用途
-频数分布的特征和类型2、集中趋势指标均数、几何均数、中位数3、离散趋势指标极差、四分位数间距、方差、标准差、变异系数百分位数二、上机操作1、计量资料的统计描述2、统计图表的制作(一)、频数分布表的编制
某儿研所测得该地150名12岁健康男童体重(kg)原始数据如下,试编制频数表。25.234.934.338.141.327.833.837.728.433.547.334.830.536.251.038.043.840.937.536.633.447.436.441.436.542.533.729.339.637.539.633.232.129.943.733.835.137.832.438.528.236.523.435.834.127.642.623.137.144.035.644.546.535.031.836.436.247.938.720.537.129.238.241.136.243.532.836.331.830.638.539.628.733.735.142.920.135.426.542.039.638.735.451.231.434.125.329.638.243.733.824.529.245.932.523.536.827.234.034.744.441.235.342.634.130.031.440.827.348.635.829.745.641.833.028.333.335.140.638.237.625.537.337.541.538.444.243.231.540.234.537.437.833.432.233.432.432.836.845.741.240.936.547.935.739.342.235.330.127.2
1.找出最大值和最小值,计算极差。最大值为51.2kg,最小值为20.1kg,极差R=51.2-20.1=31.1kg。极差(R)也叫全距,它是一组变量值中最大值与最小值之差。2.按极差大小决定组段数、组段和组距。
确定组段数:组段数的多少一般根据观察单位的多少来确定,过多或过少均不能更好地反映资料的分布特征,以能够反映频数分布的特点为宜,一般分为8~15组,观察单位少时可相对少些,观察单位较多时组段数可酌情多些。本例初步确定为10个组。确定组距:相邻组段下限值之差称为组距,一般分组时取组距相等。组距=极差/组数,常取整数作组距,取整只是为了方便资料的整理汇总。本例组距=30.1/10=3.11≈3。划分组段:各组段应有明确的界限,便于汇总,每个组段的起点称“下限”,终点称“上限”。第一组段必须包括最小值,一般取略小于最小值的整数作为第一组的下限,但是第一组的下限值不能等于最小值。各组段即不重叠,也不能留空隙,所以每一组段均为半开闭区间,后一组的下限就是前一组的上限。
组段中的横线~不能省略,它表示连续型资料。
最后一个组段应该包括最大值,并且封口,但最后一个组段的上限不能等于最大值。本例最小值为20.1,故取20为第一组的下限。第二组下限即20+3=23,余类推。
最后一个组段为50~53,包括最大值51.2。3.列表划记,统计各组段频数。4.计算频率与累计频率频数分布的两个特征体重虽有轻有重,但都向35~组段集中,数据大多数集中在32~38组段,共83人,占总人数的55%,这种趋势称为集中趋势。另一方面,随体重逐渐变大或变小,仍有小部分变量值存在,称这种特征为离散趋势,其变异程度是可以测定得。集中趋势和离散趋势是频数分布的两个重要特征,测定其集中趋势和离散趋势就可较全面地分析所研究的事物。频数分布的类型
频数分布分为对称分布和偏态分布两种类型。对称分布是指集中位置在正中,左右两侧频数分布大体对称,如上表所示。若将其绘制成频数分布直方图,则更清楚。直方图是以x(本例为体重)为横坐标,频数或百分数为纵坐标,用矩形面积大小表示频数多少。
某地150名12岁男童体重频数分布图频数分布的类型偏态分布指集中位置偏向一侧,频数分布不对称。一些以儿童为主的传染病,患者的年龄分布,集中位置偏于年龄小的一侧,频数尾部向右侧延伸,称为正偏态(峰)分布,如下图120例链球菌感染咽炎患者潜伏期分布图(正偏峰分布)
一些慢性病患者的年龄分布,其集中位置偏向年龄大的一侧,频数尾部向左侧延伸,称为负偏态(峰)分布,如下图:207例某恶性肿瘤患者年龄分布(负偏峰分布)
频数表的用途
作为统计资料描述的一种表达方式,可以揭示资料分布类型与特征。便于计算统计指标和进一步分析处理。便于发现资料中远离群体的某些特大或特小的可疑值,必要时经检验后舍去。正态性判断的图示法,为用正态近似法确定参考值范围打基础。(二)、集中趋势指标
平均数是统计学中最重要、应用最广泛的一个指标体系。用来描述一组变量的集中趋势、中心位置或平均水平,常作为一组资料的代表值,使资料产生简明概括的印象,又便于组间的比较。平均数的计算和应用必须具备同质基础。常用的平均数有均数、几何均数和中位数。1、均数(mean)均数是算术均数的简称,它反映了一组观察值在数量上的平均水平。总体均数用希腊字母μ表示,样本均数用表示。均数的计算均数的计算方法有直接法和加权法,计算机运算中多采用直接法。均数的计算直接法是将所有性质相同的观察值x1,x2,x3…xn,直接相加再除以观察值的个数n。例:10名12岁健康男童体重(kg)分别为39.6,33.2,32.1,29.9,43.7,33.8,35.1,37.8,32.4,38.5,求平均体重。均数的计算加权法
当资料中相同观察值较多时,可将相同观察值的个数,即频数f乘以该观察值x,以代替相同观察值逐个相加。对于频数表资料,可用各组段的频数为f,以相应的组中值为x,代入公式计算均数。从该公式中可以看出,某一变量值x的频数越大,则该变量值对均数的影响越大,因此频数也叫权数,这样计算出来的均数又叫加权均数。权越大,该变量值对均数的影响也越大,故称加权法。均数的计算均数的两个重要特征
离均差的总和等于零,即各变量值与均数之差的代数和等于零。证明:
各离均差的平方和小于各观察值X与任何数a之差的平方(α≠)。均数的应用
用途:用来描述一组变量值的平均水平,具有代表性,因此变量值必须是同质的。应用条件:适用于呈对称分布的资料,特别是正态分布或者近似正态分布的资料,因为这时均数位于分布的中心,最能反映分布的集中趋势。2、几何均数(geometricmean,G)有些医学资料,如抗体的滴度、细菌计数、传染病的潜伏期等,其频数分布明显偏态,各观察值之间呈倍数变化,这时应该用几何均数反映其平均增(减)倍数。几何均数的计算直接法:是将n个观察值x1,x2,x3…xn的乘积开n次方所得的根。加权法:几何均数的应用用于等比级数资料和对数正态分布资料,如:某些传染病的潜伏期、抗体滴度、细菌计数等。同一组资料的几何均数小于算术均数。观察值不能为0。因为0不能取对数,也不能与任何其它数呈对数关系。可以把所有的变量值均加上一个较小的常数,如加1。观察值不能同时有正值和负值。若全是负值,计算是可把负号去掉,得出结果后再加上负号。3、中位数(M)和百分位数(P)中位数(median,M)是将一组观察值从小到大按顺序排列,位次居中的数值对应的观察值就是中位数。因而全部观察值中,大于和小于中位数的观察值的个数相等。百分位数(percentile,P)是指把一组资料的全部观测值分为两部分,理论上讲,有x%的观测值比Px小,有(100-x)%的观测值比Px大。中位数是特定的百分位数,即P50,它是表示一组资料集中位置的指标。P100(max)P75P50(中位数)P25P0(min)Px中位数计算方法:直接法将原始观察值按大小顺序排列:n为奇数时,n为偶数时,例:临床观察7名某病患者,其潜伏期(天)分别为:2,3,3,5,6,9,16,求其平均潜伏天数。M=5临床观察8名某病患者,其潜伏期(天)分别为:2,3,3,5,6,9,16,20求其平均潜伏天数。M=(5+6)/2=5.5中位数计算方法:频数表法
M=P50Lx:第x百分位数所在组段的下限;fx:第x百分位数所在组段的频数;ix:第x百分位数所在组段的组距;ΣfL:小于L各组段的累计频数。中位数和百分位数的应用
中位数不是由全部观察值的数量值综合计算出来的,只受居中变量值波动的影响,不受两端特小值和特大值的影响,仅仅反映了位次居中的观察值的水平,因此中位数常用于描述偏态分布或末端无确定数据时资料的集中位置。百分位数用于描述样本或总体观察值序列在某百分位置水平,多个百分位数结合应用时,可更全面地描述总体或样本的分布特征,可用来确定医学参考值范围。由于位于中部的百分位数比较稳定,所以最常用的百分位数是中位数,它有较好的代表性。(三)、离散程度指标三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势与离散趋势。甲组2628303234甲=30kg乙组2427303336乙=30kg丙组2629303134丙=30kg哪一组数值的代表性好?离散趋势即个体值之间的变异程度,数据越分散,变异程度越高。极差四分位数间距方差标准差变异系数1、极差(range,R)极差也叫全距,表示一组观察值中最大值与最小值之差,反映个体差异的范围。极差大,说明变异度大,各变量值离均数越远,数据越分散;反之亦然。缺点:由于计算极差时只采用了最大值和最小值,未考虑组内其它数据的变异程度,因此用极差反映变异度不够全面,稳定性也差;另外,当样本例数增大时,得到较大或较小观察值的机会可能会变大,所以极差也可能更大。
2、四分位数间距(quartilerange,QR)QR=QU-QL=P75–P25四分位数间距包含一半的观测值,其值越大,变异程度越大;其值越小,变异程度越小。优点:采用四分位数间距来反映一组资料的变异程度,比极差稳定。一般来说,样本例数越多,四分位间距越稳定。实际工作中,常与中位数结合使用,描述偏态分布资料的分布特征。缺点:不能全面地反映所有观察值的变异程度。极差R四分位数间距QR离均差(x-μ)离均差总和
(x
)=0离均差绝对值和
|x
|离均差平方和
(x
)2
均方(方差)σ2=
(x
)2/N
标准差3、方差与标准差但是在实际工作中,总体方差往往是未知的,常用样本方差s2来估计。在公式中,用代替
,用n代替N,这时计算的结果往往比总体方差σ2要小,所以分母用n-1来代替N,即公式变为:
这时样本方差s2是总体方差σ2的无偏估计。N-1:自由度,常用ν或df表示,是指随机样本研究中,可独立地随机选择变动的观测值的个数。三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势与离散趋势。甲组2628303234甲=30kgR=8S=3.16乙组2427303336乙=30kgR=12S=4.74丙组2629303134丙=30kgR=8S=2.91丙组数值的代表性好。标准差的应用标准差是反映数据变异程度的指标,其大小受每一个观察值的影响,变异程度大,标准差也大。各观察值同加(或减)一个不为零的常数,标准差仍保持不变;但每一个观察值同乘(或除)一个不为零的常数,其标准差等于原标准差乘(或除)以该常数的绝对值。常用于描述对称分布,尤其是正态分布资料的离散程度。可以反映样本均数的代表性。可用于标准误、变异系数等统计指标的计算。
4、变异系数(CV)
CV=s/×100%它是反映相对变异度的指标。变异系数常用于:测量单位不同的几组资料变异度的比较;均数相差悬殊的几组资料变异度的比较。小结
频数的分布特征:集中趋势和离散趋势。频数的分布类型:对称分布和偏态分布。平均数是描述频数分布集中位置的指标,它代表一组观察值的平均水平。均数:描述对称分布,特别是正态或近似正态分布的平均数量水平。几何均数:反映等比级数资料或对数正态分布资料的平均增(减)倍数。中位数:常用于反映偏态分布、分布不明或分布末端无确定值的资料的位次居中的观察值水平。百分位数描述观察序列在某百分位置的水平,它是分布的百分界值,可用于确定医学参考值范围,适用于任何分布。描述频数分布离散程度的指标有:方差与四分位间距,后者较稳定,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度对讲机系统集成服务合同
- 2024年度技术转让合同服务内容扩展
- 近摄镜市场发展预测和趋势分析
- 连衣裙市场发展预测和趋势分析
- 2024年度版权购买合同(具体权益内容)
- 浇铸用车市场发展现状调查及供需格局分析预测报告
- 插线板市场发展现状调查及供需格局分析预测报告
- 2024年度无人机遥感监测服务合同
- 2024年度别克汽车金融贷款服务合同
- 气动开窗器市场需求与消费特点分析
- MODAN6000低压开关柜安装使用说明书
- 铁路基础知识考试题库500题(单选、多选、判断)
- 蹲踞式起跑教学ppt
- 云南省消防条例(2021版)
- 部编版一年级上册语文(比尾巴)课件
- 阴式子宫全切术-手术室护理查房
- 封箱胶带的基本技术指标
- 护理专业职业生涯规划书
- 输血与血型 教学设计
- 泛函分析考试题集与答案
- 房屋加固施工组织设计方案
评论
0/150
提交评论