版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
宋曼殳首都医科大学公共卫生学院流行病与卫生统计学系医学科研中的统计学方法统计描述
统计分析统计描述:用统计指标、统计图、表对资料的数量特征及分布规律进行测定和描述统计推断:用样本信息推断总体特征:①参数估计,②假设检验多因素分析:多重线性回归、logistic回归、Cox模型、对数线性模型等
变量类型
变量值表现
实例资料类型
数值变量定量(具体数值)身高(cm)计量资料分类变量无序二分类对立的两类属性性别(男,女)计数资料多分类不相容的多类属性血型(A,B,O,AB)有序多分类类间有程度差异的属性文化程度(初中、高中、大学...)等级资料统计资料的类型统计资料的类型定量资料(计量资料)定性资料(计数资料、等级资料)统计描述定量资料的统计描述定性资料的统计描述常用统计图表定量资料定义:通过度量衡的方法,测量每个观察单位的某项研究指标的量的大小所得的一系列数据资料特点:有度量衡单位(通过测量得到)多为连续性资料(可在某一区间取任何值)例如患者的身高(cm)、体重(kg)血压(mmHg)、脉搏(次/分)红细胞计数(1012/L)第一节定量资料的统计描述对于一个需要研究的问题,收集到数据后,首先要了解数据的分布范围、集中位置以及分布形态等特征。一、定量资料的频率(频数)分布表、频率直方图二、定量资料的统计描述指标集中趋势的描述;离散程度的描述
定量资料的频数分布表例2-1某妇产科医生观察1402名临产母亲的体重(kg)资料如下:一、频数与频数分布76.060.064.068.068.066.568.070.571.570.057.068.065.558.063.050.0
71.549.0
56.548.560.064.568.065.068.065.063.062.061.066.070.068.068.065.051.570.068.048.0
73.060.067.071.0……59.562.076.561.075.050.5
73.069.053.565.060.069.065.066.072.055.088.0
频数分布表的编制步骤一、频数与频数分布组段(1)组中值Xi(2)频数(3)频率fi(%)(4)累计频率(%)(5)48~5060.40.452~54543.84.256~5816211.615.860~6229320.936.764~6635925.662.368~7029821.383.672~7414010.093.676~78705.098.680~82171.299.884~888630.2100.0合计-1402100.0-表2-11402名临产母亲的体重(kg)频率表
频数分布表的编制步骤*1)计算全距(range,R
):一组资料(数据)的最大值(Max)与最小值(Min)之差R=88-48=402)确定组段数与组距:根据样本数多少,选择适当的组段数。若样本量n≈100,通常取8~15组为宜,
组距≈全距/组段数=40/10=43)确定组段的上、下限:每一个组段的起点和终点,分别称为该组段的下限和上限第一组段必须包括最小值,最后一组段必须包括最大值前一组段上限亦为后一组段的下限分组应尽量采用等组距最后一组段一般应包含该组段的上限,其余各组段区间左闭右开,“[X,Y)”,即包含下限,不包含上限一、频数与频数分布
频数分布表的编制步骤*第1列把数据所在范围分成若干组段(通常取10~15个组段),第1个组段要包括最小值,最后一个组段要包括最大值,习惯上将各组段设为左闭右开的半开区间,如第一个组段[48,52)第2列组中值是各组段的代表值,由本组段的上、下限相加除以2得到第3和4列是频数和频率,频数是落在各组段内的个体数,频率是频数在个体总数中所占的百分比,又称相对频数第5列是累计频率,是否需要该列,则视情况而定一、频数与频数分布图2-11402名临产母亲体重(kg)的频率分布图频率直方图每一直条的面积就是相应各组段的频率,所有组段的频率之和就是相应各直条的面积之和,整个直方图面积之和为1。频率密度=频率/组距矩形面积=长(纵坐标)×宽(横坐标)=频率密度×组距=频率/组距×组距=频率PeopleHistogram*频率(数)分布的特征
从频率表和频率分布图可看出频数分布的两个重要特性集中趋势(centraltendency)离中(散)趋势
(tendencyofdispersion)
一、频数与频数分布观察值有高有低,但服从一定的分布规律:①越靠近中央部分,频率越高——集中趋势;②绝大多数个体值并不与平均水平完全重合,而是不同程度地偏离平均水平——离中趋势是频数分布的两个重要侧面,较全面地概括定量资料蕴涵的信息频率分布图
频率分布图可以比频数分布表更直观地揭示数据分布类型数据的分布类型可分为:对称分布(symmetricdistribution)偏态分布(skeweddistribution)一、频数与频数分布几种不同类型的频数分布示意图频数分布类型
对称分布偏态分布右(正)偏态分布左(负)偏态分布一、频数与频数分布频数分布类型1、对称分布频率分布中间高,两端低有一个对称轴,左右对称用两个参数描述平均水平:均数
变异程度:标准差一、频数与频数分布2、偏态分布频数分布高的偏向一端没有一个对称轴用两个参数描述平均水平:中位数
变异程度:四分位数间距频数分布类型一、频数与频数分布频数分布类型
偏态分布(skeweddistribution)右(正)偏态分布:即频数集中位置偏向数值小的一侧左(负)偏态分布:即频数集中位置偏向数值大的一侧一、频数与频数分布右(正)偏态分布左(负)偏态分布资料的分布类型:对称分布或正态分布;2.偏态分布:高峰在左侧或右侧;3.不规则分布:分布很散,无明显高峰二、集中趋势的描述
反映一组同质观察值的平均水平或一个分布的中心位置常用的描述集中趋势的统计指标:算术均数(简称均数)几何均数中位数
众数调和均数1)
算术均数(arithmeticmean)
简称均数:反映一组分布呈对称的观察值在数量上的平均水平表示符号:总体均数(),样本均数()计算方法:
1.直接法:将所有观察值X1,X2,……Xn直接相加,再除以观察值的个数n,计算公式为:二、集中趋势的描述1)
算术均数(arithmeticmean)
计算方法:2.加权法:用于频表资料或样本中相同观察值较多时。其计算公式为:式中,X1,X2,,Xk为相应组段的组中值=(上限+下限)/2;f1,f2,,fk为频数表资料中各组段的频率;这里的f起了“权重”的作用,体现了相应的组中值对均数产生的影响,故本法称为加权法。
二、集中趋势的描述1)
算术均数(arithmeticmean)例:对表2-1资料用加权法求平均体重应用:频数分布对称的数据,尤其正态分布资料。大数正常人的生理、生化指标,如身高、体重、血红蛋白含量、白细胞计数等都适用偏态分布资料不适用(中位数)这批临产母亲的平均体重为66.19kg。二、集中趋势的描述2)几何均数(geometricmean,G)计算方法:将n个观察值X1,X2,……Xn的乘积开n次方,计算公式为:几何均数:变量对数值的算术均数的反对数,要求各观察值X>0二、集中趋势的描述2)几何均数(geometricmean,G)例:5个人的血清滴度如下,求:平均滴度
1:21:41:81:161:32受最大值的影响,其算术均数为12.4,不能代表这5个观察值的平均水平。其几何均数为或故平均滴度为1:8。二、集中趋势的描述2)几何均数(geometricmean,G)计算方法:若数据以频数表给出,可按加权公式计算:二、集中趋势的描述2)几何均数(geometricmean,G)例2-7用反射免疫自显影法测定100名鼻咽癌患者唾液中EB病毒IgA/VCA抗体滴度,结果见表2-3第(1)、(2)列,求平均抗体滴度。二、集中趋势的描述抗体滴度(1)频率,fi(2)滴度倒数,Xi(3)lgXi(4)fi·lgXi(5)1:2.50.192.50.39790.0756010.25101.00000.2500000.31401.60210.4966511:1600.171602.20410.3746971:6400.086402.80620.224496合计1————1.421445表2-3100名鼻咽癌患者唾液中EB病毒IgA/VCA抗体的平均滴度100名鼻咽癌患者唾液中EB病毒IgA/VCA抗体的平均滴度约为1:26.42)几何均数(geometricmean,G)应用:取对数后资料近似呈对称(正态)分布的资料或观察值之间呈倍数或近似倍数变化资料。只有右偏态数据经对数转换后才近似对称分布,所以几何均数仅可能适用于右偏态分布数据医学实践中经常遇到呈比例的数据,如抗体滴度、细菌的计数、某些疾病的潜伏期、平均效价等均大于0,其频率分布明显为非对称分布,但对观察值取对数后的数据近似一个对称分布,可采用几何均数描述其集中趋势二、集中趋势的描述3)中位数(median)用M表示,是将一组观察值从小到大按顺序排列,位次居中的那个观察值,小于和大于中位数的个体数相等,反映一组观察值的平均位置应用:适合各种类型的资料。特别是①大样本偏态分布的资料②资料有不确定数值③资料分布不规则(分布很散,无明显高峰)等二、集中趋势的描述3)中位数(median)统计学中有一个常用的位置指标百分位数(percentile),以Px表示(读作第x百分位数)Px将总体(或样本)的全部观察值分为两部分,有x%的观察值比它小,其余(100-x)%的观察值比它大据此,P50就是中位数,即中位数乃是一个特殊的百分位数二、集中趋势的描述3)中位数(median)1.直接计算法:当样本量较小(如n<30)时,先将观察值按从小到大顺序排列,再按以下公式计算:式中,n为样本含量,下标(n+1)/2,(n/2),(n/2+1)为有序数列的位次,式中各项为相应位次上对应的观察值n为奇数时,n为偶数时,二、集中趋势的描述3)中位数(median)例:某病患者5人,住院天数分别为7,9,12,16,20,求其中位数。本例n=5,为奇数,观察值已按大小顺序排列。按式计算二、集中趋势的描述3)中位数(median)例:10名感染甲型肝炎病毒(HAV)的患者,其发病的潜伏期(天)按小至大顺序排列为:
16,18,20,20,29,31,33,33,39,40,试求其中位数本例n=10,为偶数,按式计算:二、集中趋势的描述3)中位数(median)2.频率表计算法:当样本量较大(如n≥30)时,一般需将其整理为频率表再按以下公式计算:二、集中趋势的描述式中:fx为Px所在组段的频率,i为该组段的组距,L为其下限,
为取值小于L各组段的累计频率。在求中位数时,x%=50%,fx为中位数所在组段的频率,
x%为0.5,i为中位数所在组段的组距,L为该组段的下限。191名正常人尿氟含量的中位数计算表尿氟(mg/L)频数累计频数累计频率(%)
⑴⑵⑶⑷
0.2~14147.30.4~4155
28.80.6~4710253.40.8~4014274.31.0~1715983.21.2~1217189.51.4~617792.71.6~618395.81.8~418797.92.0~218998.92.2~018998.92.4~119099.52.6~2.81191100.0
合计1910.6~4710253.40.6
47
55191例:现有275例某种沙门氏菌食物中毒患者的潜伏期(h),其频率分布见下表,分别求第5、第95百分位数和中位数
潜伏期(h)(1)频率,fi(%)(2)累计频率(%)(3)0~14.9114.9112~36.7351.6424~23.2774.9136~14.1889.0948~6.9196.0060~3.2799.2772~0.73100.00表2-2食物中毒患者潜伏期的频率分布*RelationshipamongMeanandMedian
Ifadistributionissymmetrical,themeanandmediancoincide.
Ifadistributionisasymmetrical,andskewedtotheleftortotheright,thetwomeasuresdiffer.Apositivelyskeweddistribution(“skewedtotheright”)MeanMedianIfadistributionissymmetrical,themeanandmediancoincideIfadistributionisnonsymmetrical,andskewedtotheleftortotheright,thetwomeasuresdiffer.Apositivelyskeweddistribution(“skewedtotheright”)MeanMedianMeanMedianAnegativelyskeweddistribution(“skewedtotheleft”)RelationshipamongMeanandMedian小结中位数具有的重要作用:适合各种类型的资料。特别是①数据中有极端值、资料有不确定数值、数据呈偏态分布、资料分布类型未知②当数据呈对称分布时,均数和中位数接近;③当数据呈右偏态分布时,均数大于中位数;④当数据呈左偏态分布时,均数小于中位数;可以根据中位数和均数的差别大小,粗略判断数据的分布类型二、集中趋势的描述三种平均数比较二、集中趋势的描述算术均数
几何均数中位数符号GM含义各观察值相加除以观察值的个数所得之商N各观察值的乘积开n次方所得之根一组观察值按顺序排列,居中者应用条件正态或近似正态分布右偏态或对数正态分布偏态或分布类型未知的资料计算公式说明加权法计算中X值的含义不能有0和负值的数据中位数为百分位数的特例习题表3-5列出的是101名正常人的血清肌红蛋白含量(μg/ml)的观察值的频数分布表。计算其算术均数、几何均数和中位数,并分析哪一个指标能够最好地描述该数据的集中趋势。表3-5101名正常人的血清肌红蛋白含量的频数分布表肌红蛋白含量(μg/ml)组中值频数累计频数0~2.5115~7.52310~12.54715~17.561320~22.572025~27.592930~32.5134235~37.5236540~42.5349945~5047.52101
变异程度?
现有甲、乙、丙三组数据甲组60708090100乙组7075808590丙组60758085100如果我们用均数来描写上述资料特征,则:三、离散趋势的描述
定量描述离散趋势的指标,称为变异指标反映一组同质的计量资料观察值之间变异程度或离开平均水平的趋势描述离散趋势的指标
全距(极差)range(R)四分位数间距interquartilerange(Q)方差variance标准差standarddeviation(SD)变异系数coefficientvariation(CV)三、离散趋势的描述应用:反映个体变异的范围(任何分布)R越大变异度越大优点:计算简单缺点:1)没有利用观察值的全部信息2)受极端值和样本量的影响大仅用于粗略地描述观察值的离散趋势1)全距(极差)(Range,R)含义:一组观察值中最大值与最小值之差R=Max-Min1)全距(极差)(Range,R)所有观察值是如何分布的?最小值最大值全距无法回答Range变异程度?1)全距(极差)(Range)
R=最大值-最小值
R甲=100-60=40
R乙=
90-70=20
R丙=100-60=40三、离散趋势的描述四分位数(quartile)是两个特定的百分位数:P25(下四分位数):第25%分位数,记为QL,表示全部观察值中有四分之一的个体取值比它小P75
(上四分位数):第75%分位数,记为QU,表示全部观察值中有四分之一的个体取值比它大2)四分位数间距
(interquartilerange,Q)
三、离散趋势的描述是一组数值变量值中,上四分位数(P75)与下四分位数(P25)之差P75
:第75%分位数,记为QU,表示全部观察值中有四分之一的个体取值比它大P25:第25%分位数,记为QL,表示全部观察值中有四分之一的个体取值比它小2)四分位数间距(interquartilerange,Q)
四分位数间距:QU
-QL=P75
-P25
即中间一半观察值的极差较全距稳定,常与中位数一起,是描述非对称分布资料变异程度的最常用指标仅使用了原变量中部分信息,即指包含了50%数据的分布范围类似地也可以取其它百分位数间距,如P97.5-P2.5、P95-P5或P90-P10等适用于非正态分布
!!2)四分位数间距
interquartilerange(Q)
三、离散趋势的描述计算公式:Q=QU
-QL=P75
-P25
P0P25P50P75P100|Q|
048.1569.21100.0175.0
~X1…Xn尿铅值Q=100.0-48.15=51.85(mmol/L)2)四分位数间距
interquartilerange(Q)
三、离散趋势的描述描述一个变量所有观察值(Xi)与总体均数(μ)的平均离散程度的指标反映个体偏离总体平均水平的程度,如用每个观察值与均数之差,即
离均差=
理想的变异指标:总体方差
(populationvariance):样本方差(Samplevariance)
3)方差(variance)
总体方差
(populationvariance):
将离均差平方的平均值作为总体中个体值偏离平均水平的概括性指标
3)方差(variance)
为什么不用“离均差之和”?10987410111213168-10=-29-10=-111-10=+112-10=+24-10=-67-10=-313-10=+316-10=+6Sum=0Sum=0离散程度:B>AABμA=μB=10个体偏离总体平均水平的程度
就是所谓的离均差(deviationfromaverage)但是
的平均水平不能反映总体中个体值的变异程度,因为
有正有负,总和为0。而离均差平方
可以同等对待正的和负的离中情形3)方差(variance)
三、离散趋势的描述58“方差”定义为“离均差平方的平均值”?而不是“离均差平方和”?3)方差(variance)
哪组数据的离散程度更大?131325ABB组数据离散程度更大3)方差(variance)
131325ABSumA=(1-2)2+…+(1-2)2+(3-2)2+…+(3-2)2=10SumB=(1-3)2+(5-3)2=8SumA>SumB
,与“B组数据离散度更大”的事实不符
3)方差(variance)
131325AB但是,若以离均差平方的平均值来计算,结果(方差)便与实际的离散度相符sA2=SumA/N=10/10=1sB2=SumB/N=8/2=43)方差(variance)
样本方差
(Samplevariance):
样本中的个体偏离的程度比其偏离的程度缩小一些,以致离均差平方的平均值也缩小一些
英国统计学家Gosset提出用n-1代替N,来计算样本中离均差平方的平均水平,即样本方差S2
实际工作中用样本均数代替总体均数
3)方差(variance)
4)标准差(standarddeviation,SD)
总体标准差(Population
SD):是总体方差的算术平方根,记为为用原始度量衡单位表示变异程度标准差越大,个体变异越大4)标准差(standarddeviation,SD)
样本标准差(Sample
SD):是样本方差的算术平方根,记为为用原始度量衡单位表示变异程度标准差越大,个体变异越大现计算上述甲、乙、丙三组的标准差,可得:同样是S甲>S丙>S乙
三、离散趋势的描述4)标准差
(standarddeviation)
优点:是方差的算术平方根,具有方差的优点单位与原变量的单位一致,使用方便应用:是描述对称分布计量资料离散程度的最常用的统计指标表示观察值变异程度(离散趋势),当两组(或几组)资料均数相近、度量单位相同的条件下,标准差较大变异程度较大4)标准差(standarddeviation,SD)
平均数与变异度的关系均数的代表性较好数据变异程度较小数据变成…均数的代表性较好均数的代表性较差数据变异程度较小数据变异程度较大平均数与变异度的关系平均数与变异度的关系
平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征变异度越小,平均数对各变量值的代表性越好变异度越大,平均数对各变量值的代表性越差
标准差的应用1.表示观察值变异程度(离散程度),当两组(或几组)资料均数相近、度量单位相同的条件下,标准差较大,说明观察值的变异程度较大,即各观察值离均数较远,因而均数的代表性较差;反之,标准差较小,均数的代表性较好2.标准差结合均数可计算变异系数3.结合均数描述正态分布的特征和估计医学参考值范围4.结合样本含量n计算标准误三、离散趋势的描述4)标准差
(standarddeviation)
5)变异系数
(coefficientofvariation)
变异系数也称离散系数,用CV表示,是标准差与均数之比,即:CV
值越大,离散程度越大三、离散趋势的描述
特点标准差、四分位数间距和全距都是有量纲的指标,量纲与原始观察值相同而变异系数是相对数,没有量纲三、离散趋势的描述5)变异系数
(coefficientofvariation)
用途:①比较几个量纲不同的变量之间的变异程度。
例:某地20岁男子100人,试比较身高和体重的变异?
身高均数为166.06cm,标准差为4.98cm;
体重均数为53.7kg,标准差为4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中等教育特色学校发展与示范建设考核试卷
- 施工现场安全教育机械安全篇考核试卷
- 环保的意义理论与实践考核试卷
- 炼铁生产中的作业安全操作规程考核试卷
- 危险品仓储应急救援演练考核试卷
- 拆船业在全球产业链中的位置考核试卷
- 可穿戴设备在健康管理中的实际效果考核试卷
- 信息系统的组织与企业管理考核试卷
- 低温仓储人员安全行为培训考核试卷
- DB11T 494.12-2013 人力资源服务规范 第12部分:劳务派遣
- 251直线与圆的位置关系(第1课时)(导学案)(原卷版)
- 2024浙江绍兴市人才发展集团第1批招聘4人(第1号)高频难、易错点500题模拟试题附带答案详解
- 幼儿园说课概述-课件
- 冠状动脉介入风险预测评分的临床应用
- 35导数在经济中的应用
- 苏科版(2024新版)七年级上册数学期中学情评估测试卷(含答案)
- 部编版《道德与法治》三年级上册第10课《父母多爱我》教学课件
- 期中模拟检测(1-3单元)2024-2025学年度第一学期西师大版二年级数学
- 气管插管操作规范(完整版)
- 2024-2025学年外研版英语八年级上册期末作文范文
- 四级劳动关系协调员试题库含答案
评论
0/150
提交评论