定量资料的统计描述05187课件_第1页
定量资料的统计描述05187课件_第2页
定量资料的统计描述05187课件_第3页
定量资料的统计描述05187课件_第4页
定量资料的统计描述05187课件_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

定量资料的统计描述课程信箱主要内容频数分布表的编制和用途频数分布的特征和类型集中趋势指标均数、几何均数、中位数离散趋势指标极差、四分位数间距、方差、标准差、变异系数百分位数计算器的应用连续型资料和离散型资料连续型资料(continuousdata)

理论上在任何两个连续型数据之间都还有无穷多个数据;只要测量仪器足够精确,连续型数据可以精确到小数点后第无限位,比如体重在60.1和60.2kg之间理论上存在着无限多个数据。离散型资料(discretedata)

往往是一种计数,这种计数只能是0和正整数,不会是负数,也没有小数点;比如心率、脉搏、儿童龋齿个数、血小板数、某年某地交通事故死亡人数等。随机变量和研究资料的类型频数分布表

为了了解资料的分布特征,当观察值很多时,直接从原始数据很难得出概括的印象。这时可以通过资料的整理,编制频数分布表(简称频数表),来显示数据分布的范围、数据最集中的区间和分布的形态。找出最大值和最小值,计算极差。极差(R)也叫全距,它是一组变量值中最大值与最小值之差。最大值为51.2kg,最小值为20.1kg,极差R=51.2-20.1=31.1kg。按极差大小决定组段数、组段和组距斯梯阶公式:经验划分:组段数的多少一般根据观察单位的多少来确定,过多或过少均不能更好地反映资料的分布特征,以能够反映频数分布的特点为宜,一般分为8~15组。本例初步确定为10个组。按极差大小决定组段数、组段和组距

相邻组段下限值之差称为组距,一般分组时取组距相等。组距=极差/组数,常取整数作组距,取整只是为了方便资料的整理汇总。本例组距=31.1/10=3.11≈3。频数表的编制本例最小值为20.1,故取20为第一组的下限。第二组下限即20+3=23,余类推。

最后一个组段为50~53,包括最大值51.2。列表划记,统计各组段频数。计算频率与累计频率。150名12岁男童体重(kg)频数分布表

组段频数f频率(%)累计频数累计频率(%)20~21.321.323~74.796.026~106.71912.729~1510.03422.732~2516.75939.335~3523.39462.738~2315.311778.041~1812.013590.044~85.314395.347~53.314898.750~5321.3150100.0合计150100.0某地150名12岁男童体重频数分布图

频数分布的类型

频数分布分为对称分布和偏态分布两种。对称分布是指集中位置在正中,左右两侧频数分布大体对称,如上图。某地150名12岁男童体重频数分布图实际应用中,频数分布的形态很重要,分布不同,计算的统计指标及方法也不同。偏态分布集中位置偏向一侧,频数分布不对称。正、右偏态(峰)分布:集中位置偏于左侧,频数尾部向右侧延伸,如一些以儿童为主的传染病的年龄分布。链球菌感染咽炎患者潜伏期分布图(正偏峰分布)负、左偏态(峰)分布:集中位置偏向右侧,频数尾部向左侧延伸,如一些慢性病患者的年龄分布。207例某恶性肿瘤患者年龄分布(负偏峰分布)链球菌感染咽炎患者潜伏期分布图(正偏峰分布)频数表的用途

作为统计资料描述的一种表达方式,可以揭示资料分布类型与特征。便于发现资料中远离群体的某些特大或特小的可疑值,必要时经检验后舍去。作为正态性判断的图示法。便于计算统计指标和进一步分析处理。集中趋势指标

平均数(average)用来描述一组变量的集中趋势、中心位置或平均水平,常作为一组资料的代表值,使资料产生简明概括的印象,又便于组间的比较。平均数的计算和应用必须具备同质基础。常用的平均数有均数、几何均数和中位数。均数(mean)均数是算术均数的简称,它反映了一组观察值在数量上的平均水平。总体均数用希腊字母μ表示,样本均数用表示。均数的计算

均数的计算方法有直接法和加权法,计算机运算中多采用直接法。均数的计算加权法

当资料中相同观察值较多时,可将相同观察值的个数,即频数f乘以该观察值x,以代替相同观察值逐个相加。对于频数表资料,可用各组段的频数为f,以相应的组中值为x,代入公式计算均数。组中值:该组段下限和上限的均值,或该组段下限和下一个组段下限的均值。组中值组段组中值频数f频率(%)20~21.521.323~24.574.726~27.5106.729~30.51510.032~33.52516.735~36.53523.338~39.52315.341~42.51812.044~45.585.347~48.553.350~5351.521.3合计150100.0均数的应用

描述呈对称分布的资料,特别是正态分布或者近似正态分布的资料的平均水平,因为这时均数位于分布的中心,最能反映分布的集中趋势。几何均数(geometricmean,G)有些医学资料,如抗体的滴度、细菌计数、传染病的潜伏期等,其频数分布明显偏态,各观察值之间呈倍数变化,这时应该用几何均数反映其平均增(减)倍数。用途:用于描述等比级数资料和对数正态分布资料等的平均水平。几何均数的计算直接法:是将n个观察值x1,x2,x3…xn的乘积开n次方所得的根。加权法:几何均数应用的注意事项观察值不能为0。因为0不能取对数,也不能与任何其它数呈对数关系。可以把所有的变量值均加上一个较小的常数,如加0.001。观察值不能同时有正值和负值。若全是负值,计算时可把负号去掉,得出结果后再加上负号。中位数(median,M)中位数是将一组观察值从小到大按顺序排列,位次居中的数值对应的观察值就是中位数。因而全部观察值中,大于和小于中位数的观察值的个数相等。用途:中位数常用于描述偏态分布或末端无确定数据时资料的平均水平或集中位置。因为中位数不是由全部观察值的数量值综合计算出来的,只受居中变量值波动的影响,不受两端特小值和特大值的影响。直接法计算中位数

将原始观察值按大小顺序排列:n为奇数时,

n为偶数时,

例:临床观察7名某病患者,其潜伏期(天)分别为:2,3,3,5,6,9,16,求其平均潜伏天数。M=5临床观察8名某病患者,其潜伏期(天)分别为:2,3,3,5,6,9,16,20求其平均潜伏天数。M=(5+6)/2=5.5频数表法计算中位数

频数表法是以第50位百分位数(P50)作为中位数。百分位数(percentile,P)是指把一组资料的全部观测值分为两部分,理论上讲,有x%的观测值比Px小,有(100-x)%的观测值比Px大。频数表法

M=P50Lx:第x百分位数所在组段的下限;fx:第x百分位数所在组段的频数;ix:第x百分位数所在组段的组距;ΣfL:小于L各组段的累计频数。某医师检测120例链球菌感染咽炎患者咽痛至发热出现的时间(小时),试计算中位数、第25、75百分位数。潜伏期病例数累计频数累计频率(%)12-221.724-202218.336-365848.348-288671.760-109680.072-810486.784-811293.396-411696.7108-4120100.0合计120中位数所在组段P25所在组段P75所在组段某医师检测120例链球菌感染咽炎患者咽痛至发热出现的时间(小时),试计算中位数、第25、75百分位数。百分位数的应用

百分位数用于描述样本或总体观察值序列在某百分位置水平,多个百分位数结合应用时,可更全面地描述总体或样本的分布特征,可用来确定医学参考值范围。由于位于中部的百分位数比较稳定,所以最常用的百分位数是中位数,它有较好的代表性。离散程度指标三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势与离散趋势。甲组2628303234Mean=30kgR=8S=3.16乙组2427303336Mean

=30kgR=12S=4.74丙组2629303134Mean

=30kgR=8S=2.91哪一组数值的代表性好?离散程度指标离散趋势即个体值之间的变异程度,数据越分散,变异程度越高。极差四分位数间距方差标准差变异系数极差(range,R)极差也叫全距,表示一组观察值中最大值与最小值之差,反映个体差异的范围。极差大,说明变异度大,各变量值离均数越远,数据越分散;反之亦然。缺点:由于计算极差时只采用了最大值和最小值,未考虑组内其它数据的变异程度,因此用极差反映变异度不够全面,稳定性也差;当样本例数增大时,得到较大或较小观察值的机会可能会变大,所以极差也可能更大。四分位数间距(quartilerange,QR)QR=QU-QL=P75–P25四分位数间距包含一半的观测值,其值越大,变异程度越大;其值越小,变异程度越小。优点:采用四分位数间距来反映一组资料的变异程度,比极差稳定。实际工作中,常与中位数结合使用,描述偏态分布资料的分布特征。

缺点:不能全面地反映所有观察值的变异程度。离散趋势指标极差R离均差(x-μ)离均差总和(x)=0离均差平方和(x)2

均方(方差)σ2=(x)2/N

标准差四分位数间距QR方差与标准差但是在实际工作中,总体方差往往是未知的,常用样本方差s2来估计。在公式中,用代替,用n代替N,这时计算的结果往往比总体方差σ2要小,所以分母用n-1来代替N,即公式变为:样本方差s2是总体方差σ2的无偏估计。N-1:自由度,常用ν或df表示,是指随机样本研究中,可独立地随机选择变动的观测值的个数。标准差(s,SD)的计算通常所说的标准差为样本标准差。标准差的计算包括直接法和加权法两种。标准差的应用标准差是反映数据变异程度的指标,其大小受每一个观察值的影响,变异程度大,标准差也大。常用于描述对称分布,尤其是正态分布或近似正态分布资料的离散程度。各观察值同加(或减)一个不为零的常数,标准差仍保持不变;但每一个观察值同乘(或除)一个不为零的常数,其标准差等于原标准差乘(或除)以该常数的绝对值。谁的离散程度大?身高:Mean=172cm,SD=8cm体重:Mean=63kg,SD=6kg身高(30岁):Mean=172cm,SD=8cm身高(3岁):Mean=98cm,SD=5cm变异系数(CV)

CV=s/×100%它是反映相对变异度的指标。变异系数常用于:测量单位不同的几组资料变异度的比较;均数相差悬殊的几组资料变异度的比较。谁的离散程度大?身高:Mean=172cm,SD=8cm,CV=0.047体重:Mean=63kg,SD=6kg,CV=0.095身高(30岁):Mean=172cm,SD=8cm,CV=0.047身高(3岁):Mean=98cm,SD=5cm,CV=0.051计算器功能简介MODE或D·R·G:模式转换DEG:degree角度RAD:radian弧度GRA:gradient梯度INV、SHIFT或2ndF:第二功能SD或

STAT:统计功能

,Σx,Σx2,σn(σXσ),σn-1(sX,s),n。X、data或DT:数据储存

Xi

×fdata小结

频数的分布特征:集中趋势和离散趋势。频数的分布类型:对称分布和偏态分布。平均数是描述频数分布集中位置的指标,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论