医学统计学:数值变量资料的统计描述正态分布及其应用_第1页
医学统计学:数值变量资料的统计描述正态分布及其应用_第2页
医学统计学:数值变量资料的统计描述正态分布及其应用_第3页
医学统计学:数值变量资料的统计描述正态分布及其应用_第4页
医学统计学:数值变量资料的统计描述正态分布及其应用_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数值变量资料的统计描述数值变量资料的统计描述正态分布及其应用正态分布及其应用2主要内容主要内容2.1 频数分布频数分布2.2 集中趋势集中趋势2.3 离散趋势离散趋势2.4 正态分布及其应用正态分布及其应用32.1 频数分布频数分布频数分布表的概念频数分布表的编制方法频数分布的特征频数分布的类型频数分布表的用途4 例例2.1某地某地2004年抽样调查年抽样调查 100名男大学生的身高名男大学生的身高(cm)5一、频数分布表的概念一、频数分布表的概念当样本含量 n 较大时,为了解样本中观察值的分布规律和便于指标计算,可编制频数分布表,简称频数表(频数表(frequency table)。频数:频

2、数:对某一随机现象进行重复观察,或测量大量个体的某项特征,其中某个或某一组变量值出现的次数。频数表:频数表:将各变量值与其相应的频数列成表格形式即为频数表。6二、频数表的编制二、频数表的编制p编制频数表时不可能把所有的变量值及其相应频数都列出来,特别是当样本例数 n 较大时,此时需要根据变量的取值范围划分为若干个组段,再汇总各组段的频数。p具体步骤如下:以例2.1资料为例。7全距(或极差,range)是最大值与最小值之差,用 R 表示。例2.1中,最大值为183.5cm,最小值为162.9cm, 故R =183.5-162.9=20.6(cm)。1. 求全距求全距数值变量资料频数表的编制数值变

3、量资料频数表的编制8组段数:组段数:根据样本含量的多少确定,一般设813个组段。组距:组距:各组段的起点和终点分别称为下限和上限,相邻两组段的下限之差(或每一组段的上、下限之差)称为组距组距。一般取等距分组,常用全距的1/10取整做组距。某组段(下限+上限)/2为组中值。划分组段:划分组段:各组段应是连续的,不能有交叉或重叠。第一组段应包括最小值;最末组段应包括最大值,并同时写出其下限与上限。例2.1中,全距的1/10为 20.6/10 = 2.06,组距取整为2.0cm ;最小值为162.9cm,故第一组段的下限为162cm,第二组段的下限为164cm,依次类推,最末组段为182cm184c

4、m,包含最大值183.5cm 。 2. 确定组段和组距确定组段和组距数值变量资料频数表的编制数值变量资料频数表的编制93. 列出频数表列出频数表采用计算机或划记法将原始数据汇总,得出各组段的观察例数,即频数,把各组段(或各观察值)及其相应的频数列表即为频数表 。注意:注意:最末组段应写出上、下限,其余组段只包最末组段应写出上、下限,其余组段只包含下限,不包含上限。含下限,不包含上限。 数值变量资料频数表的编制数值变量资料频数表的编制102011三、频数分布的特征三、频数分布的特征频数分布的两个重要特征: 1. 集中趋势集中趋势(central tendency):身高向中央部分集中,以中等身高

5、居多(172cm组段),此为集中趋势。反映集中位置或平均水平。 2. 离散程度离散程度(tendency of dispersion):由中等身高到较矮或较高的频数分布逐渐减少,反映了身高的离散程度。对于数值变量资料,应用集中趋势集中趋势和离散程度离散程度二者结合起来分析其分布规律。 12图图 某地某地100名名18 岁男大学生身高的频数分布岁男大学生身高的频数分布集中趋势集中趋势离散程度离散程度13四、频数分布的类型四、频数分布的类型对称分布:对称分布:指频数分布的集中位置在中间,左右两侧大致对称。偏态分布:偏态分布:指频数分布不对称,集中位置偏向一侧:集中位置偏向数值小的一侧,称为正偏态分

6、布正偏态分布; 集中位置偏向数值大的一侧,称为负偏态分布负偏态分布。 如有害化学物质在正常人体内的分布为正偏态分布;冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布。不同的分布类型应选用不同的统计分析方法。不同的分布类型应选用不同的统计分析方法。 14图图2-1 某地某地100名名18岁男大学生身高的频数分布岁男大学生身高的频数分布15五、频数表的用途五、频数表的用途频数表可以揭示资料分布类型和分布特征,以便选取适当的统计方法;便于进一步计算指标和进行统计分析;便于发现资料中的某些特大或特小的可疑值。当样本含量特别大时,可以频率估计概率。作为资料的陈述形式。在文献报告中,用频数表既可直

7、观地反映被研究事物的分布特征,又便于作进一步的分析研究。162.2 集中趋势集中趋势平均数平均数是一类用于描述数值变量资料集中趋势的指标,反映一组同质观察值的平均水平或中心位置。统计上的平均数包括均数、几何均数、中位数、众数、调和均数等。17一、均数一、均数均数(mean)是算术均数(arithmetic mean)的简称。定义:定义:指所有观察值的代数和除以观察值的个数。符号:符号:样本均数用 表示,总体均数用 (miu)表示。 应用:应用: 用于反映一组同质观察值的平均水平,应用 甚广。 适用于正态或近似正态分布的数值变量资料。计算方法:计算方法:直接法 加权法 X 18p直接法:用于样本

8、含量 n 较小时,公式为: 式中,希腊字母 (sigma)表示求和; 为各观察值;n为样本含量,即观察值的个数。p例例2.2 某地随机抽取某地随机抽取10名名18岁健康男大学生身高岁健康男大学生身高(cm)分分别为别为168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7,求平均身高,求平均身高。 集中趋势的描述指标集中趋势的描述指标-均数均数-直接法直接法nXXXnXXn 21nXXX,2119p加权法:用于频数表资料或样本中相同观察值较多时,其公式为:p例例2.3 计算计算例例2.1表表2-1 资料资料100名男大学生的平均身

9、高。名男大学生的平均身高。 集中趋势的描述指标集中趋势的描述指标-均数均数-加权法加权法ffXfffXfXfXfXkkk 21221120几何均数(geometric mean)定义:定义:指一组观察值的乘积,再被观察值个数开方。符号:符号:用 表示应用:应用:适用于 数据经过对数变换后呈正态分布的(对数正态分布)资料;观察值之间呈倍数或近似倍数变化(等比关系)的资料。如医学实践中的抗体滴度、平均效价等。计算方法:计算方法:直接法 频数表法 G二、几何均数二、几何均数21例例2.4 有有6份血清的抗体效价为份血清的抗体效价为1:10,1:20,1:40,1:80,1:80,1:160, 求其平

10、均效价。求其平均效价。 集中趋势的描述指标集中趋势的描述指标-几何均数几何均数-直接法直接法nnXXXG21)lg(lg)lglglg(lgnXnXXXGn 1211或样本含量样本含量 n 较小时较小时22p计算公式:计算公式:p例例2.5 某地区某地区50名麻疹易感儿童接种麻疹疫苗名麻疹易感儿童接种麻疹疫苗1个个月后,测其血凝抑制抗体滴度,如表月后,测其血凝抑制抗体滴度,如表2-2中中(1)、(2)栏,求平均抗体滴度。栏,求平均抗体滴度。集中趋势的描述指标集中趋势的描述指标-几何均数几何均数-频数表法频数表法)lg(lg)lglglg(lgfXffffXfXfXfGkkk 12122111频

11、数表资料或样本中相同观察值较多时频数表资料或样本中相同观察值较多时23集中趋势的描述指标集中趋势的描述指标-几何均数几何均数-加权法加权法24注意:注意:计算几何均数时观察值中不能有0;一组观察值中不能同时有正值和负值。集中趋势的描述指标集中趋势的描述指标-几何均数几何均数-加权法加权法57)758006. 1 (lg)509003.87(lg)lg(lg111fXfG即其血凝抗体滴度的平均滴度为1:57。25中位数(median)是一种位置指标。定义:将一组观察值按由小到大的顺序排列后位次居中的数值就是中位数,小于和大于中位数的观察值个数相等。符号:用 M 表示。应用:用于描述任何分布,特别

12、是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置。计算方法:直接法 频数表法三、中位数三、中位数26p直接法:用于样本含量 n 较小的资料。 n为奇数时, n为偶数时,p例例2.6 某病患者某病患者9名,其发病的潜伏期名,其发病的潜伏期(d)分别为:分别为: 2, 3, 3, 3, 4, 5, 6, 9, 16,求发病潜伏期的中位数。,求发病潜伏期的中位数。 本例n=9,为奇数,故 (d)。 集中趋势的描述指标集中趋势的描述指标-中位数中位数-直接法直接法21 / )( nXM2122/ )(/nnXXM452) 1(XXMn27计算步骤计算步骤:按所分组段由小到大计算累计频数和

13、累计频率;确定中位数所在组段,即累计频率包含50的组段;求中位数。 式中, 分别为中位数所在组段的下限、组距和频数; 为小于L的各组段的累计频数。 例例2.7 某疾病控制中心记录了某疾病控制中心记录了199名沙门氏菌属食物中名沙门氏菌属食物中毒患者发病的潜伏期毒患者发病的潜伏期(表表2-3),计算平均发病潜伏期。,计算平均发病潜伏期。集中趋势的描述指标集中趋势的描述指标-中位数中位数-频数表法频数表法)%(LMfnfiLM 50MfiL ,Lf适用于适用于n 较大时较大时28集中趋势的描述指标集中趋势的描述指标-中位数中位数-频数表法频数表法29p例:分别取甲、乙、丙三人每人的耳垂血,然后红细

14、胞例:分别取甲、乙、丙三人每人的耳垂血,然后红细胞计数,每人数计数,每人数5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm3)420440460480500520540560580离散趋势离散趋势甲甲乙乙丙丙30全距(range,简记为 R)亦称极差。定义:定义:指一组同质观察值中最大值与最小值之差。全距反映了个体差异的范围:全距大,说明变异度大;反之,全距小,说明变异度小。应用:应用:简单明了。常用于说明传染病、食物中毒等的最短及最长潜伏期。公式:公式:R = xmax- - xmin不足不足:仅考虑了最大值与最小值之差 ,不能反映组内其它观察值的变异度;样本含量越大,抽到较大或较小

15、观察值的可能性越大,故全距可能越大。因此,样本含量相差悬殊时不宜用全距比较。 一、全距一、全距31二、百分位数二、百分位数p百分位数(percentile)用 表示,0 x 100,是描述一组数据某百分位的位置指标。 将全部观察值分为两部分,理论上有x的观察值比它小,有(100-x)的观察值比它大。p最常用的百分位数是 ,即中位数。p应用:应用:常与中位数结合应用,可以描述一组资料在某百分位置上的水平,也可以描述资料的分布特征。 M - P5 = P95 M 时,分布近似对称 M -P5 P95 M 时,分布呈负偏态xP50PxP32百分位数百分位数(percentile)p应用:应用:也可用

16、多个百分位数的结合来描述一组观察值的分布特征,如 和 合用时,反映中间50%观察值的分布情况; 百分位数可用于确定非正态分布资料的医学参考值范围。p注意:注意:应用百分位数,样本含量要足够大,否则不宜取靠近两端的百分位数。p计算公式:计算公式: 分别为 所在组段的下限、组距和频数; 为小于L的各组段的累计频数。 25P75P)%(LxxxfxnfiLP xxfiL , ,xPLf3338.33)101%70199(49/1224)%(70 LxxfxnfiLP 75.23)30%50199(71/1212)%50(50 LMfnfiLMP 百分位数百分位数47.57)178%95199(14/

17、1248)%(95 LxxfxnfiLP 98.3)0%5199(30/120)%(5 LxxfxnfiLP 34定义:定义:四分位数间距(quartile interval,Q ) 为上四分位数与下四分位数之差(或 与 之差)。计算公式:计算公式:应用:应用:用于描述偏态分布以及分布的一端或两端无确切数值资料或分布类型未知资料的离散程度。三、四分位数间距三、四分位数间距2575PPQQQLU75P25P35四分位数间距包括了一组观察值的一半,故可把四分位数间距看成是中间50%观察值的极差。意义:意义:Q 越大,变异度越大;反之,Q 越小,变异度越小。特点:特点:由于四分位数间距不受两端个别极

18、大值或极小值的影响,因而它较全距稳定,但仍未考虑全部观察值的变异度 。 离散程度的描述指标离散程度的描述指标-四分位数间距四分位数间距36p极差和四分位数间距都只考虑了个别观察值的大小差异,没有全面反映每个观察值的变异程度。p就总体而言,即应考虑总体中每个观察值 与总体均数 的差值( ),即离均差。p因离均差之和 ,不能反映变异度的大小,故用离均差平方和 (sum of squares of deviations from mean)反映之。离均差平方和的大小除与变异度有关外,还与变量值的个数N 有关。为了消除这一影响,取离均差平方和的均数,称方差(variance)或均方(mean of s

19、quares)。四、方差四、方差XX0)(X2)( X37p计算公式:计算公式: 总体方差 样本方差pn-1为自由度(degree of freedom),一般用 (niu)表示。p因方差的度量单位是原度量单位的平方,故计算结果难以解释。 离散程度的描述指标离散程度的描述指标-方差方差NX22)( 122nXXs)( 38p计算公式:计算公式: 总体标准差 样本标准差五、标准差五、标准差NX2)( 12nXXs)( 39样本标准差样本标准差p离均差平方和 常用 或 表示。 直接法: 加权法: 2)(XX SSXXlnXXXXlSSXX/)()(2221/)(22nnXXs1/)(22fffXf

20、Xs01. 499100/1727029841241/)(222fffXfXs求表2-1中100名18岁男大学生身高的标准差。 100f17270fX29841242fX40意义:意义:标准差大,表示观察值的变异度大; 反之,标准差小,表示观察值的变异度小。应用:应用:适用于描述对称分布资料尤其是正态分布资 料的离散程度。 结合均数,描述正态分布资料的频数分布规 律,用于估计医学参考值范围; 结合均数,计算变异系数; 结合样本含量,计算标准误,估计抽样误 差,用于统计推断。标准差标准差41例题例题p甲:甲:n=5 x=2500 x2=1260400p乙:乙:n=5 x=2500 x2=1251000p丙:丙:n=5 x=2500 x2=125025099.50155/250012604001/)(222nnXXs甲甲81.15155/250012510001/)(222nnXXs乙乙91. 7155/250012502501/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论