第二章统计学_第1页
第二章统计学_第2页
第二章统计学_第3页
第二章统计学_第4页
第二章统计学_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

公共卫生学系流行病与统计学教研室郭忠琴医学统计学教学要求:1.掌握:描述计量资料集中趋势、离散趋势的各统计指标的计算方法和适用条件2.熟悉:计量资料的频数分布表的编制方法和分布特征

第一节频数分布一、频数分布表搜集到原始数据后,要了解数据分布的范围、数据最集中的区间以及分布的形态,可通过编制频数分布表来实现。频数:对一个随机变量做重复观察,其中某变量值出现的次数。频数分布表:将各变量值及其相应的频数列成表格的形式。

编制频数分布的步骤

例2-1从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇(mmol/L)的测量结果如下,试编制频数分布表。表2-1某地101名正常成年女子血清总胆固醇资料2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.502.704.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.803.414.123.955.084.533.923.585.353.843.603.514.063.073.554.233.574.833.523.844.503.964.503.274.523.194.593.753.984.134.263.633.875.713.304.734.175.133.784.573.803.933.783.994.484.284.065.265.253.985.033.513.863.023.704.333.293.254.154.364.953.003.26步骤:

(1)

求全距:(极差)

(2)

定组距:以全距的1/10取整作为组距

(3)

划组段:10~15个组段;以一个稍小于或等于最小值的整数作为第一个组段的起点数据。

下限:每个组段的起点(最小值)。

上限:每个组段的终点(最大值)。

注:最后一个组段应同时写出上限和下限来。

(4)

绘制整理表

注:各组段的频数之和应等于总的观察例数。

组距:相邻两组段的下限之差血清胆固醇组段(1)划记(2)频数(3)

2.30~2.60~2.90~3.20~3.50~3.80~4.10~4.40~4.70~5.00~5.30~5.60~

一下正一正下正正正丅正正正正正正正丅正正丅正止正丅一

1368172017129521表2-2某地101名正常成年女子血清总胆固醇的频数表合计

140二、频数分布图以横轴表示被观察变量,纵轴表示频数,以各矩形(宽度为组距)的高度代表各组段的频数。

各组段的组距必须相等三、频数表和频数分布图的用途

1.描述频数分布的类型

频数分布对称分布:指集中位置在正中,左右两侧频数分布大体对称。偏态分布:指集中位置偏向一侧,频数分布不对称。偏态分布正偏态分布:集中位置偏向数值小的一侧。负偏态分布:集中位置偏向数值大的一侧。2.描述频数分布的特征

集中趋势(centraltendency):一组数据向某一个位置聚集或集中的倾向。离散趋势(tendencyofdispersion):一组数据的分散性或变异度。变异:遗传、营养、行为、发育、心理的各种因素同质:同一地区、同一年度、同一民族、同一年龄段、相同的性别、类似健康状况血清胆固醇组段(1)划记(2)频数(3)

2.30~2.60~2.90~3.20~3.50~3.80~4.10~4.40~4.70~5.00~5.30~5.60~

一下正一正下正正正丅正正正正正正正丅正正丅正止正丅一

1368172017129521表2-2某地101名正常成年女子血清总胆固醇的频数表合计

140从中央部分到两侧的频数分布逐渐减少、血清胆固醇的的值参差不齐——离散趋势血清胆固醇值向中央部分集中,即中等含量者居多—集中趋势3.便于进一步计算统计指标和进行统计分析处理。

4.便于发现某些特大或特小的可疑值。

90~192~094~096~098~0100~0110~112~114~116~118~120~122~124~126~128~130~132~134~136139915182114104321110名7岁男童身高(cm)的频数分布

第二节集中趋势的描述

计量资料的统计描述

统计图表:频数分布表(图)统计指标:集中趋势指标离散趋势指标

利用统计表对数据进行概括,用统计图对分布形态及分布间的关系做直观的表达,用于描述计量资料的统计指标的意义与计算。

平均数(average):描述一组同质定量资料的集中趋势;反映一组观察值的平均水平;分布的平均位置。

平均数算术均数(Arithmeticmean)几何均数(Geometricmean)中位数(Median)一、算术均数(arithmeticmean):简称均数(mean),总体均数用希腊字母µ表示,样本均数用拉丁字母表示。

计算方法

1)直接法:适用于样本例数n较少的资料。

其中x1、x2…xn为各变量值,n为样本例数。

例测得8只正常大白鼠总酸性磷酸酶(TACP)

含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。分析:样本例数较少,n=8,用直接法计算。8只正常大白鼠总酸性磷酸酶平均含量为3.91(U/L)

2)加权法(weightmethod):适用于变量值较多的资料。

:各组段的组中值。f1、f2…fn:各组段的频数,它权衡了各组中值由于频数不同对均数的影响(式中变量值的频数愈大,则该变量值对均数的影响愈大,因此频数也称为权数)。组段频数(f)组中值()fx2.30~12.452.452.60~32.758.252.90~63.0518.303.20~83.3526.803.50~173.6562.053.80~203.9579.004.10~174.2572.254.40~124.5554.604.70~94.8543.655.00~55.1525.755.30~5.60~5.90215.455.7510.905.75合计101(Σf)409.75(Σfx)本组段下限与相邻组段下限之和除以2X=(2.30+2.60)/2=2.45X=(2.60+2.90)/2=2.7510,10,10,15,1510有3个,权数为3,计算均数时起3/5的作用——频数多,权数大,作用大15有2个,权数为2,计算均数时起2/5的作用——频数小,权数小,作用小

例2-3

根据表2-1的资料计算101名正常成年女子的血清胆固醇的均数。分析:样本例数较多,n=101,用加权法计算。101名成年女子血清总胆固醇值均数计算表(加权法)组段频数(f)组中值()fx2.30~12.452.452.60~32.758.252.90~63.0518.303.20~83.3526.803.50~173.6562.053.80~203.95794.10~174.2572.254.70~94.8543.655.00~55.1525.755.30~25.1510.905.60~5.9015.455.75合计140(Σf)5.75669.8(Σfx)X=(2.30+2.60)/2=2.45

即:140名健康成人的红细胞均数为4.78×1012/L

2.

均数的两个重要特性

1.各离均差的总和等于0。(总体中各变量值X与均数之差称为离均差)

离均差的平方和小于各观察值X与任何数a之差的平方和。即<

2.均数的应用

均数反映全部观察值的平均数量水平。最适用于对称分布资料,尤其是正态分布资料。均数位于对称(正态)分布的中心,最能反映资料的集中趋势。均数的适用条件几何均数(geometricmean)即几何平均数,用G表示适用条件:变量值呈对数正态分布或变量值为等比数列(如血清抗体滴度)的资料。定义式:计算方法:(1)直接法(小样本)(2)加权法(大样本)二、几何均数计算方法:二、几何均数1)直接法:适用于样本例数n较少的资料。将n个观察值X1,X2,X3…Xn的乘积开n次方

对数形式:例2-4某地5例溦丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为10,20,40,40,160,求其平均滴度。平均滴度为1:34.8计算方法:(2)加权法二、几何均数X1,X2…Xn为各组段的滴度或滴度倒数。f1,f2…fk分别为各组段的频数。表2-469例RA患者血清EBV-VCA-IgG抗体滴度的测定结果抗体滴度人数f滴度倒数XlgXflgX(1)(2)(3)(4)(5)1:104101.00004.00003.90301:203201.30101:4010401.602116.02101:8010801.903119.03101:16011602.204124.24511:320153202.505137.57651:640146402.806239.28681:1280212803.10726.2144合计69——150.2778

二)几何均数应用的注意事项:

1)几何均数常用于等比级数资料或对数正态分布资料。

2)观察值中不能有0。

3)观察值中不能同时有正值和负值。

三、中位数与百分位数(一)中位数中位数(median)是一组按大小顺序排列的变量值,其位次居中的数值,用M表示。适用条件:当一组变量值呈偏态分布,或资料的分布情况不清楚,或变量值一端(或两端)无确定数值,均可用中位数表示其集中趋势。中位数的计算方法(1)直接法(小样本)将观察值按大小顺序排列,当n为奇数时,中间那个数就是中位数。当n为偶数时,中间两个数的平均数就是中位数。

定义式:当n为奇数时当n为偶数时

例2-67名患某病的潜伏期分别为2,3,4,5,6,9,16天,求其平均潜伏期。n为奇数,M=5(天)例2-78名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其平均潜伏期。n为偶数,M=1/2(3+5)=4(小时)(二)百分位数百分位数(Px):指把数据从小到大排列后位于第X%位置的数值。有n个观察值X1,X2…Xn,把他们由小到大按顺序排列成X1≤X2≤X3…≤Xn,将这n个观察值平均的分为100等份,对应于前面X%个位置的数值称为第X百分位数,用Px表示。

一个百分位数Px将总体或样本的全部观察值分为两部分,理论上,在不包括Px的全部数据中有X%的观察值比它小,有(100-X)%的观察值比它大。中位数和百分位数计算方法2)频数表法(大样本)累计频数:本组段的频数与以前各组段的频数相加;

累计频率:每组段的累计频数除以总例数。

天数人数f累计频数累计频率(%)(1)(2)(3)(4)12~443.424~172117.836~325344.948~247765.360~189580.572~1210790.784~511294.996~411698.3108~2118100.0表2-5118名链球菌咽喉炎患者的潜伏期例2-9某地118名链球菌咽喉炎患者的潜伏期频数表见表2-5第(1)、(2)栏,求中位数及P25、P75。中位数和百分位数的应用

1)中位数常用于描述偏态分布资料的集中趋势,反映位次居中的观察值的平均水平。在对称分布的资料中,中位数和均数在理论上是相同的。

2)百分位数可用于确定医学参考值范围。

3)分布中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。四、应用平均数的注意事项

1.平均数的计算和应用必须具备同质基础,必须先合理分组。

不同质的事物要分别求平均数,以便分析比较。

2.根据资料的分布选用适当的平均数。对称分布资料,尤其是正态分布资料,宜用均数,也可用中位数,而偏态分布资料则中位数的代表性较好,对数正态分布及等比级数资料宜用几何均数。

二、离散趋势的统计描述

例2-10试对以下三组同龄男孩身高指标进行统计描述。甲组9095100105110乙组9698100102104丙组9699100101104变异指标又称离散指标,用以描述一组同质变量值之间参差不齐的程度,即离散度。对一组变量值的描述,除了需说明其平均水平外,还要说明其变异程度大小。表示变异程度的指标有极差、方差、四分位数间距、标准差及变异系数一、极差

也称为全距,用R表示,即一组资料中,最大值与最小值之差。

缺点:1)除了最大、最小值外,不能反映组内其他数据的变异度。2)样本例数越多,抽到较大或较小变量值的可能性越大,因而极差可能越大。3)样本例数相同,极差的抽样误差也较大。R甲=110-90=20(cm)R乙=104-96=8(cm)R丙=104-96=8(cm)二、四分位数间距(quartilerange,Q)

P25表示全部观察值中有25%(1/4)的观察值比它小,记为下四分位数QL,P75表示全部观察值中有25%(1/4)的观察值比它大,记为上四分位数QU。

Q适用于各种类型的连续型变量,特别是偏态分布的资料的离散趋势的描述。

天数人数f累计频数累计频率(%)(1)(2)(3)(4)12~443.424~172117.836~325344.948~247765.360~189580.572~1210790.784~511294.996~411698.3108~2118100.0表2-5118名链球菌咽喉炎患者的潜伏期例2-11某地118名链球菌咽喉炎患者的潜伏期频数表见表2-5第(1)、(2)栏,求P25、P75及四分位数间距。

三、方差(variance)和标准差

乙组9698100102104丙组9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论