医学统计学 个体变异与变量分布_第1页
医学统计学 个体变异与变量分布_第2页
医学统计学 个体变异与变量分布_第3页
医学统计学 个体变异与变量分布_第4页
医学统计学 个体变异与变量分布_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章个体变异与变量分布曾平流行病与卫生统计学教研pstat@1一、个体变异二、频数分布三、定量资料的统计指标四、定性资料与等级资料的统计指标22.1个体变异(individualvariation)是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就个体而言:变异是随机的(random)。就总体而言:个体变异是有规律的。3个体变异是统计学应用的前提个体变异抽样误差统计推断42.2频数分布收集到的原始资料多是杂乱无章的,为了了解数据的分布规律特征,有必要对数据进行整理,描述数据的频数分布(frequencydistribution)以及直方图(histogram)。探索性数据分析(exploratorydataanalysis,EDA)52.2.1定量资料的频数分布例:某市1997年12岁男童120人的身高(cm)资料142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.96频数分布表的制作步骤P7

(1)计算极差(R)

R=Xmax–Xmin=160.9-125.9=35(cm)

(2)确定组数、组距:组数:8~12组距:i=R/组数=35/10=3.5≈4(cm)为什么需要分组?7频数(frequency)是指资料中相同数值或同类属性的观察单位的个数。由于定量资料连续性的特点,因此在对定量资料编制频数分布表时需要分段汇总,否则频数分布表就特别长。在对原始数据分段后,计数不同组段观察值的个数就得到数据的频数分布,将频数分布用表格的形式表示就是频数分布表,简称频数表(frequencytable)。8(3)确定组段:含下限,不含上限第一组段下限≤Xmin上限?最后一组上限>Xmax(4)划记:计算频数、频率

9124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167组段频数频率160~16410.0083合计1201.0000表2.11997年某市120名12岁男童的身高(cm)频数分布累计频率?累计频数?10

图2.1某市120名12岁男童身高的频数分布124132140148156164010203040人数身高(cm)11定性资料的整理:根据指标的自然属性归类,计数频数;等级资料的整理:根据指标的不同等级归类,计数频数表2.2507名傣族人血型的频数分布O20540.43A11222.09B15029.59血型频数频率(%)AB407.89合计507100.002.2.2定性资料及等级资料的频数分布12709对肺癌患者和非肺癌患者吸烟情况

肺癌6472

4119709组别男性女性合计吸烟不吸烟

吸烟不吸烟对照62227

2832709合计126929

69511418此表是Doll和Hill于1948年至1952年间采用回顾性配对调查方法研究了吸烟与肺癌的关系得到的资料(此表分类方法是交叉分类)13例:某医院探讨不同期次矽肺的胸部平片肺门密度变化,资料如下表,问矽肺患者肺门密度的增加与矽肺期次有无关系?Ⅰ肺门密度级别+++++4318814245Ⅱ19672169Ⅲ6175578合计50301141492合计矽肺期次定性和等级资料的频数表?14描述分布类型描述分布的特征便于发现特大、特小的可疑值便于计算有关指标、统计分析与处理频数分布表和频数分布图的用途152.2.3数据的分布类型对称分布:非对称分布(偏态分布)对称分布:频数以中间最多,两侧逐渐减少,基本对称右偏态(正偏态):高峰在左侧,尾部拖在右侧左偏态(负偏态):高峰在右侧,尾部拖在左侧单峰分布:双峰或多峰分布:正偏态(右)负偏态(左)分布的对称峰的多少16

某市120名12岁男童身高的频数分布124132140148156164010203040人数身高(cm)1770

3

5

7

9

11

13

15

17

19

21

10

20

30

40

50

60

0

1

发汞含量()239人发汞含量的频数分布人数180

10

20

30

40

50

60

70

80

90

100

100

200

300

0

400

自评分

某城市892名老年人生存质量自评分的频数分布人数190

5

10

15

20

25

30

35

40

45

0

10203040

生存时间(月)102名黑色素瘤患者的生存时间频数分布人数200

10

20

30

40

50

60

70

80

0

1000

2000

3000

4000

人数死亡年龄(岁)某地某年10000例死亡者年龄分布2122

集中位置的描述

离散趋势的描述2.3定量资料的统计指标2324

是描述一组变量值的集中趋势或平均水平的统计指标。是一组变量值的集中水平的代表值。种类:算术均数、几何均数、中位数、众数、调和均数等2.3.1平均数(集中位置描述)25(一)算术均数(arithmeticmean)简称均数(mean)1.适用条件:单峰对称分布的资料2.计算公式:①直接法加权系数例:某门功课的成绩:平时占0.2,期中占0.3,期末占0.5。则平均成绩为:利用了所有数值,但易受极大值影响。26②频数表法:各组段的频数各组段的组中值??27124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167组段频数频率160~16410.0083合计1201.00001997年某市120名12岁男童的身高(cm)组中值12613013413814214615015415816228例:五人血清抗体滴度:1:10,1:100,1:1000,1:10000,1:100000看一个实例?291适用条件:各变量值成倍数或对数正态分布的资料2公式:3计算(二)几何均数(geometricmean)30例、有5份血清的抗体效价分别为1:10,1:20,1:40,1:80,1:160,求平均抗体效价?此5人血清的平均抗体效价为1:40。

31有25份血清的抗体效价分别为抗体效价1:10,1:20,1:40,1:80,1:160,人数25873所以,这25份血清的平均效价是1:44.7。32使用注意:(1)变量值中不能有0;(2)同一组变量值不能同时存在正、负值;(3)若变量全为负值,计算时将负号除去,算完后再加上。33(三)中位数(median)及百分位数(percentile)将一组变量值从小到大排列,居中的那个变量值。1.适用条件:任何分布(偏态、分布不明、两端无界限)2.计算公式:小样本:当n为偶数:当n为奇数:34例、有10人的发汞值()1.1,1.8,3.5,4.2,4.8,5.6,5.9,7.1,10.5,16.335(2)频数表法:???36甘油三脂频数累积频数累积频率(%)0.10~27274.30.40~16919631.10.70~16736357.6

1.00~9445772.51.30~8153885.41.60~4258092.11.90~2860896.52.20~1462298.72.50~462699.42.80~362999.83.10~1630100.0合计630--37(二)百分位数(percentile)是指在一组数据中找到这样一个值,在一组从小到大排序的数据中,全部观察值的X%小于Px,而其余(100-X)%大于Px。

PxX%(100-X)%38频数表法

39甘油三脂频数累积频数累积频率(%)0.10~27274.30.40~16919631.10.70~16736357.6

1.00~9445772.51.30~8153885.41.60~4258092.11.90~2860896.52.20~1462298.72.50~462699.42.80~362999.83.10~1630100.0合计630--?40应用中位数和百分位数时注意事项:①所有分布类型的资料均可计算中位数和百分位数;②例数较少时,接近两端的百分位数不稳定,不宜用两端的百分位数估计频数分布范围;③中位数抗极端值的影响,比均数好,但不及均数精确;当资料可计算均数或几何均数时,不宜计算中位数。41有甲、乙两组同性别同年龄儿童体重(公斤):甲组26,28,30,32,34乙组24,27,30,33,36

看一个实例上述两组数据的特点:集中位置相同:均为30kg离散程度不同:各观察值与均数的的差值不同2.3.2离散趋势的描述42全距(range)四分位数间距(interquartilerangeQ)方差、标准差(varianceandstandarddeviation)变异系数(coefficientofvariation)43(1)全距(极差)

R=Xmax-Xmin反映资料的分布范围R大→变异程度大,R小→变异程度小

优点:简单明了

缺点:不灵敏,只考虑了最大、最小值

抽样误差大,不稳定44(2)四分位数间距(Q)即P75与P25之差P25:1/4的观察值小于它,称下四分位数P25~QL。P75:1/4的观察值大于它,称上四分位数P75~QU。Q=QU-QL,其间包含了中间的50%变量值,即中间50%变量值的极差。Q值大→变异程度大,Q小→变异程度小偏态分布资料集中趋势…中位数离散趋势…四分位数45(3)方差与标准差离均差总和离均差平方和方差标准差自由度46=(1-4)+(2-4)+(3-4)+(4-

=-3-2-1+0+1+2+3=0对于对称分布或正态分布资料其离均差总和恒等于0。4)+(5-4)+(6-4)+(7-4)例:1、2、3、4、5、6、747计算公式:甲组:26,28,30,32,34乙组:24,27,30,33,36标准差表示一组变量值与均数的平均距离直接、全面、平均地描述一组变量值的离散程度。48标准差是描述变量值变异程度的指标。标准差大变异程度大均数的代表性差标准差小变异程度小均数的代表性好用途1、表示变异程度的大小2、计算标准误、变异系数3、估计正常值范围标准差的意义49一个实例例:某地20岁男子100人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.7kg,标准差为4.96kg,问:体重和身高,哪个变异大?50

使用条件:

均数相差较大时,比较各组资料的变异度;度量衡单位不同时,比较各组资料的变异程度。(4)变异系数51年龄组人数均数标准差CV(%)1~2月10056.32.13.75~6月12066.52.23.33~3.5岁30096.13.13.25~5.5岁400107.83.33.1某地6岁以下儿童身高(cm)的变异绝对变异受平均水平的影响相对变异排除了平均水平的影响52

描述离散程度的指标

种类应用条件计算公式R任何资料R=Xmax-XminQ偏态分布资料S2(S)正态,单位同均数相差不大CV单位不同,均数差大

53小结:定量资料的描述列表描述:频数分布表、一览表……图形描述:频数分布图、趋势图……指标描述定量资料 集中位置:算术均数、几何均数、中位数、百分位数 离散程度:极差、四分位数间距、方差、标准差定性或等级资料 相对数指标:率、构成比、比54平均数与变异度的关系

平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征变异度越小,平均数对各变量值的代表性越好

变异度越大,平均数对各变量值的代表性越差

55平均数与变异度的关系通常,平均数与变异指标一起描述资料的分布特征。用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距描述偏态分布资料的特征。

562.4绝对数的概念与意义调查研究和实验研究得到的定性资料或等级资料经过整理,清点数目得到的数值称为绝对数。如某病的发病人次数、医院收容人数、治愈人数等。绝对数反映一定条件下某种事物的规模或水平,是计划或总结工作的依据,绝对数是计算相对数与平均数的基础。绝对数往往不便于比较。57例:调查得某年小学生中流脑发病:甲地区63例,乙地区35例。甲地区流脑流行比乙地区严重×√如已知小学生总人数:甲地区50051人,乙地区14338人,可算出两个发病率:

甲地区流脑发病率:63/50051×1000‰=1.26‰乙地区流脑发病率:35/14338×1000‰=2.44‰

乙地区流脑流行比甲地区严重582.4.1相对数的概念和意义概念:相对数是两个有联系的指标之比。两个特点:表示事物出现的频度。

把基数化作相等,便于比较。

常用相对数率、构成比、相对比

59(1)率率(rate)又称频率指标,用以说明某事物或某现象在其可能发生的范围内实际发生的频率或强度。计算公式为:

60

表2.5某市某年各区急性传染病发生数及其相对数市区年平均急性传染病各区与I区构成比发病率人口数发生数发病数之比(%)(1/万)163672324331.0018.938.21238954030331.2523.577.863

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论