第一讲2统计的整理与描述714_第1页
第一讲2统计的整理与描述714_第2页
第一讲2统计的整理与描述714_第3页
第一讲2统计的整理与描述714_第4页
第一讲2统计的整理与描述714_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MedicalStatistics医学统计学第二章统计资料的整理与描述

DataSummaryandDescription

南京医科大学公共卫生学院谢璐

luxie@

主要内容个体变异规律性的体现:分布用图表说话:频数图和频数表频数图和频数表的信息资料的统计描述描述集中位置的指标描述离散趋势的指标正确应用总结2个体变异的规律性个体变异(individualvariation)是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就个体而言:变异是随机的(random)。就总体而言:个体变异是有规律的。3例:个体变异的表现某地所有20岁健康男生的血红蛋白√某地所有20岁健康男生和女生的血红蛋白×江苏和西藏所有20岁健康男生的血红蛋白×某地所有20岁健康男生和女生的白细胞计数√4个体变异的规律性分布就每个观察单位而言,其观察指标的变异是不可预测的,或者说是随机的(random)。就总体而言,个体变异是有规律的。当观察值(样本含量)的个数达到足够多时,其分布将趋于稳定,并最终服从于总体分布。变异规律的体现:分布(distribution)5例:乱七八糟的原始数据某地100名成年男子红细胞计数(1012个/升)资料如下:4.095.335.624.635.184.275.073.603.315.324.884.314.125.334.404.793.925.464.815.044.415.264.665.295.235.583.534.544.684.484.404.764.814.574.973.945.484.275.105.785.123.604.014.755.806.015.505.364.184.334.844.744.604.764.584.344.724.813.844.174.853.294.914.454.434.994.494.355.265.045.384.935.414.523.864.994.244.504.924.135.055.145.055.174.555.425.704.676.184.375.404.154.084.714.124.794.896频数分布表和频数分布图原因:由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。现状:医学研究得到的原始数据(rawdata)往往是庞大的、混乱的。解决:频数分布表的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。7频数表编制步骤

求极差选定适当的组段数后估计组距列出组段划记归组获得频数求频率,完成频数表

8频数分布表的编制求极差或全距(Range):R=Xmax-Xmin选定适当的组段数后估计组距(i)组段数的选取以能反映资料的分布特征为宜一般取8~12组9频数分布表的编制列出组段组段的含义:包括组段的下限而不含组段的上限。如:3.2~等价于[3.2,3.5)第一个组段应包含最小值

最后一个组段应包含最大值10频数分布表的编制划记归组获得频数常用的划记方法:“正”;“||||”求频率,完成频数表相应的频数除以总数即为频率各组段的频率总和为1或者100%11100名成年男子红细胞计数频数表组段(1)频数(2)频率(%)(3)3.2~22.003.5~33.003.8~88.004.1~1616.004.4~1818.004.7~2121.005.0~1414.005.3~1212.005.6~44.005.9~6.222.00合计100100.0012100名成年男子红细胞计数频数图100名成年男性的血红细胞计数的频数分布

人数红细胞(1012个/升)3.2

3.5

3.8

4.1

4.4

4.7

5.0

5.3

5.6

5.9

6.2

0

5

10

15

20

13120名12岁男童身高的频数分布图124132140148156164010203040人数身高(cm)14239人发汞含量的频数分布70

3

5

7

9

11

13

15

17

19

21

10

20

30

40

50

60

0

1

发汞含量(mol/kg)人数15某市892名老年人生存质量自评分频数分布

0

10

20

30

40

50

60

70

80

90

100

100

200

300

0

400

自评分人数16

102名黑色素瘤患者的生存时间频数分布

0

5

10

15

20

25

30

35

40

45

0

10203040

生存时间(月)人数17某地某年10000例死亡者年龄分布

死亡年龄(岁)人数0

10

20

30

40

50

60

70

80

0

1000

2000

3000

4000

18分类资料的频数分布血型 频数 频率(%)O 205 40.43A 112 22.09B 150 29.59AB 40 7.89合计 507 100.0019EXCEL制作的频率图20频数分布所提供的信息频数分布图用以表示数据的分布规律。观察有无可疑值。考察分布的类型。对称分布非对称分布(偏态分布)左偏态(负偏态)右偏态(正偏态)考察分布的特征集中位置(CentralTendency)离散趋势(TendencyofDispersion)21289只近视眼Lasik术后1月裸眼视力0.0000.400.500.600.700.800.901.00071.0022偏态:正偏态和负偏态分布不对称者称为偏态分布。偏态分布又分为正偏分布和负偏分布。所谓正偏分布是指分布的长尾在峰的右侧,又称右偏分布;所谓负偏分布是指分布的长尾在峰的左侧,又称左偏分布。23偏态分布1:老年人生存质量自评分0

10

20

30

40

50

60

70

80

90

100

100

200

300

0

400

自评分人数24偏态分布2:黑色素瘤患者的生存时间0

5

10

15

20

25

30

35

40

45

0

10203040

生存时间(月)人数25集中位置和离散趋势26124132140148156164010203040人数身高(cm)124132140148156164010203040人数身高(cm)描述集中位置的指标平均数(Average)算术均数(Mean)几何均数(GeometricMean)中位数(Median)百分位数(Percentile)27描述集中位置的指标:算术均数算术均数(arithmeticmean,mean)

总体均数样本均数28均数的应用最适于对称分布资料,特别是正态分布资料;对于偏态资料,均数不能较好地反映其集中趋势。我也知道了!张村有个张千万,隔壁九个穷光蛋平均起来算一算,人人都是张百万这说明了什么?29加权均数加权均数(weightedmean)

均数是加权均数的一个特例30描述集中位置的指标:几何均数几何均数(geometricmean,G)31几何均数例1:10,1:20,1:40,1:80,1:16032几何均数的应用:1.等比资料,如抗体平均滴度2.对数正态分布资料Remember!33使用几何均数时的注意点:*观察值不能有0*观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再加上负号Becareful!34描述集中位置的指标:中位数中位数(median,M)

将一组数据按从小到大的顺序排列,位置居中的数即是中位数。359例正常人的发汞值:

1.1,7.110.5

M=4.810例正常人的发汞值:

1.1,7.110.516.3

M=(4.8+5.6)/2=5.2

中位数例36中位数例对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人,6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活。本资料属于“开口”资料。本例数据已经按从小到大的升序排列,n=7,为奇数,其中位数为16天。37中位数的应用:中位数常用于描述偏态资料,开口资料,有不确定值的资料的集中位置;中位数和均数在对称分布上理论上是相同的。38描述集中位置的指标:百分位数百分位数(percentile)

X%

PX(100-X)%50%分位数就是中位数25%,75%分位数称四分位数(quartile)39应用中位数和百分位数时注意①中位数和百分位数的计算对资料分布没有特殊要求,所有资料均可计算中位数和百分位数。②中位数只受位置居中的变量值影响,与两端的极端值无关,因此在抗极端值的影响方面,中位数比均数具有较好的稳定性,但不如均数精确。因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。40平均数应用的注意事项同质的资料计算平均数才有意义。均数适用于:单峰对称分布的资料几何均数适用于:对数变换后单峰对称的资料等比资料、滴度资料、对数正态分布资料中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。偏态分布、分布不明资料、有不确定值的资料41平均数应用的注意事项计算几何均数时:变量值中不能有0同一组变量值不能同时存在正、负值若变量值全为负值,可先将负号除去,算出结果后再冠以负号

样本含量较少时不宜计算靠近两端的百分位数平均数要与变异指标结合使用42只用平均数描述资料的弊病Ithasbeensaidthatafellowwithoneleginfrozeniceandtheotherleginboilingwateriscomfortable

ONAVERAGE!43例只用平均数描述资料的弊病甲组2629303134均数30kg乙组2427303336均数30kg丙组2628303234均数30kg丙乙甲三组儿童体重的离散程度44描述离散趋势的指标变异度极差(Range)四分位数间距(interquartilerange)方差(Variance)标准差(StandardDeviation)变异系数(

coefficientofvariation)45描述离散趋势的指标:极差

全距(range),极差

R=max-min

优点:简单明了缺点:①不灵敏②不稳定46描述离散趋势的指标:四分位数间距四分位数间距(inter-quartilerange)

QU-QL=

P75-P25

即中间一半观察值的极差。 四分位数(quartile)是两个特定的百分位数:第25%分位数P25,和第75%分位数P75,分别记为QL和QU。四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。4725%25%25%25%排序数据:按从小到大顺序排列MQLQUinter-quartilerangeQ2Q1Q348描述离散趋势的指标:方差方差(variance)

49描述离散趋势的指标:标准差标准差(standarddeviation,sd)

“离均差平方之和平均后的方根”“均方根”n-1称为自由度

(degreeoffreedom)

,即“可以自由变异的程度”因为任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”。50标准差标准差大:分布分散、不整齐、波动大;标准差小:分布集中、整齐、波动较小。51三组同性别、同年龄儿童的体重(kg)甲组2629303134乙组2427303336丙组2628303234

极差方差标准差甲组8 8.50 2.92乙组1222.50 4.74丙组810.00 3.1652描述离散趋势的指标:变异系数变异系数(coefficientofvariation,CV)排除了平均水平的影响,并取消了单位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论