医学统计学课件:第二章 统计资料的整理与描述_第1页
医学统计学课件:第二章 统计资料的整理与描述_第2页
医学统计学课件:第二章 统计资料的整理与描述_第3页
医学统计学课件:第二章 统计资料的整理与描述_第4页
医学统计学课件:第二章 统计资料的整理与描述_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第二章统计资料的整理与描述22Statistical

MethodsParameterEstimationHypothesis

TestingInferential

StatisticsDescriptive

StatisticsTheMainContentsoftheStatisticalAnalysis主要内容个体变异

(IndividualVariation)频数分布

(FrequencyDistribution)

定量资料的统计指标(StatisticsofData)

总结(Summary)4个体变异个体变异(individualvariation)是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就每个观察单位而言,其观察指标的变异是随机的(random)。就总体而言,个体变异是有规律的。5个体变异是统计学应用的前提个体变异抽样误差统计推断62.1个体变异生物体的变异是普遍存在的,是客观事实,无法准确预测。这种变异是有规律的,是可以认识的。7主要内容个体变异

(IndividualVariation)频数分布

(FrequencyDistribution)频数分布表的编制数据分布的类型频数分布表的用途定量资料的统计指标(StatisticsofData)

总结(Summary)8一个原始资料某市1997年12岁男童120人的身高(cm)资料如下。

142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.992.2频数分布现状:原始数据(rawdata)往往是庞大的、混乱的;原因:由于个体变异的存在,各个体上的观察结果不是恒定不变的;特点:表面上杂乱无章,但分布(distribution)有一定规律!解决:频数分布表,频数分布图。10(一)频数表的编制(frequencydistributiondrawings)2.2频数分布求极差(R)。

R=160.9-125.9=35划分组段。定组数、组段、组距统计频数。组

数频

率124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167160~10.0083合

计1201.0000定量资料的频数分布表12定量资料的频数分布xFreq.124~1*128~2**132~10**********136~22**********************140~37*************************************144~26**************************148~15***************152~4****156~2**160~1*Total120

13124~128~132~136~140~144~148~152~156~160~#################################################################################################################$$$$###定量资料的频数分布定量资料的频数分布图15定性及等级资料的频数分布血型频数频率(%)O20540.43A11222.09B15029.59AB407.89合计507100.00定性资料的整理:根据指标的自然属性归类,计数频数。等级资料的整理:根据指标的不同等级归类,计数频数。162.2频数分布总结定量资料的频数分布:人为地划分为若干个相连接的区间,计数频数。频数分布用于表达指标的分布规律。分布规律:变异规律。

1717主要内容个体变异

(IndividualVariation)频数分布

(FrequencyDistribution)频数分布表的编制数据分布的类型频数分布表的用途定量资料的统计指标(StatisticsofData)

总结(Summary)1818(二)数据分布的类型typesoffrequencydistribution对称分布

symmetricdistribution

偏态分布skewnessdistribution2.2频数分布单峰分布

SinglePeakDistribution双峰,多峰分布BimodalorMulti-peakDistribution分布的对称峰的多少{{19124132140148156164010203040人数身高(cm)对称分布2.2频数分布20偏态分布正偏态(positiveskew)

负偏态(negativeskew)

2.2频数分布21偏态(skewness):Skewnessmeansthelackofsymmetryinaprobabilitydistribution.

(TheCambridgeDictionaryofStatisticsintheMedicalSciences.)Anasymmetricdistributioniscalled

skew.

(Armitage:StatisticalMethodsinMedicalResearch.)2.2频数分布22非对称分布称为skewness;俗称偏态分布,有人称偏峰分布。“偏”是偏离的意思,表示个别观察值偏离均数较远,而不是“集中位置偏”;2.2频数分布23

“分布不对称者称为偏态分布。偏态分布又分为正偏分布和负偏分布。所谓正偏分布是指分布的长尾在峰的右侧,又称右偏分布;所谓负偏分布是指分布的长尾在峰的左侧,又称左偏分布。”2.2频数分布2470

3

5

7

9

11

13

15

17

19

21

10

20

30

40

50

60

0

1

人数大多数居民发汞含量在1~15mol/kg之间,少数人的发汞大于15mol/kg,分布呈正偏态。发汞含量(mol/kg)(a)239人发汞含量的频数分布25图某城市892名老年人生存质量自评分的频数分布0102030405060708090100自评分4003002001000人数260

5

10

15

20

25

30

35

40

45

0

10203040

(b)102名黑色素瘤患者的生存时间频数分布人数生存时间(月)患者生存时间大部份在30个月内,少数达45个月,分布呈极度偏态,又称L型分布。27图某地1990~1992年男性死亡年龄分布

0510152025

303540

455055606570758085死亡年龄(岁)2500200015001000500028主要内容个体变异

(IndividualVariation)频数分布

(FrequencyDistribution)频数分布表的编制数据分布的类型频数分布表的用途定量资料的统计指标(StatisticsofData)

总结(Summary)29观察有无可疑值;便于进一步计算;考察分布的类型;考察分布的特征;2.2频数分布(三)频数分布表的用途30TheImportanceofGraphs!

数值变量频率分布图TheImportanceofGraphs!

1973年,统计学家F.J.Anscombe构造出了四组奇特的数据。31Anscombe'sQuartetIIIIIIIVxyxyxyxy10.08.0410.09.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.9614.08.1014.08.848.07.046.07.246.06.136.06.088.05.254.04.264.03.104.05.3919.012.5012.010.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.745.05.738.06.8932奇特之处:单从这些统计数字上看来,四组数据所反映出的实际情况非常相近;TheImportanceofGraphs!

33而事实上,这四组数据有着天壤之别!TheImportanceofGraphs!

34TheImportanceofGraphs!

35图拿破仑1812-1813年与俄国战争行军路线图.(C.J.Minard,1869)TheImportanceofGraphs!

3636主要内容个体变异

(IndividualVariation)频数分布

(FrequencyDistribution)

定量资料的统计指标(StatisticsofData)集中趋势的描述离散程度的描述正确应用总结(Summary)372.3定量资料的描述图形描述

频数分布图 趋势图……指标描述

集中位置:算术均数、几何均数、中位数、百分位数

离散程度:极差、标准差、方差、四分位数间距38均数(arithmeticmean,mean)

几何均数(geometricmean)中位数(median)百分位数(percentile)(一)集中趋势的描述(average)39均数(arithmeticmean,mean)(一)集中趋势的描述(average)40加权均数(weightedmean)

均数是加权均数的一个特例(一)集中趋势的描述(average)41均数的应用:1.最适于对称分布资料特别是正态分布资料;2.一组数据的均衡点所在;3.易受极端值的影响。对于偏态资料,均数不能较好地反映其集中趋势。(一)集中趋势的描述(average)42张村有个张千万,隔壁九个穷光蛋平均起来算一算,人人都是张百万这说明了什么?(一)集中趋势的描述(average)43几何均数(geometricmean)

加权法:

flgx

fG=lg-1直接法:(一)集中趋势的描述(average)441:10,1:20,1:40,1:80,1:160(一)集中趋势的描述(average)45几何均数的应用:1.等比资料,如抗体平均滴度2.对数正态分布资料(一)集中趋势的描述(average)46使用几何均数时的注意点:1)观察值不能有0。2)观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再加上负号。(一)集中趋势的描述(average)47中位数(median)

将一组数据按从小到大的顺序排列,位置居中的数即是中位数。反映一组观察值在位次上的平均水平。(一)集中趋势的描述(average)M48中位数例9例正常人的发汞值:

1.1,1.83.54.24.85.65.97.110.5

M=4.89例正常人的发汞值:

1.1,1.83.54.24.85.65.97.1>16

M=4.810例正常人的发汞值:

1.1,1.83.54.24.85.65.97.110.5>16

M=(4.8+5.6)/2=5.2中位数应用:1.不易受极端值的影响;2.可用于任何分布的资料。常用于:①大样本偏态分布资料;②有不确定值资料;③资料分布不明等;3.中位数和均数在对称分布上理论上是相同的。49(一)集中趋势的描述(average)50百分位数(percentile)X%

PX

(100-X)%50%分位数就是中位数25%,75%分位数称四分位数(quartile)

(一)集中趋势的描述(average)51均数几何均数中位数百分位数适用资料单峰对称分布等比资料、对数正态分布各种分布、偏态分布、不确定值各种分布、偏态分布、不确定值计算特点用到全部数据用到全部数据中间数据部分数据极端值的影响敏感敏感、不能同时有正负数不敏感不敏感集中趋势的描述指标小结(一)集中趋势的描述(average)52只用平均数描述资料的弊病

Ithasbeensaidthatafellowwithonelegfrozeniniceandtheotherleginboilingwateriscomfortable.

ONAVERAGE!53主要内容个体变异

(IndividualVariation)频数分布

(FrequencyDistribution)

定量资料的统计指标(StatisticsofData)集中趋势的描述离散程度的描述正确应用总结(Summary)54例如,设有三组同年龄、同性别儿童体重(kg)数据如下:甲组2628303234乙组2427303336丙组2629303134

(二)离散程度的描述55(二)离散程度的描述56极差

(range)四分位数间距

(inter-quartilerange)

方差

(variance)标准差

(standarddeviation)变异系数

(coefficientofvariation)

(二)离散程度的描述57极差(range)极差(全距),用字母R表示,描述数据分布的范围。极差大,说明数据分布较分散。(二)离散程度的描述58特点方法简单明了;不灵敏,除了最大最小值外,不能反映组内其他数据的变异;不稳定,样本较大时抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。59如上述三组数据中:甲组数据的极差R=34-26=8乙组数据的极差R=36-24=12丙组数据的极差R=34-26=8甲组、丙组数据分布较乙组集中。甲组与丙组的离散程度相同?60四分位数间距(inter-quartilerange)

(1)四分位数(quartile,Q)下四分位数即第25百分位数,常用QL表示;上四分位数即第75百分位数,常用QU表示。(2)四分位数间距

指上、下四分位数的间距,既QL与QU间的差距,它是从小到大排列后中间一半数据所在的范围。

(二)离散程度的描述QLQU61(三)方差与标准差

62(三)方差与标准差

63(三)方差与标准差

64(三)方差与标准差

65标准差的计算直接法

总体标准差:样本标准差:(三)方差与标准差

66加权法

xi是各组段的组中值,fi是相应的频数(三)方差与标准差

67甲组:

2628303234乙组:

2427303336丙组:

2629303134

极差 方差 标准差甲组:8 10.0 3.16乙组:12 22.5 4.74丙组:8 8.5 2.92(三)方差与标准差

68(四)变异系数

变异系数(coefficientofvariation,CV)69由于度量单位不同,故不能直接比较两者的标准差,而应比较变异系数:身高

体重由此可见,该地20岁男子体重的变异度大于身高的变异度。例题

某地20岁男子100人,身高均数为166.06cm,标准差为4.98cm;体重均数为53.72kg,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论