数值变量资料的统计描述专家讲座_第1页
数值变量资料的统计描述专家讲座_第2页
数值变量资料的统计描述专家讲座_第3页
数值变量资料的统计描述专家讲座_第4页
数值变量资料的统计描述专家讲座_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1变量及资料分类总结无序分类(计数)有序分类(等级)二分类多分类数值变量资料(计量)

分类变量资料即变量取值是定量,表现为数值大小其取值是定性,表现为互不相容类别或属性数值变量资料的统计描述第1页课后复习题以下数据是什么类型资料?血压值贫血人数患者住院天数患者抗体滴度数值变量资料的统计描述第2页3第十五章

数值变量统计分析数值变量资料的统计描述第3页统计描述——从资料中获取信息最基本方法把握资料基本特征为深入分析打下基础统计指标统计表统计图4数值变量资料的统计描述第4页5掌握:频数分布表类型、特征和作用;集中趋势指标(适用条件、计算);变异程度指标(适用条件、计算);熟悉:频数分布表编制步骤;频数分布图应用。学习目标与要求数值变量资料的统计描述第5页61频数分布表与频数分布图2集中趋势描述3离散趋势描述数值变量资料统计描述数值变量资料的统计描述第6页7

150名3岁女孩身高(cm)资料以下80.1

100.197.096.797.9100.786.291.794.790.897.195.892.582.5102.699.196.699.385.289.290.695.193.693.795.197.384.4104.8101.398.7101.587.189.092.796.892.794.999.491.187.283.5103.2101.684.488.491.893.699.294.486.491.788.491.389.787.489.888.790.292.997.291.490.394.294.696.2……怎样有效地组织、整理和表示数据信息?

一、数值变量资料频数分布数值变量资料的统计描述第7页8

表15-1某市150名3岁女孩身高频数分布(cm)组段频数频率(%)累计频数累计频率(%)80~10.6710.6782~32.0042.6784~85.33128.0086~106.672214.6788~1912.674127.3390~2315.336442.6792~2617.339060.0094~2416.0011476.0096~1711.3313187.3398~106.6714194.00100~64.0014798.00102~21.3314999.33104~10610.67150100.00累计150100.00

数值变量资料的统计描述第8页91.计算全距:全距又叫极差(range),以R表示,指数据中最大值与最小值之差,它描述了数据变异幅度。2.划分组段:确定组数、组距和上下限。3.列表归组。本例中最大值为104.8最小值为80.1R=104.8-80.1=24.7(cm)组数过少,信息损失较大,组数太多,就掩盖了数据分布规律。普通取8~15组,最常取10组详细视观察值个数n多少而定组距(classinterval)即每组间距离,以i表示i=R/k即全距/组数本例中i=24.7/10=2.47为了便于分组,能够将i取整为2确定了组数和组距就能够划分组段,每个组段起点称“下限”,终点称“上限”。为防止含混,每个组段包含下限,不包含上限,是个半开半闭区间:[)第一组必包含最小值,最终一组必包含最大值。本例:第一组下限取80,上限=下限+组距=82该值也是第二组下限,以这类推。本例共划分13个组段。数值变量资料的统计描述第9页10

表15-1某市150名3岁女孩身高频数分布(cm)

组段划记频数f

(1)(2)(3)

80~一1

82~

T

3

84~正T

8

86~正正10

88~正正正T

19

90~正正正正T

23

92~正正正正正一26

94~正正正正T

24

96~正正正T

17

98~正正10

100~正一6

102~

T2

104~106一1累计150---_--_数值变量资料的统计描述第10页11

表15-1某市150名3岁女孩身高频数分布(cm)组段频数频率(%)累计频数累计频率(%)80~10.6710.6782~32.0042.6784~85.33128.0086~106.672214.6788~1912.674127.3390~2315.336442.6792~2617.339060.0094~2416.0011476.0096~1711.3313187.3398~106.6714194.00100~64.0014798.00102~21.3314999.33104~10610.67150100.00累计150100

数值变量资料的统计描述第11页12

以直方图多见,更直观了解频数分布情况。组距有等距与不等距之分。不等距是就变量值划分而言,直方图宽度一直相等。频数分布图数值变量资料的统计描述第12页13图15-1某市150名3岁女孩身高频数分布数值变量资料的统计描述第13页14年纪(岁)患者人数每岁患者人数年纪(岁)患者人数每岁患者人数

0~338~881~339~662~9910~363.63~111120~131.34~232330~111.15~222240~40.46~111150~6010.17~1414某市某年乙脑患者年纪分布数值变量资料的统计描述第14页15数值变量资料的统计描述第15页16

揭示资料分布特征、分布类型。便于发觉一些特大或特小可疑值。便于深入计算统计学指标。频数分布表和频数分布图应用数值变量资料的统计描述第16页17图15-1某市150名3岁女孩身高频数分布数值变量资料的统计描述第17页18集中趋势(centraltendency)3岁女孩身高即使有高有矮,但向中间集中,中等身高(92-94cm)人数最多。离散趋势(tendencyofdispersion)从中等身高向较矮或较高方向频数逐步降低,向两端离散。频数分布特征数值变量资料的统计描述第18页19频数分布类型对称分布(正态分布)偏态分布

数值变量资料的统计描述第19页20对称分布(正态分布):在频数分布图上表现为中间高、两边低,左右两端对称并逐步下降。如:体温、血压、脉搏、体重、血糖值。数值变量资料的统计描述第20页21图15-1某市150名3岁女孩身高频数分布数值变量资料的统计描述第21页22偏态分布:频数分布不对称,在频数分布图上表现为高峰偏向一侧,依高峰所在位置又分为正偏态分布和负偏态分布两种。正偏态分布:高峰偏左侧,即在观察值较小一端集中了较多频数。如:正常人体中一些非必需微量元素频数分布。负偏态分布:高峰偏右侧,较为少见。数值变量资料的统计描述第22页23238名正常人发汞值(μg/g)频数分布发汞值

频数 累计频数 累计频率

(1)

(2) (3) (4)=(3)/2380.3~ 20 20 8.40.7~ 66 86 36.11.1~ 60 146 61.31.5~ 48 194 81.51.9~ 18 212 89.12.3~ 16 228 95.82.7~ 6 234 98.33.1~ 1 235 98.73.5~ 0 235 98.73.9~4.3 3 238 100.0数值变量资料的统计描述第23页24

年纪组 恶性肿瘤死亡率(1/10万) 0~ 0.5 10~ 12 20~ 15 30~ 76 40~ 189 50~ 234 60~ 386 70~ 286某地某年恶性肿瘤死亡率年纪分布数值变量资料的统计描述第24页共69页25

正偏态(右偏态)峰向左偏移,向右侧拖尾

负偏态(左偏态)峰向右偏移,向左侧拖尾数值变量资料的统计描述第25页261频数分布表与频数分布图2集中趋势描述3离散趋势描述数值变量资料统计描述数值变量资料的统计描述第26页27又称平均数(average),是统计学中应用最广泛、最主要一个指标体系。惯用有算术均数、几何均数、中位数三个指标。用于描述一组同质计量资料集中位置或反应一组观察值平均水平。二、集中趋势指标(centraltendency)数值变量资料的统计描述第27页28最惯用,也简称均数(mean)。反应一组数据在数量上平均水平和在分布图上集中位置。总体均数用µ

表示,样本均数用x

表示适合用于描述对称分布、正态分布(或近似正态分布)资料集中趋势。1算术均数一数值变量资料的统计描述第28页291.直接法(用于小样本或有计算机及软件)将全部数据相加,再除以总例数。

X1、X2…Xn为变量值,n为总例数,∑为希腊字母,为求和符号。数值变量资料的统计描述第29页3010名3岁女孩身高(cm)分别为:92.5、82.5、102.6、99.1、96.6、99.3、85.2、89.2、90.6、95.1,求其平均身高。代入公式得:数值变量资料的统计描述第30页312.加权法(大样本,普通以频数表为基础)

f1、f2…fk为各组段频数,X1、X2…Xk为各组段组中值,即(本组下限+下组下限)/2,k为组数。数值变量资料的统计描述第31页32

15-2某市150名3岁女孩身高均数加权法计表

组段频数组中值XfX(1)(2)(3)(4)=(2)(3)80~1818182~38324984~88568086~108787088~1989169190~2391209392~2693241894~2495228096~1797164998~1099990100~6101606102~2103206104~1061105105累计150(f)13918(fX)数值变量资料的统计描述第32页33用加权法计算某市150名3岁女孩身高均数以下:本例fX=13918,

f=150,带入公式得:即该市150名3岁女孩身高均数为92.79cm。数值变量资料的统计描述第33页34用来描述对数正态分布(呈倍数关系)资料。1.直接法(用于小样本)

2几何均数(geometricmean,G)数值变量资料的统计描述第34页35例2有5人血清抗体效价为:1:10,1:100,1:1000,1:10000,1:1000000。求其平均效价?

为计算方便,先求其倒数平均效价:

5份血清平均抗体效价为1:1000。数值变量资料的统计描述第35页362.加权法(用于大样本、频数表资料)f1、f2…fk为各组段频数,X1、X2…Xk为倒数,k为组数。数值变量资料的统计描述第36页37

例335人血清抗体滴度见下表,求平均滴度。代入公式:

35人血清抗体平均滴度为

1:44。数值变量资料的统计描述第37页38抗体滴度人数f滴度倒数XlgXflgX(1)(2)(3)(4)(5)=(2)×(4)1:4240.60211.20421:8581.90314.51551:166161.20417.22461:322321.50513.01021:647641.806112.64341:128101282.107221.07201:25612562.40822.40821:51225122.70935.4186累计35—

—57.4967(flgX)表15-3平均抗体滴度计算表数值变量资料的统计描述第38页39是将一组变量值从小到大排序后位次居中变量值。主要用于描述偏态分布资料;

开口资料(一端或两端无确定数据);变量值中有个别过大或过小值资料集中趋势。3中位数(median,M)数值变量资料的统计描述第39页401.直接法(用于小样本)

n为奇数时,

n为偶数时,数值变量资料的统计描述第40页41某病患者5人潜伏期(d)从小到大排列为1,3,8,9,15天,求中位数。本例n=5为奇数,

数值变量资料的统计描述第41页42例4某病患者10人潜伏期(d)从小到大排列为1,3,8,9,15,19,20,23,25,30,求中位数。

此时n为偶数,数值变量资料的统计描述第42页43

百分位数是一个位置指标,以PX表示,

PX就表示位于X%位置数值。

中位数就是位于50%位置数值,是百分位数一个特例。例4.1对某地630名50~60岁正常女性检验了血清甘油三脂含量(mmol/L),资料以下表所表示,试计算其中位数。2.频数表法数值变量资料的统计描述第43页表4.1某地630名正常女性血清甘油三脂含量(mmol/L)--630累计100.063013.10~99.862932.80~99.462642.50~98.7622142.20~96.5608281.90~92.1580421.60~85.4538811.30~72.5457941.00~57.6M3631670.70~31.11961690.40~4.327270.10~累积频率(%)累积频数频数甘油三脂数值变量资料的统计描述第44页数值变量资料的统计描述第45页46中位数(频数表法)

LM:中位数所在组下限

iM:中位数所在组组距

fM:中位数所在组频数∑fL:中位数所在组前一组累计频数数值变量资料的统计描述第46页47例5某医师调查了181名食物中毒患者潜伏期,见下表,试用中位数反应其平均水平。思绪:先判断中位数在哪一个组段,再用公式计算。数值变量资料的统计描述第47页48表15-4181名食物中毒患者潜伏期

潜伏期(小时)人数f累计频数f

累计频率(%)

(1)(2)(3)(4)=(3)/n0~303016.5712~639351.38(16.57+34.81)24~4714077.3536~2016088.4048~1217295.0360~818099.4572~841181100.00数值变量资料的统计描述第48页49本例中位数在第二组段,则L=12,i=12,f=63,∑fL=30,代入公式得:

数值变量资料的统计描述第49页501频数分布表与频数分布图2集中趋势描述3离散趋势描述数值变量资料统计描述数值变量资料的统计描述第50页51通常,描述一组观察值,除需要表示其平均水平外,还要说明它离散或变异情况。

惯用于描述离散趋势统计指标有极差、四分位数间距、方差、标准差和变异系数。数值变量资料的统计描述第51页52

对甲乙两名高血压患者连续观察5天,测得收缩压(mmHg)结果以下:

甲患者162145178142186(X=162.6)乙患者164160163159166(X=162.4)

能够看出:两患者收缩压均数十分靠近,但甲患者血压波动较大,而乙患者相对稳定。数值变量资料的统计描述第52页极差(range

)也称作全距,即观察值中最大值和最小值之差,用符号R表示。如前例甲乙两患者收缩压极差分别为1极差(range,R)又称全距数值变量资料的统计描述第53页54

优点:易了解易记忆。

缺点:只能反应最大值与最小值差距,组内其它数变异反应不出来。受最大值和最小值影响,样本含量相差悬殊时不宜用。

适用范围:适合用于开口资料除外任何分布资料。数值变量资料的统计描述第54页55

是特定百分位数,把数列分为

100等份,前四分之一变量值比第25百分位数(P25

)小,称下四分位数,记作QL;后四分之一变量值比第75百分位数(P75

)大,称上四分位数,记作QU。

四分位数间距=QU-QL

2.四分位数(quartile,Q

)数值变量资料的统计描述第55页56LX:第X百分位数所在组下限iX:PX所在组组距fX:PX所在组频数∑fL:PX所在组前一组累计频数百分位数计算数值变量资料的统计描述第56页57首先求资料

P25和

P75由表可见P25在12~

组段,L=12,i=12,f=63,∑fL=30,代入公式得:P25=同理可知

P75在24~组段,L=24,i=12,f=47,∑fL=93,代入公式得:P75=

例6求表15-4数据四分位数间距数值变量资料的统计描述第57页58表15-4181名食物中毒患者潜伏期

潜伏期(小时)人数f累计频数f

累计频率(%)

(1)(2)(3)(4)=(3)/n0~303016.5712~639351.3824~4714077.3536~2016088.4048~1217295.0360~818099.4572~841181100.00数值变量资料的统计描述第58页59

前面已计算出

P25=14.90,P75=34.91,代入公式得四分位数间距:

QU-QL

=34.91-14.90=20.01(小时)数值变量资料的统计描述第59页60优点:比极差稳定,误差较小。缺点:仍未考虑每一个数据变异。适用范围:偏态分布资料,尤其是分布末端无确定数据资料。数值变量资料的统计描述第60页61离均差:离均差平方和:总体方差:

3方差(variance)数值变量资料的统计描述第61页62样本方差:

n-1称自由度(degreeoffreedom),惯用

表示,它描述了当

X选定时,n个变量值(X)中能自由变动

X个数。=n-1_

数值变量资料的统计描述第62页63总体标准差:样本标准差:

加权法:4标准差(standarddeviation)数值变量资料的统计描述第63页64适用条件:

方差与标准差均用于描述对称分布资料离散趋势,尤其是正态分布资料离散趋势。数值变量资料的统计描述第64页65例75个

8岁男孩体重为:26,28,30,32,34,试求其标准差。数值变量资料的统计描述第65页66例

求表15-2中150名3岁女孩体重标准差。数值变量资料的统计描述第66页67

15-2某市150名3岁女孩身高均数加权法计表

组段频数组中值XfXfX2

(1)(2)(3)(4)=(2)×(3)(5)=(3)×(4)803832492066784~8856805780086~10878707569088~1989169115049990~2391209319046392~2693241822487494~2495

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论