




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十五章
数值变量的统计分析11频数分布表与频数分布图2集中趋势的描述3离散趋势的描述4正态分布和医学参考值范围的估计数值变量资料的统计描述
150名3岁女孩身高(cm)资料如下80.1
100.197.096.797.9100.786.291.794.790.897.195.892.582.5102.699.196.699.385.289.290.695.193.693.795.197.384.4104.8101.398.7101.587.189.092.796.892.794.999.491.187.283.5103.2101.684.488.491.893.699.294.486.491.788.489.384.282.384.587.989.491.994.586.995.696.592.585.789.186.585.087.689.390.492.195.089.396.396.294.399.591.389.787.489.888.790.292.997.291.490.394.294.696.2……一、数值变量资料的频数分布频数(frequency)对一组研究对象进行观察,某变量或变量值出现的次数,就是变量值的个数。频数分布:变量在其取值范围内各组段分布情况。用频数分布表(简称频数表)、频数分布图表示。
反映各变量值与其频数之间的关系,观察资料的分布特征和分布类型,为进一步描述奠定基础。内容
频数分布表的编制频数分布图频数分布的特征频数分布的类型应用
频数分布表的编制
例1
某市随机测量了150名
3岁女孩的身高(cm)试编制频数分布表。测试结果如下:频数分布表80.1
100.197.096.797.9100.786.291.794.790.897.195.892.582.5102.699.196.699.385.289.290.695.193.693.795.197.384.4104.8101.398.7101.587.189.092.796.892.794.999.491.187.283.5103.2101.684.488.491.893.699.294.486.491.788.489.384.282.384.587.989.491.994.586.995.696.592.585.789.186.585.087.689.390.492.195.089.396.396.294.399.591.389.787.489.888.790.292.997.291.490.394.294.696.2……150名
3岁女孩身高(cm)资料如下1.计算全距:全距又叫极差(range),以R表示,指数据中最大值与最小值之差,它描述了数据变异的幅度。2.划分组段:确定组数、组距和上下限。3.列表归组。本例中最大值为104.8最小值为80.1R=104.8-80.1=24.7(cm)为了简化资料组数不宜过多组数也不能太少否则就掩盖了数据分布的规律一般取8~15组,最常取10组具体视观察值个数n的多少而定组距(classinterval)即每组间的距离,以i表示i=R/k即全距/组数本例中i=24.7/10=2.47为了便于分组,可以将i取整为2确定了组数和组距就可以划分组段,每个组段的起点称“下限”,终点称“上限”。为避免含混,每个组段包含下限,不包含上限,是个半开半闭区间:[)第一组必包含最小值,最后一组必包括最大值。本例:第一组下限取80,上限=下限+组距=82该值也是第二组的下限,以此类推。本例共划分13个组段。
表15-1某市150名3岁女孩身高的频数分布(cm)
组段划记频数f
(1)(2)(3)
80~一1
82~
T
3
84~正T
8
86~正正10
88~正正正T
19
90~正正正正T
23
92~正正正正正一26
94~正正正正T
24
96~正正正T
17
98~正正10
100~正一6
102~
T2
104~106一1合计150---_--_
以直方图多见,更直观了解频数分布情况。组距有等距与不等距之分。不等距是就变量值的划分而言,直方图的宽度始终相等。频数分布图图15-1某市150名3岁女孩身高的频数分布年龄(岁)患者人数每岁患者人数年龄(岁)患者人数每岁患者人数
0~338~881~339~662~9910~363.63~111120~131.34~232330~111.15~222240~40.46~111150~6010.17~1414某市某年乙脑患者的年龄分布集中趋势(centraltendency)3岁女孩身高虽然有高有矮,但向中间集中,中等身高(92-94cm)的人数最多。离散趋势(tendencyofdispersion)从中等身高向较矮或较高方向频数逐渐减少,向两端离散。频数分布特征频数分布类型对称分布(正态分布)偏态分布
对称分布(正态分布):在频数分布图上表现为中间高、两边低,左右两端对称并逐渐下降。如:体温、血压、脉搏、体重、血糖值。偏态分布:频数分布不对称,在频数分布图上表现为高峰偏向一侧,依高峰所在位置又分为正偏态分布和负偏态分布两种。正偏态分布:高峰偏左侧,即在观察值较小的一端集中了较多的频数。如:正常人体中某些非必需微量元素的频数分布。负偏态分布:高峰偏右侧,较为少见。238名正常人发汞值(μg/g)的频数分布发汞值
频数 累计频数 累计频率
(1) (2) (3) (4)=(3)/2380.3~ 20 20 8.40.7~ 66 86 36.11.1~ 60 146 61.31.5~ 48 194 81.51.9~ 18 212 89.12.3~ 16 228 95.82.7~ 6 234 98.33.1~ 1 235 98.73.5~ 0 235 98.73.9~4.3 3 238 100.0
年龄组 恶性肿瘤死亡率(1/10万) 0~ 0.5 10~ 12 20~ 15 30~ 76 40~ 189 50~ 234 60~ 386 70~ 286某地某年恶性肿瘤死亡率的年龄分布
揭示资料的分布特征、分布类型。便于发现某些特大或特小的可疑值。便于进一步计算统计学指标。频数分布表和频数分布图的应用又称平均数(average),是统计学中应用最广泛、最重要的一个指标体系。常用的有算术均数、几何均数、中位数三个指标。用于描述一组同质计量资料的集中位置或反映一组观察值的平均水平。二、集中趋势指标(centraltendency)最常用,也简称均数(mean)。反映一组数据在数量上的平均水平和在分布图上的集中位置。总体均数用µ表示,样本均数用x
表示适用于描述对称分布、正态分布(或近似正态分布)资料的集中趋势。1算术均数一1.直接法(用于小样本或有计算机及软件)将所有数据相加,再除以总例数。
X1、X2…Xn为变量值,n为总例数,∑为希腊字母,为求和符号。10名3岁女孩身高(cm)分别为:92.5、82.5、102.6、99.1、96.6、99.3、85.2、89.2、90.6、95.1,求其平均身高。代入公式得:2.加权法(大样本,一般以频数表为基础)
f1、f2…fk为各组段频数,X1、X2…Xk为各组段组中值,即(本组下限+下组下限)/2,k为组数。
1、编制频数表
(1)计算全距:R=最大值-最小值
(2)划分组段:i=R/组数
(3)列表划记:
2、计算公式
3、列计算表计算均数加权法步骤
表
15-2某市150名3岁女孩身高均数的加权法计表
组段频数组中值XfX(1)(2)(3)(4)=(2)(3)80~1818182~38324984~88568086~108787088~1989169190~2391209392~2693241894~2495228096~1797164998~1099990100~6101606102~2103206104~1061105105合计150(f)13918(fX)用来描述对数正态分布(呈倍数关系)资料。1.直接法(用于小样本)
2几何均数(geometricmean,G)例2
有5人的血清抗体效价为:1:10,1:100,1:1000,1:10000,1:1000000。求其平均效价?
为计算方便,先求其倒数的平均效价:
5份血清的平均抗体效价为1:1000。2.加权法(用于大样本、频数表资料)f1、f2…fk为各组段频数,X1、X2…Xk为倒数,k为组数。例335人血清抗体滴度见下表,求平均滴度。代入公式:
得
35人血清抗体平均滴度为
1:44。抗体滴度人数f滴度倒数XlgXflgX(1)(2)(3)(4)(5)=(2)×(4)1:4240.60211.20421:8581.90314.51551:166161.20417.22461:322321.50513.01021:647641.806112.64341:128101282.107221.07201:25612562.40822.40821:51225122.70935.4186合计35—
—57.4967(flgX)表15-3平均抗体滴度计算表是将一组变量值从小到大排序后位次居中的变量值。主要用于描述偏态分布资料;
开口资料(一端或两端无确定数据);变量值中有个别过大或过小值资料的集中趋势。3中位数(median,M)1.直接法(用于小样本)
n为奇数时,
n为偶数时,某病患者5人的潜伏期(d)从小到大排列为1,3,8,9,15天,求中位数。本例n=5为奇数,
例4
某病患者10人的潜伏期(d)从小到大排列为1,3,8,9,15,19,20,23,25,30,求中位数。
此时n为偶数,
百分位数是一种位置指标,以PX表示,即将数据从小到大排列分为100等份:P1、P2…P100。
PX就表示位于X%位置的数值。
中位数就是位于50%位置的数值,是百分位数的一个特例。2.频数表法LX:第X百分位数所在组下限iX:PX所在组的组距fX:PX所在组的频数∑fL:PX所在组前一组的累计频数百分位数计算中位数(频数表法)
LM:中位数所在组下限
iM:中位数所在组组距
fM:中位数所在组的频数∑fL:中位数所在组前一组的累计频数例5
某医师调查了181名食物中毒患者的潜伏期,见下表,试用中位数反映其平均水平。思路:先判断中位数在哪一个组段,再用公式计算。表15-4181名食物中毒患者的潜伏期
潜伏期(小时)人数f累计频数
f
累计频率(%)
(1)(2)(3)(4)=(3)/n0~303016.5712~639351.38(16.57+34.81)24~4714077.3536~2016088.4048~1217295.0360~818099.4572~841181100.00本例中位数在第三组段,则L=12,i=12,f=63,∑fL=30,代入公式得:
先找到包含PX的最小累计频数;该累计频数同行左边的组段值为L;
L同行右边的频数为fX(或fm);
L前一行的累计频数为∑fL;将上述已知条件代入计算PX或P50。
计算百分位数及中位数技巧:
描述一组同质计量资料离散程度。常用指标有极差、四分位数间距、方差、标准差和变异系数。例
现有3组健康女大学生口腔温度测得值,试分析其平均水平和离散趋势。1组
36.836.937.037.137.2X1=37.02组
36.536.937.037.137.5X2=37.03组
36.536.737.037.337.5X3=37.0三、离散趋势指标怎么才能完整的描述一组资料的特征?仅用集中趋势尚不能完全反映一组资料的特征。故应将集中趋势和离散趋势结合起来,才能更好地反映一组资料的特征。
优点:易理解易记忆。缺点:只能反映最大值与最小值的差距,组内其它数的变异反映不出来。受最大值和最小值的影响,样本含量相差悬殊时不宜用。适用范围:适用于开口资料除外的任何分布资料。1极差(range,R)又称全距
是特定的百分位数,把数列分为
100等份,前四分之一变量值比第25百分位数(P25
)小,称下四分位数,记作QL;后四分之一变量值比第75百分位数(P75
)大,称上四分位数,记作QU。
四分位数间距=QU-QL
2.四分位数(quartile,Q
)LX:第X百分位数所在组下限iX:PX所在组的组距fX:PX所在组的频数∑fL:PX所在组前一组的累计频数百分位数计算首先求资料的
P25和
P75由表可见P25在12~
组段,L=12,i=12,f=63,∑fL=30,代入公式得:P25=同理可知
P75在24~组段,L=24,i=12,f=47,∑fL=93,代入公式得:P75=
例6
求表15-4数据的四分位数间距表15-4181名食物中毒患者的潜伏期
潜伏期(小时)人数f累计频数
f
累计频率(%)
(1)(2)(3)(4)=(3)/n0~303016.5712~639351.3824~4714077.3536~2016088.4048~1217295.0360~818099.4572~841181100.00
前面已计算出
P25=14.90,P75=34.91,代入公式得四分位数间距:
QU-QL
=34.91-14.90=20.01(小时)优点:比极差稳定,误差较小。缺点:仍未考虑每一个数据的变异。适用范围:偏态分布资料,特别是分布末端无确定数据的资料。离均差:离均差平方和:总体方差:
3方差(variance)53样本方差:
n-1称自由度(degreeoffreedom),常用
表示,它描述了当
X选定时,n个变量值(X)中能自由变动的
X的个数。=n-1_
54总体标准差:样本标准差:
加权法:4标准差(standarddeviation)适用条件:
方差与标准差均用于描述对称分布资料的离散趋势,尤其是正态分布资料的离散趋势。例75个
8岁男孩的体重为:26,28,30,32,34,试求其标准差。例
求表15-2中150名3岁女孩体重的标准差。
表
15-2某市150名3岁女孩身高均数的加权法计表
组段频数组中值XfXfX2
(1)(2)(3)(4)=(2)×(3)(5)=(3)×(4)803832492066784~8856805780086~10878707569088~1989169115049990~2391209319046392~2693241822487494~2495228021660096~1797164915995398~109999098010100~610160661206102~210320621218104~106110510511025合计150(f)13918(fX)1294566(fX2)
描述
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 3《月是故乡明》教学设计-2023-2024学年五年级下册语文统编版
- 2023七年级数学下册 第一章 整式的乘除6 完全平方公式第2课时 完全平方公式的应用教学设计 (新版)北师大版
- 3《不懂就要问》教学设计2024-2025学年统编版语文三年级上册
- 11白桦(教学设计)-2023-2024学年统编版语文四年级下册
- 《平行与垂直》(教学设计)-2024-2025学年四年级上册数学人教版
- 6《加快溶解》教学设计-2023-2024学年科学三年级上册教科版
- 《第10课 问题的分解》教学设计教学反思-2023-2024学年小学信息技术浙教版23五年级上册
- 规范经营管理培训课件
- 腹膜透析导管感染的护理
- 1《让目标导航学习》(教学设计)-鲁画版心理健康五年级上册
- 一年级上册劳动《各种各样的职业》课件
- 2024至2030年中国牧业饲草市场发展现状及潜力分析研究报告
- GB/T 4706.17-2024家用和类似用途电器的安全第17部分:电动机-压缩机的特殊要求
- T-CERS 0007-2020 110 kV及以下变电站 并联型直流电源系统技术规范
- 食品工厂机械与设备第二版许学勤课后习题答案
- 政治论文格式模板范文1000字
- 高中数学选修一(人教A版2019)课后习题答案解析
- 职业道德与法治 第13课《学会依法维权》第二框课件《崇尚程序正义》
- 急性胰腺炎治疗指南2024
- 《做一个生态瓶》导学案
- 2022年信创产业发展基础知识
评论
0/150
提交评论