数值变量资料的统计描述_第1页
数值变量资料的统计描述_第2页
数值变量资料的统计描述_第3页
数值变量资料的统计描述_第4页
数值变量资料的统计描述_第5页
已阅读5页,还剩132页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 数值变量资料的统计分析统计学描述:统计学描述:选用恰当统计量结合恰当统计选用恰当统计量结合恰当统计图、表,描述资料的分布规律或数理特征图、表,描述资料的分布规律或数理特征。统计学推断:统计学推断:样本样本总体,统计量总体,统计量参数。参数。分析数据分析数据:例例9.19.1 某地用随机抽样的方法对某地用随机抽样的方法对140140名健康成年男名健康成年男性血清尿素氮(性血清尿素氮(BUNBUN)浓度进行检测,所得数据)浓度进行检测,所得数据如下,请编制频数表和观察频数分布情况。如下,请编制频数表和观察频数分布情况。1. 1. 下下 限:一个组的最小值限:一个组的最小值2. 2. 上上

2、限:一个组的最大值限:一个组的最大值3. 3. 组组 距:上限与下限之差距:上限与下限之差4. 4. 组中值:下限与上限之间的中点值组中值:下限与上限之间的中点值(1 1)求极差)求极差(rangerange):即最大值与最小):即最大值与最小值之差,又称为全距。值之差,又称为全距。 R=XR=X最大最大-X-X最小最小6.552.10 = 4.456.552.10 = 4.45(mmol/lmmol/l) (2 2) 决定组数、组段和组距:决定组数、组段和组距:根据研根据研究目的和样本含量究目的和样本含量n n 确定分组组数。相邻确定分组组数。相邻两组段下限值之差称两组段下限值之差称组距组距

3、,组距组距= =极差极差/ /组组数数。为方便计,组距为极差的十分之一。为方便计,组距为极差的十分之一, , 再略加调整。本例拟分再略加调整。本例拟分1212组。组。 4.45 / 12 = 0.37 0.4 4.45 / 12 = 0.37 0.4 (mmol/lmmol/l) 制定频数表的制定频数表的目的目的是为了简化资料,显是为了简化资料,显示出数据的分布规律,示出数据的分布规律,故组段数不易过多,故组段数不易过多,但也不能过少,否则但也不能过少,否则会掩盖数据的会掩盖数据的分布规分布规律。律。(3 3) 列出组段列出组段 每个组段的起点为该组下限,终点为上限,上限下限组距,第一组段包含

4、最小值,最后组段包含最大值。 各组段不能重叠,即同一个数据不能出现在两个组段内,所以每一个组段都应该是半开半闭区间:下限,上限) 第一个组段:2.00,第二个组段:2.40第十二个组段:6.406.80或6.40,6.80*:最后一个组段应该同时标明上限和下限(4 4)列表划记:列表划记:采用划记法分别将原始资料中各变量采用划记法分别将原始资料中各变量值在频数表中列出来,并且统计各组段变量值的个数,值在频数表中列出来,并且统计各组段变量值的个数,即即频数频数。频数分布图频数分布图1 1描述频数分布的类型(对称分布、偏态分布)描述频数分布的类型(对称分布、偏态分布)某地居民2 3 8 人发 汞

5、含 量分布表02040608012345678发汞含量(u m o l / kg )人数正偏态(右偏态)正偏态(右偏态)负偏态(左偏态)负偏态(左偏态)学生成绩分布图0102030405060702025-35-45-55-65-75-85-95-100分 数人 数x12nXXXXXnn公式公式 :x112233123kkkfXf Xf Xf Xf XXfffffX 本组段下限值+下组段下限值其中2 k k:频数表的组段数:频数表的组段数 f f :频数:频数 :组中值,其中:组中值,其中i i=1,2,k k。ix表表9-3 1409-3 140名成年男子血清名成年男子血清BUNBUN浓度浓

6、度(mmol/L)(mmol/L)均数与标准差计算用表均数与标准差计算用表Lmmolffxx/41. 414080.61612121lg1lg(lglglg)lglgnnnGX XXXGXXXnnXGn几何均数:变量对数值几何均数:变量对数值的算术均数的反对数。的算术均数的反对数。 n计算几何均数的计算几何均数的观察值应大于零观察值应大于零1.1.直接法直接法100825lg50lg100lg50lg800lg400lg25lg200lglg1G1lglg()fXGf例例9-4 9-4 某地对某地对112112名儿童接种某种疫苗一个月后,测定了各名儿童接种某种疫苗一个月后,测定了各儿童血清抗体

7、滴度,结果如表儿童血清抗体滴度,结果如表9-49-4第(第(1 1)、()、(2 2)栏,试求平)栏,试求平均滴度。均滴度。55.471128415.187lglglg11fxfG112人的血清平均抗体效价为1:48。计算几何均数应该注意的事项 变量值中不能有0或负数,因为0和负数不能取对数。u 不能同时有正有负。若全部是负值,计算时可先把负号去掉,得出结果后,再 加上负号。1()2nMX()(1)2212nnMXXn为奇数时为奇数时n为偶数时为偶数时 计算公式计算公式: :(50%)(50%)LmMnnfMLif 所 在 组 段 下 限 值至 该 下 限 值 的 累 计 频 数组 距所 在

8、组 段 下 限 值 至 上 限 值 间 的 频 数下限值下限值L L上限值上限值U Ui; fm中位数中位数M M)%50(Lfnix%X(100)%XXP 百分位数示意图百分位数示意图(二)百分位数(二)百分位数(percentile)n中位数是第50百分位数,用P50表示。(%)XXXLXiPLnXff 50505050()2LinMPLff1%50%2X例例 9.79.7 为了解本地儿童体内铅负荷的现状,某市儿保所为了解本地儿童体内铅负荷的现状,某市儿保所20062006年以随机抽年以随机抽样的方法调查了该市样的方法调查了该市340340名名7 7岁以下儿童的血铅含量,试计算该资料的中位

9、岁以下儿童的血铅含量,试计算该资料的中位数和数和P P2525、P P7575、P P959577. 081%253404225. 075. 025P28. 116450%340550.2525. 1M75. 1219%753403625. 050. 175P54. 2322%95340625. 050. 295P 例:设甲、乙、丙三人,采每人的耳垂血,然后作红例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数细胞计数,每人数5 5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm/mm3 3)甲乙丙简单,但仅利用了两端点值,稳定性差。简单,但仅利用了两端点值,稳定性差。( (

10、一一) ) 全距(全距(RangeRange)R6.552.10 = 4.45(mmol/l)2575PP25LQP75UQP50P25P100P0P75P意义:意义:四分位数相当于中间一半变量值的极差,四分位数相当于中间一半变量值的极差,适用于偏态资料或两端无确定数据的资料适用于偏态资料或两端无确定数据的资料77.081%253404225.075.025P28.116450%340550.2525.1M75.1219%753403625.050.175P54.2322%95340625.050.295P75. 177. 07525PQPQUL,)/(98. 077. 075. 1lmolQ

11、QQLU优点:优点:与极差相比,不受两端最大值,最小值的与极差相比,不受两端最大值,最小值的影响,比较稳定影响,比较稳定缺点:缺点:没有考虑到每一个具体变量值的变异程度没有考虑到每一个具体变量值的变异程度(60-72) ( 66-72) ( 72-72) (78-72) ( 84-72) -12 -6 0 6 120)(xxxx(60-72)2 ( 66-72) 2 ( 72-72) 2 (78-72) 2 ( 84-72) 2 144 36 0 36 1442)(xx 0)(2xx60 66 72 78 8460 66 72 78 84NX22 )( 22()XN22()1XXSn总体方差总

12、体方差样本方差样本方差方差(方差(variance)是离均差平方和的均数,反映是离均差平方和的均数,反映一组数据的平均离散水平。一组数据的平均离散水平。l由于在实际工作中,往往得到的样本资料,总体均数由于在实际工作中,往往得到的样本资料,总体均数 是未知是未知的,所以只能用样本均数的,所以只能用样本均数 作为作为 的估计值,即用的估计值,即用 代代替替 ,用样本例数,用样本例数 n n 代替代替N N。但按公式计算的结果。但按公式计算的结果 通常通常比实际的比实际的 低。所以用低。所以用n n来代替来代替 N N 进行校正。得到进行校正。得到样本方样本方差差 2)(xx2)x(2sx2离均差平

13、方和离均差平方和 SSSS一组数据中可以自由取值的数据的个数( )当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 = 5。当 = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值,dfxx2()XNS2()1XXSn 离均差平方和离均差平方和SSSS总体标准差 用表示公 式:公 式:22()1XXnSn22()1fXfXfSf标准差的公式还可以写成 :利用频数表计算标准差的公式为:1)()(1

14、)()(0)(0)2222222nxxsNxnxxsNxxxiiiiii例例 对以下数据: 75, 76, 72, 69, 66, 72, 57, 68, 71, 72, 用直接法计算标准差。48984727675,698727675,102222XXn248984698 /105.41()101S次/分例有例有3 3组同龄男孩的体重组同龄男孩的体重( () )测量值如下,其平均体重都是测量值如下,其平均体重都是30 (30 () ) ,试分析其离散程度。试分析其离散程度。22222226 3028 3030 3032 3034 3015 13.16Xxns甲组()()()()()()xixi

15、ixf2iixf例例 频数表法计算标准差。频数表法计算标准差。if标准差应用标准差应用CVSX 100%u变异系数(coefficient of variation,CV) u常用于比较常用于比较度量单位不同度量单位不同或或均数相差悬殊均数相差悬殊的两的两组组( (或多组或多组) )资料的变异程度。资料的变异程度。 体重 2.26100% 10.14%22.29CV 身高 4.71100%3.83%123.10CV (观察指标单位不同)(观察指标单位不同)均数相差较大时:均数相差较大时:某 地 区 不 同 年 龄 男 子 身 高 ( cm) 的 变 异 程 度 年年 龄龄 组组 人人 数数 均

16、均 数数 标标 准准 差差 C CV V( (% %) ) 3 3- -3 3. .5 5岁岁 1 10 00 0 9 96 6 1 1 3 3. .1 1 3 3. .2 2 3 30 0- -3 35 5岁岁 1 10 00 0 1 17 70 0 2 2 5 5 0 0 0 0 3 3 物理学家、数学家物理学家、数学家卡尔卡尔弗里德里希弗里德里希高高斯斯 05101520251091131171211251291330246810105109113117121125129133107 109 111 113 115 117 119 121 123 125 127 129 131 133图

17、2-4 频数分布逐渐接近正态分布示意服从正态分布的变量服从正态分布的变量X X的概率密度函数的概率密度函数f(X)f(X)为为 212(916)1X2XfeX(1)在直角坐标上方呈钟型曲线,两端与X轴永不相交,且以X为对称轴,左右完全对称。 (2)在X处,()f X取最大值,其值为( )12f;X越远离,()f X值越小。 (3)正态分布有两个参数,即位置参数和形态参数。若固定,改变值,曲线沿着X轴平行移动,其形状不变若固定,越小,曲线越陡峭;反之,越大,曲线越平坦 xCAB 和和 对对正态曲线的影响正态曲线的影响00.10.20.30.40.5-4-3-2-101234 图 2-5 正态分布

18、位置变换示意图 00.10.20.30.40.50.60.70.80.9-6-5 -4-3-2 -10123456=0.5 =1=2 图2-6 正态分布形态变换示意图 22()21()2XXF XedXX轴与正态曲线所夹面积恒等于1或100%; 区间的面积为68.27% 区 间96.1的 面 积 为95.00%, 区间58. 2的面积为99.00%。见图2 7。 正态曲线面积分布示意图正态曲线面积分布示意图 正态分布是一个分布族正态分布是一个分布族,对应于不同的参数和会产生不同位置、对应于不同的参数和会产生不同位置、不同形状的正态分布。不同形状的正态分布。 为 了 应 用 方 便 , 令 :

19、Xu 标准正态分布为实际应用方便,将一般正态分布转换为为实际应用方便,将一般正态分布转换为标准正态分布标准正态分布。转换公式为:。转换公式为: u u称为标准正态变量称为标准正态变量 服从标准服从标准正态分布正态分布的变量的变量u u的概率的概率密度函数密度函数f(u)f(u)为为 212(917)12uf uueu 用用N(0,1)表示,即表示,即u值的均数为值的均数为0,标准差为,标准差为1的的正态分布正态分布。 xu标准正态变换标准正态变换 (1) 正态分布正态分布 (2) 标准正态分布标准正态分布图图9-4 正态分布与标准正态分布的面积与纵高正态分布与标准正态分布的面积与纵高按式按式(

20、9-16)(9-16),根据,根据X X的不同取值,绘出正态分布的图形(的不同取值,绘出正态分布的图形(1)1)。按式按式(9-17)(9-17),根据,根据u u的不同取值,绘出标准正态分布的图(的不同取值,绘出标准正态分布的图(2)2)。Xu0 . 00 . 10 . 20 . 30 . 4- 4- 3- 2- 101234Zf ( Z )00.010.020.030.040.050.060.0757606366697275788184Xf(X) 正态分布 标准正态分布如果,随着变量值的变异,例数突如果,随着变量值的变异,例数突然地增多或突然地减少,或长距离然地增多或突然地减少,或长距离地

21、间断,都表示资料的同质性可能地间断,都表示资料的同质性可能较差,应进一步查明原因。较差,应进一步查明原因。正态分布的特征正态分布是单峰分布:正态分布是单峰分布:X X= = ( (峰峰) )正态分布以均数为中心,左右完全对称正态分布以均数为中心,左右完全对称 。正态分布有两个参数(正态分布有两个参数(parameterparameter)。)。某些指标经变换后服从正态分布。某些指标经变换后服从正态分布。正态曲线下的面积分布有一定的规律。正态曲线下的面积分布有一定的规律。 正态曲线下的面积特点正态曲线下的面积特点横轴上曲线下的面积为横轴上曲线下的面积为1;正态曲线和标准正态曲线下正态曲线和标准正

22、态曲线下,横轴上分别对称于横轴上分别对称于或或0的面积相等的面积相等;常用的分布点有常用的分布点有: 正态分布正态分布 标准正态分布标准正态分布 面积面积 1 +1 1 + 1 68.27% 1.96 +1.96 1.96 +1.96 95.00% 2.58 +2.58 2.58 +2.58 99.00%图图9-6 9-6 正态曲线与标准正态曲线的面积分布正态曲线与标准正态曲线的面积分布为了省去计算的麻烦,编制成了为了省去计算的麻烦,编制成了“标准正态分布曲线标准正态分布曲线下的面积下的面积”(表(表9-89-8)。通过查表可求出正态曲线下某区间)。通过查表可求出正态曲线下某区间的面积,进而的

23、面积,进而估计该区间观察例数占总例数的百分数估计该区间观察例数占总例数的百分数或变或变量值落在该区间的概率。量值落在该区间的概率。三三正态分布的应用正态分布的应用(1 1)估计变量值的频数分布)估计变量值的频数分布(2 2)制定参考值范围)制定参考值范围(3 3)质量控制)质量控制(4 4)正态分布是很多统计方法的基础)正态分布是很多统计方法的基础例 已得某地110名7岁男童身高 ,现欲估计该地身高界于116.5cm 到119.0cm范围内的7岁男童 比 例 及 1 1 0 名 7 岁 男 童 中 身 高 界 于116.5119.0cm范围的人数。 cmScmX72. 4,95.121(一)估计变量值的频数分布(一)估计变量值的频数分布15. 172. 495.1215 .1161u63. 072. 495.1210 .1192u如:(x1,x2)(u1,u2)查u界值表求出面积-4-3-2-10123400.050.10.150.20.250.30.350.4%92.131251. 02643. 0)()(12uu、意义、意义单、双侧问单、双侧问题题90%95%99%95%图图 健康人与肝病病人的肝大指数分布健康人与肝病病人的肝大指数分布(所拟合的两个正态曲线各按(所拟合的两个正态曲线各按100%面积绘制)面积绘制)肝肝 大大 指指 数数健康人健康人H0肝病病人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论