第十四章数值变量统计描述_第1页
第十四章数值变量统计描述_第2页
第十四章数值变量统计描述_第3页
第十四章数值变量统计描述_第4页
第十四章数值变量统计描述_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十四章数值变量的统计描述

蔡泳频数表的编制方法1.找全距:Range=Max-Min2.划分组段(1)确定组数:8~15组,一般取10组(2)确定组距:组距(i)=全距/组段数(3)确定各组段的上下限:各组的起点为下限,终点为上限。要求:(1)第一组含最小值(2)最后组含最大值3.归纳计数:划计法4.计算频率与累计频率集中趋势

集中趋势:表示数据的中心位置。集中趋势的指标:

平均数是一组统计指标,常用的有算术均数、几何均数及中位数等。平均数平均数是表示一组同质计量资料的集中趋势或平均水平的统计指标,是计量资料中非常重要的一个指标体系。医学研究中常用的平均数有算术均数、几何均数及中位数三种。这个平均数是广义的,而日常人们所说的平均数是狭义的算术均数。

(一)算术均数(mean)算术均数简称均数。用于说明一组观测值的趋中位置或平均水平。均数用于对称分布、正态或近似正态分布的资料。x表示变量X的样本均数,

(希腊字母)表示总体均数。常用的计算方法是直接法和加权法。

直接法当样本含量较小时,可选用此法。有n个观察值,分别为X1,X2,……Xn,均数的计算公式为:

式中,Σ是求和的符号。例题例14-110名12岁男孩身高(cm)分别为125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5.0,122.5,140.0。求平均数。

加权法1.列出频数表

2.计算组中值

组中值X,计算方法是将本组下限和下组下限相加除以2。3.用加权法计算均数:式中f为各组的频数,x为各组的组中值。

(二)几何均数(geometricmean)

几何均数适用于对数正态分布的资料,例如抗体的平均滴度和平均效价。几何均数用G表示。

例:5人的抗体滴度为:1:10,1:100,1:1000,1:10000,1:100000直接法直接法:样本含量较小时,选用此法。有n个观察值X1,X2,…Xn,几何均数的计算公式为:一般采用对数形式计算:式中lg为取常用对数的符号,lg-1为反对数。

例题6份血清抗体滴度为:1:2,1:4,1:8,1:8,1:16,1:32,求平均数。

几何平均滴度为1:8加权法加权法:当样本含量较大时,可将资料整理成频数表,用下式计算:例题[例1-4]某地102名健康人的钩端螺旋体血清抗体滴度如表1-2,计算平均滴度。

102名健康人的钩端螺旋体血清滴度的几何平均滴度为1:464表14-1102名健康人的钩端螺旋体

血清抗体平均滴度的计算

抗体滴度人数f滴度倒数XlgX

flgX

(1)(2)(3)(4)(5)=(2)(4)1:10071002.00014.0001:200192002.30143.7191:400344002.60288.4681:800298002.90384.1871:16001316003.20441.652合计102272.206(三)中位数(median)

将一组观察值从小到大按顺序排列,位次居中的观察值就称中位数。中位数适用于任何一种分布的计量数据,一般多用于描述偏态分布或数据一端无界资料的集中趋势。中位数用M表示。

直接法样本含量较小时,可根据下式计算:

n为奇数时n为偶数时上式中n为一组观察值的总个数,、及均为下标,表示有序数列中观察值的位次。

频数表法样本含量较大时用此法

L为本组(中位数所在组)下限,i为本组组距,f为本组频数,ΣfL为上一组的累计频数。本组位置可根据累计频数的数值来判断。当某一组的累计频数首先超过n/2时或累计频率首先超过50%时,即定为本组。

例题[例1-6]调查某地107名正常人尿铅含量(mg/L)结果列于下表,计算中位数:

本例,第3组的累计频数为65,超过n/2=53.5,即第3组为本组。

(四)百分位数(percentile)

百分位数是一种位置指标,用PX表示。百分位数是一个有序数列百等分的分割值。第50百分位数(P50)也就是中位数,中位数是一个特定的百分位数。计算百分位数的计算公式为:

计算百分位数一般需计算累计频率(%),为各组段累计频数除以总例数n。

离散趋势的统计描述

计量数据的频数分布有两个重要特征:集中趋势和离散趋势。必须指出,要把两者结合起来才能全面地反映数据频数分布的基本特征。

[例1-8]两组计量数据如下,分析其分布特征。

甲组98,99,100,101,102

乙组80,90,100,110,120描述离散趋势的常用指标有全距、四分位间距、方差和标准差等。一、全距(range)亦称极差,用R表示,是一组观察值中最大值与最小值之差,反映个体差异的范围。全距大,说明变异度大;反之,说明变异度小。

如例1-8中甲组全距为4,乙组全距为40,表明乙组变异度大。但全距易受个别数据的影响,稳定性较差,抽样误差较大,而且还受n大小的影响,一般n越大,全距越大。

二、四分位间距

(inter-quartilerange)四分位间距是两个特定的百分位数之差,即第75百分数P75(上四分位数QU)和第25百分位数P25(下四分位数QL)之差,用Q表示,适用于任何分布的计量资料,尤其适用于偏态分布的资料.

四分位间距比全距稳定,但仍然未考虑到每个观察值的变异。

Q=QU-QL

三、平均偏差与离均差平方和平均偏差(meandifference):每个观测值与均数之差的绝对值相加,然后取平均。离均差平方和:为了避免使用绝对值,采用取平方的方法。离均差平方和=四、方差(variance)为了消除观察值的总个数N的影响,将除以N,这就是总体方差,用σ2表示。对于样本资料,在对离均差平方和取平均时分母用n-1代替n。五、标准差(standarddeviation)

方差的单位是原度量单位(如kg)的平方,把总体方差开平方,这就是总体标准差,度量单位与原始观察值一致,即

对于样本资料,样本标准差的计算公式为:可改写为:上式n-1称为自由度。例题[例1-9]对例1-8的数据计算标准差

甲组:n=5,ΣX=98+99+100+101+102=500ΣX2=982+992+1002+1012+1022=50010

标准差应用

表示观察值的变异程度

在两组(或几组)均数相近、单位相同的条件下,标准差大,表示变量值的变异度大,均数的代表性较差;反之,标准差小,表示变量组变异度小,数据多集中在均数周围,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论