计量资料的统计描述课件_第1页
计量资料的统计描述课件_第2页
计量资料的统计描述课件_第3页
计量资料的统计描述课件_第4页
计量资料的统计描述课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章数值变量资料的统计分析

DescriptiveStatistics计量资料的统计描述

统计描述统计分析统计推断2024/12/62计量资料的统计描述【例7-1】某地用随机抽样的方法对130名健康成年男性红细胞数进行了检测,资料如表1,请描述男性红细胞的情况。2024/12/63计量资料的统计描述表1某地130名正常成年男子红细胞数(1012/L)3.79*4.575.194.864.284.675.374.984.455.88*4.535.164.844.154.665.314.974.434.774.785.14.834.114.635.284.944.44.745.675.054.813.984.615.234.94.354.75.465.034.493.894.575.214.874.294.675.384.984.464.784.545.164.854.174.665.324.974.434.775.075.134.834.134.645.294.954.424.745.694.534.814.014.625.264.914.364.735.495.044.783.944.575.234.94.314.685.394.994.485.084.545.174.864.274.665.364.984.434.774.535.154.844.134.645.294.964.424.755.694.84.824.14.625.264.934.394.745.615.045.13.984.585.234.94.334.685.454.494.82024/12/64计量资料的统计描述问题??表1的130个数据,无论多认真审视,也说不清这些人红细胞的情况怎样、特征如何。你应该如何着手整理,整理的目的是什么?结合学过的知识,你认为用什么方式描述这份资料能让人对资料内容一目了然?统计描述就是解决此问题的方法,即用统计表、统计图和统计指标来描述样本数据的特征2024/12/65计量资料的统计描述第一节计量资料的统计描述频数表与频数分布平均指标(算术均数、几何均数、中位数、众数)变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)2024/12/66计量资料的统计描述一、频数表与频数分布

(frequencytableandfrequencydistribution)

频数(frequency):变量值出现的次数,即例数

频数表(frequencydistributiontable):反映变量值与频数之间关系的统计表2024/12/67计量资料的统计描述表1某地130名正常成年男子红细胞数(1012/L)3.79*4.575.194.864.284.675.374.984.455.88*4.535.164.844.154.665.314.974.434.774.785.14.834.114.635.284.944.44.745.675.054.813.984.615.234.94.354.75.465.034.493.894.575.214.874.294.675.384.984.464.784.545.164.854.174.665.324.974.434.775.075.134.834.134.645.294.954.424.745.694.534.814.014.625.264.914.364.735.495.044.783.944.575.234.94.314.685.394.994.485.084.545.174.864.274.665.364.984.434.774.535.154.844.134.645.294.964.424.755.694.84.824.14.625.264.934.394.745.615.045.13.984.585.234.94.334.685.454.494.82024/12/68计量资料的统计描述1.频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=5.88-3.79=2.09(1012/L)。(2)决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一,再略加调整。本例i=R/10=2.09/10=0.209≈0.2。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。2024/12/69计量资料的统计描述622.8130合计5.85.81–5.7~5.922.45.645.5~48.65.49正5.3~88.45.217正正正5.1~1055.021正正正正–4.9~1204.825正正正正正4.7~101.24.622正正正正4.5~70.44.416正正正–4.3~37.84.29正4.1~16.04.043.9~7.23.82

3.7~fX(5)=(3)×(4)

组中值,X(4)

频数,f(3)

划记(2)

组段(1)表2某地130名正常成年男子红细胞数频数分布2024/12/610计量资料的统计描述2024/12/611计量资料的统计描述2.频数表的分布特征①集中趋势(centraltendency):变量值集中位置。本例在组段“4.7~4.9”。

——平均水平指标②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。本例4.3~5.1,共有101人,占77.7%;离“中心”位置越远,频数越小;且围绕“中心”左右对称。——变异水平指标2024/12/612计量资料的统计描述二、平均指标总称为平均数(average)反映了资料的集中趋势(centraltendency

)。常用的有:

1.算术均数(arithmeticmean),简称均数(mean)

2.几何均数(geometricmean)

3.中位数

(median)

2024/12/613计量资料的统计描述1.均数(mean)Σ为求和符号,读成sigma适用条件:资料呈正态或近似正态。(1)直接法(2)加权法(频数表法)基本思想:以组中值代表组内的变量值(近似法),简化计算2024/12/614计量资料的统计描述红细胞数(1)组中值X(2)频数f(3)fXi(4)=(2)(3)fXi2(5)=(2)(4)3.70~3.8027.6028.883.90~4.00416.0064.004.10~4.20937.80158.764.30~4.401670.40309.764.50~4.6022101.20465.224.70~4.8025120.00576.004.90~5.0021105.00525.005.10~5.201788.40459.685.30~5.40948.60262.445.50~5.60422.40125.445.70~5.905.8015.8033.64合计-130623.03009.12表2某地区130名正常成年男子红细胞数(1012/L)的均数和标准差的加权计算均数=623.0/130=4.7942024/12/615计量资料的统计描述2.几何均数(geometricmean)几何均数:变量对数值的算术均数的反对数。2024/12/616计量资料的统计描述几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料

血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数2024/12/617计量资料的统计描述频数表资料的几何均数抗体滴度⑴

人数,f⑵

滴度倒数,X⑶lgX⑷

f·lgX⑸1:2.5

1:101:401:1601:640

合计141822126722.510.040.0160.0640.00.39791.00001.60212.20412.80625.570618.000035.246226.449216.8372102.10322024/12/618计量资料的统计描述3.中位数(median)

百分位数(percentile)中位数:一组观察值按大小顺序排列,位置居中的那个数值称为中位数,记为M。百分位数:一组数据从小到大排列,并分成100等份,第x等份之分割位置的数值称为第x百分位数,记为Px

例如:x=50,记为P50,读作“第五十百分位数”(即中位数)2024/12/619计量资料的统计描述

适用情形:适用于任意分布,常用于

①偏态分布(如发汞、尿铅);

②一端或两端无确定数值;

③分布情况不明。2024/12/620计量资料的统计描述

常用百分位数:P50,P25,P75,,P5,P95,P2.5,P97.5怎样求解中位数和百分位数?2024/12/621计量资料的统计描述(1)中位数计算公式与实例

先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据2024/12/622计量资料的统计描述例题某患病者5人的潜伏期分别为2,3,4,5,3天,求其中位数?若再加一名患者,其潜伏期为9天,又如何计算?2024/12/623计量资料的统计描述(2)中位数和百分位数的频数表法:

L为百分位数对应组段的下限值,i为该组段的组距,fx为该组段频数,

fL为前一组累计频数2024/12/624计量资料的统计描述红细胞数(1)频数f(3)累计频数(4)累计百分率(5)3.70~221.5(0.0~1.5)3.90~464.6(1.5-4.6)4.10~91511.5(4.6-11.5)4.30~163123.8(11.5-23.8)4.50~225340.8(23.8-40.8)4.70~257860.0(40.8-60.0)4.90~219976.2(60.0-76.2)5.10~1711689.2(76.2-89.2)5.30~912596.2(89.2-96.2)5.50~412999.2(96.2-99.2)5.70~5.901130100(99.2-100.0)合计130--表2某地区130名正常成年男子红细胞数(1012/L)中位数的加权计算中位数=4.7+0.2x[(130x50%-53)/25]=4.7962024/12/625计量资料的统计描述例题某校70例急性食物中毒患者潜伏期见下表,求急性食物中毒的平均潜伏期?该资料能否计算均数、几何均数,为什么?2024/12/626计量资料的统计描述潜伏期(天)人数累计频数累计频率%0~11~72~323~114~115~46~27~18~1合计702024/12/627计量资料的统计描述均数、中位数的关系正态分布时:均数=中位数正偏态分布时:均数>中位数负偏态分布时:均数<中位数2024/12/628计量资料的统计描述三、变异(variation)指标

反映数据的离散度(Dispersion

)。即个体观察值的变异程度。常用的指标有:

1.极差(Range)

(全距)

2.百分位数与四分位数间距(PercentileandQuartilerange)

3.方差

(Variance)

4.标准差(StandardDeviation)

5.变异系数(CoefficientofVariation)

2024/12/629计量资料的统计描述盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500

例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙2024/12/630计量资料的统计描述1.极差(Range)(全距)优点:简便缺点:1.只利用了两个极端值2.n大,R也会大3.不稳定12040202024/12/631计量资料的统计描述2.百分位数与四分位数间距

Percentileandquartilerange百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:QR=P75-P25四分位半间距quartiledeviation:QD=QR/2P100(max)P75P50(中位数)P25P0(min)Px2024/12/632计量资料的统计描述(2)中位数和百分位数的频数表法:

L为百分位数对应组段的下限值,i为该组段的组距,fx为该组段频数,

fL为前一组累计频数2024/12/633计量资料的统计描述红细胞数(1)频数f(3)累计频数(4)累计百分率(5)3.70~221.5(0.0~1.5)3.90~464.6(1.5-4.6)4.10~91511.5(4.6-11.5)4.30~163123.8(11.5-23.8)4.50~225340.8(23.8-40.8)4.70~257860.0(40.8-60.0)4.90~219976.2(60.0-76.2)5.10~1711689.2(76.2-89.2)5.30~912596.2(89.2-96.2)5.50~412999.2(96.2-99.2)5.70~5.901130100(99.2-100.0)合计130--表2某地区130名正常成年男子红细胞数(1012/L)中位数的加权计算P25=4.5+0.2x[(130x25%-31)/22]=4.51P75=4.9+0.2x[(130x75%-78)/21]=5.09QR=5.09-4.51=0.582024/12/634计量资料的统计描述潜伏期(天)人数累计频数累计频率%0~11~72~323~114~115~46~27~18~1合计702024/12/635计量资料的统计描述百分位数的应用确定医学参考值范围

(referencerange)

如95%参考值范围=P97.5-P2.5;表示有95%正常个体的测量值在此范围。中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征2024/12/636计量资料的统计描述3.方差

方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。2024/12/637计量资料的统计描述4.标准差

标准差(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。2024/12/638计量资料的统计描述标准差的计算盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500标准差50.9915.817.912024/12/639计量资料的统计描述红细胞数(1)组中值X(2)频数f(3)fiXi(4)=(2)(3)fiXi2(5)=(2)(4)3.70~3.8027.6028.883.90~4.00416.0064.004.10~4.20937.80158.764.30~4.401670.40309.764.50~4.6022101.20465.524.70~4.8025120.00576.004.90~5.0021105.00525.005.10~5.201788.40459.685.30~5.40948.60262.445.50~5.60422.40125.445.70~5.905.8015.8033.64合计-130623.03009.12表2某地区130名正常成年男子红细胞数(1012/L)的均数和标准差的加权计算2024/12/640计量资料的统计描述5.变异系数(coefficientofvariation,CV)适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数

标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%2024/12/641计量资料的统计描述【例】

某地40名7岁儿童身高均数为121.48cm,标准差为4.65cm;体重均数为22.18kg,标准差2.35kg。试比较其身高和体重的变异程度。身高CV=3.83%,体重CV=10.60%2024/12/642计量资料

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论