版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二节数值变量资料的统计分析
——统计描述
DescriptiveStatistics信阳职业技术学院赵玉霞第二节数值变量资料的统计分析-统计描述一数值变量资料的频数表二集中趋势指标三离散程度指标四正态分布及其应用
主要内容
第二节数值变量资料的统计分析-统计描述学习目标1.说出频数表的编制方法,频数分布的两种趋势;2.学会数值变量资料常用指标(平均水平、离散程度)的计算方法3.描述正态分布的基本特征与内容,了解医学参考值范围的估计方法第二节数值变量资料的统计分析-统计描述编号血清甘油三脂编号血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.77表160名正常成年女子的血清甘油三酯(mmol/L)
一、频数表(frequencytable)第二节数值变量资料的统计分析-统计描述
组段
划记
频数,f0.5~
30.6~正90.7~正正120.8~正正130.9~正正正171.0~正正正181.1~正正正正201.2~正正正181.3~正正正171.4~正正131.5~正91.6~正81.7~1.8
合计
3160
1.频数表的编制(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=1.77-0.51=1.26(mmol/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一,再略加调整。本例i=R/10=1.26/10=0.126≈0.1。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。第二节数值变量资料的统计分析-统计描述①集中趋势(centraltendency):变量值集中位置。本例在组段“1.1~”。——平均水平指标②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。本例0.9~1.4,共有90人,占56%;离“中心”位置越远,频数越小;且围绕“中心”左右对称。——变异水平指标2.频数表的分布特征
组段
频数,f0.5~30.6~90.7~120.8~130.9~171.0~181.1~201.2~181.3~171.4~131.5~91.6~81.7~1.8
合计3160第二节数值变量资料的统计分析-统计描述1.
正态分布normaldistribution(图2-1)
2.左偏态(skewedtotheright),也称正偏态(positiveskewed)(图2-2)
3.
右偏态(skewedtotheleft),也称负偏态(negativeskewed)(图2-3)3.正态分布与偏态分布第二节数值变量资料的统计分析-统计描述.
计量资料频数分布与图示——正态分布
组段
频数,f0.5~30.6~90.7~120.8~130.9~171.0~181.1~201.2~181.3~171.4~131.5~91.6~81.7~1.8
合计3160中间高、两边低、左右对称如果观察例数逐渐增多,组段不断分细,频数分布“中间高,两侧低”的特征会越来越明显直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线图“中间高、两边低、左右对称”第二节数值变量资料的统计分析-统计描述正偏态分布:长尾向右延伸负偏态分布:长尾向左延伸计量资料频数分布与图示——偏态分布第二节数值变量资料的统计分析-统计描述总称为平均数(average)反映了资料的集中趋势(centraltendency)。常用的有:
二集中趋势指标算术均数几何均数G中位数M第二节数值变量资料的统计分析-统计描述正态分布非正态分布可转换为正态分布其他分布GM计量资料的分布与平均数的关系第二节数值变量资料的统计分析-统计描述
算术均数(mean)
2.常用μ表示总体均数,表示样本均数。
1.简称均数3.应用条件:适用于正态或近似正态的资料。
Xf(X)m第二节数值变量资料的统计分析-统计描述均数计算方法Σ为求和符号,读成sigma
②加权法:利用频数表,用组中值计算①直接计算法:用原始数据直接计算第二节数值变量资料的统计分析-统计描述②加权法:当数据较少时,可用直接法计算大样本,即资料数据较多时,常现将资料整理成频数表,再用加权法计算加权法的计算原理:以组中值代替原始数据第二节数值变量资料的统计分析-统计描述
组段
频数,f
组中值,XfX0.5~30.551.650.6~90.655.850.7~120.759.000.8~130.8511.050.9~170.9516.151.0~181.0518.901.1~201.1523.001.2~181.2522.501.3~171.3522.951.4~131.4518.851.5~91.5512.401.6~81.6514.851.7~1.8
合计31.755.25160182.30加权计算法1.计算组中值:组中值指组段的中间值第一组段的组中值X=(0.5+0.6)÷2=0.55第二组段的组中值X=(0.6+0.7)÷2=0.65
其他组段以此类推2.计算各组的fX即各组的f和X的乘积第一组段的fX=3×0.55=1.65第二组段的fX=9×0.65=5.85
其他组段以此类推3.计算ΣfX=182.30
ΣfΣfXX=4.计算=182.30/160=1.14第二节数值变量资料的统计分析-统计描述加权法的原理
组段
频数,f
组中值,XfX0.5~30.551.650.6~90.655.850.7~120.759.000.8~130.8511.050.9~170.9516.151.0~181.0518.901.1~201.1523.001.2~181.2522.501.3~171.3522.951.4~131.4518.851.5~91.5512.401.6~81.6514.851.7~1.8
合计31.755.25160182.30在频数表中,160个数据的原始数值已无法得知以组段0.6~为例,该组含9个数据,数值均在0.6~0.7之间,如将7个数据值都以中间值0.65代替,则该组段fX=5.85,可看成是9个0.65之和以此类推,182.30实际是160个组中值之和第二节数值变量资料的统计分析-统计描述大样本资料可用直接法计算均数吗?直接法和加权法公式中,分子内“X”的含义有何区别?同一资料用直接法和加权法计算均数,何种结果更精确?均数与平均数有何区别?讨论第二节数值变量资料的统计分析-统计描述适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料,如抗体滴度资料
几何均数(geometricmean)计算方法:1.直接计算法
2.加权法第二节数值变量资料的统计分析-统计描述几何均数:变量对数值的算术均数的反对数。几何均数(geometricmean)——直接计算法
第二节数值变量资料的统计分析-统计描述如抗体滴度资料血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数几何均数(geometricmean)——直接计算法
第二节数值变量资料的统计分析-统计描述抗体滴度⑴
人数,f⑵
滴度倒数,X⑶lgX⑷f·lgX⑸1:2.5
1:101:401:1601:640
合计141822126722.510.040.0160.0640.00.39791.00001.60212.20412.80625.570618.000035.246226.449216.8372102.1032几何均数(geometricmean)——加权法
第二节数值变量资料的统计分析-统计描述为什么血清抗体滴度的几何均数加权法计算不用组中值?正态分布资料为什么选用算术均数表
示集中趋势?讨论第二节数值变量资料的统计分析-统计描述
中位数是将一批数据从小至大排列后位次居中的数据值,符号为Md或M,反映一批观察值在位次上的平均水平。
适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。
中位数(median)第二节数值变量资料的统计分析-统计描述直接法加权法中位数计算方法第二节数值变量资料的统计分析-统计描述
先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据中位数计算方法——直接法第二节数值变量资料的统计分析-统计描述例如:某病有患者7人,其潜伏期分别为5d,6d,7d,8d,9d,10d,20d,求中位数。观察值个数为奇数,中位数所在位次为(n+1)/2=(7+1)/2=4本例:M=X4=8中位数计算方法——直接法计算第二节数值变量资料的统计分析-统计描述直接法加权法中位数计算方法第二节数值变量资料的统计分析-统计描述中位数计算方法——加权法
计算关键:
计算公式:以n/2,找出中位数所在组段第二节数值变量资料的统计分析-统计描述
组段
频数,f
累计频数Sf0.5~330.6~9120.7~12240.8~13370.9~17541.0~18721.1~20921.2~181101.3~171271.4~131401.5~91491.6~81571.7~1.8
合计3160160中位数计算方法——加权法计算以n/2得80,表示中位数排序在第80位。从累计频数可见,在组段“1.1~”前累计了92个数据,排序第73-92位,含第80位数(中位数)已知中位数所在组段为“1.1~”=1.1+0.1×
[(160x50%-72)/20
=1.14第二节数值变量资料的统计分析-统计描述均数、中位数正态分布时:均数=中位数正偏态分布时:均数>中位数负偏态分布时:均数<中位数第二节数值变量资料的统计分析-统计描述集中趋势指标小结1.即计量资料分布与平均数的选择2.计量资料的分布与统计分析
分布类型
算术均数几何均数中位数正态分布√×√对数正态分布×√√其他分布××√正态分布非正态分布可转换为正态分布其他分布应用手段丰富应用手段有限第二节数值变量资料的统计分析-统计描述
反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:
1.
极差(Range)(全距)
2.
百分位数与四分位数间距
PercentileandQuartilerange
3.
方差
Variance
4.
标准差StandardDeviation
5.
变异系数
CoefficientofVariation
三离散程度指标第二节数值变量资料的统计分析-统计描述盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500
例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙离散程度指标第二节数值变量资料的统计分析-统计描述优点:简便缺点:1.只利用了两个极端值
2.n大,R也会大
3.不稳定12040201.极差(Range)(全距)第二节数值变量资料的统计分析-统计描述百分位数:数据从小到大排列;在第x百分位次所对应的值。记为Px。四分位间距:Q=P75-P25P100(max)P75P50(中位数)P25P0(min)Px2.百分位数与四分位数间距
Percentileandquartilerange第二节数值变量资料的统计分析-统计描述百分位数计算方法
计算关键:
计算公式:以x%,找出Px所在组段L:Px所在组段的下限
i:Px所在组段的组距fx:Px所在组段的频数
ΣfL:为小于L的各组段的累计频数
第二节数值变量资料的统计分析-统计描述
组段
频数,f
累计频数Sf累计频率0.5~331.9(0~1.9)0.6~9127.5(1.9~7.5)0.7~122415.0(7.5~15.0)0.8~133723.1(15.2~23.1)0.9~175433.8(23.1~33.8)1.0~187245.0(33.8~45.0)1.1~209257.5(45.0~57.5)1.2~1811068.8(57.5~68.8)1.3~1712779.4(68.8~79.4)1.4~1314087.5(79.4~87.5)1.5~914993.1(87.5~93.1)1.6~815798.1(93.1~98.1)1.7~1.8
合计3160100.0(98.1~100)160百分位数的计算例:计算P25从累计频率可见,表示P25在组段“0.9~”P25=0.9+0.1x[(160x25%-37)/17]=0.92P75
=1.3+0.1x[(160x75%-110)/17]=1.36
Q=1.36-0.92=0.44例:计算P75从累计频率可见,表示P75在组段“1.3~”第二节数值变量资料的统计分析-统计描述(2)确定医学参考值范围
(referencerange):指所谓“正常人”的解剖、生理、生化等指标的波动范围。95%医学参考值范围表示有95%正常个体的测量值在此范围。百分位数的应用(1)中位数M与四分位间距Q一起使用,描述偏态分布资料的特征第二节数值变量资料的统计分析-统计描述百分位数的应用——确定医学参考值范围
P2.5P97.5
双侧95%正常值范围:
P2.5~P97.5
单侧95%正常值范围:<P95(上限)
或
>P5
(下限)适用于偏态分布资料
P5P95第二节数值变量资料的统计分析-统计描述百分位数的应用——确定医学参考值范围
例:1.确定正常成年男子血红蛋白的医学参考值范围
双侧:
P2.5~P97.5
2.确定正常成年男子尿铅的医学参考值范围
过低为异常,单侧:<P95(上限)
3.确定正常成年男子肺活量的医学参考值范围
过高为异常,单侧:
>P5
(下限)
第二节数值变量资料的统计分析-统计描述
方差
(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。应用条件:适用于正态或近似正态分布资料意义:方差大,表示观察值的变异度大;反之,方差小,表示观察值的变异度小。3.方差第二节数值变量资料的统计分析-统计描述离均差Σ(X-μ)=0方差——公式总体方差样本方差离均差平方和Σ(X-μ)2
第二节数值变量资料的统计分析-统计描述优点:考虑了每个数值考虑观察值个数N的影响缺点:将原变量单位平方了方差——优缺点第二节数值变量资料的统计分析-统计描述
标准差
(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。4.标准差
适用于正态或近似正态分布资料
S大,表示观察值的变异度大,数据分散“矮胖”;应用条件:意义:
反之,S小,表示观察值的变异度小,数据集中“瘦高”。第二节数值变量资料的统计分析-统计描述标准差——计算样本标准差总体标准差直接法频数表法第二节数值变量资料的统计分析-统计描述盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500标准差50.9915.817.91标准差的计算第二节数值变量资料的统计分析-统计描述
组段
(1)
频数,f(3)
组中值,X(4)fX(5)=(3)×(4)fX2(5)=(3)×(4)20.5~30.551.650.910.6~90.655.853.800.7~120.759.006.750.8~130.8511.059.390.9~170.9516.1515.341.0~181.0518.9019.851.1~201.1523.0026.451.2~181.2522.5028.131.3~171.3522.9530.981.4~131.4518.8527.331.5~91.5513.9521.621.6~81.6513.2021.781.7~1.8
合计31.755.259.19160182.30221.52方差=(221.52-182.302/160)/(160-1)=0.0869标准差=0.29方差、标准差的计算第二节数值变量资料的统计分析-统计描述①观察指标单位不同,如身高、体重
②同单位资料,但均数相差悬殊均数
标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%
5.变异系数(coefficientofvariation,CV)计算公式:适用条件:第二节数值变量资料的统计分析-统计描述1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;
偏态分布:中位数、四分位间距变异指标小结第二节数值变量资料的统计分析-统计描述
正态分布(normaldistribution)也叫高斯分布(Gaussiandistribution),是最常见、最重要的一种连续型分布,频数分布高峰位于中部,左右两侧大致对称。
1.正态分布的特征
2.标准正态分布
3.正态分布的应用
四正态分布分布及其应用
第二节数值变量资料的统计分析-统计描述图形特点:钟型(中间高、两头低、左右对称)正态分布记为N(μ,σ2)或N(μ,σ)μ为位置参数,决定曲线的位置;σ为形态参数决定曲线的形状最高处对应于X轴的值就是均数曲线下面积为1Xf(X)m1.正态分布的特征第二节数值变量资料的统计分析-统计描述
第二节数值变量资料的统计分析-统计描述2.标准正态分布标准正态分布(standardnormaldistribution)的两个参数为:μ=0,σ=1记为
N(0,1)
经标准正态变量u
变换:一般正态分布N(μ,σ2)
被转化为标准正态分布N(0,1);其中
一般正态分布为一个分布族:N(μ,σ2)
;标准正态分布只有一个N(0,1)
;这样简化了应用
第二节数值变量资料的统计分析-统计描述0-11-1.961.96-2.582.5868.27%95.00%99.00%μμ-σμ+σμ-1.96σμ+1.96σμ-2.58σμ+2.58σ68.27%95.00%99.00%曲线下面积分布规
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地暖清洗合同(2篇)
- 体育馆建设项目预算员聘用合同
- 文化广场道路维修注浆合同
- 重庆市住宅小区绿化合同
- 临时仓库租赁合同
- 海上风电运维船运租赁合同
- 太阳能电站石材施工合同
- 博物馆护栏施工合同样本
- 房地产销售专员招聘合同
- 美术教师聘用合同样本
- 基于实验教学培养学生物理核心素养的研究
- 退化林修复投标方案
- 贵阳市南明区2023-2024学年四年级数学第一学期期末质量跟踪监视试题含答案
- 第六单元大单元教学设计统编版语文八年级上册
- 盘古神话中英文版
- 车辆移交安全协议书
- 办公室换岗后的心得体会办公室轮岗心得体会总结(二篇)
- 提高混凝土外观质量-QC小组活动成果交流材料(建设)
- 影像叙事语言智慧树知到答案章节测试2023年中国传媒大学
- 流体力学(清华大学张兆顺54讲) PPT课件 1
- 销售人员末位淘汰制度
评论
0/150
提交评论