版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2定量资料的统计描述朱继民安中医·公共卫生与全科医学教研室2024/12/1312-数值变量资料的统计描述回顾资料通常被分为三种类型:定量资料(measurementdata):
用定量的方法对观察单位进行测量得到的资料。定性资料(enumerationdata):
用定性的方法得到的资料。等级资料(rankeddata):
不能精确测量,仅能根据相对大小分为几个等级。2024/12/1322-数值变量资料的统计描述第一节定量资料频数分布
定量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。一、频数分布表及其制作
2024/12/1332-数值变量资料的统计描述例1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.203.954.094.644.335.214.614.985.244.604.254.785.003.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.315.055.595.085.163.744.365.364.645.094.574.464.564.395.244.614.214.964.344.454.864.504.904.454.494.424.684.565.384.344.464.164.984.294.834.273.683.853.864.564.564.555.165.155.162024/12/1342-数值变量资料的统计描述频数表的编制步骤:(1)求极差(range):又称为全距
R=5.59–3.60=1.99(mol/L)(2)决定组数、组段和组距:10组左右,组段包含所有数值,组距为极差的十分之一,再略加调整
1.99/10=0.199≈0.2
(mol/L)(3)列出组段:第一组段的下限必须包含最小值,最后一个组段上限必须大于或等于最大值。3.6~3.8~……5.2~5.4~5.6(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。2024/12/1352-数值变量资料的统计描述表2-1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值的频数分布表血糖(mol/L)组段组中值(xi)频数(f)累计频数(Σf)频率(%)累计频率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97
5.40~5.605.5041323.03100.00合计132100.002024/12/1362-数值变量资料的统计描述血糖(mol/L)人数图.某地区2002年55~58岁健康成人的空腹血糖(mmol/L)
测定值的频数分布图二、频数分布图2024/12/1372-数值变量资料的统计描述三、频数表和频数分布图用途1.描述频数分布的类型(对称分布、偏态分布)2.描述频数分布的特征(集中、离散)3.便于发现一些特大或特小的可疑值4.便于进一步做统计分析和处理(加权)2024/12/1382-数值变量资料的统计描述(1)对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布描述频数分布的类型(对称、偏态)2024/12/1392-数值变量资料的统计描述(2)偏态分布:1)左偏态分布(正偏态分布):峰向左偏,频数向右侧拖尾。2)右偏态分布(负偏态分布):峰向右偏,频数向左侧拖尾。2024/12/13102-数值变量资料的统计描述正偏态(左偏态)负偏态(右偏态)2024/12/13112-数值变量资料的统计描述发现一些特大或特小的可疑值2024/12/13122-数值变量资料的统计描述第二节集中趋势指标统计上使用平均数(average)这一指标体系来描述一组变量值的集中趋势或平均水平。常用的平均数有:算术均数(均数)(mean)几何均数(geometricmean)中位数(median)百分位数(percentile)
2024/12/13132-数值变量资料的统计描述一、算术均数算术均数:简称均数(mean)定义:是一组变量值之和除以变量值个数所得的商。均数适用于资料呈正态分布(或近似正态或对称分布)资料。总体均数:μ
样本均数:x2024/12/13142-数值变量资料的统计描述1、计算方法(1)直接计算法公式:2024/12/13152-数值变量资料的统计描述(2)加权法(利用频数表)公式:k:频数表的组段数
f:频数
:组中值,其中i=1,2,……k。2024/12/13162-数值变量资料的统计描述二、几何均数(geometricmean)定义:用G表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。其适用条件是:①当一组观察值为非对称分布且其差距较大时,用均数表示其平均水平会受少数特大或特小值影响;②数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。
2024/12/13172-数值变量资料的统计描述几何均数计算公式:几何均数:变量对数值的算术均数的反对数。
计算几何均数的观察值应大于零
2024/12/13182-数值变量资料的统计描述例
有7份血清的抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64,1:128,求平均抗体效价。2024/12/13192-数值变量资料的统计描述(2)加权法(当观察例数多时采用)
公式:2024/12/13202-数值变量资料的统计描述例
有60人的血清抗体效价,分别为:7人1:5,11人1:10,22人1:20,12人1:40,8人1:80,求平均抗体效价。50人的血清平均抗体效价为1:20.705。2024/12/13212-数值变量资料的统计描述计算几何均数应该注意的事项变量值中不能有0或负数,因为0和负数不能取对数。不能同时有正有负。若全部是负值,计算时可先把负号去掉,得出结果后,再加上负号。2024/12/13222-数值变量资料的统计描述三、
中位数与百分位数(一)中位数(median)
定义:用符号M表示,中位数是把一组观察值,按大小顺序排列,位置居中的数值(n为奇数)或位置居中的两个数值的均值(n为偶数)。其适用情况有:①当资料呈明显的偏态分布;②资料一端或两端无确定数值(如大于或小于某数值);③资料的分布情况不清楚。
2024/12/13232-数值变量资料的统计描述计算公式:n为奇数时n为偶数时2024/12/13242-数值变量资料的统计描述例2.57名正常人的血压(舒张压)
测定值(mmHg)为:72,75,76,77,81,82,86,求中位数。从小到大排列:72,75,76,77,81,82,86若又观察了一个人的血压,为87(mmHg),此时M=(77+81)/2=79(mmHg)2024/12/13252-数值变量资料的统计描述频数表资料的中位数下限值L上限值Ui;fm中位数M2024/12/13262-数值变量资料的统计描述例2.1频数表中位数的计算血糖(mol/L)组段组中值()频数(f)累计频数(Σf)频率(%)累计频率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97
5.40~5.605.5041323.03100.00合计132(Σfi)100.004.60+(0.20/25)*[132/2-61]=4.642024/12/13272-数值变量资料的统计描述
百分位数示意图(二)百分位数(percentile)把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。中位数是第50百分位数,用P50表示。2024/12/13282-数值变量资料的统计描述频数表法
公式:
2024/12/13292-数值变量资料的统计描述当时,此时求得的是中位数2024/12/13302-数值变量资料的统计描述
例8.1试分别求例8.1频数表的第25、第75百分位数。P25=4.20+0.20x[(132x25%-14)/23]=4.365P75=4.80+0.20x[(132x75%-86)/20]=4.930血糖(mol/L)组段组中值(xi)频数(f)累计频数(Σf)频率(%)累计频率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97
5.40~5.605.5041323.03100.00合计132(Σfi)100.002024/12/13312-数值变量资料的统计描述三种平均数的特点算术均数:通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端数值(相对的说特大或特小值)或资料呈偏态分布,算术均数就变得不稳定而失去代表性。
正态分布几何均数一般只适宜于等比级数资料。对于这类资料,用几何均数反映集中趋势比算术均数或中位数更合适。中位数不受其前后其他数值(特别是极端值)的影响。但如果数据呈明显不同且差异很大,这时中位数可能不适宜作为集中趋势的度量值了。
偏态分布2024/12/13322-数值变量资料的统计描述反映集中趋势的指标(平均数),表示一组观察值的平均水及集中特性,并可作为总体的一个代表值加以应用。但是它没有表达其所代表的总体中各个个体之间的差异。统计学中把个体间的差异称为变异性(variation)。所谓变异性是指在同质条件下的观察单位,其同一标志的数据间的差异性。用以描述一组数值变量资料观察值之间参差不齐的程度,即离散程度或变异度的指标,称为离散指标或变异指标。第三节离散趋势的描述2024/12/13332-数值变量资料的统计描述盘编号甲乙丙15605205102540510505350050050044604904955440480490合计250025002500均数500500500例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙2024/12/13342-数值变量资料的统计描述常用统计指标全距(range)四分位数间距(quartileinterval)方差和标准差(variance&standarddeviation)变异系数(CVcoefficientofvariation)2024/12/13352-数值变量资料的统计描述全距,用R表示:即一组变量值最大值与最小值之差,亦称极差。对于书中例8.1数据,有简单,但仅利用了两端点值,稳定性差。一、全距(Range)R=5.59–3.60=1.99(mol/L)R越大,变异度越大;R越小,变异度越小。2024/12/13362-数值变量资料的统计描述二、四分位数间距(quartilerange)
四分位数间距,用Q表示,若将一组资料分为四等份,上四分位数和下四分位数之差就是Q:
Q=下四分位数:上四分位数:比全距稳定;可用于一端或两端无确切数值的偏态资料。未考虑每一个观察值。2024/12/13372-数值变量资料的统计描述全距和四分位数间距都未全面考虑观察值的变异情况,为了克服该缺点,需计算总体中每个观察值x与总体均数
的差值(x-
),称为离均差。由于∑(x-
)=0,不能反映变异的大小,而用离均差平方和∑(x-
)2(sumofdeviationfrommean)反映。同时还要考虑到观察值个数N的影响,用其均数,即得到总体的方差,用
2表示。公式为:三、方差与标准差2024/12/13382-数值变量资料的统计描述
1.
方差(variance)是离均差平方和的均数,反映一组数据的平均离散水平。由于在实际工作中,往往得到的样本资料,总体均数
是未知的,所以只能用样本均数作为
的估计值,即用
代替
,用样本例数n代替N。但按公式计算的结果通常比实际的
低。所以用n-1来代替n进行校正。得到样本方差
离均差平方和SS总体方差样本方差自由度2024/12/13392-数值变量资料的统计描述2.标准差(standarddeviation)方差可以比较全面地反映变量值的变异情况,但其方差的单位是原单位的平方,故引入标准差的概念。标准差:将方差开平方,恢复成原度量单位,得到总体的标准差
和样本标准差S。2024/12/13402-数值变量资料的统计描述样本标准差用表示,其度量单位与均数一致,所以最常用。离均差平方和SS3.总体标准差
用σ表示公式:公式:2024/12/13412-数值变量资料的统计描述
标准差的公式还可以写成:利用频数表计算标准差的公式为:2024/12/13422-数值变量资料的统计描述四、变异系数变异系数(coefficientofvariation,CV)常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。2024/12/13432-数值变量资料的统计描述例:某地7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg,比较其变异度?
2024/12/13442-数值变量资料的统计描述小结:正态分布偏态分布集中趋势算术平均数(几何平均数)中位数离散趋势标准差、变异系数四分位间距2024/12/13452-数值变量资料的统计描述第四节正态分布2024/12/13462-数值变量资料的统计描述一、正态分布的概念和特征当X服从正态分布记作X~N(μ,σ2)其中μ为总体均数,σ2为总体方差2024/12/13472-数值变量资料的统计描述二、标准正态分布用N(0,1)表示,即u值的均数为0,标准差为1。
标准正态变换
2024/12/13482-数值变量资料的统计描述正态分布标准正态分布2024/12/13492-数值变量资料的统计描述正态分布的特征⑤正态分布的面积分布有一定的规律性,总面积=1。①正态曲线(normalcurve)在横轴上方,且均数所在处最高;②正态分布以均数为中心,左右对称;③正态分布有两个参数,即均数与标准差(
与
),标准正态分布的均数和标准差分别为0和1;④正态曲线在
1
,标准正态分布在
1处各有一个拐点;2024/12/13502-数值变量资料的统计描述2024/12/13512-数值变量资料的统计描述累积面积可通过对概率密度函数
f(X)积分求得(累积)分布函数:2024/12/13522-数值变量资料的统计描述图2-7正态曲线面积分布示意图
2024/12/13532-数值变量资料的统计描述参考值范围(referenceranges)医学参考值是指正常人的各种生理、生化数据,组织或排泄物中各种成分的含量。正常人测定值的波动范围,称为参考值范围。参考值范围在诊断方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新学期初中数学老师教学计划例文
- 吉林省EPS泡沫制品项目投资计划书范文
- 2024年月份市场部主管工作计划书
- 2024年副总经理工作总结及计划
- 财务部工作总结回顾及2019年工作计划
- 临沂大学《英语视听说Ⅱ》2021-2022学年第一学期期末试卷
- 售后部职员个人工作计划素材模板
- 聊城大学《声乐外语德语》2023-2024学年第一学期期末试卷
- 办公室个人工作计划人防办公室个人工作计划
- 2024年教育局学前教育工作计划
- 肿瘤物理消融治疗新进展
- 独立站合同模板
- 行政管理学(山东联盟)智慧树知到答案2024年曲阜师范大学
- 安徽省2022年中考语文现代文阅读真题及答案
- 《 唐代二十四节气诗研究》范文
- 小儿短肠综合征
- 2024年新苏教版科学六年级上册全册背诵专用知识点
- 2024年全新部编闽教版小学六年级上册英语期末考试试卷
- 电机扭矩与丝杆推力关系(自动计算)
- FET集团师带徒管理办法
- 江苏省徐州市2024-2025学年高二语文上学期期中试卷含解析
评论
0/150
提交评论