版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章数值变量资料的统计描述王增珍流行病学与卫生统计学系2024/11/81第08章-数值变量资料的统计描述回顾:根据是否定量划分,资料被分作不同的类型:数值资料(measurementdata):
用定量的方法对观察单位进行测量得到的资料,亦称作计量资料。分类变量资料(enumerationdata):
用定性的方法得到的资料,亦称计数资料。等级资料(rankeddata):
不能精确测量,仅能根据相对大小分为几个等级。2024/11/82第08章-数值变量资料的统计描述第一节数值变量资料频数分布
数值变量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。一、频数分布表及其制作
2024/11/83第08章-数值变量资料的统计描述例8.1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.203.954.094.644.335.214.614.985.244.604.254.785.003.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.315.055.595.085.163.744.365.364.645.094.574.464.564.395.244.614.214.964.344.454.864.504.904.454.494.424.684.565.384.344.464.164.984.294.834.273.683.853.864.564.564.555.165.155.162024/11/84第08章-数值变量资料的统计描述频数表的编制步骤:(1)求极差(range):即最大值与最小值之差,又称为全距。
R=5.59–3.60=1.99(mol/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定分组组数。相邻两组段下限值之差称组距,组距=极差/组数,为方便计,组距为极差的十分之一,再略加调整。
1.99/10=0.199≈0.2
(mol/L)(3)列出组段:第一组段的下限必须包含最小值,最后一个组段上限必须大于或等于最大值。3.6~3.8~……5.2~5.4~5.6(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。2024/11/85第08章-数值变量资料的统计描述表8-1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值的频数分布表血糖(mol/L)组段组中值(xi)频数(f)累计频数(Σf)频率(%)累计频率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97
5.40~5.605.5041323.03100.00合计132100.002024/11/86第08章-数值变量资料的统计描述血糖(mol/L)人数图8-1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)
测定值的频数分布图二、频数分布图2024/11/87第08章-数值变量资料的统计描述三、频数表和频数分布图用途1.描述频数分布的类型(对称分布、偏态分布)2.描述频数分布的特征3.便于发现一些特大或特小的可疑值4.便于进一步做统计分析和处理(加权)2024/11/88第08章-数值变量资料的统计描述(1)对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布1.描述频数分布的类型(对称分布、偏态分布)2024/11/89第08章-数值变量资料的统计描述(2)偏态分布:1)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。2)左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。2024/11/810第08章-数值变量资料的统计描述正偏态(右偏态)负偏态(左偏态)返回2024/11/811第08章-数值变量资料的统计描述2.描述频数分布的特征图8-1(P154)数据的频数分布特征:①数据变异(离散)的范围在3.60~5.60(mol/L
)②数据集中(平均)的组段在4.20~5.00(mol/L
)之间,尤以组段的人数4.60~4.80
(mol/L
)最多。且上下组段的频数分布基本对称。返回2024/11/812第08章-数值变量资料的统计描述3.便于发现一些特大或特小的可疑值返回2024/11/813第08章-数值变量资料的统计描述第二节集中趋势指标统计上使用平均数(average)这一指标体系来描述一组变量值的集中趋势或平均水平。常用的平均数有:算术均数(均数)(mean)几何均数(geometricmean)中位数(median)百分位数(percentile)
2024/11/814第08章-数值变量资料的统计描述一、算术均数算术均数:简称均数(mean)定义:是一组变量值之和除以变量值个数所得的商。均数适用于资料呈正态分布(或近似正态或对称分布)资料。总体均数:μ
样本均数:x2024/11/815第08章-数值变量资料的统计描述1、计算方法(1)直接计算法公式:例8.2有9名健康成人的空腹胆固醇测定值(mol/L)为:5.61,3.96,3.67,4.99,4.24,5.06,5.20,4.79,5.93求算术平均数。x=(5.61+3.96+3.67+4.99+4.24+5.06+5.20+4.79)/9=4.83(mol/L)2024/11/816第08章-数值变量资料的统计描述例8.1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.23.954.094.644.335.214.614.985.244.604.254.785.003.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.315.055.595.085.163.744.365.364.645.094.574.464.564.395.244.614.214.964.344.454.864.504.904.454.494.424.684.565.384.344.464.164.984.294.834.273.683.853.864.564.564.555.165.155.16x=(5.17+5.56+……+5.15+5.16)/132=4.648(mol/L)2024/11/817第08章-数值变量资料的统计描述(2)加权法(利用频数表)公式:k:频数表的组段数
f:频数
:组中值,其中i=1,2,……k。2024/11/818第08章-数值变量资料的统计描述表8-1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值的频数分布表血糖(mol/L)组段频数()组中值()
3.60~33.7011.1041.073.80~33.9011.7045.634.00~84.1032.80134.484.20~234.3098.90425.274.40~244.50108.00486.004.60~254.70117.50552.254.80~204.9098.00480.205.00~125.1061.20312.125.20~105.3053.00280.90
5.40~5.6045.5022.00121.00合计132614.202878.92x=614.2/132=4.653(mol/L)2024/11/819第08章-数值变量资料的统计描述二、几何均数(geometricmean)定义:用G表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。其适用条件是:①当一组观察值为非对称分布且其差距较大时,用均数表示其平均水平会受少数特大或特小值影响;②数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。
2024/11/820第08章-数值变量资料的统计描述几何均数计算公式:几何均数:变量对数值的算术均数的反对数。
计算几何均数的观察值应大于零
2024/11/821第08章-数值变量资料的统计描述例8.3
有7份血清的抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64,1:128,求平均抗体效价。2024/11/822第08章-数值变量资料的统计描述(2)加权法(当观察例数多时采用)
公式:2024/11/823第08章-数值变量资料的统计描述例8.4有60人的血清抗体效价,分别为:7人1:5,11人1:10,22人1:20,12人1:40,8人1:80,求平均抗体效价。50人的血清平均抗体效价为1:20.705。2024/11/824第08章-数值变量资料的统计描述计算几何均数应该注意的事项变量值中不能有0或负数,因为0和负数不能取对数。不能同时有正有负。若全部是负值,计算时可先把负号去掉,得出结果后,再加上负号。2024/11/825第08章-数值变量资料的统计描述三、
中位数与百分位数(一)中位数(median)
定义:用符号M表示,中位数是把一组观察值,按大小顺序排列,位置居中的数值(n为奇数)或位置居中的两个数值的均值(n为偶数)。其适用情况有:①当资料呈明显的偏态分布;②资料一端或两端无确定数值(如大于或小于某数值);③资料的分布情况不清楚。
2024/11/826第08章-数值变量资料的统计描述计算公式:n为奇数时n为偶数时2024/11/827第08章-数值变量资料的统计描述例8.57名正常人的血压(舒张压)
测定值(mmHg)为:72,75,76,77,81,82,86,求中位数。从小到大排列:72,75,76,77,81,82,86若又观察了一个人的血压,为87(mmHg),此时M=(77+81)/2=79(mmHg)2024/11/828第08章-数值变量资料的统计描述频数表资料的中位数(P157公式8.5)下限值L上限值Ui;fm中位数M2024/11/829第08章-数值变量资料的统计描述例8.1频数表中位数的计算血糖(mol/L)组段组中值()频数(f)累计频数(Σf)频率(%)累计频率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97
5.40~5.605.5041323.03100.00合计132(Σfi)100.004.60+(0.20/25)*[132/2-61]=4.642024/11/830第08章-数值变量资料的统计描述
百分位数示意图(二)百分位数(percentile)把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。中位数是第50百分位数,用P50表示。2024/11/831第08章-数值变量资料的统计描述Trunc()取整函数
设有X个原始数据从小到大排列,第X百分位数的计算公式为:1.直接计算法当为带有小数位时:当为整数时:2024/11/832第08章-数值变量资料的统计描述例对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。,为整数:患者编号:住院天数:(1)n=120,2024/11/833第08章-数值变量资料的统计描述带有小数
(2)故取整trunc(118.8)=1182024/11/834第08章-数值变量资料的统计描述2.频数表法
公式:
2024/11/835第08章-数值变量资料的统计描述当时,公式(8.5)即为中位数的计算公式:2024/11/836第08章-数值变量资料的统计描述
例8.1试分别求例8.1频数表的第25、第75百分位数。P25=4.20+0.20x[(132x25%-14)/23]=4.365P75=4.80+0.20x[(132x75%-86)/20]=4.930血糖(mol/L)组段组中值(xi)频数(f)累计频数(Σf)频率(%)累计频率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97
5.40~5.605.5041323.03100.00合计132(Σfi)100.002024/11/837第08章-数值变量资料的统计描述三种平均数的特点算术均数:通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端数值(相对的说特大或特小值)或资料呈偏态分布,算术均数就变得不稳定而失去代表性。
正态分布几何均数一般只适宜于等比级数资料。对于这类资料,用几何均数反映集中趋势比算术均数或中位数更合适。中位数不受其前后其他数值(特别是极端值)的影响。但如果数据呈明显不同且差异很大,这时中位数可能不适宜作为集中趋势的度量值了。
偏态分布2024/11/838第08章-数值变量资料的统计描述反映集中趋势的指标(平均数),表示一组观察值的平均水及集中特性,并可作为总体的一个代表值加以应用。但是它没有表达其所代表的总体中各个个体之间的差异。统计学中把个体间的差异称为变异性(variation)。所谓变异性是指在同质条件下的观察单位,其同一标志的数据间的差异性。用以描述一组数值变量资料观察值之间参差不齐的程度,即离散程度或变异度的指标,称为离散指标或变异指标。第三节离散趋势的描述2024/11/839第08章-数值变量资料的统计描述盘编号甲乙丙15605205102540510505350050050044604904955440480490合计250025002500均数500500500例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙2024/11/840第08章-数值变量资料的统计描述常用统计指标:全距(range)四分位数间距(quartileinterval)方差和标准差(variance&standarddeviation)变异系数(CVcoefficientofvariation)2024/11/841第08章-数值变量资料的统计描述全距,用R表示:即一组变量值最大值与最小值之差,亦称极差。对于书中例8.1数据,有简单,但仅利用了两端点值,稳定性差。一、全距(Range)R=5.59–3.60=1.99(mol/L)R越大,变异度越大;R越小,变异度越小。2024/11/842第08章-数值变量资料的统计描述二、四分位数间距(quartilerange)
四分位数间距,用Q表示,若将一组资料分为四等份,上四分位数和下四分位数之差就是Q:
Q=下四分位数:上四分位数:比全距稳定;可用于一端或两端无确切数值的偏态资料。未考虑每一个观察值。2024/11/843第08章-数值变量资料的统计描述全距和四分位数间距都未全面考虑观察值的变异情况,为了克服该缺点,需计算总体中每个观察值x与总体均数
的差值(x-
),称为离均差。由于∑(x-
)=0,不能反映变异的大小,而用离均差平方和∑(x-
)2(sumofdeviationfrommean)反映。同时还要考虑到观察值个数N的影响,用其均数,即得到总体的方差,用
2表示。公式为:三、方差与标准差2024/11/844第08章-数值变量资料的统计描述
1.
方差(variance)是离均差平方和的均数,反映一组数据的平均离散水平。由于在实际工作中,往往得到的样本资料,总体均数
是未知的,所以只能用样本均数作为
的估计值,即用
代替
,用样本例数n代替N。但按公式计算的结果通常比实际的
低。所以用n-1来代替n进行校正。得到样本方差
离均差平方和SS总体方差样本方差自由度2024/11/845第08章-数值变量资料的统计描述2.标准差(standarddeviation)方差可以比较全面地反映变量值的变异情况,但其方差的单位是原单位的平方,故引入标准差的概念。标准差:将方差开平方,恢复成原度量单位,得到总体的标准差
和样本标准差S。2024/11/846第08章-数值变量资料的统计描述样本标准差用表示,其度量单位与均数一致,所以最常用。离均差平方和SS3.总体标准差用σ表示公式:公式:2024/11/847第08章-数值变量资料的统计描述
标准差的公式还可以写成:利用频数表计算标准差的公式为:2024/11/848第08章-数值变量资料的统计描述例
对以下数据:75,76,72,69,66,72,57,68,71,72,用直接法计算标准差。2024/11/849第08章-数值变量资料的统计描述血糖(mol/L)组段频数()组中值()
3.60~33.7011.1041.073.80~33.9011.7045.634.00~84.1032.80134.484.20~234.3098.90425.274.40~244.50108.00486.004.60~254.70117.50552.254.80~204.9098.00480.205.00~125.1061.20312.125.20~105.3053.00280.90
5.40~5.6045.5022.00121.00合计132614.202878.92例8-利用表8-2中的数据和频数表法计算标准差。2024/11/850第08章-数值变量资料的统计描述四、变异系数变异系数(coefficientofvariation,CV)常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。2024/11/851第08章-数值变量资料的统计描述例:某地7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg,比较其变异度?
2024/11/852第08章-数值变量资料的统计描述小结:正态分布偏态分布集中趋势算术平均数(几何平均数)中位数离散趋势标准差、变异系数四分位间距2024/11/853第08章-数值变量资料的统计描述第四节正态分布2024/11/854第08章-数值变量资料的统计描述一、正态分布的概念和特征当X服从正态分布记作X~N(μ,σ2)其中μ为总体均数,σ2为总体方差2024/11/855第08章-数值变量资料的统计描述二、标准正态分布用N(0,1)表示,即u值的均数为0,标准差为1。
标准正态变换
2024/11/856第08章-数值变量资料的统计描述正态分布标准正态分布2024/11/857第08章-数值变量资料的统计描述正态分布的特征⑤正态分布的面积分布有一定的规律性,总面积=1,见课本P162表8-5。①正态曲线(normalcurve)在横轴上方,且均数所在处最高;②正态分布以均数为中心,左右对称;③正态分布有两个参数,即均数与标准差(
与
),标准正态分布的均数和标准差分别为0和1;④正态曲线在
1
,标准正态分布在
1处各有一个拐点;2024/11/858第08章-数值变量资料的统计描述2024/11/859第08章-数值变量资料的统计描述累积面积可通过对概率密度函数f(X)积分求得(累积)分布函数:2024/11/860第08章-数值变量资料的统计描述图2-7正态曲线面积分布示意图
2024/11/861第08章-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个性化视频制作委托合同书(2024年版)版B版
- 2025年环保型打印纸张品研发与认证合同4篇
- 2025年度文化创意产业承包经营合同赔偿与创意成果转化3篇
- 二零二五版房产维修基金管理合同3篇
- 2025年绿色建筑彩板房采购协议3篇
- 2025年度商业地产项目租赁协议范本4篇
- 二零二五年度美容师客户满意度调查与反馈协议4篇
- 2024年销售合同风险评估3篇
- 2025版合伙企业个人退伙权益保障协议书3篇
- 2025年度数据中心基础设施建设承包协议8篇
- 2025年度公务车辆私人使用管理与责任协议书3篇
- 售后工程师述职报告
- 绿化养护难点要点分析及技术措施
- 2024年河北省高考历史试卷(含答案解析)
- 车位款抵扣工程款合同
- 小学六年级数学奥数题100题附答案(完整版)
- 高中综评项目活动设计范文
- 英汉互译单词练习打印纸
- 2023湖北武汉华中科技大学招聘实验技术人员24人笔试参考题库(共500题)答案详解版
- 一氯二氟甲烷安全技术说明书MSDS
- 物流签收回执单
评论
0/150
提交评论