![数值变量资料统计描述_第1页](http://file4.renrendoc.com/view/5bce2b151bd1f57ee36be472ca9f177f/5bce2b151bd1f57ee36be472ca9f177f1.gif)
![数值变量资料统计描述_第2页](http://file4.renrendoc.com/view/5bce2b151bd1f57ee36be472ca9f177f/5bce2b151bd1f57ee36be472ca9f177f2.gif)
![数值变量资料统计描述_第3页](http://file4.renrendoc.com/view/5bce2b151bd1f57ee36be472ca9f177f/5bce2b151bd1f57ee36be472ca9f177f3.gif)
![数值变量资料统计描述_第4页](http://file4.renrendoc.com/view/5bce2b151bd1f57ee36be472ca9f177f/5bce2b151bd1f57ee36be472ca9f177f4.gif)
![数值变量资料统计描述_第5页](http://file4.renrendoc.com/view/5bce2b151bd1f57ee36be472ca9f177f/5bce2b151bd1f57ee36be472ca9f177f5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数值变量资料统计描述2023/3/192回顾:根据是否定量划分,资料被分作不同的类型:数值资料(measurementdata):,亦称作。分类变量资料(enumerationdata):
用定性的方法得到的资料,亦称计数资料。等级资料(rankeddata):
不能精确测量,仅能根据相对大小分为几个等级。2023/3/193第一节数值变量资料频数分布
数值变量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。一、频数分布表及其制作2023/3/194例8.1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.203.954.094.644.335.214.614.985.244.604.254.785.003.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.315.055.595.085.163.744.365.364.645.094.574.464.564.395.244.614.214.964.344.454.864.504.904.454.494.424.684.565.384.344.464.164.984.294.834.273.683.853.864.564.564.555.165.155.162023/3/195编制频数分布表的步骤计算极差编制频数分布表的步骤确定组数组距计算频数编制表格2023/3/196频数表的编制步骤:(1)求极差(range):即最大值与最小值之差,又称为全距。
R=5.59–3.60=1.99(mol/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定分组组数。相邻两组段下限值之差称组距,组距=极差/组数,为方便计,组距为极差的十分之一,再略加调整。
1.99/10=0.199≈0.2(mol/L)(3)列出组段:第一组段的下限必须包含最小值,最后一个组段上限必须大于或等于最大值。3.6~3.8~……5.2~5.4~5.6(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。2023/3/1972023/3/198表8-1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值的频数分布表血糖(mol/L)组段组中值(xi)频数(f)累计频数(Σf)频率(%)累计频率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97
5.40~5.605.5041323.03100.00合计132100.002023/3/199血糖(mol/L)人数图8-1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)
测定值的频数分布图二、频数分布图2023/3/1910同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。2023/3/1911三、频数表和频数分布图用途1.描述频数分布的类型(对称分布、偏态分布)2.描述频数分布的特征(集中趋势离散趋势)3.便于发现一些特大或特小的可疑值4.便于进一步做统计分析和处理(加权)2023/3/1912(1)对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布1.描述频数分布的类型(对称分布、偏态分布)2023/3/1913(2)偏态分布:1)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。2)左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。2023/3/1914正偏态(右偏态)负偏态(左偏态)返回2023/3/1915频数分布的类型对称分布正偏态分布负偏态分布2023/3/19162.描述频数分布的特征图8-1(P154)数据的频数分布特征:①数据变异(离散)的范围在3.60~5.60(mol/L
)②数据集中(平均)的组段在4.20~5.00(mol/L
)之间,尤以组段的人数4.60~4.80
(mol/L
)最多。且上下组段的频数分布基本对称。返回2023/3/19173.便于发现一些特大或特小的可疑值返回2023/3/1918第二节集中趋势指标统计上使用平均数(average)这一指标体系来描述一组变量值的集中趋势或平均水平。常用的平均数有:算术均数(均数)(mean)几何均数(geometricmean)中位数(median)百分位数(percentile)
2023/3/1919一、算术均数算术均数:简称均数(mean)定义:是一组变量值之和除以变量值个数所得的商。均数适用于资料呈正态分布(或近似正态或对称分布)资料。总体均数:μ
样本均数:x2023/3/19201、计算方法(1)直接计算法公式:例8.2有9名健康成人的空腹胆固醇测定值(mol/L)为:5.61,3.96,3.67,4.99,4.24,5.06,5.20,4.79,5.93求算术平均数。x=(5.61+3.96+3.67+4.99+4.24+5.06+5.20+4.79)/9=4.83(mol/L)2023/3/1921例8.1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.23.954.094.644.335.214.614.985.244.604.254.785.003.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.315.055.595.085.163.744.365.364.645.094.574.464.564.395.244.614.214.964.344.454.864.504.904.454.494.424.684.565.384.344.464.164.984.294.834.273.683.853.864.564.564.555.165.155.16x=(5.17+5.56+……+5.15+5.16)/132=4.648(mol/L)2023/3/1922(2)加权法(利用频数表)公式:k:频数表的组段数
f:频数
:组中值,其中i=1,2,……k。2023/3/1923表8-1某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测定值的频数分布表血糖(mol/L)组段频数()组中值()
3.60~33.7011.1041.073.80~33.9011.7045.634.00~84.1032.80134.484.20~234.3098.90425.274.40~244.50108.00486.004.60~254.70117.50552.254.80~204.9098.00480.205.00~125.1061.20312.125.20~105.3053.00280.90
5.40~5.6045.5022.00121.00合计132614.202878.92x=614.2/132=4.653(mol/L)2023/3/1924二、几何均数(geometricmean)定义:用G表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。其适用条件是:①当一组观察值为非对称分布且其差距较大时,用均数表示其平均水平会受少数特大或特小值影响;②数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。
2023/3/1925几何均数计算公式:几何均数:变量对数值的算术均数的反对数。
计算几何均数的观察值应大于零2023/3/1926例8.3
有7份血清的抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64,1:128,求平均抗体效价。2023/3/1927(2)加权法(当观察例数多时采用)
公式:2023/3/1928例8.4有60人的血清抗体效价,分别为:7人1:5,11人1:10,22人1:20,12人1:40,8人1:80,求平均抗体效价。50人的血清平均抗体效价为1:20.705。2023/3/1929例8.4有60人的血清抗体效价,求其平均抗体效价2023/3/1930计算几何均数应该注意的事项变量值中不能有0或负数,因为0和负数不能取对数。不能同时有正有负。若全部是负值,计算时可先把负号去掉,得出结果后,再加上负号。2023/3/1931三、
中位数与百分位数(一)中位数(median)
定义:用符号M表示,中位数是把一组观察值,按大小顺序排列,位置居中的数值(n为奇数)或位置居中的两个数值的均值(n为偶数)。其适用情况有:①当资料呈明显的偏态分布;②资料一端或两端无确定数值(如大于或小于某数值);③资料的分布情况不清楚。
Me50%50%2023/3/1932计算公式:n为奇数时n为偶数时2023/3/1933例8.57名正常人的血压(舒张压)
测定值(mmHg)为:72,75,76,77,81,82,86,求中位数。从小到大排列:72,75,76,77,81,82,86若又观察了一个人的血压,为87(mmHg),此时M=(77+81)/2=79(mmHg)2023/3/1934
例:1,3,7,5,>100中位数为多少?2023/3/1935频数表资料的中位数(P157公式8.5)下限值L上限值Ui;fm中位数M2023/3/1936例8.1频数表中位数的计算血糖(mol/L)组段组中值()频数(f)累计频数(Σf)频率(%)累计频率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97
5.40~5.605.5041323.03100.00合计132(Σfi)100.004.60+(0.20/25)*[132/2-61]=4.642023/3/1937
百分位数示意图(二)百分位数(percentile)把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。中位数是第50百分位数,用P50表示。2023/3/19382023/3/1939Trunc()取整函数
设有X个原始数据从小到大排列,第X百分位数的计算公式为:1.直接计算法当为带有小数位时:当为整数时:2023/3/1940例对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。,为整数:患者编号:住院天数:(1)n=120,2023/3/1941带有小数
(2)故取整trunc(118.8)=1182023/3/19422.频数表法
公式:
2023/3/1943
当时,公式(8.5)即为中位数的计算公式:2023/3/1944
例8.1试分别求例8.1频数表的第25、第75百分位数。P25=4.20+0.20☓[(132☓25%-14)/23]=4.365P75=4.80+0.20☓[(132☓75%-86)/20]=4.930血糖(mol/L)组段组中值(xi)频数(f)累计频数(Σf)频率(%)累计频率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97
5.40~5.605.5041323.03100.00合计132(Σfi)100.002023/3/1945三种平均数的特点算术均数:通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端数值(相对的说特大或特小值)或资料呈偏态分布,算术均数就变得不稳定而失去代表性。正态分布几何均数一般只适宜于等比级数资料。对于这类资料,用几何均数反映集中趋势比算术均数或中位数更合适。中位数不受其前后其他数值(特别是极端值)的影响。但如果数据呈明显不同且差异很大,这时中位数可能不适宜作为集中趋势的度量值了。偏态分布2023/3/1946反映集中趋势的指标(平均数),表示一组观察值的平均水及集中特性,并可作为总体的一个代表值加以应用。但是它没有表达其所代表的总体中各个个体之间的差异。统计学中把个体间的差异称为变异性(variation)。所谓变异性是指在同质条件下的观察单位,其同一标志的数据间的差异性。用以描述一组数值变量资料观察值之间参差不齐的程度,即离散程度或变异度的指标,称为离散指标或变异指标。第三节离散趋势的描述2023/3/1947盘编号甲乙丙15605205102540510505350050050044604904955440480490合计250025002500均数500500500例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙2023/3/19482023/3/1949常用统计指标:全距(range)四分位数间距(quartileinterval)方差和标准差(variance&standarddeviation)变异系数(CVcoefficientofvariation)2023/3/1950全距,用R表示:即一组变量值最大值与最小值之差,亦称极差。对于书中例8.1数据,有简单,但仅利用了两端点值,稳定性差。一、全距(Range)R=5.59–3.60=1.99(mol/L)R越大,变异度越大;R越小,变异度越小。2023/3/1951二、四分位数间距(quartilerange)
四分位数间距,用Q表示,若将一组资料分为四等份,上四分位数和下四分位数之差就是Q:
Q=下四分位数:上四分位数:比全距稳定;可用于一端或两端无确切数值的偏态资料。未考虑每一个观察值。2023/3/1952全距和四分位数间距都未全面考虑观察值的变异情况,为了克服该缺点,需计算总体中每个观察值x与总体均数的差值(x-),称为离均差。由于∑(x-)=0,不能反映变异的大小,而用离均差平方和∑(x-)2(sumofdeviationfrommean)反映。同时还要考虑到观察值个数N的影响,用其均数,即得到总体的方差,用2表示。公式为:三、方差与标准差2023/3/1953
1.方差(variance)是离均差平方和的均数,反映一组数据的平均离散水平。由于在实际工作中,往往得到的样本资料,总体均数是未知的,所以只能用样本均数作为的估计值,即用
代替
,用样本例数n代替N。但按公式计算的结果通常比实际的
低。所以用n-1来代替n进行校正。得到样本方差
离均差平方和SS总体方差样本方差自由度2023/3/1954样本方差
自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为
n
时,若样本均值x
确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5
确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量2023/3/19552.标准差(standarddeviation)方差可以比较全面地反映变量值的变异情况,但其方差的单位是原单位的平方,故引入标准差的概念。标准差:将方差开平方,恢复成原度量单位,得到总体的标准差和样本标准差S。2023/3/1956样本标准差用表示,其度量单位与均数一致,所以最常用。离均差平方和SS3.总体标准差用σ表示公式:公式:2023/3/1957
标准差的公式还可以写成:利用频数表计算标准差的公式为:2023/3/1958例
对以下数据:75,76,72,69,66,72,57,68,71,72,用直接法计算标准差。2023/3/1959血糖(mol/L)组段频数()组中值()
3.60~33.7011.1041.073.80~33.9011.7045.634.00~84.1032.80134.484.20~234.3098.90425.274.40~244.50108.00486.004.60~254.70117.50552.254.80~204.9098.00480.205.00~125.1061.20312.125.20~105.3053.00280.90
5.40~5.6045.5022.00121.00合计132614.202878.92例8-利用表8-2中的数据和频数表法计算标准差。2023/3/1960标准差的基本内容是“离均差”,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。
2023/3/1961标准差应用1.反映一组资料的离散程度2.计算变异系数3.计算标准误4.结合均数与正态分布规律估计正常值范围2023/3/1962四、变异系数变异系数(coefficientofvariation,CV)常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。2023/3/1963例:某地7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg,比较其变异度?(观察指标单位不同)2023/3/1964均数相差较大时:2023/3/1965平均数与变异度的关系
平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征变异度越小,平均数对各变量值的代表性越好
变异度越大,平均数对各变量值的代表性越差
2023/3/1966平均数与变异度的关系通常,平均数与变异指标一起描述资料的分布特征。用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距描述偏态分布资料的特征。
2023/3/1967资料的指标描述是统计描述的一个重要的组成部分定量资料的统计指标平均水平指标:算术均数、几何均数、中位数等。离散程度指标:全距、四分位数间距、方差、标准差、变异系数。2023/3/19682023/3/1969小结:正态分布偏态分布集中趋势算术平均数(几何平均数)中位数离散趋势标准差、变异系数四分位间距2023/3/1970第四节正态分布2023/3/1971正态分布的重要性医学研究中的许多正常人生理、生化指标服从或近似服从正态分布;很多统计方法是建立在正态分布的基础之上的;很多非正态分布的资料转化为正态分布。因此,正态分布是统计分析方法的重要基础。
2023/3/1972正态分布:又称为Gauss分布(Gaussiandistribution)。
设想当原始数据的频数分布图的观察人数逐渐增加且组段不断分细时,图2-4中的直条就不断变窄,其顶端则逐渐接近于一条光滑的曲线。这条曲线形态呈钟形,两头低、中间高,左右对称,近似于数学上的正态分布。在处理资料时,我们就把它看成是正态分布。2023/3/1973一、正态分布的概念和特征当X服从正态分布记作X~N(μ,σ2)其中μ为总体均数,σ2为总体方差2023/3/19741.正态分布曲线的数学函数表达式
如果随机变量的分布服从概率密度函数2023/3/19752.正态分布的特征
(3)正态分布有两个参数,即位置参数m和形态参数s。若固定s,改变m值,曲线沿着X轴平行移动,其形状不变若固定m,s越小,曲线越陡峭;反之,s越大,曲线越平坦
④正态曲线在1,标准正态分布在1处各有一个拐点;2023/3/1976xf(x)CAB和对正态曲线的影响2023/3/19772023/3/19782023/3/1979(4)正态曲线下的面积分布有一定的规律。累积面积可通过对概率密度函数f(X)积分求得2023/3/19802023/3/1981图2-7正态曲线面积分布示意图
2023/3/1982正态分布是一个分布族,对应于不同的参数m和s会产生不同位置、不同形状的正态分布。
2023/3/1983用N(0,1)表示,即u值的均数为0,标准差为1。
标准正态变换
2023/3/19842023/3/1985正态分布标准正态分布2023/3/1986正态曲线下的面积特点横轴上曲线下的面积为1;正态曲线和标准正态曲线下,横轴上分别对称于µ或0的面积相等;常用的分布点有:正态分布标准正态分布面积
µ
–1~µ+1–1~+168.27%µ
–1.96~µ+1.96–1.96~+1.9695.00%µ
–2.58~µ+2.58–2.58~+2.5899.00%2023/3/19872023/3/1988
正态分布除了可估计频数分布外,还是许多统计方法的基础,并可应用于质量控制及制定医学参考值范围。2023/3/1989参考值范围(referenceranges)医学参考值是指正常人的各种生理、生化数据,组织或排泄物中各种成分的含量。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medicalreferencerange)作为判定正常和异常的参考标准。第五节医学参考值范围2023/3/1990医学参考值(referencevalue)是指正常人的各种生理、生化数据,组织或排泄物中各种成分的含量。
医学参考值范围是指正常人指标测定值的波动范围,参考值范围在诊断方面可用于划分正常或异常。一、意义正常人排除了影响被研究指标的疾病或因素的人。2023/3/1991医学参考值范围(referenceranges)
为什么波动?
“个体变异”同一指标的数据因人而异同一个体的数据随环境、时间等改变而变2023/3/1992为什么要确定一个范围?
既然同属正常人,就不能以甲的数据为标准,认为乙异常,亦不能以甲此时的数据为标准,认为彼时的异常。所以必须确定一个波动范围。如WBC:4000~10000个/mm3“正常”是一个相对的概念
“正常人”是指排除了影响所研究指标的疾病和有关因素的人。2023/3/1993意义横向分析划界、分类临床医生判断正常与异常的参考依据
动态分析如某个地区不同时期发汞的正常值可反映环境污染的动态变化或环保效果2023/3/1994二、制定参考值的基本步骤1、从正常人总体中抽样;2.控制测量误差;3.判定是否需要分组确定参考值范围;4.决定取单侧还是双侧;
5.选定合适的百分界限;6.对资料的分布进行正态性检验;7.根据资料的分布类型选定适当的方法进行参考值范围的估计。
2023/3/1995选定同质的正常人作为研究对象
同质正常“足够数量”
例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性。一般认为每组100例以上;有人认为确定临床生化指标的正常值应取300~500例。2023/3/1996控制检测误差
通过人员培训、控制检测条件、重复测定等措施,严格控制检测误差。2023/3/1997判断是否分组
组间差别是否有统计学意义并有临床意义?例:红细胞、白细胞各组的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 知识产权侵权行为的法律诉讼流程及注意事项
- 2025年燃木屑汽液循环烘干室行业深度研究分析报告
- 现代保安公司的多元化经营模式探索
- 成都市新都区2022年七年级《数学》下册期末试卷与参考答案
- 2025-2030年中国制作设计喷泉项目投资可行性研究分析报告
- 挑战杯申请书
- 提职级申请书
- 口内习题库(含答案)
- 山西工程职业学院《微机原理与接口技术》2023-2024学年第二学期期末试卷
- 电子银行安全与防范策略分析
- 装配式混凝土结构施工技术讲课课件
- 小型屠宰场可行性研究报告
- 急性呼吸道感染护理查房课件
- 物业品质检查标准及评分细则
- 密闭取芯完整
- 驾驶服务外包投标方案(完整版)
- 全日制普通高级中学体育教学大纲
- 2023年敬老院重阳节老年人活动策划方案通用
- 《Web前端综合实战》实训-课程标准
- 2023年09月内蒙古赤峰学院招考聘用“双师型”教师2人笔试历年难易错点考题荟萃附带答案详解
- 高考语文复习:文言文简答题例析
评论
0/150
提交评论