生物统计学:数值变量资料的统计描述_第1页
生物统计学:数值变量资料的统计描述_第2页
生物统计学:数值变量资料的统计描述_第3页
生物统计学:数值变量资料的统计描述_第4页
生物统计学:数值变量资料的统计描述_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数值变量资料的统计描述主要内容

频数表与频数分布集中趋势指标离散趋势指标正态分布和医学参考值范围

频数(率)表和频数(率)图

制频数(率)表的一般步骤:(1)从原始数据中找出最大值和最小值,求极差。

R=maxx-minx(2)划分组数(k)。50~100个数,分7~10组;数据多时,可分5~20组。(3)确定组距(i),组限(classlimit)i=R/k(4)在频数表中列出全部组限、中值。(5)划计,计算各组的频数和频率。表1-2“三尺三”株高测量结果155153159155150159157159151152159158153153144156150157160150150150160156160155160151157155159161156141156145156153158161157149153153155162154152162155161159161156162151152154157162158155153151157156153147158155148163156163154158152163158154164155156158164148164154157165158166154154157167157159170158R=170-141=29i=29/10≈3cm

表1-3“三尺三”株高频数(率)表组限中值频数计算频数频率141~142.5—10.01144~145.5Τ20.02147~148.540.04150~151.5正正下130.13153~154.5正正正正正240.23156~157.5正正正正正一260.28159~160.5正正正一160.15162~163.5正正100.10165~166.5下30.03168~169.5—10.01总计1001.00表3160名正常成年女子的血清甘油三酯(mmol/L)编号血清甘油三脂编号血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.77

组段(1)

划记(2)

频数,f(3)

组中值,X(4)fX(5)=(3)×(4)0.5~

30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5512.401.6~正81.6514.851.7~1.8

合计

31.755.25160182.30表3160名成年女子的血清甘油三酯含量划记表

表1-3

某地140名成年男性红细胞数(1012/L)4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.854.595.084.824.935.054.404.145.014.375.244.604.714.824.945.054.794.524.644.374.874.604.724.835.334.684.804.154.654.764.884.613.974.084.584.314.054.165.045.154.504.624.734.474.584.704.814.554.284.784.514.634.364.484.595.095.205.325.054.414.524.644.754.494.224.715.214.944.685.174.915.024.76I=R/k=(5.95-3.82)/10≈0.21表1-4某地140名成年男性红细胞数得频数表红细胞数(1012/L)划计组中值频数频率(%)3.80~Ț3.9021.44.00~正—4.1064.34.20~正正—4.30117.94.40~正正正正正4.502517.94.60~正正正正正正Ț4.703222.94.80~正正正正正Ț4.902719.35.00~正正正Ț5.101712.15.20~正正F5.30139.35.40~正5.5042.95.60~Ț5.7021.45.80~一5.9010.7研究频数(率)分布的意义代替繁复的原始资料,便于进一步分析。便于观察数据的分布类型。便于发现资料中某些远离群体的特大或特小的可疑值。当样本含量比较大时,可用各组段的频率作为概率的估计值。2.频数分布的两个特征①集中趋势(centraltendency):变量值集中位置。本例在组段“1.1~”。

——平均水平指标②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。本例0.9~1.4,共有90人,占56%;离“中心”位置越远,频数越小;且围绕“中心”左右对称。

——变异水平指标

正态分布频对称分布数t分布分布正偏态:高峰偏向左侧类偏态分布型(非对称分布)负偏态:高峰偏向右侧3.频数分布类型某地区130名正常成年男子红细胞数(1012/L)的频数分布

红细胞数 划记 频数

3.70~ || 2 3.90~ |||| 4 4.10~ 正|||| 9 4.30~ 正正正| 16 4.50~ 正正正正|| 22 4.70~ 正正正正正 25 4.90~ 正正正正| 21 5.10~ 正正正|| 17 5.30~ 正|||| 9 5.50~ |||| 4 5.70~5.90 | 1

合计 —— 130*对称分布(正态分布)

﹡偏态分布

正偏态分布238名正常人发汞值(μg/g)发汞值 频数 累计频数 累计频率(%)(1) (2) (3) (4)=(3)/2380.3~ 20 20 8.40.7~ 66 86 36.11.1~ 60 146 61.31.5~ 48 194 81.51.9~ 18 212 89.12.3~ 16 228 95.82.7~ 6 234 98.33.1~ 1 235 98.73.5~ 0 235 98.73.9~ 3 238 100.0负偏态分布某地某年恶性肿瘤死亡数年龄组(岁)死亡人数累计频数累计频率(%)

0~ 550.4210~ 12171.4120~ 15322.6630~ 761088.9840~ 18929724.6950~ 23453144.1460~ 38691776.2370~ 2861203100.00

第一节集中趋势指标集中趋势指标:用于描述一组同质数值变量资料的平均水平或中心位置的指标。总称为平均数,是统计中应用最广泛、最重要的一个指标体系。常用的平均数有算术均数、几何均数、中位数。一、算术均数(arithmeticmean)简称均数(mean)。常用表示样本均数,希腊字母表示总体均数。适用范围:对称分布,特别是正态或近似正态分布的数值变量资料。

计算方法

(1)直接法:适用小样本

(2)加权法:适用大样本Σ为求和符号,读成sigma

组段(1)

划记(2)

频数,f(3)

组中值,X(4)fX(5)=(3)×(4)0.5~

30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5513.951.6~正81.6513.201.7~1.8

合计

31.755.25160182.30均数=182.3/160=1.14mffm142.51142.5145.52291148.54594151.5131969.5154.5243708157.5264095160.5162568163.5101635166.53499.5169.51169.5和10015672=15672/100=156.72均数110名20岁健康男大学生身高(cm)均数计算表(简捷法)组段组中值频数(f)缩简值fxfx2

(x)=X-X0/i162~1631-5-525164~1654-4-1664166~1679-3-2781168~16913-2-2652170~17119-1-1919172~X01751611616176~177821632178~179832472180~181341248182~184183251050

用G表示适用范围

1.频数分布呈正偏态,经对数变换后服从正态分布(对数正态分布)的资料;

2.等比数列资料。

二、几何均数(geometricmean)

计算方法(1)直接法——小样本(2)加权法——大样本

实例分析例1.3有6份血清的抗体效价的倒数为10,20,40,80,80,160。求其平均效价。例1.4测得5个人的血清滴度的倒数分别为2,4,8,8,32,求平均滴度。几何均数的应用须注意常用于等比资料,或者对数正态分布资料。观察值不能有“0”。观察值不能同时有正、有负,若全为负值,先将负号去掉,得出结果后加上负号。同一组资料求得的几何均数小于均数。三、中位数(median)中位数是一组由小到大排列的观察值中位次居中的数值,用M表示。反映一组观察值在位次上的平均水平。适用范围:适用各种类型的资料,尤其以下情况:

1.资料分布呈明显偏态;

2.资料一端或两端存在不确定数值(开口资料或无界资料);

3.资料分布不明。

计算方法直接法——小样本频数表法——大样本

1.编制频数分布表

2.计算累计频数和累计频率

3.代入中位数计算公式

例:某药厂观察9只小鼠口服高山红景天醇提物(RSAE)后在乏氧条件下的生存时间(分钟)如下:

49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.6,69.0

n为奇数,M=63.6(cm)表4某地630名正常女性血清甘油三酯含量的频数表甘油三酯频数累计频数累计频率10~27274.340~16919631.170~16736357.6M100~9445772.5130~8153885.4160~4258092.1190~2860896.5220~1462298.7250~462699.4280~362999.8310~1630100.0合计630M=70+30/167(6300.5-196)=91.4(mg/dl)四、百分位数(percentile)

百分位数是一个位置指标,用表示。将n个观察值由小到大依次排列,将全部观察值分为两部分,理论上x%的观察值比它小,(100-x)%的观察值比它大。表示第50百分位数,即第50%等份所对应的观察值。也就是中位数。描述一组偏态分布资料在某百分位置上的水平。用于计算四分位数间距和确定医学参考值范围。

计算公式:P25=40+30/169(630×0.25-27)=63.2(mg/dl)P75=130+30/81(630×0.75-457)=135.7(mg/dl)P90=160+30/42(630×0.90-538)=180.7(mg/dl)P95=190+30/42(630×0.95-580)=203.2(mg/dl)医学95%的参考值:P97.5-P2.5青少年生长发育:P5、P25、P75

、P95表1-6164个沙门氏菌食物中毒病例潜伏期的频数表潜伏期(h)频数累计频数累计频率2~202012.29~193923.816~407948.223~2310262.230~2212475.637~1413884.144~1114990.951~1815795.758~215997.065~416399.472~1164100.0合计164M=23+7/23(1640.5-79)=23.91(h)

几种平均数的适用范围

平均数适用范围

算术均数对称分布,尤其是正态分布或近似正态分布资料

几何均数(1)等比数列资料(2)频数分布呈正偏态分布,经对数变化后服从正态分布(称对数正态分布)中位数(1)资料分布呈明显偏态(2)分布的一端或两端无确定数值(称无界资料或开口资料)(3)资料类型分布不明第二节离散趋势指标集中趋势指标:用于描述一组同质数值变量资料的平均水平或中心位置的指标。离散趋势指标:描述一组同质数值变量数据离散程度的指标。集中趋势和离散程度是数值变量资料的频数分布的两个主要特征。应结合起来分析。

常用的离散程度指标

1.极差/全距(Range)

2.四分位数间距(Quartilerange)

3.方差(Variance)

标准差(StandardDeviation)

4.变异系数(CoefficientofVariation)

例2-10三组同龄男孩的身高值(cm)甲组909510010511010020乙组96981001021041008丙组96991001011041008甲组909510010511010020乙组96981001021041008丙组96991001011041008例1三组同龄男孩的身高值(cm)R三组同龄男孩的身高值(cm)分布身高值作为变异指标比极差稳定。常用于表示偏态分布资料的变异。例(表1-5):Q=P75%-P25%=135.7-63.2=72.5(mg/dl)频数潜伏期表2-5资料118名链球菌咽喉炎患者潜伏期3、方差(variance)方差

——所有观察值的离均差平方和的均值。包括总体方差和样本方差,分别表示总体或样本资料的平均离散情况。定义公式:自由度(degreeoffreedom)——随机变量自由取值的个数。总体方差样本方差标准差(standarddeviation)因方差的度量单位是原度量单位的平方,故将方差开方恢复成原度量单位,得总体标准差和样本标准差。定义公式:总体标准差样本标准差

标准差的计算公式:直接法(n小):加权法(n大

):例1甲组5名同龄男孩的身高值(cm)XX2908100959025100100001051102511012100表2101名正常女子血清胆固醇值组段(X)

频数(f)fXfx22.30~2.4512.456.002.60~2.7538.2522.692.90~3.05618.3055.823.20~3.3583.50~3.65173.80~3.95204.10~4.25174.40~4.55124.70~4.8595.00~5.1555.30~5.4525.6-5.95.751统计描述:某地101名正常女子血清胆固醇值平均为4.06(mmol/L),标准差为0.654(mmol/L)例1三组同龄男孩的身高值(cm)

RS甲组9095100105110100207.91乙组969810010210410083.16丙组969910010110410082.92标准差的意义:反映一组变量值平均相差的水平,单位相同时,S越小,表示数据的变异程度越小,同时表示该组均数的代表性越大。4、变异系数

coefficientofvariation(CV)公式:应用:1.比较度量衡单位不同资料的变异程度2.比较均数相差悬殊资料的变异程度1.单位不同时组间变异程度的比较

某地7岁年龄组男童身高与体重

指标SCV(%)身高(cm)。123.104.713.83体重(kg)22.292.2610.14结论:7岁年龄组男童身高与体重值指标比较,体重指标的变异大于身高指标。

某地不同年龄组男童身高(cm)年龄组SCV%1-2月56.32.13.735-6月66.52.23.313-3.5岁96.13.13.225-5.5岁107.83.33.06结论:随着年龄增加,身高的变异变小。2.比较组单位相同,但均数相差悬殊的组间变异程度比较.如表。

表7120名正常成年男子血清铁含量的频数分布表

6~8~10~12~14~16~18~20~22~24~26~28~30

合计一上正一正上正正丅正正正正正正正正正丅正正正上正正丅正上止一13681220271812841组段划记频数120

图中横轴为血清铁含量,纵轴为频率密度,直条面积等于相应组段的频率。?例8利用表2-2的频数表求血清铁含量的中位数。

组段频数累计频数累计频率

6~8~10~12~14~16~18~20~22~24~26~28~30

合计1201

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论