个体变异及变量分布_第1页
个体变异及变量分布_第2页
个体变异及变量分布_第3页
个体变异及变量分布_第4页
个体变异及变量分布_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、个体变异与变量分布荀鹏程个体变异(individual variation) 是同质观察对象间表现出的差异。 变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。 就个体而言:变异是随机的(random)。 就总体而言:个体变异是有规律的。个体变异是统计学应用的前提个体变异抽样误差统计推断一个原始资料某市1997年12岁男童120人的身高(cm)资料如下。 142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 134.5 148.8134.4 148.8 137.9 151.3 140.8 149.8 145.2 141.8 146

2、.8 135.1150.3 133.1 142.7 143.9 151.1 144.0 145.4 146.2 143.3 156.3141.9 140.7 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 134.7 147.3138.1 140.2 137.4 145.1 145.8 147.9 150.8 144.5 137.1 147.1142.9 134.9 143.6 142.3 125.9 132.7 152.9 147.9 141.8 14

3、1.4140.9 141.4 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 129.4 142.5141.2 148.9 154.0 147.7 152.3 146.6 132.1 145.9 146.7 144.0135.5 144.4 143.4 137.4 143.6 150.0 143.3 146.5 149.0 142.1140.2 145.4 142.4 148.9 146.7 139.2 139.6 142.4 138.7 139.9计量

4、资料的频数、频率分布组 段 频 数 频 率 124 10.0083 128 20.0167 132 100.0833 136 220.1834 140 370.3083 144 260.2167 148 150.1250 152 40.0333 156 20.0167 160 10.0083合 计1201.0000计量资料的频数分布图-直方图124132140148156164010203040人数图 某市120名12岁男童身高的频数分布频数表编制步骤 求极差 选定适当的组段数后估计组距 列出组段 划记归组获得频数 求频率,完成频数表 频数分布表和频数分布图的用途 描述分布类型 描述分布的特征

5、 便于发现特大、特小的可疑值 便于计算有关指标、统计分析与处理频数分布类型 对称分布:以正态分布较为常见 非对称分布:偏态分布 正偏态:右侧左侧 向右侧拖尾 均数中位数 负偏态:左侧右侧 向左侧拖尾 均数中位数 频数分布特征 数据分布的范围: 125.9160.9cm数据最集中的区间:140.0144.0cm分布形态:基本对称同一组资料,不同的人编制的频数表,结同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。果不尽相同,允许几个合理的结果并存。 定性及等级资料的频数分布 离散型频数表 离散型频数图直条图 频数分布表血型 频数 频率(%) O205 40.43 A112

6、22.09 B150 29.59 AB 40 7.89合计 507 100.00频数分布图OABAB图 239人发汞含量的频数分布1 3 5 7 9 11 13 15 17 19 21发汞含量(umol/kg)70605040302010 0人数图 某城市892名老年人生存质量自评分的频数分布0 10 20 30 40 50 60 70 80 90 100自评分400300200100 0人数图 102名黑色数瘤患者的生存时间频数分布1 5 10 15 20 25 30 35 40 45生存时间(月)40302010 0人数图 某地19901992年男性死亡年龄分布 0 5 10 15 20

7、25 30 35 40 45 50 55 60 65 70 75 80 85死亡年龄(岁)2500200015001000 500 0课后习题 P355: 练习2.1 统计资料的描述 列表描述:频数分布表、一览表 图形描述:频数分布图、趋势图 指标描述 定量资料 集中位置:算术均数、几何均数、中位数、百分位数 离散程度:极差、四分位数间距、方差、标准差 定性或等级资料相对数指标:率、构成比、比集中位置的描述-平均数(average) 均数(arithmetic mean, mean)nXXXXn21均数的几何意义 均数代表每组观察值的平衡点,也就是重心。如:(1,4,7,8)则均数为5。则图示

8、如下: 均数的重要特性:离均差(各观察值与均数之差)总和等于零 12345678平均数(average) 加权均数(weighted mean) 均数是加权均数的一个特例nnnnnXXXXw121111nnwXwXwXwX2211平均数(average) 几何均数(geometric mean) XnXXGnXXXXln21lnexplnlnlnnnXXXG21几何均数例 1:10, 1:20, 1:40, 1:80, 1:16040160804020105G406889. 35160ln80ln40ln20ln10ln6889. 3lneGXX平均数(average) 中位数(median)

9、 将一组数据按从小到大的顺序排列,位置居中的数即是中位数。为偶数当为奇数当n n 2/ )(12/2/2/ )1(nnnXXXM中位数例 9例正常人的发汞值(mol/kg ): 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.8 10例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/2=5.2 平均数(average) 百分位数(percentile) X% PX (100-X)% 50分位数就是中位数 其中 LX:PX所在组下限 iX:PX所在组组距 fX:PX所在组频数 n:

10、样本例数 fL:小于PX所在组的各组段累计频数 LXXXXfXnfiLP%组组 段段 (1) 频频 数数 (2) 累累计计频频数数 (3) 累累计计频频率率 (4) 124 1 1 0.83 128 2 3 2.50 132 10 13 10.83 136 22 35 29.17 140 37 72 60.00 144 26 98 81.67 148 15 113 94.17 152 4 117 97.50 156 2 119 99.17 160 1 120 100.00 合合 计计 120 百分位数例 利用表2.1,求P50,P25,P75)(94.14235%5012037414050cm

11、P)(09.13913%2512022413625cmP)(78.14672%7012026414475cmP平均数应用的注意事项 同质的资料计算平均数才有意义 根据资料分布的特征选用适当的平均数 均数:单峰对称分布的资料 几何均数:等比资料、滴度资料、正偏态资料 中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。 (偏态分布、分布不明资料、有 不确定值的资料)平均数应用的注意事项 计算几何均数时: 变量值中不能有0 同一组变量值不能同时存在正、负值 若变量值全为负值,可先将负号除去,算出结果后再冠以负号 样本含量较少时不宜计算靠近两端的百分位数 平均数要与变异

12、指标结合使用思考题: 在太阳、地球和月球组成的体系中: 太阳的质量为 21030kg 地球的质量为 5.971024kg 月球的质量为0.0731024kg 请问:三者平均质量为多少?看一个例子: 有甲、乙两组同性别同年龄儿童体重(kg):甲组 26,28,30,32,34 =30 kg n甲=5乙组 24, 27, 30, 33, 36 =30 kg n乙=5 上述两组数据的特点: 集中位置 相同:均为30kg 离散程度不同:各观察值离均数的远近不同甲X乙X离散趋势的描述 全距(Range)亦称极差,记为R,是一组变量值中最大值与最小值之差。 优点:简单明了 缺点:不灵敏、不稳定 离散趋势的

13、描述 四分位数间距(interquartile range)定义为: QUQL,即中间一半观察值的极差。四分位数(quartile)是两个特定的百分位数:第25分位数P25,和第75分位数P75,分别记为QL和QU。 四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。 离散趋势的描述 方差(Variance)和标准差(Standard Deviation) NX22NX212nXXs“离均差平方之和 平均后的方根”n-1 称为(标准差的)自由度,即“可以自由变异的程度”因为任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”。 标准差的基本内容是 “离均差

14、”,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。 离散趋势的描述 变异系数(coefficient of variation)亦称离散系数(coefficient of dispersion),是标准差s与均数之比,即: %100XsCV变异系数的两个特点及相应的用途 没有单位 反映标准差占均数的百分比或标准差是均数的几倍 可用来比较度量衡单位不同的资料的变异度 不受平均水平的影响反映的是以均数为基数的相对变异的大小比较均数相差悬殊的资料的变异度 某地20岁男子100人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.7kg,标准差为

15、4.96kg,试比较身高和体重的变异。 身高 体重%98. 2%10006.16698. 4CV%23. 9%10072.5396. 4CV 绝对变异受平均水平的影响 相对变异排除了平均水平的影响表 2.4 某地年龄儿童身高(cm)的变异 年龄组 人数 均数 标准差 变异系数() 12 月 100 56.3 2.1 3.7 56 月 120 66.5 2.2 3.3 33.5 岁 300 96.1 3.1 3.2 55.5 岁 400 107.8 3.3 3.1 平均数与变异度的关系 平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代

16、表性越好 变异度越大,平均数对各变量值的代表性越差 平均数与变异度的关系 通常,平均数与变异指标一起描述资料的分布特征。用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距描述偏态分布资料的特征。 资料的指标描述 是统计描述的一个重要的组成部分 定量资料的统计指标 平均水平指标:算术均数、几何均数、中位数 等。 离散程度指标:全距、四分位数间距、方差、标准差、变异系数。 定性资料或等级资料的统计指标 相对数相对数指标指标绝对数的概念与意义 调查研究和实验研究得到的定性资料或等级资料经过整理,清点数目得到的数值称为绝对数。 如某病的发病人次数、医院收容人数、治愈人数等。 绝对数反映一定条

17、件下某种事物的规模或水平,是计划或总结工作的依据, 绝对数是计算相对数与平均数的基础。 绝对数往往不便于比较绝对数往往不便于比较。例:调查得某年小学生中流脑发病:甲地区63例,乙地区35例。 v甲地区流脑流行比乙地区严重 v如已知小学生总人数:甲地区50051人,乙地区14338人,可算出两个发病率: v甲地区流脑发病率:63/500511000=1.26v 乙地区流脑发病率:35/14338 1000=2.44 v乙地区流脑流行比甲地区严重乙地区流脑流行比甲地区严重相对数的概念 和意义 概念:相对数是两个有联系的指标之比。 两个特点:表示事物出现的频度。 把基数化作相等,便于比较。 常用相对

18、数 率 构成比 相对比 率 率(rate)又称频率指标频率指标,用以说明某事物或某现象在其可能发生的范围内实际发生的频率或强度。计算公式为: )(K比例基数单位总数可能发生该现象的观察单位数实际发生某现象的观察率KBAA率表 2.5 某市某年各区急性传染病发生数及其相对数 市区 年平均 人口数 急性传染 病发生数 各区与 I 区 发病数之比发病数之比 各区急性传染病 发生数构成比发生数构成比(%) 各区急性传染病 发病率发病率(1/万万) (1) (2) (3) (4) (5) (6) I 636723 2433 18.9 38.21 II 389540 3033 1.25 23.5 77.8

19、6 III 699712 1650 0.68 12.8 23.58 IV 328363 1503 0.62 11.6 45.77 V 286967 1282 0.53 10.0 44.67 VI 317504 1853 0.76 14.4 58.36 VII 153838 1130 0.46 8.8 73.45 合计 2812647 12884 100.0 45.81 关于率的几点说明(一) 分子和分母都是计数值,从定义上来看,分子应为分母的一部分,但在实际应用中一些率的指标可能并不符合率的定义,但它们是约定俗成、沿习使用的。 根据频率的稳定性,分母较大时,可以用率作为该事件发生机会(即概率)

20、的近似值。 例如:医治100例病人,90例痊愈,则:治愈率=90/100=90%。它近似的反映了病人治愈机会的大小。K该时点人口数现患病人总数观察时点内发现的某病某病患病率关于率的几点说明(二) 0 rate1 率常以百分率(%)、千分率()、万分率(1万)、十万分率(l10万)等表示。 比例基数(K )可以是100、1000、,其选取是根据习惯用法和需要选用,主要使算得的率至少保留12位整数,便于阅读。 患病率、发病率、感染率 :百分率(%) 人口出生率与死亡率:千分率() 肿瘤死亡率:十万分率(l10万)构成比 构成比(proportion) 又称构成指标,表示某一事物内部各组成部分所占的

21、比重或分布比重或分布,常以百分数表示,计算公式为: %100观察单位总数同一事物各组成部分的的观察单位数事物内部某一组成部分构成比设某事物个体数的合计由A1,A2,Ak个部分组成,构成比计算为:%100%100%1002%100121212211 个构成比的合计为构成比构成比构成比KAAAAKAAAAAAAAkKkk表表2.2 507名傣族人血型的频数分布名傣族人血型的频数分布 血型血型 频数频数 频率频率(%) O 205 40.43 A 112 22.09 B 150 29.59 AB 40 7.89 合计合计 507 100.00 构成比的特点: 同一事物内部的k个组成部分构成比总和为1

22、00%。 各部分构成比之间是相互影响的,某一部分比重的变化受到两方面因素的影响:其一是这个部分自身数值的变化,其二受其他部分数值变化的影响。某某患患者者手手术术前前后后白白细细胞胞检检查查结结果果比比较较 白白细细胞胞分分类类 观观察察期期间间 中中性性 淋淋巴巴 单单核核 嗜嗜酸酸性性 合合计计 手手术术前前 4.82 1.65 0.07 0.07 6.60 白白细细胞胞计计数数 (109) 手手术术后后 11.00 1.65 0.14 0.96 13.75 手手术术前前 73 25 1 1 100 构构成成比比(%) 手手术术后后 80 12 1 7 100 比 比(ratio)亦称相对比

23、,是 A、B两个有关指标之比。 v说明A为B的若干倍或百分之几,它是对比的最简单形式。A、B两个指标可以是绝对数,也可以是相对数;可以性质相同,也可以性质不同;可以是定性资料,也可以是定量资料。 BA比人口统计中常用的比的指标 受精时性别比(第一性比例)一般为110170,平均120;出生时性别比(第二性比例)绝大多数国家为103107,平均106;婚龄期性别比(第三性比例)约为100; 100女性人口数男性人口数性别比性别比性别比(sex ratio) 又称性比例,是指男性人口与女性人口的比值。 人口统计中常用的比的指标 抚养比抚养比又称人口负担系数,是反映劳动人口负担程度的指标,此数值取决

24、于人口年龄结构类型。 %100641565140岁人数岁及以上人数岁人数抚养比正确应用相对数(一) 计算相对数的分母不宜过小计算相对数的分母不宜过小 例数较少,相对数波动较大。如:0/2,1/2,2/2 例数较少时,宜用绝对数表示,必须用相对数时,可同时列出其可信区间。 分析时不能以构成比代替率分析时不能以构成比代替率率反映的是频率或者强度构成比反映的是比重或分布正确应用相对数(二) 正确应用相对数(三) 正确计算合并率正确计算合并率对观察单位数不等的几个率,不能直接相加对观察单位数不等的几个率,不能直接相加求其平均率求其平均率(或称总率或称总率) 例如用某疗法治疗肝炎,第一次治疗例如用某疗法

25、治疗肝炎,第一次治疗150150人,治愈人,治愈3030人,治愈率人,治愈率20%20%;第二次治疗;第二次治疗100100人,治愈人,治愈3030人,人,治愈率治愈率30%30%。试计算两批的合并治愈率。试计算两批的合并治愈率。观察单位数相等时?观察单位数相等时?正确应用相对数(四) 计算率时要注意资料的同质性计算率时要注意资料的同质性 对比分析时应注意资料的可比性对比分析时应注意资料的可比性 v 所谓可比,就是说除了要对比的因素外(如不同药物),其余的影响因素应尽可能的相同、相似或接近。 观察对象同质,研究方法相同,观察时间相等,以及地区、周围环境、风俗习惯和经济条件应一致或相近。 观察对象内部构成内部构成是否相同,若两组资料的年龄、性别构成不同,可以分组或进行标准化后再作比较。 正确应用相对数(五) 样本率或构成比比较时,不能仅凭表面上的数值大小下结论,应考虑到其抽样抽样误差误差,进一步作统计学处理 。表表 2.6 2.6 某病两种疗法的治愈率比较某病两种疗法的治愈率比较 病情病情 甲疗法甲疗法 乙疗法乙疗法 选定的标准组选定的标准组 病人数病人数 治愈数治愈数 治愈率治愈率 病人数病人数 治愈数治愈数 治愈率治愈率 人数人数 构成比构成比 轻型轻型 80 72 0.90 60 54 0.90

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论