个体变异工程与变量分布_第1页
个体变异工程与变量分布_第2页
个体变异工程与变量分布_第3页
个体变异工程与变量分布_第4页
个体变异工程与变量分布_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

个体变异工程与变量分布个体变异(individualvariation)是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就个体而言:变异是随机的(random)。就总体而言:个体变异是有规律的。一个原始资料某市1997年12岁男童120人的身高(cm)资料如下。

频数表编制步骤

求极差选定适当的组段数后估计组距列出组段划记归组获得频数求频率,完成频数表

频数分布表的编制求极差或全距(Range):R=Xmax-XminR=160.9-125.9=35(cm)选定适当的组段数后估计组距(i)组段数的选取以能反映资料的分布特征为宜一般取8~12组

i=35/10=3.5≈4(cm)频数分布表的编制列出组段组段的含义:包括组段的下限而不含组段的上限。如:124~等价于[124,128)第一个组段应包含最小值

最后一个组段应包含最大值频数分布表的编制划记归组获得频数常用的划记方法:“正”;“||||”求频率,完成频数表相应的频数除以总数即为频率各组段的频率总和为1或者100%计量资料的频数、频率分布

组段频数频率

124~ 128~ 132~ 136~ 140~ 144~ 148~ 152~ 156~ 160~ 合计 计量资料的频数分布图---直方图124132140148156164010203040人数图某市120名12岁男童身高的频数分布频数分布表和频数分布图的用途

描述分布类型描述分布的特征便于发现特大、特小的可疑值便于计算有关指标、统计分析与处理频数分布类型对称分布:以正态分布较为常见非对称分布:偏态分布正偏态:右侧>左侧

向右侧拖尾

负偏态:左侧>右侧

向左侧拖尾

频数分布特征

数据分布的范围:集中趋势:中等大小人数居多,向中间集中数据最集中的区间:140.0~144.0cm离散趋势:以中等大小的区间为中心,向两侧逐渐分散分布形态:基本对称同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。

定性及等级资料的频数分布离散型频数表离散型频数图——直条图

频数分布表血型 频数 频率(%)合计 频数分布图OABAB图239人发汞含量的频数分布13579111315171921发汞含量(umol/kg)706050403020100人数图某城市892名老年人生存质量自评分的频数分布0102030405060708090100自评分4003002001000人数图102名黑色数瘤患者的生存时间频数分布151015202530354045生存时间(月)403020100人数图某地1990~1992年男性死亡年龄分布

0510152025

303540

455055606570758085死亡年龄(岁)25002000150010005000课后习题P355:练习2.1①定量资料的统计指标集中趋势的描述离散趋势的描述集中位置的描述----平均数(average)均数(arithmeticmean,mean)均数的几何意义均数代表每组观察值的平衡点,也就是重心。如:(1,4,7,8)则均数为5。则图示如下:均数的重要特性:离均差(各观察值与均数之差)总和等于零

12345678平均数(average)加权均数(weightedmean)

均数是加权均数的一个特例平均数(average)几何均数(geometricmean)

几何均数例1:10,1:20,1:40,1:80,1:160平均数(average)中位数(median)

将一组数据按从小到大的顺序排列,位置居中的数即是中位数。中位数例9例正常人的发汞值(mol/kg):

1.1,1.83.54.24.85.65.97.110.5

M10例正常人的发汞值:

M

平均数(average)百分位数(percentile)

LP1P2P3P4HP97P98P991%1%1%1%1%1%1%同样有十分位数、四分位数……

M=P50排序数据:按从小到大顺序排列X%(100-X)%PXHLLx:Px所在组下限

ix:Px所在组组距

fx:Px所在组频数

n:样本例数

ΣfL:小于Px所在组的各组段累计频数

140144357237120×50%=60求P50百分位数例利用表,求P50,P25,P75平均数应用的注意事项同质的资料计算平均数才有意义根据资料分布的特征选用适当的平均数均数:单峰对称分布的资料几何均数:等比资料、滴度资料、对数正态分布资料中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。(偏态分布、分布不明资料、有不确定值的资料)平均数应用的注意事项计算几何均数时:

变量值中不能有0

同一组变量值不能同时存在正、负值

若变量值全为负值,可先将负号除去,算出结果后再冠以负号

样本含量较少时不宜计算靠近两端的百分位数

平均数要与变异指标结合使用思考题:在太阳、地球和月球组成的体系中:太阳的质量为2.0×1030kg地球的质量为6.0×1024kg月球的质量为7.3×1022kg请问:三者平均质量为多少?只用平均数描述资料的弊病IthasbeensaidthatafellowwithonelegfrozeniniceandtheotherleginboilingwateriscomfortableONAVERAGE!看一个例子:有甲、乙两组同性别同年龄儿童体重(kg):甲组

26,28,30,32,34=30kgn甲=5乙组

24,

27,

30,

33,

36=30kgn乙=5上述两组数据的特点:集中位置相同:均为30kg

离散程度不同:各观察值离均数的远近不同离散趋势的描述全距(Range)

亦称极差,记为R,是一组变量值中最大值与最小值之差。优点:简单明了缺点:不灵敏、不稳定离散趋势的描述四分位数间距(interquartilerange)

定义为:

QU~QL,即中间一半观察值的极差。 四分位数(quartile)是两个特定的百分位数:第25%分位数P25,和第75%分位数P75,分别记为QL和QU。

四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。25%25%25%25%排序数据:按从小到大顺序排列MQLQUinter-quartilerangeQ2Q1Q3离散趋势的描述方差(Variance)和标准差(StandardDeviation)

“离均差平方之和平均后的方根”“均方根”n-1称为(标准差的)自由度,即“可以自由变异的程度”因为任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”。标准差大:分布分散、不整齐、波动大;标准差小:分布集中、整齐、波动较小。离散趋势的描述变异系数(coefficientofvariation)亦称离散系数(coefficientofdispersion),是标准差s与均数之比,即:

变异系数的两个特点及相应的用途

没有单位反映标准差占均数的百分比或标准差是均数的几倍可用来比较度量衡单位不同的资料的变异度

不受平均水平的影响反映的是以均数为基数的相对变异的大小比较均数相差悬殊的资料的变异度

某地20岁男子100人,身高均数为,标准差为;体重均数为,标准差为,试比较身高和体重的变异。

身高体重 绝对变异受平均水平的影响相对变异排除了平均水平的影响表2.4某地年龄儿童身高(cm)的变异

年龄组

人数

均数

标准差

变异系数(%)

1~2月

100

56.3

2.1

3.7

5~6月

120

66.5

2.2

3.3

3~3.5岁

300

96.1

3.1

3.2

5~5.5岁

400

107.8

3.3

3.1

平均数与变异度的关系

平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征变异度越小,平均数对各变量值的代表性越好

变异度越大,平均数对各变量值的代表性越差

平均数与变异度的关系通常,平均数与变异指标一起描述资料的分布特征。用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距描述偏态分布资料的特征。

资料的指标描述是统计描述的一个重要的组成部分定量资料的统计指标平均水平指标:算术均数、几何均数、中位数等。离散程度指标:全距、四分位数间距、方差、标准差、变异系数。定性资料或等级资料的统计指标相对数指标绝对数的概念与意义调查研究和实验研究得到的定性资料或等级资料经过整理,清点数目得到的数值称为绝对数。如某病的发病人次数、医院收容人数、治愈人数等。绝对数反映一定条件下某种事物的规模或水平,是计划或总结工作的依据。绝对数是计算相对数与平均数的基础。绝对数往往不便于比较。例:调查得某年小学生中流脑发病:

甲地区63例,乙地区35例。

甲地区流脑流行比乙地区严重×√

如已知小学生总人数:甲地区50051人,乙地区14338人,可算出两个发病率:

甲地区流脑发病率:63/50051×1000‰=1.26‰

乙地区流脑发病率:35/14338×1000‰=2.44‰

乙地区流脑流行比甲地区严重相对数的概念和意义概念:相对数是两个有联系的指标之比。两个特点:表示事物出现的频度。

把基数化作相等,便于比较。常用相对数

率构成比相对比

率(rate)又称频率指标,用以说明某事物或某现象在其可能发生的范围内实际发生的频率或强度。计算公式为:

关于率的几点说明(一)分子和分母都是计数值,从定义上来看,分子应为分母的一部分,但在实际应用中一些率的指标可能并不符合率的定义,但它们是约定俗成、沿习使用的。根据频率的稳定性,分母较大时,可以用率作为该事件发生机会(即概率)的近似值。例如:医治100例病人,90例痊愈,则:治愈率=90/100=90%。 它近似的反映了病人治愈机会的大小。关于率的几点说明(二)0≤rate≤1率常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(l/10万)等表示。

比例基数(K)可以是100%、1000‰、……,其选取是根据习惯用法和需要选用,主要使算得的率至少保留1~2位整数,便于阅读。

患病率、发病率、感染率: 百分率(%)人口出生率与死亡率: 千分率(‰)肿瘤死亡率: 十万分率(l/10万)构成比

构成比(proportion)又称构成指标,表示某一事物内部各组成部分所占的比重或分布,常以百分数表示,计算公式为:

设某事物个体数的合计由A1,A2,…,Ak个部分组成,构成比计算为:构成比的特点:同一事物内部的k个组成部分构成比总和为100%。各部分构成比之间是相互影响的,某一部分比重的变化受到两方面因素的影响:其一是这个部分自身数值的变化,其二受其他部分数值变化的影响。比比(ratio)亦称相对比,是

A、B两个有关指标之比。

说明A为B的若干倍或百分之几,它是对比的最简单形式。A、B两个指标可以是绝对数,也可以是相对数;可以性质相同,也可以性质不同;可以是定性资料,也可以是定量资料。

人口统计中常用的比的指标受精时性别比(第一性比例)一般为110170,平均120;出生时性别比(第二性比例)绝大多数国家为103107,平均106;婚龄期性别比(第三性比例)约为100;

性别比(sexratio)又称性比例,是指男性人口与女性人口的比值。

人口统计中常用的比的指标抚养比又称人口负担系数,是反映劳动人口负担程度的指标,此数值取决于人口年龄结构类型。

正确应用相对数(一)

计算相对数的分母不宜过小

例数较少,相对数波动较大。如:0/2,1/2,2/2例数较少时,宜用绝对数表示,必须用相对数时,可同时列出其可信区间。分析时不能以构成比代替率率反映的是频率或者强度构成比反映的是比重或分布正确应用相对数(二)

正确应用相对数(三)正确计算合并率对观察单位数不等的几个率,不能直接相加求其平均率(或称总率)例如用某疗法治疗肝炎,第一次治疗150人,治愈30人,治愈率20%;第二次治疗100人,治愈30人,治愈率30%。试计算两批的合并治愈率。观察单位数相等时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论