




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章资料的整理与描述第一节资料的整理其次节资料的描述浙江大学1遗传学第四章
第一节资料的整理
目的:化繁为简
浙江大学2遗传学第四章一、资料的分类(一)数量性状资料
数量性状(quantitativetrait)—指能够以量测或计数的方式表示其特征的性状。1.计量资料—指由称量、度量或测量等量测方法所得到的数据。其各个观测值并不限于整数,在两个相邻的整数间允许有带小数的任何数值出现。也称为连续性变量资料。浙江大学3遗传学第四章2.计数资料计数资料—指用计数方法获得的数据。计数资料的观测值只能以整数表示,在两个相邻整数间不允许有任何带小数的数值出现。也成为间断性变量。浙江大学4遗传学第四章(二)质量性状资料指能视察到而不能干脆测量的性状。需对其视察结果作数量化处理。1.统计次数法在确定的样本内,依据某一质量性状的类别统计其次数。2.评分法将变异的性状分成几种级别,每一级别指定以适当的数值作代表。浙江大学5遗传学第四章二、资料的检查与核对三、资料整理的方法当n>30时,可将观测值分成组,制成次数分布表。次数分布:由不同区间内变量出现的次数组成的分布。将次数分布作成表格形式,叫次数分布表。浙江大学6遗传学第四章
1.
计数资料的整理例如:方法:以每一观测值为一组进行分组,然后制成次数分布表。浙江大学7遗传学第四章浙江大学8遗传学第四章2次数分布表及其制作次数分布:由不同区间内变量出现的次数组成的分布。将次数分布作成表格形式,叫次数分布表。次数分布表的制作步骤:计算级差→确定组距→确定组限→资料归组以水稻为例浙江大学9遗传学第四章(1)计算级差(R)R=最大观测值-最小观测值首先排依次表,将所取得的数据由小到大排列。
浙江大学10遗传学第四章(2)确定组距(i)组距:相邻两组间的距离。查表求得浙江大学11遗传学第四章浙江大学12遗传学第四章浙江大学13遗传学第四章3.确定组限组限:一组内的两极端值,小者为下限,大者为上限。组的上下限=组中值±半个组距组中值:每一组的中心值,是这个组的代表值。第一组的组中值:(1)稍高于或等于最小视察值(2)与原始视察值小数点位数相同。其他组的组中值:依次加上组距浙江大学14遗传学第四章组限组中值67.5~82.57582.5~97.59097.5~112.5105…120……
232.5~247.5
240247.5~262.5255填入表中时,前一组的上限应稍低于后一组的下限。4.资料归组统计每组出现的次数。浙江大学15遗传学第四章浙江大学16遗传学第四章四、常用统计图常用的统计图有直方图(histogram)、多边形图(polygon)、折线图(broken-linechart)或线图(linear)、条形图(bardiagram)、圆图(piechart)等。浙江大学17遗传学第四章常用的统计图有直方图(histogram)、多边形图(polygon)、折线图(broken-linechart)或线图(linear)、条形图(bardiagram)、圆图(piechart)等。浙江大学18遗传学第四章1.如何作直方图。(1)以组限为横坐标,以次数为纵坐标,作直角坐标系,横:纵为6:5或5:4。(2)在各个组区间上画出一个个小方柱,每个方柱宽等于组距,高度等于次数。还应标出图名和坐标的名称和单位,折断号。浙江大学19遗传学第四章浙江大学20遗传学第四章对于间断性变数,在每组的方株间留一间隙,由此作的图也叫条形图。浙江大学21遗传学第四章2.如何作多边形图
(1)以组中值为横坐标,以次数为纵坐标,在各个组中值的上方标注一个个点。(2)连点成线。折线在最小组中值和最大组中值之外各跨出一个组距的距离交于横轴。浙江大学22遗传学第四章浙江大学23遗传学第四章3.如何作条形图(1)以组名或观测值为横坐标,以次数或频率为纵坐标,绘制条形图。(2)条形图之间有间隔。(3)绘制复式条形图时,将同一组的两个或两个以上亚组的条形图绘制在一起,长条间不留间隔。浙江大学24遗传学第四章浙江大学25遗传学第四章浙江大学26遗传学第四章4.圆图
浙江大学27遗传学第四章5.线图。用来表示事物或现象随时间而变更发展的状况。(1)单式线图。表示某一事物或现象的动态。(2)复式线图。在同一图上表示两种或两种以上事物或现象的动态。浙江大学28遗传学第四章资料分布有两个特征:
集中性:变量在趋势上有着向某一中心聚集或者说以某一数值为中心而分布的性质。
离散性:变量又有着离中变异的性质。浙江大学29遗传学第四章变量—表现出变异的一群观测值的总称。观测值—构成变量的每一个具体数值。资料—试验获得的原始资料。由于原始资料一般以数字的形式表示,所以又称试验数据,简称数据。浙江大学30遗传学第四章其次节资料的描述一、平均数(表示集中性的特征数)概念:平均数是用来说明资料集中趋势或数据典型水平的特征数。功用:1.指示资料内变量的中心位置;2.作为资料的代表与其它资料进行比较。
第二章浙江大学31遗传学第四章
种类:算术平均数(arithmeticmean)中位数(median)众数(mode)几何平均数(geometricmean)调和平均数(harmonicmean)浙江大学32遗传学第四章(一)算术平均数(arithmeticmean)
算术平均数—指资料内各个观测值的总和除以观测值的个数所得的商,简称平均数或均数,记作。
浙江大学33遗传学第四章1.算术平均数的计算方法(1)干脆法设某一样本含有个观测值:,则样本平均数可通过下式计算:
浙江大学34遗传学第四章或
—样本内观测值的个数。—样本内观测值的总和浙江大学35遗传学第四章[例2-1]在大豆区域试验中,吉农904的6个小区产量分别为25.0、26.0、22.0、21.0、24.5、23.6(kg)。求该品种的小区平均产量。浙江大学36遗传学第四章
权
权
权(2)加权法对于n>30且已分组的资料,可以用加权法计算平均数。例如,有一组观测值n=65,5,5,4,4,2则其平均数为浙江大学37遗传学第四章计算公式为:—每一组的组中值。—组中值对应的次数。浙江大学38遗传学第四章利用次数分布表计算平均数时,即可用加权法,可以把次数分布表中的140个观测值看成是2个75、7个90…
[例2-2]用加权法计算表2-6资料中140行水稻平均产量。—每一组的组中值。—组中值对应的次数。浙江大学39遗传学第四章浙江大学40遗传学第四章2算术平均数的基本性质性质1离均差(deviationfrommean)的总和等于0.离均差—参与计算平均数的每一观测值与平均数之差。例如:有一样本,观测值分别为5,5,5,4,4
则(5-4.6)+(5-4.6)+(5-4.6)+(4-4.6)+(4-4.6)=0.4×3+(-0.6)×2=0浙江大学41遗传学第四章证明:浙江大学42遗传学第四章性质2
离均差的平方和为最小值。
例如:
有一样本,观测值分别为5,5,5,4,4
则浙江大学43遗传学第四章证明:设a为不等于的任一数。∴
浙江大学44遗传学第四章3.总体平均数
一般,用表示总体平均数。浙江大学45遗传学第四章统计数(statistics)—说明样本特征的数称为统计数。如样本平均数说明样本的典型水平,所以是一个统计数。
参数(parameter)—说明总体特征的数称为参数。如总体平均数就是一个参数。
浙江大学46遗传学第四章在统计学中,用样本平均数估计总体平均数。统计学已证明,样本平均数是总体平均数的无偏估计量。
无偏估计量—当一个统计数的数学期望(mathematicalexpectation)等于所估计的总体参数时,则称此统计数为该总体参数的无偏估计量(unbiasedestimate)。浙江大学47遗传学第四章(二)中位数(median)中位数—将资料内全部观测值从小到大依次排列,居中间位置的观测值称作中数,记作Md。假如观测值个数为偶数,则以中间两个观测值的算术平均数为中数。例如:一组苹果幼苗高度,只要将高度依次排列,则居中一株的高度,即代表苹果幼苗高度。假如是偶数,则中间两株平均数作为中数。65,66,77,85,99,110,112,119,120Md=99(cm)浙江大学48遗传学第四章若资料已分组形成次数分布表,则用下式计算中位数:浙江大学49遗传学第四章浙江大学50遗传学第四章[例2-5]
利用表2-6的数据计算140行水稻产量的中位数。浙江大学51遗传学第四章(三)众数(mode)众数—资料内具有最多次数的那个观测值,记作Mo。例如:一组番茄幼苗高度13,14,14,15,15,15,15,15,15,15,15,16,16,16,17,18,20Mo=15(cm)浙江大学52遗传学第四章中数和众位数都是地位特征数,不受极端观测值的影响,且计算简便。但其数理基础不够健全,在作进一步数学处理时会遇到麻烦,同时不能利用全部观测值供应的信息,因而,其应用范围比平均数狭窄得多。浙江大学53遗传学第四章(四)几何平均数
几何平均数—
(geometricmean)n个观测值的n次方根,记作G。浙江大学54遗传学第四章[例2-6]
逐日测定蚕豆根长的生长量(mm)列于表2-10。试求蚕豆根长的日平均增长率。浙江大学55遗传学第四章即蚕豆根长的日平均增长率为0.3037或30.37。浙江大学56遗传学第四章浙江大学57遗传学第四章例如以两亲本果重预料F1果重P跃进×二宫白240130浙江大学58遗传学第四章(五)调和平均数(harmonicmean)调和平均数—资料中各观测值倒数的算术平均数的倒数,记作H,即浙江大学59遗传学第四章[例2-7]测定水分在某种土壤毛细管中的上升速率,得表2-11结果。浙江大学60遗传学第四章
二、变异数(表示离散性的特征数)
概念:变异数是用来说明资料离中趋势或变异程度的特征数。
功用:1.衡量平均数对样本的代表性大小。2.度量样本的变异程度。第二章浙江大学61遗传学第四章(一)极差(range)1.公式R=最大观测值–最小观测值比如有一样本n=10观测值为:13,14,15,17,18,18,19,21,22,23R=23-13=10浙江大学62遗传学第四章2.特点优点:计算简便,多用于工业上质量限制的探讨。缺点:没有充分利用资料的全部信息,而且易于受到资料中不正常的极端值的影响。在农业和生物试验上,极差应用得很少。
浙江大学63遗传学第四章(二)方差variance(或均方meansquare,缩写为MS)一有限总体,平均数为,观测值个数为N。第一,使全部的观测值都与一个标准值相减,选作为共同比较的标准值。(假如将这些离均差总和起来,再除以N,就能反映平均变异程度,缺憾的是,假如求又不便作进一步数学处理。)浙江大学64遗传学第四章其次,把每个离均差平方,再求和。第三,用观测值的个数N去除离均差的平方和。=方差or均方浙江大学65遗传学第四章1.公式参数总体方差统计数样本方差
浙江大学66遗传学第四章统计数(statistics)—说明样本特征的数称为统计数。如样本平均数说明样本的典型水平,所以是一个统计数。同样,样本方差说明样本的变异程度,所以也是一个统计数。
参数(parameter)—说明总体特征的数称为参数。如总体平均数就是一个参数。同样,总体方差也是一个参数。浙江大学67遗传学第四章为什么除以n-1而不是n?即为什么不是?统计上常常用去估计,但由于计算时,x不易遇到极端值,所以以n为除数时,所得的是的偏低估计量,而以(n-1)为除数时,所得的是的无偏估计量。这是可以用数学方法证明的。浙江大学68遗传学第四章自由度(degreeoffreedom)—记为,指在计算离均差平方和时,能够自由变动的离均差的个数。
浙江大学69遗传学第四章为什么称为自由度?假设一个样本包含5个观测值,且,为了满足这个条件,在5个观测值中,只有4个可以在确定范围内随意取值,最终一个数值就不能自由变动了。例如,5个观测值有4个可以随意为4,6,8,10,最终一个观测值就非2不行。5个观测值也可随意为1,3,5,7,最终一个观测值就非14不行,否则就不能满足“”这一条件。可以看作是制约着这5个观测值的统计数。浙江大学70遗传学第四章自由度=样本内离均差个数–制约着它们的统计数的个数。浙江大学71遗传学第四章2.特点优点:方差比较客观地反映了变量的变异程度,在方差分析中很有用。缺点:由于分子上的离均差取了平方值,使它与原始观测值的数量水平和单位不适应,因而在某些场合不适用。浙江大学72遗传学第四章(三)标准差(standarddeviation)应用最广泛的变异数,它是变量的平均变异程度的度量。1.公式
总体标准差
(参数)
样本标准差
(统计数)浙江大学73遗传学第四章2.计算方法(1)干脆法,例如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论