数据的组织与表达_第1页
数据的组织与表达_第2页
数据的组织与表达_第3页
数据的组织与表达_第4页
数据的组织与表达_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据的组织与表达Section 2.1Data and Data Type数据与数据类型 一、原始数据的组织资料以电子表格(spreadsheet)方式记录。包括个体 (Individual):一笔数据所描述的对象(object)。电子表格中输入在一行。及变量( Variable ) :描述任何一个个体的特征,一个变量对不同的个体取不同的数值(value)。电子表格中输入在一列。(一一) 数量性状资料数量性状资料 数量性状数量性状(quantitative trait)的度量有计数和量测两种方式,其所的度量有计数和量测两种方式,其所得变数不同。得变数不同。 1. 不连续性或间断性变数不连续性或

2、间断性变数( discontinuous or discrete variable )( discontinuous or discrete variable ) 指用指用计数方法获得的数据计数方法获得的数据。 2. 连续性变数连续性变数( continuous variable )( continuous variable ) 指称量、度量或测量方法所指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可以有得到的数据,其各个观察值并不限于整数,在两个数值之间可以有微量数值差异的第三个数值存在。微量数值差异的第三个数值存在。 二、试验资料的性质与分类二、试验资料的性质

3、与分类(二二) 质量性状资料质量性状资料 质量性状质量性状( qualitative trait )( qualitative trait )指能观察而不能量测的状即属性性指能观察而不能量测的状即属性性状,如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有状,如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有无等。要从这类性状获得数量资料,可采用下列两种方法:无等。要从这类性状获得数量资料,可采用下列两种方法:统计次数法统计次数法 于一定总体或样本内,统计其具有某个性状的个于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次数或相对次体数目及具有不同性状的个体

4、数目,按类别计其次数或相对次数。数。 2. 给分法给分法 给予每类性状以相对数量的方法给予每类性状以相对数量的方法二、试验资料的性质与分类二、试验资料的性质与分类Section 2.2次数分布表 表1 100个麦穗的每穗小穗数1815171916152018191717181716182019171618171617191818171717181815161818181720191817191517171716171818171919171917181618171719161617171715171618191818191920171619181718201916181917161516181

5、7181717161917一、一、 间断性变数资料的整理间断性变数资料的整理每穗小穗数每穗小穗数( y )次数次数( f )1561615173218251917205总次数总次数( n )100表表2 100个麦穗每穗小个麦穗每穗小穗数的次数分布表穗数的次数分布表 从表从表2中看到,一堆杂乱的原始资中看到,一堆杂乱的原始资料表,经初步整理后,就可了解资料料表,经初步整理后,就可了解资料的大致情况,另外,经过整理的资料的大致情况,另外,经过整理的资料也便于进一步的分析。也便于进一步的分析。每穗小穗数在每穗小穗数在1520的范围内变动,把的范围内变动,把所有观察值按每穗小穗数多少加以归类,所有观

6、察值按每穗小穗数多少加以归类,共分为共分为6组,组与组间相差为组,组与组间相差为1小穗,称为小穗,称为组距。这样可得表组距。这样可得表2形式的次数分布表。形式的次数分布表。一、一、 间断性变数资料的整理间断性变数资料的整理二、二、 连续性变数资料的整理连续性变数资料的整理177215197 97123159245119119131149152167104161214125175219118192176175 95136199116165214 9515883137 80138151187126196134206137 98 97129143179174159165136108101141148

7、168163176102194145173 75130149150161155111158131189 91142140154152163123205149155131209183 97119181149187131215111186118150155197116254239160172179151198124179135184168169173181188211197175122151171166175143190213192231163159158159177147194227141169124159表表3 140行水稻产量行水稻产量(单位:克单位:克) 具体步骤:具体步骤: 1. 数据排

8、序数据排序(sort)(sort) 首先对数据按从小到大排列首先对数据按从小到大排列(升序升序)或从大到或从大到小排列小排列(降序降序)。 2. 求极差求极差(range)(range) 所有数据中的最大观察值和最小观察值所有数据中的最大观察值和最小观察值的差数,称为极差,亦即整个样本的变异幅度。从表的差数,称为极差,亦即整个样本的变异幅度。从表3中查到中查到最大观察值为最大观察值为254g,最小观察值为,最小观察值为75g,极差为,极差为25475=179g。二、二、 连续性变数资料的整理连续性变数资料的整理 3. 确定组数和组距确定组数和组距( class interval )( clas

9、s interval ) 根据极差分为若干组,每组根据极差分为若干组,每组的距离相等,称为组距。的距离相等,称为组距。 在确定组数和组距时应考虑:在确定组数和组距时应考虑: (1)观察值个数的多少;观察值个数的多少; (2)极差的大小;极差的大小; (3)便于计算;便于计算; (4)能反映出资料的真实面貌等方面。能反映出资料的真实面貌等方面。 样本大小样本大小(即样本内包含观察值的个数的多少即样本内包含观察值的个数的多少)与组数多与组数多少的关系可参照表少的关系可参照表4来确定。来确定。二、二、 连续性变数资料的整理连续性变数资料的整理表4样本容量与组数多少的关系样本内观察值的个数分组时的组数

10、50 510100 81620010203001224500153010002040 组数确定后,还须确定组数确定后,还须确定组距。组距组距。组距=极差极差/组数。以组数。以表表3中中140行水稻产量为例,行水稻产量为例,样本内观察值的个数为样本内观察值的个数为140,查表,查表4可分为可分为816组,假定分为组,假定分为12组,组,则组距为则组距为179/12=14.9g,为分组方便起见,可以,为分组方便起见,可以15g作为组距。作为组距。二、二、 连续性变数资料的整理连续性变数资料的整理 4. 选定组限选定组限( class limit )( class limit )和组中点值和组中点值

11、( ( 组值,组值,class value )class value ) 以表以表3中中140行水稻产量为例,选定第一组的中点值为行水稻产量为例,选定第一组的中点值为75g,与最,与最小观察值小观察值75g相等;则第二组的中点值为相等;则第二组的中点值为75+15=90g,余类推。,余类推。 各组的中点值选定后,就可以求得各组组限。每组有两个组限,各组的中点值选定后,就可以求得各组组限。每组有两个组限,数值小的称为数值小的称为下限下限( lower limit )( lower limit ),数值大的称为,数值大的称为上限上限( upper limit )( upper limit )。上述

12、资料中,第一组的下限为该组中点值减去上述资料中,第一组的下限为该组中点值减去1/2组距,即组距,即75(15/2)=67.5g,上限为中点值加,上限为中点值加1/2组距,即组距,即75+(15/2)=82.5g。故。故第一组的组限为第一组的组限为67.582.5g。按照此法计算其余各组的组限。按照此法计算其余各组的组限。二、二、 连续性变数资料的整理连续性变数资料的整理 5. 把原始资料的各个观察值按分组数列的各组组限归组把原始资料的各个观察值按分组数列的各组组限归组 可按原始资料中各观察值的次序,逐个把数值归于各组。可按原始资料中各观察值的次序,逐个把数值归于各组。 待全部观察值归组后,即可

13、求得各组的次数,制成一个次数分待全部观察值归组后,即可求得各组的次数,制成一个次数分布表。布表。 例如表例如表3中第一个观察值中第一个观察值177应归于表应归于表5中第中第8组,组限为组,组限为172.5187.5;第二个观察值;第二个观察值149应归于第应归于第6组,组限为组,组限为142.5157.5;。依次把。依次把140个观察值都进行归组,即可制成个观察值都进行归组,即可制成140行行水稻产量的次数分布表水稻产量的次数分布表(表表5)。二、二、 连续性变数资料的整理连续性变数资料的整理表5 140行水稻的次数分布组组 限限中点值中点值( y )次数次数( f ) 67.5 82.575

14、2 82.5 97.5907 97.5112.51057112.5127.512013127.5142.513517142.5157.515020157.5172.516525172.5187.518021187.5202.519513202.5217.52109217.5232.52253232.5247.52402247.5262.52551合计合计( n )140 注:前面提到分为注:前面提到分为12组,但组,但由于第一组的中点值接近于最小由于第一组的中点值接近于最小观察值,故第一组的下限小于最观察值,故第一组的下限小于最小观察值,实际上差不多增加了小观察值,实际上差不多增加了1/2组;

15、这样也使最后一组的中点值组;这样也使最后一组的中点值接近于最大值,又增加了接近于最大值,又增加了1/2组,故组,故实际的组数比原来确定的要多一实际的组数比原来确定的要多一个组,为个组,为13组。组。 二、二、 连续性变数资料的整理连续性变数资料的整理三、三、 属性变数资料的整理属性变数资料的整理 属性变数的资料,也可以用类似次数分属性变数的资料,也可以用类似次数分布的方法来整理。布的方法来整理。在整理前,把资料按各种质量性状进行分在整理前,把资料按各种质量性状进行分类,分类数等于组数,类,分类数等于组数,然后根据各个体在质量属性上的具然后根据各个体在质量属性上的具体表现,分别归入相应的组中,体

16、表现,分别归入相应的组中,即可得到属性分布的规律性认识。即可得到属性分布的规律性认识。例如,某水稻杂种第二代植株例如,某水稻杂种第二代植株米粒性状的分离情况,归于表米粒性状的分离情况,归于表6。表6 水稻杂种二代植株 米粒性状的分离情况属性分组属性分组( y )次数次数( f )红米非糯红米非糯96红米糯稻红米糯稻37白米非糯白米非糯31白米糯稻白米糯稻15合计合计( n )179Section 2.3次数分布图 一、一、 方柱形图方柱形图方柱形图方柱形图( histogram )( histogram )适用于表示连续性变数的次数分布。适用于表示连续性变数的次数分布。607590105 12

17、0 135 150 165 180 195 210 225 240 255 270510152025y(产量 ,克 /行 ) 现以表现以表3的的140行水行水稻产量的次数分布表稻产量的次数分布表为例加以说明。即成为例加以说明。即成方柱形次数分布图方柱形次数分布图1。图图1 140行水稻产量次数分布方柱形图行水稻产量次数分布方柱形图二、多边形图二、多边形图 多边形图多边形图( polygon )( polygon )也是表示连续性变数资料的一种普通的方也是表示连续性变数资料的一种普通的方法,且在同一图上可比较两组以上的资料。法,且在同一图上可比较两组以上的资料。607590 105 120 13

18、5 150 165 180 195 210 225 240 255 270051015202530y(产量 ,克 /行 ) 仍以仍以140行水稻产量次数分行水稻产量次数分布为例,所成图形即为次数多边布为例,所成图形即为次数多边形图形图(图图2)。图图2 140行水稻产量次数分布多边形图行水稻产量次数分布多边形图三、三、 条形图条形图 条形图条形图(bar)(bar)适用于间断性变数和属性变数资料,用以表示这些变数适用于间断性变数和属性变数资料,用以表示这些变数的次数分布状况。一般其横轴标出间断的中点值或分类性状,纵轴标出的次数分布状况。一般其横轴标出间断的中点值或分类性状,纵轴标出次数。次数。

19、020406080100120红米非糯红米糯稻白米非糯白米糯稻f 现以表现以表6水稻杂种第二代米粒性水稻杂种第二代米粒性状的分离情况为例,可画成水稻杂状的分离情况为例,可画成水稻杂种第二代植株种第二代植株4种米粒性状分离种米粒性状分离情况条形图情况条形图(图图3)。图图3 水稻水稻F2代米粒性状分离条形图代米粒性状分离条形图 四、四、 饼图饼图 饼图饼图( pie )( pie )适用于间断性变数和属性变数资料,用以表示这些变数中适用于间断性变数和属性变数资料,用以表示这些变数中各种属性或各种间断性数据观察值在总观察个数中的百分比。各种属性或各种间断性数据观察值在总观察个数中的百分比。 如图如

20、图4中白米糯稻在中白米糯稻在F2群群体中占体中占8%,白米非糯、红米,白米非糯、红米糯稻和红米非糯分别占糯稻和红米非糯分别占17%、21%和和54%。红米非糯54%红米糯稻21%白米非糯17%白米糯稻8%图4 水稻F2代米粒性状分离的饼图Section 2.4平均数 一、平均数的意义和种类一、平均数的意义和种类 平均数的意义平均数的意义: 平均数平均数( average )( average )是数据的代表值,表示资料中观察是数据的代表值,表示资料中观察值的中心位置,并且可作为资料的代表而与另一组资料值的中心位置,并且可作为资料的代表而与另一组资料相比较,借以明确二者之间相差的情况。相比较,借

21、以明确二者之间相差的情况。 平均数的种类平均数的种类 : (1) 算术平均数算术平均数 一个数量资料中各个观察值的总和除以观一个数量资料中各个观察值的总和除以观察值个数所得的商数,称为察值个数所得的商数,称为算术平均数算术平均数( arithmetic mean )( arithmetic mean ),记,记作作 。因其应用广泛,常简称平均数或均数。因其应用广泛,常简称平均数或均数(mean)。均数的大小决定。均数的大小决定于样本的各观察值。于样本的各观察值。 (2) 中数中数 将资料内所有观察值从大到小排序,居中间位置的观察值将资料内所有观察值从大到小排序,居中间位置的观察值称为称为中数中

22、数( median )( median ),计作,计作Md。如观察值个数为偶数,则以中间二个。如观察值个数为偶数,则以中间二个观察值的算术平均数为中数。观察值的算术平均数为中数。y一、平均数的意义和种类一、平均数的意义和种类 (3) 众数众数 资料中最常见的一数,或次数最多一组的中点值,资料中最常见的一数,或次数最多一组的中点值,称为称为众数众数( mode )( mode ),计作,计作MO。如棉花纤维检验时所用的主体长度即。如棉花纤维检验时所用的主体长度即为众数。为众数。 (4) 几何平均数几何平均数 如有如有n个观察值,其相乘积开个观察值,其相乘积开n次方,即为次方,即为几几何平均数何平

23、均数( geometric mean )( geometric mean ),用,用G代表。代表。1123123()nnnnGx x xxx x xx/一、平均数的意义和种类一、平均数的意义和种类二、算术平均数的计算方法二、算术平均数的计算方法 若样本较小,即资料包含的观察值个数不多,可直接计算平均数。设若样本较小,即资料包含的观察值个数不多,可直接计算平均数。设一个含有一个含有n个观察值的样本,其各个观察值为个观察值的样本,其各个观察值为x1、x2、x3、xn,则算术平均,则算术平均数由下式算得:数由下式算得:123ninixxxxxxnn1 若样本较大,且已进行了分组,可采用加权法计算算术

24、平均数,即用若样本较大,且已进行了分组,可采用加权法计算算术平均数,即用组中点值代表该组出现的观测值以计算平均数,其公式为组中点值代表该组出现的观测值以计算平均数,其公式为iiifxf xxfn其中其中yi 为第为第i 组中点值,组中点值,fi 为第为第 i 组变数出现次数。组变数出现次数。 例例1 在水稻品种比较试验中,湘矮早四号的在水稻品种比较试验中,湘矮早四号的5个小区产量分别为个小区产量分别为20.0、19.0、21.0、17.5、18.5kg,求该品种的小区平均产量。,求该品种的小区平均产量。 例例2 利用表利用表5资料计算平均每行水稻产量。资料计算平均每行水稻产量。若采用直接法,若

25、采用直接法, =157.47。因此,两者的结果十分相近。因此,两者的结果十分相近。20 019 021 017 518 519 2()5x.x.kgn2757901 25522110157 93( )140140fxx.gn x二、算术平均数的计算方法二、算术平均数的计算方法三、总体平均数三、总体平均数 总体平均数用总体平均数用 来代表,它同样具有算术平均数所具有的特性。来代表,它同样具有算术平均数所具有的特性。1NiiXN 上式上式Xi 代表各个观察值,代表各个观察值,N代表有限总体所包含的个体数,代表有限总体所包含的个体数, 表示总体内各个观察值的总和。表示总体内各个观察值的总和。1Nii

26、XSection 2.5变异数 一、极一、极 差差 极差极差( range )( range ),又称全距,记作,又称全距,记作R,是资料中最大观察值与最小,是资料中最大观察值与最小观察值的差数。观察值的差数。表表7 7 两个小麦品种的每穗小穗数两个小麦品种的每穗小穗数品种名称品种名称每穗小穗数每穗小穗数总和总和平均平均甲甲13 14 15 17 18 18 19 21 22 2318018乙乙16 16 17 18 18 18 18 19 20 2018018甲品种甲品种R=2313=10;乙品种;乙品种R=2016=4。两品种的平均同为两品种的平均同为18,但甲品种的极差大,平均数的代表性

27、差;乙品,但甲品种的极差大,平均数的代表性差;乙品种的极差小,平均数代表性好。种的极差小,平均数代表性好。二、方二、方 差差离均差平方和离均差平方和( (简称平方和简称平方和) )SS 样本样本SS= 2()ixx 总体总体SS= 2()iX均方或方差均方或方差(variance)(variance)样本均方样本均方(mean square)(mean square) : 总体方差:总体方差: 221NiXN()样本均方是总体方差的无偏估计值样本均方是总体方差的无偏估计值 2211nixxsn()三、标准差三、标准差(一一) 标准差的定义标准差的定义样本标准差:样本标准差:2()1xxsn总体标准差:总体标准差:2()XN样本标准差是总体标准差的估计值。样本标准差是总体标准差的估计值。 (二二) 自由度自由度样本样本n-1称为自由度称

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论