生物统计学:第二章 统计数据的收集与整理_第1页
生物统计学:第二章 统计数据的收集与整理_第2页
生物统计学:第二章 统计数据的收集与整理_第3页
生物统计学:第二章 统计数据的收集与整理_第4页
生物统计学:第二章 统计数据的收集与整理_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/5/201第二章统计数据的收集与整理2023/5/2022.1

总体及其样本总体(population):

具有相同性质的个体组成的集团,是我们研究的全部对象。无限总体(infinitepopulation):总体中包含的个体数目有无穷多个,这种总体称为无限总体。2023/5/203有限总体(finitepopulation):总体中包含的个体数目有限,这种总体称为有限总体。观察值(observation):每一个体的某一个性状、特性的测定数值叫做观察值。2023/5/204样本(sample):从总体中抽出的一部分个体的集合。随机样本(randomsample):从总体中随机抽取的样本。样本含量(samplesize):样本中包含的个体数,用n表示。抽样(sampling):从总体中获得样本的过程2023/5/2052.2

数据类型及频数(率)分布表2.2.1试验数据的性质与分类2.2.2次数分布表2.2.3次数分布图2023/5/2062.2.1试验数据的性质与分类一、数量性状资料数量性状(quantitativetrait):度量有计数与测量两种方式。1、不连续或间断性变数(discontinuousordiscretevariable):指用计数方法获得的数据(离散型数据)。2、连续性变数(continuousvariable):指称量、度量或测量方法得到的数据(连续型数据)。2023/5/207二、质量性状资料质量性状(qualitativetrait):指能观察而不能测量的性状。1、统计次数法2、给予每类性状以相对数量的方法(评分法)。2023/5/2082.2.2频数分布表一、间断性(离散型)数据资料的整理1、100个麦穗每穗小穗数的频数分布表每穗小穗数(y)(组值)频数(f)

频率6/100总计(n)10015161718192061532251752023/5/2092、200个稻穗每穗粒数的频数分布表频数(f)频率每穗粒数(y)合计31-3526-3036-4041-4546-5051-5556-6061-6566-7071-7576-8081-8531102132413825168322002023/5/2010二、连续性变数资料的整理以140行水稻试验的产量为例(数据略)1、数据排序(sort)2、求极差(range)R=Max(1…n)-Min(1…n)本例中:R=254-75=179g3、确定组数和组距(classinterval)组距=R/组数因而必须先确定组数。组数的确定,可参照以下的因素:2023/5/2011(1)观察值个数的多少;(2)极差的大小;(3)便于计算;(4)能反应出资料的真实面貌。本例,观察值的个数为140,可分8-16组,假定分为12组,则组距=179/12=14.9,为方便起见,组距定为15g。

4、选定组限(classlimit)和组中点值(classvalue)2023/5/2012

首先选定第一组的中点值,这一点选定后,则该组组限确定,其余各组的中点值和组限也随之确定。第一组的中点值以最接近最小观察值为好,这样可以避免第一组内次数过多,能正确地反映资料的规律性。本例中,选定第一组的中点值为75g,则第二点的中点值为75+15=90g,余类推。2023/5/2013

每组有两个组限,数值小的为下限(lowerlimit),数值大的为上限(upperlimit)。5、观察值按分组数列的各组组限归组,并计算每组的频数及频率。2023/5/2014140行水稻产量的频数分布

频数(f)频率中点值(y)组限759010512013515016018019521022524025567.5-82.582.5-97.597.5-112.5112.5-127.5127.5-142.5142.5-157.5157.5-172.5172.5-187.5187.5-202.5202.5-217.5217.5-232.5232.5-247.5247.5-262.52771317202521139321合计(n)1402023/5/2015

三、属性变数资料的整理把资料按各种质量性状进行分类,分类数等于组数,然后根据各个体在质量属性上的具体表现,分别归入相应的组中,即可得到属性分布的规律性认识。下表是某水稻杂种二代植株米粒的分离情况:次数(f)属性分组(y)红米非糯红米糯稻白米非糯白米糯稻96373115合计(n)1792023/5/20162.2.3频数分布图

一、直方图直方图(histogram)适用于表示连续性变数的次数分布。横轴为分组数列,纵轴为分布次数(频率)。横坐标与纵坐标的长度要有合适的比例(一般为5:4或6:5为好),绘成的图形才能明显表明次数分布情况。2023/5/2017140行水稻产量频数分布方柱形图fy(产量,g/行)2023/5/2018

二、多边形图多边形图(polygon),以每组中点值为横坐标,以频数(频率)为纵坐标。2023/5/2019

三、柱形图柱形国(columndiagram)适用于间断性变数和属性变数资料。一般横坐标表示间断的中点值或分类性状,纵坐标表示频数(频率)。2023/5/2020

四、饼图饼图(piediagram)适用于间断性和属性资料,用以表示这些变数中各种属性或各种间断性数据观察值在总观察值个数中的百分比。2023/5/2021五频数表(图)的意义1、可以看出数据的集中情况2、可以看出数据的变异情况3、可以得出不规则情况2023/5/20222.3

样本的几个特征数2.3.1平均数的意义和种类2.3.2算术平均数的计算方法2.3.3算术平均数的重要特性2.3.4总体平均数平均数2023/5/20232.3.1平均数的意义和种类一、平均数的意义平均数(average)是数据的代表性,表示资料中观察值的中心位置,并且可以资料的代表而于另一组资料相比较,借以明确两者之间相差的情况。二、平均数的种类1、算术平均数(arithmeticmean):一个数量资料中各个观察值的总和除以观察值的个数所得的商,记作2023/5/20242、中位数(median):将资料内所有观察值从大到小排列,居中间位置的观察值称为中数,记作Md例如:1、2、3、4、5中位数是31、2、3、4、5、6中位数是:(3+4)/2=3.52023/5/20253、众数(mode):资料中最常见的一数,或次数最多一组的中点值,称为众数,记为Mo。例如:在资料23、24、23、22、23、25、20、23、中

Mo=234、几何平均数(geometricmean):n个观察值,其乘积开n次方,即为几何平均数,用G代表。2023/5/20262.3.2算术平均数的计算方法

1、直接以观察值进行计算2、若样本较大,且已分组,可采用加权法计算算术平均数,即以组中值代表该组出现的观察值以计算平均数。2023/5/2027利用140行水稻产量资料计算每行平均产量若采用直接法进行计算,平均数等于157.47。因此,两者的结果十分接近。2023/5/20282023/5/20292.3.3算术平均数的重要特性1、样本各观察值与其平均数的差数(简称离均差,deviationfrommean)的总和为0。即:2、样本各观察值与其平均数的差数平方总和,较各个观察值与任意其它数值的差数平方的总和为小,亦即离均差平方的总和最小。2023/5/20302.3.4总体平均数总体平均数用μ来表示,其计算公式为:从公式中可以看出,除非是有限总体,否则总体平均数是无法通过计算得到的。2023/5/20312.4

变异数2.4.1极差2.4.2方差2.4.3标准差2.4.4变异系数2023/5/2032

平均数只是反映了数值资料的一个方面—集中程度的特征,资料的另一方面和的特征是变异程度。请看下面的例子:A组资料:3、4、5、6、7平均数为:5B组资料:1、3、5、7、9平均数仍为:5

这里的平均数5对于A组资料的代表性好?还是对于B组资料的代表性好?2023/5/2033

答案是十分清楚的。可见,只表明了数据的集中程度是远远不够的,还需要进一步说明数据的变异程度。只有通过变异程度的描述,才知道代表值的代表性。表示数据变异特征的数值叫变异数。常用的变异数有:极差、方差、标准差、变异系数等。2023/5/20342.4.1极差

极差(range),又称范围,记为R,是资料中最大值与最小值之差。例如:A组资料的极差RA=7-3=4B组资料的极差RB=9-1=8

极差的计算简单,但是它只是两个极端数据决定的,没有地方充分利用资料的全部信息,而且易于受到资料中不正常的极端值的影响。所以用它来代表整个样本的变异度是有缺陷的。2023/5/20352.4.2方差

由于算术平均数的可信度比较高,我们设想用观察值与算术平均数之间的差异即离均差来度量一组观察值的变异性,但是这又遇到的困难。为了解决这一矛盾,将离均差平方后再相加就不再为0。从这个式子知道愈大,则资料的变异程度也就愈大。称为离差平方和(简称平方和),记为SS(SumOfSquare)。2023/5/2036样本的平方和为由于各个样本所包含的观察值数目不同,为便于比较,用观察值数目除平方和,得到平均平方和,简称均方(meansquare)或方差(variance)。样本均方用s2表示,定义为:它是总体方差(σ2)无偏估计值。2023/5/20372.3.3标准差

一、标准差的定义标准差是方差的正平方根值,用以表示资料的变异度,其单位与观察值的度量单位相同。样本标准差的计算公式为:总体标准差用σ表示:2023/5/2038标准差公2023/5/2039二、自由度的意义自由度(degreeoffreedom)最早是一个物理学上的名词,它表示一个质点在空间运动的自由程度。统计学借此来反映一批变量的约束条件。例如一个有5个观察值的样本,因为受到统计数的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足这一限制条件。2023/5/2040

自由度记作DF,具体数值用ν表示一般,样本自由度等于观察值个数(n)减去约束条件的个数(k),即ν=n-k。2023/5/20412.3.4变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论