次数分布和平均数变异数_第1页
次数分布和平均数变异数_第2页
次数分布和平均数变异数_第3页
次数分布和平均数变异数_第4页
次数分布和平均数变异数_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

次数分布和平均数变异数2023/4/111第1页,共89页,2023年,2月20日,星期五问题科学的田间试验设计有哪三个基本原则?各有什么作用?重复:降低实验误差。随机排列:无偏的试验误差。局部控制:控制环境误差。2023/4/112第2页,共89页,2023年,2月20日,星期五重复

随机

局部控制无偏的试验误差估计

降低试验误差

p18页2023/4/113第3页,共89页,2023年,2月20日,星期五第三章次数分布和平均数、变异数2023/4/114第4页,共89页,2023年,2月20日,星期五本期导语通过科学试验的观察、测定和记载,可以得到大量的数据资料。对于这些资料,必须按照一定的程序进行整理和分析,才能透过数据表现看到蕴藏在数据中的客观规律。所以,资料的整理和分析是试验工作的重要组成部分,也是深入认识客观事物的一个重要步骤。2023/4/115第5页,共89页,2023年,2月20日,星期五本章主要内容第一节总体及其样本第二节次数分布第三节平均数第四节变异数第五节理论总体(群体)的平均数和标准差2023/4/116第6页,共89页,2023年,2月20日,星期五本章主要内容第一节总体及其样本第二节次数分布第三节平均数第四节变异数第五节理论总体(群体)的平均数和标准差2023/4/117第7页,共89页,2023年,2月20日,星期五一、总体总体(population):具有共同性质的个体所组成的集团。

1、无限总体(infinitepopulation):总体所包含的个体数目有无穷多个。

2、有限总体(finitepopulation):由有限个个体构成的总体。2023/4/118第8页,共89页,2023年,2月20日,星期五3、观察值(observation):每一个体的某一个性状、特性的测定数值叫做观察值。4、变数(variable):观察值集合起来,称为变数。2023/4/119第9页,共89页,2023年,2月20日,星期五5、变量(variate):变数中每一成员称为变量。例如:测定8个人的身高,得到以下数据:160、167、175、180、158、169、173、170观察值:变量变数2023/4/1110第10页,共89页,2023年,2月20日,星期五二、样本(sample)样本(sample):从总体中抽取若干个个体的集合称为样本。统计数(statistic):测定样本中的各个体而得的样本特征数,如平均数等,称为统计数。随机样本(randomsample):从总体中随机抽取的样本称为随机样本。样本容量(samplesize):样本中包含的个体数称为样本容量或样本含量,用n表示。2023/4/1111第11页,共89页,2023年,2月20日,星期五“参数与统计数”如:总体平均数----总体方差----μ用总体的全体观察值计算的、描述总体的特征数称为参数(parameter)。用希腊字母表示。2023/4/1112第12页,共89页,2023年,2月20日,星期五如:样本平均数----样本均方----

由样本的全体观察值计算的、描述样本的特征数称为统计数(statistics)。用英文字母表示。统计上,通常由样本统计数估计或推断总体相应参数。2023/4/1113第13页,共89页,2023年,2月20日,星期五本章主要内容第一节总体及其样本第二节次数分布第三节平均数第四节变异数第五节理论总体(群体)的平均数和标准差2023/4/1114第14页,共89页,2023年,2月20日,星期五第二节次数分布1、试验资料的性质与分类2、次数分布表3、次数分布图2023/4/1115第15页,共89页,2023年,2月20日,星期五一、试验资料的性质与分类(一)数量性状资料(二)质量性状资料2023/4/1116第16页,共89页,2023年,2月20日,星期五(一)数量性状资料数量性状(quantitativetrait)的度量有计数和量测两种方式,其所得变数不同。1、不连续性或间断性变数(discontinuousordiscretevariable)指用计数方法获得的数据。2、连续性变数(continuousvariable)指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可以有微量数值差异的第三个数值存在。2023/4/1117第17页,共89页,2023年,2月20日,星期五(二)质量性状资料质量性状(qualitativetrait)指能观察而不能量测的性状即属性性状,如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有无等。要从这类性状获得数量资料,可采用下列两种方法。2023/4/1118第18页,共89页,2023年,2月20日,星期五两种方法1、统计次数法:于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次数或相对次数。2、给分法:给予每类性状以相对数量的方法。2023/4/1119第19页,共89页,2023年,2月20日,星期五二、次数分布表(一)间断性变数资料的整理(二)连续性变数资料的整理(三)属性变数资料的整理2023/4/1120第20页,共89页,2023年,2月20日,星期五(一)间断性变数资料的整理现以某小麦品种的每穗小穗数为例,随机采取100个麦穗,计数每穗小穗数,未加整理的资料列成表3.1。2023/4/1121第21页,共89页,2023年,2月20日,星期五表3.1100个麦穗的每穗小穗数181517191615201819171718171618201917161817161719181817171718181516181818172019181719151717171617181817191917191718161817171916161717171517161819181819192017161918171820191618191716151618171817171619172023/4/1122第22页,共89页,2023年,2月20日,星期五每穗小穗数(

y

)次数(f)1561615173218251917205总次数(

n

)100表3.2100个麦穗每穗小穗数的次数分布表上述资料为间断性变数资料,每穗小穗数在15—20的范围内变动,把所有观察值按每穗小穗数多少加以归类,共分为6组,组与组间相差为1小穗,称为组距。第23页,共89页,2023年,2月20日,星期五(二)连续性变数资料的整理17721519797123159245119119131149152167104161214125175219118192176175951361991161652149515883137801381511871261961342061379897129143179174159165136108101141148168163176102194145173

751301491501611551111581311899114214015415216312320514915513120918397119181149187131215111186118150155197116254239160172179151198124179135184168169173181188211197175122151171166175143190213192231163159158159177147194227141169124159表3.4140行水稻产量(单位:克)第24页,共89页,2023年,2月20日,星期五具体步骤

数据排序(sort):首先对数据按从小到大排列(升序)或从大到小排列(降序)。

求极差(range):所有数据中的最大观察值和最小观察值的差数,称为极差,亦即整个样本的变异幅度。从表3.4中查到最大观察值为254g,最小观察值为75g,极差为254-75=179g。2023/4/1125第25页,共89页,2023年,2月20日,星期五确定组数和组距(classinterval)根据极差分为若干组,每组的距离相等,称为组距。

在确定组数和组距时应考虑:(1)观察值个数的多少;(2)极差的大小;(3)便于计算;(4)能反映出资料的真实面貌等方面。2023/4/1126第26页,共89页,2023年,2月20日,星期五表3.5样本容量与组数多少的关系样本内观察值的个数分组时的组数505—101008—1620010—2030012—2450015—30100020—40组数确定后,还须确定组距。组距=极差/组数。以表3.4中140行水稻产量为例,样本内观察值的个数为140,查表3.5可分为8—16组,假定分为12组,则组距为179/12=14.9g,为分组方便起见,可以15g作为组距。第27页,共89页,2023年,2月20日,星期五4.组中点值(组值,classvalue)和选定组限(classlimit)组中值是各组区间的中点值,它可作为各组的代表值,最好取整数或与观察值位数一致。一般先确定第一组的组中值,通常选接近资料中最小观察值为宜。以表3.4中140行水稻产量为例,选定第一组的中点值为75g,与最小观察值75g相等;则第二组的中点值为75+15=90g,余类推。2023/4/1128第28页,共89页,2023年,2月20日,星期五各组的中点值选定后,就可以求得各组组限。每组有两个组限,数值小的称为下限(lowerlimit),数值大的称为上限(upperlimit)。上述资料中,第一组的下限为该组中点值减去1/2组距,即75-(15/2)=67.5g,上限为中点值加1/2组距,即75+(15/2)=82.5g。故第一组的组限为67.5-82.5g。按照此法计算其余各组的组限,就可写出分组数列。2023/4/1129第29页,共89页,2023年,2月20日,星期五

5.把原始资料的各个观察值按分组数列的各组组限归组可按原始资料中各观察值的次序,逐个把数值归于各组。待全部观察值归组后,即可求得各组的次数,制成一个次数分布表。2023/4/1130第30页,共89页,2023年,2月20日,星期五表3.6140行水稻的次数分布组限中点值(

y

)次数(f)67.5—82.575282.5—97.590797.5—112.51057112.5—127.512013127.5—142.513517142.5—157.515020157.5—172.516525172.5—187.518021187.5—202.519513202.5—217.52109217.5—232.52253232.5—247.52402247.5—262.52551合计(

n

)140就低不就高,高限(上限)放在下一组里!2023/4/1131第31页,共89页,2023年,2月20日,星期五2023/4/1132第32页,共89页,2023年,2月20日,星期五2023/4/1133第33页,共89页,2023年,2月20日,星期五第34页,共89页,2023年,2月20日,星期五第35页,共89页,2023年,2月20日,星期五第36页,共89页,2023年,2月20日,星期五(三)属性变数资料的整理属性变数的料,也可以用类似次数分布的方法来整理。表3.7水稻杂种二代植株米粒性状的分离情况属性分组(

y

)次数(

f)红米非糯96红米糯稻37白米非糯31白米糯稻15合计(

n

)179第37页,共89页,2023年,2月20日,星期五三、次数分布图(一)方柱形图(二)多边形图(三)条形图(四)饼图2023/4/1138第38页,共89页,2023年,2月20日,星期五(一)方柱形图(histogram)方柱形图适用于表示连续性变数的次数分布。

现以表3.6的140行水稻产量的次数分布表为例加以说明。即成方柱形次数分布图3.1。图3.1140行水稻产量次数分布方柱形图f第39页,共89页,2023年,2月20日,星期五(二)多边形图(polygom)

多边形图也是表示连续性变数资料的一种普通的方法,且在同一图上可比较两组以上的资料。图3.2140行水稻产量次数分布多边形图f第40页,共89页,2023年,2月20日,星期五(三)条形图(bargram)

条形图适用于间断性变数和属性变数资料,用以表示这些变数的次数分布状况。一般其横轴标出间断的中点值或分类性状,纵轴标出次数。图3.3水稻F2代米粒性状分离条形图第41页,共89页,2023年,2月20日,星期五(四)饼图(pie)

饼图适用于间断性变数和属性变数资料,用以表示这些变数中各种属性或各种间断性数据观察值在总观察个数中的百分比。图3.4水稻F2代米粒性状分离的饼图第42页,共89页,2023年,2月20日,星期五本次课结束课后预习本章第三节、第四节及第五节内容。2023/4/1143第43页,共89页,2023年,2月20日,星期五提问3总体与样本的概念。变数与变量的概念。参数与统计数2023/4/1144第44页,共89页,2023年,2月20日,星期五本章主要内容第一节总体及其样本第二节次数分布第三节平均数第四节变异数第五节理论总体(群体)的平均数和标准差2023/4/1145第45页,共89页,2023年,2月20日,星期五第三节平均数一、平均数的意义和种类二、算术平均数的计算方法三、算术平均数的重要特性四、总体平均数2023/4/1146第46页,共89页,2023年,2月20日,星期五一、平均数的意义和种类1、平均数的意义:平均数(average)是数据的代表值,表示资料中观察值的中心位置,并且可作为资料的代表而与另一组资料相比较,借以明确二者之间相差的情况。2023/4/1147第47页,共89页,2023年,2月20日,星期五

算术平均数:一个数量资料中各个观察值的总和除以观察值个数所得的商数,称为算术平均数(arithmeticmean),记作。因其应用广泛,常简称平均数或均数(mean)。均数的大小决定于样本的各观察值。通常用μ表示总体平均数,表示样本平均数。2、平均数的种类2023/4/1148第48页,共89页,2023年,2月20日,星期五中数将资料内所有观察值从大到小排序,居中间位置的观察值称为中数(median),计作Md。如观察值个数为偶数,则以中间二个观察值的算术平均数为中数。如2,

2,

3,

4,

7,

8,

9,

11,14;5,

7,

8,

9,

10,

11;2023/4/1149第49页,共89页,2023年,2月20日,星期五众数:资料中最常见的一数,或次数最多一组的中点值,称为众数(mode),计作MO。如棉花纤维检验时所用的主体长度即为众数。几何平均数:如有n个观察值,其相乘积开n次方,即为几何平均数(geometricmean),用G代表。2023/4/1150第50页,共89页,2023年,2月20日,星期五二、算术平均数的计算方法若样本较小,即资料包含的观察值个数不多,可直接计算平均数。设一个含有n个观察值的样本,其各个观察值为y1、y2、y3、…、yn,则算术平均数由下式算得:2023/4/1151第51页,共89页,2023年,2月20日,星期五若样本较大,且已进行了分组(如表3.6),可采用加权法计算算术平均数,即用组中点值代表该组出现的观测值以计算平均数,其公式为其中yi为第i组中点值,fi为第i

组变数出现次数。2023/4/1152第52页,共89页,2023年,2月20日,星期五计算方法对于(n<30)未归组的资料可以直接利用公式:第53页,共89页,2023年,2月20日,星期五【例2.2】在一水稻品种比较试验中,某品种的5个小区产量分别为20.0,19.0,21.0,17.5,18.5(kg),求该品种的小区产量平均数。=(20.0+19.0+21.0+17.5+18.5)/5=19.2(kg)第54页,共89页,2023年,2月20日,星期五对已归组的资料,其计算公式为:其中:

Xi—各组组中值;k—组数;

n—资料中所有观察值的个数;

fi

—各组次数;

第55页,共89页,2023年,2月20日,星期五【例3.2】利用表3.6资料计算平均每行水稻产量。若采用直接法,=157.47。因此,两者的结果十分相近。第56页,共89页,2023年,2月20日,星期五三、算术平均数的重要特性1、样本各观察值与其平均数的差数(简称离均差,deviationfrommean)的总和等于0。即:2023/4/1157第57页,共89页,2023年,2月20日,星期五2、样本各观察值与其平均数的差数平方的总和,较各个观察值与任意其他数值的差数平方的总和为小,亦即离均差平方的总和最小。这个问题可作这样的说明,设Q为各个观察值与任意数值a的差数平方的总和,即:对此Q求最小值,可得使Q最小的a值为平均数。第58页,共89页,2023年,2月20日,星期五四、总体平均数总体平均数用来代表,它同样具有算术平均数所具有的特性。上式yi代表各个观察值,N代表有限总体所包含的个体数,表示总体内各个观察值的总和。2023/4/1159第59页,共89页,2023年,2月20日,星期五

因为总体内的个体数很多,总体平均数往往无从计算,所以,一般用样本平均数作为总体平均数μ的估计值。第60页,共89页,2023年,2月20日,星期五

设有一个容量为n的样本,其观察值为,则该样本的算术平均数可定义为:从总体中抽出的随机样本平均数是该总体平均数μ的无偏估计值。第61页,共89页,2023年,2月20日,星期五本章主要内容第一节总体及其样本第二节次数分布第三节平均数第四节变异数第五节理论总体(群体)的平均数和标准差2023/4/1162第62页,共89页,2023年,2月20日,星期五每个样本有一批观察值,除以平均数作为样本的平均表现外,还应该考虑样本内各个观察值的变异情况,才能通过样本的观察数据更好地描述样本,乃至描述样本所代表的总体,为此必须有度量变异的统计数。2023/4/1163第63页,共89页,2023年,2月20日,星期五第四节变异数一、极差二、方差三、标准差四、变异系数2023/4/1164第64页,共89页,2023年,2月20日,星期五一、极差

极差(range),又称全距,记作R,是资料中最大观察值与最小观察值的差数。例如调查两个小麦品种的每穗小穗数,每品种计数10个麦穗,经整理后的数字列于表3.8。表3.8两个小麦品种的每穗小穗数品种名称每穗小穗数总和平均甲1314151718181921222318018乙1616171818181819202018018第65页,共89页,2023年,2月20日,星期五

表3.8资料中,甲品种每穗小穗数最少为13个,最多为23个,R=23-13=10个小穗;乙品种每穗小穗数最少为16个,最多为20个,R=20-16=4个小穗。可以看出,两品种的平均每穗小穗数虽同为18个,但甲品种的极差较大,其变异范围较大,平均数的代表性较差;乙品种的极差较小,其变异幅度较小,其平均数代表性较好。第66页,共89页,2023年,2月20日,星期五二、方差每一个观察值均有一个偏离平均数的度量指标—离均差,但各个离均差的总和为0,不能用来度量变异,那么可将各个离均差平方后加起来,求得离均差平方和(简称平方和,SumofSquareofDeviationfrommean)SS,定义如下:样本SS=

总体SS=

第67页,共89页,2023年,2月20日,星期五总体方差等于总体平方和除以总体观察值个数N,用表示,样本均方是总体方差的无偏估计值,定义为:将SS除以观察值的个数得到平均平方和,称之为方差(variance)。样本均方(meansquare)用s2表示,定义为:第68页,共89页,2023年,2月20日,星期五三、标准差(一)标准差的定义标准差为方差的正平方根值,用以表示资料的变异度,其单位与观察值的度量单位相同。从样本资料计算标准差的公式为:总体标准差用表示:样本标准差是总体标准差的估计值。

2023/4/1169第69页,共89页,2023年,2月20日,星期五(二)自由度的意义自由度(degreeoffreedom)最早是物理学上的一个名词,表示一个质点在空间运动的自由程度。统计学借此反应一批变量的约束条件。2023/4/1170第70页,共89页,2023年,2月20日,星期五(二)自由度的意义

上面公式式中的(n-1)称为自由度(degreeoffreedom),简记为DF。自由度具体数值则常用表示。统计意义:是指样本内独立而能自由变动的离均差个数。2023/4/1171第71页,共89页,2023年,2月20日,星期五【例如】一个有5个观察值的样本,因为受统计数的约束,在5个离均差中,只有4个数值可以在一定范围之内自由变动取值,而第五个离均差必须满足。如一样本为(3,4,5,6,7),平均数为5,前4个离差为-2,-1,0和1,则第5个离均差为前4个离均差之和的变号数,即-(-2)=2。才能满足:2023/4/1172第72页,共89页,2023年,2月20日,星期五在估计其他统计数时,如该统计数受k个条件限制,则自由度等于样本观察值个数减去约束条件数k,即样本自由度为n-k。表示为:2023/4/1173第73页,共89页,2023年,2月20日,星期五(三)标准差的计算方法

1.直接法

可按计算,分四个步骤:(1)先求出,(2)再求出各个和各个,(3)求和得,

(4)代入算得标准差。2023/4/1174第74页,共89页,2023年,2月20日,星期五【例3.3】设某一水稻单株粒重的样本有5个观察值,以克为单位,其数为2、8、7、5、4(用y代表),按照上述步骤,由表3.9可算得平方和为22.80,把它代入公式:2023/4/1175第75页,共89页,2023年,2月20日,星期五2023/4/1176第76页,共89页,2023年,2月20日,星期五这就是该水稻单株粒重的标准差为2.39g。即可得到:2023/4/1177第77页,共89页,2023年,2月20日,星期五2.矫正数法其中项称为矫正数,记作C。经过转换可得

2023/4/1178第78页,共89页,2023年,2月20日,星期五在例3.3中,于表3.9第5列写出各观察值的平方值,将有关数字代入(3·11)即有:其结果和直接法算得相同。2023/4/1179第79页,共89页,2023年,2月20日,星期五若样本较大,并已获得如表3.6的次数分布表,可采用加权法计算标准差,其公式为:3.加权法2023/4/1180第80页,共89页,2023年,2月20日,星期五组限中点值(

y

)次数(f)67.5—82.575282.5—97.590797.5—112.51057112.5—127.512013127.5—142.513517142.5—157.51

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论