第一三章基本概念平均数变异数_第1页
第一三章基本概念平均数变异数_第2页
第一三章基本概念平均数变异数_第3页
第一三章基本概念平均数变异数_第4页
第一三章基本概念平均数变异数_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一三章基本概念平均数变异数第1页,课件共21页,创作于2023年2月第一章

基本概念、平均数、变异数学习要求

通过本次课堂的学习,使同学了解生物统计与试验设计等一些常用名词的基本概念;了解生物统计课程的性质、地位和任务及在生物学领域科学研究中的功用。使学生理解数量性状资料最基本的统计特征数(平均数、标准差和变异数)的含意及特性,掌握它们的计算方法。重点与难点重点:生物统计、总体、样本、试验误差、准确性与精确性的概念,掌握平均数、标准差和变异数的特性及计算方法难点:如何根据本课程及专业上的特点掌握学习的要点

第2页,课件共21页,创作于2023年2月第一节生物统计与试验设计的概念生物统计(Biometry)是应用概率论和数理统计原理来研究生物界数量变化的学科。

任务:根据这些原理和方法,能正确设计科学试验,正确处理试验结果,从而推导出较为客观的结论。地位:是公共的专业基础课、必修课;是当代农业科学研究和生产上必不可少的工具。

1、介绍生物统计与试验设计的基本概念。2、阐明生物统计与试验设计之间的关系以及在生产、科研工作中的作用。功用:试验设计(Experimetaldesign)是指在试验工作进行前,应用生物统计原理,来制订合理的试验方案,包括抽样设计的最优配置,以及正确选择试验动物等,使我们可以利用较少的人力、物力和时间,获得较多的可靠的信息来进行统计分析,从而得出科学的结论。第3页,课件共21页,创作于2023年2月常用名词基本概念

1、总体(population)是指被研究对象的全体,是由所有性质相似的个体所组成的集团。2、样本(sample)由总体抽出若干个体所组成的单位称为样本。3、参数(Parameter)由总体计算的数称为参数。4、统计量(statistics)由样本计算的数称为统计量。5、系统误差(systematicerror)是由于试验条件所带来的差异。6、随机误差(randomerror)是指由偶然因素引起的差异。7、错误(error)是指由于工作上的粗心大意、或精神上的疲劳所造成的差错。8、准确性(accuracy)观察值与真值接近的程度称为准确性。9、精确性(precision)同一性状重复观察各观察值彼此接近的程度称为精确性。10、随机抽样法(randomsampling)是指总体内每一个体,抽取作样本的机会是均等的。

例析常用名词,重点掌握总体、样本、试验误差、准确性与精确性的概念,理解由样本推论总体这一思维逻辑是生物统计学的基本指导思维。

重要性:一切研究工作中,试验设计是研究工作成败的关键。关联性:试验设计需要丰富的生物统计知识作基础,大量的试验数据又为统计方法提了丰富可靠的资料。第4页,课件共21页,创作于2023年2月第二节

平均数

一、平均数的意义

意义:作为资料的代表,用来指出资料中各变数的集中性,并用来与另一资料相比较。

种类:

1、算术平均数一个资料中,各变数的总和被变数个数除所得的商数,称为算术平均数。在统计学中,它是最常用的一种,简称平均数或均数,其符号用表示。

2、中位数将资料内所有变数从小到大依次排列,位于中间那个变数,称为中位数,当变数个数是偶数时,则以中间两个变数的平均数作为中位数。数据资料呈偏态分布时多用中位数,这时中位数代表性比平均数为优,其符号用Md表示。若资料已分组,制成次数分布表,则可用下式求得Md。(1—1)式中:L为中位数所在组的下限;i为组距;f为中位数所在组的次数;n为总次数;c为小于中位数所在组的累加次数。例1.某奶牛场68头健康母牛从分娩到第一次发情间隔时间整理成次数分布表如下,求中位数。第5页,课件共21页,创作于2023年2月3、众数在资料中某一个变数出现的次数最多,即称该变数为众数。连续性变数资料确定众数需要制成次数分布表,在表内次数出现最多一组的组中值,即为众数。如羊毛纤维检验时,测定羊毛毛丛长度,应用众数计算。

表1—168头母牛从分娩到第一次发情间隔时间次数分布表间隔时间(d)头数(f)累加头数12~2627~4142~5657~7172~8687~101102~116≥11712132016122213163652646668由表1—1可见:i=15,n=68,因而中位数只能在累加次数为36所对应“57~71”这一组,于是可确定L=57,f=20,c=16,代入公式(3—1)得:即奶牛头胎分娩到第一次发情间隔时间的中位数为70.5d。(1—2)4、几何平均数

如有n个变数,其相乘积开n次方所得的方根,即为几何平均数。生物群体的数量变化呈几何级数的资料,应用几何平均数,其符号用G表示。第6页,课件共21页,创作于2023年2月几何平均数在畜牧生产中可用来求家畜的平均增殖率。例2.某羊场各年度的存栏数,见表1—2。试求其年平均增长率。

表1—2某羊场各年度的存栏数与增长率(1—3)代入公式(1—3):

年度存栏数(只)增长率(x)lgx1997199819992000140200280350—0.4290.4000.250—-0.368-0.398-0.602∑lgx=-1.368即年平均增长率为0.3501或35.01%。又如,在池内作蓝藻培育试验,水体中蓝藻的初始浓度为281.4,24小时后浓度为540.5,求试验开始后12小时的浓度。设每小时的增长率为r,初始生物量为N0,则在时刻t的生物量为

Nt=N0rt

第7页,课件共21页,创作于2023年2月于是有

N24=N0r24,r24=N24/N0

从而得上式表明12小时后的初始浓度与24小时后浓度的几何平均数,将试验数据代入

兽医学上,如食物中毒的潜伏期、抗体的滴度及血清的效价等资料常用到几何平均数。

关于速度一类资料,如反映畜群不同阶段的平均增长率等,常用调和平均数。例3.仔猪断奶后肥育增重试验,在原体重基础上净增150kg时结束试验。由于各期增重速度不同,求全期每天平均增重须用调和平均数计算。经测定第一个50kg的每天增重速度为0.3kg,第二个50kg的每天增重速度为0.4kg,第三个50kg的每天增重速度为0.6kg。代入公式(1—4):

5、调和平均数

调和平均数的定义为各变数倒数的平均数的倒数。其符号用H表示。

第8页,课件共21页,创作于2023年2月平均增重为每天0.4kg,因此猪体重净增到150kg时所需要天数为150÷0.4=375天。在第一个50kg时,饲养天数为50/0.3天;第二个50kg时,饲养天数为50/0.4天;第三个50kg时,饲养天数为50/0.6天,因此猪体重净增到150kg时。所需天数为(50/0.3)+(50/0.4)+(50/0.6)=375天。用调和平均数求出的平均增重与实际相符。用算术平均数求出的平均增重为(0.3+0.4+0.6)/3=0.433kg/每天,如猪体重净增到150kg时则需346.5天,显然与事实不符。同一个资料,求出的算术平均数大于几何平均数,而几何平均数又大于调和平均数。上述五种平均数中,算术平均数、几何平均数是最常用的平均数。

二、平均数的计算方法平均数的计算方法可根据样本的大小和分组情况而采用不同的计算方法。1、直接法

样本一般在30个变数以下未经分组的资料可用此法计算平均数。设有一个含n个变数的小样本,用x代表任何一个变数,则第一个变数至n个变数可用x1、x2、x3……xn表示。平均数用表示,可用下列公式计算:

第9页,课件共21页,创作于2023年2月因此公式可简写成:=∑x /n(1—5)上式中,x为变数,∑x表示从第一个变数xl一直加到第n个变数xn,n为变数的个数。例4.某品种鸡一年中各月产蛋量记录:18、20、21、22、23、23、24、25、25、25、26、26,求一年当中月平均产蛋数。∑x=18+20+21+22+23+23+24+25+25+25+26+26=278代入公式(1—5):=∑x/n=178/12=13.17(枚)例5.两个基因频率不同的群体混合,当代的基因频率是这两个群体的基因频率以其各自群体大小为权的加权平均数。譬如一个有1000个个体的群体,某一基因的频率为0.6,另一个400个个体的群体,同一基因的频率为0.3,这两个群体混合在一起,整个混合群体的这个基因的频率为:(0.6×1000+0.3×400)/1400=0.51312、加权法

如变数x1、x2、x3……xn,其比重占得大的对平均数的影响大,比重占得小的对平均数的影响小。因此,不能平等地来看待这些变数,所以用一种权衡轻重的方法,计算时先将各个变数x乘上它自己的权数,再经过总和后除以权数的总和;这就称之为加权平均数。

第10页,课件共21页,创作于2023年2月如在分组资料中,以组中值代替每组内的变数,以“f”表示每组内变数出现的次数,次数f表示变数x在整个资料中所占的比重,亦可称为权数,这就可采用加权法求平均数。计算时,将各组的组中值分别乘以该组的次数,乘积相加再除以总次数,就可得出平均数,其公式为:=∑fx/n(1—6)例6.从200头大白母猪的仔猪一月窝重的次数分布中,求加权平均数。表1—3200头大白母猪的仔猪一月窝重的次数分布表组别组中值(x)次数(f)fxfx28—16—24—32—40—48—56—64—72—80—88—96—104—112—1220283644526068768492100108116469101317263528211684348120252360572884156023802128176414728004323485762400705612960251684596893600161840161728148176135424800004665640368总和20013120961920第11页,课件共21页,创作于2023年2月2、样本各变数与平均数的差的平方和比各个变数与其他数的差的平方和为小,即离均差的平方和为最小。由于离均差平方和为最小,所以平均数与各变数是最接近的一个数值。因此,它能代表这个样本的集中趋势,这一特性,证明如下:a为任何数值,可能比大或比小,但不等于,用算式表示:

a=±△△(读delta)表示与a的差数。∑(x—a)2=∑(x—±△)2=∑[(x—)±△]2=∑(x—)2±2△∑(x—)+n△2已知∑(x)=0,由此2△∑(x-)亦等于零。移项∑(x-)2=∑(x-a)2-n(-a)2∵n(-a)2>0∴∑(x-)2<∑(x-a)2代入公式(1—6):=∑fx/n=13120/200=65.60(kg)三、平均数的特性1、样本各变数与平均数的差之和等于零。即离均差总和为零。∑(xi-)=0,可证明如下:第12页,课件共21页,创作于2023年2月第二节

标准差

一、标准差的意义意义:用来指出资料中各变数的变异程度(离散性),并用来衡量样本平均数的代表性。若各个变数相同没有变异,则平均数完全可以代表整个样本;如各变异数间变异较大,则平均数代表性就小。为了正确地评定样本的代表性,就有必要度量其变异程度。因此,单靠平均数不能使我们了解样本中各个变数间的变异程度和平均数作为整个样本的代表程度。因为有时两个样本的两个平均数可能相同,但这两个样本所包含的变数其变异程度可能是不相同的。例7.有甲和乙两个猪种,经分别测定10头母猪的产仔数,其结果如下:表1—4甲、乙两品种母猎的产仔数

猪号产仔数甲品种乙品种1234567891084161222176146514811911121014138总和110110平均产仔数1111第13页,课件共21页,创作于2023年2月由上表看出,甲和乙两品种的平均产仔数是相同的,都是11头,看不出差异情况,似乎没有优劣之分。但进一步研究,可知两个样本的变异程度并不相同。如甲品种产仔数最少的为4头,最多的为22头。全距是18;而乙品种产仔数最少的为8头,最多的为14头,全距是6。实际上甲品种产仔数的变异程度大于乙品种,因此仅有平均数是不够的。由于两个样本的变异程度不同反映出所得的平均数代表性也不同。因此,研究生物的性状和特性时,除计算平均数之外还应测定其变异程度。测定样本的变异程度最简单的方法,是应用全距来表示。全距仅由两个极端数差的大小来衡量,它不能代表样本各变数间的变异程度。目前广泛被应用的是以标准差来度量样本内各个变数的变异程度和表明平均数的代表情况。应用标准差表示样本的变异程度比全距要好得多,因它考虑了每个变数与平均数的离差。每个变数与平均数相差愈小,则样本变异程度小,反之则愈大。如每个变数与平均数之差为零,这时表示每个变数与平均数没有差异。所以标准差是从各变数与平均数差的大小来观察变异程度的一个统计量。二、标准差的计算方法测定某一样本的变异程度时,先以每个变数与其平均数相减求出离均差。但由于离均差之和等于零,故不能直接算出离均差的平均数。为了合理地算出平均差异,可利用离均差平方的办法来消除正负号。离均差平方相加所得的总和,称为平方和,常用符号SS表示。然后求平方和的平均数,第14页,课件共21页,创作于2023年2月称为样本方差或均方,以消除变数个数多少的影响。由于各个离均差经过平方使原来度量的单位都变为平方单位,所以最后还需开平方,使之还原。用这种方法表示数据的变异程度,在统计学中称为标准差。通常用符号S表示。标准差公式来源:离均差=(x)离均差之和=∑(x)=0离均差平方和SS=∑(x)2

样本均方样本标准差

总体方差

总体标准差

其中μ为总体平均数,μ=∑x/N,N为总体中所包含的变数的个数。第15页,课件共21页,创作于2023年2月1、未分组资料的计算方法未分组资料,一般指小样本而言,其公式如下:(1—7)公式中,n-1为自由度,n为样本含量,小样本应用自由度计算标准差的目的,在于纠正由于样本小而发生的取样误差影响。如一个样本含有n个变数,从理论上说,n个变数都同样用以计算标准差,n个变数与相减有n个离均差。表面上虽有n个比较,但实质上仅有n-1个可以自由变动,最后一个离均差受到∑(x)=0这个条件的限制。所以不能自由。例如,有5个变数,其4个离均差为-2、-1、1、2,则第5个离均差必等于0,如4个离均差为-1、0、1、2时,则第5个离均差必等于-2,这样才能使离均差的总和等于0。这5个离均差中,因受离均差之和等于0的限制,所以只有4个能自由变动。这时的自由度就是n-1。自由度等于样本变数的总个数减去计算过程中使用的条件数。在计算标准差时,条件就是一个,即∑(x)=0,故自由度为n-1。如计算样本某一个统计数应用2个条件,其自由度则为n-2,应用k个条件,则自由度为n-k。小样本常用自由度来计算标准差或其他统计数。因小样本的全距较群体为小,若为大样本当与群体较接近时,可不用自由度,直接用n亦可。自由度的符号以“df”表示。

标准差是测定离中性的统计量,因此用原数据的单位表示。根据样本数据的多少,标准差的计算方法有以下两种。例8.计算10头考力代绵羊产毛量的标准差。

第16页,课件共21页,创作于2023年2月表1—510头考力代绵羊产毛量的资料单位:kg剪毛量(x)(x)(x)2x24.54.55.05.05.55.55.56.06.06.5-0.9-0.9-0.4-0.40.10.10.10.60.61.10.810.810.160.160.010.010.010.360.361.2120.2520.2525.0025.0030.2530.2530.2536.0036.0042.25∑x=54∑(x)=0∑(x)2=3.9∑x2=295.5将表1—5中,有关总和数值代入公式中:

第17页,课件共21页,创作于2023年2月标准差公式中∑(x)2,因使用函数型电子计算器计算不方便,现在一般常用下列公式。公式推导:因:

2、分组资料的计算方法

当数据很大时,一般超过30个变数以上的大样本,须先分组制成次数分布表,然后计算标准差。分组资料计算标准差方法采用加权法,即:次数分布表中各组的组中值与其平均数的离差再平方,乘上次数,总和后被n-1除,再开方,即得标准差,其公式:

第18页,课件共21页,创作于2023年2月(1—8)

因:

上式中,f为各组次数,x为各组的组中值,根据公式推导,可将公式3—8化简为:

(1—9)

例9.用表1—3,200头大白母猪的仔猪一月窝重的资料计算标准差将表1—3中各项总和代入公式(1—9)中:

用以上方法算出标准差后,可以测定样本内变数的分布情况。当标准差小,则说明样本内变数的分布集中于平均数两侧;如标准差大,则说明变数的分布愈分散。因此,标准差的大小可以衡量样本平均数的代表性,当标准差小,则说明平均数的代表性强,而标准差大,说明平均数的代表性弱。

第19页,课件共21页,创作于2023年2月三、标准差的特性1、标准差的大小,受每个变数值的影响,如变数与变数间变异大,其离均差亦大,用此求得的标准差必然也大,反之则小。2、计算标准差时,在各变数上加或减一个常数,标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论