平均数、标准差和变异系数_第1页
平均数、标准差和变异系数_第2页
平均数、标准差和变异系数_第3页
平均数、标准差和变异系数_第4页
平均数、标准差和变异系数_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章平均值、标准差和变异系数本章重点介绍反映数据集中性的三个一般统计信息:平均、标准偏差和可变系数,这三个统计信息分别是“平均”(mean)、“标准偏差”(standard deviation)和“可变系数”(variation coefficient)。也就是说,它反映了观测围绕特定值分布的特性。后者用于反映数据的不连续性,即观察在中间分布的变异的特性。第一节平均值平均值是统计中最常用的统计,用于表示数据的每次观测相对集中的中心位置。在畜牧业生产实践及科学研究中,平均值广泛用于说明或比较各种技术措施的效果、畜禽的特定数量特征等。平均值主要包括算术平均值、中间数、公共数、几何平均值和调和平均

2、值。armonic mean(median)、mode(mode)、mode(mode)、geometric mean(geometric mean)一、算术平均值算术平均值是数据中每个观测值的总和除以观测值的平均值或平均值,记录如下:算术平均值可以直接计算,也可以根据样本大小和分组使用加权方法计算。(a)直接法主要用于样品含量n30以下、未分组数据的平均计算。数据包含x1、x2、如果包含n个观测值(例如,xn),则样例平均值计算为:(3-1)其中是求和符号。指示从第一次观测x1到第n次观测xn累计。如果意义明确,可以简单地用sigma x(3-1)来写。例3.1有些公牛的平均体重是10头成年

3、公牛的体重,分别是500,520,535,560,585,600,480,510,505,490公斤(100磅)。x=500 520535 560585 600 480 510505 490=5285,n=10替代(3-1)表达式:10头氢的平均体重是528.5公斤。(b)对于超过加权方法样本含量n30的分组数据,可以使用如下计算的加权方法基于计数分布表计算平均值。(3-2)样式:-组I的组中值;-第I组的数目;-分组数组I的数量fi是组I的值Xi在数据中所占比重的折衷方法,因此fi被称为Xi的“权重”,加权方法也有它的名称。将100只长白母猪1月巢重量(单位:公斤)数据整理成水表,得出其加权

4、平均数。表3-1 100只长白母猪仔猪一月巢重量分布表组组中的值(x)次数(f)F x101534520256150303526910404530135050552413206065852070753225总计1004520使用(3-2)表达式:100只长白色母猪仔猪的平均一个月巢为45.2公斤。如果从相同人口的样品平均值计算多个平均值,并且样品说明不相同,则必须使用加权方法计算。一群是黑白花牛1500头,平均体重750公斤,另一群是黑白花牛1200头,平均体重725公斤的两头牛混合后平均体重是多少?在这个例子中,两组牛的头数不相等。为了计算两组牛混合后的平均重量,我们建议两组牛的头数,即两组

5、牛平均体重的加权平均值。(两组混合后平均体重为738.89公斤。(c)平均值的基本性质1、样品的观测值与平均值的差值之和为0。也就是说,平均值的和等于0。或者简单地说2、采样角度观测值和平均值之间差异的平方和为最小。也就是说,平均值和平均值之和是最小的。(xi-)2(xi- a)2(常数a)或者,可以缩写为:以上两个特性可以用代数方法证明。一般而言,表示总体平均值,有限总体平均值为:(3-3)表达式中的n表示对象总数。如果一个统计的数学期望值等于估计的整体参数,则此统计称为对整个参数的偏转估计。统计中常用的样本平均值()作为整体平均值()的估计值,证明了样本平均值是整体平均的无偏估计值。二、中

6、值将数据内的所有观测值按从小到大的顺序排列,居中的观测值称为中央数字,并以Md记录。如果观测数为偶数,则中间两个观测的平均值将用作中间值。重水简称中央数。如果得到的数据按偏法分布,则中值比算术平均值具有代表性。中值的计算方式取决于是否对数据进行了分组。(a)如何计算未编组数据的位数对于未编组的数据,将按从小到大的顺序对每个观测值进行排序。1,如果观测数n为奇数,则位置(n 1)/2的观测值,即x(n 1)/2为中值。Md=2,如果观测值的数目为偶数,则位于n/2和(n/2 1)位置的两个观测值的总和的一半为中值,即:(3-4)示例3.4 9只种田能源山山羊的怀孕天数为144,145,147,1

7、49,150,151,153,156,157,他们在寻找其中的数字。如果此范例n=9,奇数:Md=150(天)种田奶山羊怀孕天数的中位数是150天。犬瘟热在一个农场发生,发现10只阿伯丁狗的症状分别在7、8、8、9、11、12、12、13、14天内死亡。此范例n=10,如果为偶数:(天)10只阿伯丁,从发现症状到死亡天数的中位数是11.5天。(b)如何计算分组数据的位数如果数据已分组并由计数分配表组成,则可以使用计数分配表计算中间值,其计算方法如下:(3-5)格式中:l-具有中间位数的组的下限。I组距离;F-具有中值的组的数目;N-总数;C-小于中间数的组的累积次数。在一家奶牛场,68只健康的

8、母牛从分娩到第一次发情间隔整理的次数分布表正在寻找中间数,如表3-2所示。表3-2 68头母牛从分娩到第一次发情间隔时间分布表间隔时间(d)头数(f)总计头数12-261127-412342-56131657-71203672-86165287-1011264102-116266117268可以在表3-2中看到。因为i=15、n=68,所以中间位数只能在总计表头数为36的“57-71”组中使用,所以L=57、f=20、C=16、替换公式(3-5)确定如下:(天)奶牛第一次分娩到第一次发情间隔的中间值为70.5天。三、几何平均乘以n个观测值的n次方根,称为几何平均值,记录为g。主要用于畜牧业、渔

9、业生产动态分析、畜禽疾病和药物效价的统计分析。使用家禽和养殖业增长率、抗体效价、畜禽疾病潜伏期等几何平均值比算术平均值更好。计算公式为:(3-6)为了便于计算,将每个观测值加到代数中,然后除以n,得到lgG,得到lgG的齿数,即g的值(3-7)1997-2000年波尔山羊个体数见表3-3,估计年均增长率。表3-3波尔山羊群的年储存数和增长率年份内存数(仅限增长率(x)Lgx1997140-19982000.429-0.36819992800.400-0.39820003500.250-0.602 lgx=-1.368使用公式(3-7)寻找年均增长率G=LG-1(-0.368-0.398-0.6

10、02)=lg-1(-0.456)=0.3501年均增长率为0.3501或35.01%。四、多数数据中出现次数最多的那个观测值或次数最多的组的中心值称为克莱坞,记录为M0。表2-3所示的50个受精卵中产仔的天数分布最多,为22个,则该数字为22天。另一个例子是示例3.6中列出的次数分布表中最多的57-71,其中的值为64天,则该数据的分组数为64天。五、谐波平均值数据的每个观测值倒数的算术平均值的倒数,称为调整平均值,h,即(3-8)调整平均值主要用于反映畜牧业的平均增长率或畜牧业的不同规模的平均规模。一个品种的牛群不同世代的牛群保存的规模为第0代200只,第1代220只,第2代210只,第3代

11、190只,第4代210只,试一下平均规模。使用公式(3-9)查找平均大小:(头)保险人口的平均规模是208.33只。对于相同的资料,算术平均几何平均和平均。以上五种平均值最常见的是算术平均值。第二节标准偏差一、标准差的重要性使用平均值作为样品的代表,其代表性强弱受样品数据的每次观察变化的影响。每次观察的变异较小,平均值具有很强的样品代表性。每次观测的变异很大,平均就很弱。因此,仅用平均值描述一个数据的特性是不全面的,还必须引入表明数据观察有多大差异的统计。总距离(极差)是最简单的统计信息,用于指示数据的观测变化程度。较大的总距离会显着改变数据的观测值,而较小的总距离会使数据的观测值发生较小的变

12、化。但是,总距离仅利用数据的最大值和最小值,是近似的,而不准确地表示数据的各个观测值有多大变化。如果数据很多,需要快速判断数据的波动程度,则可以使用总距离统计。为了准确地表示样本内各个观测值的变化程度,人们首先考虑每个观测值和平均值的偏差,即()被称为距离平均值。距离分布表示观测偏离平均值的特性和程度,但距离差为正、负、距离差之和为0,即 ()=0,因此数据中所有观测值的总偏差不能用距离差和()表示。要解决偏差为正、负、平均值为0的问题,请先求出平均值的绝对值,然后将每个平均值绝对值的总和除以观察n,得出平均值的绝对偏差,即 |/n。平均绝对偏差可以表示数据的每个观测值的变化程度,但是平均绝对

13、偏差包含绝对值符号,使用起来很不方便,因此没有统计采用。用平方二次差的方法也可以解决二次差有正、负、二分和零的问题。首先,用()2和()2平分平方和,也就是,简单的平方和,ss来表示每个平方和。偏差平方和经常随样本大小的变化而变化,因此为了消除样本大小的影响,将平方和除以样本大小,即,得出平均偏差平方和。为了得到的统计是该整体参数的偏角估计量,在统计中求平均平方总和的平均值时,分母证明使用自由度n-1,而不是样本含量n,从而在统计上表示数据的变异程度为sigma。统计量平均平方(mean square缩写为MS),也称为样本分布,也称为S2,即S2=(3-9)其整体参数称为完全方差,记录为2。

14、有限总体上,2的计算公式如下: 2 ) 2/n (3-10)样例分布具有原始观测单位的平方单位,因此,如果在没有其他分析的情况下仅表示一个数据中观测的变化程度,则通常需要与平均值一起使用,此时需要恢复平方单位。也就是说,必须找到样本方差的平方根。统计上,样本方差S2的平方根称为样本标准差,即s:(3-11)因为因此,(3-11)样式可以替换为:(3-12)其整体参数称为总体标准差,记录为。有限总体上,计算公式如下:=(3-13)在统计中,典型的样本标准差s估计总体标准差sigma。二、标准差计算方法(a)直接方法对于未编组或较小的样例数据,可以直接使用表达式(3-11)或(3-12)计算标准偏差。示例3.9 10只辽宁羊绒山羊产量:450,450,500,550,550,550,600,600,650 (g)的标准差计算。范例n=10,计算: x=5400, x2=,替代(3-12):(g)辽宁绒山羊10只标准偏差为65.828克。(b)加权方法标准差可以使用加权方法对创建的次数分布表中的大样本数据进行计算。计算公式为:(3-14)表达式中的f是每个组的数目。x是每个组的组中心值。f=n是总次数。标准差使用纯蛋鸡的200个鸡蛋重

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论