试验统计方法 2.第三章 次数分布和平均数变异数学习资料_第1页
试验统计方法 2.第三章 次数分布和平均数变异数学习资料_第2页
试验统计方法 2.第三章 次数分布和平均数变异数学习资料_第3页
试验统计方法 2.第三章 次数分布和平均数变异数学习资料_第4页
试验统计方法 2.第三章 次数分布和平均数变异数学习资料_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章次数分布和平均数、变异数第一节总体及其样本(略)第二节次数分布一、试验资料的类型:正确地进行资料分类是资料整理的前提。数量性状资料质量性状资料试验资料(一)数量性状资料

dataofquantitativecharacter由测(度)量和计数得到的数据资料。连续性变异资料不连续性变异资料数量性状资料

1.连续性变异资料指用量测方式获得的数量性状资料。这种资料的各个观测值不一定是正整数,两个相邻的整数间可以有带小数的第三个数值出现,其小数位数的多少由度量工具的精度而定,它们之间的变异是连续性的。2.不连续性变异资料指用计数方式获得的数量性状资料,也称间断性资料。在这类资料中,各个观察值只能以正整数表示,不会出现小数。各观察值是不连续的。(二)质量性状资料dataof

qualitativecharacter指能观察而不能直接测量的性状。也叫属性性状资料。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对质量性状资料观察结果作数量化处理,其方法有以下两种:1.统计次数法

在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。这种由质量性状数量化得来的资料又叫次数资料。

2.评分法(给分法)

用数字级别表示某一质量性状表现程度的差异。例如,对小麦锈病的调查,依发病情况可划分为0级(免疫)、1级(高度抗病)、2级(中度抗病)、3级(感病)。将资料分别给予0-4分的评分,以便统计分析。然后将质量性状资料按不连续性变异资料处理。小结:

资料的类型试验资料数量性状资料质量性状资料连续性数量性状资料不连续性数量性状资料统计次数法评(给)分法二、

次数分布表是指根据统计研究的目的和任务,将统计调查所得的原始资料进行科学的分类和汇总。对已经加工资料进行再加工,为统计分析准备系统化的、条理化的综合资料的工作过程。资料的整理方法资料的分类、分组资料的汇总结果显示注意:不同类型数据,所采用的整理和显示方法是不同的。(一)、间断性变数资料的整理基本步骤:

排序(找最大最小值)--分组汇总--资料显示例1:欲了解某小麦品种的每穗小穗数情况,随机抽取100株。请编制统计表和图.统计次数表观察值较多,变异范围较大:例如:观测某品种100只蛋鸡每年每只鸡产蛋数。(原始资料略。其变异范围为200-299枚)这样的资料如以每个观察值为一组,则组数太多(该资料最多可分为100组),如间隔10枚为一组,则可使组数适当减少。经初步整理后分为10组,资料的规律性就比较明显,见表3。表3100只蛋鸡每年产蛋数的次数分布表(二)、连续性变数资料的整理

基本步骤求极差确定组数和组距选定组限和组中值编制次数分布表

数据排序1、求极差(全距range):一般用R表示R=最大值-最小值2、确定组数和组距:分组数可参考书中“表3.5”组距=全距/组数

(组距常取近似整数)3、确定组限及组中值

各组的最大值与最小值称为组限。最小值称为下限,最大值称为上限。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系如下:组中值=(组下限+组上限)/2=组下限+1/2组距=组上限-1/2组距组距确定后,首先要选定第一组的组中值。在分组时为了避免第一组观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。注意:最末一组的上限应大于资料中的最大值。在分组后所得实际组数,和最初确定的组数的关系---4、分组统计,编制次数分布表有时可能不一致【例3】140行水稻产量资料的整理。实际记载数据见下页表具体步骤如下:17721519797123159245119119131149152167104161214125175219118192176175951361991161652149515883137801381511871261961342061379897129143179174159165136108101141148168163176102194145173751301491501611551111581311899114214015415216312320514915513120918397119181149187131215111186118150155197116254239160172179151198124179135184168169173181188211197175122151171166175143190213192231163159158159177147194227141169124159表3.4140行水稻产量(单位:g)

1、求全距

全距R=最大值-最小值

=254-75=179(g)2、确定组数和组距

组数:本例中,N=140,初步确定组数为11组。

确定组距

依组距的计算公式:组距=全距/组数本例组距=179/11=16.3≈16组距确定后,首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。本例:以75第一组组中值,与最小值相等。则第一组组限为:下限=组中值-1/2组距=75-16/2=67上限=组中值+1/2组距=75+16/2=833、组限和组中值对于不连续性状资料,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠;遵循“上组限不计入”原则;组限的表示方法:4、分组统计,编制次数分布表(一)质量性状主要是做分类整理,分类数等于组数。(二)按类别统计次数和频率。(三)图表显示。(三)、属性变数资料的整理例2、水稻杂种二代植株米粒性状整理结果统计表:表4水稻杂种二代植株米粒性状的分离情况

属性分组次数红米非糯96红米糯稻37白米非糯31白米糯稻15合计179补充1:统计表的要求表号如“表2”、“表2-1”表题要求准确和简明。一般采用三线图。上下两条横线一般用粗线,其他线用细线,统计表的左右两边不封口。注明不同项目数据的计量单位。单位相同时,可放在表的右上角标明,不相同应放在每个指标后或单列出一列标明。表2-1不同类型柑橘树体的生长差异

砧木树高冠径干粗根系体积(厘米)(厘米)(厘米)(厘米3)枳151.5C65.6B1.50b987.5a枳橙211.4A88.0A1.61b495.4c枳柚167.1BC69.3B1.53b1200.5a红橘+柚172.7B93.2A1.99a533.7bc注:1)字母相同表示差异不显著,字母不同表示差异显著;大写字母表示P<0.01,小写字母表示P<0.05。表2-4人参根部脂溶性化合物的组成与含量化合物类别根皮

全根种类含量(%)

种类含量(%)单萜类71.8992.03倍半萜类1225.751227.06芳香族97.7976.56指肪族2816.89

2418.52合计5652.32

5254.17

三、次数分布图1、统计图的显示方法:方柱形图(histogram)图3140行水稻产量分布方柱形图2、多边形图(折线图)(polygon)图3140行水稻产量分布多过形图3、条形图(bardiagram)4、饼图(piegiagram)图2:水稻F2代米粒性状分离圆形图其它显示方法:圆环图(ringdiagram)图2:水稻F2代米粒性状分离圆环图图的名称要求准确、简明,图的名称一般标注在图的下方。纵横轴线应有刻度,标明指标名称和单位。图形的长宽比例要适当,大致为10:7用不同线条和颜色表示不同事物时,应有图示。补充2、统计图的制作要求图3-1140行水稻产量分布方柱形图第三节平均数是数据资料的代表值,表示资料中观测值的中心位置,并且做为资料的代表与另一组资料相比较,以明确两者之间的差异。(一)平均数的种类

中数(median)众数(mode)几何平均数(geometricmean)

算术平均数(arithmeticmean)其它:调和平均数、四分位数等。2、算术平均数的计算方法最常用的集中性指标,是一组数据的均衡点所在易受极端值的影响用于数量性状数据,不能用于质量性状数据。众数、中位数和算术平均数的关系对称分布

均值=中位数=众数偏分布众数

中位数

均值1、直接法

简写成:

2、加权法对样本容量较大,且已分组的资料,可采用加权平均法。计算公式为:

代表第i组的组中值代表第i组的次数代表分组数例:140行水稻产量的数据。资料整理成次数分布表如下,求其加权数平均数。

利用上面公式得:

=

=157.93(克)

即这140行水稻的平均产量为157.93(克)

2×75+7×90+…+1×255140

三、算数平均数的重要特性1、样本各观测值与平均数之差的和为零,即离均差之和等于零。

或简写成2、样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。

或简写为:

当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。统计学中常用样本平均数()作为总体平均数(μ)的估计量,并已证明样本平均数是总体平均数μ的无偏估计量。第四节、变

数据的分布具有集中性和离散性两个方面的特征。平均数是对数据集中性的描述。但只用平均数对样本的一个特征进行描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。离散性(分散程度)

一、极差(Range)

是资料中最大值与最小值的差数。也称全距。常用R表示。

两个小麦品种的每穗小穗数说明甲品种平均数的代表性较差,而乙品种平均数的代表性较好。品种每穗小穗数平均数极差甲131415171818192122231810乙16161718181818192020184极差的特点:简单快捷:当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。易受极端值的影响:但全距只利用了资料中的最大值和最小值。未考虑数据的分布特点,不能准确表达资料中各观测值的变异程度,比较粗略。

二、方

(variance)

为了准确地表示样本内各个观测值的变异程度,人们首先会考虑到以平均数为标准,求出各个观测值与平均数的离差,(),称为离均差。虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负,离均差之和为零,即Σ()=0,因而不能用离均差之和Σ()来表示资料中所有观测值的总偏离程度。为了解决离均差有正、有负,离均差之和为零的问题,可先求离均差的绝对值并将各离均差绝对值之和除以观测值个数n求得平均绝对离差,即。虽然平均绝对离差可以表示资料中各观测值的变异程度,但由于平均绝对离差包含绝对值符号,使用很不方便,在统计学中未被采用。我们还可以采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。先将各个离均差平方,即()2,再求离均差平方和

,即,简称平方和,记为SS;由于离差平方和随总体和样本容量而改变,为了消除样本大小的影响,用平方和除以样本大小,即,求出离均差平方和的平均数,称为方差或均方。方差可以用来表示数据的变异程度。对有限总体来说,离均差平方和SS除以总体容量N即为总体方差

,记为σ2。其σ2的计算公式为:对样本来说,为了使样本方差是相应总体方差的无偏估计量,统计学证明,在求样本方差时,分母不用样本含量n,而用

n-1。于是,样本方差s2为:n-1被称为自由度(degreeoffreedom)。

记做df或υ

自由度的意义:能自由变动的离均差个数。

在计算离均差平方和时,由于n个离均差受到这一条件的约束,能自由变动的离均差个数是n-1个。当n-1这个离均差确定以后,第n个离均差也随之确定,不能任意变动。数理统计上可以证明样本用自由度做除数所得的方差是总体方差的无偏估计。由于是用样本的平均数代替总体的平均数μ,根据平均数的性质

由计算出的样本方差将与总体方差相比总是偏小。如果分母用n-1代替,可免除偏小的问题。

三、标准差

1、标准差的定义:

由于样本方差的单位是原有观测单位的平方,在表示资料的变异程度时,常需要与平均数配合使用,这时应将平方单位还原,即应求出样本方差的平方根。

统计学上把样本方差s2的平方根叫做样本标准差,记为s,即:

相应的总体参数叫总体标准差,记为σ。对于有限总体而言,σ的计算公式为:

在统计学中,常用样本标准差s估计总体标准差σ。

2、标准差的计算方法2.1直接计算

若按上公式计算标准差时,要先计算平均数,再计算平方和。当平均数为约数时,容易引

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论