试验统计-试验数据整理_第1页
试验统计-试验数据整理_第2页
试验统计-试验数据整理_第3页
试验统计-试验数据整理_第4页
试验统计-试验数据整理_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章试验数据的整理第四节基本统计量第一节总体和样本的概念第五节正态分布检验

第二节试验资料的属性第三节次数分布1、总体(Population)

根据研究目的确定的,凡是符合指定条件的具有共同性质的全部观察对象称为总体。例如:(1)要了解中国农科院研究生院所有学生的健康状况,那么所有研究生院的学生就构成了一个总体。(2)要了解我们SAS班所有学生的健康状况,则所有SAS班的学生就构成了一个总体。第一节总体和样本的概念按总体中的个体数目可分为:无限总体有限总体2、个体构成总体的每一个成员称个体。第一节总体和样本的概念上例中的中国农科院研究生院的每一个学生就是这个总体中的成员,称为一个个体。3、样本(Sample)从总体中抽取出来进行研 究的若干个体的集合称为样本。例:在中国农科院研究生院的学生中随机抽取100个学生测量健康状况,那么这100个学生就构成了一个样本。5、观测值(Observation)每个个体的性状、特性的测定数值称观测值。第一节总体和样本的概念例:中的中国农科院研究生院的每一个学生的身高、体重、血压等就是一个观测值。4、样本容量样本中包含的个体数量

(样本含量)样本的容量越大,越能代表总体。例:上例中的样本容量为1007、样本统计量

根据样本观察值算出的样本特征数称为样本统计量。样本统计量常用英文字母表示。如:样本平均数、样本标准差S等。6、总体参数

根据总体全体观察值算出的总体特征数称为总体参数。常用希腊字母表示。 如:总体平均数μ、总体标准差σ等。第一节总体和样本的概念第二节试验资料的属性一、试验资料的性质(可分为两大类):1、数量性状资料(Numeric)

能够用测量、称量或计数的方法表示的性状

的资料。(1)连续型数量资料(可量资料Interval)通常用称量、度量或测量的方法得到的

数据都可以视为连续型随机变量资料。

它们在某个区间内是连续的。例如:体重(公斤)、株高(厘米)、产量(克)、千粒重(克)等。(2)离散型(间断型)数量资料(可数资料Nominal)通常用计数方法得到的数据。

它们在数轴上表现为不连续,只能取整数。第二节试验资料的属性例如:发芽的种子数、成活的树苗数、死亡的

昆虫头数、分蘖数、穗数和每穗粒数等。第二节试验资料的属性2、质量(属性)性状资料(CharacterNominal)

不能直接测量,只能观测的属性性状资料。例如:虫子的成活与死亡、叶片形状、花的颜色、小麦的芒性、接种病菌的感染与否等。一、次数分布表把次数分布以图的形式绘出,得次数分布图。第三节次数分布为了初步研究试验资料的分布规律性,将众多的试验资料按类别或区间进行分组,把这些不同类别或各个区间出现的个体频数叫次数分布。把次数分布以表的形式列出,得次数分布表。(一)离散性变量资料的整理1、变量可取值个数不多时以自然单位进行分组因为取值个数只有15、16、17、18、19、20六种,所以按自然单位分组。每穗小穗数(x)次数(f)1561615173218251917205总次数(n)100第三节次数分布2、若变量可取值个数太多,则可按取值大小,从小到大相邻若干个值合为一组的方法进行整理(一般要求组距相等)。例3.2

调查200个稻穗,每穗粒数资料中,最小的一穗有27粒稻谷,最多的一穗有83粒。利用此数据制作次数分布表。

表3.2200个稻穗每穗谷粒数2730……323541……53……………………6783……75第三节次数分布1.求极差:2.确定组数:3.确定组距:4.确定组限,制表头:

步骤如下:5.资料归组:R=Max(X)-Min(X)=83-27=56组距=极差/组数=56/12

=4.7≈5本例中拟分12组样本容量适宜分组数样本容量适宜分组数50—100—200—5~108~1610~20300—500—1000—12~2415~3020~40第三节次数分布200个稻穗每穗粒数的次数分布表组限次数(f)26~30131~35336~401041~452146~503251~5541…………71~75876~80381~852合计200(二)连续型变量资料的整理步骤与离散型变量的第二种方法相似。例3.3调查140行水稻(每行1.33m)的产量(g)数据如表3.3所示。利用此数据制作次数分布表。第三节次数分布表3.3140行水稻(每行1.33m)的产量(g)177215……104161214……165……………………192231……159R=Max(x)-Min(x)=254-75=179本例中,拟分为12组利用例3.3此数据制作次数分布表。1.求极差:2.确定组数:3.确定组距:4.确定组限,制表头:步骤如下:5.资料归组:组距=179÷12=14.9≈15注:以最小值做第一组的组中值,可以多出半组,所以最终往往多出1组。第三节次数分布(三)属性变量资料的整理按属性类别分组:第三节次数分布1.直方图2.条形图3.饼图第三节次数分布二、次数分布图1.直方图第三节次数分布适用于表示连续型变量的次数分布以表3.3的数据分布为例说明。2.条形图第三节次数分布适用于表示离散性和属性变量的资料以表3.2的数据分布为例说明。3.饼图适用于表示间断性和属性变量的资料第三节次数分布以表3.4的数据分布为例说明。第四节基本统计量样本基本统计量主要有:一、平均数类:(表征中心位置)算术平均数、几何平均数、中位数、众数等。二、变异数类:(表征变异程度)极差、样本标准差、样本方差、样本平均数标准差(即标准误)样本变异系数等。第四节基本统计量一、平均数类:

1、平均数的意义和种类

平均数的意义:(1)用于表示变数的集中趋势,指示资料的中心位置,反映资料的一般质量水平。(2)作为一组数据的代表值与其它数据作比较。第四节基本统计量1、算术平均数(Mean)

所有资料观察值的总和除以观察值个数所得的商。有极端值时不够稳健。平均数的种类:2、中位数(Median)

将资料所有观察值排序后,居于中间位置

的那个观察值(当观察值数目为偶数时,居于中间位置的那两个观察值的平均数)。3、众数(mode)

资料中最常见的一数,或次数分布表中次数最多的那组的组中值。例1:2,4,6,5,9,5,4,5,1,10,3众数是5例2:小麦小穗数众数是17每穗小穗数(x)次数(f)1561615173218251917205总次数(n)100第四节基本统计量第四节基本统计量4、平均数的计算1、总体平均数(populationmean):第四节基本统计量2、样本平均数(Samplemean):5、算术平均数的局限性

平均数有时其代表性很差。例如下面的两组人,平均年龄都是25岁,能说这两组人的年龄是一样吗?24岁26岁25岁25岁49岁1岁第四节基本统计量第四节基本统计量

由此可见:样本变异大,平均数的代表性就差;样本变异小,平均数的代表性就较好。因此,需要引进一个新的统计量来反映资料的变异程度。第四节基本统计量1、极差(全距,Range)

一组数据的最大值与最小值之差。即:R=Max(x)-Min(x)上例中:第一组数据的极差为:R1=26-24=2第二组数据的极差为:R2=49-1=48可见第二组人的年龄变异大的多。二、变异数类:2、方差(Variance)

又称均方(MeanSquare)

其功用是反映资料的离散变异程度。总体方差σ2样本方差S

2第四节基本统计量1)总体方差计算第四节基本统计量2)样本方差计算第四节基本统计量第四节基本统计量方差计算

五株水稻的单株粒重为:2,8,7,5,4(克)单株粒重28754-3.22.81.8-0.2-1.110.247.843.240.041.44总和26022.80平均5.23、标准差(StandardDeviation)

其功用是反映资料的离散变异程度,它是方差的正平方根值,其度量单位与观察值相同。第四节基本统计量总体标准差σ(PopulationSD):样本标准差S(SampleSD):

a、总体标准差的计算:b、样本标准差的计算:第四节基本统计量4、标准误(StdError,StdMean)样本平均数的标准(误)差,反应样本平均数的变异程度,即抽样误差的大小。实质上是样本平均数构成的样本的标准差。标准误较小表示样本均数与总体均数比较接近,为了保证样本代表总体比较可靠,就得适当增大样本含量。第四节基本统计量5、变异系数(CoefficientofVariation)

在比较两组平均数相差很大或数据单位不同的资料的变异程度时,则需要用到变异系数的概念。记为(

CV

),是指资料的标准差与平均数之比。第四节基本统计量

平均数相差很大的例子:甲测量排球场长度三次,得乙测量足球场长度三次,得

第四节基本统计量

虽然两组数据的s

都等于1,但不能认为两组数据的变异程度相同。乙测量得显然比甲精确。2、矫正平方和(CSS)三、其它统计量1、未矫正平方和(USS)第四节基本统计量3、偏度(Skewness)第四节基本统计量考察资料的左右对称性的分布情况:

Sk

=0对称分布

Sk

>0右(正)偏分布,向右侧分散更远

Sk

<0左(负)偏分布,向左侧分散更远第四节基本统计量4、峰度(Kurtosis)以正态分布为标准考察资料陡峭分布的情况:

Ku

=0数据正态分布

Ku

>0数据尖峰分布,向中间集中

Ku

<0数据扁平分布,含有较多极端值5、百分位数(Percentile)第四节基本统计量是中位数的推广,n个数据排序后,处于p%位置的值xp称为第p百分位数,表示有p%的数不超过这个值。当np/100是整数当np/100不是整数其中,i=[np/100],即np/100取整分位数的一些概念第四节基本统计量中位数即是第50百分位数最小值即是第0百分位数最大值即是第100百分位数下四分位数即是第25百分位数,记为Q1上四分位数即是第75百分位数,记为Q3四分位极差为上四分位数与下四分位数的差 值,即Q3-Q1第五节正态分布检验检验数据资料是否服从正态分布。正态分布检验有多种方法:1)偏度、峰度、Q-Q图、正态概率纸检验2)卡方拟合优度检验3)Shapiro-Wilk检验4)经验分布拟合优度检验1、正态分布检验第五节正态分布检验1)偏度、峰度、Q-Q图、正态概率纸检验比较直观,但有些粗略。2)卡方拟合优度检验分组不同,拟合的结果可能不同。需要有足够大的样本含量。对于连续型变量的优度拟合,卡方检验并不是理想的方法。将数据排序后一分为二折返配对,计算差值,查系数表ak(n),构造W统计量。Shapiro-WilkW

统计量2、Shapiro-Wilk检验法(小样本8≤n≤50)第五节正态分布检验统计量W的取值范围为[0,1]在原假设H0:数据服从正态分布下,统计量W应该接近于1,反之应接近于0,在给定显著性水平α下,使得:第五节正态分布检验其拒绝域为:2、S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论