第三章次数分布和平均数、变异数zhao_第1页
第三章次数分布和平均数、变异数zhao_第2页
第三章次数分布和平均数、变异数zhao_第3页
第三章次数分布和平均数、变异数zhao_第4页
第三章次数分布和平均数、变异数zhao_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章第三章 次数分布和平均数、变异数次数分布和平均数、变异数第一节第一节 总体及其样本总体及其样本第二节第二节 次数分布次数分布第三节第三节 平均数平均数第四节第四节 变异数变异数第一节第一节 总体与样本总体与样本1. 1.数据的变异和趋中性数据的变异和趋中性 数据数据(data):在科学试验或调查过程中,对在科学试验或调查过程中,对研究对象的某些特征、特性进行观察记载得到的数研究对象的某些特征、特性进行观察记载得到的数字资料的总称。字资料的总称。 数据是千差万别,各不相同,这就是数据的数据是千差万别,各不相同,这就是数据的变异变异性性,也是数据的最基本特征。,也是数据的最基本特征。 数据除

2、了变异的特征外,还具有数据除了变异的特征外,还具有趋中性趋中性,即一,即一组数据中数字位于平均数附近的分布较多,离平均组数据中数字位于平均数附近的分布较多,离平均数越远,分布越少。数越远,分布越少。2. 2.变数和变量变数和变量 变数(变数(variable):相同性质的事物间表现变异相同性质的事物间表现变异性或变异特征的数据。性或变异特征的数据。如作物的株高、抽穗期、穗如作物的株高、抽穗期、穗粒数、产量,植株的害虫头数、发病率等。粒数、产量,植株的害虫头数、发病率等。 变数的某一具体数值称为变数的某一具体数值称为变量变量(variatevariate)或或观测观测值值(observed va

3、lueobserved value),用英文大写字母表示,并附),用英文大写字母表示,并附下角码。如有一个变数,用下角码。如有一个变数,用y表示,表示,yi 表示某一具表示某一具体观测值;如有多个变数,可分别用体观测值;如有多个变数,可分别用X、Y、Z等表等表示。示。变数变数 连续性变数连续性变数是指观测值在一定范围内可以取任何是指观测值在一定范围内可以取任何一个数值,一个数值,这些观测值一般是通过这些观测值一般是通过测量或称量测量或称量的方法的方法获得的。如作物的株高、穗长、粒重、产量等。获得的。如作物的株高、穗长、粒重、产量等。 间断性变数间断性变数是指观测值只能取是指观测值只能取0或正整

4、数的变数,或正整数的变数,其观测值一般通过其观测值一般通过观察和计数观察和计数的方法获得的。如昆虫的方法获得的。如昆虫的头数、病菌的个数、作物的穗粒数和穗数等。的头数、病菌的个数、作物的穗粒数和穗数等。连续性变数连续性变数(continuous variable)间断性变数间断性变数(discontinuous or discrete variable)3. 3.总体和样本总体和样本 总体(总体(population or universepopulation or universe):根据研究目的:根据研究目的而确定的,而确定的,具有共同性质的个体所组成的集团具有共同性质的个体所组成的集团,

5、或者说是整个研究对象中每个个体某一变数所有或者说是整个研究对象中每个个体某一变数所有观测值的总称观测值的总称。 总体中每一个个体称为总体中每一个个体称为总体单位总体单位。总体中的个体。总体中的个体数目数目 称为称为总体单位数总体单位数或或总体容量总体容量,常用大写,常用大写 N N 表示。表示。 根据总体全体观测值算出的根据总体全体观测值算出的总体特征数总体特征数称为称为参数参数(parameter)。参数常用希腊字母表示。如总体平参数常用希腊字母表示。如总体平均数均数 ,方差,方差 2,标准差标准差 等。等。 按总体中的个体数目可分为:按总体中的个体数目可分为:无限总体无限总体有限总体有限总

6、体 总体往往比较大,了解总体是很困难的,通常是总体往往比较大,了解总体是很困难的,通常是从总体中抽出一部分有代表性的个体或观测值来调查,从总体中抽出一部分有代表性的个体或观测值来调查,这一部分个体或观测值称为这一部分个体或观测值称为样本样本(sample)。3. 3.总体和样本总体和样本 样本中的个体数称为样本中的个体数称为样本单位数样本单位数或或样本容量样本容量。样。样本容量用小写字母本容量用小写字母 n 表示。表示。n30为大样本,为大样本, n30为为小样本。小样本。 根据样本所有观测值计算出的根据样本所有观测值计算出的样本特征数样本特征数称为称为统统计数计数或或统计量(统计量(stat

7、astic)。 样本统计数常用英文字母表示。例如样本平均数样本统计数常用英文字母表示。例如样本平均数 ,方差方差S2,标准差标准差S等等。y第二节第二节 次数分布次数分布 试验资料的性质试验资料的性质 农业试验中所得的数据,因所研究的性状、特性农业试验中所得的数据,因所研究的性状、特性不同而有不同的性质,一般可以分为两大类:不同而有不同的性质,一般可以分为两大类:一、一、数量性状资料数量性状资料1 1、离散型或间断型随机变数:、离散型或间断型随机变数:(由计数或测量方式得到由计数或测量方式得到) 是指用计数方法获得是指用计数方法获得的数据,如基本苗数、分蘖数等,其各观测值必的数据,如基本苗数、

8、分蘖数等,其各观测值必须以整数表示。须以整数表示。 指由称量、度量或测量等方法指由称量、度量或测量等方法取得到的数据,其各个数据并不限于整数。如粒取得到的数据,其各个数据并不限于整数。如粒重、株高等。重、株高等。2 2、连续型随机变数:、连续型随机变数:二、二、质量性状资料质量性状资料 ( (指能观察而不能量测的性状指能观察而不能量测的性状) )1 1、按性状的属性把样本个体分为若干类,数出各、按性状的属性把样本个体分为若干类,数出各类个体的数目;这类资料有时换算为百分率或数类个体的数目;这类资料有时换算为百分率或数。如调查如调查300300株碗豆的花色,其中紫花植株数为株碗豆的花色,其中紫花

9、植株数为220220株,白花植株为株,白花植株为8080株。株。2 2、给予每类性状以相当数量的方法:、给予每类性状以相当数量的方法:如小麦品种如小麦品种芒的有无,可令有芒种子为芒的有无,可令有芒种子为1 1,无芒种子为,无芒种子为0 0;等等;等等。这种资料可按间断型变数处理。这种资料可按间断型变数处理。一、一、数量性状资料数量性状资料( (由计数或测量方式得到由计数或测量方式得到) )这类资料通常可用两种方法取得数据:这类资料通常可用两种方法取得数据:一、一、数量性状资料数量性状资料l 次数分布次数分布 从一个总体随机抽取从一个总体随机抽取n个个体进行调查,得到个个体进行调查,得到n个个观

10、测值,不同数值(或区间)的个体数目(出现次数观测值,不同数值(或区间)的个体数目(出现次数)不尽相同,这些次数将会按一定规律分配给不同的)不尽相同,这些次数将会按一定规律分配给不同的数值数值( (或区间或区间) ),这种分布情况叫,这种分布情况叫次数分布次数分布。 把次数分布以表的形式列出来,得把次数分布以表的形式列出来,得次数分布表次数分布表;以图的形式绘出来,得以图的形式绘出来,得次数分布图次数分布图。 间断性变数资料的整理间断性变数资料的整理1 1、若变数可取值个数不多时以自然单位进行分组、若变数可取值个数不多时以自然单位进行分组例如例如100 个麦穗的每穗小穗数181517191615

11、201819171718171618201917161815161817181717161917 因为取值个数只有因为取值个数只有15 15 、1616、1717、1818、1919和和2020等六种,等六种,所以以自然单位分组。所以以自然单位分组。第二节第二节 次数分布次数分布2 2、若变数可取值个数太多,则可按取值大小,从小、若变数可取值个数太多,则可按取值大小,从小 到大相邻若干个值合为一组的方法进行整理(一般到大相邻若干个值合为一组的方法进行整理(一般 要求组距相等)。要求组距相等)。( (课本课本P37P37表表3.33.3)第二节第二节 次数分布次数分布例:例:200个稻穗的穗粒数

12、,变异幅度为个稻穗的穗粒数,变异幅度为27-83粒。粒。连续性变数资料的整理连续性变数资料的整理 它的整理方法有以下它的整理方法有以下5个步骤:个步骤:(这个步骤可以省略这个步骤可以省略)1. 数据排序;数据排序;2. 求极差;求极差;3. 确定组数和组距;确定组数和组距;4. 确定组限,计算组中值;确定组限,计算组中值;5. 数据归组。数据归组。第二节第二节 次数分布次数分布以课本以课本p.38的表的表3.4为例说明。为例说明。R = Max(x) - Min(x) = 254 - 75 = 179组数:拟分为组数:拟分为12组组组距组距 = 1791214.915找出资料中的最大观察值和最

13、小找出资料中的最大观察值和最小观察值,将其相减得资料的变异观察值,将其相减得资料的变异范围范围(称为极差称为极差)。如何确定分为多少组才合适?应参考观察值的如何确定分为多少组才合适?应参考观察值的个数、极差的大小和能否反映出资料的真实面个数、极差的大小和能否反映出资料的真实面貌等方面。貌等方面。p.38表表3.5列出了样本大小与组数的列出了样本大小与组数的关系。本例中,样本大小为关系。本例中,样本大小为140,初拟分成,初拟分成12组。将极差除以组数得到组距的近似数。组。将极差除以组数得到组距的近似数。组限是指各组的界限,数值小的一端称下限,组限是指各组的界限,数值小的一端称下限,数值大的一端

14、称上限,上限与下限之差应该等数值大的一端称上限,上限与下限之差应该等于组距,上限与下限的平均数称为组中值,组于组距,上限与下限的平均数称为组中值,组中值就是各组的中点。确定组限、组距、组中中值就是各组的中点。确定组限、组距、组中值的原则是应该能体现数据资料的分布特点并值的原则是应该能体现数据资料的分布特点并便于计算。便于计算。按现在的分组方法情况如何?按现在的分组方法情况如何?分布表的范围分布表的范围=组数组距组数组距=12 15=180,仅,仅比极差多出比极差多出1,将,将1分为两分,加在资料两端。分为两分,加在资料两端。第第1组的下限为:组的下限为:74.5(太靠近数据的最小值太靠近数据的

15、最小值);第第12组的下限为:组的下限为:254.5(太靠近数据的最大值太靠近数据的最大值)似乎太紧了,增加一组看看怎么样?似乎太紧了,增加一组看看怎么样?分分13组,情况如何?组,情况如何?将新增那组的组距分将新增那组的组距分为两份,放在资料两为两份,放在资料两端,第端,第1组的下限变组的下限变成成75 - 15/2 = 67.5;上限变成上限变成67.5+15/2 = 82.5,整个表的组限,整个表的组限就可以列出来了就可以列出来了(p.39表表3.6)。(这个步骤可以省略这个步骤可以省略) 连续性变数资料的整理连续性变数资料的整理 它的整理方法有以下它的整理方法有以下5个步骤:个步骤:1

16、. 数据排序;数据排序;2. 求极差;求极差;3. 确定组数和组距;确定组数和组距;4. 确定组限,计算组中值;确定组限,计算组中值;5. 数据归组。数据归组。第二节第二节 次数分布次数分布以课本以课本p.38的表的表3.4为例说明。为例说明。R = Max(x) - Min(x) = 254 - 75 = 179组数:拟分为组数:拟分为12组组组距组距 = 1791214.915表 3.6 140 行水稻的次数分布组限67.582.582.597.5247.5262.5合计(用打用打“正正”字的方法,计算出应归字的方法,计算出应归入各组的观察值个数。入各组的观察值个数。)丁丁正丁正丁一一27

17、1次数次数140(这个步骤可以省略这个步骤可以省略) 连续性变数资料的整理连续性变数资料的整理 它的整理方法有以下它的整理方法有以下5个步骤:个步骤:1. 数据排序;数据排序;2. 求极差;求极差;3. 确定组数和组距;确定组数和组距;4. 确定组限,计算组中值;确定组限,计算组中值;5. 数据归组。数据归组。第二节第二节 次数分布次数分布以课本以课本p.38的表的表3.4为例说明。为例说明。R = Max(x) - Min(x) = 254 - 75 = 179组数:拟分为组数:拟分为12组组组距组距 = 1791214.915表 3.6 140 行水稻的次数分布组限67.582.582.5

18、97.5247.5262.5合计计算各组的组中计算各组的组中(点点)值值271次数次数1407590255组中值组中值 属性变数资料的整理属性变数资料的整理单项式分组单项式分组 按按属性类别属性类别分组:分组:第二节第二节 次数分布次数分布以课本以课本P39P39的表的表3.73.7为例说明。为例说明。表 3.7 水稻 F2 代米粒分离情况属性分组次数(f)红米非糯96红米糯稻37白米非糯31白米糯稻15合计(n)1791. 1. 方柱形图方柱形图2. 多边形图;多边形图;3. 条形图;条形图;4. 饼图;饼图;l 次数分布图次数分布图适用于表示连续性变数的次数分布;适用于表示连续性变数的次数

19、分布;以课本以课本P39P39的表的表3.63.6的分布为例说明。的分布为例说明。1. 1. 方柱形图方柱形图2. 2. 多边形图多边形图3. 条形图;条形图;4. 饼图;饼图;l 次数分布图次数分布图适用于表示连续性变数的次数分布;适用于表示连续性变数的次数分布;适用于表示连续性变数的次数分布;适用于表示连续性变数的次数分布;以课本以课本P39P39的表的表3.63.6的分布为例说明。的分布为例说明。0510152025075901051201351501651801952102252402552701. 1. 方柱形图方柱形图2. 2. 多边形图多边形图3. 3. 条形图条形图4. 4.

20、饼图饼图l 次数分布图次数分布图适用于表示连续性变数的次数分布;适用于表示连续性变数的次数分布;适用于表示连续性变数的次数分布;适用于表示连续性变数的次数分布;适用于表示间断性和属性变数的资料;适用于表示间断性和属性变数的资料;以课本以课本P37P37的表的表3. 3.2 2、P39P39表表3.73.7的分布为例说明。的分布为例说明。质量性状的变数资料质量性状的变数资料变异范围较小的间断性变数资料变异范围较小的间断性变数资料1. 1. 方柱形图方柱形图2. 2. 多边形图多边形图3. 3. 条形图条形图4. 4. 饼图饼图l 次数分布图次数分布图适用于表示连续性变数的次数分布;适用于表示连续

21、性变数的次数分布;适用于表示连续性变数的次数分布;适用于表示连续性变数的次数分布;适用于表示间断性和属性变数的资料;适用于表示间断性和属性变数的资料;以课本以课本P37P37的表的表3.33.3的分布为例说明。的分布为例说明。适用于表示间断性和属性变数的资料;适用于表示间断性和属性变数的资料;以课本以课本P39P39的表的表3.73.7的分布为例说明。的分布为例说明。表3.7 水稻F2代米粒分离情况属性分组次数(f)红米非糯96红米糯稻37白米非糯31白米糯稻15合计(n)179红米非糯红米糯稻白米非糯白米糯稻第三节第三节 平均数平均数 一、平均数的意义和种类一、平均数的意义和种类算术平均数算

22、术平均数: : 1 1、度量数据资料的趋中性,衡量一组数据的综合水平;、度量数据资料的趋中性,衡量一组数据的综合水平; 中中(位位)数数(median): 众数众数(mode): 几何平均数几何平均数: 所有观察值的总和除以观察值数目所得的商。所有观察值的总和除以观察值数目所得的商。 将资料所有观察值排序后,居于中间将资料所有观察值排序后,居于中间位置的那个观测值的值(如观测值数目为偶数时,则以中位置的那个观测值的值(如观测值数目为偶数时,则以中间两个观测值的算术平均数为中数间两个观测值的算术平均数为中数)。记作:。记作:Md 资料中最常见的一数,或次数分布表中次数资料中最常见的一数,或次数分

23、布表中次数最多的那组的组中值。记作:最多的那组的组中值。记作:Mon个观察值的乘积的个观察值的乘积的n次方根。记作:次方根。记作:G其中以其中以算术平均数算术平均数最为常用。最为常用。一)平均数的作用一)平均数的作用 2 2、可以作为一组数据的代表值与其它数据相比较。、可以作为一组数据的代表值与其它数据相比较。二)平均数的种类二)平均数的种类y 算术平均数算术平均数所有观察值的总和除以观察值数目所得的商。所有观察值的总和除以观察值数目所得的商。 总体平均数总体平均数(population mean):NyNyyyNiiN/).121 (Ny /在不会混淆时记为:在不会混淆时记为:NfyNyfk

24、iii/1对于分组资料:对于分组资料:样本平均数样本平均数(sample mean):nynyyyyniin/).121 (nyy/在不会混淆时记为:在不会混淆时记为:nfynyfykiii/1对于分组资料:对于分组资料:二、平均数计算二、平均数计算三、算术平均数的重要特性:三、算术平均数的重要特性:离均差离均差(1 1)资料中所有观察值的离均差之和为资料中所有观察值的离均差之和为0 0。u离均差的两个重要特性:离均差的两个重要特性:(2 2)资料中所有观察值的离均差平方之和最小。资料中所有观察值的离均差平方之和最小。观察值与整个资料的平均数之间的差。观察值与整个资料的平均数之间的差。ynyy

25、yyyd)(0)/(yynyny10niiiyyyy222()yyyy(2 2) 资料中所有观察值的离均差平方之和最小。资料中所有观察值的离均差平方之和最小。 对于任意实数对于任意实数 有关系:有关系:ya 22()()yayy 证明:记证明:记 则有则有 ya222()yyyy222yayyyy样本各观察值与其平均数的差数的平方的总和,比各观察样本各观察值与其平均数的差数的平方的总和,比各观察值与任意其他数值的差数平方的总和都要小。值与任意其他数值的差数平方的总和都要小。 算术平均数的局限性:算术平均数的局限性: 平均数是最具有代表数据资料整体水平的数平均数是最具有代表数据资料整体水平的数值

26、,但不同数据资料,其平均数的代表性是不值,但不同数据资料,其平均数的代表性是不一样的,因此一样的,因此单用平均数还不足以很好地表达单用平均数还不足以很好地表达一组数据的主要特征一组数据的主要特征。 例如下面两组人例如下面两组人2424岁岁 2626岁岁2525岁岁2525岁岁4949岁岁1 1岁岁两组人的平均年龄都两组人的平均年龄都是是2525岁,你能说这两岁,你能说这两人都是青年人吗人都是青年人吗?第四节第四节 变异数变异数一、变异数的作用及其与平均数的关系一、变异数的作用及其与平均数的关系1 1、变异数的作用:、变异数的作用:变异数主要用来度量数据资变异数主要用来度量数据资料的离中性料的离

27、中性 2 2、变异数与平均数的关系、变异数与平均数的关系对同一组资料来说,变异程度越小,平均数的代表性越对同一组资料来说,变异程度越小,平均数的代表性越好;变异程度越大,平均数的代表性越差。好;变异程度越大,平均数的代表性越差。第四节第四节 变异数变异数极差极差(range) 一组数据的最大值与最小值之差。一组数据的最大值与最小值之差。 即:即:R=Max(y)-Min(y)上例中:上例中:第一组数据的极差为:第一组数据的极差为:R R1 1 = 26-24 = 2 = 26-24 = 2 第二组数据的极差为:第二组数据的极差为:R R2 2 = 49-1 = 48 = 49-1 = 48 可

28、见第二组人的年龄变异大的多。可见第二组人的年龄变异大的多。 极差只考虑了数据中的两个极端值,没有充分利用资极差只考虑了数据中的两个极端值,没有充分利用资料提供的全部信息,而且极端值往往是数据中最不可料提供的全部信息,而且极端值往往是数据中最不可靠的观测值,因此用极差来表示数据资料的变异具有靠的观测值,因此用极差来表示数据资料的变异具有明显的局限性,一般只在观测值较少的情况下使用。明显的局限性,一般只在观测值较少的情况下使用。二、变异数的种类二、变异数的种类 为了解决资料中所有观测值的离均差正负抵消的问为了解决资料中所有观测值的离均差正负抵消的问题,采用先平方后再相加的办法。题,采用先平方后再相

29、加的办法。 由于资料中有些观测值大于平均数,有些观测值小于由于资料中有些观测值大于平均数,有些观测值小于平均数,全资料的离均差之和为。因此不能利用全平均数,全资料的离均差之和为。因此不能利用全资料的离均差之和来衡量资料的变异程度。资料的离均差之和来衡量资料的变异程度。ynyyyyyd)(0)/(yynyny 数据资料的变异取决于观测值的离散程度,这自然数据资料的变异取决于观测值的离散程度,这自然会联想到所有观测值离均差的大小,即观测值与平会联想到所有观测值离均差的大小,即观测值与平均数的差值。第均数的差值。第i个观测值的离均差为个观测值的离均差为 yydii 到底用什么来表示数据资料的变异呢?

30、很显然,必到底用什么来表示数据资料的变异呢?很显然,必须利用所有观测值所反映出的信息。须利用所有观测值所反映出的信息。上例中:上例中:第一组数据的平方和为:第一组数据的平方和为: SSSS1 1 = (24-25) = (24-25)2 2 + (25-25)+ (25-25)2 2 +(26-25) +(26-25)2 2 = 2 = 2第二组数据的平方和为:第二组数据的平方和为: SSSS2 2 = (1-25) = (1-25)2 2 + (25-25)+ (25-25)2 2 +(49-25) +(49-25)2 2 = 1152 = 1152 可见第二组人的年龄变异大的多。可见第二组

31、人的年龄变异大的多。 当资料平均数不是精确数而是含有四舍五入误差时,当资料平均数不是精确数而是含有四舍五入误差时,利用上面的定义公式计算将会引入颇大的计算误差。利用上面的定义公式计算将会引入颇大的计算误差。特别是观测值较多时,计算很麻烦。特别是观测值较多时,计算很麻烦。 离均差平方和离均差平方和简称简称平方和平方和(sum of squares,SS) 可较可较好地衡量资料的变异,定义公式好地衡量资料的变异,定义公式:2()SSyy平方和平方和的计算公式:的计算公式:)2()(222yyyyyySSCyynynyy22222/)(222yyyy22)/(2ynynyynynyy/)(/)(22

32、222() /yn其中其中 简称矫正数,用简称矫正数,用C表示,其定义为资表示,其定义为资料中所有观测值总和的平方除以观测值的个数。料中所有观测值总和的平方除以观测值的个数。222()() /SSyyyyn 对于分组资料,对于分组资料,平方和平方和的计算公式为:的计算公式为:)2()(222yyyyfyyfSSCfyynfynfyfy22222/)(fyyfyfy22222)/(2ynfynfyfynfynfyfy/)(/)(222222/)(ynnfyC其中其中 f 为各组的次数,为各组的次数, 为观测值总数,为观测值总数, 为所有观测值之和,为所有观测值之和, 为平均数。为平均数。校正数为

33、校正数为fynfy / nf 以上例子是两组资料中观测值数目相等的情以上例子是两组资料中观测值数目相等的情况,如果当两组资料中观测值的数目不等时,况,如果当两组资料中观测值的数目不等时,用平方和来表示数据资料的变异性是否仍然用平方和来表示数据资料的变异性是否仍然合适呢?合适呢?上例中,两组数据的平方和分别为:上例中,两组数据的平方和分别为:计算结果与前面公式所得的一样,这里只在计计算结果与前面公式所得的一样,这里只在计算校正数算校正数C C= 75= 752 2/3 /3 时出现一次四舍五入误差。时出现一次四舍五入误差。3/)262524()262524(22221SS23/75187723/

34、)49251 ()49251 (22222SS11523/7530272例如现在有例如现在有2 2个班,个班,I I班有班有2222位同学,位同学,IIII班有班有3030位同位同学,以身高作为考查指标,用学,以身高作为考查指标,用SSSS来比较哪班同学身来比较哪班同学身高的离散程度大,若哪班同学身高的离散程度大就高的离散程度大,若哪班同学身高的离散程度大就发给哪班同学每人一张电影票。试问,是发给哪班同学每人一张电影票。试问,是I I班同学班同学有意见还是有意见还是IIII班同学有意见?班同学有意见?这不公平,因为这不公平,因为IIII班人班人数多。数多。I I班班可以将离均差的平方求平均数,

35、即平方和除以观可以将离均差的平方求平均数,即平方和除以观测值的个数测值的个数方差方差来衡量变异。来衡量变异。 总体方差总体方差(population variance):population variance):NyNSSNii/)(/212 样本方差样本方差(sample variance):sample variance):221/ (1)1()/ ()niisSSnynyNyfNSSkii/)(/212 分类资料分类资料: : 分类资料分类资料: :221/ (1)() / (1)kiisSSnfnyy注意:注意:样本方差不用样本方差不用 n 来除,而用来除,而用 n-1-1来除,这是来

36、除,这是因为用样本平方和来估计总体平方和时总是偏小的缘因为用样本平方和来估计总体平方和时总是偏小的缘故。故。n-1-1称为样本方差的自由度称为样本方差的自由度(degree of freedom,df or DF or )。 用用 来估计来估计 老是偏小。老是偏小。2)(yy2)(y 因为大多数情况下,因为大多数情况下, ,根据离均差的第,根据离均差的第二个重要特性,有关系:二个重要特性,有关系:y22)()(yyy 统计学已经证明,若在计算样本方差时,用统计学已经证明,若在计算样本方差时,用 来除,则样本方差来除,则样本方差 将是总体方差将是总体方差 的无偏估计。的无偏估计。NyNii/)(

37、212) 1/()(22nyys1n方差又称为方差又称为均方均方(Mean SquareMean Square,记为记为MS),MS),是用得最多是用得最多的衡量变异程度的量的衡量变异程度的量。但由于它的单位是原来数据。但由于它的单位是原来数据单位的平方,在实践上难以解释。有时使用方差的单位的平方,在实践上难以解释。有时使用方差的平方根值来衡量数据的变异程度。平方根值来衡量数据的变异程度。方差平方根的正方差平方根的正根值称为根值称为标准差标准差(Standard Deviation)Standard Deviation)。 总体标准差总体标准差(Population SD):Populatio

38、n SD):NNyyNy/ /)(/)(222 样本标准差样本标准差(Sample SD):Sample SD):) 1/(/)() 1/()(222nnyynyys 方差方差和和标准差标准差的的功用功用1 1. .均大于零;均大于零;2 2. .资料中各观测值都加上或减去一个常数,方差和资料中各观测值都加上或减去一个常数,方差和标准差不变;标准差不变;3 3. .资料中各观测值都乘以或除以一个常数资料中各观测值都乘以或除以一个常数a a,方差增方差增加或减少加或减少a a2 2倍,标准差增加或减少倍,标准差增加或减少a a倍倍 方差方差和和标准差标准差的的特性特性 方差和标准差是表示数据资料

39、最常用的变异数,方差和标准差是表示数据资料最常用的变异数,在统计分析中通常用方差来估计和比较变异,用标在统计分析中通常用方差来估计和比较变异,用标准差作为度量变异的标准单位。准差作为度量变异的标准单位。l 但是用但是用方差方差和和标准差标准差来表示数据资料的变异性仍来表示数据资料的变异性仍有其局限性,在日常生活中我们很容易体验到。有其局限性,在日常生活中我们很容易体验到。 如果你到一个商店去购物,你花如果你到一个商店去购物,你花950950元购买一元购买一件标价为件标价为10001000元的商品和花元的商品和花5050元购买一件标价为元购买一件标价为100100元的物品,你的感受有何不同?元的物品,你的感受有何不同? 95

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论