数理统计方差与标准差_第1页
数理统计方差与标准差_第2页
数理统计方差与标准差_第3页
数理统计方差与标准差_第4页
数理统计方差与标准差_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、心理和教育方面的实验或调查所得到的数据,大都具有随机变量的性质。而对这些随机变量的描述,仅有前一章所讲集中趋势的度量是不够的。集中量数只描述数据的集中趋势和典型情况,它还不能说明一组数据的全貌。数据除典型情况之外,还有变异性的特点。对于数据变异性即离中趋势进行度量的一组统计量,称作差异量数,这些差异量数有标准差或方差,全距,平均差,四分差及各种百分差等等。第一节    方差与标准差      方差(Variance)也称变异数、均方。作为统计量,常用符号S2表示,作为总体参数,常用符号2表示。它是每个数据

2、与该组数据平均数之差乘方后的均值,即离均差平方后的平均数。方差,在数理统计中又常称之为二阶中心矩或二级动差。它是度量数据分散程度的一个很重要的统计特征数。标准差(Standard deviation)即方差的平方根,常用S或SD表示。若用表示,则是指总体的标准差,本章只讨论对一组数据的描述,尚未涉及总体问题,故本章方差的符号用S2,标准差的符号用S。符号不同,其含义不完全一样,这一点望读者能够给予充分的注意。一、方差与标准差的计算(一)未分组的数据求方差与标准差基本公式是: (3l a) (31b)表31说明公式31a与31b的计算步骤表31 未分组的数据求方差与标准差Xi XiXx x2(X

3、iX)2 Xi2 6 5 7 4 6 8 0 -1 l -2 0 2 0 l 1 4 0 4 36 25 49 16 36 64 N6 Xi36 x0 x210 Xi2226   应用31公式的具体步骤:先求平均数X36/66;计算Xi -X;求(Xi - X)2即离均差x2;将各离均差的平方求和 (x2);代入公式31a与31b求方差与标准差。具体结果如下: S2=10/6=1.67 (二)已分组的数据求标准差与方差数据分组后,便以次数分布表的形式出现,这时原始数据不见了,若计算方差与标准差可用下式: (33a) (33b)式中d(Xc - AM) / i,AM为估计平均数Xc为各

4、分组区间的组中值f为各组区间的次数N=f 为总次数或各组次数和i为组距。下面以表18数据为例,说明分组数据求方差与标准差的步骤:表32 次数分布表求方差与标准差   分组区间 Xc f d fd fd2 计 算 96- 93- 90- 87- 84- 81- 78- 75- 72- 69- 66- 63- 60- 97 94 91 88 85 82 79 76 73 70 67 64 61 2 3 4 8 11 17 19 14 10 7 3 l 1 6 5 4 3 2 1 0 1 2 3 4 5 6 12 15 16 24 22 17 0 14 20 21 12 5 6 72 75

5、 64 72 44 17 0 14 40 63 48 25 36   S2=32* (570/100 -(28/100)2)=50.5944   S7113     i=3   f100   fd=28 fd2=570       具体步骤: 设估计平均数AM,任选一区间的Xc充任; 求d 用f乘d,并计算fd; 用d与fd相乘得fd2,并求fd2; 代入公式计算。二、方差与标准差的意义 方差与标准差是表示一组数据离散程度的最好的指标。其值越大,说明离散程度大,其值小说明数据比较集中,它是统计描

6、述与统计分析中最常应用的差异量数。它基本具备一个良好的差异量数应具备的条件:反应灵敏,每个数据取值的变化,方差或标准差都随之变化;有一定的计算公式严密确定;容易计算;适合代数运算;受抽样变动的影响小,即不同样本的标准差或方差比较稳定;简单明了,这一点与其他差异量数比较稍有不足,但其意义还是较明白的。除上述之外,方差还具有可加性特点,它是对一组数据中造成各种变异的总和的测量,能利用其可加性分解并确定出属于不同来源的变异性(如组间、组内等)并可进一步说明每种变异对总结果的影响,是以后统计推论部分常用的统计特征数。在描述统计部分,只需要标准差就足以表明一组数据的离中趋势了。标准差比其他各种差异量数具

7、有数学上的优越性,特别是当已知一组数据的平均数与标准差后,便可知占一定百分比的数据落在平均数上下各两个标准差,或三个标准差之内。对于任何一个数据集合,至少有1一1/h2的数据落在平均数的h(大于1的实数)个标准差之内。(切比雪夫定理)。例如某组数据的平均数为50,标准差是5,则至少有75(1一1/22)的数据落在50-2*5至50+2*5即40至60之间,至少有889(1一1/32)的数据落在50-3*5至50+3*53565之间 (h=2,1-1/h2=1-1/22=3/4=75%,h=3, -1/h2=1-1/32=8/9=88.9%)。如果数据是呈正态分布,则数据将以更大的百分数落在平均

8、数上下两个标准差之内(95)或三个标准差之内 (99.)。三、由各小组的标准差求总标准差 由于方差具有可加性特点,在已知几个小组的方差或标准差的情况下,可以计算出几个小组联合在一起的总的方差或标准差。这种计算常在科研协作中应用,例如先了解各班学生情况,再了解全年级情况;或先了解各年级情况,再了解全校总的情况。但这种方差或标准差的合成,只有在应用同一种观测手段,测量的是同一个特质,只是样本不同时,才能应用。计算总方差或总标准差的公式如下; (34a) (34b) 式中 为总方差 为总标准差 N1Nn为各小组数据个数 为总平均数 为各小组的平均数四、标准差的应用 (一)差异系数(Coefficie

9、nt of variation)当所观测的样本水平比较接近,而且是对同一个特质使用同一种测量工具进行测量时,要比较不同样本之间离散程度的大小,一般可直接比较标准差或方差的大小-标准差的值大说明该组数据较分散,若标准差小,则说明该组数据较集中。标准差的单位与原数据的单位相同,因而有时称它为绝对差异量。在对不同样本的观测结果的离散程度进行比较时,常会遇到下述情况:两个或多个样本所测的特质不同,即所使用的观测工具不同,如何比较其离散程度?即使使用的是同+种观测工具,但样本的水平相差较大时,如何比较它们的离散程度?在第一种情况下,标准差的单位不同,显然不能直接比较标准差的大小。第二种情况虽然标准差的单

10、位相同,但两样本的水平不同,这可从平均数的大小明显不同确定。通常情况下,平均数的值较大,其标准差的值一般也较大,平均数的值较小,其标准差的值也较小。这种情况下,若直接比较标准差取值的大小,借以比较不同样本的分散情况是无意义的。可见,上述两种情况下,若用绝对差异量进行直接比较以确定其分散程度的大小是不行的,这时可用相对差异量进行比较。最常用的相对差异量就是差异系数。差异系数,又称变异系数、相对标准差等,通常用符号CV表示,其计算如下,CV=S / M * 100 (35) 式中S为某样本的标准差M为该样本的平均数。差异系数在心理与教育研究中常用于:同一团体不同观测值离散程度的比较,对于水平相差较

11、大,但进行的是同一种观测的各种团体,进行观测值离散程度的比较。例2 已知某小学一年级学生的平均体重为25公斤,体重的标准差是3.7公斤,平均身高110厘米,标准差为6.2厘米,问体重与身高的离散程度哪个大?解: CV体重3.7 / 25 * 10014.8 CV身高6.2 / 110 * 1005.64通过比较差异系数可知,体重的分散程度比身高的分散程度大(14.8>5.64)。例3 通过同一个测验,一年级(7岁)学生的平均分数为60分,标准差为4.02分,五年级(14岁)学生的平均分数为 80分,标准差为6.04分,问这两个年级的测验分数中哪一个分散程度大?解: CV一年级4.02 /

12、 60 * 100= 6.7 CV五年级6.04 /80 * 100= 7.55答;五年级的测验分数分散程度大。在应用差异系数比较相对差异大小时,一般应注意测量的数据要保证具有等距的尺度,这时计算的平均数和标准差才有意义,应用差异系数进行比较也才有意义。另外,观测工具应具备绝对零,这时应用差异系数去比较分散程度效果才更好。因此,差异系数常用于重量、长度、时间,编制得好的测验量表范围内。第三,差异系数只能用于一般的相对差异量的描述上,至今尚无有效的假设检验方法,因此对差异系数不能进行统计推论。(二)标准分数(standard score)标准分数又称基分数或z分数,是以标准差为单位表示一个分数在

13、团体中所处位置的相对位置量数。1计算公式; Z = (X )/ S (36)式中X代表原始数据,X为一组数据的平均数,S为标准差。从公式36可以明了,Z分数的意义,它是一个数与平均数之差除以标准差所得的商数,它无实际单位。如果了个数小于平均数,其值为负数,如果一个数的值大于平均数,其值为正数,如果一个数的值等于平均数,其值为零。可见Z分数可以表明原数目在该组数据分布中的位置,故称为相对位置量数。例4 某班平均成绩为90分,标准差为3分,甲生得942分,乙生得891分,求甲乙'学生的Z分数各是多少?解:根据公式36Z甲=(94.290) / 3 = 1.4Z乙=(89.190) / 3

14、= -0.3Z分数表示其原分数在以平均数为中心时的相对位置,这比使用平均数和原分数表达了更多的信息。 2Z分数的性质 在一组数据中所有由原分数转换得出的z分数之和为零,其Z分数的平均数亦为零。一组数据中各z分数的标准差为1。3Z分数的应用Z分数可用于比较分属性质不同的观测值在各自数据分布中相对位置的高低。因为z分数可以表明各原数目在该组数据分布中的相对位置,它无实际单位。这样不同观测值的比较便可进行。这里所说的数据分布中相对位置包括两个意思,一个是表示某原数目以平均数为中心以标准差为单位所处距离的远近与方向;另一个意思是表示某原数目在该组数据分布中的位置,即在该数目以下或以上的数据各有多少,如

15、果在一个正态分布(或至少是一个对称分布)中,这两个意思可合二为一。但在一个偏态分布中,这两个意思就不能统一。这一点在应用z分数时要特别注意。例如有一人的身高是170厘米,体重是65公斤(也可以是另一人的体重),究竟身高还是体重在各自的分布中较高?这是属于两种不同质的观测,不能直接比较。但若我们知道各自数据分布的平均数与标准差,这样我们可分别求出z分数进行比较。设Z身高1.700.5,Z体重65=1.2,则可得出该人的体重离平均数的距离要比身高离平均数的距离远,即该人在某团体中身高稍偏高,而体重更偏重些。如果该团体,身高与体重的次数分布为正态,我们还可更确切地知道该人的身高与体重在次数分布的相对

16、位置是多少,从而进行更确切(或更数量化)的比较。 、当已知各不同质的观测值的次数分布为正态时,可用z分数求不同的观测值的总和或平均值,以示在团体中的相对位置。在算术平均数一节中讲到,在计算平均数时,要求数据必须同质,否则会使平均数没有意义,但有时需要将不同质的数据合成,这时可采用Z分数。例如已知高考的各科成绩分布是正态分布,但是由于各科的难易度不同,因此,各科成绩就属于不同质的数据。以前常采取总和分数或求平均分数的方法,这是不科学的。如果应用Z分数求总和或平均数则更有意义。类似这种情况有期末成绩总和等。举例如下表3-3 利用Z分数求总和  科目 原始分数 甲 乙 全体考生 平均数 标

17、准差 Z分数 甲 乙 语文 政治 外语 数学 理化 85 89 70 62 68 72 53 40 72 87 70 lO 65 5 69 8 50 6 75 8 1.500 1.900 1.000 -0.600 0.125 0.375 0.500 -1.667 0.315 1.500 总计 348 350   2.500 1.505 假设二例是高等学校入学考试两名考生甲与乙的成绩分数。如果按总分录取则取乙生,若按标准分数录取则应取甲生;为何会出现如此悬殊的差别?这是由于不恰当地计算总和分数造成的,因为各科成绩难易度不同,分散程度也不同;:各门学科的成绩分数是不等价的,亦即数据是不同

18、质的,这时应用总和分数不够科学,故此出现这类问题,科学的方法应当用Z分数合成。从Z分数可知甲生多数成绩是在平均数以上,即使有两种成绩低于平均数,差别也小。总之成绩较稳定且在分布较高处,而乙生则不然。可见应用Z分数更趋合理。表示标准测验分数 经过标准化的心理与教育测验,如果其常模分数分布接近正态分布,常常转换成正态标准分数。转换公式为 Z= aZ + b (37)式中Z为正态标准分数,Z(X )/,a、b为常数,为测验常模的标准差。例如早期的智力测验所测的智力指标为智商(IQ) 这种表示智力的方法有一定局限性,因为人到成年以后智力不再随年龄而增长,到了老年甚至智力有衰退。要用上面的公式表示,则不好。因此,韦克斯勒(DWechsler)制定新的智力量表时则用离差智商的概念表示一个人在同龄团体中的相对智力。 IQ=15Z+100(WAIS)韦氏成人智力量表,其中Z = (X )/ S ,X为原分数, 为某团体(或年龄组)的平均数,S为该年龄组的标准差。离差智商的常数100与15实际为总平均数与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论