数理统计中自由度的理解和应用_第1页
数理统计中自由度的理解和应用_第2页
数理统计中自由度的理解和应用_第3页
数理统计中自由度的理解和应用_第4页
数理统计中自由度的理解和应用_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.数理统计中自由度的理解和应用摘 要:数理统计是一门以概率论为基础的应用学科,应用于许多领域。文章对数理统计作出了一个深入浅出的介绍,并对数理统计中自由度的理解作了较为全面的阐述,并在此基础上给了自由度科学的定义。通过列举自由度在统计学中的应用,旨在全面认识自由度。关键字:数理统计;自由度数理统计是数学的一个分支学科,是一门以概率论为基础的应用学科。随着研究随机现象规律性的科学概率论的发展,应用概率论的结果更深入地分析研究统计资料,通过对某些现象的频率的观察来发现该现象的内在规律性,并作出一定精确程度的判断和预测;将这些研究的某些结果加以归纳整理,逐步形成一定的数学概型,这些组成了数理统计的内

2、容。数理统计在自然科学、工程技术、管理科学及人文社会科学中得到越来越广泛和深刻的应用,其研究的内容也随着科学技术和政治、经济与社会的不断发展而逐步扩大,但概括地说可以分为两大类:试验的设计和研究,即研究如何更合理更有效地获得观察资料的方法;统计推断,即研究如何利用一定的资料对所关心的问题作出尽可能精确可靠的结论,当然这两部分内容有着密切的联系,在实际应用中更应前后兼顾。它以随机现象的观察试验取得资料作为出发点,以概率论为理论基础来研究随机现象.根据资料为随机现象选择数学模型,且利用数学资料来验证数学模型是否合适,在合适的基础上再研究它的特点、性质和规律性。例如灯泡厂生产灯泡,将某天的产品中抽出

3、几个进行试验,试验前不知道该天灯泡的寿命有多长,概率和其分布情况.试验后得到这几个灯泡的寿命作为资料,从中推测整批生产灯泡的使用寿命、合格率等。为了研究它的分布,利用概率论提供的数学模型进行指数分布,求出值,再利用几天的抽样试验来确定指数分布的合适性。简而言之,数理统计以概率论为基础,根据试验或观察得到的数据,来研究随机现象统计规律性的学科。它的任务就是研究有效地收集数据,科学地整理与分析所获得的有限的资料,对所研究的问题,尽可能地作出精确而可靠的结论。数理统计研究问题的方式,不是对所研究对象的全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总

4、体进行推断。数理统计方法具有“部分推断整体”的特征。下面引入一些数理统计中的术语:抽样、抽样分布、总体与样本、统计量、自由度、几个常用的分布、正态总体统计量的分布但是大多数数理统计教材中介绍自由度时,往往一笔带过,没有给出明确的定义或足够的解释,增加了自由度理解学习具有的难度,尢其对于初学者来说,自由度就像一个黑箱子,难以捉摸。数学中的自由度一般是指能够自由取值的变量个数。数理统计中的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,自由度通常记为df。数理统计上的这个定义可以从如下几个方面来理解:第一,“统计量”(如样本数据的平均数X、样本数据的标准差)是研究

5、者通过调查样本的数据人为地计算出来的,而“参数”(如总体均值、总体标准差)是被调查的总体所客观存在的,这是两者的区别。在统计学的理论层面上,要求或者假定统计量是参数的无偏估计,认为二者是相等的(在实际研究中,由于抽样的偏差,可能导致两者不相等,但对于这种情况,研究者是无法知道的,知道就没有抽样调查的必要了)。在理论假设下,统计量也就和参数一样被看作是客观的、确定的。第二,既然在理论上统计量被要求是确定的,那么在实际层面上,计算统计量的那组数据就不是完全自由的。这一点很重要,因为自由度中“自由”的含义就是相对这个“确定”条件而言的。正是统计量的这种“确定性”限制了与之相关的一组数据的自由度,也就

6、是说,一组数据不是可以完全自由取值的,它必须支持“统计量与总体参数相等”的理论假设。这就是自由度存在的理由。有必要举例来进一步说明“独立或能自由变化的数据”的含义。在心理、社会等领域的测量或者调查过程中,研究者设置了一些变量(如智商、收入等),这些变量是随机变量。所谓随机变量是指,在调查总体中,变量的取值范围及其所对应的频次(两者合起来称为变量的分布)是确定的,但在一次具体的抽样调查中,变量的取值及其所对应的频次则是不确定的,但在大样本的抽样调查中,变量的分布又是能体现总体的特征和规律的。例如:研究者在调查某个城市在岗职女工的平均收入时,从总体40000万人中,研究者随机抽取了200人进行调查

7、。在这个例子中,总体40000个在岗女工的收入的平均数是总体参数,是客观的、确定的,尽管研究者不知道。通过随机抽样和问卷调查,研究者获得了200人的收入的数据。运用这组数据可以算出样本的平均数,它是统计量。由于在理论上要求统计量与参数相等,所以这200个数据中只有199个数据可以“自由”变动,所以,这组数据在求平均数这个统计量时的自由度就是:K=200-1=199。第三,在上面的例子中,研究者只抽了一个200人的样本,而在实际层面,这200人的收入是确定的,因为每个被调查者只有一个确定的收入。既然这样,“199个数据可以自由变动”是什么意思呢?这需要回到理论上去回答。在理论上,从20000人中

8、随机抽取200人有种抽取方法,也就是说,在理论上研究者可以得到个不同的、样本容量均为200人的样本,这个数据量是很大的(没有必要确切知道它的值)。这样,在理论上就存在很多组调查数据(虽然研究者确实只调查了一个200人的样本,也只获得了一组数据),每组都有200个数据。每组数据在理论上都有对应的统计量,正是这些统计量的分布,构成了统计学中所说的抽样分布,它是基础统计学的核心内容。所以,仅仅在理论上,这200个数据中的199个数据是可以随不同样本而变化的、自由的。当然,话说回来,这种自由并非是绝对的,它们也只能在总体的取值范围内变动,例如,关于“收入”这个变量的取值就不可能为负值。众所周知,很多统

9、计量的计算公式中都有自由度的概念,可为什么同样是计算标准差,总体标准差的自由度是n,而样本标准差的自由度就是n-1?为什么其它公式中的自由度还有n-2、n-3呢?它到底是什么含意?在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df=n-k(df自由度,n样本个数,k约束条件个数),n-1是通常的计算方法,更准确的讲应该是n-k,n表示“处理”的数量,k表示实际需要计算的参数的数量。如需要计算2个参数,则数据里只有n-2个数据可以自由变化。例如,一组数据,平均数一定,则这组数据有n-1个数据可以自由变

10、化;如一组数据平均数一定,标准差也一定,则有n-2个数据可以自由变化。第四,自由度是谁的?从前面的分析中可以知道,自由度产生于这样的背景下:运用一组数据来求“统计量”。离开“一组数据”就不可能有“统计量”,不计算“统计量”,“一组数据”就失去了科学的价值。所以,“自由度”应该是“统计量”和“一组数据”所共同拥有的。当然,为了方便,我们说“统计量的自由度”或者“一组数据的自由度”也都是可以接受的。第五,统计学上的自由度包括两方面的内容:首先,在估计总体的平均数时,由于样本中的n个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。在估计总体的方差时,使用的是离差平方和。只要

11、n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。例如,有一个有4个数据(n=4)的样本, 其平均值m等于5,即受到m=5的条件限制,在自由确定4、2、5三个数据后, 第四个数据只能是9,否则m5。因而这里的自由度=n-1=4-1=3。推而广之,任何统计量的自由度=n-限制条件的个数。其次,统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归

12、方程的自由度为p-1。在一个包含n个个体的总体中,平均数为m。知道了n-1个个体时,剩下的一个个体不可以随意变化。为什么总体方差计算,是除以n而不是n-1呢?方差是实际值与期望值之差平方的期望值,所以知道总体个数n时方差应除以n,除以n-1时是方差的一个无偏估计。上述从不同角度对自由度的概念与定义进行了阐述,我们认为,在统计学上,自由度是建立在统计量之上的概念,它是统计量的数学特征。至此,我们可以给出数理统计中自由度的科学定义:自由度是指在一组样本数据中,能够自由取值且不违反给定约束条件的样本数值的个数。这样,我们就较科学地将实际样本容量和自由度区别开来。下面将进一步举例说明自由度在不同方面的

13、应用。一、样本方差的自由度许多教科书在列出样本方差的计算公式时都没有说分子n-1(n为样本容量)就是自由度,也很少解释清楚为什么是除以n-1而不是n。假设一个容量为10的样本,如果没有其他关于该样本的信息或约束的话,任意从总体中抽取的10个观察值都可以形成这样的样本。也就是说,这10个观察值可以任意地被从总体中抽取的其他观察值所取代。当我们想要计算样本方差时,必须先算出样本均值,设=35。此时,这10个观察值就不能任意地被总体中抽取的其他观察值所取代了。因为n=350,10个观察值的总和必须等于350。这样一来,样本中只有9个观察值可以随意改变,因为如果任意9个观察值确定了,第10个观察值也被

14、这9个值确定了。因此在计算样本方差时自由度等于9。有效样本容量被减少为n-1,在此基础上,我们可以很好地理解为什么作为均方差的样本方差计算时,要用自由度来平均而非用n平均。这也说明了如果从样本数据中估计了一个总体参数,自由度就会减少一个。因为样本方差的自由度为n-1,所以在比较两个独立总体的均值大小的t检验中,合并方差的自由度等于+-2=(-1)+(-1);在比较两个独立总体的方差大小的F检验中,F统计量的自由度为(-1,-1),其中,分别为两个样本的容量。二、方差分析和回归中的自由度由Fisher创造的重要方法方差分析中也体现了自由度的思想。由于自由度代表着有效样本容量,我们计算均方时必须用

15、自由度去除平方和。假设在方差分析中共有n个观察值,将总平方和SST除以总自由度n-1就可得到总方差。对于K个处理,组间平方和 ,其中和分别为第i个处理的样本容量和样本均值。当SSTR被计算出来时,就能被SSTR和其他K-1个值决定。所以计算组间的均方差时自由度为K-1。因为残差平方和SSE等于K个处理的组内离差平方和,所以残差的均方差有个自由度,这里运用了自由度的可加性。值得注意的是,总自由度,它被分解成组间均方差的自由度与残差均方差的自由度的和。类似地,自由度也出现在多元回归分析的相关内容中。假设k为解释变量(包括常数项)的个数,调整,和分别用各自的有效样就可以确定整张表的信息内容。也就是说

16、列联表有个自由度。可以想象,一张r行c列的列联表,在各行和与列和给定的情况下,我们只要填上任意行列的频数,表中其他的频数也会随之确定下来,样本容量来平均。三、独立性检验中的自由度在独立性的卡方检验中,列联表是必不可少的。 我们运用列联表来说明其中自由度的思想。见表1,一张23的列联表,它的行和与列和已经给定了。如果不能给出更多的频数,这张表是有空缺的。如果填入一个频数,如=45,另一个频数就可以被确定=45。倘若再给出一个频数,那么整个列联表就填列完整了。如令=15,则=5,=20,=20。对于2行3列的列联表,只要给出2个独立的必要的信息,我们就可以确定整张表的信息内容。也就是说列联表有(r-1)(c-1)=(2-1)(3-1)=2个自由度。可以想象,一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论