对方差分析(ANOVA)的直观解释及计算_第1页
对方差分析(ANOVA)的直观解释及计算_第2页
对方差分析(ANOVA)的直观解释及计算_第3页
对方差分析(ANOVA)的直观解释及计算_第4页
对方差分析(ANOVA)的直观解释及计算_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对方差分析(ANOVA)的直观解释及计算前言:在网上找资料时感觉网络上对于ANOVA解释大多都仅仅停留在如何计算F-statistic,却鲜有对ANOVA解释。写这篇文章就是希望能给ANOVA一个通俗的解释,让即便是非数学,非统计出身的同学们也能直观的理解他。本文将主要讲单因素方差分析(one-wayANOVA),以后再慢慢讲多因素和其他。首先来说说我们为什么要用ANOVA。在做一些实验时,我们通常会把样本分成不同的组,给予不同的对待。例如,我们想研究某种药物在不同剂量下对人们的作用。我们可能会将病人随机分为同等大小的三组:组每天吃一片,B组每天吃两片,C组每天吃三片。因为我们只研究这个药品计量对病人的影响,所以是单因素(药剂量)分析,如果想要加入别的因素,例如,年龄,就需要用到多因素分析了。在上述实验中,我们给了三种不同的计量,所以这个药物计量因素下有三个水平(level)。实验结束以后,你老板问你,这三组病人的表现有显著的区别吗?这个时候,你就可以使用ANOVA来回答你老板的问题啦。虽然ANOVA叫做方差分析,但是他的目的是检验每个组的平均数是否相同(敲黑板!)。也就是说,ANOVA的零假设(nullhypothesis)是。现在,我们换一个角度考虑这个问题,如果这三组病人的表现并没有显著的区别,那他们其实是同一个总体的三次随机抽样。反过来说,我们想要分析,是不是有一组病人他们的表现非常与众不同,让这组病人不是来自同一个总体。在具体说如何理解ANOVA之前,我们先来说ANOVA有哪些假设。如果你的实验不能满足ANOVA的假设,那你需要考虑别的分析方法或者改变实验设计。ANOVA有主要有以下3个假设:方差的同质性(homogeneityofvariance)。可以理解为每组样本背后的总体(也叫族群)都有相同的方差;族群遵循正态分布;每一次抽样都是独立的。在我们的例子中,每一个病人只能提供一个数据。对于一些实验一个样本需要提供多个数据,有其他相应的ANOVA分析方法。假设我们得到的结果是这样的:现在,我们终于可以来看方差分析。ANOVA中有两个重要概念:组间均方(meansquaredbetween,MSB),相当于每个族群相对于总体的方差;组内均方(meansquarederror,MSE),也就是每个分布自身的方差。下图是这两个概念的一个图像化的理解:有了一个直观的理解以后,我们可以开始说如何计算这两个变量。简单来说,MSE是每组方差的平均值。假设我们的数据是这样:从图中可以看出,MSE来自各组的平均数。所以,同样,看图发现,MSB来自各组平均值的方差。前面说过,如果这三组数据并无显著差别,我们可以将这个实验理解为从同一总体中,随机抽取三组样本。MSB就是总体的方差估计。我们知道,抽样分布的平均值方差是总体方差除以样本大小,即。假设,A,B,C都有34人,最后我们需要做的,就是对比组间均方(MSB)和组内均方(MSE)。最简单的对比方法就是把他们相除,也就是我们常说的F-statistics,即。我们来思考一下,这样的对比会有哪些结果:第一种,MSB大,MSE小,较大。这个情况说明,至少有一个分布相对其他分布较远,且每个分布都非常集中,即每个分布方差较小。所以,我们不能得出三个分布都有相同的均值,于是拒绝H0。一个极端的例子和一个更极端的例子:第二种,MSB小,MSE大,较小。这个情况有两种可能,当然也可以是这两种可能的混合。一是每组的平均值都相对集中,二是每组的方差很大,导致我们无法把每组分开。所以我们无法拒绝零假设。两个极端的例子:第三种,较小。这个时候MSB和MSE比较balance,可能是每组的平均值很集中,且每组方差很小;或者每组的方差较大,平均值也都离的不太远。总之,我们无法很好的剥离出某一组的分布。所以,我们同样无法拒绝零假设。以下是两个普通的例子:以上是对ANOVA的一个总体的理解。接下来说说具体说说如何通过F-statistics来计算P值,从而量化我们的决定。很明显,由于p值很大,所以我们无法拒绝零假设,也就是说ANOVA的结果告诉我们三组平均值相同。看到这里,想必大家也明白了,ANOVA就是把方差拆成两个部分进行对比。为什么要拆成这两部分呢?在我们的实验中,导致每个病人数据不同的原因主要有两方面:我们给病人不同的药物剂量;病人本身不同,比如年轻的病人代谢速度快,有些病人对这个药物比较敏感,等等。第一种不同,我们称之为组间变量,第二种称为组内变量。我们主要关心的是组间变量,病人个体的不同或者其他随机因素导致结果不同我们统统称之为误差。这也解释了为什么,MSB是来自每组平均值的方差,而MSE是来自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论