




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十三章检验与方差分析我们前面已经比较系统地讨论了双样本的参数和非参数检验的问题。现在,我们希望利用一般的方法来检验三个以上样本的差异,检验法和方差分析法就是解决这方面问题的。检验法可以对拟合优度和独立性等进行检验,方差分析法则可以对多个总体均值是否相等进行检验。后者由于通过各组样本资料之间的方差和组内方差的比较来建立服从F分布的检验统计量,所以又称F检验。第一节:拟合优度检验第二节:无关联性检验第三节:方差分析第四节:回归方程与相关系数的检验第一节拟合优度检验运用Z检验、t检验等讨论假设检验的问题,一般要求总体服从正态分布,或者在大样本条件下可以利用渐近正态分布理论来描述抽样分布。也就是说,我们都要直接或间接地假定对象总体具有已知的分布形式,然后对总体的未知参数进行假设检验。如果不知道总体的分布形式,就无法运用t检验法等对总体参数进行假设检验。于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎样检定总体是否具有正态或其他分布形式?拟合优度检验正是就这一问题而言的检验方法。第十一章最后一节,我们将累计频数检验用于经验分布与理论分布的比较,实际已经提供了拟合优度检验的一种方法。拟合优度检验与累计频数拟合优度检验相对应,在评估从经验上得到的频数和在一组特定的理论假设下期望得到的频数之间是否存在显著差异时,是一种更普遍的检验方法。现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,红花植株与白花植株的数目应为3∶1。但由于随机性,观察结果与3∶1理论值总有些差距。因此有必要去考察某一大小的差距是否已构成否定3∶l理论的充分根据。这正是我们所讨论的拟合优度检验的问题。解决这类问题的工具,是卡·皮尔逊在1900年发表的一篇文章中引进的所谓检验法。
1.问题的导出首先把问题表述成一般模式。设一总体包含c种可区别的个体。根据某种理论或纯粹的假设,第i种个体出现的概率应为某个已知的数Pi(i=1,2,…,c),有Pi>0,=1。这一组概率(P1,P3,…,Pc)就构成了我们的理论分布。现在在该总体中随机地抽取一个容量为n的样本,发现其中第I种个体的数目为fi(i=1,2,…,c),并有=n。我们要据此检验理论分布。用概率论的语言可以这样说,设对象总体中随机变量X有c种取值。当X的取值是xi时,按零假设,其总体分布等于理论分布,即
P()=Pi
(i=1,2,…,c)
例如,就孟德尔的3∶1理论来说,c=2,P(x1)=3/4,P(x2)=1/4。现在从该总体中随机地抽取一个容量为n的样本,发现其中xi(i=1,2…,c)出现的次数为fi(i=1,2,…,c),并有=n。知道了频数也就知道了频率,即:出现的频率为,并有=1。
现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设。2.拟合优度检验(比率拟合检验)拟合优度检验如何进行?关键是确定合适的检验统计量以及该统计量所服从的概率分布。这里不可避免地要引进某种人为因素,即人们设计出下面这样的综合性可比指标:其中k1,k2,…,kc是适当选取的常数。仔细观察不难发现,L值大,意味着经验分布与理论分布偏离大;L值小,意味着经验分布与理论分布偏离小。当在某个选定的水平上,经验分布显著偏离理论分布,那么对象总体具有某种分布形式的零假设便被否定。结论:用作为检定Ho成立的检验统计量,理论证明,当n足够大
时,该统计量服从分布,它是一种具有已知的并制成表的概率
分布,因此对给定的显著性水平α,可求得临界值,与比
较,进而作出检验结论。显而易见,理论频数fe与观测频数fo越接近,统计值越小,经验分布与理论分布拟合程度越好。反之,fe与fo差距越大,值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此得名。[例]孟德尔遗传定律表明:在纯种红花豌豆与白花豌豆杂交后所生的子二代豌豆中,红花对白花之比为3:1。某次种植试验的结果为;红花豌豆176株,白花豌豆48株。试在α=0.05的显著性水平上,对孟德尔定律作拟合优度检验。(参见下表)应用举例
3.正态拟合检验[例]试对下表所给男青年身高分布的数据作正态拟合检验,选取α=0.05。[解]
检验的另一个重要应用是对交互分类资料的独立性检验,即列联表检验。在上一章,我们曾多次提到过性别与收入高低有无关联的问题,在实际中类似的问题很多。例如受教育程度与投票行为有无关联?吸烟与寿命长短有无关联?家庭小孩多少与收入多少有无关联?受教育时间长短与收入多少有无关联?血型与某种性格上的差异有无关联?等等,把这类问题上升到一般,就是在列联表的基础上考察变量X与Y有无关联。由于列联表一般是按品质标志把两个变量的频数进行交互分类的,所以:①检验法用于对交互分类资料的独立性检验,有其它方法无法比拟的优点;②如何求得列联表中的理论频数就成了独立性检验的关键。第二节无关联性检验1、独立性、理论频数及自由度应用此式,不必计算理论频数计算与这个检验统计量相联系的自由度算出统计量之值并定出其自由度后,就可以依前述的方法,在给定了显著性水平之后,来对X,Y属性无关联的零假设进行检验了。应用举例[例]检验也适用于定类变量和定类变量的相关统计,即可以用它检定λ和τ系数是否显著。就下表所示资料,试以检验检定性别与收入之间的相关程度是否显著(α取0.001)。[解]
故拒绝H0,即认为总体上性别与收入高低之间不独立,有显著相关关系。[例]在某种流行病流行的时候,共有120个病人进行了治疗,其中40个病人按标准剂量服用某种新药,另有40个病人按标准剂量的2倍服用了这种新药,其余40个病人只按病状治疗(而不是按病因治疗),治疗结果按迅速痊愈、缓慢痊愈、未痊愈分为三类,最后交叉分类的情况列于下表,试问这三种疗法之间有没有差别(α取0.05)。[解]
H0:这三种疗法之间没有差别
H1:这三种疗法之间有差别
由于α=0.05;自由度k=(c―l)(r―l)=2×2=4,查分布表得临界值:
在零假设下,计算检验统计量,计算过程参见后表。
因此>,故拒绝零假设,即三种疗法之间有显著差别。第三节方差分析
方差分析,是一种很重要的分析方法,它可以检验两个以上样本均值之差。方差分析是均值差检验的推广,一般用于处理自变量是一个(或多个)定类变量和因变量是一个定距变量之间的关系。方差分析所包含的假定与均值差检验所包含的假定差不多,例如正态分布、独立随机样本、等方差性等,但检验本身却很不相同。方差分析直接涉及的是方差而不是均值和标准差。同时,比较也不取两种估计量之差,而是取两种估计量的比率。在两种估计量彼此独立的前提下,两种估计量之比率F具有已知的抽样分布,因而可进行很简单的检验。1.总变差及其分解
总变差:在方差分析中记作SST,它表示对于总均值的偏差之平方和。即:
SST=式中:ni是第i个样本的容量,n=
为什么会形成总变差这个散布度呢?一是三个样本可能不同,这使全部数据有三个“中心”;二是随机抽样误差的影响,使数据在每个中心附近有散布。
总变差分解
可以看出,总变差分解成两部分:第一部分是各观测值对其所属类别均值的偏差的平方和,称为组内变差(Within-groupsSumofSquares),记作SSW。组内变差反映了数据围绕各“中心”的散布程度,即反映了因随机波动所产生的变异,与自变量因素无关。换言之,SSW是自变量因素所没有解释的的变异。因此,又称之为残差。第二部分是组间平方和(Between-groupsSumofSquares),记作SSB
,它涉及到诸类别均值对总均值的偏差,反映了前表中数据的c个“中心”的散布程度。
弄清了组间变差和组内变差,检验“A1≠A2≠A3”(也就是零假设μ1=μ2=μ3)的思路也就梳理出来了:关键是比较两种变差是否有显著差异。若第一种变差明显大于第二种变差,则认为家庭因素对孩子图书消费是有影响的;若第一种变差与第二种变差之间无显著区别,则不能认为家庭因素对孩子图书消费有影响。但在统计学上,方差分析不取两者之差而取两者之比来进行这种比较。而且,方差分析不是直接用SSB/SSW作为检验统计量,而是用
可以解释的方差/不能解释的方差作为检验统计量,即:2.关于自由度
组间平方和代表c个样本均值对总均值的偏差。也就是每个可看作为一个单位,c个可看作为c个单位,有c个自由度,求用去一个自由度。因而,与组间平方和相联系的自由度为c―1。再看组内平方和,计算时每列失去一个自由度。因而,与组内平方和相联系的自由度为n―c。最后看总平方和,计算总均值时失去一个自由度。因而,与总平方和相联系的自由度为n―l。总的来看有:
n―l=(n―c)+(c―1)总自由度=组内自由度+组间自由度
上式是在在零假设(H0:μ1=μ2=…=μc)之下,检验统计量Fo的计算公式。理论证明:上式服从分子自由度为k1=c―1、分母自由度为k2=(n―c)的F分布。于是,给定显著性水平α,我们就可以很方便地从F分布表中查到临界值Fα(c―1,n―c)。如果出现Fo>Fα的情况,我们将在这个显著性水平上拒绝零假设。在实际运用中,方差分析的结果常用一种称为“方差分析表”的标准形式的表格表示出来,其基本形式如表后所示。
为了简化检验统计量Fo的计算,有必要将SST、SSW、SSB这三个定义式展开,其方法与分解总变差的方法相同。于是有:3.关于检验统计量Fo的计算
注意,由于总变差等于另两个变差之和,所以三个变差中仅需求出两个变差。求出组内平方和比求另两个平方和繁琐得多,故通常我们都是从总平方和减去组间平方和来求组内平方和的。[例]试对下表中的资料,计算SST
、SSW、SSB
,并检验μ1=μ2=μ3的零假设(α取0.05)。解:据题意,n1=n2=n3=8,n1+n2+n3=24
组内自由度=n―c=24―3=21
组间自由度=c―1=3―1=2
分别计算SST和SSB,计算过程参见下表。
由于α=0.05,查F分布表得临界值:Fα(c―1,n―c)=F0.05(2,21)=3.47>1.19故在0.05显著性水平上不否定零假设,即没有充分根据提出这三类家庭的孩子在图书消费方面有显著不同。
[例]研究某种商品销量与品牌的关系,得下表资料,其中A1,A2,A3表示不同的品牌,数据表示销量。试以显著性水平10%判断
品牌对该种商品的销量有无影响。
[解]
据题意,n1=n1+n2+n3=2+4+3=9
组内自由度=n―c=9―3=6
组间自由度=c―1=3―1=2
分别计算SST和SSB,计算过程参见前表13.16。于是得MSB
和
MSW
MSB=SSB/(c―1)=6.89/2=3.45
MSW
=SSW/(n―c)=30/6=5.00
再根据(13.19)式求检验统计量Fo
Fo===0.69<1
故在0.10显著性水平上不否定零假设,即不能判断不同品脾对该种商品的销量有显著影响。
4.相关比率当方差分析的检验呈显著性后,进一步讨论两变量间的相关程度是很自然的。方差分析中相关程度的测定仍采用PRE法。当不知因变量Y的取值与自变量X的取值A1,A2,…,Ac有关时,最好的预测是以总均值作为Y的估计值。此时,估计所犯的错误将等于SST
E1=SST=当已知因变量Y的取值与自变量X的取值A1,A2,…,Ac有关后,自然用各样本的均值作为各类别的预测值,此时预测所产生的误差将等于SSW
E2=SSW=
所以消减误差比例可写成PRE===正是因为上式,我们把SSB称为已解释的变差。显然,已解释的变差越大,预测Y所减少的误差就越多,X与Y之间的关系就越密切。据此,方差分析中把已解释的变差对总变差的比值称为相关比率,用符号表示=1―=
可用于一个定类变量与一个定距变量的相关程度的测定,当然也可以用于定序—定距变量或定距—定距变量的相关程度的测定。[例]试以表13.12的资料,分析孩子图书消费与家庭类型的关系。
解:据前面例题中已计算的结果,已知SSB=28,SST=276,因而有
=1―===10.1%
可见,就表给资料而言,利用家庭类型预测孩子图书消费量,只能削减10.1%的预测误差。小结:相关比率研究的是定类—定距变量之间的相关程度。由于定类变量不具有数量大小的问题,不存在关系是否线性的问题。因此,当被用于研究定距—定距变量之间的关系时,不仅可以作为线性相关的量度,也可以作为非线性相关的量度。这意味着,对线性相关,相关比率与r2(积差系数之平方)有相同的PRE性质;但如果对非线性相关,用积差系数r来讨论就不行了。对于定距—定距变量,曲线相关既然要用R来测量,那么反过来,同一资料通过相关指数R与积差系数r计算的比较,可以判断确定两定距变量的关系是不是直线。如果同时求出r与R,r等于或略大于R,可说明两变量关系是直线的,用r去测量是合适的;如果r<R,则说明两变量关系可能是曲线的。首先,MSB和MSW可以分别称为组间方差和组内方差,其中(在等方差的假设下)组内方差总是σ2的无偏估计;而组间方差,只有当诸总体(即各样本所代表的子总体)均值实际上相等时,它才是σ2的无偏估计。这就是说,如果零假设为真,MSB和MSW之间将没有太大的差别。反之。如果零假设实际不正确,可以期望MSB和MSW的比值大于1。如果这个比值小于1,则不从F分布表中查找临界值Fα就可以判断零假设不能被否定。其次,以上两个例题也可以用均值差检验来处理。均值差检验涉及t分布,可以做三组合的比较.即A1与A2,A2与A3,A1与A3。与均值差检验不同,方差分析仅进行一次检验来判定三种类别的家庭(或品牌)在消费(或销售)上彼此是否有显著性差异。方差分析的优点在于,一个检验可以代替多个检验。如果有四个类别,均值差检验需做(4×3)/2=6次;如果有六个类别,需做(6×5)/2=15次;如果有十个类别,需做(10×9)/2=45次。况且,如果做15次均值差检验。其中4次结果具有显著性,这时应当下什么结论?可能很难回答。
5.关于方差分析的几点讨论第三,方差分析中的自变量X如果是二分变量,也可以采用均值差t检验。在这种情况下,F的分子自由度是2―1=1,分母自由度是n―2,这与均值差检验中的t相同。经过计算可知,具有自由度n―2的t
2值等于具有分子自由度为1和分母自由度为n―2的F值。比较F表和t表也可以核实这一点。换言之,t是分子自由度为l的F的平方根。这当然意味着,对于样本而言,此时不论采用方差分析或均值差检验,其结果完全相同。第四,本节集中讨论了自变量为一个定类变量而因变量为一个定距变量的情况。如果对因变量Y影响的自变量由一个变为两个以上,我们就将面对多元方差分析了。总变差分解的思想可以直接推广至多因素显著性检验。例如就两个自变量(A和B)独立对因变量Y影响的情况,可以得到下述方差分析表(表13.17)。相关与回归,由于其广泛应用,如今在统计学中是高度发展的分支之一。而从实用的观点来看,线性关系是最简单也是最重要的一种关系。本书第十二章已经对积差系数与回归直线作了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年电子控制四轮驱动装置项目建议书
- 生物科技的伦理问题探讨试题及答案
- 配送中心与终端用户的优化试题及答案
- 2025年淘宝直播项目投资风险评估报告
- 《关于强化危险化学品“一件事”全链条安全管理的措施》学习解读
- CPMM考试分析及试题答案
- 2024年CPMM知识积累中的策略与方法试题及答案
- 统编版语文五年级下册习作《写读后感》精美课件
- 供应链项目管理的基本原则试题及答案
- 江苏如皋市江安镇中心中学2025届高三下学期第六次检测化学试卷含解析
- 5.2《稻》课时练-【中职专用】高二语文同步(高教版2023拓展模块下册)
- 2025年河南农业职业学院单招职业技能测试题库及参考答案
- 人教PEP版英语五年级下册全册教案
- 2025年个体古董借款质押合同示范本
- 交管12123驾驶证减分学法题库(部分)(图文版)
- 油气藏产能预测模型-深度研究
- 2025年四川成都市蒲江乡村建设发展集团有限公司招聘笔试参考题库附带答案详解
- 2024版房产经纪人无底薪劳动协议
- 2025年上海烟草集团上海新型烟草制品研究院限公司招聘8人高频重点提升(共500题)附带答案详解
- 2025年中邮证券有限责任公司招聘笔试参考题库含答案解析
- 社戒社康培训
评论
0/150
提交评论