社会统计学(卢淑华版)_第1页
社会统计学(卢淑华版)_第2页
社会统计学(卢淑华版)_第3页
社会统计学(卢淑华版)_第4页
社会统计学(卢淑华版)_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章类别变量与尺度变量关系的假设检验方差分析 8.1方差分析的原理 8.2一元方差分析 8.3二元方差分析第一节 方差分析的原理 一、方差分析及其有关术语一、方差分析及其有关术语 1、什么是方差分析、什么是方差分析 方差分析通过分析数据的误差判断各总体均值是否相等来检验多个总体均值是否相等,从而研究分类型自变量对数值型因变量的影响。 根据自变量的多少,方差分析可分分为单因素方差、双因素方差分析和多因素方差分析。 2、因素或因子、因素或因子 因素或因子是指所要检验的对象。 3、水平或处理、水平或处理 水平或处理是指因子的不同表现。第一节 方差分析的原理 4、观察值、观察值 观察值是指在每个因素

2、水平下得到的样本数据。 二、方差分析的基本思想和原理方差分析的基本思想和原理 1、基本思想、基本思想 方差分析通过对数据误差来源的分析判断不同总体的均值是否相等。 2、基本原理、基本原理 两类误差 随机误差 因素的同一水平(总体)下,由随机因素的影响造成的样本各观察值之间的差异称为随机误差。第一节 方差分析的原理 系统误差 因素的不同水平(不同总体)下由系统性因素造成的样本各观察值之间观察值的差异称为系统误差。 误差平方和SS 数据的误差用平方和(sum of squares)表示,分为组内平方和和组间平方和。 组内平方和 组内平方和是指因素的同一水平下数据误差的平方和,组内平方和只包括随机误

3、差。 组间平方和 组间平方和是指因素的不同水平之间数据误差的平方和,组间平方和既包括随机误差,也包括系统误差。第一节 方差分析的原理 均方MS 均方是指平方和除以相应的自由度。 基本原理 若原假设(自变量对因变量没有影响)成立,组间均方与组内均方的数值就应该很接近,它们的比值就会接近1;若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于1。当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,即自变量对因变量有影响。 三、方差分析的基本假定三、方差分析的基本假定 1、每个总体都应服从正态分布、每个总体都应服从正态分布自变量对因变量没有影响,则没有系统性误差,组间平方和中只有

4、随机误差。第一节 方差分析的原理 对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本。 2、各个总体的方差必须相同、各个总体的方差必须相同 各组观察数据是从具有相同方差的总体中抽取的。 3、观察值是独立的、观察值是独立的 四、问题的一般提法四、问题的一般提法 1、设因素有m个水平,每个水平的均值分别用 1 , 2,, m表示 2、要检验m个水平(总体)的均值是否相等,需要提出如下假设: H0 : 1 2 m H1 : 1 , 2 , ,m 不全相等第二节:单因素方差分析/一元方差分析 一、数据结构一、数据结构 第二节:单因素方差分析/一元方差分析 二、分析步骤二、分析步骤 1、

5、提出假设、提出假设 H0 :1 = 2 = m 自变量对因变量没有显著影响 H1 :1 ,2 , ,k不全相等 自变量对因变量有显著影响 注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等 2、构造检验的统计量、构造检验的统计量 水平的均值第二节:单因素方差分析/一元方差分析 假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数。计算公式:),2 ,1(1kinxxinjijii式中: ni为第 i 个总体的样本观察值个数,xij 为第 i 个总体的第 j 个观察值。计算全部观察值的总均值用全部观察值的总

6、和除以观察值的总个数,计算公式:mmiiiminjijnnnnnxnnxxi21111 式中:第二节:单因素方差分析/一元方差分析 计算总误差平方和TSS 总误差平方和 TSS是全部观察值 与总平均值 的离差平方和,反映全部观察值的离散状况,其计算公式为:xminjijixxTSS112计算组间平方和BSSixx组间平方和是各组平均值组间平方和是各组平均值 与总平均值 的离差平方和,反映各总体的样本均值之间的差异程度,计算公式为:kiiiminjixxnxxBSSi12112第二节:单因素方差分析/一元方差分析 计算组内平方和RSS 组内平方和是每个水平或组的各样本数据与其组平均值的离差平方和

7、,该平方和反映的是随机误差的大小,计算公式为:minjiijixxRSS112三个平方和的关系TSS = BSS + RSS第二节:单因素方差分析/一元方差分析 计算均方MS 各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方均方,也称为方差。均方由误差平方和除以相应的自由度求得,三个平方和对应的自由度分别是: TSS 的自由度为n-1,其中n为全部观察值的个数 BSS的自由度为m-1,其中m为因素水平(总体)的个数 RSS 的自由度为n-m组间方差MSB:1mBSSMSB组内方差MSR:mnRSSMSR第二节:单因素方差分析/一元方差分析3

8、、计算检验统计量、计算检验统计量 F), 1(/1/mnmFMSRMSBmnMSRmBSSF4、统计决策统计决策将统计量的值F与给定的显著性水平的临界值F进行比较,作出对原假设H0的决策。例(参见教材例(参见教材376页例页例1、383页例页例2)为了研究职业对家庭赡养人数的影响,研究者抽查了某企业41名员工的家庭赡养人数(如下表),试判断职业对家庭赡养人数是否有影响。家庭赡养人数职业管理人员35 054 423132 3 3 2 4 2 6 1工人13 446 234352 4技术员64 223 053121第二节:单因素方差分析 变量间关系的强度用自变量平方和(BSS) 占总平方和(TSS

9、)的比例大小来反映,自变量平方和占总平方和的比例记为R2 ,即:)()(2总平方和组间平方和TSSBSSR 其平方根R就可以用来测量两个变量之间的关系强度。三、关系强度的测量三、关系强度的测量拒绝原假设表明因素(自变量)与观测值之间有显著关系,组间平方和(BSS)度量了自变量(行业)对因变量(投诉次数)的影响效应。只要组间平方和BSS不等于0,就表明两个变量之间有关系(只是是否显著的问题) 。当组间平方和比组内平方和(SSE)大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱。

10、第三节第三节 双因素方差分析双因素方差分析/二元方差分析二元方差分析 一、二元方差分析的数学模型一、二元方差分析的数学模型 二元方差又称双因素方差分析,用来分析两个因素(行因素Row和列因素Column)对试验结果的影响。 设两个自变量A和B作用于总体,其中自变量A有a种取值:A1,A2,Aa,自变量B有b种取值:B1,B2,Bb。变量A的取值为Ai 、变量B的取值为Bj 时因变量y的取值为yij 无交互作用的二元方差分析模型无交互作用的二元方差分析模型 如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的二元方差分析称为无交互作用的二元方差分析或无重复二元

11、方差分析(Two-factor without replication) 。 因变量y与自变量A、B之间的关系可以表达为以下模型:ijjiijyij相互独立,并且服务正态分布:2, 0Nij都是未知参数,且有:及、2ji01aii01bjj有交互作用的二元方差分析模型如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析 (Two-factor with replication )。 因变量y与自变量A、B之间的关系可以表达为以下模型:ijkijjiijkyijk相互独立,并且服务正态分布

12、:2, 0Nijk都是未知参数,且有:及、2ijji01aii01bjjK=1,2,r r为自变量A和B每种搭配的重复数01bjj01aii 二、无交互作用的二元方差分析二、无交互作用的二元方差分析 提出假设提出假设bjaiHji, 2 , 1 0 , 2 , 1 0:0bjaiHji, 2 , 1 0 , 2 , 1 0:1不全为不全为2、构造构造检验统计量检验统计量几个基本概念jy.行平均值jaiijjTayay.1.11自变量y1j,y2j , ,yaj,观测一次取平均的,因此可以认为变量A的影响已经相互抵消,所以行平均值 反映的是自变量B对因变量y的影响。是把值按行加总求平均。由于行平

13、均值是把观测ijyjy. iy列平均值.1.11ibjijiTbyby自变量yi1,yi2 , ,yib,观测一次取平均的,因此可以认为变量B的影响已经相互抵消,所以行平均值 反映的是自变量A对因变量y的影响。是把值按行加总求平均。由于列平均值是把观测. iyy总平均值bjjaiiaibjijybyaTabyaby1.1.111111变量A的离差平方和BSSAaibjiAyyBSS112.TSS总离差平方和aibjijyyTSS112变量B的离差平方和BSSBaibjjByyBSS112.TSS=BSSA+BSSB+RSS剩余平方和RSSaibjjiijaibjjiijyyyyyyyyyyRS

14、S112.112.)-(-)-(-)( 的总误差观测值ijy释的误差解变量A释的误差解变量A离差平方和之间的关系计算均方ABSSA的平均离差平方和变量 11,111/1/baaFbaRSSaBSSRSSBSSFAAA其中a-1是自由度BBSSB的平均离差平方和变量1bBSSBSSBB其中a-1是自由度RSS平均剩余误差平方和11baRSSRSS其中(a-1)、(b-1)是自由度构造检验统计量 11,111/1/babFbaRSSbBSSRSSBSSFABB1aBSSBSSAA的作用显著,则变量如果的作用显著,则变量如果、,确定临界值根据给定的显著性水平BFAFBBAABA用Excel进行方差分

15、析 (Excel分析步骤) 第第1步:步:选择“数据数据 ”下拉菜单第第2步:步:选择【数据分析数据分析】选项第第3步:步:在分析工具中选择【单因素方差分析单因素方差分析】 , 然后选择【确定确定】第第4步:步:当对话框出现时 在【输入区域输入区域 】方框内键入数据单元格区域 在【】方框内键入0.05(可根据需要确定) 在【输出选项输出选项 】中选择输出区域确定临界值,并与检验统计量进行比较,得出结论: 例 三个地区家庭人口数的抽样调查如下表所示,试问这三地区的平均家庭人口有没有显著差异?地区甲地乙地丙地家庭人口数26264144313135818274121614522 三、有交互作用的二元

16、方差分析三、有交互作用的二元方差分析 提出假设提出假设 , 2 , 1 , 2 , 1 0 , 2 , 1 0 , 2 , 1 0:0bjaibjaiHijji0:1对应的参数不全为H几个基本概念几个基本概念总平均值.yabrTyabryaibjrkijk.111.1总平均值是对全部观测值求平均行平均值. jyarTyaryjairkijkj.11.1行平均值是对行号相同的全部观测值求平均列平均值列平均值是对列号相同的全部观测值求平均.iybrTybryibjrkijki.11.1格平均值格平均值是对行号和列号都相同的全部观测值求平均.ijyrTyryijrkijkij.1.1总离差平均和TS

17、SaibjrkijkijkaibjrkijkabrTyyyTSS1112.21112.列间平均和BSSA列间平方和BSSA反映了由变量A解释掉的误差aibjrkiAyyBSS1112.行间平均和BSSB行间平方和BSSB反映了由变量B解释掉的误差aibjrkjByyBSS1112.BAI交互作用aibjrkjiijBAyyyyI1112.自变量A、B在每一格所能解释的全部误差BSSaibjrkijyyBSS1112.剩余误差RSS总离差平方和、行间平方和、列间平方和、交互作用、剩余误差之间的关系aibjrkijijkyyRSS1112.RSSIBSSBSSTSSBABA平方和的自由度总平方和T

18、SS的自由度总平方和TSS是围绕着均值计算的,独立变化的取值只有abr-1,所以总平方和TSS的自由度为abr-1列间平方和BSSA的自由度列间平方和BSSA是 围绕着均值计算的,存在 的约束,所以列间平方和BSSA的自由度为a-101aii列间平方和BSSB的自由度列间平方和BSSB是 围绕着均值计算的,存在 的约束,所以列间平方和BSSA的自由度为b-101bjj剩余平方和RSS的自由度剩余平方和BSS是围绕着各格AiBj的均值计算的,所以剩余平方和BSS的自由度为abr-ab自由度之间存在与平方和之间同样的关系式:RSSIBSSBSSTSSBABAabr-1a-1b-1abr-ab?交互

19、作用IAB的自由度交互作用IAB的自由度=(abr-1)-(a-1)-(b-1)-(abr-ab)=(a-1)(b-1)交互作用显著性的检验交互作用显著性的检验提出假设H0:0iji=1,2,a j=1,2,bH1:0不全为iji=1,2,a j=1,2,b构造检验统计量1,111/11rabbaFrabRSSbaIFBABABA,确定临界值根据给定的显著性水平确定临界值:比较临界值与检验统计量,得出结论:否则不显著,则交互作用显著如果,FBABA4、交互作用不显著情况下,自变量交互作用不显著情况下,自变量A、B显著性的检验显著性的检验交互作用不显著,则交互作用的平方和IAB合并到误差项RSS

20、中,作为总误差TRSS,自由度也相应地合并:abr-a-b+1自变量A的检验0 , 2 , 1 010不全为:iiHaiH检验统计量: 1,11/1baabraFbaabrTRSSaBSSFAAARRF根据给定的显著性水平,查出临界值 。如果 ,则不拒绝原假设。否则,拒绝原假设。自变量B的检验0 , 2 , 1 010不全为:jjHbjH检验统计量: 1,11/1baabrbFbaabrTRSSbBSSFBB根据给定的显著性水平,查出临界值 。如果 ,则不拒绝原假设。否则,拒绝原假设。BBBF5、交互作用显著情况下,自变量、交互作用显著情况下,自变量A、B显著性的检验显著性的检验交互作用显著情况下,自变量A、B的检验方法要根据变量A和B的性质来确定。如果某变量的取值是固定的,则该变量属于固定变量。如果变量所涉及的测试个体是随机选择的,则该变量属于随机变量。根据A、B性质的不同,可以分为三种模型:固定模型:A、B都是固定变量对于固定模型,F检验分母项就用剩余误差项(RSS)的均方1rabRSSRSS变量A的检验0 , 2 , 1 010不全为:iiHaiH检验统计量:1,11/1rabaFrabRSSaBSSFAA根据给定的显著性水平,查出临界值 。如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论