3 虚拟变量与方差分析_第1页
3 虚拟变量与方差分析_第2页
3 虚拟变量与方差分析_第3页
3 虚拟变量与方差分析_第4页
3 虚拟变量与方差分析_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

营销研讨方法

----数量分析方法周影辉博士zyhmaths@163中山大学管理学院市场学系1问题引入例6.在表2-7给出了一些女性曾生子女数的数据,同时也给出了她们的年龄,受教育程度和居住地。假设我们想知道女性的年龄〔AGE〕,文化程度〔EDU,5个级别〕及居住地〔AREA,城市和乡村〕对其曾生子女数的影响,怎样建模?关键是文化程度和居住地2表2-7CEBAGEEDUAREA1 20 311 22 4 22 24 3 21 25 5 11 28 5 1……3社会科学研讨中,有许多分类变量,如民族,文化程度,性别,公司类型,品牌等它们也可以被包含在线性回归模型中,用以解释因变量的变化在将它们引入回归模型之前,必需先将它们转化为虚拟变量〔哑变量〕。为什么?4由于分类变量的各类根本没有定量关系,不能像间距变量的情形那样,分析变化一个单位时,的平均变化如男〔0〕-----女〔1〕但我们可以以类为单位,分析各类对的影响5虚拟变量的建立设是有个分类的分类变量,在数据处置时以不同编码值代表案例所属的类型用个取值为0和1的虚拟〔dummy〕变量分别代表各个类的属性当案例属于一个虚拟变量所代表的类时,这个虚拟变量就取1,否那么取0分类变量:有问题吗?6这个虚拟变量线性相关,违背了最小二乘回归的条件。怎样处理?取消一个虚拟变量,即对有个分类的变量用个虚拟变量编码。有没有信息损失,为什么?称不设虚拟变量明确表示的类为参照类7例6.〔续〕文化程度(EDU)有5类,分别为(1)文盲或半文盲(2)小学(3)初中(4)高中(5)大学5类需4个虚拟变量,取(1)为参照类,那么虚拟变量取值规那么如下

8地域(AREA)有两类,分别为(1)城市和(2)乡村,只用一个虚拟变量DU就可以了。取乡村为参照类,编码规那么为根据原变量值建立虚拟变量的任务可以用SPSS数据转换功能来完成SPSSShow!9用表2-7的数据建立如下回归方程回归结果如下

方程的为0.96,各变量的回归系数均在0.05程度显著10虚拟变量回归系数的意义当两个分类变量都属于参照类时,一切虚拟变量都取值0,回归方程(41)可以简化为上式为参照类女性的曾生子女数对年龄的回归直线,为直线的截距,为直线的斜率〔表示?〕11当受教育程度为小学,居住地为乡村时,方程为(44)是(43)的平行线,但截距添加了,因此是小学文化程度女性比文盲半文盲女性在一样的年龄和居住地条件下曾生子女数多的部分12表示各类别的虚拟变量的回归系数表示该类别与参照类均值之差,因此它又称为差别截距回归方程〔42〕各系数的解释?13如何衡量各个变量〔组〕作用的大小?用偏确定系数。分别做不含有〔作为一组,代表EDU〕,AGE和DU的线性回归,然后根据〔23〕式,可得表2-814表2-815假设只关怀AGE和AREA对CEB的影响,我们可以做CEB对AGE和AREA的回归为什么不建立两个线性回归模型,分别对城乡女性拟合她们曾生子女数与其年龄的回归直线?分别估计和用虚拟变量回归将他们合并一同估计有何差别?16多元回归比简单回归的优越性:只需将各方面的变量放在同一模型中,才干在控制其他自变量的情况下对各自自变量的边沿作用进展调查和检验统计控制17与单要素方差分析的关系假设一个回归分析中只需虚拟变量,并且这些虚拟变量都代表某一个原变量的不同类别,那么这一回归的整体检验等价于单要素方差分析〔one-wayanalysisofvariance,1-wayANOVA〕如只纳入代表EDU的四个虚拟变量的回归回归方程的显著性检验F=10.079SPSSShow!方差分析v.s.回归分析18在只需一方面的虚拟变量的回归方程中,由于没有其他变量,各回归系数的表现非常单纯,回归常数项就是参照类案例的平均值本例中即为两个文盲、半文盲案例的CEB值4和5的平均值其他教育程度类的平均值那么经过参照类平均值加上相应差值来表现,如大学……这一方程完美再现了样本按教育程度分类的类平均值19与双要素方差分析的关系假设一个回归分析中只需两个要素构成的虚拟变量,那么这一回归分析等价于双要素方差分析〔2-wayANOVA〕如例6中将代表教育程度和城乡的一切虚拟变量纳入回归中严厉来说,它是只思索了主效应的双要素方差分析,它没有思索教育程度和城乡两个要素之间的交互作用〔Interaction〕如何在回归中纳入交互作用呢?20交互作用用两个要素的各项虚拟变量相乘得到如例6中,EDU与AREA的交互作用为SPSSShow---Howtogettheseinteractionterms?方差分析v.s.回归分析?21含交互作用的回归方程为将交互作用包含在内的饱和双要素方差模型,可以完美再现各交互分类的组平均值常数项依然是参照类的平均值,这时的参照类是交互参照类,即两个要素的一切虚拟变量都取0时的类本例中的交互参照类为乡村文盲半文盲女性,样本中这一类只需一例,其平均值直接为这一例的CEB值22其他交互类的平均值也可以由上述回归方程计算出来对于城市小学程度的女性,有其他一切代表主效应和交互效应的虚拟变量的值都为0,算得该交互类的平均值为

23在交互效应比较小,或者出于简化模型的目的,在模型中不思索交互项例6的双要素分析的简化模型为常数项仍为参照类的CEB平均值的估计,由于没有思索交互项的影响,估计出现了误差〔4.73v.s.5〕,但同样可以经过其他各系数计算任一交互类的估计值城市小学程度出现了偏向24由于没有思索交互作用,各交互类的估计就会出现估计误差,这是简化的代价但是回归分析对一切案例估计误差之和等于0。为什么?25思索了一切交互作用的模型称为饱和模型当有K个要素时,饱和模型中不仅有二阶交互项,而且还有三阶,四阶直至K阶一切要素组合的各阶交互项。当要素很多时,普通不再采用虚拟变量回归,而是直接用SPSS中的方差分析来做26协方差分析假设一个回归分析中不仅有虚拟变量,而且还有其他间距测度变量,那么这一回归等价于协方差分析〔AnalysisofCovariance,ANCOVA〕。间距测度变量在协方差分析中称为协变量〔Covariate〕例6中,AGE是间距测度变量,和是虚拟变量27模型(41)中没有思索要素之间的交互效应由于控制了〔引入了〕协变量AGE,使得一切类别平均值中都不含有年龄的影响,常数项成了笼统的无年龄的“乡村文盲、半文盲女性〞的平均生育数〔为什么〕CEB被分解为AGE,EDU和AREA三个独立要素的影响〔以为交互效应为0〕28多元回归中的控制,就是经过统计方法将一切案例中这三个方面的影响剥分开,而常数项是剥离以后参照组的平均生育程度控制年龄后,参照组的平均生育程度降低了很多。现实中不存在没有年龄的女性,所以在估计一个女性的生育程度时,必需给定一个年龄。年龄的边沿奉献和实践奉献在这个例子中都很大29在这个例子中,年龄只是一个控制变量,不是分析的焦点。通常我们关注的是社会科学中的笼统变量〔生育,教育,城乡〕之间的关系和差别选择不同的参照类对结果能否有影响?那些结果受影响,那些不受影响?30含虚拟变量的回归分析的检验在回归分析中采用虚拟变量,无论是对整个模型的显著性检验〔F检验〕,还是对回归系数的显著性检验〔t检验〕,与普通回归分析完全一样对于虚拟变量,由于取值只能是0和1,所以检验的只是该变量取值为1的类别的平均值能否与参照类的平均值有显著差别31在其他条件一样的情况下,如何对同一要素的不同类进展比较?如小学和大学其他条件一样的情况下,同一要素不同类的平均值之差为。相应的假设检验为检验统计量为〔服从〕

32小结在要素数目较少,各要素的类别较少且可以忽略交互效应时,较适宜用回归方法进展方差分析回归方法同时处理了方差分析,计算各类平均值与参照类平均值之差,并对其显著性进展了检验但在要素数目较多,类别较多,而且不能忽略交互效应时,直接用SPSS的方差分析模块比较方便,它不需建立虚拟变量,还可以按照用户要求规定各阶交互项33其他分类变量编码方法用于事后比较〔即根据抽样调查的观测数据来进展分析〕的编码:虚拟编码和效应编码用于事先设计好的比较方案〔即观测数据是经过可控制的实验研讨获得的〕的编码:正交编码和非正交编码34效应编码反映各类与总平均值之间的差距一个分类变量假设包括k类,那么需求k-1个效应变量。习惯选第一类或最后一类不设立单独变量,他们可经过其他效应变量表示35用分别表示文盲半文盲,小学,初中和高中,不对“大学〞单独设立效应变量,对教育程度的效应编码如下36效应编码赋值规那么如下:对于k-1个效应变量,当案例属于该效应变量代表的类别时,效应变量赋值1;当案例不属于该效应变量代表的类别时,效应变量赋值0当案例属于不设立效应变量的一类时,一切效应变量赋值为-137对于“大学〞为不设立效应变量的类,CEB对教育要素效应变量的回归方程为回归方程的显著性检验F=10.079,与采用虚拟编码的回归方程一致系数的解释?各类平均值与采用虚拟编码的结果能否一致?38无论用虚拟编码还是效应编码,无论选哪个类为参照类或不设立独立效应变量,对应模型的和回归模型的F检验是完全一样的只不过各个系数的解释不一样数学推导阐明虚拟编码和效应编码的意义39作业2对于例6中提供的背景和表2-7中给出的数据,采用效应变量完成简化的〔无交互效应〕和饱和的〔含交互效应〕的双要素方差分析模型分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论