3 虚拟变量与方差分析_第1页
3 虚拟变量与方差分析_第2页
3 虚拟变量与方差分析_第3页
3 虚拟变量与方差分析_第4页
3 虚拟变量与方差分析_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、营销研究方法 - 数量分析方法1问题引入例 6. 在表 2-7给出了一些女性曾生子女数的数据,同时也给出了她们的年龄,受教育程度和居住地。如果我们想知道女性的年龄(AGE),文化程度(EDU,5个级别)及居住地(AREA,城市和农村)对其曾生子女数的影响, 怎样建模?关键是文化程度和居住地2表 2-7 CEB AGE EDU AREA 1 20 3 1 1 22 4 2 2 24 3 2 1 25 5 1 1 28 5 1 3社会科学研究中,有许多分类变量,如民族,文化程度,性别,公司类型,品牌等它们也可以被包含在线性回归模型中,用以解释因变量的变化在将它们引入回归模型之前,必须先将它们转化为

2、虚拟变量(哑变量)。为什么?4因为分类变量的各类根本没有定量关系,不能像间距变量的情形那样,分析 变化一个单位时, 的平均变化如 男(0)- 女(1) 但我们可以以类为单位,分析各类对 的影响5虚拟变量的建立设是有个分类的分类变量,在数据处理时以不同编码值代表案例所属的类型用个取值为 0 和的虚拟(dummy)变量分别代表各个类的属性当案例属于一个虚拟变量所代表的类时,这个虚拟变量就取,否则取 0分类变量 : 有问题吗?6这 个虚拟变量线性相关,违背了最小二乘回归的条件。怎样解决?取消一个虚拟变量,即对有 个分类的变量用 个虚拟变量编码。有没有信息损失,为什么?称不设虚拟变量明确表示的类为参照

3、类7例 6.(续)文化程度(EDU)有 5 类,分别为 (1)文盲或半文盲(2)小学 (3)初中 (4)高中 (5)大学5 类需 4 个虚拟变量, 取(1)为参照类,则虚拟变量取值规则如下 8地区(AREA)有两类,分别为 (1)城市和 (2)农村,只用一个虚拟变量 DU 就可以了。取农村为参照类,编码规则为 根据原变量值建立虚拟变量的工作可以用 SPSS 数据转换功能来完成SPSS Show!9用表 2-7 的数据建立如下回归方程 回归结果如下 方程的 为 0.96,各变量的回归系数均在 0.05 水平显著10虚拟变量回归系数的意义当两个分类变量都属于参照类时,所有虚拟变量都取值 0,回归方

4、程(41)可以简化为上式为参照类女性的曾生子女数对年龄的回归直线, 为直线的截距, 为直线的斜率(表示?)11当受教育程度为小学,居住地为农村时,方程为(44) 是 (43) 的平行线,但截距增加了 ,因此 是小学文化程度女性比文盲半文盲女性在相同的年龄和居住地条件下曾生子女数多的局部12表示各类别的虚拟变量的回归系数 表示该类别与参照类均值之差,因此它又称为差异截距 回归方程 (42)各系数的解释?13如何衡量各个变量(组)作用的大小? 用偏确定系数。分别做不含有 (作为一组,代表EDU),AGE 和 DU 的线性回归,然后根据(23)式,可得 表 2-814表 2-815如果只关心 AGE

5、 和 AREA 对 CEB 的影响,我们可以做 CEB 对 AGE 和 AREA 的回归为什么不建立两个线性回归模型,分别对城乡女性拟合她们曾生子女数与其年龄的回归直线?分别估计和用虚拟变量回归将他们合并一起估计有何差异?16多元回归比简单回归的优越性:只有将各方面的变量放在同一模型中,才能在控制其他自变量的情况下对各自自变量的边际作用进行考察和检验统计控制17与单因素方差分析的关系如果一个回归分析中只有虚拟变量,并且这些虚拟变量都代表某一个原变量的不同类别,那么这一回归的整体检验等价于单因素方差分析(one-way analysis of variance,1-way ANOVA)如只纳入代

6、表 EDU 的四个虚拟变量的回归 回归方程的显著性检验 F=10.079SPSS Show! 方差分析 v.s. 回归分析18在只有一方面的虚拟变量的回归方程中,由于没有其他变量,各回归系数的表现十分单纯,回归常数项 就是参照类案例的 平均值本例中 即为两个文盲、半文盲案例的 CEB 值 4 和 5 的平均值其他教育水平类的平均值则通过参照类平均值加上相应差值 来表现,如大学这一方程完美再现了样本按教育程度分类的类平均值19与双因素方差分析的关系如果一个回归分析中只有两个因素形成的虚拟变量,那么这一回归分析等价于双因素方差分析(2-way ANOVA)如例 6 中将代表教育程度和城乡的所有虚拟

7、变量纳入回归中严格来说,它是只考虑了主效应的双因素方差分析,它没有考虑教育程度和城乡两个因素之间的交互作用(Interaction)如何在回归中纳入交互作用呢?20交互作用用两个因素的各项虚拟变量相乘得到如例 6 中,EDU 与 AREA 的交互作用为SPSS Show-How to get these interaction terms? 方差分析 v.s. 回归分析?21含交互作用的回归方程为将交互作用包含在内的饱和双因素方差模型,能够完美再现各交互分类的组平均值常数项仍然是参照类的平均值,这时的参照类是交互参照类,即两个因素的所有虚拟变量都取 0 时的类本例中的交互参照类为农村文盲半文盲

8、女性,样本中这一类只有一例,其平均值直接为这一例的 CEB 值22其他交互类的平均值也可以由上述回归方程计算出来对于城市小学水平的女性,有 其他所有代表主效应和交互效应的虚拟变量的值都为 0 ,算得该交互类的平均值为 23在交互效应比较小,或者出于简化模型的目的,在模型中不考虑交互项例 6 的双因素分析的简化模型为常数项仍为参照类的 CEB 平均值的估计,由于没有考虑交互项的影响,估计出现了误差(4.73 v.s. 5),但同样可以通过其他各系数计算任一交互类的估计值城市小学水平 出现了偏差24由于没有考虑交互作用,各交互类的估计就会出现估计误差,这是简化的代价但是回归分析对所有案例估计误差之

9、和等于 0。为什么?25考虑了所有交互作用的模型称为饱和模型当有 K 个因素时,饱和模型中不仅有二阶交互项,而且还有三阶,四阶直至 K 阶所有因素组合的各阶交互项。当因素很多时,一般不再采用虚拟变量回归,而是直接用 SPSS 中的方差分析来做26协方差分析如果一个回归分析中不仅有虚拟变量,而且还有其他间距测度变量,那么这一回归等价于协方差分析(Analysis of Covariance,ANCOVA)。间距测度变量在协方差分析中称为协变量(Covariate)例 6 中,AGE 是间距测度变量, 和 是虚拟变量27模型 (41) 中没有考虑因素之间的交互效应由于控制了(引入了)协变量 AGE

10、,使得所有类别平均值中都不含有年龄的影响,常数项成了抽象的无年龄的“农村文盲、半文盲女性的平均生育数(为什么)CEB 被分解为 AGE,EDU 和 AREA 三个独立因素的影响(认为交互效应为 0)28多元回归中的控制,就是通过统计方法将所有案例中这三个方面的影响剥离开,而常数项是剥离以后参照组的平均生育水平控制年龄后,参照组的平均生育水平降低了很多。现实中不存在没有年龄的女性,所以在估计一个女性的生育水平时,必须给定一个年龄。年龄的边际奉献和实际奉献在这个例子中都很大29在这个例子中,年龄只是一个控制变量,不是分析的焦点。通常我们关注的是社会科学中的抽象变量(生育,教育,城乡)之间的关系和差

11、异选择不同的参照类对结果是否有影响? 那些结果受影响,那些不受影响?30含虚拟变量的回归分析的检验在回归分析中采用虚拟变量,无论是对整个模型的显著性检验(F 检验),还是对回归系数的显著性检验(t 检验),与一般回归分析完全一样对于虚拟变量,由于取值只能是 0 和 1,所以检验的只是该变量取值为 1 的类别的平均值是否与参照类的平均值有显著差异31在其他条件相同的情况下,如何对同一因素的不同类进行比较?如小学和大学其他条件相同的情况下,同一因素不同类的平均值之差为 。相应的假设检验为检验统计量为 (服从 ) 32小结在因素数目较少,各因素的类别较少且可以忽略交互效应时,较适宜用回归方法进行方差

12、分析回归方法同时解决了方差分析,计算各类平均值与参照类平均值之差,并对其显著性进行了检验但在因素数目较多,类别较多,而且不能忽略交互效应时,直接用 SPSS 的方差分析模块比较方便,它不需建立虚拟变量,还可以按照用户要求规定各阶交互项33其他分类变量编码方法用于事后比较(即根据抽样调查的观测数据来进行分析)的编码:虚拟编码和效应编码用于事先设计好的比较方案(即观测数据是通过可控制的试验研究取得的)的编码:正交编码和非正交编码 34效应编码反映各类与总平均值之间的差距一个分类变量如果包括 k 类,则需要 k-1 个效应变量。习惯选第一类或最后一类不设立单独变量,他们可通过其他效应变量表示35用

13、分别表示文盲半文盲,小学,初中和高中,不对“大学单独设立效应变量,对教育水平的效应编码如下36效应编码赋值规则如下:对于 k-1 个效应变量,当案例属于该效应变量代表的类别时,效应变量赋值 1;当案例不属于该效应变量代表的类别时,效应变量赋值 0当案例属于不设立效应变量的一类时,所有效应变量赋值为 -137对于“大学为不设立效应变量的类,CEB对教育因素效应变量的回归方程为回归方程的显著性检验 F=10.079,与采用虚拟编码的回归方程一致系数的解释? 各类平均值与采用虚拟编码的结果是否一致?38无论用虚拟编码还是效应编码,无论选哪个类为参照类或不设立独立效应变量,对应模型的 和回归模型的 F 检验是完全相同的只不过各个系数的解释不一样 数学推导说明虚拟编码和效应编码的意义39作业 2对于例 6 中提供的背景和表 2-7中给出的数据,采用效应变量完成简化的(无交互效应)和饱和的(含交互效应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论