版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多分类Logit分析Contents TOC o 1-5 h z 背景4理论4操作5SPSSAU 输出结果 5.文字分析 6剖析8在研究X对于Y的影响关系时,如果Y为定类数据,比如是否愿意购买,是否愿 意推荐,出行方式偏好,总统候选人选择偏好等。当Y为定类数据时,则应该使用Logistic 回归分析,而具体来看, logistic 回归可以划分为二元 logistic 回归分析,或者多分类 logistic回归分析。二者即有相同之处,也有不同的地方。主要区别在于Y的选项个数。项特征举例其它二元Logistic回归Y为定类且选项仅2个是否愿意购买(愿 意用1表示,不愿意 用0表示)Y的数字个数仅
2、2 个,且数字只能为0 和1多分类Logistic回归Y为定类且选项大于2个总统候选人偏好(特朗普、希拉里、 卢比奥)需要特别注意的地方在于:Logistic 回归时,因变量 Y 值为定类数据,因而需要有对照参考项。如果是二元Logistic 回归,默认以数字0 作为参考项【通常数字0表示不愿意,不喜欢,不会等】; 如果是多分类logistic回归,则SPSSAU默认以第一项【即数字最小的那项】作为参考 项。如果希望改变对照项,可使用数据编码功能先编码后再分析。同时针对定类数据,SPSSAU 建议先进行数据标签设置,便于系统输出带“标签”的智能文字分析。多分类 logistic 回归(也称作多
3、元 logistic 回归,多项 Logit 等),对于多分类 logistic 回归建模,通常需要分析信息包括:基本信息描述,模型检验判断或者对比,模型结果 汇总。SPSSAU分别输出三个表格。SPSSAU分析结果表格示例如下:多分类Logistic回归分析基本汇总名称选项频数百分比总统候选人选择特朗普66135.79%希拉里27815.05%卢比奥90849.16%总计1847100.0上表格对于模型的因变量进行基本统计。多分类Logistic回归模型检验卡方值dfPAIC值BIC值-2LLNULL 值-2LLF 值91.57360.0003625.2563669.4273700.8293
4、609.256上表格是模型检验判断或者相关模型对比指标等,其中P值用于验证模型是否有意 义;AIC或BIC值用于对比不同模型的优劣。多分类Logistic回归分析结果汇总希拉里回归系数标准误Z值P值OR值OR 值 95%CI(L)OR 值 95%CI(U)性别(男)0.3090.1452.1270.0331.3621.0251.810年龄-0.4370.072-6.0760.0000.6460.5610.744学历-0.0650.062-1.0530.2920.9370.8291.058截距0.0810.2240.3640.7161.0850.7001.682卢比奥回归系数标准误Z值P值OR值
5、OR 值 95%CI(L)OR 值 95%CI(U)性别(男)-0.4360.104-4.1920.0000.6470.5270.793多分类Logistic回归分析结果汇总年龄0.0760.0501.5160.1301.0790.9781.191学历-0.0020.043-0.0540.9570.9980.9171.085截距0.3120.1711.8260.0681.3660.9771.910McFadden R 方:0.025上表格是模型结果汇总表格,也是最核心的表格。具体关于多分类 Logistic 回归的 剖析,请参考下面的案例解析。多分类 Logit 回归案例Contents TO
6、C o 1-5 h z 背景4理论4操作5SPSSAU 输出结果 5.文字分析 6剖析8背景在 2016 年美国总统选举时,共有三名候选人,分别是特朗普、希拉里、卢比奥。 有一市场研究公司想预测最终谁会胜出,因此收集到共 1847 名民众信息,包括选择偏 好,性别,年龄,学历等信息进行研究,研究性别,年龄和学历对于总统候选人选择的 影响情况,最终做出科学预测。理论多分类Logistic回归分析用于研究X对于Y的影响关系,其中X可为定量数据,也 可以是定类数据(如果X为定类数据,需要做虚拟(哑)变量设置),Y为多分类定类数 据。针对多分类Logistic回归分析时,可分为三个步骤。第一:模型的基
7、本背景情况说明;比如模型研究X对于Y的影响,X分别是那些,Y 具体情况如何等。第二:针对模型的构建和比较过程进行描述,包括分析P值来检测模型构建是否有 意义,以及模型构建时的重复选择过程,使用AIC和BIC准则对比,选出最优模型等;第三:针对模型的具体情况进行分析,首先分析尸值,如果此值小于0.05,说明X 对于 Y 有影响关系,接着再具体研究影响关系情况即可,比如是正向影响还是负向影响 关系等;除此之外,还可以写出回归模型构建公式,以及模型的预测准确率情况等。特别提示:一定注意,SPSSAU建议首先对Y进行标签设置;便于输出带标签的智能 文字分析;多分类Logistic回归时,Y是定类数据;
8、需要有对照项,SPSSAU默认以Y对 应的最小数字作为对照项。如果X为定类数据,通常情况下需要将X进行虚拟(哑)变量设置【SPSSAU中 生成变量功能中有】。如果X为定类数据,此时可以考虑使用交叉卡方分析去研究X和Y的关系。多分类Logistic回归模型,可通过对比AIC或BIC值,对比选出最优模型。如果X非常多(比如超过10个),此时可以先对定类的X与Y进行卡方分析,对定量的X与Y进行方差分析,先看有没有差异关系,将最终有差异关系的X 放入回归模型中,这样X会较少,并且X与Y均有差异关系,也更可能有影 响关系,此时模型的构建会更有科学。操作本例子中研究X对于Y的差异;X分别性别,年龄和学历;
9、Y为总统候选人。放 置如下:卄始多分类Logit分折总统麒人磐性91(男)学历SPSSAU输出结果SPSSAU共输出三个表格结果,上述已有说明不再赘述。5 文字分析多分类Logistic回归分析基本汇总名称选项频数百分比总统候选人选择特朗普66135.79%希拉里27815.05%卢比奥90849.16%总计1847100.0本研究共收集数据 1847 份。使用多分类 logistic 回归分析进行建模,研究民众性 别,年龄和学历对于总统候选人的影响关系。总统候选人为定类数据,而且共为三 名,分别是特朗普,希拉里和卢比奥。从上表可知,选择特郞普的比例是35.79%,希 拉里的选择比例是 15.
10、05%,卢比奥的比例最高为49.16%。在进行模型构建时,将特朗普作为参照对比项。以及自变量中性别为定类数据, 因而首先将其进行哑变量设置后,并且将女作为参照对比项,因此最终将“性别 (男)”放入模型中。多分类Logistic回归模型检验卡方值dfPAIC值BIC值-2LLNULL 值-2LLF 值91.57360.0003625.2563669.4273700.8293609.256上表格对于模型构建是否有意义进行验证,模型检验的原定假设为:是否放入自变量(性别(男),年龄,学历)时模型质量均一样;这里P值小于0.05(x2=91.573p=0.00),因而说明拒绝原定假设,即说明本次构建模
11、型有意义。特别提示:AIC和BIC值用于模型的对比,其标准为越小越好;如果同一个模型 构建了两次(比如一个模型不放入学历,另一个模型放入学历),可将AIC和BIC值记 录下来,并且进行对比,最终选出最有意义的模型。多分类Logistic回归分析结果汇总希拉里回归系数标准误Z值P值OR值OR 值 95%CI(L)OR 值 95%CI(U)性别(男)0.3090.1452.1270.0331.3621.0251.810多分类Logistic回归分析结果汇总年龄-0.4370.072-6.0760.0000.6460.5610.744学历-0.0650.062-1.0530.2920.9370.82
12、91.058截距0.0810.2240.3640.7161.0850.7001.682卢比奥回归系数标准误Z值P值OR值OR 值 95%CI(L)OR 值 95%CI(U)性别(男)-0.4360.104-4.1920.0000.6470.5270.793年龄0.0760.0501.5160.1301.0790.9781.191学历-0.0020.043-0.0540.9570.9980.9171.085截距0.3120.1711.8260.0681.3660.9771.910McFadden R 方:0.025本次研究模型时,将特朗普作为对比参照项,自变量分别为:性别(男),年龄和学历。首先
13、构建模型公式分别如下:ln(希拉里/特朗普)=0.081 + 0.309*性别(男)-0.437*年龄-0.065*学历;ln(卢比奥/特朗普)=0.312-0.436*性别(男)+ 0.076*年龄-0.002*学历;以特朗普为对照项,分析希拉里的选择偏好情况。表格中显示:性别(男)的回归系 数值为0.3090,并且呈现出0.05水平的显著性(P=0.0330.05);则说明在特朗普和希 拉里之间进行 PK 时,男性群体更加愿意选择希拉里。年龄的回归系数值为-0.4370, 并且呈现出0.01水平的显著性(P=0.0000.01),则说明在特朗普和希拉里之间进行PK 时,年龄越大的群体,他们
14、会更加愿意选择特朗普。以特朗普为对照项,分析卢比奥的选择偏好情况。表格中显示:性别(男)的回归系 数值为-0.436V0,并且呈现出0.05水平的显著性(P=0.0000.05);则说明在特朗普和卢 比奥之间进行PK时,男性群体更加愿意选择特朗普。特别提示:在医学研究中,很可能会对OR值进行分析,其意义在于X增加1个单位时,Y的 变化幅度情况。如果仅研究影响关系,则OR值的意义相对较小;SPSSAU提供McFadden R方值,其代表X对于Y的解释力度,比如上例中为0.025, 即说明性别,年龄和学历共三个X可以解释总统候选人选择偏好2.5%的原因。通常情 况下,此值使用较少。6 剖析多分类 Logistic 回归分析涉及以下几个关键点,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论