SPSS实验8-二项Logistic回归分析_第1页
SPSS实验8-二项Logistic回归分析_第2页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSSSPSS作业作业8 8:二项二项LogisticLogistic回归分析回归分析 为研究和预测某商品消费特点和趋势,收集到以往胡消费数据。数据项包括是否购买,性别,年龄和收入水平。这里采用 Logistic 回归的方法,是否购买作为被解释变量(0/1 二值变量),其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量。变量选择采用 Enter 方法,性别以男为参照类,收入以低收入为参照类。 一)基本操作:一)基本操作: (1)选择菜单 AnalyzeRegressionBinaryLogistic; (2)选择是否购买作为被解释变量到 Dependent 框中,选其余各变

2、量为解释变量到 Covariates 框中,采用 Enter 方法,结果如下: 消费的二项消费的二项 LogisticLogistic 分析结果(一)(强制进入策略)分析结果(一)(强制进入策略) CategoricalVariabCategoricalVariab .esCodings.esCodings A Parameter coding Frequency (1) (2) 收入 低收入 132 .000 .000 中收入 144 .000 高收入 155 .000 性别 男 191 .000 ObservedPredicted CategoricalVariabCategoricalV

3、ariab:.esCodings.esCodings A Parameter coding Frequency (1) (2) 收入 低收入 132 .000 .000 中收入 144 .000 高收入 155 .000 性别 男 191 .000 女 240 分析:分析:上表显示了对品质变量产生虚拟变量的情况, 产生的虚拟变量命名为原变量名(编码)。 可以看到, 对收入生成了两个虚拟变量名为 Income(l)和 Income(2),分别表示是否中收入和是否髙收入,两变量均为 0 时表示低收入;对性别生成了一个虚拟变量名为 Gedder(l),表示是否女,取值为 0 时表示为男。 消费的二项

4、消费的二项 LogisticLogistic 分析结果分析结果( (二二)()(强制进入策略强制进入策略) ) BlockBlock0 0:BeginningBlockBeginningBlock ClassificationTableClassificationTablea,b ( 是否购买 Percentage Correct 不购买 购买 Step0 是否购买】 不购买 269 0 购买 162 0 .0 ) OverallPercentage a. Constantisincludedinthemodel. b. Thecutvalueis.500 分析:分析:上表显示了 Logist

5、ic 分析初始阶段(第零步)方程中只有常数项时的错判矩阵。可以看到:269 人中实际没购买且模型预测正确,正确率为 100%;162 人中实际购买了但模型均预测错误,正确率为 0%。模型总的预测正确率为。 消费的二项消费的二项 LogisticLogistic 分析结果(三)(强制进入策略)分析结果(三)(强制进入策略) VariablesintheEquationVariablesintheEquation B Wald df Sig. Exp(B) Step0Constant .099 1 .000 .602 分析:分析:上表显示了方程中只有常数项时的回归系数方面的指标,各数据项的含义依次

6、为回归系数,回归系数标准误差,Wald 检验统计量的观测值,自由度,Wald检验统计量的概率 p 值,发生比。由于此时模型中未包含任何解释变量,因此该表没有实际意义。 消费的二项消费的二项 LogisticLogistic 分析结果(四)(强制进入策略)分析结果(四)(强制进入策略) VariablesnotintheEquationVariablesnotintheEquation Score df Sig. Step0Variablesage 1 .260 gender(l) 1 .031 income 2 .005 income(l) A 1 .087 income 1 .001 Ove

7、rallStatistics 、 4 .001 分析:分析:上表显示了待进入方程的各个变量的情况,各数据项的含义依次为 Score 检验统计量的观测值,自由度和概率 p 值。可以看到,如果下一步 Age 进入方程,则 Score 检验统计量的观测值为,概率 p 值为。如果显著性水平 a 为,由于 Age 的概率 p 值大于显著性水平 a,所以是不能进入方程的。但在这里,由于解释变量的筛选策略为 Enter,所以这些变量也被强行进入方程。 消费的二项消费的二项 LogisticLogistic 分析结果(五)(强制进入策略)分析结果(五)(强制进入策略) BlockBlock1:1:Method

8、Method= =EnterEnter OmnibusOmnibus 、estsofModelCoefficientsestsofModelCoefficients Chi-square df Sig. Step1Step 4 .001 Block 4 .001 Model 4 .001 分析:分析:上表显示了 Logistic 分析第一步时回归方程显著性检验的总体情况,各数据项的含义依次为似然比卡方的观测值,自由度和概率 p 值。可以看到,在本步所选变量均进入方程(Method 二 Enter)。与前一步相比,似然比卡方检验的观测值,概率 p 值为。如果显著性水平 a 为,由于概率 p 值小

9、于显著性水平 a,应拒绝零假设,认为所有回归系数不同时为 0,解释变量的全体与 LogitP 之间的线性关系显著,采用该模型是合理的。 在这里分别输出了三行似然比卡方值。其中,Step 行是本步与前一步相比的似然卡方比;Block 行是本块(Block)与前一块相比的似然卡方比;Model 行是本模型与前一模型相比的似然卡方比。在本例中,由于没有设置解释变量块,且解释变量是一次性强制进入模型,所以三行结果都相同。 | 消费的二项消费的二项 LogisticLogistic 分析结果(六)(强制进入策略)分析结果(六)(强制进入策略) ModelSummaryModelSummary -2Log

10、 Cox&SnellR NagelkerkeR Step likelihood Square Square parameterestimateschangedbylessthan.001. 分析:分析:上表显示了当前模型拟合优度方面的指标,各数据项的含义依次为-2 倍的对数似然函数值,Cox&SnellR2。-2 倍的对数似然函数值越小则模型的拟合优度越髙。这里该值较大,所以模型的拟合优度并不理想。从 NagelkerkeR2 也可以看到其值接近零,因此拟合优度比较低。 消费的二项消费的二项 LogisticLogistic 分析结果(七)(强制进入策略)分析结果(七)(强制进

11、入策略) ClassificationTableClassificationTablea / Observed Predicted 是否购买 Percentage Correct 不购买 购买 Step1 是否购买 不购买 购买 OverallPercentage 236 131 33 31 a.Thecutvalueis.500 分析:分析:上表显示了当前所得模型的错判矩阵。可以看到,脚注中的 TheCutvalueis.500 意味着:如果预测概率值大于,则认为被解释变量的分类预测值为 1,如果小于,则认为被解释变量的分类预测值为 0.;在实际没购买的 269 人中,模型正确识别了 236

12、 人,识别错误了 131 人,正确率为%。模型总的预测正确率为%。与前一步相比,对未购买的预测准确度下降了,对购买的预测准确度上升了,但总体预测精度仍下降了。因此模型预测效果并不十分理想。 # 消费的二项消费的二项 LogisticLogistic 分析结果(八)(强制进入策略)分析结果(八)(强制进入策略) VariablesintheEquationVariablesintheEquation B Wald df Sig. Exp(B) !age .025 .018 1 .160 Step1a/、 gender(1) .511 .209 1 .015 income 2 .002 incom

13、e(1) .101 .263 .146 1 .703 % income .787 .253 1 .002 Constant .754 1 .005 .121 a.Variable(s)enteredonstep1:age,gender,income. 分析:分析:上表显示了当前所得模型中各个回归系数方面的指标。可以看出,如果显著性水平 a 为,由于 Age 的 Wald 检验概率 p 值大于显著性水平 a,不应拒绝零假设,认为该回归系数与 0 无显著差异,它与 LogitP 的线性关系是不显著的,不应保留在方程中。由于方程中包含了不显著的解释变量,因此该模型是不可用的,应重新建模。 下面是对模

14、型做进一步分析,解释变量的筛选采用基于极大似然估计的逐步筛选策略(Forward:LR),分析的具体操作以及结果如下:( (二二) )基本操作:基本操作: (1) 选择菜单 AnalyzeRegressionBinaryLogistic; (2) 选择是否购买作为被解释变量到 Dependent 框中,选其余各变量为解释变量到 Covariates 框中,采用 Forward:LR 方法,在 Option 框中对模型做近一步分析,结果如下: 消费的二项消费的二项 LogisticLogistic 分析结果分析结果( (一一)()(逐步筛选策略逐步筛选策略) ) BlockBlock1 1:Me

15、thodMethod= =ForwardStepwise(LikelihoodRatio)ForwardStepwise(LikelihoodRatio) OmnibusOmnibus 、estsofModelCoefficientsestsofModelCoefficients Chi-square ! df Sig. Step1 Step 2 .005 Block 2 .005 Model 2 .005 Step2 Step 1 .015 Block 3 .001 Model 3 .001 消费的二项消费的二项 LogisticLogistic 分析结果(二)(逐步筛选策略)分析结果(二)

16、(逐步筛选策略) ModelifTermRemovedModelifTermRemoved Variable ModelLog Likelihood Changein-2Log Likelihood df Sig.ofthe Change Step1 income 】 2 .005 Step2 gender 1 .015 income 2 .003 分析:分析:上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果,用于回归方程的显著性检验。这里略去了第零步分析的结果。结果上面的两个表共同分析。在 Step1 中,模型中包含常数项和 INC0ME。如果此时剔除 INC0ME 将使-2LL

17、 减少,即是 INC0ME 进入模型引起的,即为零模型的对数似然比;在 Step2 中,模型中包含常数项,INCOME,GENDER。此时剔除 GENDER,即-2LL 将减少,即是在 Step1 基础上 GENDER 所引起的,即为 Step1 模型的对数似然比,此时-2*+2*=,即INCOME 引起的。其他同理。可以看到,如果显著性水平 a 为,由于各步的概率 p 值均小于显著性水平 a,因此此时模型中的解释变量全体与 LogitP 的线性关系是显著,模型合理。 消费的二项消费的二项 LogisticLogistic 分析结果(三)(逐步筛选策略)分析结果(三)(逐步筛选策略) Vari

18、ablesintheEquationVariablesintheEquation B Wald df Sig. Exp(B) %EXP(B) Lower Upper Step1a income .005 income(l) .006 .259 .001 1 .982 .606 income .672 .247 1 .006 Constant .187 1 .000 .467 ) Step2b gender(l) .504 .209 1 .016 income 2 .003 income(1) .096 .263 .134 1 .714 .658 income(2) .761 .251 1 .0

19、02 Constant .240 1 .000 .329 a.Variable(s)enteredonstep1:income. b.Variable(s)enteredonstep2:gender. 分析:上表显示了解释变量筛选的过程和各解释变量的回归系数检验结果。可以看到,最终的模型(第二步)中包含了性别和收入变量,各自回归系数显著性检验的 Wald 观测值对应的概率 p 值都小于显著性水平 a,因此均拒绝零假设,意味它们与 LogitP 的线性关系是显著,应保留在方程中。表中的第七,第八列分别是发生比的 95%的置信区间。 最终年龄变量没有引入方程,因为如果引入则相应的 Score 检验

20、的概率 p 值大于显著性水平 a,不应拒绝零假设,它与 LogitP 的线性关系不显著,不应进入方程。具体结果如下:消费的二项消费的二项 LogisticLogistic 分析结果(四)(逐步筛选策略)分析结果(四)(逐步筛选策略) VariablesnotintheEquationVariablesnotintheEquation Score df Sig. Step1age 1 .174 Variables/八 gender(1) 1 .015 OverallStatistics 2 .020 Step2Variablesage 1 .159 OverallStatistics 1 .15

21、9 消费的二项消费的二项 LogisticLogistic 分析结果(五分析结果(五)()(逐步筛选策略)逐步筛选策略) ModelSummaryModelSummary Step -2Log likelihood Cox&SnellR Square ! NagelkerkeR Square 1 560.107a .024 .033 2 .037 .051 a.Estimationterminatedatiterationnumber3becauseparameterestimateschangedbylessthan.001. ModelSummaryModelSummary Ste

22、p -2Log likelihood Cox&SnellR Square ! NagelkerkeR Square 1 560.107a .024 .033 2 .037 .051 a.Estimationterminatedatiterationnumber3because parameterestimateschangedbylessthan.001. b.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001. 分析:分析:上表显示了模型拟合优度方面的测度指标。最终模

23、型的-2 倍的对数似然函数值为,仍然较髙,说明模型的拟合优度不甚理想。同时,NagelkerkeR2 距 1较远,也说明了模型的拟合优度不高。 消费的二项消费的二项 LogisticLogistic 分析结果(六)(逐步筛选策略)分析结果(六)(逐步筛选策略) HosmerandLemeshowTestHosmerandLemeshowTest Step Chi-square df Sig. 1 .000 1 2 4 .063 消费的二项消费的二项 LogisticLogistic 分析结果(七)(逐步筛选策略)分析结果(七)(逐步筛选策略) ContingencyTableforHosmer

24、andLemeshowTestContingencyTableforHosmerandLemeshowTest , 是否购买=不购买 是否购买=购买 Total Observed Expected Observed Expected 1 90 42 132 Step1 2 98 46 144 3 81 74 155 Step2 1 35 8 43 2 58 15 73 3 55 34 89 4 40 31 71 5 37 38 75 6 44 36 80 分析:分析:上面是 Hosmer-Lemeshow 检验的结果。最终模型中,Hosmer-Lemeshow 统计量的观测值为,概率 p 值为

25、,大于显著性水平 a,因此不应拒绝零假设,认为该组的划分与被解释变量的取值不相关,说明模型的拟合优度较低。它与 NagelkerkeR2 分析的结果是一致的。160+ 消费的二项消费的二项 LogisticLogistic 分析结果(八)(逐步筛选策略)分析结果(八)(逐步筛选策略) ClassificationTableaClassificationTablea Observed Predicted 是否购买 Percentage Correct 不购买 购买 Step1 是否购买不购买 269 0 购买 162 0 .0 OverallPercentage Step2 不购买 225 44

26、 是否购买购买 126 36 OverallPercentage a.Thecutvalueis.500 Stepnumber:2 ObservedGroupsandPredictedProbabilities00 R 120+ + E 1 1 Q 1 1 1 U 1 1 1 E 80+ 1 + N 1 11 C 1 1 01 Y 1 1 01 40+ 1 00 1 111 1111 0111 0111 0000 0000 .9 00000000000000000000000000000000000000000000000000 PredictedProbabilityisofMembersh

27、ipfor 购买 TheCutValueis.50 Symbols:0-不购买 1-购买 EachSymbolRepresents10Cases. 图:消费的二项图:消费的二项 LogisticLogistic 分析预测分类图分析预测分类图 分析:分析:上表显示了各模型的错判矩阵。第一个模型的总体正确率为%,对不购买人群预测的准确率极高,但对购买人群预测的准确率极低;第二个模型的总体正确率为%,对不购买人群预测的准确率下降了,但对购买人群预测的准确率提高了。从应用角度看第二个模型较第一个模型的应用性略强一些。 在上图中,符号 0 表示实际未购买,1 表示实际购买,一个符号代表 10 个样本。预

28、测概率值大于的样本属于购买类,小于的属于未购买类。可以看出:在模型预测出的购买类中,仍有 40 个左右(4 个 0,精确值为 44)实际未购买;同样,在模型预测出的未购买类中,仍有 110 个左右(11 个 1,精确值为 126)实际购买了。模型的预测效果并不很理想。 通过以上的分析知道,该模型的预测效果不很理想。也就是说,仅通过性别和收入来预测是否购买商品是不全面的,还应考虑其他因素。但是该模型仍可以用于分析是否购买和收入之间的关系。由上面的分析结果,可以写出 Logistic 回归方程: LogitP=+gender(1) Predicted Prob: .1 .2 00 00 00 00

29、 .3 .4 .5 .6 .7 .8 Group: LogitP=+gender(1)+income(1) LogitP=+gender(1)+income(2) 上面的第一个式子反映了女性与男性在购买上的差异。女性较男性使 LogitP 平均增长个单位。结合发生比可知,女性的购买发生比是男性的倍,因此女性更倾向购买该商品。进一步分析,上面的第二个式子反映了女性顾客群中中等收入较低等收入在购买上的差异。对于女性顾客群,中等收入较低等收入使 LogitP 平均增长个单位。结合发生比可知,女性顾客群中,中等收入的购买发生比是低等收入的倍(有 95%的把握在至之间),略髙一些,但差异并不十分明显。而

30、通过上面的第三个式子可知,对于女性顾客群,髙等收入较低等收入使 LogitP 平均增长个单位。结合发生比可知,女性顾客群中,髙等收入的购买发生比是低等收入的倍(有 95%的把握在至之间),显然髙出较多。因此分析的结论是:年龄对是否购买该商品并无显著影响,较男性来说,女性成为现实客户的可能性大,且髙收入阶层较其他收入阶层有较髙的购买可能。 原始数据: 是否购买 年龄 性别 收入 1 ) 49 2 3 0 41 2 1 0 46 2 3 / 0 47 2 1 0 41 2 3 1 41 2 1 0 40 2 3 1 39 2 1 1 44 3 0 32 2 1 0 35 2 3 0 32 2 1 0 40 2 3 0 33 2 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论