上机练习5 Logistic回归与因子分析_第1页
上机练习5 Logistic回归与因子分析_第2页
上机练习5 Logistic回归与因子分析_第3页
上机练习5 Logistic回归与因子分析_第4页
上机练习5 Logistic回归与因子分析_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

#上机练习5LOGISTIC回归分析与因子分析本上机练习的主要目的:熟悉如何利用SPSS软件来进行Logistic回归分析与因子分析。本练习所使用数据文件为“T3_2.sav”和“Apart2.sav"。1-LOGISTIC回归分析Q:如何利用Logistic回归模型来考察大学生的不同特征对他们是否在外租房具有显著的影响?(数据文件为“Apart2.sav”)该数据文件来自于2000年对北京市高校大学生在外租房的调查,具体请查看数据字典文件“Apart2_dct.doc”。打开上述数据文件后,我们从主菜单中选择AnalyzedRegression^BinaryLogistic...,分另I」将变量rental和age、sex、school、educat、grade和income选入“Dependent”和“Covariate(s)”。“Method”中选择默认的“Enter”,即模型中包括上述全部自变量。点击最下面的“Categorical...”,将分类变量sex、school、educat、grade选入“CategoricalCovariates”中。然后分另选中这4个变量,并逐一在“Contrast”中选择Simple”(即自变量中除参照组之外的各类分别与参照组比较)和点击Change”。上述动作连续操作4次(注意:我们以每个分类变量的最后一类为参照组)。完成后点击“Continue”返回。点击“0K”,即得到以下结果(SPSS系统默认进行两步求解,在第一步“Step0”,模型没有包括自变量,只有截距。通常这一步所得到的模型是无意义的。如果

进行逐步回归或利用变量组可能需要更多的求解步骤。)OmnibusTestsofModelCoefficientsChi-squaredfSig.Step1Step50.34512.000Block50.34512.000Model50.34512.000ModelSummaryStep-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquare1393.948a.119.177a.Estimationterminatedatiterationnumber5becauseparameterestimateschangedbylessthan.001.上述-2Loglikelihood、Cox&SnellRSquare和NagelkerkeRSquare的结果都没有太大的意义,我们只需了解即可,不要轻易利用这些统计量像线性回归模型中的R2—样来解释模型的拟合程度。ClassificationTablea,bObservedPredictedeverrentPercentageCorrectnoyesStep0everrentno3000100.0yes980.0OverallPercentage75.4Constantisincludedinthemodel.Thecutvalueis.500ClassificationTableaObservedPredictedeverrentPercentageCorrectnoyesStep1everrentno2871395.7yes791919.4OverallPercentage76.9a.Thecutvalueis.500Step1中分类表的预测正确率为76.9%,略高于Step0中分类表的75.4%,表明模型的拟合程度还可以。

BS.E.WalddfBS.E.WalddfSig.Exp(B)AGE.216.0787.6901.0061.241SEX(1).606.2714.9851.0261.833SCHOOL18.6154.001SCHOOL(1)-1.424.4758.9871.003.241SCHOOL(2)-1.290.4577.9561.005.275SCHOOL(3).130.450.0841.7721.139SCHOOL(4)-.988.4634.5491.033.372EDUCAT1.9552.376EDUCAT(1).652.6231.0931.2961.919EDUCAT(2).131.504.0681.7941.141GRADE.2943.961GRADE(1).307.608.2561.6131.360GRADE(2).178.576.0961.7571.195GRADE(3).162.601.0731.7871.176INCOME.000.000.4931.4831.000Constant-5.9431.71512.0021.001.003VariablesintheEquationa.Variable(s)enteredonstep1:AGE,SEX,SCHOOL,EDUCAT,GRADE,INCOME.上述结果表明,大学生的年龄、性别和其所在学校对他们是否在外租房具有显著的影响,而大学生的学历层次、年级和可支配收入对他们是否在外租房的影响并不显著。不过,需要提醒大家的是,我们只是在SPSS的“Categorical…”中将那些定类自变量加以定义,而并没有事先用一些相应的虚拟变量来表示。更好的方式或者说更符合学术习惯的做法是:先将那些定类变量用某些虚拟变量来表示,然后再进行Logistic回归分析。我们将上述定类自变量分别用相应的虚拟变量来表示(这可以用“Transform”“Recode”来实现)。于是,我们会得到以下结果,大家可以与上表加以比较:VariablesintheEquationBS.E.WalddfSig.Exp(B)AGE.216.0787.6901.0061.241MALE■606.2714.9851.0261.833BD-1.424.4758.9871.003.241QH-1.290.4577.9561.005.275RD.130.450.0841.7721.139PL-.988.4634.5491.033.372UNIV-.520.3811.8651.172.594MASTER-.652.6231.0931.296.521GRAD_4-.307.608.2561.613.735GRAD_3-.145.423.1181.731.865GRAD_2-.129.368.1241.725.879INCOME.000.000.4931.4831.000Constant-4.9951.6029.7281.002.007a.Variable(s)enteredonstep1:AGE,MALE,BD,QH,RD,PL,UNIV,MASTER,GRAD_4,GRAD_3,GRAD_2,INCOME.不过,到目前为止,我们只是知道大学生的不同特征对其是否外出租房影响的显著性,我们并不知道对其外出租房概率的影响程度,比如,年龄增加1岁会导致外出租房的概率增加多少。这个问题涉及到如何获得Logistic回归模型的边际影响:如果自变量为连续变量,如年龄Age,我们可利用大学生外岀租房概率对其的偏导数来获得:OP{r=IIX,X,X,123-OXkTOC\o"1-5"\h\z}°exp©+Xp+OP{r=IIX,X,X,123-OXk_=卩0J2233k(1+exp(P+XP+XP+XP+)》0112233…其中:其它自变量如果为定量变量,则取平均值代入;如果为虚拟(定类)变量,则取该变量为1的比例代入。上述均值我们可以通过描述性统计得到:DescriptiveStatisticsNMinimumMaximumMeanStd.Deviationeverrent48501.28.450age493173621.412.563dispossibleincome453204000605.41431.665MALE49401.52.500BD47101.20.402QH47101.22.414RD47101.21.406PL47101.21.411UNIV48901.50.501MASTER48901.26.441GRAD_449901.06.242GRAD_349901.24.427GRAD_2ValidN(listwise)46539801.36.481于是,我们可以计算得到大学生的年龄对其外出租房概率的边际影响为0.0381,即在其他方面特征相同的情形下,大学生的年龄每增加1岁会导致外出租房的概率增加3.81%。(大家可以将相应的数据复制到excel中,然后利用sumproduct函数就可以得到)如果自变量为虚拟变量,比如性别Male,我们可直接利用该变量从0变化到1所造成的概率变化来表示:TOC\o"1-5"\h\zap{r二11X,X,X,—1231+exp(卩+X卩+X卩+X卩++0X卩+)0112233k…1/•••••\1+exp(P+XP+XP+XP+~~+1xP+)0112233k其中:其它自变量如果为定量变量,则取平均值代入;如果为虚拟(定类)变量,则取该变量为1的比例代入。于是,我们可以得到大学生的性别对其外出租房概率的边际影响为0.1058,即在其他方面特征相同的情形下,男生比女生外出租房的概率大10.58。大家可以试着计算一下,看是否与我计算的结果相同?2.因子分析生育率的影响因素分析。生育率受社会、经济、文化、计划生育政策等很多因素影响,但这些因素对生育率的影响并不是完全独立的,而是交织在一起的。

如果直接利用选定的变量对生育率进行多元回归分析,可能会存在多重共线性问题,造成部分信息的丢失。因此,我们需要先对自变量进行因子分析,找出基本的数据结构,然后再用新生成的因子对生育率进行多元回归分析。1我们所选择的变量包括:多孩率(X1)、节育率(x2)、初中以上文化程度的人口比例(x3)、人均国民收入(x4)和城镇人口比例(x5)。所使用数据文件为“T3_2.sav”,所对应的数据字典为“T3_2_dct.doc”。打开数据集“T3_2.sav”后,我们从主菜单中选择AnalyzedDataReduction9Factor...,将上述5个变量全部选入“Variables”。点击下面的“Descriptives",在弹出的对话框中选择“Initialsolution(最初解)"、“Coefficients(观测变量的相关系数矩阵)"、“Significancelevels(每个相关系数的显著性水平)"、“Reproduced(由因子模型估计出的相关系数及残差)”和“KMOandBartlett'stestofsphericity(KMO测度和Bartlett球体检验)”。1:id兰旧|副團门|胡函|£|翻囲罔匪|劃坐懾|阳⑥|123456789101112131415161:id兰旧|副團门|胡函|£|翻囲罔匪|劃坐懾|阳⑥|12345678910111213141516idx1簸'id<^>multi-childrenrate[:-:1]發birthcontrolrate[:-:2]<^>populationratioofjunii:‘::軫averagenationali门匚o「i<^>urbanpopulationratio|Variables:123

varvarvar-Statistics一厂UnivariatedescriptivesPInitialsolutionvarOKPasteResetCancelHelpCorrelalionMatrix或Coefficienb厂Inverse破Signifiesnc皂I皂”已k两Reproduced厂DeterminantI-Anti-imageKMOandBartlett'stestofsphericitySelectionVariable:y.u4SOUII!□.茲Descriptives...IExtraction...IRotation...Scores...Options...Value...oo./D|点击“Continue”返回。点击“Extraction”,在弹出的对话框中选择“Unrotatedfactorsolution(未经旋转的因子解)"和“Screeplot(碎石图)",其它选择默认。注意:默认的提取因子方法为Principalcomponents(主成分分析)。1此例题来自于《社会统计分析方法——SPSS软件应用》第93页,郭志刚主编(2007),中国人民大学出版社。

ididx2x3x53Variables:OK56ResetDCancel8Help91011SelectionVariable:D12Value.13141516<S>«2@x3x4瞬x5Descriptives...I<^>multi-childrenrate[x1]®birthcontrolrate[m2]⑥populationratioofjunic燼>averagenationalincon影urbanpopulationratio|丄2|旨—SPSSDataEditorFileEdit¥iewTrarLsformAnalyzeGraphsUtilitiesWindowHelpididx2x3x53Variables:OK56ResetDCancel8Help91011SelectionVariable:D12Value.13141516<S>«2@x3x4瞬x5Descriptives...I<^>multi-childrenrate[x1]®birthcontrolrate[m2]⑥populationratioofjunic燼>averagenationalincon影urbanpopulationratio|丄2|旨—SPSSDataEditorFileEdit¥iewTrarLsformAnalyzeGraphsUtilitiesWindowHelpFactorAnalysis:Extraction目旧I剧国I"I:“I冈I韵l?l鱼I樨隹I圜垂I匿I飓魁MaximumIterationsforConvergence:(25_-Extract——f*Eigenvaluesover:|l「Numberoffactors:「Method:-AnalyzeCorrelationmatrix'■'Covariancematrix匝ScreeplotContinueCancelHelp-Display—7Unrotatedfactorsolution|F'「i匚ip日I匚口「「1p匚i「旧门垃J|Extraction...IRotation...IScores...Options...TOiZiiZi.Ci~点击“Continue”返回。点击Rotation",在弹出的Method对话框中选择Varimax(方差最大法)",在Display对话框中选择“Rotatedsolution(旋转后的因子解)"和“Loadingplot(s)(因子负载图)",其它选择默认。發id®multi-childrenrate[:-:1]®birthcontrolrate[:-:2]populationratioofjunic<$>averagenationalincon<$>urbanpopulationratio|x5varvarvarvarx1idOKPasteFlesetCancelHelp-Method—CNoneVarimaxCDirectOblimin

Delta:[o發id®multi-childrenrate[:-:1]®birthcontrolrate[:-:2]populationratioofjunic<$>averagenationalincon<$>urbanpopulationratio|x5varvarvarvarx1idOKPasteFlesetCancelHelp-Method—CNoneVarimaxCDirectOblimin

Delta:[oCQuartimaxCEquamaKCPromaxKappapDisplay一WRotatedsolutionPLoadingplot(s]16SelectionVariable:MaximumIterationsforConvergence:Descriptives...IExtraction...IRotation...IScores...Options...T5iziizi./tidy./IBBOib.Jziz:ContinueCancelHelp昌T/_2-SPSSDataEditorFileE^itViewHataTransformAiL:dlyzeGraphsUtilitiesWindowHelp目旧直I團口|c|画|益|审|戲]潤韵劃血周叵创1:id点击“Continue”返回。点击“Scores”,在“Displayfactorscorecoefficientmatrix显示因子分数的系数矩阵)”前打上勾。曲旧I劉團厂||社|卬開*r『-|口虫|匚|區o)|1:id1idx1x2x3x4x5varvarvarvarDHelpValue...nSelectionVariable:冈厂SaveasvariablesMethodi忖FlegressiunCBartlett「Anderson-RubinWDisplayfactorscorecoefficientmatrix<^>id<^>multi-childrenrate[k1]<^>birthcontrolrate[x2]‘::曲旧I劉團厂||社|卬開*r『-|口虫|匚|區o)|1:id1idx1x2x3x4x5varvarvarvarDHelpValue...nSelectionVariable:冈厂SaveasvariablesMethodi忖FlegressiunCBartlett「Anderson-RubinWDisplayfactorscorecoefficientmatrix<^>id<^>multi-childrenrate[k1]<^>birthcontrolrate[x2]‘::軫populationratioofiunic<^>averagenationali门匚o「i':絵urbanpopulationratio|CancelDescriptives...IExtraction...IRotation...Scores...Options...点击“Continue”返回。点击“Options”值的大小排列)”前打上勾。[eee]T3_2-SPSSDataEditorFileEditViewDataTr:=LTLsformArL:ilyzeGraphs;UtilitWindowHelp目旧咼I團十|函I诃勖I囲罔匪I圜涸周廨⑥I1:ld1id,在“Sortedbysize(因子负载按绝对123456789101112131415x1x2x3x4x5varvarvarvarOKvar劎d⑥multi-childrenrate[:-:1]燼>birthcontrolrate[:-:2]':騎populationratioofjunic'⑥日”已ragenationalincon'⑥urbanpopulationratio|Variables:PasteResetCancelHelp-MissingValues—席ExcludecaseslistwiseCExcludecasespairwiseCFleplacewithmean一CoefficientDisplayFormat一两Sortedbysize厂Suppressabsolutevalueslessthan:SelectionVariable:Descriptives...IExtraction...|Flotation...Scores...Options...甘制ue...|点击“COntinue”返回,点击“OK”J我们得到以下结果:CorrelationMatrixmulti-childrenratebirthcontrolratepopulationratioofjuniormiddleandaboveaveragenationalincomeurbanpopulationratioCorrelationmulti-childrenrate1.000-.761-.542-.453-.453birthcontrolrate-.7611.000.293.253.245populationratioofjuniormiddleandabov、-.542.2931.000.771.849averagenationalincome-.453.253.7711.000.878urbanpopulationratio-.453.245.849.8781.000Sig.(1-tailed)multi-childrenrate.000.001.006.006birthcontrolrate.000.058.089.096populationratioofjuniormiddleandabov、.001.058.000.000averagenationalincome.006.089.000.000urbanpopulationratio.006.096.000.000KMOandBartlett'sTestKaiser-Meyer-OlkinMeasureofSamplingAdequacy..713Bartlett'sTestofApprox.Chi-Square106.776Sphericitydf10Sig..000上述结果表明,多孩率和节育率之间存在着较强的相关关系,而其它三个变量之间存在着较强的相关关系,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论