版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SPSS统计软件简介东南大学公共卫生学医疗保险系张晓
1.
SPSS简介2.
数据输入与保存——文件的建立与编辑——变量及变量操作3.
SPSS信息输入、输出4.
SPSS表格与图形5.
图形的编辑功能6.
SPSS编程与自动化7.
SPSS统计功能之一:样本描述与数据准备8.
SPSS统计功能之二:假设检验、非参数统计9.
SPSS统计功能之三:相关与回归分析10.
SPSS统计功能之四:多元统计分析(介绍)SPSS是软件英文名称的首字母缩写,原意为StatisticalPackagefortheSocialSciences,即“社会科学统计软件包”。但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为StatisticalProductandServiceSolutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。
功能强大、实用与美观统一的
视窗风格——SPSS最突出的特点就是操作界面极为友好,他使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。输出结果十分美观漂亮(从国外的角度看),存储时则是专用的SPO格式,可以转存为HTML格式和文本格式。在众多用户对国际常用统计软件SAS、BMDP、GLIM、GENSTAT、EPILOG、MiniTab的总体印象分的统计中,其诸项功能均获得最高分
。非专业统计人员的首选统计软件SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。非专业统计人员的首选统计软件对于熟悉老版本编程运行方式的用户,SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的SPSS程序,极大的方便了中、高级用户。SPSS的基本特点数据自动处理强大的统计功能完全的Windows风格良好的帮助系统合自学功能简单的编程完美的图形处理功能丰富的数据对接功能支持DLE与Active技术内置VBA客户语言强大的函数功能Intenet功能
SPSS的功能样本数据的描述和预处理;假设检验(包括参数检验、非参数检验及其他检验);方差分析列联表相关分析回归分析对数线性分析聚类分析判别分析因子分析对应分析时间序列分析生存分析可靠性分析SPSS由多个模块构成(和SAS相同),SPSS11版一共由十个模块组成,其中SPSSBase为基本模块,其余九个模块为AdvancedModels、RegressionModels、Tables、Trends、Categories、Conjoint、ExactTests、MissingValueAnalysis和Maps,分别用于完成某一方面的统计分析功能,他们均需要挂接在Base上运行。除此之外,SPSS11完全版还包括SPSSSmartViewer和SPSSReportWriter两个软件,他们并未整合进来,但功能上完全是SPSS的辅助软件。最新推出的SPSS12.0除了原有的十个模块外,又新增了复杂抽样模块,能从您的调查数据中得到更多准确的分析结果。历史20世纪60年代1975年在芝加哥组建了SPSS总部。
1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+1994至1998年间,SPSS公司陆续购并了SYSTAT公司、BMDP软件公司、Quantime公司、ISL公司等,并将各公司的主打产品收纳SPSS旗下,从而使SPSS公司由原来的单一统计产品开发与销售转向企业、教育科研及政府机构提供全面信息统计决策支持服务,成为走在了最新流行的“数据仓库”和“数据挖掘”领域前沿的一家综合统计软件公司。
应用广泛的应用于统计、应用数学、经济、市场营销、心理、卫生统计、生物、企业管理、气象、社会学等领域。其分析过程包括:调查设计、数据收集、数据存取和管理、数据分析、数据检验、数据挖掘、数据展示等。还有一系列附加模块和独立模块产品以加强它的分析功能。它的图形窗口界面使其非常简单易用但却具有满足各种分析要求的数据管理、统计分析功能及各种报表方法。缺点
由于在SPSS公司的产品线中,SPSS软件属于中、低档(SPSS公司共有二十余个产品),因此从战略的观点来看,SPSS显然是把相当的精力放在了用户界面的开发上。该软件只吸收较为成熟的统计方法,而对于最新的统计方法,SPSS公司的做法是为之发展一些专门软件,如针对树结构模型的AnswerTree,针对神经网络技术的NeuralConnection、专门用于数据挖掘的Clementine等,而不是直接纳入SPSS,因此他们在SPSS中均难觅芳踪。另外,其输出结果虽然漂亮,但不能为WORD等常用文字处理软件直接打开,只能采用拷贝、粘贴的方式加以交互。这些都可以说是SPSS软件的致命伤。
数据输入与保存SPSS的界面定义变量输入数据保存数据例某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下,问该地急性克山病患者与健康人的血磷值是否不同(卫统第三版例4.8)?编号克山病患者编号健康人10.8410.5421.0520.6431.2030.6441.2040.7551.3950.7661.5360.8171.6771.1681.8081.2091.8791.34102.07101.35112.11111.48121.56131.87数据文件管理建立与保存数据文件(File菜单)新建数据文件直接打开使用数据库查询打开使用文本导入向导读入文本文件打开其他格式的数据文件保存数据文件File菜单中的其他条目10个下拉式菜单主菜单中文名称备注File文件操作简介Edit数据编辑重点介绍View观察(视图)
Data建立数据与数据整理重点介绍Transform变量转换重点介绍Analyze统计分析重点介绍Graphs绘图重点介绍Utilities实用程序重点介绍Windows视窗控制
Help在线帮助
数据的预分析数据的简单描述绘制直方图按题目要求进行统计分析保存和导出分析结果保存文件导出分析结果数据文件管理编辑数据文件定义新变量直接定义新变量从原有变量计算新变量-Transform菜单数据的录入直接录入数据录入技巧进一步整理数据文件-Data菜单程序编辑窗口用法详解程序编辑窗口界面邂逅Paste按钮用程序编辑窗口加快我们的工作用程序编辑窗口完成对话框无法完成的工作SPSS结果窗口用法详解1结果窗口元素介绍结果浏览窗口(Viewer)结果草稿浏览窗口(DraftViewer)如何美化你的输出结果--SPSS选项设置2驾驭结果浏览窗口结果窗口的的一般操作结果的导出如何在WORD等软件中使用输出结果3文本输出结果的编辑4表格编辑方法详解1基本操作特色菜单内容详解5图片编辑方法详解基本操作特色菜单内容详解
SPSS统计绘图功能详解1常用统计图操作界面介绍(条图)1条图的通用界面2复式条图与分段条图的界面其他常用统计图1散点图2线图3饼图4面积图5直方图6其他常用统计图编辑方法详解2交互式统计图3统计地图条图散点图线图直方图饼图面积图箱式图正态Q-Q图正态P-P图质量控制图Pareto图自回归曲线图高低图
交互相关图序列图频谱图误差线图
朴素的美削尖脑袋的模样墙上长满了爬山虎太阳照在红墙内外反客为主的蓝飘带我没有放倒!描述性统计分析-DescriptiveStatistics菜单详解1
Frequencies过程1界面说明2分析实例3结果解释2
Descriptives过程界面说明结果解释3
Explore过程界面说明结果解释4
Crosstables过程界面说明分析实例结果解释
Frequencies过程
例某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5(卫统第三版p2331.1题)。4.773.376.143.953.564.234.314.715.694.124.564.375.396.305.217.225.543.935.214.125.185.774.795.125.205.104.704.743.504.694.384.896.255.324.504.633.614.444.434.254.035.854.093.354.084.795.304.973.183.975.165.105.864.795.344.244.324.776.366.384.885.553.044.553.354.874.175.855.165.094.524.384.314.585.726.554.764.614.174.034.473.403.912.704.604.095.965.484.404.555.383.894.604.473.644.345.186.143.244.903.05
步骤Analyze==>DescriptiveStatistics==>FrequenciesVariables框:选入X单击Statistics钮:
选中Mean、Std.deviation、Median复选框
单击Percentiles:输入2.5:单击Add:输入97.5:单击Add:
单击Continue钮
单击Charts钮:
选中Barcharts单击Continue钮
单击OKDescriptives过程
【Statistics钮】Descriptives复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。M-estimators复选框:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。Outliers复选框:输出五个最大值与五个最小值。Percentiles复选框:输出第5%、10%、25%、50%、75%、90%、95%位数。【Plot钮】Boxplots单选框组:确定箱式图的绘制方式,可以是按组别分组绘制(Factorlevelstogether),也可以不分组一起绘制(Depentendstogether),或者不绘制(None)。Descriptive复选框组:可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。Normalityplotswithtest复选框:绘制正态分布图并进行变量是否符合正态分布的检验。Spreadvs.LevelwithLeveneTest单选框组:当选择了分组变量时,绘制spread-versus-level图(我还没有找到他的中文名字该叫什么),设置绘图时变量的转换方式,并进行组间方差齐性检验。【Options钮】用于选择对缺失值的处理方式,可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录,或报告缺失值。Crosstabs过程
例6.2某医生用国产呋喃硝胺治疗十二指肠溃疡,以甲氰咪胍作对照组,问两种方法治疗效果有无差别(医统第二版P37例3.10)?处理愈合未愈合合计呋喃硝胺54862甲氰咪胍442064合计9828126步骤Data==>WeightCasesWeightCasesby单选框:选中
FreqencyVariable:选入W单击OK钮
Analyze==>DescriptiveStatistics==>CrosstabsRows框:选入RColumns框:CStatistics钮:Chi-square复选框:选中:单击Continue钮
单击OK钮均数间的比较-CompareMeans菜单详解1
Means过程界面说明结果解释2
One-SamplesTTest过程界面说明结果解释3
Independent-SamplesTTest过程界面说明结果解释4
Paired-SamplesTTest过程1界面说明2分析实例3结果解释5
One-WayANOVA过程1界面说明2分析实例3结果解释
Paired-SamplesTTest过程
例
某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别(卫统第三版例4.5)?
大白鼠对号
正常饲料组
维生素E缺乏1
3550
24502
2000
24003
3000
18004
3950
32005
3800
32506
3750
27007
3450
25008
3050
1750一般线性模型――GeneralLinearModel菜单详解1两因素方差分析
univarate对话框界面说明结果解释2协方差分析分析步骤结果解释3其他较简单的方差分析问题4多元方差分析分析步骤结果解释5重复测量的方差分析Repeatedmeasures对话框界面说明结果解释
两因素方差分析
例对小白鼠喂以A、B、C三种不同的营养素,目的是了解不同营养素增重的效果。采用随机区组设计方法,以窝别作为划分区组的特征,以消除遗传因素对体重增长的影响。现将同品系同体重的24只小白鼠分为8个区组,每个区组3只小白鼠。三周后体重增量结果(克)列于下表,问小白鼠经三种不同营养素喂养后所增体重有无差别?区组号A营养素B营养素C营养素150.1058.2064.50247.8048.5062.40353.1053.8058.60463.5064.2072.50571.2068.4079.30641.4045.7038.40761.9053.0051.20842.2039.8046.20步骤Analyze==>GeneralLinealmodel==>UnivariateDependentVariable框:选入weightFixedFactors框:选入group和foodModel钮:单击Custom单选钮:选中Model框:选入group和food单击OKPostHoc钮:单击PostHoctestfor框:选入foodSNK复选框:选中单击OK单击OK协方差分析
某医生欲了解成年人体重正常者与超重者的血清胆固醇是否不同。而胆固醇含量与年龄有关,资料见下表。
正常组超重组年龄(X1)胆固醇(Y1)年龄(X2)胆固醇(Y2)483.5587.3334.6414.7515.8718.4435.8768.8444.9495.1638.7334.9493.6546.7425.5656.4404.9396.0475.1527.5414.1456.4414.6586.8565.1679.2步骤Analyze==>GeneralLinealmodel==>UnivariateDependentVariable框:选入cholFixedFactors框:选入groupModel钮:单击Custom单选钮:选中Model框:选入group、age和group*age(后者用interaction方法就可选入)Sumofsquares列表框:改为ModelI单击OK单击OK相关分析――Correlate菜单详解1
Bivariate过程界面说明分析实例结果解释2
Partial过程界面说明结果解释3
Distances过程
多元线性回归与曲线拟合――Regression菜单详解1Linear过程1简单操作入门界面详解输出结果解释2复杂实例操作分析实例结果解释2CurveEstimation过程1界面详解2实例操作3BinaryLogistic过程1界面详解与实例2结果解释3模型的进一步优化与简单诊断1模型的进一步优化2模型的简单诊断非参数检验――NonparametricTests菜单详解1
概论2
One-SampleKolmogorov-SmirnovTest3
Two-Independent-SamplesTests
生存分析--Survival菜单详解1LifeTables过程界面说明结果解释2Kaplan-Meier过程界面说明结果解释3CoxRegression过程界面说明结果解释4Coxw/Time-DepCov过程界面说明结果解释第一讲:SPSS简介,界面入门、数据管理要求:了解SPSS系统的构成,掌握数据管理界面的一般操作,熟悉常用数据转换命令的用法。重点:可以独立完成在SPSS中建库、录入数据、计算新变量、筛选变量等操作,重点考察以下过程:compute、sort、split、weight、mergefiles。懂得如何使用粘贴命令自动生成SPSS程序。第二讲:SPSS结果浏览窗口用法详解、统计绘图功能详解要求:熟悉SPSS结果窗口的常用操作方法,掌握输出结果在文字处理软件中的使用方法。掌握常用统计图(线图、条图、饼图、散点、直方图等)的绘制方法,熟悉其他统计图的绘制方法,熟悉统计图的一般编辑方法。重点:能对分析结果进行编辑、输出。重点考察以下内容:结果表格的编辑、在word中使用结果、结果的导出。能够独立判断遇到的统计问题应当采用何种统计图形,并用SPSS独立完成各种常用统计图的绘制。能根据目的对统计图进行一定的编辑。重点考察以下内容:统计图形的正确选用,条图的绘制和编辑,散点图的绘制和编辑,其他各种统计图的特色编辑功能。第三讲:统计基础知识及其在SPSS中的实现要求:熟悉和初步掌握基础统计概念、过程和方法:单变量统计、双变量统计、多变量统计。SPSS中有关这些统计知识和过程的帮助及实现:了解SPSS对统计概念和方法的系统诠释、SPSS的若干统计过程及基本功能简介。第四讲:统计描述,多选题分析,均数间的比较要求:掌握常用描述性指标的计算方法,熟悉分类数据的两种录入格式,掌握多选题的常用指标和分析方法。掌握成组、配伍t检验、单因素方差分析的操作方法和结果阅读。重点:能够正确选用适当的统计过程求出均数、标准差等各种常用描述指标。能独立对多选题进行正确描述。能够用SPSS独立进行成组、配伍t、u检验、一元方差分析,能根据分析目的正确选择两两比较方法。第五讲:卡方检验,相关分析,回归分析要求:熟悉分类数据各种常用检验结果(成组卡方、配对卡方、分层卡方)的计算方法,掌握输出结果中各部分的正确含义并能正确选择所需结果。掌握相关分析和回归分析的操作,掌握其结果阅读。重点:能用正确的数据格式完成成组、配对卡方检验和分层卡方检验,能从结果中选择正确的概率值。能用SPSS独立完成简单的相关分析与回归分析,能正确阅读其分析结果。SPSS初中级培训班课程大纲
SPSS北京办事处第一讲:SPSS简介,界面入门、数据管理要求:
了解SPSS系统的构成,掌握数据管理界面的一般操作,熟悉常用数据转换命令的用法。
考察目标:
可以独立完成在SPSS中建库、录入数据、计算新变量、筛选变量等操作,重点考察以下过程:compute、sort、split、weight、mergefile。
懂得如何使用粘贴命令自动生成SPSS程序。第二讲:SPSS结果浏览窗口用法详解、统计绘图功能详解要求:
熟悉SPSS结果窗口的常用操作方法,掌握输出结果在文字处理软件中的使用方法。
掌握常用统计图(线图、条图、饼图、散点、直方图等)的绘制方法,熟悉其他统计图的绘制方法,熟悉统计图的一般编辑方法。考察目标:
能对分析结果进行编辑、输出。重点考察以下内容:结果表格的编辑、在word中使用结果、结果的导出。
能够独立判断遇到的统计问题应当采用何种统计图形,并用SPSS独立完成各种常用统计图的绘制。能根据目的对统计图进行一定的编辑。重点考察以下内容:统计图形的正确选用,条图的绘制和编辑,散点图的绘制和编辑,其他各种统计图的特色编辑功能。第三讲:统计描述,多选题分析要求:
掌握常用描述性指标的计算方法,熟悉分类数据的两种录入格式,掌握多选题的常用指标和分析方法。考察目标:
能够正确选用适当的统计过程求出均数、标准差等各种常用描述指标。能独立对多选题进行正确描述。第四讲:卡方检验,均数间的比较,非参数检验要求:
熟悉分类数据各种常用检验结果(成组卡方、配对卡方、分层卡方)的计算方法,掌握输出结果中各部分的正确含义并能正确选择所需结果。
熟悉SPSS提供的用于测量变量间关联度指标的体系分类。
掌握成组、配伍t、u检验的操作方法和结果阅读。
熟悉用SPSS进行非参数统计分析的做法,掌握结果阅读。考察目标:
能用正确的数据格式完成成组、配对卡方检验和分层卡方检验,能从结果中选择正确的概率值。
能够用SPSS独立进行成组、配伍t、u检验、一元方差分析,能根据分析目的正确选择两两比较方法。
能正确判断是否应使用非参数检验,能正确阅读各种非参数检验的统计分析结果。第五讲:方差分析模型要求:
掌握单因素方差分析的数据格式、操作方法与结果阅读,熟悉方差分析中各种两两比较方法的选择、操作和结果阅读。
掌握一元多因素方差分析模型的原理、操作和分析结果的阅读,掌握相应的图形工具在分析中的应用。
熟悉多元方差分析模型和重复测量方差分析模型的原理和操作方法,掌握这两者分析结果的阅读。考察目标:
能够用SPSS独立进行一元多因素方差分析模型的统计分析,能独立、正确阅读多元方差分析模型和重复测量方差分析模型的统计分析结果。
重点考察内容:一元多因素方差分析模型为考察重点,具体有对话框操作、分析结果的阅读、均数图、两两比较方法的选择和结果阅读。第六讲:相关分析、多元线性回归与Logistic回归分析要求:
掌握相关分析、偏相关分析的操作与结果阅读。
掌握多元线性回归模型的原理、分析步骤、操作和结果阅读,重点掌握逐步、前进、后退三种筛选方法的含义与用法、分析结果的阅读,熟悉各种常用模型诊断工具(分类图等)的用法。
掌握二分类Logistic回归模型的原理、分析步骤、操作和结果阅读。
了解其他回归模型的原理、分析步骤、操作和结果阅读。考察目标:
能用SPSS独立完成简单的相关分析、多元线性回归与Logistic回归模型的分析,能正确阅读其分析结果,能利用常用的模型诊断工具对模型拟和情况进行初步诊断。重点考察:回归分析时的变量筛选、回归分析结果和Logistic模型分析结果的阅读,变量是否满足回归分析要求的判断。第七讲:聚类分析,判别分析要求:
掌握快速聚类和系统聚类的操作,了解各种距离,掌握其结果的阅读。
了解判别方法的分类,熟悉判别分析的适用条件和结果验证方法,掌握判别分析的操作,重点掌握结果阅读。考察目标:
能按要求将样本进行分类,重点考察对冰柱图和树状图结果的解释。
能独立判断数据是否符合判别分析的适用条件,能求出相应的判别式,并使用他对新纪录进行分类。重点考察对结果的阅读(领域图、未标化典型判别函数、Bayes判别函数)和使用分析结果对新纪录进行分类。第八讲:因子分析,生存分析要求:
熟悉因子分析(主成分分析)的用途、目的,掌握如何判断因子分析的适用条件,能正确选择适当的因子。熟悉因子旋转的含义并能正确使用。掌握分析结果的阅读。
了解寿命表法、K-M曲线的一般操作方法,重点掌握结果的阅读。
掌握Cox模型的原理、操作方法和结果的阅读。考察目标:
能独立使用SPSS进行因子分析解决实际问题,能够正确阅读分析结果。重点考察因子数目的确定和结果的阅读。
独立完成简单的寿命表法、K-M法和复杂COX模型的分析,能正确阅读分析结果。重点考察COX模型的操作,分析结果的阅读。
例11.1某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析(本例来自《卫生统计学》第四版第11章)。i:标本序号x1:确诊时患者的年龄(岁)x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级x3:肾细胞癌组织内微血管数(MVC)x4:肾癌细胞核组织学分级,由低到高共4级x5:肾细胞癌分期,由低到高共4期y:肾细胞癌转移情况(有转移y=1;无转移y=0)。标本序号i年龄x1VEGFx2MVCx3分级x4分期x5癌转移y159243.4210236157.211036121902104583128431555380341661194.421073817611084212403209501741101058368.622011683132.84201225294.643113521561101431147.82101536331.63111642166.221017143138.6331183211142301935140.221020703177.24312165251.64412245212424023683127.233124312124.82302558112843026603149.8431Logistic回归对话框如下:
上表为记录处理情况汇总,即有多少例记录被纳入了下面的分析,可见此处因不存在缺失值,26条记录均纳入了分析。
此处已经开始了拟合,Block0拟合的是只有常数的无效模型,上表为分类预测表,可见在17例观察值为0的记录中,共有17例被预测为0,9例1也都被预测为0,总预测准确率为65.4%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。
上表为Block0时的变量系数,可见常数的系数值为-0.636。
上表为在Block0处尚未纳入分析方程的侯选变量,所作的检验表示如果分别将他们纳入方程,则方程的改变是否会有显著意义(根据所用统计量的不同,可能是拟合优度,Deviance值等)。可见如果将X2系列的哑变量纳入方程,则方程的改变是有显著意义的,X4和X5也是如此,由于Stepwise方法是一个一个的进入变量,下一步将会先纳入P值最小的变量X2,然后再重新计算该表,再做选择。
此处开始了Block1的拟合,根据我们的设定,采用的方法为Forward(我们只设定了一个Block,所以后面不会再有Block2了)。上表为全局检验,对每一步都作了Step、Block和Model的检验,可见6个检验都是有意义的。
此处为模型概况汇总,可见从STEP1到STEP2,DEVINCE从18降到11,两种决定系数也都有上升。
此处为每一步的预测情况汇总,可见准确率由Block0的65%上升到了84%,最后达到96%,效果不错,最终只出现了一例错判。
上表为方程中变量检验情况列表,分别给出了Step1和Step2的拟合情况。注意X4的P值略大于0.05,但仍然是可以接受的,因为这里用到的是排除标准(默认为0.1),该变量可以留在方程中。以Step2中的X2为例,可见其系数为2.413,OR值为11。
上表为假设将这些变量单独移出方程,则方程的改变有无统计学意义,可见都是有统计学意义的,因此他们应当保留在方程中。
最后这个表格说明的是在每一步中,尚未进入方程的变量如果再进入现有方程,则方程的改变有无统计学意义。可见在Step1时,X4还应该引入,而在Step2时,其它变量是否引入都无关了。
模型的进一步优化与简单诊断
模型的进一步优化
前面我们将X1~X5直接引入了方程,实际上,其中X2、X4、X5这三个自变量为多分类变量,我们并无证据认为它们之间个各等级的OR值是成倍上升的,严格来说,这里应当采用哑变量来分析,即需要用Categorical钮将他们定义为分类变量。但本次分析不能这样做,原因是这里总例数只有26例,如果引入哑变量模型会使得每个等级的记录数非常少,从而分析结果将极为奇怪,无法正常解释,但为了说明哑变量模型的用法,下面我将演示它是如何做的,毕竟不是每个例子都只有26例。
上表为自变量中多分类变量的哑变量取值情况代码表。左侧为原变量名及取值,右侧为相应的哑变量名及编码情况:以X5为例,表中可见X5=4时,即取值最高的情况被作为了基线水平,这是多分类变量生成哑变量的默认情况。而X5(1)代表的是X5=1的情况(X5为1时取1,否则取0),X5(2)代表的是X5=2的情况,依此类推。同时注意到许多等级值有几个记录,显然后面的分析结果不会太好。
上表出现了非常有趣的现象:所有的检验P值均远远大于0.05,但是所有的变量均没有被移出方程,这是怎么回事?再看看下面的这个表格吧。
这个表格为方程的似然值改变情况的检验,可见在最后Step2生成的方程中,无论移出X2还是X4都会引起方程的显著性改变。也就是说,似然比检验的结果和上面的Walds检验结果冲突,以谁为准?此处应以似然比检验为准,因为它是全局性的检验,且Walds检验本身就不太准,这一点大家记住就行了,实在要弄明白请去查阅相关文献。
上表为Block1的迭代记录,可见无论是似然值,还是三个系数值,均是从迭代开始就向着一个方向发展,最终达到收敛,这说明整个迭代过程是健康的,问题不大;如果中途出现波折,尤其是当引入新变量后变化方向改变了,则提示要好好研究。
上表为方程中变量的相关矩阵,可见X2和常数相关性较强,当引入X4后仍然如此,提示要关注这一现象,以防因自变量间的共线性导致方程系数不稳(此时迭代记录多半也会有波动)。当然,由于本例只有26条记录,这一问题是没有办法深入研究的。
上图是Step1结束时,即只引入X2时的预测图,0和1代表实际取值,当预测的概率值大于0.5时,则预测结果为1,反之为0,由上图可见,该模型对0的预测是比较好的,多数的概率都在0附近,但对1的预测不准,即使正确的,计算出的概率也在0.8左右,并且有好几个都判错了。
上图为Step2结束后模型的预测状况,可见此时预测结果有了较大的改善,概率精度提高了许多,只有一例0被错判为了1,并且从分布上看,这一例可能是极端情况,再引入其它变量也不见的能将预测效果改变多少。
SPSS高级培训班课程大纲
SPSS北京办事处第一讲:方差分析模型掌握单因素方差分析的数据格式、操作方法与结果阅读,熟悉方差分析中各种两两比较方法的选择、操作和结果阅读。掌握一元多因素方差分析模型的原理、操作和分析结果的阅读,掌握相应的图形工具在分析中的应用。熟悉多元方差分析模型和重复测量方差分析模型的原理和操作方法,掌握这两者分析结果的阅读。第二讲:相关分析,回归分析模型掌握相关分析、偏相关分析的操作与结果阅读。掌握多元线性回归模型的原理、分析步骤、操作和结果阅读,重点掌握逐步、前进、后退三种筛选方法的含义与用法、分析结果的阅读,熟悉各种常用模型诊断工具(分类图等)的用法。熟悉加权最小二乘法、两阶段最小二乘法的原理、操作和结果阅读,了解最优尺度回归的功能。第三讲:Logistic模型、非线性回归掌握二分类Logistic回归模型的原理、分析步骤、操作和结果阅读,熟悉无序多分类、有序多分类Logistic回归模型、Probit模型的原理、分析步骤、操作和结果阅读熟悉非线性回归模型的操作和结果阅读。第四讲:聚类分析、判别分析、因子分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 入职合同书模板
- 铝灰处理项目工程承包合同(2024版)
- 关于质押合同范文锦集
- 猪场土地租赁合同猪场土地租赁合同
- 2024年度版权许可使用合同标的录音制品3篇
- 医院科室承包经营合同 2篇
- 农产品广告宣传与媒体合作合同2024
- 住房装修合同范本5篇
- 南京市2024年度汽车租赁合同模板
- 二零二四年度工业设备采购及安装合同3篇
- 手游GM及数据后台需求(整合版)
- 员工劳保穿戴规范(石油)
- 建筑工程冬期施工规程JGJT1042011
- 急性腹痛ppt课件
- 脊柱损伤固定搬运术
- 医院质控员管理办法
- 肯德基餐饮连锁经营总部组织结构设计
- 企业事故管理规定(标准)
- 啤酒企业税收筹划研究
- 代表怎样写好建议
- 数独骨灰级100题
评论
0/150
提交评论