版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2 章 SPSS 高级统计分析操作介绍在上一章中详细介绍了 SPSS 基本统计分析方法的界而操作和英文标签说明,包括数据描述性分析、均值检验、方差分析、相关回归分析、非参数检验、聚类和判别分析、主成分分析 和因子分 析等。在本章中,将详细介绍SPSS软件中所用到的高级统il?分析方法,主要包括生 存分析、信度分 析以及常用统计图形的界面操作和英文标签说明。生存分析生存分析方法是一种非常重要的统计分析方法,主要用于分析涉及一立时间的发生和持续长度的时间数据,用以揭示事件发生和发展的规律。生存分析是近一二十年来发展起来的 数理统计新分支,它是根据现代医学、工程等科学研究的大量实际问题提出来的,着重
2、对截 断数拯进行统计分析研究。生存分析的理论与应用受到了世界各国,特别是发达国家很大的重视 o 1986 年美国国家科学院委员会提出的数学发展概况中,曾把生存分析列为 6 大发展方向 之一。生存分析目前已广泛应用在医学、生物学、公共健康、金融学、保险、人口统计等诸多领 域,它涉及数理统计中原有的参数统计与非参数统计的结合,而且涉及一些较深较新的概率和其他数学工具。因此,生存分析方法日益受到人们的重视。本章介绍了如何使用SPSS来进行生存分析。SPSS所提供的功能主要有以下4项。?Life Tables : 寿命表分析。?Kaplan-Meier :Kaplan-Meier 分析。?Cox Re
3、gression: Cox 回归分析。?Cox w/Time-Dep Cov :时间相依性的回归分析。生存分析简介生存分析 (Survival Analysis) 主要用于对涉及一左时间的发生和持续长度的时间数据的分析。生存分析所分析的数据通常称为生存数据,生存数据按照观察数据所提供的信息的不同, 可以分为完全数据、删失数据和截尾数据3 种。生存分析 (Survival Analysis) 是目前统讣学的热门, 自 20 世纪 70 年代中期以来, 得到了迅 速的发展,无论在理论或应用方而都受到了人们的重视。生存分析不仅能妥善处理现实生活中 常见的截尾数据 (Censored Data) 问题
4、, 而且在解决实际问题的同时, 揭示了一些更为复杂的理论问题, 促进了数理统讣理论的发展。 1986 年美国国家科学院委员会提出的数学发展概况的 报告中, 6 个有代表性的分支学科中就有一个是论述生存分析的,而且被作为数学与其他学科, 甚至社会科学互相渗透的一个重要例子。生存分析所要分析的数据称为生存数据,用于度量某事件发生前所经历的时间长度。事件 可以是产品的失效、保单的索赔、疾病的发生、生命的死亡等。若跟产品失效有关,生存数拯也称为失 效数据。按照观察数据所提供的信息的不同,生存数据又可以分为以下三大类。完全数据完全数据指的就是提供了完整信息的数据,比如研究某种产品的失效时间,如果有一个样
5、 品从 进入研究直到失效都在我们的观察之中,就可以得到其失效的具体时间,那么这个失效数据就是一个完全数据。删失数据生存分析经常研究在不同的时间点或时期被研究的事件发生的概率,而研究的周期可能很长,比如在医学领域,研究某种慢性疾病的治疗效果一般都要对患者进行长期随访,统计一定 时期后的生存或死亡的情况以判断治疗效果, 这种随访数据就是生存数据。 但是, 由于获得数据的时间很长,中间可能患者由于迁移、不愿意继续合作等各种原因退出了随访,或者研究单位由于人力、物力、财力等方而的原因在某个时刻决泄中止随访,那么这些退出研究或者被终 止研究的患者提供的信息就是不完整的信息,若他们在退出研究之时仍然存活,
6、那么日后的确 切死亡时间在数据中就无法反 映。 完全数据和删失数据都是在生存分析中经常会碰到的数据,SPSS要求在进行生存分析时每个变量都必须再设置一个相应的示性函数,用以说明这个数据到底是完全数据还是删失数据。通常采用的示性函数的取值规则是:完全函数,示性函数取值为 0 : 删失数据,示性函数取值为 lo截尾数据截尾数据和删失数据一样,所提供的是不完整的数据,它和删失数据的不同在于,它提供 的是跟时间有关的条件信息。 比如保险公司想研究 60 岁以上的老年人投保了意外伤害险的人发生意外的概率,那么被研究的投保人在研究期内所提供的生存数据为截尾数据,因为它们都 附带一个时间条件:进入研究的人的
7、年龄都应该大于等于 60 岁。不过SPSS软件只考虑对完整数据和删失数据的分析,对截尾数据不提供专门的分析方法。寿命表分析在生存分析中, 对生存函数的估计是一个重要问题。 寿命表方法是一种重要的非参数估计方法,它不仅有悠久的历史,而且在各领域都有广泛的应用。在实际研究中,通常需要了解两个事件之间间隔的时间长短的分布。例如,如果正在研究 治疗某种致命疾病的效果,可能要观察治疗实施到患者死亡这段时间的情况。得到评估结果的 时候,若并非所有患者都死亡,则必须将死亡患者和仍然活着的患者的生存时间合并到分析中。 又如,检验一部分人婚姻持续的时间,必须包括婚姻正在延续和婚姻已经终止两种时间长度。 从冬保险
8、表中,可以分析在一个特左时间点上生存患者的比例和婚姻持续的比例。总的来说, 这样的一些事件被称为截断观测。此时,使用传统的方法来分析这种观测不再适合。寿命表分析正好适合于分析这种数据。寿命表的基本思想是将观测区间划分为很多小的时第2章SPSS高级统计分析操作介绍间区间。对于每一个区间,所有的在该区间依然“存活”的观测个案都会被用来计算在此区间“死亡”的概率。对每一个区间所估计的概率都用来估计事件发生在不同的时间点上的概率。建立或打开数拯文件后,即可进行寿命表分析。选择菜单栏中的“分析”上生存函数一寿命表命令,即可弹出如图1所示的“寿命表”对话框。在该对话框的左侧为源变量框.右侧的“时间”列表框
9、用于在左侧的源变量框中选择生存时间变量。在“显示时间间隔”选项组中设垃时间区间的长度及终点。寿命表分析以时间0为第一个时 间区间的起点。用户在前而的数值框中输入最后一个区间的终点值,在“步长”数值框中输入区间长度。“状态”列表框用于选入状态变量进入。选入状态变量后,“立义事件”按钮被激活.单击该按钮,即可弹出如图2.1.2所示的“寿命表:为状态变量立义事件”对话框。图2.1.1寿命表”对话框图2.1.2 寿命表:为状态变呈定义孚件”对话框在“寿命表:为状态变量左义事件对话框中有两个选项:“单值选项,在该选项的数值 框中设 置一个指示事件发生的数值。在输入这个值之后,带有英他值的观测都被作为截断
10、观测;“值的范用” 选项,在该选项的数值框中设置一个指示事件发生的数值区间。在数值框中输入区间的上下界,观测值不在这个区间的观测都被作为截断观测。设置结束后,单击继续按钮确认选择弁返回到“寿命表”对话框。“因子”列表框用于从左侧的源变图框中选入一阶因素变虽:。选入变量后,“左义范围”按钮被激活,单击该按钮,即可打开“有效表格 :左义因子范对话框,如图2.1.3所示。在有效表格:泄义因子范围”对话框中有两个选项:“最小值”数值框中的数值用于设置因素变量的下界;“最大”数值框中输入的数值用于设置因素变量的上界。设置结束后,单击“继续”按钮确认选择弁返回到寿命表”对话框。“按因子”列表框用于选入二阶
11、因素变量。选入变量后,“左义范围”按钮被激活,单击 该按钮,即可打开如图2.1.3所示的有效表格:泄义因子范围”对话框,用于设亶第二因素变量取值的上下限,设置方法同上。设置结束后,单击“继续”按钮确认选择弁返回到“寿命表”对立在“寿命表”对话框中单击“选项”按钮,图2.1.3”有效表格:定义因子范围”对话框即可弹出寿命选项”对话框,如图2.1.4所示也等会森血上寿命表也囱-r生巨通辛冬事生存证项二1位圈但箴匚豆摩(Q)卜第3;一去的不也冰早无蒂的腐。O再理瞅0也建J版后颦助图2.1.4 ”寿饰表选项”对话框寿命表选项:用于选择是否输出生命表。图”选项组用于选择所输出的函数图形。?”生存函数”选
12、项:如果选中此选项,则会输出以线性刻度生成的累积生存函数。?危险函数”选项:如果选中此选项,则会输出以线性刻度生成的累积危险函数。?1减去生存函数”选项:如果选中此选项,则会输出(1-累积生存函数)。?”取生存函数的对数”选项:如果选中此选项,则会输出以对数刻度生成的累积生存 函数?密度”选项:如果选中此选项,则会输出密度函数。“比较第一个因子的水平”选项组用于选择比较不同水平的一阶因素变量的方法。?“无”选项:表示不进行子群之间的比较。?“整体比较”选项:表示同时比较所有水平的一阶因素变量。?“两两比较”选项:表示配对比较一阶因素变量水平。设置结束后,单击“继续”按钮确认选择弁返回到“寿命表
13、”对话框。所有设亶结束后,单击“确泄”按钮,执行生命表分析。Kaplan-Meier 分析Kaplan-Meier方法是Kaplan和Meier在1958年提出的一种求生存函数的非参数方法,也 称为 乘法极限估 U(Product Limit Estimate) PL 估计或最大似然估计法(Maximum Likelihood Estimate)o Kaplan-Meier法能对完全数据和截尾数据及不必分组的生存资料进行分析,弁且能对分组变量各水平所对应的生存曲线与危险函数差异进行显著性检验等。在现实生活中,很多时候用户需要检查两个事件之间的间隔时间的分布,例如被某个公司所雇用的时间的长度(从
14、进入公司到被公司解雇为止),但这些数据中可能存在截断观测。Kaplan-Meier方法可以在有截断数据的情况下建立时间-事件模型。Kaplan-Meier模型是建立 在下而两个基础之上的,其一为对每一个事件发生的时间点的条件概率所做的估计;其二为这SPSS高级统计分析操作介绍些概率的范用,然后使用这两个方而的信息来估计每一个时间点的生存率。Kaplan-Meier估汁是Kaplan与Meier于1958年提出的,由于它具有乘积极限的形式,又 称为乘积极限(PL)估讣或最大似然估计 (Maximum Likelihood Estimate) o Kaplan-Meier 估讣有重 要的理论意义,
15、它在生存分析中的地位与经验分布函数在经典统汁中的地位相仿,而且两者有渐近行为。在数据编辑窗口中,选择菜单栏中的“分析” 一 “生存函数” -Kaplan-Meier 命令,即可 弹出 Kaplan-Meier 对话框,如图 2.5所示。图 2.1.5 Kaplan-Meier 对话框与生命表分析的对话框类似, Kaplan-Meier对话框上的“时间”列表框也是用于在左侧的 源变 量框中选入一个时间变屋。时间变量可以以任何长度为单位,在时间变量中如果存在负数,则分析过程中不考虑此负值。“状态”列表框用于选入一个状态变量。选入变量后,“泄义事件”按钮被激活。单击“泄 义 事件”按钮,即可弹出如图
16、 2.1.6所示的“Kaplan-Meiei 义状态变量事件”对话框。? “单值”选项:用于设置一个指示事件发生的数值。在后而的数值框中输入数值之后,含有设立值的个案看作完全数据,带有其他值的观测都作为截尾数据处理。?值的范囤”选项:用于设垃一个指示事件发生的数值区间。在后而的数值框中输入区间的上下界,观测值不在这个区间的观测都被作为截断观测。? “值的列表”选项:如果选中此选项,则还要在后面的设置框内设置指示事件发生的值的列表。输入数值后,单击“添加”按钮进行添加, 单击“更改”按钮进行修改, 而“删除” 按钮用于删除已经添加的内容。“因子”列表框用于选入一个分类变量,该变量可以将观测分为几
17、个不相交的观测群。“层” 列表框用于选入一个分层变戢。“标注个案”列表框用于选入一个变量来标左观测量,SPSS将以变量标签值列出所有的变量。在Kaplan-Meier对话框中还有“比较因子”、“保存”和“选项”3个扩展按钮。下而就 进行详细讲解。“比较因子”选项单击”比较因子”按钮,即可弹出 “ Kaplan-Meier:比较因子水平”对话框,如图 2.1.7所示。在 该对话框中用户可以设卷比较分类变量的统计方法。“检验统计疑”选项组用于选择检验的统计方法。?“对数秩”选项:如果选中此选项,则会对所有的时间点给予相同的权重,来检验生 存分布是否相等。?Breslow选项:如果选中此选项,则会依
18、据每一个时间点上的危险观测数来给予每一个时间点不同的权重,然后检验生存分布是否相等。? Tarone-Ware选项:如果选中此选项,则会依据每一个时间点上的危险观测数的平方根来给予每一个时间点不同的权重,然后检验生存分布是否相等。总 心phn-Mggr:定义状态兖星写传图2.1.6 Kaplan -Meier:定义状态变屋事件”对话框图2.1.7 Kap-Mneier:比较因子水平对话框选择检验统计方法后,下方的用于选择比较方法的选项被激活。?”因子水平的线性趋势”选项:如果选中此选项,贝J会使用倾向信息来检验生存分布是否相等。?”在层上比较所有因子水平”选项:如果选中此选项,则会检验生存曲线
19、是否相等时,同时检验所有因素水平。?”对于每层”选项:如果选中此选项,则会对每一个分层之下比较不同分类水平下的生存时间。用户需要注意,该选项只有在设置分层变量之后才有效。?”在层上成对比较因子水平”选项:如果选中此选项,则会配对比较不同分类水平下的生存时间。?”为每层成对比较因子水平”选项:如果选中此选项,则会对每一分层之下比较配对的分类水平下的生存时间。“保存”选项单击“保存”按钮,即可弹出“ Kaplan-Meier :保存新变疑”对话框,如图2.1.8所示。在该对话框中有4个选项,用于选择新变量的保存。第2章SPSS高级统计分析技? “生存函数” (Survival)选项:如果选中此选项
20、,则计算 S(/)弁以“ sur_为变量酬勺 变量来保 存累积生存概率的估计值。?“生存函数的标准误”(Standard error of survival) 选项:如果选中此选项,则以 “ sc_ ”为变虽名保存累积生存概率的估计值的标准误差。?危险函数(Hazard)选项:如果选中此选项,则会计算加0弁以“ haz_ ”为变量需保 存累积危险概率的估计值。? “累积事件” (Cumulative event)选项:如果选中此选项,则当事件是由它们的生存时间和状态排序时,使用变量“cul_来保存事件的累积频率值。“选项”选项单击“选项”按钮,即可弹出如图 2.1.9所示的“Kaplan-Me
21、ier:选项”对话框。图2.1.8 Kap-Mneier:保存新变屋”对话框图2.1.9 Kaplan -Meier:选项”对话框“统汁量”选项组用于选择在分析过程中所需要计算的统V。?”生存分析表”选项:如果选中此选项,则会输出简化的生存表,该生存表中包含生存区间估计,估计的标准差、事件的累积频率和危险的观测数。?”均值和中位数生存时间”选项: 如果选中此选项,则会输出该生存时间的均值和中 位数, 以及生存时间的标准差和苣信区间。?”四分位数”选项:如果选中此选项,则会输出生存时间的四分之一、 二分之一和四 分之三 分位数,以及它们的标准差。其中,“生存分析表”和“均值和中位数生存时间”选项
22、为系统默认选项。“图”选项组用于设置分析过程中需要输出的图形。?”生存函数”选项:如果选中此选项,则会输出以线性刻度生成的累积生存函数。?“1减去生存函数”选项:如果选中此选项,则会输出(1-累积生存函数)。?危险函数”选项:如果选中此选项,则会输出以线性刻度生成的累积危险函数。?”对数生存”选项:如果选中此选项,则会输出以对数刻度生成的累积生存函数。所有设卷结束后,单击“确定”按钮,执行 Kaplan-Meier分析。2.1.4 Cox回归分析Cox回归又称为比例危险度模型(Proportional Hazard Model),是生存分析中的一个重要模 型,可以出生存时间无一泄规律,且具有完
23、全 (Complete)或截尾(Censored)状态和诸多危险因素之间的左量 关系。如同寿命表分析和 Kaplan-Meier生存分析一样,Cox回归分析也是在存在截 断数据情况下的 拟合时间-事件模型的一种方法,其适应性比较强,是生存分析中的半参数方法(Semi-Parametric) o在多变量场合通常使用多元回归分析的方法。但是,多元回归分析都有一个基本假泄,即 变量 应服从正态分布,但是生存数据很少会服从正态分布,而是多服从指数分布、Weibull分布等。而且,生存数据中有许多是删失数据,但多元回归分析只能针对完整数据。如同寿命表分析和Kaplan-Meier生存分析一样,Cox回归
24、是一种存在截断数据情况下的拟 合时 间-事件模型的一种方法。但是, Cox回归中可以在模型中包含预测变量 (协变量)。例如,你想在受 教育的层次和工作类别上建立一个雇用时间长度的模型。Cox回归能正确处理这种情 况,而且还给出了每个协变量的相关系数。在数据编辑窗口中,选择菜单栏中白“分析 一生存函数”“Cox回归”命令,即可弹出如图2.1.10所示的“ Cox回归”对话框。在该对话框的左侧为源变量框,右侧上方有“时间”列表框,与前而的生存分析对话框一样,该列表框用于选入时间变量,时间变量可以以任何长度为单位。在时间变量中如果存在负数,则分析过程中不考虑此负值。“状态”列表框用于从源变量框中选入
25、一个状态变量。选入状态变量后,下方的“定义事 件”按钮被激活,单击该按钮,即可弹出如图 2.1.11所示的“Cox回归:为状态变量泄义事件”对话框。图2.1.10“ CBM3”对话框图2.1.11 Co邮:为状态变量定义事件”对话框“单值”选项:在该选项的数值框中设置一个指示事件发生的数值。在输入这个值之后,带有其他值的观测都被作为截断观测。“值的范用”选项:在该选项的数值框中设卷一个指示事件发生的数值区间。在数值 框 中输入区间的上下界,观测值不在这个区间的观测都被作为截断观测。第2章SPSS?“值的列表”选项:如果选中此选项,则在后而的设置框内设宜指示事件发生的值的列表。输入数值后,单击“
26、添加”按钮进行添加,单击“更改按钮进行修改,而“删 除”按钮用于删除已经添加的内容。“协变橙”列表框用于从左侧的源变量框内选入协变量。在选入协变量时,用声可选择多变量的交互作用项( a*b?则根据所选变量生成两两交互选项。在“方法”下拉列表框中选择协变量进入回归方程的形式,有以下7个选项。?“输入”选项:如果选中此选项,则对变量只检查容忍度,而不检查英他进入标准,然后让所有的变量进入回归方程。?“转发:条件”选项:如果选中此选项,则采用向前选择的方法来选择协变量,协变量进入回归方程的标准是分值统汁量的显著性, 删除的标准是条件参数估讣的似然率统 计量的概 率值。?”转发:LR”选项:如果选中此
27、选项,则采用向前选择的方法来选择协变量进入回归方程,协变量进入回归方程的标准是分值统计量的显著性.删除的标准是极大似然偏 估计的似然率统计量的概率值。? ”转发Wald ”选项:如果选中此选项,则会采用向前选择的方法来选择协变量进入回归方程,协变量进入回归方程的标准是分值统计量的显著性,删除的标准是 Wald统计量的 概率值。?”向后:条件”选项:如果选中此选项,则采用向后选择的方法来选择协变良删除协 变量的标准是条件参数估计的似然率统计量的概率值。?”向后:LR”选项:如果选中此选项,则采用向后选择的方法来选择协变量,删除协 变量的标准是极大似然偏估计的似然率统计虽的概率值。?”向后:Wal
28、d ”选项:如果选中此选项,则采用向后选择的方法来选择协变良删除 协变量的标准是Wald统计量的概率值。“Cox回归”对话框中的“层”列表框用于选择分层变量。在“Cox回归”对话框中有4个扩展按钮。下而将进行详细讲解。1.“分类”选项单击“分类按钮,即可弹出“ Cox回归:左义分类协变量”对话框,如图 2.1.12所示图2.1.12 Cox回归:定义分类协变呈对话框从左侧的“协变量”列表框中选择分类协变量进入“分类协变量”列表框中,选入协变量对比”选项组被激活,用于设置对比方法。其中包括以下7个选项。? ”指示符”选项:如果选中此选项,则比较是否具有同类效应。后,下方的“更改“简单”选项:如果
29、选中此选项, “差异”选项:如果选中此选项, Helmert选项:如果选中此选项,“重复”选项:如果选中此选项,则将预测变量的每一类都与参照类进行比较。则将预测变量的每一类都与其前而各类的平均效应 则将预测变量的每一类都与其后面各类的平均效应 则将预测变疑的每一类都与英前而的一类进行比较。进行比较。进行比较。“多项式”选项:如果选中此选项,则将各类变量的正交多项式进行比较。“偏差”选项:如果选中此选项,则将预测变量的每一类都与整个观测相比较。在设置完比较方式之后,对于“指示符”、 第一类还是由最后一类作为参照来进行分类。单击“简单”和“偏差”3个选项,可以在“参考类别”中选择是由设置结束后,单
30、击“继续”按钮确认选择弁返回到更改”按钮,即确定 这些改变。“ Cox回归”对话框。2. “绘图”选项单击“绘图”按钮,即可弹出“Cox回归:图”对话框,如图2.1.13所示。图2.1.13 COM3:图”对话框“图类型”选项组用于选择要生成的图形。生存函数”选项:如果选中此选项,则会输出以线性刻度生成的累积生存函数。“1减去生存函数”选项:如果选中此选项,则会输出(1-累积生存函数)。危险函数”选项:如果选中此选项,则会输出以线性刻度生成的累积危险函数。?负对数累积生存函数的对数”选项:如果选中此选项,则会输出 (1-对数刻度生成 的累积生存函数)在“图类型”选项组中选择任意一种生成图形类型
31、后,下方的“协变量值的位程”列表框分类协变量进入右侧的“单线”文本框中,SPSS按其变量值将数据分为两 个或多个小的分组,小的分组生成图形。选择协变星后,“更改值”选项组被激活,在此选项组中选择以什么样的对比变量和协变被激活,从中选择 然后再分别对各个量的均值来输出函第2章SPSS高级统计分析操作介绍数图形。“均值”表示均值,选中该选项后单击 “更改”按钮即可确左;“值”文本框用于输入设泄相应数值。设置结束后,单击“继续”按钮确认选择弁返回到“Cox回归”对话框。3.“保存”选项单击“保存”按钮,即可弹出“ Cox回归:保存新变量”对话框,如图 2.1.14所示。“生存函数”选项组用于选择所要
32、保存的生存函数。?函数”选项:如果选中此选项,则会以 “sur_为变量需的变量来保存累积生存概率的估计值。?“标准误”选项:如果选中此选项,则会以 “sc_ ”为变量名的变量来保存累积生存 概率的估计值的标准差。?负对数累积生存函数的对数”选项:如果选中此选项,则会以 “lml_为变量名的 变量来保存经对数转换 的生存函数估计值。C0 x3:保存新变量”对话框图 2.1.14危险函数”选项:如果选中此选项,则会以“偏残差”选项:如果选中此选项,则会以haz_ 为变量名的变量来保存累积危 pr_ ”为变量名的变量来保存生存时间险概率的估计值。的偏残差。DfBeta(D)选项:如果选中此选项,则会
33、以 “ dfb_ ”为变量名的变量来保存Beta系数。它是因消除一个观测值而引起的相关系数的变化值,包括常数项的每一项的相关系数都要计算。“X吒eta ”选框:如果选中此选项,则会以 “xbc_ ”为变量名的变量来保存线性预测因素分值,即每个变量中心协变量值与其相应的参数估计值得积之和设置结束后,单击“继续”按钮确认选择弁返回到Cox回归”对话框。4.“选项”选项单击“选项”按钮,即可弹出“Cox回归:选项”对话框,如图2.1.15所示图2.1.15 CHX3 :选项”对话框“模型统计量”选项组用于选择模型统计量? CI用于cxp(B)选项:如果选中此选项,则在后面的设置框内设庄相对危险估计值
34、的卷信区间,在进行统计时,会输出置信区间,系统默认置信水平为95% 0?”估计值的相关性”选项:如果选中此选项,则输出回归系数的相关矩阵。显示模型信息”用于设宜需要显示的模型信息,对于现有的模型,Cox回归输出似然比 统计量和卡方统计量。对于模型中的变量,输出估计的参数、它们的标准差和 Wald统计量。对于不在模型中的变量,输出分值统计 量和残差的卡方统计量。统计量。有统计量值衡疑的生存函数?”在每个步骤中”选项:如果选中此选项,则会对每一步进入过程都输出上述的所有?”在最后一个步骤中”选项:如果选中此选项,则会输出最后的回归模型的上述的所 “步进概率”选项组用于选择逐步分析方法。?“进入数值
35、框用于设置协变量进入模型的阀门值,即引入的概率。?“删除数值框用于设置从模型中删除协变疑的阀门值,即剔除概率。?”最大迭代次数”数值框用于设苣迭代进行的最大次数,系统默认为 20次。?”显示基线函数”选项:如果选中此选项,则会输出基准危险函数,以及以协变量均和危险函数。如果还设置了一个分层变虽 :,则会对每一分层会输出一个统计量表。设置结束后,单击 继续按钮确认选择弁返回至Cox回归”对话框。所有设置结束后,单击“确定”按钮,执行 Cox回归分析。2.2信度分析信度分析(Reliability Analysis)又称可靠性分析,是一种度量综合评价体系是否具有一左的稳左性和可靠性的有效分析方法。
36、综合评价问题在统计学方而可利用信度分析方法进行分析。基本方式是做出被评估对象的总体目标,然后将其分解为若干个子目标,它们是总体目标不同方而的体现,是总体特征的部分反映。进一步,再将每个子目标进行量化处理。评估者通过计算被评估对象的总体得分得到最终的评估结果。上述过程实际上是编制量表的过程。编制量表是否合理决泄评价结果的信度和效度。SPSS的信度分析的主要作用在于对测验工具(量表或问卷)内在信度的分析。本节主要讨论信度分析的基本方法和SPSS操作。第2章SPSS高级统计分析操作介绍信度分析简介信度反映了测验工具所得到的结果的一致性或稳左性,是被测特征真实程度的指标。一般而言,两次或两个测验的结果
37、越接近,则误差越小,所得的信度越高。信度本身与测 量所得结果正确与否无关,它的功用在于检验测量本身是否稳左,学者Kerlinger 认为信度可 以衡量出工具(问卷)的可靠度、一致性与稳左性;信度值强调的是某一特泄类型下的一致性, 信度系数会因不同时间、不同受试者或不同评分者而出现不同的结果。一般信度的测量时容易 产生误差的原因,是来自研究者的因素,包括测量内容(遣词用句、问题形式等)不当、情境(时 间长短、气氛、前言说明等)以及研究者本身的疏忽(听错、记错等);而来自受访者的因素则可 能是由于其个性、年龄、教有程度、社会阶层及英他心理因素等,而影响苴答题的正确性。在 统计学分析方而,信度检验完
38、全依赖于统计方法。另外, 效度与信度的关系: 信度为效度的必要而非充分条件。 既有效度一泄又信度, 但有 信度不一定有效度。研究者通过信度与效度的检验,可以了解测验工具本身是否优良适当,以作为改善修正的根据,并可避免做出错误的判断。问卷受访时间间隔的影响及内容的同构型是影响信度的两个主要因素。根据被测试者的测试时间和测试内容,信度又可分为内在信度和外在信度。内在信度是对一组问题(也可称之为题项)是否测量同一个概念,即这些问题(题项)的内在一致性如何,能否稳定地衡量这一概念(变量或维度),最常用的检测方法是 Cronbacht (克朗巴哈) a 系数;而外在信度是指对相同的测试者在不同时间测得的
39、结果是否一致,重测信度是外在信度最常用的检验法。信度指标是对信度的一种泄量化的描述方式,信度指标的疑化值称为信度系数。信度系数越大,表明测量的可信程度越大,但也无法期望两次测验结果完全一致,信度除受测验质量影 响外,亦受很多英他受测者因素的影响, 故没有一份测验是完全可靠的。 不同研究者对信度系 数的界限值有不同的看法, 一般认为, 0.60 ? 0.65 认为不可信: 0.65 ? 0.70 认为是最小可接受 值: 0.70 ? 0.80 认为相当好; 0.80 ? 0.90 就是非常好。因此,一份信度系数好的量表或问卷最好在0.80 以上, 0.70-0.80 之间还算是可以接受的 范用;
40、分量表最好在0.70 以上, 0.60 ? 0.70 之间可以接受。 若分量表的内部一致性系数在0.60 以下或者总量表的信度系数在0.80 以下,应该考虑重新修订量表或增删题目。信度指标多以相关系数来表示,大致可分为稳妃系数(跨时间的一致性)、等值系数(跨形式 的一致性)和内在一致性系数(跨项目的一致性 ) 3 类。信度分析操作选择菜单栏中的 分析” 一“度量”一“可靠性分析” 命令 ,即可弹出如图 2.2.1 所示的 “可靠性分析”对话 框。图2.2.1 “可靠性分析”对话框在左侧的源变量框中选择两个或两个以上的变量作为评估项目,选中要分析的变屋后,单击右向箭头按钮,将其移动到“项目”列表
41、框中。在“模型”下拉列表框中选择信度分析模型,SPSS给出了 5种模型。? a选项:对应 Cronbachs a模型,为系统默认选项。该选项汁算用于度量表内部的一致性的克朗巴哈(Cronbach)a 系数。? “半分”选项:对应拆半信度系数模型。该选项用于计算度量外在信度的表间相关程度的拆半信度系数,输出结果将给出Guttman和Speannan-Brown 拆半信度系数以及拆半后两部分的克朗巴哈 a系数,考察 两部分间的相关性。结果中产生6个信概率(Maximum-行模型法,输出结Guttman选项:对应Guttman模型法。该选项用于计算最低下限的真实信度法,输出 度系数,lambda 1
42、 ? lambda6。“平行”选项:对应平行模型法。该选项用于计算各评估项目变异数同质时的最大Likelihood)信度,该模型假设所有项目具有相等的方差和相等的方差误差。“严格平行”选项:对应严格平行模型法。该模型是假设评估项目具有相等均值的平果种包含有模型的拟合优度检验、各评估项目的方差计值、项内相关系数、信度的无偏估计等统计量。在“可靠性分析”对话框中单击“统计量”按钮,即可弹出“可靠性分析:统计量”对话框,如图2.2.2所示该对话框用于选择描述信度和评估项目的统计量。“描述性”选项组中给出了根据个案产生的尺度或评估项目的描述性统计。“项”选项:选中该选项,表示输出各评估项目的基本描述统
43、计戢,包括项内均值合标准差等。“度量”选项:选中该选项,表示输出各评估项目之和的基本描述统il鱼,包括均值、 方差等。如果项已删除则进行度量”选项:选中该选项,表示输出剔除某评估项目后的基本统计呈:,以便对各评估项目逐个评价。图 2.2.2“可靠性分析:统计量”对话框“项之间”选项组中给出了输出项内统计量的选项。?相关性”选项:表示项内相关系数矩阵。如果选中此选项,则会输出相关系数矩阵的基本描述统计量。?“协方差”选项:表示项内协方差矩阵。如果选中此选项,则会输出协方差矩阵的基本描述统计量。“摘要”选项组中给出了根据所有评估项目的分布计算的基本描述统计量。?“均值”选项:表示评估项目均值。如果
44、选中此选项,则输出若干个评估项目平均分的基本描述统计量,包括最大、最小和评估项目均值的平均分,以及评估项目平均分的极差和方差,最大评估项目平 均分和最小评估项目平均分比率O“方差”选项:表示评估项目方差。输出若干个评估项目方差的基本描述统il涅,包 括最大、最小和评估项目均值的方差,以及评估项目方差的极差和方差,最大评估项目方差和最小评估项目方差的比率。“协方差”选项:表示评估项目内在协方差。输出若干个评估项目协方差矩阵的基本描述统汁量,包括最大、最小和评估项目的内在协方差,以及评估项目内在协方差的极差和方差,最大评估项目内在协方差和最小评估项目内在协方差的比率。“相关性”选项:表示评估项目内
45、在相关系数。输出若干个评估项目相关系数矩阵的基本描述统计量,包括最大、最小和评估项目的内在相关系数,以及评估项目内在相关系数的极差和方差,最大评估项目内在相关系数和最小评估项目内在相关系数的比率。“ANOVA表”选项组中给出了用于检验同一被评估项目在各评估项目上的得分是否有一致性的方法。“无”选项:表示不做检验。正态分布的情况。“F检验”选项:即F检验,表示重复测量的方差分析,适合于数据为左距型且服从?“ Friedman 卡方”选项:即 Friedman 卡方分析,表示进行非参数检验中的多配对样本 Friedman 检验,适合数拯为非正态分布或立序型数据,汁算Friedman 和 Kenda
46、ll 一致性系数。在ANOVA 表中,利用卡方检验代替 F 检验。?“ Cochran 卡方”选项:即计算Cochrans Q 检验值,表示进行非参数检验中的多配对样本 Cochran 检验,适合数据为二值型。在ANOVA 表中,利用 Q 统讣量代替F 统计量。在“可靠性分析:统计量”对话框中,还给出了对评估项目检验和计算的选项。? Hotelling 的 T 平方”选项:表示HotcllingT 方检验,检验所有评估项目的均值是否 相等的多变量检验。?“ Tukcy 的可加性检验”选项: 表示可加型的 Tukey 检验, 用于检验评估项目中是否 存在倍增交互作用。? “同类相关系数”选项:表
47、示组内相关系数,用于进行一致性测度或个案数值的一致 性检验。当选中 同类相关系数”选项后, ( 因为计算组内相关系数需选择计算方法和相关类型)下 列选项变为可用。? 模型”下拉列表框中给出了用于选择计算组内相关系数的方法,其中“双向混合” 为系统默认选项,当个案效应和评估项目效应均为固左时选择此选项;“双向随机”, 当个案效应和评估项目效应均为 随机时选择此选项:“单项随机”,当个案效应为随 机时选择此选项。? “类型”下拉列表框用于选择指示类型,可选择的类型有“一致性”项 )和(为系统默认选绝对一致”两个。? 宜信区间”列表框用于指定宜信区间的水平,默认值为 95% 0? “检验值”列表框用
48、于指泄假设检验过程的检验值,默认值为 0,可输入 0? 1 之间的 数值,用于类间相关系数的比较。在实际应用中,一般将信度分析与因子分析相结合,来确龙测验工具项目的增减,基本步 骤如下:(1)先做因子分析。选择菜单栏中的“分析” “降维” 一 “因子分析”命令,弹出“因一子分析”对话框,然后单击“旋转”按钮,在“方法”选项组中选择“最大方差法”选项;单击继续”按钮,返回到“因子分析”对话框,单击“选项”按钮,在“系数显示格式”选项 组中,设左“绝对值不小于 0.5 ” 。执行相关分析后,在输出窗口中得到结果,如果显示信息 为 KMO=0.5(Yes)then communaity0.5? (Y
49、es), 那么删去所有communaity=0.5 : 或* KMO=0.5(Yes)(hen communaity=0.5? (Yes) ”: “旋转成分矩阵”中如果有项目落到两个或两个以上的因子上,或有题项没有落到任何一个因,第 2 章 SPSS 高级统计分析操作介绍子上,都要删掉再重做因子分析,按照上述方法循环,直到所有指标全部达标(相关内容请参照 本书第 10 章)。(2) 再做信度分析。选择菜单栏中的“分析” - “度量” - “可靠性分析”命令, 打开 可 靠性分析”对话框,然后单击“统il 鱼”按钮,在“描述性”选项组下选中“如果项已删除则 进行度疑”选项,执行相关分析后,在输出
50、窗口中得到结果,在表“可靠性分析”中,如果Cronbaclfs Alpha 大于等于 0.8,那么表示不用删掉任何项目,结果足够好;如果 Cronbaclfs Alpha 小于0.8,则要在表项-Total Statistics M中,看指标 Alpha if Item Deleted (输出剔除某评估项目 后的基本统计量,即 a 系数可提高或降低为此值),把题项剔除,使a 系数大于等于 0.8 。一般 而言,a系数值的最低要求要大于等于0.7 o若a系数小于0,说明该反转的题项未反转,检查 题项,将其反转。时间序列分析系统中某一变量的观测值按时间顺序(时间间隔相同)排列成一个数值序列,展示研
51、究对象在一左时期内的变动过程,从中寻找和分析事物的变化特征、发展趋势和规律。它是系统中某一变量受其他各种因素影响的总结果。 通过处理预测目标本身的时间序列数据, 获得事物随时 间过程的演变特性与规律, 进而预测事物的未来发展。下降、停留的同则变动,突出反映及其包含的正态分常数。相关函数只是时间它不研究事物之间相互依存的因果关系。 许多经济、金融、商业等方而的数据都是时间序列数据,时间序列的预测和评估技术相对完善, 其预测情景相对明确,尤其关注预测目标可用数据的数量和质疑,即时间序列的长度和预测的 频率。时间序列分析简介时间序列具有以下特征。?趋势性:某个变量随着时间进展或自变疑变化,呈现一种比
52、较缓慢而长期的持续上升、性质变动趋向,但变动幅度可能不等。?周期性:某因素由于外部影响随着自然季节的交替出现高峰与低谷的规律。?随机性:个别为随机变动,整体呈统计规律。?综合性:实际变化情况一般是几种变动的叠加或组合。预测时一般设法过滤除去不规趋势性和周期性变动。?随机性:均匀分布、无规则分布,可能符合某统计分布(用因变量的散点图和直方图布检验随机性,大多数服从正态分布)。?平稳性:样本序列的自相关函数在某一固左水平线附近摆动,即方差和数学期望稳泄为认识时间序列所具有的变动特征,以便在系统预测时选择采用不同的方法。样本序列的自化。特征识别利用自相关函数ACF :”饥,其中升是口的k阶自协方差,
53、且0=1、-平稳过程的自相关系数和偏自相关系数都会以某种方式衰减趋近于 0,前者测度当前序列与先 前序列之间简单和常先前序列之间的相关程度。规的相关程度,后者是在控制其他先前序列的膨响后,测度当前序列与某实际上,预测模型大都难以满足这些条件,现实的经济、金融、商业等序列都是非稳左的 , 但通过数据处理 可以变换为平稳的。时间序列具有以下可预测的类型。?点预测:确左唯一的最好预测数值,具给出了时间序列未来发展趋势的一个简单、直产生一个非零的预测误差,苴不确左程度为点预测值的置信区间。?区间预测:未来预测值的一个区间,即期望序列的实际值以某一概率落入该区间范围传递了预测不确泄性的程度,区间的中点为
54、点预测值。?密度预测:序列未来预测值的一个完整的概率分布。根据密度预测,可建立任意置信测,但需要额外的假设和涉及复杂的计算方法。无论是哪种模型形式,时间序列总是受自身历史数据序列变化的影响,因此需将历史数据接的结果。但常内。区间的长度水平的区间预序列作为一个新的时间序列变量时间序列分析操作 创建时间序列”命令,即可弹出如图 2.3.1 所示的“创建时间序列”对话框。选择菜单栏中的“转换”一图2.3.1”创建时间序列”对话框在功能“函数”下拉列表框中选择变量转换的函数。?非季节差八(Differences):计算时间序列连续值之间的非季节性差异。跨距根据定义的周? 季节性差分(Seasonal
55、Differences) : it时间序列跨距间隔恒左值之间的季节性差异, 期确定。?先前移动平均(Prior Moving Average):汁算先前的时间序列数值的平均值。? 差值(Difference):计算围绕和包括当前值的时间序列数值的差。?中心移动平均(Centered Moving Average) :讣算伟I绕和包括当前值的时间序列数值的平均值。? 运行中位数(RunningMedians):计算1书绕和包括当前值的时间序列的中位数。?累计求和(Cumulative Sum):计算直到包括当前值的时间序列数值的累计总数。? 滞后(Lag):根据指建的滞后顺序,计算在前观测量的值
56、。? 提前(Lead):根据指立的领先顺序,计算连续观测疑的值。? 平滑(Smoothing):以混合数据平滑为基础,计算连续观测量的值。移的次数,以便受左侧列表框移来以上各选项主要用在生成差分变量、滞后变量、平移变量,弁且还要关注差分、滞后、平 在建立模型、进行参数估计时,使方程达到一致。在“顺序”数值框中填入在前或在后的时间序列数值间隔的数目。在“变量”列表框中接的源变量。在“名称”列表框中左义新变量的名称,但必须单击“更改”按钮方能成立。单击“确泄”按钮运行系统,在原数据库中出现新变量列。另外,若需产生周期性时间序列的日期型变量,贝惮击菜单栏中的“数据” 一 “泄义日期”出如图2.3.2
57、所示的“立义日期”对话框。图2.3.2 “定义日期”对话框在样本个案为列表框中选择肚义日期变量的时间间隔,在起始日期第一个个案为列表框中设左日期变量第一个观测量的值,单击“确左”按钮完成左义。采用最大似然估计或最小二乘估计等方法估计。、参数值,弁进行显著性检验。统计图形SPSS除了提供很多的统讣分析功能以外,还提供了强大的绘图功能。SPSS可以生成20多种图形,弁且可以对输出图形进行多种形式的编辑和修改。SPSS中专门用于统计绘图的是“图形”菜单。在常用的统计图中,除生存曲线被完全整合到“生存函数”模块中、P-P概率图 和Q-Q概率图被整合到“描述统讣”模块中外,其他统讣绘图均可由“图形”菜单
58、的各子菜单 完成。SPSS输出图形的方式有很多种,可以由统讣软件分析过程生成,也可以直接从“图形”菜一列图形选项中直接产生。在 SPSS中具有友好的交互式功能和图形处理功能,用户可以在短时间内绘制出高质量的统计图形,弁且可以对生成的图形进行编辑和修改,以保证图形的质量和适用io本节主要介绍 图形”菜单下各子菜单的基本功能和主要选项。在新版本中,“图形”菜单中取消了控制图Control).帕累托图(Pareto)、时间序列图(Time Series)等图形功能,保留了常用的几种图形。但是,这些图形依然可以通过“分析”菜单下相应的分析过程得出。图形生成器SPSS的图形生成器(Chart Build
59、er)是由早期版本中Graphs菜单下的Gallery过程发展形成的,是SPSS 14.0 for Windows及其以后的版本中新添的绘制图表界而。Chart Builder是一种简易的绘制图形工具。利用 Chart Builder对话框可以直接将图形元素用拖动的方式放入图表对话框中的画布区域,例如可以预先设卷横轴的变疑以及条形图的样式等。其特点是可以产生所见即所得的样式。止匕外,还可以利用已创建的图形通过设左快捷方式来创建新的图形。利用“图表构建程序”方式创建图形是初级用户的一个较好的选择,可以提高创建图形的效率,减少一些不可预见的错误。通过选择菜单栏中的“图形” 一 “图表构建程序”命令
60、来打开图形生成器。如图 2.4.1所示为图表构建程序” 对话框。图 2.4.1图表构建程序”对话框传统模式创建图形利用传统模式创建图形(Legacy Chart)M 直接生成SPSS图形的主要方式。和交互模式不同 的是,传统图形的 生成模式是以对话框设程的方式创建的,这一点和前而的统讣分析功能的对话框操作类似。操作时需要在各级对话框中选择图形的变量,设置变量产生的图形类型和参数以及其他的选项,例如对缺失值的处理等。传统图形模式可以生成更多类型的图形,同时还可以利用 SPSS的语句命令进行创建:但和交互模式相比,传统图形模式缺少灵活性和直观性,这一点可以通过对生成图形的进一步编辑得到改进。在“旧
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 租赁厂房合同协议
- 招标文件评审的实践操作与评审标准
- 家庭护理家政工雇佣合同
- 土地居间合作合同书
- 现金赎楼服务合同还款还款监管政策
- 借款保证协议模板
- 个人社会救助借款合同范本
- 河砂砾石采购协议
- 林业采伐合作合同
- 抗洪项目论证招标
- 2023秋国开(专)《生产与运作管理》历届期末考试试题及答案
- 《机械制图16螺栓》课件
- 销售人员招聘计划书
- 产值分析报告
- 《树莓派应用开发》课件 第01、2章 树莓派介绍、树莓派操作系统
- 模具热分析报告
- 2024年湖南现代物流职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 多西他赛化疗方案
- 2023年12月江苏省启东市高新区(近海镇)公开招录7名村干部笔试历年高频考点难、易错点荟萃附答案带详解
- 2023-2024学年江苏省扬州市八年级上册期末地理模拟试题(含解析)
- 2023-2024学年苏州市八年级语文上学期期末考试卷附答案解析
评论
0/150
提交评论