spss回归分析大全PPT学习教案_第1页
spss回归分析大全PPT学习教案_第2页
spss回归分析大全PPT学习教案_第3页
spss回归分析大全PPT学习教案_第4页
spss回归分析大全PPT学习教案_第5页
已阅读5页,还剩220页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1spss回归分析大全回归分析大全2本章内容7.1 回归分析概述回归分析概述7.2 线性回归分析线性回归分析7.3 曲线估计回归分析曲线估计回归分析7.4 罗辑回归分析罗辑回归分析7.5 序数、概率回归分析序数、概率回归分析7.6 非线性、权重估计、两阶最小二乘非线性、权重估计、两阶最小二乘、 最佳尺度回归分析最佳尺度回归分析 第1页/共225页3回归分析(regression analysis) 确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。p涉及的自变量的多少一元回归分析多元回归分析p自变量和因变量之间的关系类型,线性回归分析非线性回归分析回归分析第2页/共225页4

2、回归分析一般步骤:确定回归方程中的解释变量(自变量)和被解释变量(因变量)确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测回归分析第3页/共225页第4页/共225页线性回归分析线性回归分析第5页/共225页线性回归分析线性回归分析第6页/共225页22121()()niiniiyyRyy21()niiyy21()niiyy线性回归分析线性回归分析第7页/共225页9多元线性回归的拟合优度检验采用 统计量,称为调整的判定系数或调整的决定系数,数学定义为2R式中n-p-1、n-1分别是SSE和SST的自由度。其取值范围和意义与一元回归方程中的R2是相同的。u回归方程的拟合优度检

3、验(相关系数检验)2111SSEnpSSTnR 线性回归分析线性回归分析第8页/共225页一元线性回归方程显著性检验的零假设是1=0,检验采用F统计量,其数学定义为:2121()()2niiniiiyyMSAFMSEyyn线性回归分析线性回归分析第9页/共225页11u回归方程的显著性检验(F检验)多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零,检验采用F统计量,其数学定义为:即平均的SSA/平均的SSE,F统计量服从(p,n-p-1)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为y与x的全体的线性关系

4、显著。2121()()1niiniiiyyPMSAFMSEyynP线性回归分析线性回归分析第10页/共225页121()niitxx线性回归分析线性回归分析第11页/共225页13u回归系数的显著性检验(t检验)多元线性回归方程的回归系数显著性检验的零假设是i=0,检验采用t统计量,其数学定义为:ti统计量服从n-p-1个自由度的t分布。 SPSS将会自动计算ti统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为xi对y有显著贡献,应保留在线性方程中。21()injiijixxt(i=1,2, ,p)线性回归分析线性回归分析第12页/共225页iiiyyei线

5、性回归分析线性回归分析第13页/共225页线性回归分析线性回归分析第14页/共225页16u回归方程的统计检验u残差分析独立性分析 绘制残差序列的序列图以样本期(或时间)为横坐标,残差为纵坐标,如果残差随时间的推移呈规律性变化,则存在一定的正或负相关性。计算残差的自相关系数取值在-1到+1之间,接近于+1表明序列存在正自相关性。 DW(DurbinWatson)检验DW取值在0至4之间,直观判断标准是DW=4,残差序列完全负自相关;DW=2,完全无自相关;DW=0,完全正自相关。第15页/共225页17u回归方程的统计检验u残差分析异方差分析 绘制残差图如果残差的方差随着解释变量值的增加呈增加

6、(或减少)的趋势,说明出现了异方差现象。线性回归分析线性回归分析第16页/共225页18u回归方程的统计检验u残差分析探测样本中的异常值和强影响点(对于y值)标准化残差ZRE由于残差是服从均值为0的正态分布,因此可以根据3准则进行判断,首先对残差进行标准化 ,绝对值大于3对应的观察值为异常值。学生化残差SRE剔除残差DRE(或剔除学生化残差SDRE)上述SRE、SDRE的直观判断标准同标准化残差ZRE。iZREe第17页/共225页19线性回归分析线性回归分析第18页/共225页20多元回归分析中的其他问题u变量筛选问题向前筛选策略 解释变量不断进入回归方程的过程,首先选择与被解释变量具有最高

7、线性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程。向后筛选策略 变量不断剔除出回归方程的过程,首先所有变量全部引入回归方程并检验,然后在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量。逐步筛选策略 向前筛选与向后筛选策略的综合线性回归分析线性回归分析第19页/共225页21多元回归分析中的其他问题u变量多重共线性问题容忍度Tol容忍度值越接近于1,表示多重共线性越弱。SPSS变量多重共线性的要求不很严格,只是在容忍度值太小时给出相应警告信息。方差膨胀因子VIF膨胀因子是容忍度的倒数,越接近于1,表示解释变

8、量间的多重共线性越弱。通常如果VIFi大于等于10,说明解释变量xi与其余解释变量之间有严重的多重共线性。特征根和方差比这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。条件指数ki10 ki 100时,认为多重共线性较强, ki 100时,认为多重共线性很严重21iiTolR miik第20页/共225页22u回归方程的统计检验u残差分析异方差分析 等级相关分析得到残差序列后首先对其取绝对值,然后计算出残差和解释变量的秩,最后计算Spearman等级相关系数,并进行等级相关分析。具体过程见相关分析相关章节。线性回归分析线性

9、回归分析第21页/共225页线性回归分析线性回归分析第22页/共225页一元线性回归分析一元线性回归分析第23页/共225页 打开【分析】打开【分析】【回归】【回归】【线性】,出现线性【线性】,出现线性回归主对话回归主对话 框,进行框,进行SPSS程序命令操作,程序命令操作,即对各子对话框即对各子对话框进行设置。进行设置。 线性回归分析线性回归分析第24页/共225页(1)变量)变量 因变量因变量 被选入该文本框中的变量为线性回归模型中的被解释被选入该文本框中的变量为线性回归模型中的被解释变量,数值类型为数值型。如果被解释变量为分类变量,则可以用变量,数值类型为数值型。如果被解释变量为分类变量

10、,则可以用二元或者多元二元或者多元Logistic模型等建模分析。模型等建模分析。 自变量自变量 被选入该列表框中的变量为线性模型中的解释变量,被选入该列表框中的变量为线性模型中的解释变量,数值类型一般为数值型。如果解释变量为分类变量或定性变量,可数值类型一般为数值型。如果解释变量为分类变量或定性变量,可以用虚拟变量(哑变量)表示。如果选择多个自变量,可将自变量以用虚拟变量(哑变量)表示。如果选择多个自变量,可将自变量分组成块,通过分组成块,通过“上一张上一张”和和“下一张下一张”按钮对不同的变量子集指按钮对不同的变量子集指定不同的进入方法。定不同的进入方法。线性回归分析线性回归分析第25页/

11、共225页(2)方法)方法 用于选择线性回归中变量的进入和剔除方法,来建立多个回归模型用于选择线性回归中变量的进入和剔除方法,来建立多个回归模型进入,该方法表示自变量列表中进入,该方法表示自变量列表中所有的变量所有的变量都进入回归模型。都进入回归模型。逐步,该方法是一个动态过程,表示具有逐步,该方法是一个动态过程,表示具有F统计量的统计量的概率最小概率最小的自变量的自变量被选进回归模型;对于已经在回归方程中的变量,被选进回归模型;对于已经在回归方程中的变量,如果它们的如果它们的F统计量的概率变得足够大,则移除这些变量,统计量的概率变得足够大,则移除这些变量,直到不再有自变量符合进入或移除的条件

12、,该方法终止。直到不再有自变量符合进入或移除的条件,该方法终止。删除,该方法表示建立回归模型前设定一定条件,然后根据删除,该方法表示建立回归模型前设定一定条件,然后根据条件删除自变量。条件删除自变量。向后,该方法表示首先将自变量列表中的所有自变量选入到回归模型中,然后按向后,该方法表示首先将自变量列表中的所有自变量选入到回归模型中,然后按顺序移除顺序移除,最先删除与因变量之间的部分,最先删除与因变量之间的部分相关性最小相关性最小的那个变量,移除第一个变量后,得到新的方程,又将与因变量之间的部分相关性最小的那个变量删除,直到方程中没有满足消除条件的变量,过程结束。的那个变量,移除第一个变量后,得

13、到新的方程,又将与因变量之间的部分相关性最小的那个变量删除,直到方程中没有满足消除条件的变量,过程结束。向前,该方法与向前,该方法与“向后向后”恰好相反,是将自变量按顺序选入到回归模型中。首先选入与因变量之间具有恰好相反,是将自变量按顺序选入到回归模型中。首先选入与因变量之间具有最大相关性的最大相关性的、满足选入条件的变量进入回归模型中,然后再考虑下一个变量,直到没有满足条件的变量时,过程结束。、满足选入条件的变量进入回归模型中,然后再考虑下一个变量,直到没有满足条件的变量时,过程结束。线性回归分析线性回归分析第26页/共225页(3)选择变量)选择变量 该文本框主要用于指定分析个案的选择规则

14、,当回归分析中包含由选该文本框主要用于指定分析个案的选择规则,当回归分析中包含由选择规则定义的个案,则需要进行设置。择规则定义的个案,则需要进行设置。线性回归:设置规则子对话框用于选择关系。对于分类变量,可用的关系有线性回归:设置规则子对话框用于选择关系。对于分类变量,可用的关系有“等于等于”和和“不等于不等于”,对于字符串型变量,可以用,对于字符串型变量,可以用“等于等于”关系,在关系,在“值值”文本框中输入按具体数值或字符串选择个案的规则;如在文本框中输入按具体数值或字符串选择个案的规则;如在“值值”中输入中输入“f”,则表示只有那些性别为女性的个案才能进入分析;对于连续变量,则可用的关系

15、有,则表示只有那些性别为女性的个案才能进入分析;对于连续变量,则可用的关系有“等于等于”、“不等于不等于”、“小于小于”、“小于等于小于等于”、“大于大于”以及以及“大于等于大于等于”,如选择,如选择“不等于不等于”,并在,并在“值值”中输入中输入“1”,表示只有那些有无线服务的个案才会包含在回归分析中。,表示只有那些有无线服务的个案才会包含在回归分析中。线性回归分析线性回归分析第27页/共225页(4)个案标签)个案标签 该文本框主要用于指定个案标签的变量。该文本框主要用于指定个案标签的变量。(5)WLS权重权重 该文本框表示加权最小二乘,当判断回归模型的该文本框表示加权最小二乘,当判断回归

16、模型的残差存在异方差时,才选用加权最小二乘方法,指定加权变量。残差存在异方差时,才选用加权最小二乘方法,指定加权变量。线性回归分析线性回归分析第28页/共225页线性回归分析线性回归分析第29页/共225页线性回归分析线性回归分析第30页/共225页线性回归分析线性回归分析第31页/共225页线性回归分析线性回归分析第32页/共225页在源变量列表中列出了因在源变量列表中列出了因变量(变量(DEPENDNT)及)及以下的预测变量和残差变以下的预测变量和残差变量:标准化预测值(量:标准化预测值(*ZPRED)、标准化残)、标准化残差(差(*ZRESID)、剔除)、剔除残差(残差(*DRESID)

17、、调)、调整的预测值(整的预测值(*ADJPERD)、学生化)、学生化的残差(的残差(*SRESID)以)以及学生化的已删除残差(及学生化的已删除残差(*SDRESID)。)。线性回归分析线性回归分析第33页/共225页线性回归分析线性回归分析第34页/共225页预测值选项组预测值选项组该选项组用于保存该选项组用于保存回归模型对因变量的预测值。回归模型对因变量的预测值。未标准化,选中该复选框,表示保存回归未标准化,选中该复选框,表示保存回归模型对因变量的预测值。模型对因变量的预测值。标准化,选中该复选框,表示保存标准化标准化,选中该复选框,表示保存标准化后的预测值。后的预测值。调节,选中它,表

18、示保存当某个案从回归调节,选中它,表示保存当某个案从回归系数的计算中排除时个案的预测值。系数的计算中排除时个案的预测值。均值预测值的均值预测值的S.E.,选中它,表示保存预,选中它,表示保存预测值的标准误。测值的标准误。线性回归分析线性回归分析第35页/共225页线性回归分析线性回归分析第36页/共225页线性回归分析线性回归分析第37页/共225页线性回归分析线性回归分析第38页/共225页线性回归分析线性回归分析第39页/共225页线性回归分析线性回归分析第40页/共225页线性回归分析线性回归分析第41页/共225页线性回归分析线性回归分析第42页/共225页44线性回归分析线性回归分析

19、第43页/共225页45线性回归分析线性回归分析第44页/共225页46方程中包含的自变量列表方程中包含的自变量列表 同时显示进入方法。如本例中方程中的自变量为同时显示进入方法。如本例中方程中的自变量为x,方法为,方法为Enter。模型拟合概述模型拟合概述 列出了模型的列出了模型的R、R2 、调整、调整R2 及估计标准误。及估计标准误。R2 值越大所反映的两变量的共变量比率越高,模型与数据的拟合程度越好。值越大所反映的两变量的共变量比率越高,模型与数据的拟合程度越好。本例所用数据拟合结果显示:所考察的自变量和因变量之间的相关系数为,拟合线性回归的确定性系数为,经调整后的确定性系数为,标准误的估

20、计为。本例所用数据拟合结果显示:所考察的自变量和因变量之间的相关系数为,拟合线性回归的确定性系数为,经调整后的确定性系数为,标准误的估计为。线性回归分析线性回归分析第45页/共225页47方差分析表方差分析表 列出了变异源、自由度、均方、列出了变异源、自由度、均方、F值及对值及对F的显著性检验。的显著性检验。本例中回归方程显著性检验结果表明:回归平方和为,残差平方和为,总平方和为,对应的本例中回归方程显著性检验结果表明:回归平方和为,残差平方和为,总平方和为,对应的F统计量的值为,显著性水平小于,可以认为所建立的回归方程有效。统计量的值为,显著性水平小于,可以认为所建立的回归方程有效。线性回归

21、分析线性回归分析第46页/共225页48回归系数表回归系数表 列出了常数及非标准化回归系数的值及标准化的回归系数,同时对其进行显著性检验。列出了常数及非标准化回归系数的值及标准化的回归系数,同时对其进行显著性检验。本例中非标准化的回归系数本例中非标准化的回归系数B的估计值为,标准误为,标准化的回归系数为,回归系数显著性检验的估计值为,标准误为,标准化的回归系数为,回归系数显著性检验t统计量的值为,对应显著性水平,可以认为方程显著。因此,本例回归分析得到的回归方程为:统计量的值为,对应显著性水平,可以认为方程显著。因此,本例回归分析得到的回归方程为:对方程的方差分析及对回归系数的显著性检验均发现

22、,所建立的回归方程显著。对方程的方差分析及对回归系数的显著性检验均发现,所建立的回归方程显著。线性回归分析线性回归分析第47页/共225页49线性回归分析线性回归分析第48页/共225页50一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日

23、照偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。时数、平均湿度等。因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。这就产生了测定多因素之间相关关系的问题。研究在线性相关条件下,两个或两个以上自变量对一个因变量的研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公数量变化关系,称为

24、多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。式,称为多元线性回归模型。第49页/共225页51第50页/共225页52线性回归分析线性回归分析第51页/共225页53线性回归分析线性回归分析第52页/共225页54方程中包含的自变方程中包含的自变量列表量列表 同时显示进入同时显示进入方法。如本例中方程中方法。如本例中方程中的自变量为的自变量为Q1和和Q2,Q3,Q4,Q5,选,选择变量进入方程的方法择变量进入方程的方法为为Enter。2.模型概述模型概述 列出了列出了模型的模型的R、R2 、调整、调整R2 及估计标准误。及估计标准误。R2 值越大所反映的自值越大所反映的

25、自变量与因变量的共变量变量与因变量的共变量比率越高,模型与数据比率越高,模型与数据的拟合程度越好。的拟合程度越好。 上面所定义模型确定系数的平方根为上面所定义模型确定系数的平方根为,确定系数为,调整后的确定系数为,确定系数为,调整后的确定系数为,标准误为。,标准误为。线性回归分析线性回归分析第53页/共225页553.方差分析表方差分析表 列出了变异源、自由度、均方、列出了变异源、自由度、均方、F值及对值及对F的显著的显著 性检验。性检验。本例中回归平方和为,残差平方和为,总平方和为,本例中回归平方和为,残差平方和为,总平方和为,F统计量的值统计量的值为,可以认为所建立的回归方程无效。为,可以

26、认为所建立的回归方程无效。线性回归分析线性回归分析第54页/共225页564.回归系数表回归系数表 列出了常数及回归系数的值及标准化的值,同时列出了常数及回归系数的值及标准化的值,同时对其进行显著性检验。对其进行显著性检验。回归系数分析中,建立的回归方程无效,说明多个变量与因变回归系数分析中,建立的回归方程无效,说明多个变量与因变量不存在显著地线性关系。量不存在显著地线性关系。线性回归分析线性回归分析第55页/共225页曲线估计第56页/共225页变量间相关关系的分析中,变量之间的关系并不总是表现出线性关系,非线性关系也极为常见。非线性又可划分为:本质线性关系形式上虽然呈非线性,但可通过变量转

27、换化为线性关系。本质非线性关系不仅形式上呈非线性,也无法通过变量转换化为线性关系。这里的曲线估计是解决本质线性关系问题的。第57页/共225页模型名回归方程变量变换后的线性方程二次曲线(Quadratic)复合曲线(Compound)增长曲线(Growth)对数曲线(Logarithmic)三次曲线(Cubic)S曲线(S)指数曲线(Exponential)逆函数(Inverse)幂函数(Power)逻辑函数(Logistic)2012yxx211012(x = x )y =+x+x01xy ln( )ln()ln()01yx01xyeln( )01yxln( )01yx1101(x = ln

28、( )y=+xx332012xyxx3322211012,(x = x)y=+x+xxxx01xye11011(x =)ln(y)=+xx10 xye01)ln(y)= ln(+x01xy1()01 11yxxx10()xy01 11ln( )ln()(ln( )yx xx0111xuy 0111ln() ln() ln() xyu常见本质线性模型第58页/共225页曲线估计(称曲线拟合、曲线回归)是研究两变量间非线性关系的一种方法,选定一种用方程表达的曲线,使得实际数据与理论数据之间的差异尽可能地小。如果曲线选择得好,那么可以揭示因变量与自变量的内在关系,并对因变量的预测有一定意义;曲线估计

29、中,需要解决两个问题:一是选用哪种理论模型,即用哪种方程来拟合观测值;二是当模型确定后,如何选择合适的参数,使得理论数据和实际数据的差异最小;第59页/共225页在SPSS曲线估计中,首先在不能明确哪种模型更接近样本数据时可在上述可选择的模型中选择几种模型,然后,SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率P值、判定系数R2等统计量;最后以判定系数R2为主要依据选择其中的最优模型,并进行预测分析。第60页/共225页曲线估计应用举例为研究居民家庭教育支出和消费性支出之间的关系,收集到1990年至2002年全国人均消费性支出和教育支出的数据。第61页/共225页第一步:画

30、散点图第62页/共225页第63页/共225页第64页/共225页第65页/共225页教育支出和年人均消费性支出的散点图观察散点图发现两变量之间呈非线性关系,可尝试选择二次、三次曲线,复合函数、幂函数等模型。第66页/共225页第二步:选择函数模型第67页/共225页注:选择相应的变量第68页/共225页注:模型中,选择“二次项”、“立方”、“幂”、“复合”,勾选“显示ANOVA表格”,然后点击保存按钮第69页/共225页注:勾选“预测值”、“残差”、“预测空间”(95%置信),点击继续,并确定,得到输出结果。第70页/共225页拟合优度最高第三步:分析输出结果第71页/共225页三次三次两个

31、系数均大于0.05,此模型不理想第72页/共225页复合复合幂幂相伴概率Sig.=0.000,该模型较理想第73页/共225页二次、三次、复合、幂函数的曲线幂函数曲线幂函数曲线第74页/共225页复合函数和幂函数的拟合优度都很好,同时两种模型的回归系数显著性检验也都通过 ,因此可考虑采用这两种模型。但是从曲线走势上来看,复合函数增长趋势比幂函数更接近原函数,因此可最终考虑采用复合函数。第75页/共225页复合曲线第76页/共225页第77页/共225页由于在曲线估计对话框中选了“保存”项,并且勾选了“预测值”、“残差”和“预测区间”,因此在编辑窗口增加了16个变量的值,以fit_1、err_1

32、、lcl_1、ucl_1为例进行说明:fit_1:表示在线性回归分析条件下,当自变量x1值为1627.64时,因变量x1的预测值为77.75243;err_1:表示在线性回归分析条件下,当自变量x1值为1627.64时,因变量x2的实际值与预测值(残差)为-39.51243;lcl_1:表示在线性回归分析条件下,预测值95%可置信区间的下限为:-41.46780、-52.47135.ucl_1:表示在线性回归分析条件下,预测值95%可置信区间的上限为:196.97266、179.94058.第78页/共225页时间序列上的时间序列上的曲线估计曲线估计第79页/共225页定义:时间序列的曲线估计

33、是分析社会和经济现象中经常用到的一种曲线估计。通常把时间设为自变量x,代表具体的经济或社会现象的变量设为因变量y,研究变量x与y之间关系的方法就是时间序列曲线估计。其具体步骤与一般的曲线估计基本类似第80页/共225页对19782006年间社会消费品零售总额之间的关系进行曲线回归分析时间序列上的曲线估计应用举例第81页/共225页注:因变量选择y(社会消费品零售总额),变量选择x(年份),同时选中“时间”项,表示其为代表时间的自变量。“模型”框内勾选线性、二次项、立方和幂四种曲线模型进行估计,不必勾选“显示ANOVA表格”。第82页/共225页注:在“曲线”估计中单击“保存”按钮,当以时间作为

34、自变量时,“预测个案”是有效的。“从估计期到最后一个个案的预测”是计算当前所有样本期内的预测值。“预测范围”是指如果预测的范围超过了当前样本期,可以选择在此项随后的“观测值”中键入一个需预测的期数,“31”表示将使用不同曲线模型对19782008年这31年的社会消费品零售总额作预测,并在spss数据编辑窗口中保留所有预测值。第83页/共225页结果和分析所选的所选的4种曲线函数中以立方曲线的拟合优度最高。所以种曲线函数中以立方曲线的拟合优度最高。所以选择立方拟合社会消费品零售总额在各年的变化趋势,接选择立方拟合社会消费品零售总额在各年的变化趋势,接下来结合观察值和各种函数模型预测值的对比图加以

35、检验。下来结合观察值和各种函数模型预测值的对比图加以检验。第84页/共225页第85页/共225页从对比图中可以看出,三次函数的曲线与样本的实际观察值拟合得较好,所以决定对本节中的研究问题“社会消费品零售总额的趋势分析”采用指数函数进行回归分析,其具体模型为:23第86页/共225页由于在“曲线估计”窗口中选了“保存”项,因此在spss数据编辑窗口中就新增了fit_1,fit_2,fit_3,fit_4四个变量的预测值,同时在窗口下面还新增了两个个案,他们分别代表对2007年和2008年的预测值。以三次函数做回归分析:第87页/共225页逻辑回归分析第88页/共225页90第89页/共225页

36、91第90页/共225页92第91页/共225页93第92页/共225页94第93页/共225页95第94页/共225页96第95页/共225页97第96页/共225页98第97页/共225页99第98页/共225页100第99页/共225页101第100页/共225页多项logistic回归:二元logistic回归:二元与多项logistic回归的区别第101页/共225页103同二元Logistic回归相对应,当因变量有2个以上的分类变量时,就选用“多项Logistic回归”。在因变量中,其中一个分类变量要作基线类,其他类别都同它比较成为非冗余的逻辑变换模型,对于基线类,其模型中所有系数

37、均为0。比如,三分类的变量A、B、C,可以以B为基线,A与B比较,C与B比较,这就如同建立了两个二元Logistic回归分析。多项Logistic回归第102页/共225页104第103页/共225页105第104页/共225页106第105页/共225页107第106页/共225页108第107页/共225页“统计量和图统计量和图”框中的选项用来选择输出哪些统计量或统计图表,具体选框中的选项用来选择输出哪些统计量或统计图表,具体选项如下。项如下。p Classification plots Classification plots(分类图):通过比较因变量的观测值和预测值之间(分类图):通过

38、比较因变量的观测值和预测值之间关系,反映回归模型的拟合效果。关系,反映回归模型的拟合效果。p Hosmer-Lemeshow goodness-of-fit Hosmer-Lemeshow goodness-of-fit (H-LH-L拟合优度检验统计量):用以检拟合优度检验统计量):用以检验整个回归模型的拟合优度。验整个回归模型的拟合优度。p Casewise listing of residuals Casewise listing of residuals(个案残差列表):输出标准方差大于某值(个案残差列表):输出标准方差大于某值(Outliers outsideOutliers out

39、side* *std. Dev.std. Dev.)的个案或者全部个案()的个案或者全部个案(All casesAll cases)的入选状态,)的入选状态,因变量的观测值和预测值及其相应预测概率、残差值。因变量的观测值和预测值及其相应预测概率、残差值。p Correlations of estimates Correlations of estimates (估计参数的相关性):输出模型中各估计参数(估计参数的相关性):输出模型中各估计参数间的相关矩阵。间的相关矩阵。p Iteration history Iteration history (迭代历史):输出参数估计迭代过程中的系数及对数(

40、迭代历史):输出参数估计迭代过程中的系数及对数似然值。似然值。p CI for exp CI for exp(B B)(exp(exp(B B)的)的N%N%置信区间置信区间) ):选中该选项将会在模型检验:选中该选项将会在模型检验的输出结果中列出的输出结果中列出expexp(B B)(各回归系数指数函数值)的)(各回归系数指数函数值)的N%N%(缺省值为(缺省值为95%95%)置信区间,如果要改变缺省值,可以在空白方框内输入)置信区间,如果要改变缺省值,可以在空白方框内输入199199(一般(一般常用的值为常用的值为9090,9595,9999)之间的任何一个整数。)之间的任何一个整数。选项

41、说明第108页/共225页110“输出输出”框用来选择输出计算结果的方式。框用来选择输出计算结果的方式。p At each step At each step:显示:显示spssspss每个步骤的计算结果。每个步骤的计算结果。p At last step At last step:只显示最终计算结果。:只显示最终计算结果。“在模型中包括常数在模型中包括常数”选项用以确定所求模型的参数是否要包含常数项。选项用以确定所求模型的参数是否要包含常数项。为了更好地说明以上各选项的意义,本例选择了所有选项,但保留各选项中的缺省值。为了更好地说明以上各选项的意义,本例选择了所有选项,但保留各选项中的缺省值。

42、选项说明第109页/共225页“步进概率”框用来设定步长标准,以便逐步控制自变量进入方程或被剔除出方程:框用来设定步长标准,以便逐步控制自变量进入方程或被剔除出方程:p进入进入 :设置变量进入方程的标准值。如果变量的分数统计概率小于所设置进入方程的标准值,则该变量进入模型,:设置变量进入方程的标准值。如果变量的分数统计概率小于所设置进入方程的标准值,则该变量进入模型,SPSSSPSS默认的显著性水平为默认的显著性水平为p删除删除:设置变量被剔除方程的标准值。如果变量的分数统计概率大于所设置被剔除出方程的标准值,则将该变量剔除出方程,:设置变量被剔除方程的标准值。如果变量的分数统计概率大于所设置

43、被剔除出方程的标准值,则将该变量剔除出方程,SPSSSPSS默认的显著性水平为默认的显著性水平为p “分类标准值”选项用以确定个案分类的中止点。因变量预测值大于分类中止点的个案设归为正个案一类;因变量预测值小于分类中止点的个案设为负个案。选项用以确定个案分类的中止点。因变量预测值大于分类中止点的个案设归为正个案一类;因变量预测值小于分类中止点的个案设为负个案。SPSSSPSS设中止点缺省值为,我们可以通过输入之间任一数值改变缺省值,从而产生新的分类表。设中止点缺省值为,我们可以通过输入之间任一数值改变缺省值,从而产生新的分类表。p “最大迭代次数最大迭代次数”选项用以确定最大对数似然值达到之前

44、的迭代次数。最大对数似然值是通过反复迭代计算知道收敛为止而得到的。选项用以确定最大对数似然值达到之前的迭代次数。最大对数似然值是通过反复迭代计算知道收敛为止而得到的。SPSSSPSS中该项的缺省值为中该项的缺省值为2020,我们可以重新输入一个新的正整数来改变此项的值。,我们可以重新输入一个新的正整数来改变此项的值。选项说明第110页/共225页112第111页/共225页第二个表格说明初始的因变量值(第二个表格说明初始的因变量值(0 0,1 1)已经转换为逻辑回)已经转换为逻辑回归分析中常用的归分析中常用的0 0、1 1数值。数值。SPSSSPSS输出结果文件如下。输出结果文件如下。(1 1

45、)第一部分输出结果有两个表格,第一个表格说明所有个案()第一部分输出结果有两个表格,第一个表格说明所有个案(2828个)都被选入作为回归分析的个案。个)都被选入作为回归分析的个案。6.结果讨论和分析:结果分析第112页/共225页(2 2)第二部分(第二部分(Block 0Block 0)输出结果有)输出结果有4 4个表格。个表格。 第第1 1个输出表格列出个输出表格列出迭代过程迭代过程。其中常数项包括在模型中,初始。其中常数项包括在模型中,初始-2LL-2LL为。迭代为。迭代结束于第二步,因为此时参数与其在上一步的变化已经小于结束于第二步,因为此时参数与其在上一步的变化已经小于 。第第2 2

46、个分类表说明个分类表说明Step 0Step 0 的拟合效果。的拟合效果。可以看出对于可以看出对于y=0y=0,有有100%100%的准确性,的准确性,对于对于y=1y=1,有,有0%0%准确准确性,总共有性,总共有53.6%53.6%的的准确性。准确性。此时参数估计的变化表现此时参数估计的变化表现为对数似然值的变化为对数似然值的变化分类表分类表结果分析第113页/共225页 下面两个表格给出了下面两个表格给出了模型系数模型系数的检验结果,其中常数项的系数值为,其伴随概率为,可见常数项不显著。的检验结果,其中常数项的系数值为,其伴随概率为,可见常数项不显著。X1X1,X2X2,X3X3的系数通

47、过了检验,即这两个变量显著。的系数通过了检验,即这两个变量显著。各回归系数各回归系数指数函数值指数函数值结果分析第114页/共225页(3 3)表格列出了模型系数的综合检验结果。)表格列出了模型系数的综合检验结果。(4 4)表格给出了)表格给出了-2 -2对数似然值、对数似然值、Cox Cox 和和 Snell Snell 的的R R2 2 以及以及NagelkerkeNagelkerke的的R R2 2 检验统计结果。检验统计结果。coxcox和和snellsnell的的R R2 2是在似然值基础上模仿线性回归模型是在似然值基础上模仿线性回归模型的的R R2 2解释解释LogisticLog

48、istic回归模型,一般小于回归模型,一般小于1. 1.为了对为了对coxcox和和snellsnell的的R R2 2进一步调整,使得取值范围在进一步调整,使得取值范围在0101之间,之间,NagelkerkeNagelkerke把把coxcox和和snellsnell的的R R2 2除以它的最大除以它的最大值,即值,即NagelkerkeNagelkerke的的R R2 2第115页/共225页(5 5)表格给出了)表格给出了Hosmer Hosmer 和和 Lemeshow Lemeshow 的拟合优度检验统计量。的拟合优度检验统计量。Hosmer and LemeshowHosmer

49、and Lemeshow检验检验Hosmer and LemeshowHosmer and Lemeshow检验的随机性表检验的随机性表 与一般拟合优度检验不同,与一般拟合优度检验不同,HosmerHosmer和和LemeshowLemeshow的拟合优度检验的拟合优度检验通常把样本通常把样本数据根据预测概率分为数据根据预测概率分为1010组,然后根据观测频数和期望频数构造卡方统计组,然后根据观测频数和期望频数构造卡方统计量量( (即即HosmerHosmer和和LemeshowLemeshow的拟合优度检验统计量,简称的拟合优度检验统计量,简称HLHL拟合优度检验拟合优度检验统计量统计量)

50、),最后根据自由度为,最后根据自由度为8 8的卡方分布计算其的卡方分布计算其p p值并对值并对LogisticLogistic模型进行检模型进行检验。如果该验。如果该P P值小于给定的显著性水平值小于给定的显著性水平 ( (如如0.05)0.05),表明模型的预测值与,表明模型的预测值与观测值存在显著差异。观测值存在显著差异。如果如果P P值大于给定的显著性水平,表明在可接受的水值大于给定的显著性水平,表明在可接受的水平上模型的估计拟合了数据。平上模型的估计拟合了数据。大于,表明拟合了数据大于,表明拟合了数据第116页/共225页(6 6)分类表说明第一次迭代结果的拟合效果,从该表格可以看出对

51、于)分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0y=0,有,有86.7%86.7%的准确性;对于的准确性;对于y=1y=1,有,有76.9%76.9%准确性,因此对于所有个案总共有准确性,因此对于所有个案总共有82.1%82.1%的准确性。的准确性。正确分类比例正确分类比例预测值预测值观测值观测值第117页/共225页(7 7)方程中的变量表格列出了)方程中的变量表格列出了Step 1 Step 1 中各个变量对应的系数中各个变量对应的系数,以及该变量对应的,以及该变量对应的Wald Wald 统计量和它对应的相伴概率。从该统计量和它对应的相伴概率。从该表格中可以看出表格中可

52、以看出X3X3相伴概率最小,相伴概率最小,WaldWald统计量最大,可见该统计量最大,可见该标量在模型中很重要标量在模型中很重要。waldwald统计量统计量用于判断用于判断个变量是否应该包含在模型中。个变量是否应该包含在模型中。 SPSSSPSS软件没软件没有给出有给出LogisticcLogisticc回归的标准化回归系数,因此,如果要考虑每个自变回归的标准化回归系数,因此,如果要考虑每个自变量在回归方程量在回归方程中的重要性,不妨直接比较中的重要性,不妨直接比较WaldWald统计量的大小统计量的大小( (或或sig)sig),WaldWald统计量大统计量大者者( (或或sigsig

53、值小者值小者) )显著性高,也就更重要。显著性高,也就更重要。第118页/共225页(8 8)相关矩阵表格列出了常数)相关矩阵表格列出了常数ConstantConstant、系数之间的相关矩阵。常数与月收入之间相关性最大,年龄和性别之间的相关性最小。、系数之间的相关矩阵。常数与月收入之间相关性最大,年龄和性别之间的相关性最小。相关矩阵相关矩阵第119页/共225页(9 9)下图所示是观测值和预测概率分布图。该图以)下图所示是观测值和预测概率分布图。该图以0 0和和1 1为符号,每四个符号为符号,每四个符号代表一个个案。代表一个个案。横坐标是个案属于横坐标是个案属于1 1的隶属度的隶属度,这里,

54、这里称为预测概率称为预测概率(Predicted Predicted ProbabilityProbability)。)。纵坐标是个案分布频数纵坐标是个案分布频数,反映个案的分布。,反映个案的分布。 如果逻辑回归预测完全准确,那么该坐标图中预测概率是之间的个案如果逻辑回归预测完全准确,那么该坐标图中预测概率是之间的个案都应该是都应该是0 0,0.510.51之间的个案都应该是之间的个案都应该是1. 1. 该例生成的图基本上符合这个效果。不正确的结果包括:预测概率是该例生成的图基本上符合这个效果。不正确的结果包括:预测概率是之间的个案中有之间的个案中有3 3个实际的观测值为个实际的观测值为1 1

55、,0.510.51之间的个案观测值有之间的个案观测值有2 2个为个为0 0,这是错误预测的结果。,这是错误预测的结果。观测值和预测概率分布图观测值和预测概率分布图第120页/共225页(1010)逻辑回归的最后一个输出表格式)逻辑回归的最后一个输出表格式Casewise ListCasewise List,列出了残差大于列出了残差大于2 2的个案的个案。本例中列出了两个符合条件的个案,分别是第。本例中列出了两个符合条件的个案,分别是第1010个案和第个案和第1919个案。这两个个案都有个案。这两个个案都有* * *,表明这两个个案的逻辑回归结果是错误的。表明这两个个案的逻辑回归结果是错误的。案

56、例列表案例列表残差、标准化残差第121页/共225页123案例2. 多项Logistic回归分析某快餐公司为了提高早餐的市场份额,对880名消费者做了一份调查,请利用多项Logistic回归方法分析3种早餐的市场销售情况。数据见表L-1。第122页/共225页124操作步骤:1.输入数据第123页/共225页1252.在“分析”菜单的“回归”子菜单中选择“多项 Logistic”命令,进行多项Logistic回归分析;第124页/共225页1263.变量设置:选择相应的“因变量”、“因子”项目; 接着点击“参考类别”,对因变量设置“参考类别”,分别有“第一类、最后一类、用户指定取值”三种类别;

57、然后选择“类别顺序”;根据图示设置。第125页/共225页1274.模型设置:点击“模型”,进入模型界面;选择“设定/步进式”模型;把“因素”列表中的“agecat”和“active”放入“强制输入项”栏,建立项选择“主效应”;如图进行设置。第126页/共225页1285.统计量设置:点击“统计量”, 进行图示设置。用于选择关于统计模型的统计量用于选择关于模型参数的输出统计量设置分组定义第127页/共225页1296.收敛标准设置:点击“条件”,设置收敛准则。第128页/共225页1307.选项设置:点击“选项”,在此设置逐步回归的参数。第129页/共225页1318.保存设置:点击“保存”,

58、勾选需要保存到数据集中的变量。第130页/共225页1329.结果分析:按“确定”,获得需要的分析结果。拟合优度表格:零假设是模型能够很好拟合原始数据。Pearson统计量和偏差统计量的显著水平都大于,不能否定零假设,即最终模型显著成立。零假设认为某效应从模型中剔除后系数没有变化。由于卡方检验的显著水平(Sig值)都远远小于,故不能否定零假设,认为3个效应对系数的影响都是显著的,不能剔除。第131页/共225页133第132页/共225页134第133页/共225页135第134页/共225页Ordinal Regression Ordinal Regression 序数回归分析序数回归分析第

59、135页/共225页相关分析与回归分析定义定义:是根据反应变量水平是否有序来区分的有序多分类的是根据反应变量水平是否有序来区分的有序多分类的LogisticLogistic回归,又称回归,又称之为等级回归分析,序数回归的过程在语法中称为之为等级回归分析,序数回归的过程在语法中称为 PLUM PLUM 。应用应用:如疗效可以分为如疗效可以分为无效、缓解、好转、治愈无效、缓解、好转、治愈4 4个等级,其中缓解与好转是个等级,其中缓解与好转是病人的病人的主观体验主观体验,难以测量与量化,用序数回归就可以分析这样的有序,难以测量与量化,用序数回归就可以分析这样的有序变量。变量。Ordinal Regr

60、ession Ordinal Regression 序数回归分析序数回归分析有序结果变量回归的适用条件有序结果变量回归的适用条件: :(1) (1) 一个因变量一个因变量, ,它是两个或以上水平的分类变量。无论是主观它是两个或以上水平的分类变量。无论是主观( (名义变量名义变量) )或客观或客观( (有序结果变量有序结果变量) )的分类均可。的分类均可。(2) (2) 一个或以上的协变量一个或以上的协变量, ,它可以是分类变量或连续型变量。它可以是分类变量或连续型变量。患者对药物剂量可能的反应可以分为患者对药物剂量可能的反应可以分为 无、轻微、适度或剧烈。轻微反应无、轻微、适度或剧烈。轻微反应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论