回归分析大全详解_第1页
回归分析大全详解_第2页
回归分析大全详解_第3页
回归分析大全详解_第4页
回归分析大全详解_第5页
已阅读5页,还剩219页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析大全目前一页\总数二百二十四页\编于十五点2本章内容7.1回归分析概述7.2线性回归分析7.3曲线估计回归分析7.4罗辑回归分析7.5序数、概率回归分析7.6非线性、权重估计、两阶最小二乘、最佳尺度回归分析

目前二页\总数二百二十四页\编于十五点3回归分析(regressionanalysis)确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。涉及的自变量的多少一元回归分析多元回归分析自变量和因变量之间的关系类型,线性回归分析非线性回归分析回归分析目前三页\总数二百二十四页\编于十五点4回归分析一般步骤:确定回归方程中的解释变量(自变量)和被解释变量(因变量)确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测回归分析目前四页\总数二百二十四页\编于十五点线性回归分析一元线性回归方程反应一个因变量与一个自变量之间的线性关系,当直线方程Y‘=a+bx的a和b确定时,即为一元回归线性方程。经过相关分析后,在直角坐标系中将大量数据绘制成散点图,这些点不在一条直线上,但可以从中找到一条合适的直线,使各散点到这条直线的纵向距离之和最小,这条直线就是回归直线,这条直线的方程叫作直线回归方程。

注意:一元线性回归方程与函数的直线方程有区别,一元线性回归方程中的自变量X对应的是因变量Y的一个取值范围。目前五页\总数二百二十四页\编于十五点1.一元线性回归分析的基本理论把解释变量和被解释变量的多个对应样本值组队成坐标数据对(xi,yi),通过观察数据对(xi,yi)的散点图,如果发现y与xi之间呈现出显著的线性关系,则应考虑建立y和xi的一元线性回归模型,其中,y=a+bx+μ,y为被解释变量;a为模型的截距项;b为待估计参数;x为解释变量;μ为随机误差项。线性回归分析目前六页\总数二百二十四页\编于十五点对于一元线性模型,一般采用最小二乘估计法来估计相关的参数(如和的无偏估计值和),从而得到样本回归直线,这样把得到的样本回归直线作为总体回归的近似,是一种预测过程。那要确定得到的样本回归直线是否能作为总体回归的近似,就必须对回归方程的线性关系进行各种统计检验,包括拟合优度检验、回归方程显著性检验、回归系数的显著性检验(t检验)、残差分析等。线性回归分析目前七页\总数二百二十四页\编于十五点回归方程的拟合优度检验(相关系数检验)一元线性回归的拟合优度检验采用R2统计量,称为判定系数或决定系数,数学定义为其中称为回归平方和(SSA)称为总离差平方和(SST)R2取值在0-1之间,R2越接近于1,说明回归方程对样本数据点的拟合优度越高。线性回归分析目前八页\总数二百二十四页\编于十五点9多元线性回归的拟合优度检验采用统计量,称为调整的判定系数或调整的决定系数,数学定义为式中n-p-1、n-1分别是SSE和SST的自由度。其取值范围和意义与一元回归方程中的R2是相同的。回归方程的拟合优度检验(相关系数检验)线性回归分析目前九页\总数二百二十四页\编于十五点回归方程的显著性检验(F检验)即平均的SSA/平均的SSE,F统计量服从(1,n-2)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平α,则应拒绝零假设,认为线性关系显著。一元线性回归方程显著性检验的零假设是β1=0,检验采用F统计量,其数学定义为:线性回归分析目前十页\总数二百二十四页\编于十五点11回归方程的显著性检验(F检验)多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零,检验采用F统计量,其数学定义为:即平均的SSA/平均的SSE,F统计量服从(p,n-p-1)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平α,则应拒绝零假设,认为y与x的全体的线性关系显著。线性回归分析目前十一页\总数二百二十四页\编于十五点回归系数的显著性检验(t检验)一元线性回归方程的回归系数显著性检验的零假设是β1=0,检验采用t统计量,其数学定义为:t统计量服从n-2个自由度的t分布。SPSS将会自动计算t统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平α,则应拒绝零假设,认为x对y有显著贡献,线性关系显著。线性回归分析目前十二页\总数二百二十四页\编于十五点13回归系数的显著性检验(t检验)多元线性回归方程的回归系数显著性检验的零假设是βi=0,检验采用t统计量,其数学定义为:ti统计量服从n-p-1个自由度的t分布。SPSS将会自动计算ti统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平α,则应拒绝零假设,认为xi对y有显著贡献,应保留在线性方程中。(i=1,2,…,p)线性回归分析目前十三页\总数二百二十四页\编于十五点残差分析所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距,即它是回归模型中的估计值。如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。线性回归分析目前十四页\总数二百二十四页\编于十五点残差分析——均值为0的正态性分析残差均值为0的正态性分析,可以通过绘制残差图进行分析,如果残差均值为0,残差图中的点应在纵坐标为0的横线上下随机散落着。正态性可以通过绘制标准化(或学生化)残差的累计概率图来分析线性回归分析目前十五页\总数二百二十四页\编于十五点16回归方程的统计检验残差分析——独立性分析绘制残差序列的序列图以样本期(或时间)为横坐标,残差为纵坐标,如果残差随时间的推移呈规律性变化,则存在一定的正或负相关性。计算残差的自相关系数取值在-1到+1之间,接近于+1表明序列存在正自相关性。DW(Durbin—Watson)检验DW取值在0至4之间,直观判断标准是DW=4,残差序列完全负自相关;DW=2,完全无自相关;DW=0,完全正自相关。线性回归分析目前十六页\总数二百二十四页\编于十五点17回归方程的统计检验残差分析——异方差分析绘制残差图如果残差的方差随着解释变量值的增加呈增加(或减少)的趋势,说明出现了异方差现象。线性回归分析目前十七页\总数二百二十四页\编于十五点18回归方程的统计检验残差分析——探测样本中的异常值和强影响点(对于y值)标准化残差ZRE由于残差是服从均值为0的正态分布,因此可以根据3σ准则进行判断,首先对残差进行标准化,绝对值大于3对应的观察值为异常值。学生化残差SRE剔除残差DRE(或剔除学生化残差SDRE)上述SRE、SDRE的直观判断标准同标准化残差ZRE。目前十八页\总数二百二十四页\编于十五点19线性回归分析目前十九页\总数二百二十四页\编于十五点20多元回归分析中的其他问题变量筛选问题向前筛选策略解释变量不断进入回归方程的过程,首先选择与被解释变量具有最高线性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程。向后筛选策略变量不断剔除出回归方程的过程,首先所有变量全部引入回归方程并检验,然后在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量。逐步筛选策略向前筛选与向后筛选策略的综合线性回归分析目前二十页\总数二百二十四页\编于十五点21多元回归分析中的其他问题变量多重共线性问题容忍度Tol容忍度值越接近于1,表示多重共线性越弱。SPSS变量多重共线性的要求不很严格,只是在容忍度值太小时给出相应警告信息。方差膨胀因子VIF膨胀因子是容忍度的倒数,越接近于1,表示解释变量间的多重共线性越弱。通常如果VIFi大于等于10,说明解释变量xi与其余解释变量之间有严重的多重共线性。特征根和方差比这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。条件指数ki10≤ki≤100时,认为多重共线性较强,ki≥100时,认为多重共线性很严重线性回归分析目前二十一页\总数二百二十四页\编于十五点22回归方程的统计检验残差分析——异方差分析等级相关分析得到残差序列后首先对其取绝对值,然后计算出残差和解释变量的秩,最后计算Spearman等级相关系数,并进行等级相关分析。具体过程见相关分析相关章节。线性回归分析目前二十二页\总数二百二十四页\编于十五点回归分析步骤:第一,分析大量样本变量观测值,确定变量之间的数学关系式——回归方程;第二,分析其回归方程的可信程度,区分影响显著的和影响不显著的自变量;第三,根据已确定的数学关系,预测(y)或者控制(x)特定变量的取值,并给出预测或控制的精确度。线性回归分析目前二十三页\总数二百二十四页\编于十五点线性回归的使用条件:线性趋势,即自变量与因变量的关系是线性的。独立性,因变量Y的取值相互独立。反映在方程中即残差独立。正态性,即自变量的任何一个线性组合,Y应该服从正态分布。反映在方程中即残差Ei服从正态分布。方差齐性,自变量的任何一个线性组合,Y的方差相同。一元线性回归分析目前二十四页\总数二百二十四页\编于十五点

2.一元线性回归分析的SPSS操作打开【分析】→【回归】→【线性】,出现线性回归主对话框,进行SPSS程序命令操作,即对各子对话框进行设置。

线性回归分析目前二十五页\总数二百二十四页\编于十五点(1)变量

因变量被选入该文本框中的变量为线性回归模型中的被解释变量,数值类型为数值型。如果被解释变量为分类变量,则可以用二元或者多元Logistic模型等建模分析。

自变量被选入该列表框中的变量为线性模型中的解释变量,数值类型一般为数值型。如果解释变量为分类变量或定性变量,可以用虚拟变量(哑变量)表示。如果选择多个自变量,可将自变量分组成块,通过“上一张”和“下一张”按钮对不同的变量子集指定不同的进入方法。线性回归分析目前二十六页\总数二百二十四页\编于十五点总离差平方和可分解为(2)方法用于选择线性回归中变量的进入和剔除方法,来建立多个回归模型进入,该方法表示自变量列表中所有的变量都进入回归模型。逐步,该方法是一个动态过程,表示具有F统计量的概率最小的自变量被选进回归模型;对于已经在回归方程中的变量,如果它们的F统计量的概率变得足够大,则移除这些变量,直到不再有自变量符合进入或移除的条件,该方法终止。删除,该方法表示建立回归模型前设定一定条件,然后根据条件删除自变量。向后,该方法表示首先将自变量列表中的所有自变量选入到回归模型中,然后按顺序移除,最先删除与因变量之间的部分相关性最小的那个变量,移除第一个变量后,得到新的方程,又将与因变量之间的部分相关性最小的那个变量删除,直到方程中没有满足消除条件的变量,过程结束。向前,该方法与“向后”恰好相反,是将自变量按顺序选入到回归模型中。首先选入与因变量之间具有最大相关性的、满足选入条件的变量进入回归模型中,然后再考虑下一个变量,直到没有满足条件的变量时,过程结束。线性回归分析目前二十七页\总数二百二十四页\编于十五点(3)选择变量

该文本框主要用于指定分析个案的选择规则,当回归分析中包含由选择规则定义的个案,则需要进行设置。线性回归:设置规则子对话框用于选择关系。对于分类变量,可用的关系有“等于”和“不等于”,对于字符串型变量,可以用“等于”关系,在“值”文本框中输入按具体数值或字符串选择个案的规则;如在“值”中输入“f”,则表示只有那些性别为女性的个案才能进入分析;对于连续变量,则可用的关系有“等于”、“不等于”、“小于”、“小于等于”、“大于”以及“大于等于”,如选择“不等于”,并在“值”中输入“1”,表示只有那些有无线服务的个案才会包含在回归分析中。线性回归分析目前二十八页\总数二百二十四页\编于十五点(4)个案标签 该文本框主要用于指定个案标签的变量。(5)WLS权重该文本框表示加权最小二乘,当判断回归模型的残差存在异方差时,才选用加权最小二乘方法,指定加权变量。线性回归分析目前二十九页\总数二百二十四页\编于十五点(6)统计量按钮设置 回归系数选项组:估计,选择该复选框,可输出回归系数、标准误、标准化系数beta、t值以及t的双尾显著性水平。 置信区间,误差条形图的表征,选择该复选框,可输出每个回归系数或协方差矩阵指定置信度的置信区间,在“水平”框中输入范围。协方差矩阵,选择它,可输出回归系数的方差—协方差矩阵,其对角线以外的协方差,对角线上为方差,同时还显示相关系数矩阵。线性回归分析目前三十页\总数二百二十四页\编于十五点残差选项组 该选项组用于指定对回归残差进行检验的方法。Durbin-Watson,该复选框表示输出用于检验残差系列自相关的D-W检验统计量。个案诊断,该复选框表示对个案进行诊断,输出个案,其中离群值,表示输出满足条件的个案离群值;标准差,用于指定离群值满足几倍标准差的条件;所有个案,指可以输出所有个案的残差。线性回归分析目前三十一页\总数二百二十四页\编于十五点模型拟合度 勾选该复选框,则输出显示输入模型的变量和从模型删去的变量,并显示以下拟合优度统计量:复相关系数、R2和调整R2、估计的标准误以及方差分析表。R方变化 勾选该复选框,则输出由于添加或删除自变量而产生的R2统计量的更改。如果与某个变量相关联的R2变化很大,则意味着该变量是因变量的一个良好的预测变量。描述性勾选该复选框,则输出回归分析中的有效个案数、均值以及每个变量的标准差,同时输出具有单尾显著性水平的相关矩阵以及每个相关系数的个案数。线性回归分析目前三十二页\总数二百二十四页\编于十五点部分相关和偏相关性该复选框表示输出部分相关和偏相关统计量。其中:部分相关,指对于因变量与某个自变量,当已移去模型中的其他自变量对该自变量的线性效应之后,因变量与自变量之间的相关性。当变量添加到方程时,它与R2的更改有关。偏相关,指的是对于两个变量,在移去由于它们与其他变量之间的相互关联引起的相关之后,这两个变量之间剩余的相关性。对于因变量与某个自变量,当已移去模型中的其他自变量对上述两者的线性效应后,这两者之间的相关性。共线性诊断

输出各变量的容限公差以及共线性诊断表。线性回归分析目前三十三页\总数二百二十四页\编于十五点(7)绘制按钮设置“线性回归:图”对话框主要用于帮助验证正态性、线性和方差相等的假设,还可以检测离群值、异常观察值和有影响的个案。在源变量列表中列出了因变量(DEPENDNT)及以下的预测变量和残差变量:标准化预测值(*ZPRED)、标准化残差(*ZRESID)、剔除残差(*DRESID)、调整的预测值(*ADJPERD)、学生化的残差(*SRESID)以及学生化的已删除残差(*SDRESID)。线性回归分析目前三十四页\总数二百二十四页\编于十五点散点1的1 该选项组可以利用源变量列表中的任意两个来绘制散点图,在“Y”中选入Y轴的变量,“X”中选入X轴的变量。单击“下一张”可以再绘制下一张图,单击“上一张”可以回到刚刚设定的上一张图进行修改。另外,针对标准化预测值绘制标准化残差,可以检验线性关系和等方差性。标准化残差图该选项组用于绘制标准化残差图,主要可以指定两种图:“直方图”和“正态概念图”,将标准化残差的分布与正态分布进行比较。产生所有部分图该复选框表示当根据其余自变量分别对两个变量进行回归时,显示每个自变量残差和因变量残差的散点图。但是要求方程中必须至少有两个自变量。

线性回归分析目前三十五页\总数二百二十四页\编于十五点(8)保存按钮设置“线性回归:保存”对话框主要用于在活动数据文件中保存预测值、残差和其他对于诊断有用的统计量,包括:预测值选项组 该选项组用于保存回归模型对因变量的预测值。未标准化,选中该复选框,表示保存回归模型对因变量的预测值。标准化,选中该复选框,表示保存标准化后的预测值。调节,选中它,表示保存当某个案从回归系数的计算中排除时个案的预测值。均值预测值的S.E.,选中它,表示保存预测值的标准误。线性回归分析目前三十六页\总数二百二十四页\编于十五点残差选项组 该选项组用于保存回归模型的残差未标准化,选中它,表示保存观察值与模型预测值之间的原始残差。标准化,选中它,表示保存标准化后的残差,即Pearson残差。学生化,选中它,表示保存学生化的残差,即残差除以其随个案变化的标准差的估计,这取决于每个个案的自变量值与自变量均值之间的距离。删除,选中它,表示保存当某个案从回归系数的计算中排除时该个案的残差,它是因变量的值和调整预测值之间的差。学生化已删除,选中它,表示保存学生化的删除残差,即个案的剔除残差除以其标准误。线性回归分析目前三十七页\总数二百二十四页\编于十五点距离选项组该选项组用于标识自变量的值具有异常组合的个案以及可能对回归模型产生很大影响的个案的测量。Mahalanobis距离,表示自变量中个案的值与所有个案的平均值相异程度的测量,大的Mahalanobis距离表示个案在一个或多个自变量上具有极值。Cook距离,选中它,表示保存Cook距离值,较大的Cook距离表明从回归统计量的计算中排除个案之后,系数会发生很大变化。杠杆值,选择它,表示保存杠杆值,杠杆值是度量某个点对回归拟合的影响,范围从0到(N-1)/N,其中0表示对回归拟合无影响。线性回归分析目前三十八页\总数二百二十四页\编于十五点影响统计量选项组 该选项组用于测度由于排除了特定个案而导致的回归系数(DfBeta)和预测值(DfFit)的变化。DfBeta,即计算Beta值的差分,表示由于排除了某个特定个案而导致的回归系数的改变。标准化DfBeta,表示计算Beta值的标准化差分。DfFit,表示计算拟合值的差分,即由于排除了某个特定个案而产生的预测变量的更改。标准化DfFit,表示计算拟合值的标准化差分。协方差比率,选中它,表示从回归系数计算中排除特定个案的协方差矩阵的行列式与包含所有个案的协方差矩阵的行列式的比率,如果比率接近1,则说明被排除的个案不能显著改变协方差矩阵。线性回归分析目前三十九页\总数二百二十四页\编于十五点预测区间选项组

该选项组用于设置均值和个别预测区间的上界和下界。线性回归分析目前四十页\总数二百二十四页\编于十五点“线性回归:选项”对话框主要用于对步进方法标准和缺失值进行设置,各选项含义如下:“步进方法标准”选项组该选项组在已指定向前、向后或逐步式变量选择法的情况下适用。变量可以进入到模型中,或者从模型中移除,这取决于F值的显著性概率或者F值本身。使用F的概率,表示如果变量的F值的显著性水平小于“进入”值,则将该变量选入到模型中,如果该显著性水平大于“删除”值,则将该变量从模型中移除。其中“进入”值必须小于“删除”值,且两者均必须为正数。使用F值,表示如果变量的F值大于“进入”值,则该变量输入模型,如果F值小于“删除”值,则该变量从模型中移除。“进入”值必须大于“删除”值,且两者均必须为正数。要将更多的变量选入到模型中,请降低“进入”值。要将更多的变量从模型中移除,请增大“删除”值。线性回归分析目前四十一页\总数二百二十四页\编于十五点“在等式中包含常数”复选框 该复选框表示回归模型中包含常数项。取消选择此选项可强制使回归模型通过原点,但是某些通过原点的回归结果无法与包含常数的回归结果相比较。如:不能以通常的方式解释R2。“缺失值”选项组 该选项组用于对回归中缺失值的设定,有3个可选项。按列表排除个案,选中该选项,表示只有所有变量均取有效值的个案才包含在分析中。按对排除个案,选择该选项,表示使用正被相关的变量对具有完整数据的个案来计算回归分析所基于的相关系数。使用均值替换,选择该选项,表示用变量的均值来替换缺失值。线性回归分析目前四十二页\总数二百二十四页\编于十五点实例操作橡皮的韧性和拉伸倍数是否存在显著的线性关系线性回归分析目前四十三页\总数二百二十四页\编于十五点44线性回归分析目前四十四页\总数二百二十四页\编于十五点45线性回归分析目前四十五页\总数二百二十四页\编于十五点46方程中包含的自变量列表

同时显示进入方法。如本例中方程中的自变量为x,方法为Enter。模型拟合概述

列出了模型的R、R2、调整R2及估计标准误。R2值越大所反映的两变量的共变量比率越高,模型与数据的拟合程度越好。本例所用数据拟合结果显示:所考察的自变量和因变量之间的相关系数为0.985,拟合线性回归的确定性系数为0.971,经调整后的确定性系数为0.968,标准误的估计为0.09931。线性回归分析目前四十六页\总数二百二十四页\编于十五点47方差分析表

列出了变异源、自由度、均方、F值及对F的显著性检验。本例中回归方程显著性检验结果表明:回归平方和为2.658,残差平方和为0.079,总平方和为2.736,对应的F统计量的值为269.456,显著性水平小于0.05,可以认为所建立的回归方程有效。线性回归分析目前四十七页\总数二百二十四页\编于十五点48回归系数表

列出了常数及非标准化回归系数的值及标准化的回归系数,同时对其进行显著性检验。本例中非标准化的回归系数B的估计值为0.890,标准误为0.053,标准化的回归系数为0.985,回归系数显著性检验t统计量的值为16.415,对应显著性水平Sig.=0.000<0.05,可以认为方程显著。因此,本例回归分析得到的回归方程为:Y=-0.116+0.89X对方程的方差分析及对回归系数的显著性检验均发现,所建立的回归方程显著。线性回归分析目前四十八页\总数二百二十四页\编于十五点49线性回归分析目前四十九页\总数二百二十四页\编于十五点线性回归分析50一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。目前五十页\总数二百二十四页\编于十五点51线性回归分析目前五十一页\总数二百二十四页\编于十五点52线性回归分析目前五十二页\总数二百二十四页\编于十五点53线性回归分析目前五十三页\总数二百二十四页\编于十五点54方程中包含的自变量列表

同时显示进入方法。如本例中方程中的自变量为Q1和Q2,Q3,Q4,Q5,选择变量进入方程的方法为Enter。2.模型概述

列出了模型的R、R2、调整R2及估计标准误。R2值越大所反映的自变量与因变量的共变量比率越高,模型与数据的拟合程度越好。

上面所定义模型确定系数的平方根为0.888,确定系数为0.789,调整后的确定系数为0.525,标准误为6.5322。线性回归分析目前五十四页\总数二百二十四页\编于十五点553.方差分析表

列出了变异源、自由度、均方、F值及对F的显著

性检验。本例中回归平方和为637.321,残差平方和为170.679,总平方和为808.000,F统计量的值为2.987,Sig.>0.05,可以认为所建立的回归方程无效。线性回归分析目前五十五页\总数二百二十四页\编于十五点564.回归系数表

列出了常数及回归系数的值及标准化的值,同时对其进行显著性检验。回归系数分析中,Sig.>0.05,建立的回归方程无效,说明多个变量与因变量不存在显著地线性关系。线性回归分析目前五十六页\总数二百二十四页\编于十五点曲线估计目前五十七页\总数二百二十四页\编于十五点变量间相关关系的分析中,变量之间的关系并不总是表现出线性关系,非线性关系也极为常见。非线性又可划分为:本质线性关系形式上虽然呈非线性,但可通过变量转换化为线性关系。本质非线性关系不仅形式上呈非线性,也无法通过变量转换化为线性关系。这里的曲线估计是解决本质线性关系问题的。目前五十八页\总数二百二十四页\编于十五点模型名回归方程变量变换后的线性方程二次曲线(Quadratic)复合曲线(Compound)增长曲线(Growth)对数曲线(Logarithmic)三次曲线(Cubic)S曲线(S)指数曲线(Exponential)逆函数(Inverse)幂函数(Power)逻辑函数(Logistic)常见本质线性模型目前五十九页\总数二百二十四页\编于十五点曲线估计(称曲线拟合、曲线回归)是研究两变量间非线性关系的一种方法,选定一种用方程表达的曲线,使得实际数据与理论数据之间的差异尽可能地小。如果曲线选择得好,那么可以揭示因变量与自变量的内在关系,并对因变量的预测有一定意义;曲线估计中,需要解决两个问题:一是选用哪种理论模型,即用哪种方程来拟合观测值;二是当模型确定后,如何选择合适的参数,使得理论数据和实际数据的差异最小;目前六十页\总数二百二十四页\编于十五点在SPSS曲线估计中,首先在不能明确哪种模型更接近样本数据时可在上述可选择的模型中选择几种模型,然后,SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率P值、判定系数R2等统计量;最后以判定系数R2为主要依据选择其中的最优模型,并进行预测分析。目前六十一页\总数二百二十四页\编于十五点曲线估计应用举例为研究居民家庭教育支出和消费性支出之间的关系,收集到1990年至2002年全国人均消费性支出和教育支出的数据。目前六十二页\总数二百二十四页\编于十五点第一步:画散点图目前六十三页\总数二百二十四页\编于十五点目前六十四页\总数二百二十四页\编于十五点目前六十五页\总数二百二十四页\编于十五点目前六十六页\总数二百二十四页\编于十五点教育支出和年人均消费性支出的散点图观察散点图发现两变量之间呈非线性关系,可尝试选择二次、三次曲线,复合函数、幂函数等模型。目前六十七页\总数二百二十四页\编于十五点第二步:选择函数模型目前六十八页\总数二百二十四页\编于十五点注:选择相应的变量目前六十九页\总数二百二十四页\编于十五点注:模型中,选择“二次项”、“立方”、“幂”、“复合”,勾选“显示ANOVA表格”,然后点击保存按钮目前七十页\总数二百二十四页\编于十五点注:勾选“预测值”、“残差”、“预测空间”(95%置信),点击继续,并确定,得到输出结果。目前七十一页\总数二百二十四页\编于十五点拟合优度最高第三步:分析输出结果目前七十二页\总数二百二十四页\编于十五点三次两个系数均大于0.05,此模型不理想目前七十三页\总数二百二十四页\编于十五点复合幂相伴概率Sig.=0.000,该模型较理想目前七十四页\总数二百二十四页\编于十五点二次、三次、复合、幂函数的曲线幂函数曲线目前七十五页\总数二百二十四页\编于十五点复合函数和幂函数的拟合优度都很好,同时两种模型的回归系数显著性检验也都通过,因此可考虑采用这两种模型。但是从曲线走势上来看,复合函数增长趋势比幂函数更接近原函数,因此可最终考虑采用复合函数。目前七十六页\总数二百二十四页\编于十五点复合曲线目前七十七页\总数二百二十四页\编于十五点目前七十八页\总数二百二十四页\编于十五点由于在曲线估计对话框中选了“保存”项,并且勾选了“预测值”、“残差”和“预测区间”,因此在编辑窗口增加了16个变量的值,以fit_1、err_1、lcl_1、ucl_1为例进行说明:fit_1:表示在线性回归分析条件下,当自变量x1值为1627.64时,因变量x1的预测值为77.75243;err_1:表示在线性回归分析条件下,当自变量x1值为1627.64时,因变量x2的实际值与预测值(残差)为-39.51243;lcl_1:表示在线性回归分析条件下,预测值95%可置信区间的下限为:-41.46780、-52.47135...ucl_1:表示在线性回归分析条件下,预测值95%可置信区间的上限为:196.97266、179.94058...目前七十九页\总数二百二十四页\编于十五点回归分析时间序列上的曲线估计目前八十页\总数二百二十四页\编于十五点定义:时间序列的曲线估计是分析社会和经济现象中经常用到的一种曲线估计。通常把时间设为自变量x,代表具体的经济或社会现象的变量设为因变量y,研究变量x与y之间关系的方法就是时间序列曲线估计。其具体步骤与一般的曲线估计基本类似目前八十一页\总数二百二十四页\编于十五点对1978—2006年间社会消费品零售总额之间的关系进行曲线回归分析时间序列上的曲线估计应用举例目前八十二页\总数二百二十四页\编于十五点注:因变量选择y(社会消费品零售总额),变量选择x(年份),同时选中“时间”项,表示其为代表时间的自变量。“模型”框内勾选线性、二次项、立方和幂四种曲线模型进行估计,不必勾选“显示ANOVA表格”。目前八十三页\总数二百二十四页\编于十五点注:在“曲线”估计中单击“保存”按钮,当以时间作为自变量时,“预测个案”是有效的。“从估计期到最后一个个案的预测”是计算当前所有样本期内的预测值。“预测范围”是指如果预测的范围超过了当前样本期,可以选择在此项随后的“观测值”中键入一个需预测的期数,“31”表示将使用不同曲线模型对1978—2008年这31年的社会消费品零售总额作预测,并在spss数据编辑窗口中保留所有预测值。目前八十四页\总数二百二十四页\编于十五点结果和分析所选的4种曲线函数中以立方曲线的拟合优度最高。所以选择立方拟合社会消费品零售总额在各年的变化趋势,接下来结合观察值和各种函数模型预测值的对比图加以检验。目前八十五页\总数二百二十四页\编于十五点目前八十六页\总数二百二十四页\编于十五点从对比图中可以看出,三次函数的曲线与样本的实际观察值拟合得较好,所以决定对本节中的研究问题“社会消费品零售总额的趋势分析”采用指数函数进行回归分析,其具体模型为:y=2155.592-197.636x+35.303x2+1.947x3目前八十七页\总数二百二十四页\编于十五点由于在“曲线估计”窗口中选了“保存”项,因此在spss数据编辑窗口中就新增了fit_1,fit_2,fit_3,fit_4四个变量的预测值,同时在窗口下面还新增了两个个案,他们分别代表对2007年和2008年的预测值。以三次函数做回归分析:当自变量x值为2001时,因变量y的预测值为44665.01213当自变量x值为2007时,因变量y的预测值为80573.79934当自变量x值为2008时,因变量y的预测值为87964.31013目前八十八页\总数二百二十四页\编于十五点逻辑回归分析目前八十九页\总数二百二十四页\编于十五点定性变量在许多实际问题中,会经常出现因变量是定性变量的情况:例如,某个人是否购买汽车,受到多种如家庭情况、收人情况等因素的影响,但最终的可能性只有两个,要么购买,要么不购买。把y=1定义为购买,y=o则表示不购买。再如,在是否购买某项商业保险的研究中,根据消费者的年龄、身体状况、收人情况、工作性质、受教育程度等,因变量y也只有两种可能结果:要么y=1表示购买,要么y=o表示不购买。90目前九十页\总数二百二十四页\编于十五点处理方法可用于处理定性因变量的统计分析方法有:判别分析(D1scriminantanalysis)、Probit分析、

Logistic回归分析和对数线性模型等。在社会科学中,应用最多的是logistic回归分析,逻辑回归分析是对定性变量的回归分析。Logistic中文意思为“逻辑”但是这里,并不是逻辑的意思,而是通过logit变换来命名的91目前九十一页\总数二百二十四页\编于十五点Logistic回归分析法Logistic回归分析是对定性变量的回归分析分类:Logistic回归分析根据因变量取值类别不同,又可以分为二元(Binarylogistic)回归分析和多项(Multinomianllogistic)回归分析。变量特点:因变量是分类变量,自变量可以是分类变量也可以是连续变量Binarylogistic回归模型中因变量只能取两个值1和o(虚拟因变量),二分类变量。二元指“两种可能性”,就好比逻辑中的“是”或者“否”一样。Multinomianllogistic回归模型中因变量可以取多个值,多分类变量。92目前九十二页\总数二百二十四页\编于十五点Logistic回归分析要解决的问题具体地说,Logistic回归分析主要解决以下几方面的问题:

.通过分析大量的样本数据,确定变量之间的数学关系式

.对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。

.利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度93目前九十三页\总数二百二十四页\编于十五点二元logistic回归模型数学表达式二元Logistic函数的形式为:二元Logistic回归方程:二元logistic中通过Logit变换,成为线性关系:利用极大似然估计法,对参数进行估计,可用SPSS计算。94目前九十四页\总数二百二十四页\编于十五点对参数进行检验常用检验统计量:1.-2对数似然值(-2loglikelihood,-2LL)因为-2LL近似服从卡方分布且在数学上更为方便,所以-2LL可用于检验Logistic回归的显著性。公式为:2.拟合优度GoodnessofFit统计量Logistic回归的拟合优度统计量计算公式为:95目前九十五页\总数二百二十四页\编于十五点3.cox和snell的R24.Nagelkerke的R25.伪R2(Psedo-R-square)伪R2与线性回归模型的R2相似,其意义相似,但它小于1

6.Hosmer和Lemeshow的拟合优度检验统计量7.Wald统计量

96目前九十六页\总数二百二十四页\编于十五点二元logistic回归应用在一组独立变量上对二分类从属变量进行回归利用前像/后向逐步方法或全部进入方法建模用偏差数对比、简单比较、差分(反Helmert)、Helmert、多项式、邻近类别比较、用户自定义、或指示预示变量选择建模标准:变量进入的评分统计量的概率值、Wald概率值、或者移除变量的对数似然比统计量保存统计量:预测概率和分组、残差、偏差值、Logit、标准化残差、杠杆值、类似Cook’s的距离、差异通过XML导出模型97目前九十七页\总数二百二十四页\编于十五点多项logistic回归模型数学表达式多项logistic回归模型模型如下:与二元逻辑回归一样,通过变换可得98目前九十八页\总数二百二十四页\编于十五点检验统计量拟合检验Pearson卡方统计量、卡方偏差统计量大样本数据的这两个统计量的取值很相近伪R方统计量指McFadden统计量99目前九十九页\总数二百二十四页\编于十五点多项logistic回归应用在一组自变量上对多于两种类别的分类因变量进行回归用CRITERIA子命令控制算法调整参数的值包含交互作用项自定义假设检验:使用TEST子命令直接把零假设指定为参数的线性组合用SCALE子命令指定离差偏离比例建立包含/不包含截距项的方程几率比的置信区间保存统计量:预测概率、预测响应类别、100目前一百页\总数二百二十四页\编于十五点

预测响应分类的概率和实际响应分类的概率指定因变量的参照类处理非常大的问题利用逐步方法从众多的可能的预测因子中选择最佳预测因子利用评分和Wald方法,使您在大数据集的情况下更迅速地得出研究结果利用AIC或者BIC准则(也称为SBC)评估模型拟合度101目前一百零一页\总数二百二十四页\编于十五点多项logistic回归:二元logistic回归:二元与多项logistic回归的区别目前一百零二页\总数二百二十四页\编于十五点103同二元Logistic回归相对应,当因变量有2个以上的分类变量时,就选用“多项Logistic回归”。在因变量中,其中一个分类变量要作基线类,其他类别都同它比较成为非冗余的逻辑变换模型,对于基线类,其模型中所有系数均为0。比如,三分类的变量A、B、C,可以以B为基线,A与B比较,C与B比较,这就如同建立了两个二元Logistic回归分析。多项Logistic回归目前一百零三页\总数二百二十四页\编于十五点实例操作案例1.二元Logistic回归在一次关于某城镇居民上下班使用交通工具的社会调查中,因变量y=1表示居民主要乘坐公共汽车上下班;y=0表示主要骑自行车上下班;自变量x1表示被调查者的年龄;x2表示被调查者的月收入;x3表示被调查者的性别(x3:1为男性,x3:0为女性)。试建立y与自变量间的Logistic回归,数据如表L-1所示。104目前一百零四页\总数二百二十四页\编于十五点操作步骤:1.输入数据105目前一百零五页\总数二百二十四页\编于十五点2.在“分析”菜单的“回归”子菜单中选择“二元Logistic”命令,进行Logistic回归分析;106目前一百零六页\总数二百二十四页\编于十五点3.在弹出的“Logistic回归”对话框中,从左侧的变量列表中选择y变量(居民上下班使用交通工具的情况),将至添加到“因变量”框中,表示该变量时因变量;选择年龄、月收入、性别进入“协变量”框中,表示其为自变量;在Method框中选择SPSS默认的“Enter”方法,使所选变量全部进入回归方程,如图所示。107目前一百零七页\总数二百二十四页\编于十五点4.单击对话框中的“选项”按钮,在弹出的“Logistic回归:选项”对话框中按需要选择各选项,如图所示。108目前一百零八页\总数二百二十四页\编于十五点“统计量和图”框中的选项用来选择输出哪些统计量或统计图表,具体选项如下。Classificationplots(分类图):通过比较因变量的观测值和预测值之间关系,反映回归模型的拟合效果。Hosmer-Lemeshowgoodness-of-fit(H-L拟合优度检验统计量):用以检验整个回归模型的拟合优度。Casewiselistingofresiduals(个案残差列表):输出标准方差大于某值(Outliersoutside*std.Dev.)的个案或者全部个案(Allcases)的入选状态,因变量的观测值和预测值及其相应预测概率、残差值。Correlationsofestimates(估计参数的相关性):输出模型中各估计参数间的相关矩阵。Iterationhistory(迭代历史):输出参数估计迭代过程中的系数及对数似然值。CIforexp(B)(exp(B)的N%置信区间):选中该选项将会在模型检验的输出结果中列出exp(B)(各回归系数指数函数值)的N%(缺省值为95%)置信区间,如果要改变缺省值,可以在空白方框内输入1~99(一般常用的值为90,95,99)之间的任何一个整数。选项说明目前一百零九页\总数二百二十四页\编于十五点110“输出”框用来选择输出计算结果的方式。Ateachstep:显示spss每个步骤的计算结果。Atlaststep:只显示最终计算结果。“在模型中包括常数”选项用以确定所求模型的参数是否要包含常数项。为了更好地说明以上各选项的意义,本例选择了所有选项,但保留各选项中的缺省值。选项说明目前一百一十页\总数二百二十四页\编于十五点“步进概率”框用来设定步长标准,以便逐步控制自变量进入方程或被剔除出方程:进入

:设置变量进入方程的标准值。如果变量的分数统计概率小于所设置进入方程的标准值,则该变量进入模型,SPSS默认的显著性水平为0.05删除:设置变量被剔除方程的标准值。如果变量的分数统计概率大于所设置被剔除出方程的标准值,则将该变量剔除出方程,SPSS默认的显著性水平为0.10

“分类标准值”选项用以确定个案分类的中止点。因变量预测值大于分类中止点的个案设归为正个案一类;因变量预测值小于分类中止点的个案设为负个案。SPSS设中止点缺省值为0.5,我们可以通过输入0.01~0.99之间任一数值改变缺省值,从而产生新的分类表。

“最大迭代次数”选项用以确定最大对数似然值达到之前的迭代次数。最大对数似然值是通过反复迭代计算知道收敛为止而得到的。SPSS中该项的缺省值为20,我们可以重新输入一个新的正整数来改变此项的值。选项说明目前一百一十一页\总数二百二十四页\编于十五点5.在“保存”中只选择“预测值”中的“概率”、“组成员”即原始数据个案中,每一个个案最后的预测分类情况,PRE_1、PGR_1分别是最后的预测结果中的预测概率和预测组的变量名(做完后才会在数据视图中出现)。6.单击“继续”按钮,返回上一个对话框。然后,单击“确定”按钮,即可得到SPSS回归分析的结果。112目前一百一十二页\总数二百二十四页\编于十五点第二个表格说明初始的因变量值(0,1)已经转换为逻辑回归分析中常用的0、1数值。SPSS输出结果文件如下。(1)第一部分输出结果有两个表格,第一个表格说明所有个案(28个)都被选入作为回归分析的个案。6.结果讨论和分析:结果分析目前一百一十三页\总数二百二十四页\编于十五点(2)第二部分(Block0)输出结果有4个表格。第1个输出表格列出迭代过程。其中常数项包括在模型中,初始-2LL为38.673。迭代结束于第二步,因为此时参数与其在上一步的变化已经小于0.001。第2个分类表说明Step0的拟合效果。可以看出对于y=0,有100%的准确性,对于y=1,有0%准确性,总共有53.6%的准确性。此时参数估计的变化表现为对数似然值的变化分类表结果分析目前一百一十四页\总数二百二十四页\编于十五点

下面两个表格给出了模型系数的检验结果,其中常数项的系数值为-0.143,其伴随概率为0.706,可见常数项不显著。X1,X2,X3的系数通过了检验,即这两个变量显著。各回归系数指数函数值结果分析目前一百一十五页\总数二百二十四页\编于十五点(3)表格列出了模型系数的综合检验结果。(4)表格给出了-2对数似然值、Cox和Snell的R2

以及Nagelkerke的R2

检验统计结果。cox和snell的R2是在似然值基础上模仿线性回归模型的R2解释Logistic回归模型,一般小于1.为了对cox和snell的R2进一步调整,使得取值范围在0—1之间,Nagelkerke把cox和snell的R2除以它的最大值,即Nagelkerke的R2目前一百一十六页\总数二百二十四页\编于十五点(5)表格给出了Hosmer和Lemeshow的拟合优度检验统计量。HosmerandLemeshow检验HosmerandLemeshow检验的随机性表

与一般拟合优度检验不同,Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组,然后根据观测频数和期望频数构造卡方统计量(即Hosmer和Lemeshow的拟合优度检验统计量,简称H—L拟合优度检验统计量),最后根据自由度为8的卡方分布计算其p值并对Logistic模型进行检验。如果该P值小于给定的显著性水平α

(如α=0.05),表明模型的预测值与观测值存在显著差异。如果P值大于给定的显著性水平,表明在可接受的水平上模型的估计拟合了数据。大于0.05,表明拟合了数据目前一百一十七页\总数二百二十四页\编于十五点(6)分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0,有86.7%的准确性;对于y=1,有76.9%准确性,因此对于所有个案总共有82.1%的准确性。正确分类比例预测值观测值目前一百一十八页\总数二百二十四页\编于十五点(7)方程中的变量表格列出了Step1中各个变量对应的系数,以及该变量对应的Wald统计量和它对应的相伴概率。从该表格中可以看出X3相伴概率最小,Wald统计量最大,可见该标量在模型中很重要。wald统计量用于判断—个变量是否应该包含在模型中。SPSS软件没有给出Logisticc回归的标准化回归系数,因此,如果要考虑每个自变量在回归方程中的重要性,不妨直接比较Wald统计量的大小(或sig),Wald统计量大者(或sig值小者)显著性高,也就更重要。目前一百一十九页\总数二百二十四页\编于十五点(8)相关矩阵表格列出了常数Constant、系数之间的相关矩阵。常数与月收入之间相关性最大,年龄和性别之间的相关性最小。相关矩阵目前一百二十页\总数二百二十四页\编于十五点(9)下图所示是观测值和预测概率分布图。该图以0和1为符号,每四个符号代表一个个案。横坐标是个案属于1的隶属度,这里称为预测概率(PredictedProbability)。纵坐标是个案分布频数,反映个案的分布。

如果逻辑回归预测完全准确,那么该坐标图中预测概率是0~0.5之间的个案都应该是0,0.5~1之间的个案都应该是1.该例生成的图基本上符合这个效果。不正确的结果包括:预测概率是0~0.5之间的个案中有3个实际的观测值为1,0.5~1之间的个案观测值有2个为0,这是错误预测的结果。观测值和预测概率分布图目前一百二十一页\总数二百二十四页\编于十五点(10)逻辑回归的最后一个输出表格式CasewiseList,列出了残差大于2的个案。本例中列出了两个符合条件的个案,分别是第10个案和第19个案。这两个个案都有**,表明这两个个案的逻辑回归结果是错误的。案例列表残差、标准化残差目前一百二十二页\总数二百二十四页\编于十五点123案例2.多项Logistic回归分析某快餐公司为了提高早餐的市场份额,对880名消费者做了一份调查,请利用多项Logistic回归方法分析3种早餐的市场销售情况。数据见表L-1。目前一百二十三页\总数二百二十四页\编于十五点124操作步骤:1.输入数据目前一百二十四页\总数二百二十四页\编于十五点1252.在“分析”菜单的“回归”子菜单中选择“多项Logistic”命令,进行多项Logistic回归分析;目前一百二十五页\总数二百二十四页\编于十五点1263.变量设置:选择相应的“因变量”、“因子”项目;

接着点击“参考类别”,对因变量设置“参考类别”,分别有“第一类、最后一类、用户指定取值”三种类别;然后选择“类别顺序”;根据图示设置。目前一百二十六页\总数二百二十四页\编于十五点1274.模型设置:点击“模型”,进入模型界面;选择“设定/步进式”模型;把“因素”列表中的“agecat”和“active”放入“强制输入项”栏,建立项选择“主效应”;如图进行设置。目前一百二十七页\总数二百二十四页\编于十五点1285.统计量设置:点击“统计量”,进行图示设置。用于选择关于统计模型的统计量用于选择关于模型参数的输出统计量设置分组定义目前一百二十八页\总数二百二十四页\编于十五点1296.收敛标准设置:点击“条件”,设置收敛准则。目前一百二十九页\总数二百二十四页\编于十五点1307.选项设置:点击“选项”,在此设置逐步回归的参数。目前一百三十页\总数二百二十四页\编于十五点1318.保存设置:点击“保存”,勾选需要保存到数据集中的变量。目前一百三十一页\总数二百二十四页\编于十五点1329.结果分析:按“确定”,获得需要的分析结果。拟合优度表格:零假设是模型能够很好拟合原始数据。Pearson统计量和偏差统计量的显著水平都大于0.1,不能否定零假设,即最终模型显著成立。零假设认为某效应从模型中剔除后系数没有变化。由于卡方检验的显著水平(Sig值)都远远小于0.01,故不能否定零假设,认为3个效应对系数的影响都是显著的,不能剔除。目前一百三十二页\总数二百二十四页\编于十五点133目前一百三十三页\总数二百二十四页\编于十五点134目前一百三十四页\总数二百二十四页\编于十五点135目前一百三十五页\总数二百二十四页\编于十五点OrdinalRegression序数回归分析目前一百三十六页\总数二百二十四页\编于十五点相关分析与回归分析定义:是根据反应变量水平是否有序来区分的有序多分类的Logistic回归,又称之为等级回归分析,序数回归的过程在语法中称为PLUM。应用:如疗效可以分为无效、缓解、好转、治愈4个等级,其中缓解与好转是病人的主观体验,难以测量与量化,用序数回归就可以分析这样的有序变量。OrdinalRegression序数回归分析有序结果变量回归的适用条件:(1)一个因变量,它是两个或以上水平的分类变量。无论是主观(名义变量)或客观(有序结果变量)的分类均可。(2)一个或以上的协变量,它可以是分类变量或连续型变量。患者对药物剂量可能的反应可以分为无、轻微、适度或剧烈。轻微反应和适度反应之间的差别很难或不可能量化,并且这种差别是取决于感觉的。另外,轻微反应和适度反应之间的差别可能比适度反应和剧烈反应之间的差别更大或更小。目前一百三十七页\总数二百二十四页\编于十五点相关分析与回归分析序数回归和线性回归:当你试图预测有序反应时,一般线性回归模型并不能很好地工作。这些方法仅可以衡量结果(定)变量是在一个区间范围。这不是真正的有序结果变量,因此,回归模型可能无法准确反映数据之间的关系。一个有序变量,最重要的就是排序。因此,如果您将两个相邻的类别折叠成一个较大的类别,这只是一个很小的变化,使用旧的和新的类别建立的模型应十分类似。不幸的是,线性回归对类别的使用很敏感,类别合并前建成的模型和合并后建成的模型有很大不同。广义线性模型:适合每一类别中的有序变量的单独方程。每一个方程给出了在相应类别或者任何较低类别中的预测概率。没有建立预测模型,而所有的案件都必须在最后一类或较低类别,其概率为1,正因为如此,对于最后一类预测方程是不需要的。目前一百三十八页\总数二百二十四页\编于十五点序数回归数据注意事项:(1)数据。假设因变量是序数并且可以是数值或字符串。通过对因变量的值进行升序排序来确定排列顺序。最低值定义第一个类别。假设因变量是分类变量。协变量必须为数值。请注意:使用多个连续协变量很容易使创建的单元概率表非常大。(2)假设。只允许使用一个因变量,并且必须指定该因变量。另外,对于多个自变量值的各个不同模式,假设该因变量是独立的多项变量。

输出的统计量与图形包括:协变量中每个分类变量的观测频数、预测频数、累计频数、频数与累计频数的Pearson残差、观察概率与预测概率和累积概率;还有参数估计值的渐进相关矩阵与协方差矩阵、Prarson卡方统计量、似然比卡方统计量、拟合优度统计量、迭代历史、参数估计值、标准误差和Cox&SnellR方统计量等。目前一百三十九页\总数二百二十四页\编于十五点序数回归使用总体思路:

(1)需要确定因变量的序。(2)需要决定是否使用预测模型的位置组件。(3)需要决定是否使用规模组件,如果需要,确定哪一个预测值需要使用。

在许多情况下,规模组件是没有必要的,只有位置组件的模型也将提供很好的数据总结。在保持事情简单同时获利益时,通常最好的是只使用位置组件的模型,并有证据表明只有位置组件的模型为您的数据不足时才添加一个规模组件。(4)需要决定哪些链接功能最适合您的研究问题和数据结构。目前一百四十页\总数二百二十四页\编于十五点链接功能:是累积概率估计的改造模式。连接函数表目前一百四十一页\总数二百二十四页\编于十五点应用举例:某药品公司开发新药,服用者受试者服用后的疗效分为5个等级,“很好”“好”“中等”“差”“很差”。分别赋值1到5。此外,还给出了受试者的年龄,性别等信息。通过序数回归分析,对药品疗效问题进行分析数据文件为疗效.sav

目前一百四十二页\总数二百二十四页\编于十五点143选择图形\图表构建工具。选择条形图,将变量中的疗效拖入X轴,Y轴保留“计数”。1.初步分析目前一百四十三页\总数二百二十四页\编于十五点144可以看出,数值小时(“很好”的赋值为1,“好”的赋值为2),频数较高,因此选择“负对数,对数连接函数”目前一百四十四页\总数二百二十四页\编于十五点1452.有序回归分析选择回归分析中的有序分析;将变量拖入相应位置,“疗效是因变量”其余为因子和协变量。选项中链接项选择“负对数,对数”目前一百四十五页\总数二百二十四页\编于十五点146在输出栏中额外勾选“平行线检验”和“预判类别”。位置栏和度量栏中不需要进行修改。点击“确定”,得出数据。目前一百四十六页\总数二百二十四页\编于十五点案例的结果分析:“案例处理摘要”表格给出了分类变量各水平下的案例数和边际百分比,以及有效案例和缺失案例的个数统计。目前一百四十七页\总数二百二十四页\编于十五点148“模型拟合信息”表格给出了最终模型和模型中只包含截距项(其他参数系数全为0)时的似然比检验结果,此处卡方统计量就是前面的两个—2倍对数似然值的差,卡方检验的sig值远小于0.01,说明最终模型要优于只含截距的模型,即最终模型显著成立。“拟合优度”表格,检验的零假设是模型能很好的拟合原始数据。Pearson统计量和偏差统计量对空单元格都非常敏感,而本例中的两个连续变量又导致大量空单元格的出现,以至于这两个统计量的检验结果不太可信,不建议采纳。目前一百四十八页\总数二百二十四页\编于十五点149右数第3列为Wald检验的显著性水平,若此值小于0.05,则对应因素的系数估计显著地不为0。对此,本例的sj(患病时间)Wald检验的显著性水平小于0.05,表示其系数估计显著不为0.由于转换函数的存在,使得对参数估计值的解释变得困难许多。如果一个协变量的参数估计值为正,那么对此变量取值越大的观测目标类别的取值也越大,反之亦然;对于自变量,参数估计值越大的取值水平,预测目标类别的取值也越大。本例的变量均不够显著,显著性均>0.05。Sig值太高的变量可认为对因变量影响不大,可以在之后的分析中省略。目前一百四十九页\总数二百二十四页\编于十五点平行性检验的零假设是位置参数(斜率系数)在个响应类别中都是相等的,因为显著性值远大于0.01,所以接受零假设。目前一百五十页\总数二百二十四页\编于十五点进一步分析:举个例子说明一下如何利用拟和模型进行应用和预测。设某申请受试者者的个人信息为:男(xb)22岁(nl)。已婚(hy)患病4个月(sj)把个人信息数据带入模型预测方程中,按以上步骤操作可以得出预测值(PRE-2)即疗效的预测值为“好”(2.00)目前一百五十一页\总数二百二十四页\编于十五点152概率单位回归分析

(Probit)目前一百五十二页\总数二百二十四页\编于十五点153概率单位回归分析简介 概率单位回归分析可以度量刺激的强度和反应的比例之间的关系。当因变量的变化能改变成者影响二维结果时,概率单位回归分析显得较为有用。概率单位回归可以让用户估计为达到某一比例的反应所需要的刺激强度。 使用概率单位回归分析所得到的统计量有相关系数、标准差、Pearsonchi-square吻合度、置信区间等等目前一百五十三页\总数二百二十四页\编于十五点目前一百五十四页\总数二百二十四页\编于十五点目前一百五十五页\总数二百二十四页\编于十五点概率单位回归分析的步骤

1、在数据输入之后,依次单击Analyze→Regression→Probit,打开ProbitAnalysis对话框。 2、在左边的源变量框内选择响应变量进入“ResponseFrequency”栏内3、在左边的源变量框内选择总的观测变量进入“TotalObserved”栏内。 4、在左边的源变量框内选择因素变量进入“Factor”栏内。在选择此项后,会激活“DefineRange”按钮。单击“DefineRange”按钮,打开DefineRange对话框,在对话框内设置分组的最大值和最小值。 5、在左边的源变量框内选择协变量进入“Covariate(s)”栏内。 6、在“Model”栏内设置分析方式。 7、单击“Option”按钮,会打开Option对话框. 8、单击”OK”按钮,即开始进行统计分析过程。目前一百五十六页\总数二百二十四页\编于十五点应用举例:我们可以使用概率单位分析来分析杀虫利的浓度和蟑螂死亡的比例之间的关系。用户可以进行这样一个实验,将不同浓度的杀虫剂分别使用到一些独立的样本蟑螂群,随后记录下不同浓度的杀虫剂所杀死的蟑螂比例。然后对这些数据采用概率单位回归分析,用户可以发现杀虫剂浓度和杀死蟑螂比例之间的关系。这样用户就可以确定出要杀死至少某比例的蟑螂所需要的最佳杀虫剂浓度。目前一百五十七页\总数二百二十四页\编于十五点158步骤:1.分析-回归-Probit分析目前一百五十八页\总数二百二十四页\编于十五点159步骤:2.将变量拖入相应位置,“杀死数目”拖入响应频率。“蟑螂数”拖入观测值汇总。“计量”选为协变量。在“转换”栏中选择对数底为10.3.在选项中勾选从数据中计算,点击“继续”并点击“确定”目前一百五十九页\总数二百二十四页\编于十五点160数据信息给出了基本的统计信息,收敛信息给出了probit模型收敛的的迭代数。目前一百六十页\总数二百二十四页\编于十五点161参数估计结果:计量的sig值小于0.1,回归方程为probit(p)=-4.663+5.952X(log10计量)目前一百六十一页\总数二百二十四页\编于十五点162自然响应率的估计值和模型检验信息。

卡方检验Perason拟合优度卡方检验的零假设为:模型能够很好地拟合数据。Sig值>0.1所以不能否定零假设,及可认为模型拟合度好。目前一百六十二页\总数二百二十四页\编于十五点163置信区间结果:在达到百分位点是的计量估计值以及其置信区间。如图,当相应概率Probit为0.

5时,杀虫剂的估计量为6.073。目前一百六十三页\总数二百二十四页\编于十五点164图像可用于多个协变量之间的比较(本例协变量唯一)目前一百六十四页\总数二百二十四页\编于十五点165非线性回归分析目前一百六十五页\总数二百二十四页\编于十五点非线性回归分析简介 非线性回归是发现因变量和自变量之间的非线性关系的一种方法。非线性回归能够在因变量和自变量之间构造任意的模型,它不像线性模型那样有众多的假设条件。这个过程是通过迭代估测运算来完成的,因此如果已经了解待估方程中的参数取值范围,但是方程式不能写成简单的函数关系式时,建议使用非线性回归分析。 例如:健康研究问题中,财政赤字对寿命的影响;社会科学研究中,人口增长与时间的关系;生物学与生理学研究中,有关动物骨骼成长与时间和营养的关系等,都是非线性关系。非线性回归分析目前一百六十六页\总数二百二十四页\

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论