第9章-线性回归分析.ppt_第1页
第9章-线性回归分析.ppt_第2页
第9章-线性回归分析.ppt_第3页
第9章-线性回归分析.ppt_第4页
第9章-线性回归分析.ppt_第5页
已阅读5页,还剩205页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、回归分析(相关回归)、线性回归、回归分析(回归分析)是一种统计分析方法,用于确定两个或多个变量之间相互依赖的定量关系。*涉及多少独立变量?多元回归分析*自变量和因变量之间的关系类型,线性回归分析,非线性回归分析,回归分析的一般步骤:确定回归方程中的解释变量(自变量)和解释变量(因变量),确定回归模型,建立回归方程,对回归方程进行各种测试,并使用回归方程进行预测。线性回归模型,线性回归模型,是指只有一个解释变量的线性回归模型,用于揭示解释变量和另一个解释变量之间的关系。单变量线性回归数学模型:其中0和1分别是未知参数,称为回归常数和回归系数,称为随机误差,是一个随机变量,应满足两个前提条件:E(

2、)=0 var()=2。多元线性回归模型是指具有多个解释变量的线性回归模型,用于揭示被解释变量与其他解释变量之间的线性关系。多元线性回归数学模型:0,1和p都是未知参数,称为回归常数和偏回归系数,称为随机误差,它们都是随机变量,并且还满足两个前提条件:E()=0 var()=2,线性回归模型,回归参数的普通最小二乘估计(OLSE)。线性回归方程确定后,任务是使用收集的样本数据,并根据某些统计数据进行拟合。普通最小二乘法是最常见的统计拟合标准之一。最小二乘法将偏差距离定义为偏差的平方和,即最小二乘估计是找出参数0,1,p的估计值0,1,p,从而最小化公式(1)。通过求解极值原理(偏导数为零)和求

3、解方程,可以得到估计值,由SPSS自动完成。回归方程的统计检验回归方程的拟合优度检验(相关系数检验)一元线性回归的拟合优度检验采用R2统计量,称之为判断系数或决策系数,在数学上定义为回归平方和(SSA)和总偏差平方和(SST)。多元线性回归的拟合优度检验采用统计学,称为调整判断系数或调整决策系数。数学上,n-p-1和n-1分别是SSE和SST的自由度。在单变量回归方程中,它的取值范围和意义与R2相同。回归方程的统计检验回归方程的拟合优度检验(相关系数检验)、回归方程的统计检验回归方程的显著性检验(f检验),单变量线性回归方程的显著性检验的零假设为1=0,检验采用f统计量,其数学定义为:平均SS

4、A/平均SSE,f统计量服从(1,n-2)自由度的f分布。SPSS将自动计算测试统计的观察值和相应的概率P值。如果P值小于给定的显著性水平,零假设应被拒绝,线性关系应被视为显著。回归方程的统计检验回归方程的显著性检验(F检验),多元线性回归方程显著性检验的零假设是各部分回归系数同时为零,检验采用F统计量,其数学定义为:平均SSA/平均SSE,F统计量服从(p,n-p-1)自由度的F分布。SPSS将自动计算测试统计的观察值和相应的概率P值。如果P值小于给定的显著性水平,零假设应该被拒绝,并且Y和X之间的线性关系是显著的。回归方程的统计检验回归系数的显著性检验(T检验),单变量线性回归方程回归系数

5、的显著性检验的零假设为1=0,检验采用T统计量,其数学定义为:T统计量服从n-2自由度的T分布。SPSS将自动计算t统计量的观测值和相应的概率p值。如果p值小于给定的显著性水平,则应拒绝零假设,并且x对y具有显著的贡献,具有显著的线性关系。回归方程的统计检验回归系数的显著性检验(t检验),多元线性回归方程回归系数的显著性检验的零假设为i=0,检验采用t统计量,其数学定义为:ti统计量服从n-p-1自由度的t分布。SPSS将自动计算ti统计的观测值和相应的概率p值。如果p值小于给定的显著性水平,则应拒绝零假设,并且xi对y有显著贡献,这应保留在线性方程中。(i=1,2,p),回归方程的统计检验残

6、差分析,所谓残差是指回归方程计算的预测值与实际样本值之间的差值,即回归模型中的估计值。如果回归方程能很好地反映被解释变量的特征和变化规律,残差序列就不应该包含明显的规律性和趋势性。回归方程的统计检验残差分析均值为0的正态性分析和残差分析均值为0的正态性分析可以通过绘制残差图来分析。如果残差平均值为0,则残差图中的点应随机分散在纵坐标为0的水平线上下。正态性可以通过绘制标准化(或面向学生的)残差的累积概率图和回归方程的统计检验来分析;残差分析的独立性分析;以采样周期(或时间)为横坐标,残差为纵坐标,绘制残差序列的序列图。如果残差随时间有规律地变化,则存在一定的正相关或负相关。计算残差的自相关系数

7、范围从-1到1,接近1表示序列具有正自相关。数据仓库测试数据仓库的值在0到4之间。视觉判断标准为DW=4,残差序列为完全负自相关。DW=2,完全没有自相关;DW=0,完全正自相关。回归方程残差分析的统计检验异方差分析绘制残差图如果残差的方差随着解释变量值的增加而增加(或减少),则表明异方差出现。回归方程的统计检验残差分析异方差分析等级相关分析获得残差序列后,首先取其绝对值,然后计算残差和解释变量的秩,最后计算斯皮尔曼等级相关系数,并进行等级相关分析。具体流程请参考相关分析的相关章节。回归方程的统计检验残差分析检测样本中的异常值和强影响点(对于Y值)标准化残差ZRE由于残差正态分布的平均值为0,

8、因此可以根据3个标准进行判断。首先,残差被标准化,绝对值大于3的观测值是异常值。学生的残余SRE消除了残余DRE(或消除了学生的残余SDRE)。上述SRE和SDRE的视觉判断标准与标准残差ZRE相同。回归方程残差分析的统计检验检测样本中的异常值和强影响点(对于x值)。集中杠杆值chii在杠杆值hii SPSS中计算。通常,如果chii大于chii平均值(p/n)的2或3倍,则观察点被认为是强影响点。库克和迪库克之间的距离是杠杆价值和剩余规模的综合效应。一般情况下,当库克距离大于1时,观测点可视为强影响点。标准化回归系数的变化和标准化预测值的变化如果标准化回归系数变化的绝对值大于或标准化预测值变

9、化的绝对值大于,可以认为第I个样本可能是一个强影响点。多元回归分析中的其他问题、变量筛选问题、正向筛选策略、解释变量继续进入回归方程。首先,与被解释变量具有最高线性相关系数的变量逐步筛选策略是前向筛选和后向筛选策略的结合。多元回归分析中其他问题变量的多重共线性公差值Tol越接近1,多重共线性越弱。对SPSS变量的多重共线性要求并不严格,但当公差值过小时,会给出相应的预警信息。方差扩展因子VIF扩展因子是公差的倒数。越接近1,解释变量之间的多重共线性越弱。一般来说,如果VIFi大于或等于10,这意味着解释变量xi和其他解释变量之间存在严重的多重共线性。特征根和方差比这里的特征根是指相关系数矩阵的

10、特征根。如果最大特征根的值远远大于其他特征根的值,那么在这些解释变量之间有相当多的重叠信息。当条件指数ki 10 ki 100时,多重共线性被认为是强的,当ki 100时,多重共线性被认为是严重的。(2)在因变量框中选择因变量,(3)在自变量框中选择一个或多个自变量,(4)在方法框中选择回归分析中自变量的过滤策略。输入意味着所选变量被强制输入回归方程,这是SPSS的默认策略,通常用于单向线性回归分析;移除意味着从回归方程中移除所选变量;逐步表示逐步筛选策略;向后和向前分别代表向后和向前过滤策略。回归分析的基本操作,(5)上述(3)和(4)中确定的自变量和过滤策略可以放在不同的块中。单击“下一步

11、”和“上一步”按钮,设置多组独立变量和变量过滤策略,并将它们放在不同的块中。SPSS将按照设定的顺序进行分析。“块”的设置便于各种探索性回归分析。回归分析基本操作,(6)在选择变量框中选择一个变量作为条件变量,并点击规则按钮给出一个判断条件。只有变量值满足给定条件的样本数据才会参与线性回归分析。回归分析的基本操作,(7)在案例标签框中指定哪个变量是数据样本点的标记变量,该变量的值将在回归分析的输出图中标记。(8)WLS权重是一个候选权重变量,主要用于加权最小二乘法。此时,线性回归分析的基本操作已经完成,SPSS将根据规格自动执行回归分析,并将结果输出到输出窗口。回归分析的基本操作、回归分析的其

12、他操作和选项、与回归系数相关的输出统计量,包括回归系数、回归系数的标准误差、标准化回归系数、回归系数显著性检验的T统计量和概率P值,以及解释变量的容忍度。解释变量间各非标准化回归系数的95%置信区间、输出相关系数、各回归系数的协方差和方差、输出判断系数、调整后的判断系数、回归方程的标准误差、回归方程显著性检验的方差分析表、各解释变量进入方程引起的判断系数的变异和F值的变异(偏F统计量),输出平均值、标准差、 各解释变量和解释变量的相关系数矩阵和单侧检验概率值,输出方程中各解释变量和解释变量之间的简单相关、偏相关系数和偏相关,回归分析、多重共线性分析的其他运算和选项:输出容差、方差展开因子、特征

13、值、条件指数、方差比等。 在每个解释变量中,输出标准化残差绝对值大于或等于3(默认值)的样本数据的相关信息,其他操作、选项、回归分析选项、标准化预测值、标准化残差消除、调整预测值、学生残差消除、标准化残差序列直方图、标准化残差序列正态分布累积概率图,绘制解释变量的散点图、回归分析的其他操作、Save Options、保存剔除第I个样本后各统计量的变化、标准化回归系数的变化、标准化预测值的变化、标准化预测值的协方差比、设定多元线性回归分析中解释变量进入或剔除回归方程的标准、偏f统计量的概率值、回归分析的其他操作。线性回归分析的应用实例是研究影响高校人文社会科学研究项目数量的因素,收集某年31个省

14、、市、自治区部分高校的社会科学研究数据,运用线性回归方法进行分析。这里,解释变量是启动的项目数X5,解释变量是投资人数(X2)、高级职称投资人数(X3)、科研成本(X4)、专著数(X6)、论文数(X7)和获奖数(X8)。具体操作如上所述。分析结果如下:线性回归分析的应用实例,多元线性回归分析对项目数的结果(强行进入策略)(一),回归方程的高拟合优度,线性回归分析的应用实例,多元线性回归分析对项目数的结果(强行进入策略)(二),SSA SSE SST,解释变量与所有解释变量之间的显著线性关系,线性回归分析的应用实例, 启动项目数的多元线性回归分析结果(强行进入策略)(3),偏回归系数检验仅与x2

15、显著相关,其他不显著,即与0无显著差异,解释变量间存在较强的共线性。 线性回归分析的应用实例,多元线性回归分析的结果对项目启动数(强制进入策略)(4),特征根、条件指数和方差比的较大差异进一步证实了解释变量之间的差异。线性回归分析的应用实例,多元线性回归分析的结果对项目启动数(反向筛选策略)(1),可以看出,我们不应该盲目追求高拟合优度, 而且还注重解释变量对被解释变量的贡献,应用线性回归分析的例子,多元线性回归分析的结果对启动项目数的影响(后向筛选策略) (二),SSA SSE SST,应用线性回归分析的例子,应用多元线性回归分析的结果对启动项目数的影响(后向筛选策略)(三),由此我们可以清

16、楚地看到消除变量的过程,应用线性回归分析的例子, 多元线性回归分析的结果对启动的项目数(逆向筛选策略)(4),应用线性回归分析的例子,通过对上述回归方程的分析和各种检验,我们得到以下回归方程:在曲线估计和变量间相关性分析中,变量间的关系并不总是呈现线性关系,而非线性关系也很常见。 非线性可以分为:虽然本质的线性关系在形式上是非线性的,但它可以通过变量转化为线性关系。本质非线性关系不仅在形式上是非线性的,而且不能通过变量转化为线性关系。这里的曲线估计解决了本质线性关系的问题。一种常见的本质线性模型,在SPSS曲线估计中,当不清楚哪个模型更接近样本数据时,可以从上述可选模型中选择几个模型,然后SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值、概率P值和判断系数R2等统计量;最后,根据判断系数选择最优模型,并进行预测分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论