相关分析和回归分析SPSS讲解课件_第1页
相关分析和回归分析SPSS讲解课件_第2页
相关分析和回归分析SPSS讲解课件_第3页
相关分析和回归分析SPSS讲解课件_第4页
相关分析和回归分析SPSS讲解课件_第5页
已阅读5页,还剩159页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

相关分析与回归分析相关分析和回归分析SPSS讲解课件本章内容变量间的相关关系一元线性回归多元线性回归可化为线性回归的曲线回归本章内容变量间的相关关系掌握相关系数的含义、计算方法和应用掌握一元线性回归的基本原理和参数的最小二乘估计方法掌握回归方程的显著性检验利用回归方程进行预测掌握多元线性回归分析的基本方法了解可化为线性回归的曲线回归学习目标掌握相关系数的含义、计算方法和应用学习目标一.变量相关的概念二.相关系数及其计算第一节变量间的相关关系一.变量相关的概念第一节变量间的相关关系(一)相关分析和回归分析概述

广义上,相关分析包括回归分析回归关系:指两事物之间的一种一一对应关系,以数学方式表示变量之间的关系。相关关系(统计关系):指两事物之间的一种非一一对应的关系,是检验或度量这些关系的密切程度。相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。(一)相关分析和回归分析概述广义上,相关分析包括回归是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x

,当变量x取某个数值时,

y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上

xy变量间的关系(函数关系)是一一对应的确定关系xy变量间的关系(函数变量间的关系(函数关系)函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=p

x(p为单价)圆的面积(S)与半径之间的关系可表示为S=R2

企业的原材料消耗额(y)与产量(x1)

、单位产量消耗(x2)

、原材料价格(x3)之间的关系可表示为y=x1x2x3

变量间的关系(函数关系)函数关系的例子变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围变量间的关系(相关关系)xy变量间关系不能用函数关系精确表达变量间的关系(相关关系)变量间的关系(相关关系)相关关系的例子商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系变量间的关系(相关关系)相关关系的例子相关关系的类型相关关系非线性相关线性相关正相关正相关负相关负相关完全相关不相关相关关系的类型相关关系非线性相关线性相关正相关正相关负相关负相关关系的图示不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关相关关系的图示不相关

相关系数示意图

X、Y变化互不影响----零相关(zerocorrelation)相关系数示意图X、Y变化互不影响----零相关(因果关系不可能完全通过统计分析证明回归模型中表述的因果关系即使很好的拟和了数据,也不可能完全肯定它存在

例如:r=0.5,两者存在相关性,但共同变异量仅为25%,稳定性差统计关系和因果关系因果关系不可能完全通过统计分析证明统计关系和因果关系(二)

相关系数及其计算相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。相关系数对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数若相关系数是根据总体全部数据计算的,称为总体相关系数,记为若根据样本数据计算称为样本相关系数,记为r(二)相关系数及其计算相关分析通过图形和数值两种方式,有效相关系数的计算对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson相关系数、Spearman等级相关系数和Kendall相关系数、点二列相关、二列相关等。Pearson相关系数(适用于两个变量都是线性、成对、正态、连续的数据)或化简为相关系数的计算对不同类型的变量应采用不同的相关系数来度量,常相关系数的计算Spearman等级相关系数是对Pearson相关系数的延伸。用表示,适用于具有线性关系的两列等级变量,主要解决称名数据和顺序数据的相关问题,不必考虑是否正态。相关系数的计算Spearman等级相关系数是对Pearson数据类型与相关系数类型数据类型与相关系数类型利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤:第一,计算样本相关系数r;相关系数r的取值在-1~+1之间R>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关系R=1表示两变量存在完全正相关;r=-1表示两变量存在完全负相关;r=0表示两变量不相关|r|>0.8表示两变量有较强的线性关系;|r|<0.3表示两变量之间的线性关系较弱第二,对样本来自的两总体是否存在显著的线性关系进行推断相关系数取值及其意义利用相关系数进行变量间线性关系的分析通常需要完成以下两表1我国人均国民收入与人均消费金额数据单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相关系数计算例【例1】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi

,yi),i=1,2,…,13,数据见表1,计算相关系数。表1我国人均国民收入与人均消费金计算结果解:根据样本相关系数的计算公式有

计算结果解:根据样本相关系数的计算公式有检验两个变量之间是否存在线性相关关系等价于对回归系数b1的检验采用t检验检验的步骤为提出假设:H0:;H1:0计算检验的统计量:确定显著性水平,并作出决策若t>t,拒绝H0

若t<t,接受H0相关系数的显著性检验(概念要点)检验两个变量之间是否存在线性相关关系相关系数的显著性检验(概相关系数的显著性检验(实例)对前例计算的相关系数进行显著性检(0.05)提出假设:H0:;H1:0计算检验的统计量根据显著性水平=0.05,查t分布表得t(n-2)=2.201由于t=64.9809>t(13-2)=2.201,拒绝H0,人均消费金额与人均国民收入之间的相关关系显著。

相关系数的显著性检验(实例)对前例计算的相关系数进行显相关系数的显著性检验在小样本下,在零假设成立时,Spearman等级相关系数服从Spearman分布;在大样本下,Spearman等级相关系数的检验统计量为Z统计量,定义为:

Z统计量近似服从标准正态分布。相关系数的显著性检验在小样本下,在零假设成立时,Spear计算相关系数的基本操作在Analyze下拉菜单Correlate命令中有三个相关分析功能子命令Bivariate过程、Partial过程、Distances过程,分别对应着相关分析、偏相关分析和相似性测度(距离)的三个spss过程。

Bivariate过程用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。Partial过程,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的偏相关系数。Distances过程用于对各样本点之间或各个变量之间进行相似性分析,一般不单独使用,而作为聚类分析和因子分析等的预分析。计算相关系数的基本操作在Analyze下拉菜单Correla

Bivariate相关分析步骤(1)选择菜单Analyze-Correlate-Bivariate,出现窗口:Bivariate相关分析步骤(1)选择菜单Analyze(2)把参加计算相关系数的变量选到Variables框。(3)在CorrelationCoefficents框中选择计算哪种相关系数。(4)在TestofSignificance框中选择输出相关系数检验的双边(Two-Tailed)概率p值或单边(One-Tailed)概率p值。(5)选中Flagsignificancecorrelation选项表示分析结果中除显示统计检验的概率p值外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。(6)在Option按钮中的Statistics选项中,选中Cross-productdeviationsandcovariances表示输出两变量的离差平方和协方差。(2)把参加计算相关系数的变量选到Variables框。一元线性回归模型参数的最小二乘估计回归方程的显著性检验预测及应用第二节一元线性回归第二节一元线性回归回归分析的内容从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归分析的内容从一组样本数据出发,确定变量之间的数学关系式回归分析的一般步骤确定回归方程中的解释变量(自变量)和被解释变量(因变量)确定回归方程对回归方程进行各种检验利用回归方程进行预测回归分析的一般步骤确定回归方程中的解释变量(自变量)和被解释回归分析与相关分析的区别相关分析中,变量x

变量y处于平等的地位,是对称的双向关系;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化,是一种不对称的单向关系。相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x

可以是随机变量,也可以是非随机的确定变量。相关分析主要描述两个变量间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。

回归分析与相关分析的区别相关分析中,变量x变量y处于对于两个人关系,相关关系只能知道他们是恋人关系,至于他们谁是主导者,谁说话算数,谁是跟随者,一个打个喷嚏,另一个会有什么反应,相关就不能胜任,而回归分析则能很好的解决这个问题对于两个人关系,相关关系只能知道他们是恋人关系,至于他们谁是无论回归还是相关,在做因果关系的时候都应该特别注意,并不是每一个显著的回归因子或者较高的相关指数都意味着因果关系,有可能这些因素都是受第三,第四因素制约,都是另外因素的因或果。回归是探索因果关系的并没错,因为实际上最后我们并不是完全依据统计的结果来判断因果性,只有在统计结果和理论及现实比较吻合的基础上我们才肯定这种因果关系。任何统计方法只是一种工具,但是不能完全依赖于这种工具。无论回归还是相关,在做因果关系的时候都应该特别注意,并不回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归回归模型与回归方程一元线性回归模型

回归方程

回归模型与回归方程一元线性回归模型

一元线性回归模型(概念要点)当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项

的方程称为回归模型。一元线性回归模型(概念要点)当只涉及一个自变量时称为一元回归一元线性回归模型(概念要点)

对于只涉及一个自变量的简单线性回归模型可表示为y=b0+b1x+e模型中,y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项

是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数一元线性回归模型(概念要点)线性关系假设:回归分析必须建立在变量之间具有线性关系的假设成立上。正态性假设:回归分析中的y服从正态分布,与x值对应的y值是变量y的一个子总体,所有子总体都服从正态分布。误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=0+

1x。误差等分散性:对于所有的x值,ε呈随机化的常态分布,ε的方差σ2都相同。独立性假设:(0,σ2)独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关。对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关。误差项ε与自变量也相互独立。一元线性回归模型(基本假定)线性关系假设:回归分析必须建立在变量之间具有线性关系的假设成回归方程(概念要点)描述y的平均值或期望值如何依赖于x的方程称为回归方程简单线性回归方程的形式如下

E(y)=0+1x方程的图示是一条直线,因此也称为直线回归方程0是回归直线在y轴上的截距,是当x=0时y的期望值1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值回归方程(概念要点)描述y的平均值或期望值如何依赖于x估计(经验)的回归方程简单线性回归中估计的回归方程为其中:是估计的回归直线在y

轴上的截距,是直线的斜率,它表示对于一个给定的x

的值,是y

的估计值,也表示x

每变动一个单位时,y的平均变动值

用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程总体回归参数和

是未知的,必需利用样本数据去估计估计(经验)的回归方程简单线性回归中估计的回归方程为其中:回归模型的建立方法平均数方法最小二乘法:误差平方和最小回归模型的建立方法平均数方法平均数法案例平均数法案例最小二乘法(概念要点)基本思想使残差平方和最小用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小最小二乘法(概念要点)用最小二乘法拟合的直线来代表x与y之间最小二乘法(图示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^最小二乘法(图示)xy(xn,yn)(x1,y1)

用最小二乘法求解方程中的两个参数,得到:最小二乘法用最小二乘法求解方程中的两个参数,得到:最44回归方程的显著性检验离差平方和的分解样本决定系数回归方程的显著性检验回归系数的显著性检验回归方法简介回归方程的显著性检验离差平方和的分解(三个平方和的关系)两端平方后求和有由于SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){离差平方和的分解(三个平方和的关系)两端平方后求和有由于SS离差平方和的分解(三个平方和的意义)总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和离差平方和的分解(三个平方和的意义)总平方和(SST)决定系数(判定系数r2

)是回归平方和占总离差平方和的比例反映回归直线的拟合程度,取值范围[0,1]

r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即当相关系数为0.8时,变量y的变异中有64%是由x变量引起的。决定系数(判定系数r2)是回归平方和占总离差平方和的比例回归方程的显著性检验

检验自变量和因变量之间的线性关系是否显著具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系回归方程的显著性检验

检验自变量和因变量之间的线性关系是否显回归方程的显著性检验步骤提出假设

H0:线性关系不显著

计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F作出决策:若FF,拒绝H0;若F<F,接受H0回归方程的显著性检验步骤提出假设计算检验统计量F确定显著性回归方程的方差分析表变异来源SS自由度MSF总SSTN-1MSR/MSE回归SSR1MSR残差SSEN-2MSE回归方程的方差分析表变异来源SS自由度MSF总SSTN-回归系数的显著性检验在一元线性回归中对回归系数的显著性检验与对回归方程的方差分析是等效的。检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著理论基础是回归系数的抽样分布回归系数的显著性检验样本统计量的分布

是根据最小二乘法求出的样本统计量,它有自己的分布,具有如下性质分布形式:正态分布数学期望:标准差:由于未知,需用其估计量Sy来代替得到的估计的标准差样本统计量的分布是根据最小二乘法求出的样本统计量,回归系数的显著性检验(步骤)提出假设H0:b1=0(没有线性关系)H1:b1

0(有线性关系)计算检验的统计量确定显著性水平,并进行决策t>t,拒绝H0

;t<t,接受H0回归系数的显著性检验(步骤)提出假设回归方法简介进入法删除法前进法(step-up,forward-entryprocedure)

后退法(step-down,backward-eliminationprocedure)

逐步回归法(Stepwise)回归方法简介进入法回归方法进入法:是SPSS回归的默认状态。这种方法将用户定义的所有自变量一次全部纳入回归删除法:将全部自变量一次从回归中删除。回归方法进入法:是SPSS回归的默认状态。这种方法将用户定义向前回归法的基本思想选定一个标准。开始方程中没有自变量(常数项除外)按自变量对y的贡献大小由大到小依次挑选进入方程。(假设检验的P值越小贡献越大)每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。直到方程外变量均达不到入选标准,没有自变量可被引入方程为止。向前回归法的基本思想选定一个标准。向后回归法的基本思想选定一个标准开始所有变量均在方程中按自变量对y的贡献大小由小到大依次剔除变量。每剔除一个变量,则重新计算方程内各自变量对y的贡献。直到方程内变量均达到入选标准,没有自变量可被剔除为止。向后回归法的基本思想选定一个标准逐步回归的策略先选择P值较大(0.9),用逐步向前法剔选变量。看哪个变量先进入方程;每个变量进入方程时的P值;哪个变量先进入方程后又被剔除。再选择P值较小(0.001),用逐步向后法逐个剔除变量。看哪个变量先被剔除方程;每个变量被剔除时的P值;哪个变量先被剔除后又被选入。根据上述结果选择几个不同的界值,再用逐步向前法和逐步向后法分别观察变量进出方程的情况。直至所得方程能得到合理的解释为止。逐步回归的策略先选择P值较大(0.9),用逐步向前法剔选变量回归系数反常的原因数据中有离群值或异常数据;自变量的观察范围太窄,或方差太小;样本含量不够,或自变量数太多;自变量间存在复共线性(multicollinearity)。回归系数反常的原因数据中有离群值或异常数据;线性回归分析的基本操作(1)选择菜单Analyze-Regression-Linear,出现窗口:线性回归分析的基本操作(2)选择被解释变量进入Dependent框。(3)选择一个或多个解释变量进入Independent(s)框。(4)在Method框中选择回归分析中解释变量的筛选策略。其中Enter表示所选变量强行进入回归方程,是SPSS默认的策略,通常用在一元线性回归分析中;Remove表示从回归方程中剔除所选变量;Stepwise表示逐步筛选策略;Backward表示向后筛选策略;Forward表示向前筛选策略。(2)选择被解释变量进入Dependent框。线性回归分析的其他操作1、Statistics按钮,出现的窗口可供用户选择更多的输出统计量。线性回归分析的其他操作(1)Estimates:SPSS默认输出项,输出与回归系数相关的统计量。包括回归系数(偏回归系数)、回归系数标准误差、标准化回归系数、回归系数显著性检验的t统计量和概率p值,各解释变量的容忍度。(2)ConfidenceIntervals:输出每个非标准化回归系数95%的置信区间。(3)Descriptive:输出各解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率p值。(1)Estimates:SPSS默认输出项,输出与回归系数(4)Modelfit:SPSS默认输出项,输出判定系数、调整的判定系数、回归方程的标准误差、回归方程显著F检验的方程分析表。(5)Rsquaredchange:输出每个解释变量进入方程后引起的判定系数的变化量和F值的变化量。(6)Partandpartialcorrelation:输出方程中各解释变量与被解释变量之间的简单相关、偏相关系数。(4)Modelfit:SPSS默认输出项,输出判定系数、(7)Covariancematrix:输出方程中各解释变量间的相关系数、协方差以及各回归系数的方差。(8)CollinearityDiagnostics:多重共线性分析,输出各个解释变量的容忍度、方差膨胀因子、特征值、条件指标、方差比例等。(9)在Residual框中:Durbin-waston表示输出DW检验值;CasewiseDiagnostic表示输出标准化残差绝对值大于等于3(SPSS默认值)的样本数据的相关信息,包括预测值、残差、杠杆值等。(7)Covariancematrix:输出方程中各解释变2、Options选项,出现的窗口可供用户设置多元线性回归分析中解释变量筛选的标准以及缺失值的处理方式。3、Plot选项,出现的窗口用于对残差序列的分析。2、Options选项,出现的窗口可供用户设置多元线性回归分应用举例固体垃圾排放量与土地种类的关系p111应用举例固体垃圾排放量与土地种类的关系p111第三节多元线性回归多元线性回归模型多元线性回归的应用及注意事项回归参数的估计回归方程的显著性检验回归系数的显著性检验多元线性回归的预测第三节多元线性回归多元线性回归模型69多元线性回归模型(概念要点)一个因变量与两个及两个以上自变量之间的回归描述因变量y如何依赖于自变量x1

,x2

,…,

xp

和误差项

的方程称为多元线性回归模型。涉及p个自变量的多元线性回归模型可表示为

b0

,b1,b2

,,bp是参数

是被称为误差项的随机变量

y是x1,,x2

,,xp

的线性函数加上误差项

说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性多元线性回归模型(概念要点)一个因变量与两个及两个以上自变量多元线性回归模型(基本假定)自变量x1,x2,…,xp是确定性变量,不是随机变量。随机误差项ε的期望值为0,且方差σ2都相同。误差项ε是一个服从正态分布的随机变量,且相互独立。多元线性回归模型(基本假定)自变量x1,x2,…,xp是确多元线性回归方程(概念要点)描述y的平均值或期望值如何依赖于x,x1

,…,xp的方程称为多元线性回归方程多元线性回归方程的形式为

E(y)=0+1x1

+2x2

+…+pxp

b1,b2,,bp称为偏回归系数

bi

表示假定其他变量不变,当xi

每变动一个单位时,y的平均平均变动值多元线性回归方程(概念要点)描述y的平均值或期望值如何依多元线性回归的应用及其注意事项应用影响因素分析,控制混杂因素预测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量多元线性回归的应用及其注意事项应用的注意事项(1)自变量为连续型变量:必要时作变换(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1(3)自变量为二分类:如令男=1,女=0多元线性回归的应用及其注意事项应用的注意事项(2)自变量为有序变量:依次赋值,如疗效好中差多元线性回归的应用及其注意事项注意事项多重共线性分析多重共线性是指解释变量之间存在线性相关关系的现象。容忍度的取值范围在0-1之间,越接近0表示多重共线性越强,越接近1表示多重共线性越弱。多元线性回归的应用及其注意事项注意事项方程的决定系数很高,且Y与各自变量的相关系数也很高,但自变量的回归系数不显著两个自变量情形时,自变量之间的相关系数很高多个自变量时,某一自变量可以被其他自变量线性表出整个方程决定系数R2高,但每一自变量的偏确定系数很小多重共线性的识别方程的决定系数很高,且Y与各自变量的相关系数也很高,但自变量多重共线性的解决办法解决共线性的主要方法:筛选自变量,去掉与Y相关程度低,而与其他自变量高度相关的变量去掉可以被其余自变量线性表出的变量增加样本规模采用新的样本数据多重共线性的解决办法解决共线性的主要方法:回归方程的显著性检验(线性关系的检验

)检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系回归方程的显著性检验(线性关系的检验)检验因变量与所有的自回归方程的显著性检验(步骤)提出假设H0:12p=0线性关系不显著H1:1,2,,p至少有一个不等于02.计算检验统计量F3.确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F4.作出决策:若FF,拒绝H0;若F<F,接受H0回归方程的显著性检验(步骤)提出假设2.计算检验统计量回归系数的显著性检验如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量xi

对因变量y的影响是否显著。对每一个自变量都要单独进行检验。应用t检验。在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验。回归系数的显著性检验回归系数的显著性检验(步骤)提出假设H0:bi=0(自变量xi与

因变量y没有线性关系)H1:bi

0(自变量xi与

因变量y有线性关系)计算检验的统计量t

确定显著性水平,并进行决策

tt,拒绝H0;t<t,接受H0回归系数的显著性检验(步骤)提出假设确定显著性水平,并进ThankyouThankyou相关分析与回归分析相关分析和回归分析SPSS讲解课件本章内容变量间的相关关系一元线性回归多元线性回归可化为线性回归的曲线回归本章内容变量间的相关关系掌握相关系数的含义、计算方法和应用掌握一元线性回归的基本原理和参数的最小二乘估计方法掌握回归方程的显著性检验利用回归方程进行预测掌握多元线性回归分析的基本方法了解可化为线性回归的曲线回归学习目标掌握相关系数的含义、计算方法和应用学习目标一.变量相关的概念二.相关系数及其计算第一节变量间的相关关系一.变量相关的概念第一节变量间的相关关系(一)相关分析和回归分析概述

广义上,相关分析包括回归分析回归关系:指两事物之间的一种一一对应关系,以数学方式表示变量之间的关系。相关关系(统计关系):指两事物之间的一种非一一对应的关系,是检验或度量这些关系的密切程度。相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。(一)相关分析和回归分析概述广义上,相关分析包括回归是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x

,当变量x取某个数值时,

y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上

xy变量间的关系(函数关系)是一一对应的确定关系xy变量间的关系(函数变量间的关系(函数关系)函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=p

x(p为单价)圆的面积(S)与半径之间的关系可表示为S=R2

企业的原材料消耗额(y)与产量(x1)

、单位产量消耗(x2)

、原材料价格(x3)之间的关系可表示为y=x1x2x3

变量间的关系(函数关系)函数关系的例子变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围变量间的关系(相关关系)xy变量间关系不能用函数关系精确表达变量间的关系(相关关系)变量间的关系(相关关系)相关关系的例子商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系变量间的关系(相关关系)相关关系的例子相关关系的类型相关关系非线性相关线性相关正相关正相关负相关负相关完全相关不相关相关关系的类型相关关系非线性相关线性相关正相关正相关负相关负相关关系的图示不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关相关关系的图示不相关

相关系数示意图

X、Y变化互不影响----零相关(zerocorrelation)相关系数示意图X、Y变化互不影响----零相关(因果关系不可能完全通过统计分析证明回归模型中表述的因果关系即使很好的拟和了数据,也不可能完全肯定它存在

例如:r=0.5,两者存在相关性,但共同变异量仅为25%,稳定性差统计关系和因果关系因果关系不可能完全通过统计分析证明统计关系和因果关系(二)

相关系数及其计算相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。相关系数对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数若相关系数是根据总体全部数据计算的,称为总体相关系数,记为若根据样本数据计算称为样本相关系数,记为r(二)相关系数及其计算相关分析通过图形和数值两种方式,有效相关系数的计算对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson相关系数、Spearman等级相关系数和Kendall相关系数、点二列相关、二列相关等。Pearson相关系数(适用于两个变量都是线性、成对、正态、连续的数据)或化简为相关系数的计算对不同类型的变量应采用不同的相关系数来度量,常相关系数的计算Spearman等级相关系数是对Pearson相关系数的延伸。用表示,适用于具有线性关系的两列等级变量,主要解决称名数据和顺序数据的相关问题,不必考虑是否正态。相关系数的计算Spearman等级相关系数是对Pearson数据类型与相关系数类型数据类型与相关系数类型利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤:第一,计算样本相关系数r;相关系数r的取值在-1~+1之间R>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关系R=1表示两变量存在完全正相关;r=-1表示两变量存在完全负相关;r=0表示两变量不相关|r|>0.8表示两变量有较强的线性关系;|r|<0.3表示两变量之间的线性关系较弱第二,对样本来自的两总体是否存在显著的线性关系进行推断相关系数取值及其意义利用相关系数进行变量间线性关系的分析通常需要完成以下两表1我国人均国民收入与人均消费金额数据单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相关系数计算例【例1】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi

,yi),i=1,2,…,13,数据见表1,计算相关系数。表1我国人均国民收入与人均消费金计算结果解:根据样本相关系数的计算公式有

计算结果解:根据样本相关系数的计算公式有检验两个变量之间是否存在线性相关关系等价于对回归系数b1的检验采用t检验检验的步骤为提出假设:H0:;H1:0计算检验的统计量:确定显著性水平,并作出决策若t>t,拒绝H0

若t<t,接受H0相关系数的显著性检验(概念要点)检验两个变量之间是否存在线性相关关系相关系数的显著性检验(概相关系数的显著性检验(实例)对前例计算的相关系数进行显著性检(0.05)提出假设:H0:;H1:0计算检验的统计量根据显著性水平=0.05,查t分布表得t(n-2)=2.201由于t=64.9809>t(13-2)=2.201,拒绝H0,人均消费金额与人均国民收入之间的相关关系显著。

相关系数的显著性检验(实例)对前例计算的相关系数进行显相关系数的显著性检验在小样本下,在零假设成立时,Spearman等级相关系数服从Spearman分布;在大样本下,Spearman等级相关系数的检验统计量为Z统计量,定义为:

Z统计量近似服从标准正态分布。相关系数的显著性检验在小样本下,在零假设成立时,Spear计算相关系数的基本操作在Analyze下拉菜单Correlate命令中有三个相关分析功能子命令Bivariate过程、Partial过程、Distances过程,分别对应着相关分析、偏相关分析和相似性测度(距离)的三个spss过程。

Bivariate过程用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。Partial过程,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的偏相关系数。Distances过程用于对各样本点之间或各个变量之间进行相似性分析,一般不单独使用,而作为聚类分析和因子分析等的预分析。计算相关系数的基本操作在Analyze下拉菜单Correla

Bivariate相关分析步骤(1)选择菜单Analyze-Correlate-Bivariate,出现窗口:Bivariate相关分析步骤(1)选择菜单Analyze(2)把参加计算相关系数的变量选到Variables框。(3)在CorrelationCoefficents框中选择计算哪种相关系数。(4)在TestofSignificance框中选择输出相关系数检验的双边(Two-Tailed)概率p值或单边(One-Tailed)概率p值。(5)选中Flagsignificancecorrelation选项表示分析结果中除显示统计检验的概率p值外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。(6)在Option按钮中的Statistics选项中,选中Cross-productdeviationsandcovariances表示输出两变量的离差平方和协方差。(2)把参加计算相关系数的变量选到Variables框。一元线性回归模型参数的最小二乘估计回归方程的显著性检验预测及应用第二节一元线性回归第二节一元线性回归回归分析的内容从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归分析的内容从一组样本数据出发,确定变量之间的数学关系式回归分析的一般步骤确定回归方程中的解释变量(自变量)和被解释变量(因变量)确定回归方程对回归方程进行各种检验利用回归方程进行预测回归分析的一般步骤确定回归方程中的解释变量(自变量)和被解释回归分析与相关分析的区别相关分析中,变量x

变量y处于平等的地位,是对称的双向关系;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化,是一种不对称的单向关系。相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x

可以是随机变量,也可以是非随机的确定变量。相关分析主要描述两个变量间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。

回归分析与相关分析的区别相关分析中,变量x变量y处于对于两个人关系,相关关系只能知道他们是恋人关系,至于他们谁是主导者,谁说话算数,谁是跟随者,一个打个喷嚏,另一个会有什么反应,相关就不能胜任,而回归分析则能很好的解决这个问题对于两个人关系,相关关系只能知道他们是恋人关系,至于他们谁是无论回归还是相关,在做因果关系的时候都应该特别注意,并不是每一个显著的回归因子或者较高的相关指数都意味着因果关系,有可能这些因素都是受第三,第四因素制约,都是另外因素的因或果。回归是探索因果关系的并没错,因为实际上最后我们并不是完全依据统计的结果来判断因果性,只有在统计结果和理论及现实比较吻合的基础上我们才肯定这种因果关系。任何统计方法只是一种工具,但是不能完全依赖于这种工具。无论回归还是相关,在做因果关系的时候都应该特别注意,并不回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归回归模型与回归方程一元线性回归模型

回归方程

回归模型与回归方程一元线性回归模型

一元线性回归模型(概念要点)当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项

的方程称为回归模型。一元线性回归模型(概念要点)当只涉及一个自变量时称为一元回归一元线性回归模型(概念要点)

对于只涉及一个自变量的简单线性回归模型可表示为y=b0+b1x+e模型中,y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项

是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数一元线性回归模型(概念要点)线性关系假设:回归分析必须建立在变量之间具有线性关系的假设成立上。正态性假设:回归分析中的y服从正态分布,与x值对应的y值是变量y的一个子总体,所有子总体都服从正态分布。误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=0+

1x。误差等分散性:对于所有的x值,ε呈随机化的常态分布,ε的方差σ2都相同。独立性假设:(0,σ2)独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关。对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关。误差项ε与自变量也相互独立。一元线性回归模型(基本假定)线性关系假设:回归分析必须建立在变量之间具有线性关系的假设成回归方程(概念要点)描述y的平均值或期望值如何依赖于x的方程称为回归方程简单线性回归方程的形式如下

E(y)=0+1x方程的图示是一条直线,因此也称为直线回归方程0是回归直线在y轴上的截距,是当x=0时y的期望值1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值回归方程(概念要点)描述y的平均值或期望值如何依赖于x估计(经验)的回归方程简单线性回归中估计的回归方程为其中:是估计的回归直线在y

轴上的截距,是直线的斜率,它表示对于一个给定的x

的值,是y

的估计值,也表示x

每变动一个单位时,y的平均变动值

用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程总体回归参数和

是未知的,必需利用样本数据去估计估计(经验)的回归方程简单线性回归中估计的回归方程为其中:回归模型的建立方法平均数方法最小二乘法:误差平方和最小回归模型的建立方法平均数方法平均数法案例平均数法案例最小二乘法(概念要点)基本思想使残差平方和最小用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小最小二乘法(概念要点)用最小二乘法拟合的直线来代表x与y之间最小二乘法(图示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^最小二乘法(图示)xy(xn,yn)(x1,y1)

用最小二乘法求解方程中的两个参数,得到:最小二乘法用最小二乘法求解方程中的两个参数,得到:最126回归方程的显著性检验离差平方和的分解样本决定系数回归方程的显著性检验回归系数的显著性检验回归方法简介回归方程的显著性检验离差平方和的分解(三个平方和的关系)两端平方后求和有由于SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){离差平方和的分解(三个平方和的关系)两端平方后求和有由于SS离差平方和的分解(三个平方和的意义)总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和离差平方和的分解(三个平方和的意义)总平方和(SST)决定系数(判定系数r2

)是回归平方和占总离差平方和的比例反映回归直线的拟合程度,取值范围[0,1]

r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即当相关系数为0.8时,变量y的变异中有64%是由x变量引起的。决定系数(判定系数r2)是回归平方和占总离差平方和的比例回归方程的显著性检验

检验自变量和因变量之间的线性关系是否显著具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系回归方程的显著性检验

检验自变量和因变量之间的线性关系是否显回归方程的显著性检验步骤提出假设

H0:线性关系不显著

计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F作出决策:若FF,拒绝H0;若F<F,接受H0回归方程的显著性检验步骤提出假设计算检验统计量F确定显著性回归方程的方差分析表变异来源SS自由度MSF总SSTN-1MSR/MSE回归SSR1MSR残差SSEN-2MSE回归方程的方差分析表变异来源SS自由度MSF总SSTN-回归系数的显著性检验在一元线性回归中对回归系数的显著性检验与对回归方程的方差分析是等效的。检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著理论基础是回归系数的抽样分布回归系数的显著性检验样本统计量的分布

是根据最小二乘法求出的样本统计量,它有自己的分布,具有如下性质分布形式:正态分布数学期望:标准差:由于未知,需用其估计量Sy来代替得到的估计的标准差样本统计量的分布是根据最小二乘法求出的样本统计量,回归系数的显著性检验(步骤)提出假设H0:b1=0(没有线性关系)H1:b1

0(有线性关系)计算检验的统计量确定显著性水平,并进行决策t>t,拒绝H0

;t<t,接受H0回归系数的显著性检验(步骤)提出假设回归方法简介进入法删除法前进法(step-up,forward-entryprocedure)

后退法(step-down,backward-eliminationprocedure)

逐步回归法(Stepwise)回归方法简介进入法回归方法进入法:是SPSS回归的默认状态。这种方法将用户定义的所有自变量一次全部纳入回归删除法:将全部自变量一次从回归中删除。回归方法进入法:是SPSS回归的默认状态。这种方法将用户定义向前回归法的基本思想选定一个标准。开始方程中没有自变量(常数项除外)按自变量对y的贡献大小由大到小依次挑选进入方程。(假设检验的P值越小贡献越大)每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。直到方程外变量均达不到入选标准,没有自变量可被引入方程为止。向前回归法的基本思想选定一个标准。向后回归法的基本思想选定一个标准开始所有变量均在方程中按自变量对y的贡献大小由小到大依次剔除变量。每剔除一个变量,则重新计算方程内各自变量对y的贡献。直到方程内变量均达到入选标准,没有自变量可被剔除为止。向后回归法的基本思想选定一个标准逐步回归的策略先选择P值较大(0.9),用逐步向前法剔选变量。看哪个变量先进入方程;每个变量进入方程时的P值;哪个变量先进入方程后又被剔除。再选择P值较小(0.001),用逐步向后法逐个剔除变量。看哪个变量先被剔除方程;每个变量被剔除时的P值;哪个变量先被剔除后又被选入。根据上述结果选择几个不同的界值,再用逐步向前法和逐步向后法分别观察变量进出方程的情况。直至所得方程能得到合理的解释为止。逐步回归的策略先选择P值较大(0.9),用逐步向前法剔选变量回归系数反常的原因数据中有离群值或异常数据;自变量的观察范围太窄,或方差太小;样本含量不够,或自变量数太多;自变量间存在复共线性(multicollinearity)。回归系数反常的原因数据中有离群值或异常数据;线性回归分析的基本操作(1)选择菜单Analyze-Regression-Linear,出现窗口:线性回归分析的基本操作(2)选择被解释变量进入Dependent框。(3)选择一个或多个解释变量进入Independent(s)框。(4)在Method框中选择回归分析中解释变量的筛选策略。其中Enter表示所选变量强行进入回归方程,是SPSS默认的策略,通常用在一元线性回归分析中;Remove表示从回归方程中剔除所选变量;Stepwise表示逐步筛选策略;Backward表示向后筛选策略;Forward表示向前筛选策略。(2)选择被解释变量进入Dependent框。线性回归分析的其他操作1、Statistics按钮,出现的窗口可供用户选择更多的输出统计量。线性回归分析的其他操作(1)Estimates:SPSS默认输出项,输出与回归系数相关的统计量。包括回归系数(偏回归系数)、回归系数标准误差、标准化回归系数、回归系数显著性检验的t统计量和概率p值,各解释变量的容忍度。(2)ConfidenceIntervals:输出每个非标准化回归系数95%的置信区间。(3)Descriptive:输出各解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率p值。(1)Estimates:SPSS默认输出项,输出与回归系数(4)Modelfit:SPSS默认输出项,输出判定系数、调整的判定系数、回归方程的标准误差、回归方程显著F检验的方程分析表。(5)Rsquaredchange:输出每个解释变量进入方程后引起的判定系数的变化量和F值的变化量。(6)Partandpartialcorrelation:输出方程中各解释变量与被解释变量之间的简单相关、偏相关系数。(4)Modelfit:SPSS默认输出项,输出判定系数、(7)Covariancematrix:输出方程中各解释变量间的相关系数、协方差以及各回归系数的方差。(8)CollinearityDiagnostics

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论