简单线性相关(一元线性回归分析)_第1页
简单线性相关(一元线性回归分析)_第2页
简单线性相关(一元线性回归分析)_第3页
简单线性相关(一元线性回归分析)_第4页
简单线性相关(一元线性回归分析)_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十三讲 简单线性相关(一元线性回归分析)对于两个或更多变量之间的关系,相关分析考虑的只是变量之间是否相关、相关的程度,而回归分析关心的问题是:变量之间的因果关系如何。回归分析是处理一个或多个自变量与因变量间线性因果关系的统计方法。如婚姻状况与子女生育数量,相关分析可以求出两者的相关强度以及是否具有统计学意义,但不对谁决定谁作出预设,即可以相互解释,回归分析则必须预先假定谁是因谁是果,谁明确谁为因与谁为果的前提下展开进一步的分析。一、一元线性回归模型及其对变量的要求(一)一元线性回归模型 1、一元线性回归模型示例两个变量之间的真实关系一般可以用以下方程来表示: Y=A + BX + 方程中的A

2、 、B是待定的常数,称为模型系数,是残差,是以X预测Y产生的误差。两个变量之间拟合的直线是:是 y的拟合值或预测值,它是在X条件下Y条件均值的估计a 、b是回归直线的系数,是总体真实直线A、B的估计值,a即 constant是截距,当自变量的值为0时,因变量的值。 b称为回归系数,指在其他所有的因素不变时,每一单位自变量的变化引起的因变量的变化。 可以对回归方程进行标准化,得到标准回归方程:为标准回归系数,表示其他变量不变时,自变量变化一个标准差单位(),因变量Y的标准差的平均变化。由于标准化消除了原来自变量不同的测量单位,标准回归系数之间是可以比较的,绝对值的大小代表了对因变量作用的大小,反

3、映自变量对Y的重要性。(二)对变量的要求:回归分析的假定条件回归分析对变量的要求是:自变量可以是随机变量,也可以是非随机变量。自变量X值的测量可以认为是没有误差的,或者说误差可以忽略不计。回归分析对于因变量有较多的要求,这些要求与其它的因素一起,构成了回归分析的基本条件:独立、线性、正态、等方差。(三)数据要求模型中要求一个因变量,一个或多个自变量(一元时为1个自变量)。因变量:要求间距测度,即定距变量。自变量:间距测度(或虚拟变量)。二、在对话框中做一元线性回归模型例1:试用一元线性回归模型,分析大专及以上人口占6岁及以上人口的比例(edudazh)与人均国内生产总值(agdp)之间的关系。

4、本例使用的数据为st2004.sav,操作步骤及其解释如下:(一)对两个变量进行描述性分析在进行回归分析以前,一个比较好的习惯是看一下两个变量的均值、标准差、最大值、最小值和正态分布情况,观察数据的质量、缺少值和异常值等,缺少值和异常值经常对线性回归分析产生重要影响。最简单的,我们可以先做出散点图,观察变量之间的趋势及其特征。通过散点图,考察是否存在线性关系,如果不是,看是否通过变量处理使得能够进行回归分析。如果进行了变量转换,那么应当重新绘制散点图,以确保在变量转换以后,线性趋势依然存在。打开st2004.sav数据 单击Graphs Scatter 打开Scatterplot对话框 单击S

5、imple 单击 Define 打开 Simple Scatterplot对话框 点选 agdp到 Y Axis框 点选 edudazh到 X Aaxis框内 单击 OK按钮 在SPSS的Output窗口输出所需图形。图121 大专及以上人口占6岁及以上人口比例与人均国内生产总值的散点图判断:线性趋势较明显。(二)SPSS线性回归主对话框介绍 打开线性回归主对话框的操作方法是: 在st2004.sav数据界面上 单击Analyze RegressionLinear打开Linear Regression主对话框 图122 Linear Regression 命令位置 图123 Linear Re

6、gression主对话框 Linear Regression 主对话框的功能有:1、选择因变量Dependent框:放置因变量,一次只能放一个因变量。本例点选agdp进入Dependent框。2、选择自变量Independent框: 放置自变量,可以放置多个自变量。本例点选edudazh进入Independent框。3、对自变量进行分组Block按钮组:由Previous 和Next两个按钮组成,用来对自变量框中的自变量进行分组,在多元回归时会用到。4、变量进入方式Method框:Enter: 一元回归时,只选择这种方法,强行进入。所有变量依次进入。Stepwise: 逐步回归,将所有满足条件

7、的都进入方程,不满足的剔除。Remove: 强行移出法,这一方法必须在这一组自变量在前面一步已经纳入到回归时才用,否则没有可以剔除的。Backward:自后消除法,将满足剔除标准的剔除Forward:向前加入法,所有满足进入回归方程的变量都可以进入。在一元回归时,只用Enter即可。本例选择变量进入的方式为Enter。5、选择筛选变量Selection Variable框:选入一个筛选变量,并利用右侧的Rules建立条件,这样,只有满足这个条件的记录才会进入回归分析, 当然,我们也可以用Data菜单中的Select Case过程来做,效果相同。6、个案标签Case Labels 选择一个变量,

8、其取值作为每条记录的标签,最典型的是使用记录ID个案号的变量 。7、加权最小二乘法计算WLS Weight框;利用该按钮可进行加权最小二乘法的计算。选入权重变量进入该框即可。使用条件:当应变量的变异程度具有某种趋势,即不是等方差时,通过加权,进行分析,是一种有偏估计。8、选择统计量Statistics框:可以选择回归系数、残差诊断、模型拟合度等多种回归分析非常重要的统计量,在下文将详细介绍。9、输出图形Plots框:可输出多种用于检验回归分析假定条件的图形,在下文将将详细介绍。10、保存回归分析结果Save框:可以把回归分析的结果存起来,然后用得到的残差、预测值等做进一步的分析。单击图123中

9、的Save按钮,打开Linear Regression的Save对话框(见图124),研究者可以根据自己的需要进行选择。图124 Linear Regression的Save对话框图124中:可以保持的回归分析结果主要有:Predicated values:各种预测值.Unstandardized 保存模型对因变量的原始预测值.Standardized: 保存进行标准化后的预测值,均数0,方差1.Adjusted: 保存调整后的残差。S.E. of mean predictions: 保存预测值的标准差.Residuals:残差。Unstandardized : 保存非标准化的残差,Stand

10、ardized: 保存进行标准化后的残差Studentlized: 保存学生化残差Deleted: 它保存被排除进入相关系数计算的观察量的残差,是因变量与预测值之间的差值, 通过它可以发现可疑的强影响点Studentlized Deleted: 对上一个预测值进行t变换Distances: 用来测量数据点离拟合模型距离的指标Mahalanobis: 个案值离样本平均值的距离,如果某个个案多个自变量出现大的这种距离,可以认为它是离群值Cooks 表示去除这个个案后,模型的残差会发生多大的变化,一般认为如果这个值大于1,则有离群值或强影响点Leverage values: 用来测量数据点的影响强度

11、,如中心杠杠值的变动范围是0(N-1)/NInfluence statistics:用来判断强影响点的统计量DfBeta : Difference in Beta 去除某个观测值后回归系数的变化standardized DfBeta 标准化的DfBeta 值,当它大于1/Sqrt(N)时,该点为强影响点,DfFit. : Difference in fit value 去除这个观测值后预测值的变化值Covariance ratio 去除这个观测值后,斜方差阵与包含全部观测值的斜方差阵的比率,如果绝对值大于3*P/N, 这个观测值为强影响点或离群值。11、置信水平和缺少值处理方式选择 Optio

12、ns框:当自变量进入方式采取逐步回归时,打开Options对话框可以设定选择变量进入的和剔除的条件。可以对缺少值的处理方式进行选择。(三)回归分析统计量选择单击图123中的Statistics按钮,打开一个Linear Regression的Statistics对话框(见图125),研究者可以根据自己的需要进行选择。图125 Linear Regression的Statistics对话框1、回归系数及其基本含义图125中的Regression Coefficients,提供了关于回归系数的三种选项。Estimates选项:点选后可输出回归方程中关于回归系数的基本情况,输出的数值有:B值、 Be

13、ta、 t值、t值的双尾检验。来看例1关于“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程的回归系数(见表121)。2、置信区间 点选图125中的Confidence intervals ,可以求得回归系数的95%置信区间,在置信度95%时,置信区间为: 式中为样本标准差,为回归系数。来看例1关于“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程的回归系数(见表122)。 表132给出了回归系数B的95的置信区间,置信区间的下限为1593.071,上限为2849.639。 3、模型拟合度 点选图125中的 Model Fit ,可以输出对模型拟合度进行评价

14、的统计量。模型拟合统计量主要有:R、 RRsquare、 R adj 。这些值主要用来判断模型的拟合度或解释力怎么样。表133和表134为“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程模型的拟合度统计量。 (1)相关系数 R表133中的相关系数R0.802,反映了真实数据与回归直线靠近的程度,直接反映了一元线性回归或多元性回归预测效果的好坏程度。(2)判定系数 R Square R Square 也叫判定系数或确定系数(Coefficient of Determination ),它等于(总平方和- 余差平方和)/总平方和总平方和(Total Sum of Square)

15、的计算公式是;TSS= 表示观察值围绕均值的情况,表示总的分散程度。TSS相当于PRE中的E1,因为当不知道自变量 x和因变量y有关系时,对因变量的最好的估计就是因变量的均值,而每一个真实的因变量的观察值和因变量的均值的差,就构成了每次估计的误差。回归平方和(Regression Sum of Square)为回归方程能够解释因变量Y变化的部分,其计算公式为:RSS= 式中:= a+ bxRSS反映了因变量Y的观察值偏离回归直线的程度,相当于PRE中的E2,也就是知道Y与X有关系以后,估计Y值时产生的总误差。余差平方和(Error Sum of Square)为回归直线不能解释因变量Y变化的部

16、分,是不可解释的残差。TSS(总平方和)ESS(回归直线未能解释的误差 )=RSS(通过回归直线被解释掉的误差。 R Square =(TSS-ESS)/TSS R Square越大,说明被解释掉的误差越大,说明模型拟合度越好,从而可以反映出自变量对回归模型的贡献,其解释能力越强。本例的 R Square为0.643,表示模型的拟合度为64.3%,或者说当仅以大专及以上人口占6岁及以上人口比例与人均国内生产总值来建构线性回归模型时,自变量大专及以上人口占6岁及以上人口比例能够解释掉64.3的人均国内生产总值的差异。(3)修正的R平方Adjusted R Square 为修正的判定系数。 随着自

17、变量个数的增加,剩余平方和逐渐减少,R平方也随之增大,所以R平方是一个受自变量的个数与样本规模的比例影响很大的系数。一般当自变量与样本规模的比例是1:10 以上比较好,当这个比值小于1:5时,R平方会高估实际的拟合优度,为了避免这种情况的出现,就用调整的Adjusted R Square代替R Square。修正的R平方的计算公式为: 当样本数量远远大于自变量的个数时,调整的R平方就非常接近R平方。本例修正的R平方为0.631,比 R Square(0.643)略小。(4)回归方程的检验 表123 回归方差分析表来源自由度df平方和sum of square均方和mean squareF值显著

18、水平Sig .回归RegressionKRSSRSS/K余差Residualn- k 1ESSESS/(NK -1)总n - 1TSSF检验的假设是:原假设:自变量与因变量之间无线性相关,各个回归系数相等。也就是能否肯定总体回归系数中至少有一个不等于0。研究假设:自变量与因变量之间存在线性相关,是至少有一个回归系数不等于0。如果接受原假设,那么自变量与因变量之间的线性关系就不显著,如果拒绝原假设,接受研究假设,那么自变量与因变量之间存在线性关系。如果计算的显著性小于,(事先确定的标准,社会科学研究中通常取0.05或0.01),则拒绝原假设,接受研究假设。表134 为大专及以上人口占6岁及以上人

19、口比例与人均国内生产总值线性回归模型的方差分析表,模型的回归平方和为2188940608.45,自由度为1,回归均方和为2188940608.45。余差平方和为1214014234.91,自由度为29,余差均方和为41862559.82。F值52.2892188940608/41862559.82,F的显著性Sig.000,小于5%,所以,本例的模型拟合度R Square具有统计学意义。(四)回归分析假定条件的检查1、正态分布检查 一般用标准化误差直方图、标准化误差正态概率散点图、标准化误差和标准化预测值的散点图来对正态分布进行检查。操作方法:第一步:单击图123中的Plots 打开Regre

20、ssion Linear:Plots作图对话框。图126 Regression Linear:Plots作图对话框第二步:点选*ZRESID(标准化误差频数)到框(设为纵坐标) 点选*ZPRED(标准化误差)到(设为横坐标)。第三步:单击 *ZRESID(标准化误差频数)到框(设为纵坐标) 点选*SRESID到(设为横坐标) 点选 Histogram(即要求输出残差统计量的正态分布图) 点选 Normal probability plot(即要求输出标准残差正态分布图) 单击Continue 返回Linear Regression对话框 单击OK 输出图形(见图12-7和图128)图137是标准化误差正态概率散点图,如果总体误差项服从正态分布,则散点将完全落在由原点出发的参照线上,横坐标0.5代表误差由负到正的分界点,即这一点代表误差为0的情况,由这点向左侧延伸代表负误差值越来越大,由这点向右侧延伸代表正误差值越来越大。显然,本例总体误差项并不完全服从正态分布,因为有一部分散点远离了参照线。图138为标准化误差直方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论