简单线性相关(一元线性回归分析)_第1页
简单线性相关(一元线性回归分析)_第2页
简单线性相关(一元线性回归分析)_第3页
简单线性相关(一元线性回归分析)_第4页
简单线性相关(一元线性回归分析)_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十三讲第十三讲简单线性相关(一元线性回归分析)对于两个或更多变量之间的关系,相关分析考虑的只是变量之间是否相关、相关的程度,而回归分析关心的问题是:变量之间的因果关系如何。回归分析是处理一个或多个自变量与因变量间线性因果关系的统计方法。如婚姻状况与子女生育数量,相关分析可以求出两者的相关强度以及是否具有统计学意义,但不对谁决定谁作出预设,即可以相互解释,回归分析则必须预先假定谁是因谁是果,谁明确谁为因与谁为果的前提下展开进一步的分析。一、一元线性回归模型及其对变量的要求(一)一元线性回归模型1、一元线性回归模型示例两个变量之间的真实关系一般可以用以下方程来表示:Y=A+BX+:方程中的A、B是待定的常数,称为模型系数,,是残差,是以X预测Y产生的误差。两个变量之间拟合的直线是:y二abxy是y的拟合值或预测值,它是在X条件下Y条件均值的估计a、b是回归直线的系数,是总体真实直线A、B的估计值,a即constant是截距,当自变量的值为0时,因变量的值。b称为回归系数,指在其他所有的因素不变时,每一单位自变量的变化引起的因变量的变化。UOV(兀F)-疋歹)-N工AT-(EX)(工X)var(AF)-》(X-初丄~N》X2-X)2可以对回归方程进行标准化,得到标准回归方程:y二■-x-■为标准回归系数,表示其他变量不变时,自变量变化一个标准差单位X去一、(Zj-j),因变量Y的标准差的平均变化。由于标准化消除了原来自变量不同的测量单位,标准回归系数之间是可以比较的,绝对值的大小代表了对因变量作用的大小,反映自变量对Y的重要性。(二)对变量的要求:回归分析的假定条件回归分析对变量的要求是:自变量可以是随机变量,也可以是非随机变量。自变量X值的测量可以认为是没有误差的,或者说误差可以忽略不计。回归分析对于因变量有较多的要求,这些要求与其它的因素一起,构成了回归分析的基本条件:独立、线性、正态、等方差。(三)数据要求模型中要求一个因变量,一个或多个自变量(一元时为1个自变量)。因变量:要求间距测度,即定距变量。自变量:间距测度(或虚拟变量)。二、在对话框中做一元线性回归模型例1:试用一元线性回归模型,分析大专及以上人口占6岁及以上人口的比例(edudazh)与人均国内生产总值(agdp)之间的关系。本例使用的数据为st2004.sav,操作步骤及其解释如下:(一)对两个变量进行描述性分析在进行回归分析以前,一个比较好的习惯是看一下两个变量的均值、标准差、最大值、最小值和正态分布情况,观察数据的质量、缺少值和异常值等,缺少值和异常值经常对线性回归分析产生重要影响。最简单的,我们可以先做出散点图,观察变量之间的趋势及其特征。通过散点图,考察是否存在线性关系,如果不是,看是否通过变量处理使得能够进行回归分析。如果进行了变量转换,那么应当重新绘制散点图,以确保在变量转换以后,线性趋势依然存在。打开st2004.sav数据f单击GraphsfScatterf打开Scatterplot对话框f单击Simplef单击Definef打开SimpleScatterplot对话框f点选agdp到YAxis框f点选edudazh至I」XAaxis框内f单击OK按钮f在SPSS的Output窗口输出所需图形。图12-1大专及以上人口占6岁及以上人口比例与人均国内生产总值的散点图60000.002004年人均国内生产总值(50000.0040000.0030000.0020000.0010000.000.000.005.0010.002004年大专及以上人口占615.0020.00岁及以上人口的比例%60000.002004年人均国内生产总值(50000.0040000.0030000.0020000.0010000.000.000.005.0010.002004年大专及以上人口占615.0020.00岁及以上人口的比例%主对话框判断:线性趋势较明显。(二)SPSS线性回归主对话框介绍打开线性回归主对话框的操作方法是:在st2004.sav数据界面上单击AnalyzefRegression—Linearf打开LinearRegression主对话框图12—2LinearRegression命令位置图12一3LinearRegression•⑥地区棗别(dqT3仝La]省[dq]®20D轩衣:M屈民宦念•⑥地区棗别(dqT3仝La]省[dq]®20D轩衣:M屈民宦念2004^®内绘产爲熔>初04年篇_产业匡弗200牟丰集二?爲200歼瞬箱居民鼻⑥2004年腐地严幵军燔>200呻商品長电&£@购0^年城13届KS<g>20。碎农杓厉民果念20□碎文肓半文誉20関丰窓业产值己禽200坪第三产业产④20。碎非农业舞念204供识字第i[r•姿2004年丸寺耳以」念20町舛蛀SIS生出<$>平均预Mfi弟命2口02Block1oJYJI[ndwgndtnt[frt②23Gt年丈驾曲UL上X口占it>irIJI、Method=・M1Iu~匕nt&r*汀直目愛星导昼好ggVsFi^e;2E芽吕土:E芸入方式谨tr加权最小一乘法Mi+Mk:liFI一一居笛就1混存回归分靳结果置信水平和缺少值雉理:芳式LinearRegression1、选择因变量主对话框的功能有:agdp进入Dependentagdp进入Dependent框。2、选择自变量Independent框:放置自变量,可以放置多个自变量。本例点选edudazh进入Independent框。3、对自变量进行分组Block按钮组:由Previous和Next两个按钮组成,用来对自变量框中的自变量进行分组,在多元回归时会用到。4、变量进入方式Method框:Enter:一元回归时,只选择这种方法,强行进入。所有变量依次进入。Stepwise:逐步回归,将所有满足条件的都进入方程,不满足的剔除。Remove:强行移出法,这一方法必须在这一组自变量在前面一步已经纳入到回归时才用,否则没有可以剔除的。Backward:自后消除法,将满足剔除标准的剔除Forward:向前加入法,所有满足进入回归方程的变量都可以进入。在一元回归时,只用Enter即可。本例选择变量进入的方式为Enter。5、选择筛选变量SelectionVariable框:选入一个筛选变量,并利用右侧的Rules建立条件这样,只有满足这个条件的记录才会进入回归分析,当然,我们也可以用Data菜单中的SelectCase过程来做,效果相同。6、个案标签CaseLabels选择一个变量,其取值作为每条记录的标签,最典型的是使用记录ID个案号的变量。7、加权最小二乘法计算WLSWeight框;利用该按钮可进行加权最小二乘法的计算。选入权重变量进入该框即可。使用条件:当应变量的变异程度具有某种趋势,即不是等方差时,通过加权,进行分析,是一种有偏估计。8、选择统计量Statistics框:可以选择回归系数、残差诊断、模型拟合度等多种回归分析非常重要的统计量,在下文将详细介绍。9、输出图形Plots框:可输出多种用于检验回归分析假定条件的图形,在下文将将详细介绍。10、保存回归分析结果Save框:可以把回归分析的结果存起来,然后用得到的残差、预测值等做进一步的分析。单击图12-3中的Save按钮,打开LinearRegression的Save对话框(见图12-4),研究者可以根据自己的需要进行选择。图12-4LinearRegression的Save对话框图12—4中:可以保持的回归分析结果主要有:Predicatedvalues:各种预测值・Unstandardized保存模型对因变量的原始预测值・Standardized:保存进行标准化后的预测值,均数0,方差1.Adjusted:保存调整后的残差。S.E.#ofmeanpredictions:保存预测值的标准差・Residuals:残差。Unstandardized:保存非标准化的残差,Standardized:保存进行标准化后的残差Studentlized:保存学生化残差Deleted:它保存被排除进入相关系数计算的观察量的残差,是因变量与预测值之间的差值,通过它可以发现可疑的强影响点StudentlizedDeleted:对上一个预测值进行t变换Distances:用来测量数据点离拟合模型距离的指标#Mahalanobis:个案值离样本平均值的距离,如果某个个案多个自变量出现大的这种距离,可以认为它是离群值#Cook's表示去除这个个案后,模型的残差会发生多大的变化,一般认为如果这个值大于1,则有离群值或强影响点#Leveragevalues:用来测量数据点的影响强度,如中心杠杠值的变动范围是0(N-1)/NInfluencestatistics:用来判断强影响点的统计量DfBeta:DifferenceinBeta去除某个观测值后回归系数的变化standardizedDfBeta标准化的DfBeta值,当它大于l/Sqrt(N)时,该点为强影响点,DfFit.:Differenceinfitvalue去除这个观测值后预测值的变化值Covarianceratio去除这个观测值后,斜方差阵与包含全部观测值的斜方差阵的比率,如果绝对值大于3*P/N,这个观测值为强影响点或离群值。11、置信水平和缺少值处理方式选择Options框:当自变量进入方式采取逐步回归时,打开Options对话框可以设定选择变量进入的和剔除的条件。可以对缺少值的处理方式进行选择。(三)回归分析统计量选择单击图12—3中的Statistics按钮,打开一个LinearRegression的Statistics对话框(见图12—5),研究者可以根据自己的需要进行选择。图12—5LinearRegression的Statistics对话框1、回归系数及其基本含义图12—5中的RegressionCoefficients,提供了关于回归系数的三种选项。Estimates选项:点选后可输出回归方程中关于回归系数的基本情况,输出的数值有:B值、Beta、t值、t值的双尾检验。来看例1关于“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程的回归系数(见表12—1)o表表13—3ModelSummary表表13—3ModelSummary表表13—1CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)2004年大专及以218.5672241.576.098.923上人口占6岁及以上人口的比例%2221.355307.195.8027.231.000a.DependentVariable:2004年人均国内生产总值(元)2、置信区间,可以求得回归系数的95%置信区点选图12—5中的Confidenceintervals,可以求得回归系数的95%置信区间,在置信度95%时,置信区间为:bjt/2s.,b.*・t/2s.式中Sj为样本标准差,bj为回归系数。来看例1关于“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程的回归系数(见表12—2)。ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.95%ConfidenceIntervalforBBStd.ErrorBetaLowerBoundUpperBound1(Constant)2004年大专及以218.62241.576.098.923-4365.9714803.105上人口占6岁及以上人口的比例%2221307.195.8027.231.0001593.0712849.639表13—2回归系数及置信区间aa.DependentVariable:2004年人均国内生产总值(元)表13—2给出了回归系数B的95%的置信区间,置信区间的下限为1593.071上限为2849.639。3、模型拟合度点选图12—5中的ModelFit,可以输出对模型拟合度进行评价的统计量。模型拟合统计量主要有:R、RRsquare、Radj。这些值主要用来判断模型的拟合度或解释力怎么样。表13—3和表13—4为“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程模型的拟合度统计量。

ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.802a.643.6316470.12827Predict。rs:(Constant),2004年大专及以上人口占6岁及以上人口的比例%表13—4ANOVAbModelSumofSquaresdfMeanSquareFSig.1Regression2188940608.451218894060852.289.000aResidual1214014234.912941862559.82Total3402954843.3630Predictors:(Constant),2004年大专及以上人口占6岁及以上人口的比例%DependentVariable:2004年人均国内生产总值(元)(1)相关系数R表13—3中的相关系数R=0.802,反映了真实数据与回归直线靠近的程度,直接反映了一元线性回归或多元性回归预测效果的好坏程度。_5”再力Q-(工秋工Y)Jv诚T)Jvar(门(2)判定系数RSquareRSquare也叫判定系数或确定系数(CoefficientofDetermination),它等于(总平方和-余差平方和)/总平方和总平方和(TotalSumofSquare)的计算公式是;2TSS=(yy)表示观察值围绕均值的情况,表示总的分散程度。TSS相当于PRE中的E1,因为当不知道自变量x和因变量y有关系时,对因变量的最好的估计就是因变量的均值,而每一个真实的因变量的观察值和因变量的均值的差,就构成了每次估计的误差。回归平方和(RegressionSumofSquare)为回归方程能够解释因变量Y变化的部分,其计算公式为:RSS=、(y_y)2式中:y=a+bxyi=abxiRSS反映了因变量Y的观察值偏离回归直线的程度,相当于PRE中的E2,也就是知道Y与X有关系以后,估计Y值时产生的总误差。ESS(y-y)2-余差平方和(ErrorSumofSquare)为回归直线不能解释因变量Y变化的部分,是不可解释的残差。TSS(总平方和)一ESS(回归直线未能解释的误差)=RSS(通过回归直线被解释掉的误差。RSquare=(TSS-ESS)/TSSRSquare越大,说明被解释掉的误差越大,说明模型拟合度越好,从而可以反映出自变量对回归模型的贡献,其解释能力越强。本例的RSquare为0.643,表示模型的拟合度为64.3%,或者说当仅以大专及以上人口占6岁及以上人口比例与人均国内生产总值来建构线性回归模型时,自变量大专及以上人口占6岁及以上人口比例能够解释掉64.3%的人均国内生产总值的差异。(3)修正的R平方AdjustedRSquare为修正的判定系数。随着自变量个数的增加,剩余平方和逐渐减少,R平方也随之增大,所以R平方是一个受自变量的个数与样本规模的比例影响很大的系数。一般当自变量与样本规模的比例是1:10以上比较好,当这个比值小于1:5时,R平方会高估实际的拟合优度,为了避免这种情况的出现,就用调整的AdjustedRSquare代替RSquare。修正的R平方的计算公式为:Radj2二R2_^k_(1R2)]L厂1(LR2)Qk—1n~1当样本数量远远大于自变量的个数时,调整的R平方就非常接近例R平方。本修正的R平方为0.631,比RSquare(0.643)略小。(4)回归方程的检验表12—3回归方差分析表来源自由度df平方和sumofsquare均方和meansquareF值显著水平Sig.

回归RegressionKRSSRSS/KRSS/KaESS/(NKi)余差Residualn-k-1ESSESS/(N-K-1)总n-1TSSObservedCumProbObservedCumProbF检验的假设是:原假设:自变量与因变量之间无线性相关,各个回归系数相等。也就是能否肯定总体回归系数中至少有一个不等于0。研究假设:自变量与因变量之间存在线性相关,是至少有一个回归系数不等于0。如果接受原假设,那么自变量与因变量之间的线性关系就不显著,如果拒绝原假设,接受研究假设,那么自变量与因变量之间存在线性关系。如果计算的显著性小于(,事先确定的标准,社会科学研究中通常取0.05或0.01),则拒绝原假设,接受研究假设。表13-4为大专及以上人口占6岁及以上人口比例与人均国内生产总值线性回归模型的方差分析表,模型的回归平方和为2188940608.45,自由度为1,回归均方和为2188940608.45。余差平方和为1214014234.91,自由度为29,余差均方和为41862559.82。F值=52.289=2188940608/41862559.82,F的显著性Sig.=.000,小于5%,所以,本例的模型拟合度RSquare具有统计学意义。(四)回归分析假定条件的检查1、正态分布检查一般用标准化误差直方图、标准化误差正态概率散点图、标准化误差和标准化预测值的散点图来对正态分布进行检查。操作方法:第一步:单击图12一3中的Plots,—打开RegressionLinear:Plots作图对话框。图12一6RegressionLinear:Plots作图对话框SWHH''^ZRESIDCancelLinearRegression:PlotDEPEWDHT»iik迦RED土Cancel魅正后歿埜SkDJPREDSWHH''^ZRESIDCancelLinearRegression:PlotDEPEWDHT»iik迦RED土Cancel魅正后歿埜SkDJPRED書RESID:SDRE5tDfroduceallpartialpbhSt^ndardt^edRe'Sidu^EPlotwCorMiiWVHislogram两Normalprobabilityplot第二步:点选*ZRESID(标准化误差频数)到*框(设为纵坐标)f点选第三步:单击*ZPRED(标准化误差)到”(设为横坐标)。第三步:单击f*ZRESID(标准化误差频数)至『:框(设为纵坐标)f点选*SRESID到Y:(设为横坐标)f点选Histogram(即要求输出残差统计量的正态分布图)f点选Normalprobabilityplot(即要求输出标准残差正态分布图)f单击Continuef返回LinearRegression对话框f单击OKf输出图形(见图12-7和图12—8)图13—7NormalP-PPlotofRegressionStandardizedResidual(标准化误差正态概率散点图)DependentVariable:2004年人均国内生产总值(元)1.0borpmucdcepxE0.80.60.40.20.00.60.8borpmucdcepxE0.80.60.40.20.00.60.80.00.20.41.0图13—7是标准化误差正态概率散点图,如果总体误差项服从正态分布,则散点将完全落在由原点出发的参照线上,横坐标0.5代表误差由负到正的分界点,即这一点代表误差为0的情况,由这点向左侧延伸代表负误差值越来越大,由这点向右侧延伸代表正误差值越来越大。显然,本例总体误差项并不完全服从正态分布,因为有一部分散点远离了参照线。图13—8Histogram(标准化误差直方图)RegressionStandardizedResidualDependentVariable:2004年人均国内生产总值(元)RegressionStandardizedResidualMean=-3.73E-16Std.Dev.=0.983N=31图13—8为标准化误差直方图,图中显示均值为一3.73-16标准差为0.983,可见并不完全符合标准正态分布。3、均方差性的检查可以用标准化误差正态概率散点图来对均方差性进行检验。如果均方差性存在,则横轴上方各散点的纵向分布宽度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论