第四讲线性回归演示文稿_第1页
第四讲线性回归演示文稿_第2页
第四讲线性回归演示文稿_第3页
第四讲线性回归演示文稿_第4页
第四讲线性回归演示文稿_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四讲线性回归演示文稿当前1页,总共63页。(优选)第四讲线性回归当前2页,总共63页。导论统计分析:根据统计数据提供的资料,揭示变量之间的关系,并由此推演为事物之间内在联系的规律性当前3页,总共63页。为什么学习回归分析回归分析探讨客观事物之间的联系,表现为变量之间的统计关系建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在看起来不确定的现象中的统计规律的统计方法因因变量衡量方式的不同,回归分析可分为线性回归和非线性回归线性回归适用于因变量为连续衡量的场合非线性回归多适用于因变量为虚拟变量、多分类变量、计数变量等场合即便在这两大类中,分析方法又可区分为许多不同的类型根据处理的变量多少来看,回归分析又分为:简单相关和一元回归:研究的是两个变量之间的关系多元相关或多元回归:研究的是多个变量之间的关系当前4页,总共63页。本章主要内容9.1.变量间的相关关系(correlation)9.2.线性回归概述9.3.一元线性回归9.4.多元线性回归当前5页,总共63页。9.1.变量间的相关关系(correlation)当前6页,总共63页。1、函数关系回归分析前,首先必须掌握变量之间是否相关;只有变量之间存在关系,才有必要进行回归分析假若x增加时,y的取值发生相应变化,则x和y之间是相关的假若x增加时,y的取值没有确定的变化,x则y和之间是不相关的,或是没有相关关系的变量之间的相关关系归纳起来可以分为两种:函数关系和统计关系当前7页,总共63页。2、统计相关现实事物之间的联系不像函数关系那样容易确定现象之间存在关联;但无法确定具体关系,不能像函数关系那样,用一个公式将它们的关系准确地描述出来;当一个变量取一定的值时,另一个变量可能有多个取值当一个变量的值不能由另一个变量的值唯一确定时,这种关系称为统计关系统计关系不如函数关系直接和明确;但通过对大量数据的观察和研究,就会发现许多变量之间确实存在着某种关联,强弱各不相同当前8页,总共63页。3、相关关系的特点双向变化关系;一个变量的取值不能由另一个变量的取值唯一确定;当x取一定的值时,y可能有多个取值,因为还受到其他因素的影响;不确定关系难以用函数关系来衡量和描述,但这并不表示x和y之间无规律可循;类似定性描述相关分为线性相关和非线性相关。当前9页,总共63页。4、相关分析对两(多)个变量之间的关系进行描述,分析它们是否相关关系是否密切关系的性质是什么(是正相关还是负相关)随着x的变化,y值的变化程度就确定二者是否相关和相关的强度当x增加(减少)时,y的取值也随之增加(减少),则x和y之间呈正相关关系;相反,当x增加(减少)时,y的取值却随之减少(增加),则和之间呈负相关关系相关分析的方法包括散点图和相关系数当前10页,总共63页。相关散点图(scatterplot)当前11页,总共63页。相关系数图形虽然直观,但不够精确;对散点图的视觉分析带有很大的主观性;需要更精确和更客观的度量;相关系数可准确地描述变量之间的线性相关程度;线性相关系数是衡量变量之间相关程度的统计量,是描述两变量线性关系强度及方向的数值;若相关系数是根据总体数据计算的,称为总体相关系数,记为ρ;若是根据样本计算出来的,则称为样本相关系数,记为r;在统计学中,一般用样本相关系数来推断总体相关系数。当前12页,总共63页。相关系数:性质与方向当前13页,总共63页。相关系数:程度根据经验,可以将相关程度分为几等:但这种解释必须建立在对相关系数进行显著性检验的基础之上。当前14页,总共63页。相关系数:其它特征当前15页,总共63页。相关系数的计算.correlate[变量名]

①②

①:.correlate也可写为corr,是生成变量之间相关系数矩阵、协相关矩阵、回归系数相关矩阵的基本命令;

②:需要生成相关关系的变量名称如:corrageeduweightheight若要给出相关系数(每个变量的上行)及其假定检验的P指,使用命令:pwcorr[变量名],sig

当前16页,总共63页。9.2.线性回归概述

“回归”一词来自英国学者、优生学的创始人S.F.Galton(1822-1911)。Galton在对遗传现象进行研究后发现,当高个的夫妻或矮个的夫妻有了孩子时,这些孩子的身高趋于回归到更典型的、同一性别的人的平均身高。当前17页,总共63页。1、回归分析通过找出代表变量之间关系的直线图形或直线方程来描述变量之间的数学关系这条直线称为回归直线;该直线方程称为回归方程。一元线性回归是回归分析中最简单、最基本的回归分析,描述两个变量之间的关系。它是根据统计资料,寻求一个变量与另一个变量关系的恰当数学表达式的经验方程,来近似地表示变量间的平均变化关系的一种统计分析方法:其中一个变量作为DV或被解释变量,通常用y表示;另一个变量IV(预测变量或解释变量)通常用x表示。当前18页,总共63页。2、相关分析与回归分析之别依存关系与平等关系。回归反映两个变量的依存关系,一个变量的改变引起另一个变量的变化,是一种单向的关系;其y变量称为因变量,被解释变量;在相关分析中,变量和变量处于平等地位:双向关系关系程度与影响大小。相关分析主要是刻画两类变量间线形相关的密切程度;而回归分析不仅要揭示自变量对因变量的影响大小,还可以由回归方程进行预测和控制。因此,回归是对两(多)个变量作定量描述,研究变量之间的数量关系,从已知的一个变量的取值预测另一个变量的取值,得到定量结果。当前19页,总共63页。3、回归分析的目的从一组样本数据出发,确定解释变量(IV)与被解释变量(DV)之间的数学关系式;回归方程就是要找出一条最好地描述两个变量之间关系的直线方程。对该关系式的可信程度进行各种统计检验;从影响DV的一组IV中找出哪些变量的影响是显著的,那些是不显著的。利用直线方程(即所求的关系),根据一个或几个变量的取值来估计或预测DV的取值,并给出这种估计或预测的置信度。预测是有规律的。如,利用汽车的速度来预测它刹车所需要的距离利用学生的中学成绩来预测考上大学的成功率精确的y值是不可预测的,靠近实际值。当前20页,总共63页。4、回归分析的用途用于研究一个IV对一个数值型DV在数量上的影响程度。设有两个变量,x,y,其中,y的取值随x取值的变化而变化,故y是DV,x是IV。对于这两个变量,通过观察或试验得到若干组数据,记为1,2,…,n)。若x以代表年龄,以y代表教育,则从散点图中,可以清楚地确认x与y存在线性关系当前21页,总共63页。线性回归模型:回归直线儿童的年龄与教育之间存在很强的正向相关关系线条就是回归直线(regressionline)如何将变量之间的相关关系用数学关系的代数表达式表达出来当前22页,总共63页。线性回归的理论模型等式(9.1)称为一元线性回归模型,描述因变量y如何依赖于自变量x和误差项e而异。在该模型中,y是x的线性函数(β0+β1x

部分)加上误差项e。其中,β0和β1是模型的未知参数,前者称为回归常数项(或截距,intercept);后者称为回归系数(coefficient);β0+β1x反映了由于x的变化而引起的y的变化,也称为边际变化(当变量x变化一个单位时,变量y改变的数量)e是被称为误差项的随机变量,代表因主观和客观原因而不可观测的随机误差,反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y的线性关系所揭示的变异性。(9.1)当前23页,总共63页。线性回归模型的基本假定(1)零均值,即。误差项是一个期望值=0的随机变量在自变量取一定值的条件下,其总体各误差项的条件平均值为0。这意味着,在等式(9.1)中,由于β0和β1都是常数或系数,故有因此,对于一个给定的x值,y的期望值为(2)等方差,即对于所有的x值,e的方差σ2都相同(3)误差项服从正态分布,且相互独立,即(9.2)当前24页,总共63页。总体回归方程(equation)(I)根据回归模型的假定,误差项的期望值为0;因此,y的期望值等于一元总体回归方程:

(9.4)(9.3)当前25页,总共63页。总体回归方程(II)当前26页,总共63页。(预测的)回归方程当前27页,总共63页。回归分析的三种检验F检验——用于检验回归方程的显著性R2——用于测度回归直线对观测数据的拟合程度;也称判定系数、可决系数(coefficientofdetermination)t检验——用于检验自变量回归系数的显著性当前28页,总共63页。regeduage当前29页,总共63页。上部分分为左右两个区域左边是方差分析。方差部分给出回归平方和(Model)、残差平方和(Residual),总平方和(Total),自由度(df),回归和残差的均方(MS)右边是回归统计量。包括检验统计量(F),F检验的显著水平(Prob>F),R2(R-square)(判定系数),AdjR-squared(调整后的R2),观测值的个数(即样本量),估计标准误差(RootMSE)下部分是参数估计的内容。包括回归方程截距(_cons)和斜率(Coef)的参数估计、标准误、t统计量,P值(P>|t|),置信区间([95%Conf.Interval])当前30页,总共63页。(1)判定系数R2:概念与计算对估计的回归方程拟合优度的度量,也就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判定回归方程对样本数据的代表程度;该指标是建立在对总离差(deviation)平方和进行分解的基础之上。显然,各样本观测点(散点)与样本回归直线靠得越紧,SSR/SST则越大,直线拟合得越好。将该比例定义为判定系数或可决系数,记为R2当前31页,总共63页。(1)判定系数R2:意义若所有观测值都落在回归直线上,则R2=1,拟合是完全的,模型具有完全解释能力;如果回归直线没有解释任何离差,则y的总离差全部归于残差平方和,即SST=SSE,R2=0,表示自变量x对因变量y的变异缺乏解释能力通常观测值都是部分地落在回归线上,即0<R2<1R2

越接近1,表明回归直线的拟合优度越好;反之,R2

越接近于0,则回归直线的拟合程度就越差。就上面的例子而言,判定系数的实际意义是,在教育水平取值的离差中,有将近86%可以由年龄与教育之间的线性关系来解释;即86%的差异是由孩子的年龄决定的——孩子年龄可以解释教育差异的86%。当前32页,总共63页。(2)F检验:概念对总体回归方程的显著性检验,是对因变量与所有自变量之间的线性关系是否显著的一种假设检验;回归分析的主要目的是,根据所建立的估计方程用自变量x来估计、预测因变量y的取值;当我们建立了估计方程后,还不能马上进行估计或预测,因为该估计方程是根据样本数据得出的,它是否真实地反映了变量x和y之间的关系,需要通过检验后才能证实;该检验利用方差分析的方法进行。F统计量定义为:平均的回归平方和与平均的残差平方和(均方误差)之比。当前33页,总共63页。(2)F检验:计算方法MSR(meansquareregression)即回归均方,等于回归平方和除以它的自由度;MSE(meansquareerror)即残差均方,等于残差平方和除以它的自由度;统计量F服从第一自由度为1,第二自由度为n-2的F分布。当前34页,总共63页。(2)F检验——步骤利用F统计量进行回归方程显著性检验的步骤如下:(1)提出假设:H0:

β1=0(两个变量之间的线性关系不明显)H1:β1≠0(两个变量之间存在显著的线性关系)若原假设成立,说明回归总体缺乏显著线性关系,反之表明回归总体存在显著的线性关系,即自变量x对y有显著的线性作用,解释变量总体系数不为零。(2)计算回归方程的F统计量值(3)根据给定的显著水平α确定临界值Fα(1,n-2),或计算F值对应的P值(4)做出判断。若F值大于临界值Fα(1,n-2)或p<α,拒绝原假设;否则,没有足够的理由拒绝原假设上面的例子中,F(1,1747)=10416.64,Prob>F=0.0000,有充分的理由拒绝原假设,教育与孩子年龄之间的线性关系是显著的当前35页,总共63页。(3)T检验——定义对回归系数显著性的检验,检验自变量对因变量的影响是否显著,也即是检验各解释变量的回归系数是否等于0;之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系数是否同时与0有显著差别,它不提供回归方程中的各自变量回归系数与因变量关系的显著性;在一元线性回归模型中,如果回归系数β1

=0,则回归线是一条水平线,表明因变量的取值不因自变量而异,即两个变量之间没有线性关系;如果回归系数β1≠0,也不能得出两个变量之间存在线性关系的结论。该结论依赖于这种关系是否具有统计意义上的显著性。当前36页,总共63页。(3)T检验——检验步骤(a)首先提出原假设和备择假设:H0:β1=0H1:β1≠0(b)计算回归系数t的统计量值(c)根据给定的显著水平α确定临界值,或计算t值所对应的P值(d)作出判断。若t值大于临界值或p<α,则拒绝原假设,表明自变量对因变量的影响是显著的;反之,则不能拒绝原假设,没有证据证明对y产生显著影响。在一元线性回归中,回归方程的显著性检验可以替代回归系数的显著性检验:方程只有一个自变量,F检验和t检验是等价的,且F=t2。如H0

被t检验拒绝,则也将被F检验拒绝。但在一般的多元回归条件下,两种检验要说明的问题不同、作用不同,故不能相互取代。当前37页,总共63页。标准误差(standarderrorofestimate)T值的计算公式:估计标准误差是对误差项的标准差σ2的估计。它可以被看作是在排除了x对y的线性影响后,y随机波动大小的一个估计量数值越小,回归直线的拟合优度越好在上面例子中,RootMSE=1.1912。表明在用年龄预测教育水平时,平均的预测误差1.19当前38页,总共63页。Stata回归分析的路径与方法Statistics–Linearmodelsandrelated–Linearregression窗口对话框当前39页,总共63页。9.3.一元线性回归当前40页,总共63页。一元线性回归命令.Regress因变量

自变量

,选择项

①②③④①:线性回归的命令参数②:模型的因变量③:模型的自变量④:选择项.regressheightage当前41页,总共63页。估计与预测求出回归方程后,可立即用该回归方程进行回归预测,并求出预测值的标准误、绘出95%的置信区间曲线在Stata中,所有关于回归方程的诊断和应用均构成单独的命令,需要在拟合完回归方程后才能使用计算预测值和残差的窗口路径:

Statistics–Postestimation–Prediction,residuals,etc.当前42页,总共63页。9.4.多元线性回归

(multipleregressionanalysis)

(multivariateanalysis)当前43页,总共63页。为什么进行多元回归分析一元线性回归是在不考虑其他因素或假定其他影响确定的条件下,分析一个自变量对另一个因素的影响,所进行的分析是比较理想的。但任何事物(因变量)总会受到其他多种因素(多个自变量)的作用;一元回归分析不能完整地揭示事物之间的真正联系;仅仅考虑单个变量是不够的;多元回归分析(multivariateanalysis):弥补不足,是分析多种因素共同作用于一个因变量的良好工具;只有采用多元回归分析方法,将多个因素同时进行考虑,才能更好地揭示事物之间的联系。当前44页,总共63页。多元线性回归分析研究在线性相关的条件下,两个或两个以上自变量与一个因变量的数量变化关系;表现这一数量关系的数学公式称为多元线性回归模型;多元线性回归模型是一元线性回归模型的拓展,其基本原理与一元线性回归模型类似,但计算上要复杂得多,故往往需要借助计算机来完成;当前45页,总共63页。多元线性回归模型设因变量为y,n个自变量分别为x1,x2,x3,……,xn描述因变量y如何依赖自变量和误差项而异的模型称为多元回归模型(multipleregressmodel):当前46页,总共63页。当前47页,总共63页。模型的假定与回归方程当前48页,总共63页。多元线性样本回归方程当前49页,总共63页。偏相关关系(partialcorrelation)(I).pwcorrhhwktotyrschincome,sig是否相关,关系程度,关系方向.graphmatrixhhwktotyrschincome注意图形(hhwktot与yrsch)的形状这是两两关系分析,不提供以下信息:当第三个因素考虑在内后,两两相关关系是否显著非线性关系回答该问题需要使用偏相关分析方法当前50页,总共63页。偏相关关系(II)当两个变量同时与第三个变量相关时,将第三个变量的影响剔除后,另外两个变量之间的相关程度工具:计算偏相关系数公式:如有x1,x2,x3三个变量;计算x1,x2只见的相关关系:当前51页,总共63页。偏相关关系(III)(obs=6097)PartialcorrelationofhhwktotwithVariable|Corr.Sig.-------------+------------------yrsch|-0.09080.000income|-0.27410.000-------------+------------------.corrhhwktotyrschincome异同比较(obs=6097)|hhwktotyrschincome--------+---------------------------hhwktot|1.0000yrsch|-0.21761.0000income|-0.33410.41871.0000.pcorrhhwktotyrschincome当前52页,总共63页。回归分析.regresshhwktotyrschincome,beta--------------------------------------------------------------hhwktot|Coef.Std.Err.tP>|t|Beta--------+-----------------------------------------------------yrsch|-.5025551.0705833-7.120.000-.0942719income|-.0011525.0000518-22.250.000-.294639_cons|29.46081.569066551.77.--------------------------------------------------------------回归方程为:当前53页,总共63页。标准回归系数.regresshhwktotyrschincome,beta--------------------------------------------------------------hhwktot|Coef.Std.Err.tP>|t|Beta--------+-----------------------------------------------------yrsch|-.5025551.0705833-7.120.000-.0942719income|-.0011525.0000518-22.250.000-.294639_cons|29.46081.569066551.77.--------------------------------------------------------------输出结果不同:置信区间换成了标准回归系数常数项的标准偏回归系数总是0,故没有输出结果;其余内容不变从标准回归系数判断,income的作用显然远远超过yrsch的作用当前54页,总共63页。逐步回归(Stepwiseregression)后退法(backward):事先给定从方程中剔出自变量的临界值pr。模型开始包括所有变量,其后,每个回合去掉一个p值最大的自变量;直到所有自变量的p值都等于或低于指定的临界值前进法(forward):事先挑选自变量进入方程的临界值pe。开始时方程中没有自变量,然后,按照自变量对因变量贡献的大小依次挑选进入方程,每选入一个变量,都要对已在模型中的变量进行检验,剔除p值大于临界值的变量,直到方程外变量的p值均大于指定的临界值、再没有自变量可引入方程为止。这样保证最后所得的变量子集中的所有变量都是有统计学意义的当前55页,总共63页。.swregresshhwktotagegirlhanzuchuzhonggaozhdazueincomeurban,pr(0.05)beginwithfullmodelp=0.9464>=0.0500removinghanzup=0.4427>=0.0500removinggaozhongp=0.5929>=0.0500removingdazuep=0.3556>=0.0500removingchuzhongSource|SSdfMSNumberofobs=1219-------------+------------------------------F(4,1214)=169.01Model|115091.899428772.9746Prob>F=0.0000Residual|206678.5641214170.245934R-squared=0.3577-------------+------------------------------AdjR-squared=0.3556Total|321770.4631218264.179362RootMSE=13.048------------------------------------------------------------------------------hhwktot|Coef.Std.Err.tP>|t|[95%Conf.Interval]-------------+----------------------------------------------------------------age|.2317112.09551092.430.015.0443264.419096girl|15.90959.77041520.650.00014.398117.42108urban|-4.693933.8519099-5.510.000-6.365312-3.022554income|-.0007623.0001057-7.210.000-.0009697-.0005548_cons|9.2262923.2554782.830.0052.83930415.61328------------------------------------------------------------------------------当前56页,总共63页。.swregresshhwktotagegirlhanzuchuzhonggaozhdazueincomeurban,pe(0.05)beginwithemptymodelp=0.0000<0.0500addinggirl p=0.0000<0.0500addingincomep=0.0000<0.0500addingurban p=0.0154<0.0500addingageSource|SSdfMSNumberofobs=1219-------------+------------------------------F(4,1214)=169.01Model|115091.899428772.9746Prob>F=0.0000Residual|206678.5641214170.245934R-squared=0.3577-------------+------------------------------AdjR-squared=0.3556Total|321770.4631218264.179362RootMSE=13.048------------------------------------------------------------------------------hhwktot|Coef.Std.Err.tP>|t|[95%Conf.Interval]-------------+----------------------------------------------------------------girl|15.90959.77041520.650.00014.398117.42108inco

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论