多重共线性和非线性回归的问题_第1页
多重共线性和非线性回归的问题_第2页
多重共线性和非线性回归的问题_第3页
多重共线性和非线性回归的问题_第4页
多重共线性和非线性回归的问题_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多重共线性和非线性回归的问题前几天她和我说,在百度里有个人连续追着我的回答,三次说我的回答错了。当时非常惊讶,赶紧找到那个回答的问题,看看那个人是怎么说。最终发现他是说多重共线性和非线性回归的问题,他认为多个自变量进行不能直接回归,存在共线性的问题,需要进行因子分析(或主成分分析);说非线性回归不能转换成线性回归的方法,这里我详细说说这两方面的问题到底是怎么回事(根据我的理解),我发现很多人很怕这个多重共线性的问题,听到非线性回归,脑袋就更大了。(1)多重共线性问题我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。这里经常用

2、到的有三种方法,而不同的方法有不同的目的,我们分别来看看:第一个,是最熟悉也是最方便的逐步回归法。逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。这个方法我们不仅可以找到对因变

3、量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。第二个,通过因子分析(或主成分分析)再进行回归。这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。通过这种方法可以得到哪个因子对因变量存在显著的相关性,哪个因子没有显著的相关性,再从因子中的变

4、量对因子的载荷来看,得知哪个变量对因变量的影响大小关系。而这个方法只能得到这些信息,第一它不是得到一个精确的,可以预测的回归模型;第二这种方法不知道有显著影响的因子中每个变量是不是都对因变量有显著的影响,比如说因子分析得到三个因子,用这三个因子和因变量做回归分析,得到第一和第二个因子对因变量有显著的影响,而在第一个因子中有4个变量组成,第二个因子有3个变量组成,这里就不知道这7个变量是否都对因变量存在显著的影响;第三它不能得到每个变量对因变量准确的影响大小关系,而我们可以通过逐步回归法直观的看到自变量前面的系数大小,从而判断自变量对因变量影响的大小。第三个,岭回归。通过逐步回归时,我们可能得到

5、几个自变量进入方程中,但是有时会出现自变量影响的方向出现错误,比如第一产业的产值对国民收入是正效应,而可能方程中的系数为负的,这种肯定是由于共线性导致出现了拟合失真的结果,而这样的结果我们只能通过自己的经验去判断。通常我们在做影响因素判断的时候,不仅希望得到各个因素对因变量真实的影响关系,还希望知道准确的影响大小,就是每个自变量系数的大小,这个时候,我们就可以通过岭回归的方法。岭回归是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子,从而使回归系数的估计稍有偏差、而估计的稳定性却可能明显提高的一种回归分析方法,它是最小二乘法的一种补充,岭回归可以修复病态矩阵,达到较好的效果。在中没有提供

6、岭回归的模块,可以直接点击使用,只能通过编程来实现,当然在、中也可以实现。做岭回归的时候,需要进行多次调试,选择适当的,值,才能得到比较满意的方程,现在这个方法应用越来越普遍。在07年的时候,我的一个老师还觉得这个方法是他的看家本领,但是现在很多人都会这个方法,而且用的越来越多了,得到的结果也非常合理。特别提醒的是:多重共线性说的是变量之间线性关系,和非线性不要混淆了。多组变量之间两种极端的关系是完全多重共线性关系和完全非线性关系,即完全是平行直线的关系和完全无规则的曲线关系(是什么形状,还真不好形容,自己悟去吧)。当然解决多重共线性问题的方法还有,比如差分微分模型,应用的很少,我估计是非常专

7、业的人才会用的吧,呵呵,反正我不会这个方法。接下来说说非线性回归。(2)非线性回归的问题。非线性回归,顾名思义自变量和因变量是非线性的关系,比如平方、次方等等,但是大多数的非线性方程都可以转换成线性的方程,比如我们通常知道的二次函数:,这里就可以转换成线性方程,首先将计算得到,方程就变成*而这个方程就是我们一般见到的多元线性回归,直接进行线性拟合就可以了。这里需要特别提醒的是:我说的可以转换成线性的非线性方程,是一元非线性方程,而不是多元非线性方程。我们知道在回归分析中有单独一个模块叫曲线估计,它里面提供的11个非线性模型都是可以转换成线性模型的,而且在进行系数拟合的时候都是通过转换成线性方程

8、进行拟合的,这就是为什么同样是非线性方程,在曲线估计里面不需要输入系数的初始值,而在非线性回归中却要输入。将非线性方程转换成线性方程再进行拟合,不是因为我们不会做非线性拟合,而改成线性拟合我就会做了,主要原因不是因为这个。而是因为同样的非线性方程拟合比转换成的线性方程拟合误差更大一些,而且由于迭代次数的增多,计算时间会更长,由于我们平时计算的数据不是很多,这种感觉不是非常明显,但是当我们做实际问题的时候,特别是规划问题中,我们将非线性方程转换成线性方程时,计算速度会明显加快。还有一个原因是,做非线性回归的时候,我们要在拟合之前设置初始值,而初始值的选择直接影响后面系数的确定,你改变初始值,拟合

9、出来的系数都会发生变化,这样也会增加非线性回归产生的误差,前面说的误差是计算上产生的误差,而这里是人为经验上产生的误差。因此在做非线性回归时,如果能转换成线性回归,一定转换成线性的来做。说到那个人,他在留言中说,这样我没有考虑到转换之后自变量之间的多重共线性,不能这样做,还声嘶力竭的喊我误人子弟。这里我要详细说明是怎么回事,要不要考虑这里的多重共线的问题,如果他也能看到更好。一般我们做回归分析的时候,通常第一步看自变量和因变量之间的散点图,通过散点图我们大致判断两者之间存在怎么的关系,再来选择适当的模型。而通常我们不知道具体选择哪个模型,可以选择几个可能相似的模型比较一下,选择一个拟合效果最好

10、的。这里比如说两个变量之间知道是非线性的,但是不知道是二次的、三次的还是四次及以上的关系(通常次方数越低越好),你可以同时考虑,然后根据拟合的结果来判断。如将方程设置为:,转换成线性方程就是:,而这里需不需要考虑这四个自变量之间的共线性呢,上面说过,多重共线性指的是变量之间的线性关系,而这里的四个自变量他们是非线性的关系(以、)4即使他们的线性相关系数很高(这是因为二次或者三次曲线用直线拟合得到效果也不错,但是我们知道他们之间的确是非线性的关系,而不是线性关系),因此,我们可以他们的多重共线性,在拟合的时候,选择逐步回归法,也可以不考虑,选择直接进入法,两者得到的结果几乎一样,我亲自试验了。如

11、果得到的结果的确有四次方的关系,那么自变量就会通过检验,我们可以通过检验来判断两个变量到底存在什么样的曲线关系。这样还需要简单说下多元非线性回归,多元非线性回归也可以进行转换,但是转换完之后就必须要考虑变量之间的多重共线性了,因为我们不能明确的知道转换之后的自变量是否不存在线性的关系。上次有个人在百度里提问说,我有十几个自变量,想做非线性回归,我们一般不推荐这么多自变量做多元非线性回归,除非你发现十几个自变量都和因变量存在非线性的关系。因为多元非线性回归计算非常复杂,迭代次数非常庞大,而得到的结果也不尽如人意。好了,这些都是根据我自己的理解和经验来写的,如果一不小心被统计高手或者老师看到,如发

12、现说的不对的地方,请一定要在下面指正出来,非常感谢。第4节回归诊断方法检验所选模型中的各变量之间共线性(即某些自变量之间有线性关系)情况;根据模型推算出与自变量取各样本值时对应的因变量的估计值yA,反过来检验所测得的Y是否可靠,胀是回归诊断的2项-第4节回归诊断方法检验所选模型中的各变量之间共线性(即某些自变量之间有线性关系)情况;根据模型推算出与自变量取各样本值时对应的因变量的估计值yA,反过来检验所测得的Y是否可靠,胀是回归诊断的2项主要任务。下面就SAS系统的REG过程运行后不同输出结果,仅从回归诊断方面理解和分析说明如下:用条件数和方差分量来进行共线性诊断各入选变量的共线性诊断借助SA

13、S的MODEL语句的选择项COLLIN或COLLINOINT来完成。二者都给出信息矩阵的特征根和条件数(ConditionNumber),还给出各变量的方差在各主成分上的分解(Decomposition),以百分数的形式给出,每个入选变量上的方差分量之和为1。COLLIN和COLLINOINT的区别在于后者对模型中截距项作了校正。当截距项无显著性时,看由COLLIN输出的结果;反之,应看由COLLINOINT输出的结果。(1)条件数先求出信息矩阵杸XX枈的各特征根,条件指数(conditionindices)定义为:最大特征根与每个特征根比值的平根,其中最大条件指数k称为矩阵杸XX枈的条件数。

14、条件数大,说明设计矩阵有较强的共线性,使结果不稳定,甚至使离开试验点的各估计值或预测值毫无意义。直观上,条件数度量了信息矩阵XX的特征根散布程度,可用来判断多重共线性是否存在以及多重共线性严重程度。在应用经验中,若OVkVIO,则认为没有多重共线性;lOWkW30,则认为存在中等程度或较强的多重共线性;k30,则认为存在严重的多重共线性。(2)方差分量强的多重共线性同时还会表现在变量的方差分量上:对大的条件数同时有2个以上变量的方差分量超过50,就意味这些变量间有一定程度的相关。用方差膨胀因子来进行共线性诊断(1)容许度(Tolerance,在Model语句中的选择项为TOL)对一个入选变量而

15、言,该统计量等于1-R2,这里R2是把该自变量当作因变量对模型中所有其余回归变量的决定系数,R2大(趋于1),则1-R2=TOL小(趋于0),容许度差,该变量不由其他变量说明的部分相对很小。方差膨胀因子(VIF)VIF=1/TOL,该统计量有人译为“方差膨胀因子”(VarianceinflationFactor),对于不好的试验设计,VIF的取值可能趋于无限大。VIF达到什么数值就可认为自变量间存在共线性?尚无正规的临界值。陈希孺、王松桂,1987根据经验得出:VIF5或10时,就有严重的多重共线性存在。用学生化残差对观测点中的强影响点进行诊断对因变量的预测值影响特别大,甚至容易导致相反结论的

16、观测点,被称为强影响点(InfluenceCase)或称为异常点(Outlier)。有若干个统计量(如:CookD统计量、hi统计量、STUDENT统计量、RSTUDENT统计量等,这些统计量的定义参见本章第6节)可用于诊断哪些点对因变量的预测值影响大,其中最便于判断的是学生化残差STUDENT统计量。当该统计量的值大于2时,所对应的观测点可能是异常点,此时,需认真核对原始数据。若属抄写或输入数据时人为造成的错误,应当予以纠正;若属非过失误差所致,可将异常点剔除后再作回归分析。如果有可能,最好在此点上补做试验,以便进一步确认可疑的“异常点”是否确属异常第5节用各种筛选变量方法编程的技巧从本章第

17、3节可知,有多种筛选变量的方法,这些方法中究竟哪一种最好?没有肯定的答复。最为可行的做法是对同一批资料多用几种筛选变量的方法,并结合专业知识从中选出相对优化的回归模型。判断一个回归模型是否较优,可从以下两个方面考虑:其一,整个回归模型及模型中各回归参数在统计学上有显著性意义、在专业上(特别是因变量的预测值及回归方程的精度)有实际意义;其二,在包含相同或相近信息的前提下,回归方程中所包含的变量越少越好。下面利用一个小样本资料,通过一个较复杂的SAS程序,展示如何用各种筛选变量的方法实现回归分析、如何用已求得的回归方程对资料作进一步的分析的技巧。例4.2.3a-甲酰门冬酰苯丙氨酸甲酯(FAPM)是

18、合成APM的关键中间体之一。试验表明,影响FAPM收率的主要因素有:原料配比(r)、溶剂用量(p1)、催化剂用量(p2)及反应时间(t)等4个因素,现将各因素及其具体水平的取值列在下面。影响FAPM合成收率的因素和水平:因素各水平的代码1234567r原料配比0.800.870.941.011.081.151.22p1溶剂用里(ml)10152025303540p2催化剂用里(g)1.01.52.02.53.03.54.0t反应时间(h)1234567研究者按某种试验设计方法选定的因素各水平的组合及其试验结果如下,试用回归分析方法分析此资料(注:权重仅为相同试验条件下重复实验运行的次数)。1口

19、号rp1p2tY(收率,)权重10.80152.0671.5320.87253.5571.2230.94351.5472.8341.01103.0369.7251.08201.0267.5361.15302.5167.3371.22404.0771.83SAS程序D4P17.PRGOPTIONSPS=70;DATAex3;INPUTrp1p2tyw;rp1=r*p1;rt=r*t;p1t=p1*t;r2=r*r;t2=t*t;p12=p1*p1;p22=p2*p2;*这里产生的7个新变量代表因素之间的交互作用;CARDS;0.80152.0671.530.87253.5571.220.9435

20、1.5472.831.01103.0369.721.08201.0267.531.15302.5167.331.22404.0771.83;RUN;PROCREG;用下列模型语句选择喝较回归模型;MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=FORWARD;模型1用向前选择法筛选变量;MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=BACKWARD;模型2用向后消去法筛选变量;MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=STEPWISE;模型3用逐步筛选法筛选变量;MODELy=r

21、r2p1p12p2p22tt2rp1rtp1t/SELECTION=MAXRSTART=1STOP=5;*模型4用最大R2增量法筛选变量;MODELy=rr2p1p12p2p22tt2rp1rtp1t/SELECTION=MINRSTART=1STOP=5;*模型5用最小R2增量法筛选变量;MODELy=tt2p12rrp1/SELECTION=RSQUAREBEST=30STOP=5;*模型6用R2增量法筛选变量;MODELy=tt2p12rrp1/SELECTION=ADJRSQBEST=30STOP=5;*模型7用修正R2增量法筛选变量;MODELy=tt2p12rrp1/SELECTI

22、ON=CPBEST=40STOP=5;*模型8用Cp统计量法筛选变量;RUN;*用选好的模型分析数据,并给出关于模型的各种统计量(计权重);PROCREG;WEIGHTw;MODELy=rrp1p12t2/SELECTION=NONEPCLIINFLUENCESTBCOLLINCOLLINOINT;RUN;DATAb;*先将原始数据放入数据集b;SETex3END=EOF;OUTPUT;*再按照r,pl,t的合理范围形成y为缺失的数据也放入数据集b;IFEOFTHENDO;y=.;DOr=0.8TO1.22BY.7;dop1=10to40BY5;DOt=1TO7;rp1=r*p1;rt=r*t

23、;p1t=p1*t;r2=r*r;t2=t*t;p12=p1*p1;OUTPUT;END;END;END;END;RUN;*按原始数据回归,却可得到r、pl、t的新组合所对应的估计值yA;PROCREGDATA=b;WEIGHTw;MODELy=rrp1p12t2/PCLICLMCOLLINOINTSTBRVIF;OUTPUTOUT=d1PREDICTED=pdc;RUN;PROCPRINTDATA=d1;RUN;PROCSORTDATA=d1(KEEP=rp1tpdc);BYDESCENDINGpdc;RUN;DATAc;SETd1;FILEPRINT;TITLE40bestcombinat

24、ionsofrp1t;IF_N_50%时,就可以认为第i个观测点对回归函数的拟合有强的影响。COOKS其中k为模型中参数个数(包括截距),STUDENT意义与上述的“4”中相同。,这是去掉第i个观测点后求得的协方差矩阵的行列式之值,Belsley,Kuh,andWelsch等人建议:若丨COVRATIO1l3(p+i),则第i个观测点值得引起注意。12.,此值大于2,表明第i个点影响较大。13.,此值大于2,表明第i个点影响较大。其中为矩阵的第j行第j列上的元素。以上各式中的有关符号的含义说明如下:S2为回归模型的均方误差,即;STDERR(ei)为残差ei之标准误差,;S(i)为除掉第i个观

25、测点后算得的残差ei之标准误差;n为总观测数;p为选入模型中的变量数;模型中包括截距时i取为1、模型中不包括截距时i取为0;det()代表求矩阵()的行列式之值。什么是主成分分析(principalcomponentanalysis)?对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,,Xp,它们都是的相关性,一时难以综合。这时就需要借助主成分分析(principalcomponentanalysis)来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的

26、变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。主成分的一般定义设有随机变量X1,X2,Xp,其样本均数记为,样本标准差记为S1,S2,,Sp。首先作标准化变换我们有如下的定义:若Cl=allxl+al2x2+alpxp,,且使Var(Cl)最大,则称C1为第一主成分;若C2=a2lxl+a22x2+a2pxp,(a2l,a22,,a2p)垂直于(all,al2,,alp),且使Var(C2)最大,则称C2为第二主成分;类似地,可有第三、四、五主成分,至多有p个。主成分的性质主成分Cl,C2,Cp具有如下几个性质:主成分间互不相关,即对任意i和j.Ci和Cj的相关系数Corr(Ci,Cj)=0i1j组合系数(ail,ai2,,aip)构成的向量为单位向量,各主成分的方差是依次递减的,即Var(Cl)三Var(C2)三三Var(Cp)总方差不增不减,即Var(Cl)+Var(C2)+Var(Cp)=Var(xl)+Var(x2)+Var(xp)=p这一性质说明,主成分是原变量的线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论