数据挖掘—回归分析技术在建模中的应用_第1页
数据挖掘—回归分析技术在建模中的应用_第2页
数据挖掘—回归分析技术在建模中的应用_第3页
数据挖掘—回归分析技术在建模中的应用_第4页
数据挖掘—回归分析技术在建模中的应用_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘数据挖掘回归分析技术在建模中的应用回归分析技术在建模中的应用Never forget how to dreamcontents回归分析技术概述31回归分析易存在误区23回归分析建模方法3回归分析技术应用4Never forget how to dream回归分析技术概述回归分析技术概述概述发展内容及模型建立模型步骤Never forget how to dream1Never forget how to dream 从高斯(Gauss)提出最小二乘法算起,回归分析已经有200年的历史。统计学的许多方法与回归分析有着密切联系,如时间序列分析、主成分分析、判别分析等。 矩阵理论和计算机技术

2、的发展为回归分析模型的应用提供了极大的方便。近年来的非参数统计、自助法、刀切法、经验贝叶斯估计对回归分析起着渗透和促进作用。1.1 回归分析技术发展Never forget how to dream一元线性回归线性回归 多元线性回归多个因变量与多个自变量的回归讨论如何从数据推断回归模型基本假设的合理性当基本假设不成立时如何对数据进行修正回归诊断判定回归方程拟合的效果选择回归函数的形式自变量选择的准则回归变量的选择回归分析逐步回归分析方法岭回归参数估计方法的改进主成分回归偏最小二乘法一元非线性回归非线性回归 分段回归多元非线性回归含有定性变量的回归自变量含定性变量的情况因变量是定性变量的情况1.

3、2 回归分析的主要内容及其一般模型Never forget how to dream 设置指标变量收集整理数据构造理论模型估计模型参数修改 N 模型运用Y因素分析变量控制 决策预测实 际 问 题模型检验1.3 建立实际问题回归模型的过程Never forget how to dream回归分析技术易存在误区2认识误区回归建模指标变量的设置变量数据的收集和整理回归拟合效果与检验回归方程的解释与应用Never forget how to dream 回归分析研究的主要对象是客观事物变量间的依赖关系, 客观事物变量间依赖关系的普遍性决定了回归分析方法的广泛应用性。它是建立在对客观事物进行大量试验和观

4、察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态、模型预测的一种有力的工具。2.1 回归分析认识误区Never forget how to dream 统计学科发展到今天已经非常丰富繁茂,统计学的分支和研究方向也异常细化。近些年来,统计学的应用随着计算机的飞速发展很受人们重视,在诸多现代统计分析方法中回归分析是最基本最实用应用最广泛的统计学方法。许多统计学分支都是在回归分析模型的基础上通过改进、推广、提升为新的统计理论及分支。如时间序列分析时间序列分析作为现代统计学的一个重要分支就是序列自回归模型的

5、发展和丰富。2.1 回归分析技术认识误区Never forget how to dream 然而,目前回归分析受重视程度不高,认为回归分析是统计学里的小儿科,所讲的回归分析内容太简单,甚至连模型的基本假定都忽略,在运用回归分析技术时容易犯错。2.1 回归分析技术认识误区Never forget how to dream 回归分析模型主要是揭示事物间相关变量的数量回归分析模型主要是揭示事物间相关变量的数量联系。联系。首先要根据所研究问题的目的设置因变量,然后再选取与因变量有统计关系的一些变量做为自变量。建立实际问题的回归分析模型一定要搞清楚哪个变量是因变量,哪些指标是自变量。 通常情况下,所研究

6、的实际问题因变量与自变量之通常情况下,所研究的实际问题因变量与自变量之间应具有一定的因果关系。间应具有一定的因果关系。因此在研究某种现象时,必须根据具体研究目的,利用专业理论,从定性角度来确定某种经济问题中各因素之间的因果关系。2.2 回归建模指标变量的设置Never forget how to dream因变量确定因变量确定:对一个具体的问题,当研究目的确定之后,被解释变量容易确定,被解释变量一般直接表达、刻画研究的目的。自变量确定自变量确定:对被解释变量有影响的解释变量的确定不太容易。一是由于人们的认识有局限,可能并不知道对被解释变量有重要影响的因素;二是为了模型参数估计的有效性,设置的解

7、释变量之间应该是不相关的。人们很难确定哪些变量是相关的,哪些不是相关的,这这就看如何在多个变量中确定几个重要的且不相关的变就看如何在多个变量中确定几个重要的且不相关的变量。量。2.2 回归建模指标变量的设置Never forget how to dream注意注意:一个回归模型所涉及到的解释变量不是越多越好。一个模型,如果把一些主要变量漏掉肯定会影响模型的应用效果,但如果无关紧要因素一起进入模型也未必就好。当引入的变量太多时,可能选择了一些与问题可能选择了一些与问题无关紧要的变量无关紧要的变量, ,还可能由于一些变量的相关性很强还可能由于一些变量的相关性很强, ,它们所反映的信息有较严重的重叠

8、它们所反映的信息有较严重的重叠, ,这就出现这就出现多重共线多重共线性问题性问题。当变量太多时,计算工作量太大,计算误差积计算误差积累也大累也大,估计出的模型参数精度自然不高。2.2 回归建模指标变量的设置Never forget how to dream 当确定好回归模型的变量之后,就要对这些变量收集、整理统计数据。常用的样本数据分为时间序列数常用的样本数据分为时间序列数据和横截面数据。据和横截面数据。时间序列数据就是按时间顺序排列的统计数据。对于收集到的时间序列资料要特别注意数据的可比性及数据的统计口径问题。对于没有可比对于没有可比性和统计口径计算不一致的统计数据就要作认真调整性和统计口径

9、计算不一致的统计数据就要作认真调整, ,这个调整过程就是一个数据整理过程。这个调整过程就是一个数据整理过程。2.3 变量数据的收集和整理Never forget how to dream 时间序列数据容易产生模型中随机误差项的序列相关,这是因为许多变量的前后期之间总是有关联的。如在经济中建立需求模型时,人们的消费习惯、商品短缺程度等具有一定的延续性,它们会对相当一段时间的需求量有影响,这样就产生随机误差项的序列相关。对对于具有随机误差项序列相关的情况于具有随机误差项序列相关的情况, ,就要通过对数据的就要通过对数据的某种计算、整理来消除序列相关性。最常用的处理方某种计算、整理来消除序列相关性。

10、最常用的处理方法是差分方法。法是差分方法。2.3 变量数据的收集和整理Never forget how to dream 横截面数据即为在同一时间截面上的统计数据。如同一年在不同的地块上做的施肥量与小麦产量试验的统计数据就是截面数据。 当用截面数据作样本时当用截面数据作样本时, ,容易产生异方差性容易产生异方差性。这是因为一个回归模型往往涉及到众多解释变量,如果其中如果其中某一因素或一些因素随着解释变量观测值的变化而对某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同影响被解释变量产生不同影响, ,就产生异方差性。就产生异方差性。 yi=0+1xi+ui , i=1,n 随机项u

11、i具有不同的方差。2.3 变量数据的收集和整理Never forget how to dream 在实际应用中,人们往往只能得到样本相关系数r,而无法得到总体相关系数r 。用样本相关系数r判定两变量间相关程度的强弱时一定要注意样本量的大小,只有当样本量较大时用样本相关系数只有当样本量较大时用样本相关系数r r判定两变量间相判定两变量间相关程度的强弱才可信服。关程度的强弱才可信服。 需要正确区分相关系数显著性检验与相关程度强需要正确区分相关系数显著性检验与相关程度强弱的关系,弱的关系,相关系数的t检验显著只是表示总体相关系数显著不为零,并不能表示相关程度高。2.4 回归拟合效果与检验Never

12、forget how to dream有A、B两位同学,A同学计算出 r=0.8,但是显著性检验没有通过;B同学计算出 r=0.1,而声称此相关系数高度显著,我们都不能判断谁对谁错。这个问题的回答同样与样本量有关。由检验统计量可以看到t值不仅与样本相关系数r有关,同时与样本量n有关,对同样的相关系数r,样本量n大时|t|就大,样本量n小时|t|就小。实际上,对任意固定的非0的r值,只要样本量n充分大就能使|t|足够大,从而得到相关系数高度显著的结论。明白这个道理后你就会相信A、B两位同学说的都可能是正确的。2.4 回归拟合效果与检验Never forget how to dream样本决定系数

13、:样本决定系数:是一个回归直线与样本观测值拟合优度的相对指标,反映了因变量的波动中能用自变量解释的比例。其数值在0到1之间,可以用百分数表示。如果决定系数 接近于1,说明因变量不确定性的绝大部分能由回归方程解释,回归方程拟合优度就好。反之,如 不大,说明回归方程的效果不好,应进行修改, 可以考虑增加新的自变量或者使用曲线回归。需要注意以下几个方面:2.4 回归拟合效果与检验Never forget how to dream第一,样本量太小时,决定系数很大,但这个大的决第一,样本量太小时,决定系数很大,但这个大的决定系数很可能是虚假现象。样本量越小时,决定系数定系数很可能是虚假现象。样本量越小时

14、,决定系数越容易大。越容易大。第二,即使样本量并不小,决定系数很大,例如是0.9,也并不能肯定自变量与因变量之间的关系就是线性的,这是因为有可能曲线回归的效果更好。尤其是当自变量的取值范围很窄时,线性回归的效果通常是较好的,这样的线性回归方程是不能用于外推预测的。可以用可以用模型失拟检验(模型失拟检验(Lack of fit test)来判定因变量与自变)来判定因变量与自变量之间的真实函数关系量之间的真实函数关系,到底是线性关系还是曲线关系,如果是曲线关系到底是哪一种曲线关系。2.4 回归拟合效果与检验Never forget how to dream第三、不论是时间序列数据还是横截面数据的建

15、模,样本容量的多少一般要与设置的解释变量数目相匹配。当样本容量的个数小于解释变量的数目时,普通的最小二乘估计方法失效;当样本容量大于解释变量数目,但比较接近时,用于评价回归拟合效果的决定系数虚假现象严重。通常为了使模型的参数估计更有效,要求样本容量n比解释变量个数p大的多。一般来说样本容量样本容量n应是解释变量个数应是解释变量个数p的的10倍。倍。2.4 回归拟合效果与检验Never forget how to dream变量的因素分析是回归模型的一个重要应用。变量的因素分析是回归模型的一个重要应用。应用回归模型对变量之间的关系作出度量,从模型的回归系数可发现经济变量的结构关系,给出政策评价的

16、一些量化依据。对一般情况含有p个自变量的多元线性回归,每个回归系数表示在回归方程中其他自变量保持不变的情况下,自变量每增加一个单位时因变量y的平均增加程度。在分析各自变量对因变量的相对重要性时,标在分析各自变量对因变量的相对重要性时,标准化回归系数是比较自变量对准化回归系数是比较自变量对y y影响程度相对重要性的影响程度相对重要性的一种较为理想的方法。一种较为理想的方法。但是,仍对回归系数的解释须采取谨慎的态度,这是因为当自变量相关时会影响标准化回归系数的大小。2.5 回归方程的解释与应用Never forget how to dream进行预测是回归模型的另一个重要应用。进行预测是回归模型的

17、另一个重要应用。通过建立模型就可以对未来做出预测。但在作长期预测时,要特别注意相应的自变量是否还保持建模当初数据的变化是否还保持建模当初数据的变化趋势和特征趋势和特征。在回归模型的运用中在回归模型的运用中, ,还要特别强调定性分析和定量分还要特别强调定性分析和定量分析的有机结合。析的有机结合。这是因为统计学方法只是从事物外在的数量表面上去研究问题,不涉及事物质的规定性。2.5 回归方程的解释与应用Never forget how to dream 回归分析建模方法3回归分析建模主成分回归与偏最小二乘含定性变量回归岭回归多元线性回归Never forget how to dream3.1 多元线

18、性回归回归模型参数估计回归应用显著性检验Never forget how to dreamText in here基本假定基本假定:1. 解释变量x1,x2,xp是确定性变量,不是随机变量,且要求rank(X)=p+1n。表明设计矩阵X中的自变量列之间不相关,X是一满秩矩阵。2.随机误差项具有0均值和等方差。多元线性回归模型一般形式一般形式:y=0+ 0 x1+ 0 x2+ 0 xp+其中0,1,2,p是p+1个未知参数, 0称为回归常数, 1,2,p称为回归系数。回归方程解释回归方程解释:对一般含有p个自变量的多元线性回归,每个回归系数i表示在回归方程中其他变量保持不变的情况下,自变量xi每

19、增加一个单位时因变量y的平均增加程度,多元线性回归系数称为偏回归系数。Never forget how to dream回归参数估计普通最小二乘估计普通最小二乘估计:寻找012,p, , ,使得0122012011221201122,1(,)() min()pnpiiipipiniiipipiQyxxxyxxx 最大似然估计:最大似然估计: y yN(X,X,2I In)X X- -y yX X- -y y(21exp()2(2222nnL)X X- -y yX X- -y y(21)ln(2)2ln(2ln22nnLNever forget how to dream显著性检验一、一、F检验检

20、验 (回归方程显著性检验) H0:1=2=p=0niiiniiniiyyyyyy121212)()()(SST = SSR + SSE ) 1/(/pnSSEpSSRF当H0成立时服从) 1,( pnpFNever forget how to dream显著性检验二、回归系数的显著性二、回归系数的显著性t检验检验 H0j:j=0, j=1,2,p(,(X)-1)构造t统计量 jjjjct 其中, (X)-1=(cij) i,j=0,1,2, ,pniiiniiyypnepn12121111Never forget how to dream多元线性回归分析实例年份yx1x2x3x4x519782

21、31301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.7019845545652390511035326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.951987131093136386112

22、42938.912690.231988144211738803812264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.201991217816557109699508155.913335.651992288620223129859969383.663311.5019933383248821594910545896.084152.70Never forget how to dream多元线性回归分析实例方差扩大因子Never forget how to dream多元线性回归分析实

23、例0k10时,设计矩阵X没有多重共线性;10k100时,认为X存在较强的多重共线性;当k100时,则认为存在严重的多重共线性。 特征根方法Never forget how to dream多元线性回归分析实例直观判定法1.当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化。2.从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。3.有些自变量的回归系数所带正负号与定性分析结果违背。4.自变量的相关矩阵中,自变量间的相关系数较大。 5.一些重要的自变量的回归系数的标准误差较大。 Never forget how to dream多元线性回归分析实例剔除x1的结

24、果Never forget how to dream多元线性回归分析实例剔除x2结果Never forget how to dream多元线性回归分析实例 从以上结果可以看出,此回归模型不存在强多重共线性,最终回归方程为:345591.8760.0103726.4360.317yxxx3450.1190.6500.411yxxx 标准化回归方程为:Never forget how to dream多元线性回归分析注意问题多元线性回归分析注意问题 当回归模型的未知参数估计出来后,我们实际上是由n组样本观测数据得到一个经验回归方程,这个经验回归方程是否真正反映了变量y和变量x1,x2,xp之间的线

25、性关系,这就需要进一步对回归方程进行检验。一种检验方法是拟合优度检验,即用样本决定系数的大小来衡量模型的拟合优度。样本决定系数R2越大,说明回归方程拟合原始数据y的观测值的效果越好。但由于R2的大小与样本容量n以及自变量个数p有关,当n与p的数目接近时,R2容易接近于1,这说明R2中隐含着一些虚假成分。因此,仅由R2的值很大,去推断模型优劣一定要慎重。Never forget how to dream多元线性回归分析注意问题多元线性回归分析注意问题一般来说,当接受假设H0时,认为在给定的显著性水平之下,自变量x1,x2,xp对因变量y无显著性影响,于是通过x1,x2,xp去推断y也就无多大意义

26、。在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而我们误用线性模型描述了,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时由于我们认识上的局限性把一些影响因变量y的自变量漏掉了。这就从两个方面提醒我们去重新考虑建模问题。Never forget how to dream多元线性回归分析注意问题当样本容量n较小,变量个数p较大时,F检验或t检验的自由度太小,这时尽管样本决定系数R2很大,但参数估计的效果很不稳定。Never forget how to dream多元线性回归分析注意问题 多重共线性危害:当出现多重共线性时,回归系数的估计值方差变大,回归系数置信区间变宽,估

27、计精度降低,估计值稳定性差,出现回归方程高度显著时,一些回归系数通不过显著性检验,回归系数出现正负号倒置,使得回归方程无法得到合理解释。 因此,利用模型去做分析时,要尽量避免多重共线性。如果利用模型去做预测,只要保证自变量的相关类型在未来时期中保持不变,未来时期自变量仍具有建模时数据联系特征,即使回归模型包含多重共线性,也可以去的较好预测结果;如果不能保证自变量的相关类型在未来时期中保持不变,那么多重共线性就会对回归预测产生严重影响。 Never forget how to dream多元线性回归分析注意问题关于复决定系数与调整复决定系数:我们往往用残差平方和和复相关系数来衡量回归拟合好坏,然

28、而这显然存在不足。 可以证明,当模型增加自变量时,复决定系数也随之增大,然而复决定系数增大的代价是残差自由度减少(残差自由度等于样本个数与自变量个数之差),自由度减少说明估计和预测的可靠性降低,因此采用调整复相关系数:2211(1)1anRRnp 样本量自变量个数Never forget how to dream 主成分回归主成分回归(Principal Components Regression,简记为PCR)是对普通最小二乘估计的另外一种改进方法,它的参数估计是一种有偏估计。W.F.Massy1965年根据多元统计分析中的主成分分析提出了主成分回归。 设对某一事物的研究涉及p个指标,分别用

29、X1,X2,Xp表示,这p个指标构成p维随机变量X=(X1,X2,Xp).设随机变量X的均值为,协方差矩阵为。 对X进行线性变换,可以形成新的综合变量,用Y表示,即:主成分回归主成分回归Never forget how to dream主成分回归主成分回归11111221221122221122ppppppppppYXXXYXXXYXXX 由于可以任意的对原始变量进行上述线性变换,得到的综合变量Y也不同,因此需对线性变化进行约束限制:Never forget how to dream主成分回归主成分回归123 3222121,1(1,2, )iiiiipip 即Yi与Yj不相关(ij;i,j=1,2,p)Y1是X1,X2,Xp的所有满足第一个条件的线性组合中方差最大者;Y2是与Y1不相关的X1,X2,Xp的所有线性组合中方差最大者; Yp是与Y1、Y2,Yp都不相关的X1,X2,Xp的所有线性组合中方差最大者;Never forget how to dream实例应用:实例应用:主成分回归主成分回归年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论