数据挖掘-回归分析技术在建模中的应用_第1页
数据挖掘-回归分析技术在建模中的应用_第2页
数据挖掘-回归分析技术在建模中的应用_第3页
数据挖掘-回归分析技术在建模中的应用_第4页
数据挖掘-回归分析技术在建模中的应用_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘—回归分析技术在建模中的应用Neverforgethowtodreamcontents回归分析技术概述31回归分析易存在误区23回归分析建模方法3回归分析技术应用4Neverforgethowtodream回归分析技术概述概述发展内容及模型建立模型步骤Neverforgethowtodream1

从高斯(Gauss)提出最小二乘法算起,回归分析已经有200年的历史。统计学的许多方法与回归分析有着密切联系,如时间序列分析、主成分分析、判别分析等。矩阵理论和计算机技术的发展为回归分析模型的应用提供了极大的方便。近年来的非参数统计、自助法、刀切法、经验贝叶斯估计对回归分析起着渗透和促进作用。1.1回归分析技术发展1.2回归分析的主要内容及其一般模型

设置指标变量收集整理数据构造理论模型估计模型参数修改

N

模型运用Y因素分析变量控制

决策预测实际问题模型检验1.3建立实际问题回归模型的过程回归分析技术易存在误区2认识误区回归建模指标变量的设置变量数据的收集和整理回归拟合效果与检验回归方程的解释与应用

回归分析研究的主要对象是客观事物变量间的依赖关系,客观事物变量间依赖关系的普遍性决定了回归分析方法的广泛应用性。它是建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态、模型预测的一种有力的工具。2.1

回归分析认识误区统计学科发展到今天已经非常丰富繁茂,统计学的分支和研究方向也异常细化。近些年来,统计学的应用随着计算机的飞速发展很受人们重视,在诸多现代统计分析方法中回归分析是最基本最实用应用最广泛的统计学方法。许多统计学分支都是在回归分析模型的基础上通过改进、推广、提升为新的统计理论及分支。如时间序列分析作为现代统计学的一个重要分支就是序列自回归模型的发展和丰富。2.1回归分析技术认识误区然而,目前回归分析受重视程度不高,认为回归分析是统计学里的小儿科,所讲的回归分析内容太简单,甚至连模型的基本假定都忽略,在运用回归分析技术时容易犯错。2.1回归分析技术认识误区回归分析模型主要是揭示事物间相关变量的数量联系。首先要根据所研究问题的目的设置因变量,然后再选取与因变量有统计关系的一些变量做为自变量。建立实际问题的回归分析模型一定要搞清楚哪个变量是因变量,哪些指标是自变量。通常情况下,所研究的实际问题因变量与自变量之间应具有一定的因果关系。因此在研究某种现象时,必须根据具体研究目的,利用专业理论,从定性角度来确定某种经济问题中各因素之间的因果关系。2.2回归建模指标变量的设置因变量确定:对一个具体的问题,当研究目的确定之后,被解释变量容易确定,被解释变量一般直接表达、刻画研究的目的。自变量确定:对被解释变量有影响的解释变量的确定不太容易。一是由于人们的认识有局限,可能并不知道对被解释变量有重要影响的因素;二是为了模型参数估计的有效性,设置的解释变量之间应该是不相关的。人们很难确定哪些变量是相关的,哪些不是相关的,这就看如何在多个变量中确定几个重要的且不相关的变量。2.2回归建模指标变量的设置注意:一个回归模型所涉及到的解释变量不是越多越好。一个模型,如果把一些主要变量漏掉肯定会影响模型的应用效果,但如果无关紧要因素一起进入模型也未必就好。当引入的变量太多时,可能选择了一些与问题无关紧要的变量,还可能由于一些变量的相关性很强,它们所反映的信息有较严重的重叠,这就出现多重共线性问题。当变量太多时,计算工作量太大,计算误差积累也大,估计出的模型参数精度自然不高。2.2回归建模指标变量的设置当确定好回归模型的变量之后,就要对这些变量收集、整理统计数据。常用的样本数据分为时间序列数据和横截面数据。时间序列数据就是按时间顺序排列的统计数据。对于收集到的时间序列资料要特别注意数据的可比性及数据的统计口径问题。对于没有可比性和统计口径计算不一致的统计数据就要作认真调整,这个调整过程就是一个数据整理过程。2.3变量数据的收集和整理时间序列数据容易产生模型中随机误差项的序列相关,这是因为许多变量的前后期之间总是有关联的。如在经济中建立需求模型时,人们的消费习惯、商品短缺程度等具有一定的延续性,它们会对相当一段时间的需求量有影响,这样就产生随机误差项的序列相关。对于具有随机误差项序列相关的情况,就要通过对数据的某种计算、整理来消除序列相关性。最常用的处理方法是差分方法。2.3变量数据的收集和整理横截面数据即为在同一时间截面上的统计数据。如同一年在不同的地块上做的施肥量与小麦产量试验的统计数据就是截面数据。当用截面数据作样本时,容易产生异方差性。这是因为一个回归模型往往涉及到众多解释变量,如果其中某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同影响,就产生异方差性。

yi=β0+β1xi+ui

i=1,…,n随机项ui具有不同的方差。2.3变量数据的收集和整理在实际应用中,人们往往只能得到样本相关系数r,而无法得到总体相关系数r。用样本相关系数r判定两变量间相关程度的强弱时一定要注意样本量的大小,只有当样本量较大时用样本相关系数r判定两变量间相关程度的强弱才可信服。需要正确区分相关系数显著性检验与相关程度强弱的关系,相关系数的t检验显著只是表示总体相关系数ρ显著不为零,并不能表示相关程度高。2.4回归拟合效果与检验有A、B两位同学,A同学计算出r=0.8,但是显著性检验没有通过;B同学计算出r=0.1,而声称此相关系数高度显著,我们都不能判断谁对谁错。这个问题的回答同样与样本量有关。由检验统计量可以看到t值不仅与样本相关系数r有关,同时与样本量n有关,对同样的相关系数r,样本量n大时|t|就大,样本量n小时|t|就小。实际上,对任意固定的非0的r值,只要样本量n充分大就能使|t|足够大,从而得到相关系数高度显著的结论。明白这个道理后你就会相信A、B两位同学说的都可能是正确的。2.4回归拟合效果与检验样本决定系数:是一个回归直线与样本观测值拟合优度的相对指标,反映了因变量的波动中能用自变量解释的比例。其数值在0到1之间,可以用百分数表示。如果决定系数

接近于1,说明因变量不确定性的绝大部分能由回归方程解释,回归方程拟合优度就好。反之,如

不大,说明回归方程的效果不好,应进行修改,可以考虑增加新的自变量或者使用曲线回归。需要注意以下几个方面:2.4回归拟合效果与检验第一,样本量太小时,决定系数很大,但这个大的决定系数很可能是虚假现象。样本量越小时,决定系数越容易大。第二,即使样本量并不小,决定系数很大,例如是0.9,也并不能肯定自变量与因变量之间的关系就是线性的,这是因为有可能曲线回归的效果更好。尤其是当自变量的取值范围很窄时,线性回归的效果通常是较好的,这样的线性回归方程是不能用于外推预测的。可以用模型失拟检验(Lackoffittest)来判定因变量与自变量之间的真实函数关系,到底是线性关系还是曲线关系,如果是曲线关系到底是哪一种曲线关系。2.4回归拟合效果与检验第三、不论是时间序列数据还是横截面数据的建模,样本容量的多少一般要与设置的解释变量数目相匹配。当样本容量的个数小于解释变量的数目时,普通的最小二乘估计方法失效;当样本容量大于解释变量数目,但比较接近时,用于评价回归拟合效果的决定系数虚假现象严重。通常为了使模型的参数估计更有效,要求样本容量n比解释变量个数p大的多。一般来说样本容量n应是解释变量个数p的10倍。2.4回归拟合效果与检验变量的因素分析是回归模型的一个重要应用。应用回归模型对变量之间的关系作出度量,从模型的回归系数可发现经济变量的结构关系,给出政策评价的一些量化依据。对一般情况含有p个自变量的多元线性回归,每个回归系数表示在回归方程中其他自变量保持不变的情况下,自变量每增加一个单位时因变量y的平均增加程度。在分析各自变量对因变量的相对重要性时,标准化回归系数是比较自变量对y影响程度相对重要性的一种较为理想的方法。但是,仍对回归系数的解释须采取谨慎的态度,这是因为当自变量相关时会影响标准化回归系数的大小。2.5回归方程的解释与应用进行预测是回归模型的另一个重要应用。通过建立模型就可以对未来做出预测。但在作长期预测时,要特别注意相应的自变量是否还保持建模当初数据的变化趋势和特征。在回归模型的运用中,还要特别强调定性分析和定量分析的有机结合。这是因为统计学方法只是从事物外在的数量表面上去研究问题,不涉及事物质的规定性。2.5回归方程的解释与应用

回归分析建模方法3回归分析建模主成分回归与偏最小二乘含定性变量回归岭回归多元线性回归3.1多元线性回归回归模型参数估计回归应用显著性检验基本步骤Textinhere基本假定:1.解释变量x1,x2,…,xp是确定性变量,不是随机变量,且要求rank(X)=p+1<n。表明设计矩阵X中的自变量列之间不相关,X是一满秩矩阵。2.随机误差项具有0均值和等方差。多元线性回归模型一般形式:y=β0+β0x1+β0x2+…+β0xp+ε其中β0,β1,β2,…,βp是p+1个未知参数,β0称为回归常数,β1,β2,…,βp称为回归系数。回归方程解释:对一般含有p个自变量的多元线性回归,每个回归系数βi表示在回归方程中其他变量保持不变的情况下,自变量xi每增加一个单位时因变量y的平均增加程度,多元线性回归系数称为偏回归系数。回归参数估计普通最小二乘估计:寻找最大似然估计:y~N(Xβ,σ2In)显著性检验一、F检验

(回归方程显著性检验)

H0:β1=β2=…=βp=0SST=SSR+SSE

当H0成立时服从显著性检验二、回归系数的显著性t检验

H0j:βj=0,j=1,2,…,p~N(β,σ2(X'X)-1)构造t统计量

其中,(X'X)-1=(cij)i,j=0,1,2,…,p多元线性回归分析实例年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.7019845545652390511035326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.95198713109313638611242938.91

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论