回归分析法预测_第1页
回归分析法预测_第2页
回归分析法预测_第3页
回归分析法预测_第4页
回归分析法预测_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析法预测第1页,共77页,2023年,2月20日,星期四YOURSITEHERE主要内容第一节引言

第二节一元线性回归

第三节多元线性回归

第四节逐步回归

第2页,共77页,2023年,2月20日,星期四YOURSITEHERE第一节引言第3页,共77页,2023年,2月20日,星期四YOURSITEHERE变量间的关系函数关系——变量间的确定性关系,有精确的数学表达式。统计关系——大量观测或试验以后建立起来的一种经验关系,并不一定包含这因果关系。统计关系函数关系第4页,共77页,2023年,2月20日,星期四相关系数

◆样本的相关系数用r(correlationcoefficient)◆相关系数r的值在-1和1之间。正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。◆r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。第5页,共77页,2023年,2月20日,星期四YOURSITEHERE一般来说,回归分析是研究自变量(解释变量)与因变量(被解释变量)之间相依关系(因果关系)的一种统计分析方法。对地质变量而言,也就是从不存在确定性关系的大量观测数据中,建立一个地质变量与另一个或其它几个地质变量之间相关关系的数学表达式。回归分析是一种由因索果的定量分析、预测技术。

一、回归分析的定义第6页,共77页,2023年,2月20日,星期四YOURSITEHERE①确定回归方程确定一个地质变量与另一个或其它几个地质变量之间是否存在相关关系,如果存在的话,可以找出它们之间合适的数学表达式;②预测根据一个或几个变量值(自变量,相对而言较易测定),来预测另一个地质变量(因变量)的估计值,并确定预测精度;③判断自变量与因变量的亲疏关系在共同影响某个特定变量(因变量)的许多变量(自变量)之中,找出哪些是重要的,哪些是次要的,以及它们之间有什么关系。二、回归分析主要解决问题在地质研究工作中,回归分析主要解决以下几个方面的问题:第7页,共77页,2023年,2月20日,星期四YOURSITEHERE第二节一元线性回归第8页,共77页,2023年,2月20日,星期四YOURSITEHERE回归模型

(强假定条件)一元线性回归模型

的回归方程为:一、一元线性回归模型和回归方程第9页,共77页,2023年,2月20日,星期四YOURSITEHERE二、参数估计1.

回归系数和的最小二乘估计第10页,共77页,2023年,2月20日,星期四YOURSITEHERE对于样本观测值(xi;yi)(i=1,2,…,n),寻找参数的估计值,使得随机扰动误差项的平方和达到最小,满足如下条件:定义离差平方和(二元)函数(非负二次函数):普通最小二乘法(OrdinaryLeastSquareEstimation,OLSE)基本思想:→min(也即残差平方和达到最小)第11页,共77页,2023年,2月20日,星期四YOURSITEHERE满足下列方程组上式整理后可得正规方程组(NormalEquations)→第12页,共77页,2023年,2月20日,星期四YOURSITEHERE解之,得于是可得

回归方程为:还可等价表示为:

(回归直线过样本数据点重心)第13页,共77页,2023年,2月20日,星期四YOURSITEHERE2.回归方程(回归直线)的特点④回归直线通过x和y的样本均值点()(观测数据的重心)几何上:相对于将y轴平移到位置处,回归直线斜率不变而新的截距将是y的样本平均值。⑤残差与xi不相关。⑥残差与ŷi不相关。对x变量作中心化处理所得的线性回归模型可写成第14页,共77页,2023年,2月20日,星期四YOURSITEHERE3.标准误差无偏估计→是不可观测的随机变量,故其方差也不能直接计算,而需要估计。回归模型的总离差可被分解成两个部分:总离差可解释的离差

可由回归直线所解释的变差不可解释的离差

无法用回归直线所解释的变差第15页,共77页,2023年,2月20日,星期四YOURSITEHERE三个平方和之间的关系:SST=SSR+SSE4.标准误差无偏估计第16页,共77页,2023年,2月20日,星期四YOURSITEHERESSR和SSE是此消彼长的关系,

SSR从正面来衡量线性模型的拟合优度,

SSE则可从反面判定线性模型的拟合优度。的无偏估计量,有SST=SSR+SSE对于一元线性回归模型第17页,共77页,2023年,2月20日,星期四YOURSITEHERE5.拟合优度系数R2拟合程度——样本观测值聚集在样本回归线周围的紧密程度。或(又称样本决定系数、测定系数、判定系数,CoefficientofDetermination)第18页,共77页,2023年,2月20日,星期四YOURSITEHERE5.拟合优度系数R2拟合程度——样本观测值聚集在样本回归线周围的紧密程度。其它等价表示:(又称样本决定系数、测定系数、判定系数,CoefficientofDetermination)第19页,共77页,2023年,2月20日,星期四YOURSITEHERER2性质:①R2度量了由回归模型作出的解释的y变差在y总变差中所占的比例(或百分数),由于在总变差恒定,故R2越大,回归效果越好。②反映回归直线(回归方程)拟合程度③取值范围是 0≤R2≤1R2=1表示完全拟合;R2=0表示自变量和因变量之间没有任何线性关系。④测定系数等于相关系数的平方。计算R2不能代替对回归方程总体线性关系的F检验。第20页,共77页,2023年,2月20日,星期四YOURSITEHERE第三节多元线性回归第21页,共77页,2023年,2月20日,星期四YOURSITEHERE一、多元线性回归模型和回归方程回归模型

(强假定条件)(i=1,2,…,n)

第22页,共77页,2023年,2月20日,星期四YOURSITEHERE多元线性回归模型的回归方程为:为待估回归参数,在多元线性回归中称为偏回归系数(partialregressioncoefficient),表示各个回归系数在回归方程中其它自变量保持不变情况下,自变量xj每增加一个单位时因变量y的平均增加程度。第23页,共77页,2023年,2月20日,星期四YOURSITEHERE二、参数估计1.回归系数的最小二乘估计定义离差平方和(p+1)元函数(非负二次函数):矩阵表示普通最小二乘法(OrdinaryLeastSquareEstimation,OLSE)基本思想:第24页,共77页,2023年,2月20日,星期四YOURSITEHERE满足下列方程组→矩阵形式表示第25页,共77页,2023年,2月20日,星期四YOURSITEHERE当存在时,即得回归参数的最小二乘估计为上式整理后可得用矩阵形式表示的

正规方程组(NormalEquations)为(经验)回归方程。移项得称第26页,共77页,2023年,2月20日,星期四YOURSITEHERE2.标准误差无偏估计SST=SSR+SSE第27页,共77页,2023年,2月20日,星期四YOURSITEHERE检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系回归方程的显著性检验(线性关系的检验)三、显著性检验第28页,共77页,2023年,2月20日,星期四YOURSITEHERE1.提出假设H0:12p=0线性关系不显著H1:1,2,,p至少有一个不等于02.计算检验统计量F3.确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F(上侧分位数)4.作出决策若FF,拒绝H0;若F<F,接受H0回归方程的显著性检验步骤第29页,共77页,2023年,2月20日,星期四YOURSITEHERE给定信度α

(α

=0.05,0.01,0.1),查表求如果统计量:则回归高度显著则回归在α=0.05水平上显著则回归在α=0.1水平上显著则回归不显著。第30页,共77页,2023年,2月20日,星期四YOURSITEHERE1.如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量xi

对因变量y的影响是否显著2.对每一个自变量都要单独进行检验3.应用t检验4.在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验。回归系数的显著性检验要点第31页,共77页,2023年,2月20日,星期四YOURSITEHERE1.提出假设H0:

=0(自变量xi与

因变量y没有线性关系)H1:

0(自变量xi与

因变量y有线性关系)2.计算检验的统计量t3.确定显著性水平,并进行决策tt,拒绝H0;t<t,接受H0回归系数的显著性检验步骤第32页,共77页,2023年,2月20日,星期四YOURSITEHERE1.将各控制单元的自变量代入最优回归方程,求出各控制单元的回归估计值。这样,每个单元都有一个观测值yi和回归估值。

2.以控制单元为横坐标,以矿床值(或其对数值)为纵坐标,绘出矿床值上升序列曲线图。根据上升序列曲线图及各单元的矿化情况,确定回归估计临界值。 确定回归估计临界值时要考虑以下因素:(1)已知单元矿床值的大小及预测要求。(2)上升序列曲线的变化趋势。四、确定回归估计临界值

进行成矿远景区预测第33页,共77页,2023年,2月20日,星期四YOURSITEHERE回归估计临界值也可采用已知有矿控制单元回归估计值的平均值或最小值,或已知有矿床单元回归估值的最小值与已知有矿点单元回归估值最大值的平均值。第34页,共77页,2023年,2月20日,星期四YOURSITEHERE若某单元的回归估计值大于回归临界值,说明该单元为找矿远景单元,其中可能有矿床的产出。反之,可能为无矿单元。另外,还可将未知单元回归估计值的大小与已知有矿单元回归估计值进行对比,以次来确定找矿远景单元的级别。如果控制单元的矿床值yi与回归估计值呈线性相关,则可将预测单元的回归估值转换成矿床值,并进而转换成资源量。3.将未知单元的自变量观测值代入回归方程,确定每个单元的回归估计值第35页,共77页,2023年,2月20日,星期四YOURSITEHERE注意在所选控制区单元中自变量的取值尽可能分散一些,样本可尽可能大一些(使得回归系数估计更稳定和避免回归曲线外推预测)注意异常值和空缺数据的处理。注意其时间、空间特性(时间序列数据、空间数据),要注意数据是否具备可比性、等方差性。在回归模型的运用中,我们还强调定性分析与定量分析的有机结合。数理统计方法所研究的数量关系是否反映事物的本质?本质究竟如何?在实际问题中,我们不能仅凭样本数据估计的结果不加分析地定论,必须把参数估计的结果和学科理论知识、具体地质问题以及现实情况紧密结合,这样才能保证回归模型在地质问题研究中的正确应用。当然,建立正确的数学模型,有效提取信息、有效解释变异和有效查明数量规律,对于地质概念和定义的多解性、地质假说及理论的可检验性可发挥特殊作用。第36页,共77页,2023年,2月20日,星期四YOURSITEHERE第四节逐步回归第37页,共77页,2023年,2月20日,星期四YOURSITEHERE在实际问题中可以提出许多对应变量有影响的自变量,变量选择太少或不恰当,会使建立的模型与实际有较大的偏离;而变量选得太多,增加了模型的复杂度,模型应用费用增加,并且有时也会削弱估计和预测的稳定性。我们希望矿床值和各地质因素及找矿标志线性关系密切,即回归效果要好,同时方程中每个自变量对矿床值的影响显著而相互之间的相关很小(避免提供重叠信息)。这就存在回归方程中最优变量组合问题。这样,既保证尽量高的预报精度,同时最大限度地减少自变量是运算方便又不失信息。一、回归分析中变量选择问题变量选择问题是一个十分重要的问题!第38页,共77页,2023年,2月20日,星期四YOURSITEHERE①对因变量有显著作用的自变量,全部选入回归方程;②对因变量无显著作用的自变量,一个也不引入回归方程。“最优回归方程”是指:选择”最优回归方程”的方法有:1.最优子集回归法2.向后剔除法(backwardselection)3.向前引入法(forwardselection)4.逐步回归法(stepwiseselection)逐步选择法第39页,共77页,2023年,2月20日,星期四YOURSITEHERE按一定准则选择最优模型,常用的准则有:①校正决定系数(考虑了自变量的个数):

R2adj达到最大。②Cp准则(C即criterion,p为所选模型中变量的个数:Cp统计量达到最小③AIC准则(Akaike’sInformationCriterion)

AIC越小越好有p个可供选择的自变量,可能的回归方程有2p-1个。二、最优子集回归法第40页,共77页,2023年,2月20日,星期四YOURSITEHERE三、逐步选择法1.前进法(forwardselection)---只进不出

若max(Fj)>Fα,引入j变量后退法(backwardelimination)---只出不进 若min(Fj)<Fα,剔除j变量3.逐步回归法(stepwiseregression)---有进有出它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验此F检验与对j变量回归系数的t检验是一致的。第41页,共77页,2023年,2月20日,星期四YOURSITEHERE前进法局限性:后续变量的引入可能会使先进入方程的自变量变得不重要。后退法局限性:自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程。双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法)---逐步回归小样本检验水准

a一般定为0.10或0.15,

大样本把a值定为0.05。

a值越小表示选取自变量的标准越严第42页,共77页,2023年,2月20日,星期四YOURSITEHERE在供选择的m个自变量中,依各自变量对因变量作用的大小,即偏回归平方和的大小,由大到小把自变量依次逐个引入。每引入一个变量,就对它进行假设检验。当该自变量的偏回归平方和经检验是显著时,将该自变量引入回归方程。新变量引入回归方程后,对方程中原有的自变量也要进行假设检验,并把贡献最小且退化为不显著的自变量逐个剔出方程。逐步回归分析的基本思想因此逐步回归每一步(引入一个自变量或剔除一个自变量)前后都要进行假设检验,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。回归结束,最后所得方程即为所求得的“最优”回归方程。第43页,共77页,2023年,2月20日,星期四YOURSITEHERE曲线估计(CurveEstimation)对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方便地进行线性拟合(liner)、二次拟合(Quadratic)、三次拟合(Cubic)等。采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述(例如看修正AdjustedR2)rainfallandresultingwaterlevelchangesdatafromaandslidealongtheOhioRivervalleynearCincinnati,Ohio(HanebergandGökce,1994)第44页,共77页,2023年,2月20日,星期四YOURSITEHERE实例安徽××地区玢岩铁矿床

矿石矿物为磁铁矿第45页,共77页,2023年,2月20日,星期四YOURSITEHERE已知 n=32 p=2未知 m=7x1

磁异常指数x2

闪长玢岩出露面积比值y矿床经济价值(作对数变换)y<22-3.5>3.5矿点小矿大中矿UnitID x1 x2 y6 0.958 0.010 0.77812 1.456 24.200 2.20414 0.001 0.010 0.47720 1.861 36.250 4.00721 2.301 0.750 0.47727 2.045 6.250 5.38528 3.057 35.210 5.63631 0.612 0.010 0.47733 1.513 7.000 0.47735 2.000 22.700 5.76336 1.468 7.250 3.99237 0.001 0.010 0.47743 0.783 0.570 0.47745 1.301 73.000 5.46746 2.672 24.200 5.03547 3.250 75.200 3.46456 1.096 7.000 0.47758 0.001 8.500 2.55359 2.950 11.000 0.82960 1.491 11.000 0.47763 0.001 0.750 0.95464 0.001 1.500 0.95465 0.001 5.750 4.62566 0.001 1.500 0.47767 0.001 0.010 0.47768 0.001 0.750 0.95476 0.001 0.010 3.43777 0.001 0.010 0.47783 0.001 0.010 0.77887 0.001 1.000 0.47789 0.001 0.150 2.813100 0.001 0.010 0.477UnitID x1 x2 y29 1.602 0.001 30 0.001 0.001 34 0.001 0.750 44 1.021 0.001 48 2.672 34.500 49 1.740 0.001 51 1.491 22.000第46页,共77页,2023年,2月20日,星期四YOURSITEHEREX1yyX1X2X2yX2X1第47页,共77页,2023年,2月20日,星期四YOURSITEHEREy=1.1921+0.3241*x1+0.0489*x2

yMean=2.0572SST=117.8631SSE=73.2383SSR=SST-SSE=44.6248第48页,共77页,2023年,2月20日,星期四YOURSITEHEREyX2X1第49页,共77页,2023年,2月20日,星期四YOURSITEHEREUnitID x1 x2 y yfit y-yfit6 0.958 0.010 0.778 1.503 -0.72512 1.456 24.200 2.204 2.848 -0.64414 0.001 0.010 0.477 1.193 -0.71620 1.861 36.250 4.007 3.569 0.43821 2.301 0.750 0.477 1.975 -1.49827 2.045 6.250 5.385 2.161 3.22428 3.057 35.210 5.636 3.906 1.73131 0.612 0.010 0.477 1.391 -0.91433 1.513 7.000 0.477 2.025 -1.54835 2.000 22.700 5.763 2.951 2.81236 1.468 7.250 3.992 2.023 1.96937 0.001 0.010 0.477 1.193 -0.71643 0.783 0.570 0.477 1.474 -0.99745 1.301 73.000 5.467 5.185 0.28246 2.672 24.200 5.035 3.242 1.79347 3.250 75.200 3.464 5.925 -2.46156 1.096 7.000 0.477 1.890 -1.41358 0.001 8.500 2.553 1.608 0.94559 2.950 11.000 0.829 2.686 -1.85760 1.491 11.000 0.477 2.214 -1.73763 0.001 0.750 0.954 1.229 -0.27564 0.001 1.500 0.954 1.266 -0.31265 0.001 5.750 4.625 1.474 3.15166 0.001 1.500 0.477 1.266 -0.78967 0.001 0.010 0.477 1.193 -0.71668 0.001 0.750 0.954 1.229 -0.27576 0.001 0.010 3.437 1.193 2.24477 0.001 0.010 0.477 1.193 -0.71683 0.001 0.010 0.778 1.193 -0.41587 0.001 1.000 0.477 1.241 -0.76489 0.001 0.150 2.813 1.200 1.613100 0.001 0.010 0.477 1.193 -0.716yyfit第50页,共77页,2023年,2月20日,星期四YOURSITEHEREF0.01(2,29)=5.42F0.05(2,29)=3.34F0.1(2,29)=2.49R2=SSR/SST=0.3786F=(SSR/2)/(SSE/29)=8.8350p-value=0.0010=sqrt(SSE/29)=

1.5892第51页,共77页,2023年,2月20日,星期四YOURSITEHERE第52页,共77页,2023年,2月20日,星期四YOURSITEHEREUnitIDx1x2y291.6020.0011.711300.0010.0011.193340.0010.7501.229441.0210.0011.523482.67234.5003.746491.7400.0011.756511.49122.0002.752<2矿点小矿大中矿>3.5未知单元预测预测临界回归估计值=2.5已知单元8个第53页,共77页,2023年,2月20日,星期四YOURSITEHERE本讲介绍的线性回归,仅仅是回归的一种,也是历史最悠久的一种。但是,任何模型都是某种近似;线性回归当然也不例外。它被长期广泛深入地研究主要是因为数学上相对简单。它已经成为其他回归的一个基础。应该用批判的眼光看待这些模型。NOTES第54页,共77页,2023年,2月20日,星期四YOURSITEHERE残差图——以残差为纵坐标,以自变量为横坐标标准化残差回归函数的形式应为曲线回归分析中

存在异方差性五、残差分析第55页,共77页,2023年,2月20日,星期四YOU

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论