第08讲回归分析法预测A_第1页
第08讲回归分析法预测A_第2页
第08讲回归分析法预测A_第3页
第08讲回归分析法预测A_第4页
第08讲回归分析法预测A_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第九讲第九讲 回归分析法预测回归分析法预测(Regression Analysis) 主要内容一、 引 言二、 一元线性回归三、多元线性回归四、逐步回归分析函数关系:变量间的确定性关系,有精确的数学表达式。统计关系:根据大量观测或试验数据建立起来的一种经验关系。变变量量间间的的关关系系 一、引 言矿床的形成及矿床规模受各种地质条件的控制。矿床统计预测的主要目的就是建立矿床值(矿化强度)y与各种地质变量(控矿地质因素和找矿标志)(xi)之间的统计相关关系,即 y = f (xi) (i = 1, 2, , p) 一旦这种统计关系建立起来以后,便可以对未知单元进行成矿预测,这就是利用回归分析数学

2、模型进行矿床统计预测的基本思想。 r回归分析是研究自变量与因变量之间相关关系(统计关系、因果关系)的一种统计分析方法。r对地质变量而言,也就是从不存在确定性关系的大量观测数据中,建立一个地质变量与另一个或多个地质变量之间相关关系的数学表达式。r回归分析是一种由因索果的定量分析、预测技术。 回归分析(Regression Analysis)的定义:回归分析的数学模型是:回归分析的数学模型是: 01piiiybb x因变量y的回归估计值。 xi自变量,即控矿地质因素或找矿标志。 b0常数, bi待定系数,亦叫权系数r确定回归方程:确定回归方程:确定一个地质变量与另一个或其它几个地质变量之间是否存在

3、相关关系,如果存在的话,通过适当的方法找出它们之间的数学表达式;r成矿预测:成矿预测:根据一个或几个变量值(自变量,相对而言较易测定),来预测另一个地质变量(因变量,不易观测)的估计值,并确定预测精度r判断自变量与因变量的亲疏关系:判断自变量与因变量的亲疏关系:在共同影响某个特定变量(因变量)的许多变量(自变量)之中,找出哪些是重要的,哪些是次要的,以及它们之间有什么关系。回归分析的主要作用:回归分析的主要作用:利用回归分析进行矿床统计预测的基本步骤:利用回归分析进行矿床统计预测的基本步骤:、根据预测对象、预测范围和预测比例尺,将研究区划分成若干个单元,并选取控制单元。2、变量的选取和研究(取

4、值、变换、构置、筛选);地质数据预处理(标准化、均一化等)3、根据控制单元建立最优回归方程,并对其进行显著性检验。 4、若回归方程通过检验,则可用于未知单元的预测,圈定成矿远景区,对远景区进行地质分 析、检查和评价;若未通过检验,说明变量选取不当或控制单元选择不合理,重复上述步骤。二、一元线性回归分析二、一元线性回归分析设某种控矿因素x与矿床值y之间有如下图所示的关系: xyy和x之间的关系可用一条最佳直线方程来拟合: 该方程就称为y对x的线性回归方程,其中: x自变量(控矿地质因素) xi所对应的y的回归估计值,称回归估值a常数,回归直线在y轴上的截距 (intercept ) b待定系数,

5、此时称回归系数(regression coefficient),数值上等于回归直线的斜率(slope) a + bx 总之,对同一批数据(样本),可以有无数条直线来拟合y与x的关系,但其中只有一条是最优的,这条直线所对应的统计函数关系就是我们要求的回归方程。 那么,如何寻找这条最优的直线呢?数学上就是要寻找一对常数a和回归系数b,使偏差(deviation) -yi的平方和达到最小,即:2211()()minnniiiiiiQyyabxyimum(最小二乘法) yiyi根据极值的求法,欲使Q达到最小,只需上述方程对a, b的偏导数等于零,即:2211()()minnniiiiiiQyyabxy

6、imum对上二式经运算、移项、整理后得下列线性方程组:解上述方程组可得:22222()()nxyxybnxxxyxyanxx 于是得到最优一元线性回归方程: iiyabxx1 y1x2 y2x3 y3 . . . . . .xn yn三、多元线性回归(一)数学模型 建立最优回归方程的关键仍然是计算b0 和bi。方法如下: (1) 利用原始观测数据矩阵求bi 在研究区选取n个控制单元和p个地质变量,对(p+1)个变量(xi, y)进行n次观测,获得n组观测数据和由n个方程组成的方程组。 01piiiybb x对n个已知单元进行观测,获得以下观测数据矩阵:12.nyyyy1112121222121

7、.1.1.ppnnnpxxxxxxxxxXb0b1bpB = 0.00p10bQbQbQn x1 x2xp x1 21x x1x2 x1xp x2 x2x1 22x x2xp xp x px1 xpx2 2pxb0 b1 b2 bp = y x1y x2y xpy ABC 以A,B,C分别代表上述三个矩阵,则A B = C 1 1 1 1 x11 x12 x1p x11 x21 xn1 1 x21 x22 x2p x12 x22 xn2 1 x31 x32 x3p = x1p x2p xnp 1 xn1 xn2 xnp XX00000n x1 x2xp x1 21x x1x2 x1xp x2

8、x2x1 22x x2xp xp x px1 xpx2 2px矩阵A =为一对称矩阵,可通过原始数据的增广矩阵X表示如下 矩阵C可写成: 1 1 1 y1 x11 x21 xn1 y2 C= x12 x22 xn2 y3 = x1p x2p xnp ynX Y于是, 11()BA CX XX YB就是我们所需要的回归系数矩阵(由p个元素 b0,b1, b2, , bp组成) A-1是A 的逆矩阵(inverse matrix)(2)利用相关矩阵求 将原始数据标准化标准化以后,计算相关矩阵如下: 1 r12 r13 r1p r1y r21 1 r23 r2p r2y rij= r31 r32 1

9、 r3p riy= r3y rp1 rp2 rp3 1 rpy 数学上可以证明: 1 r12 r13 r1p b1 r1y r21 1 r23 r2p b2 r2y r31 r32 1 r3p b3 = r3y rp1 rp2 rp3 1 bp rpy简写为:B = rij -1riy B就是回归系数矩阵。求出bi后,利用以下公式计算b0,)xb(ybiii01()()njkijjikkiSSxxxx (3)利用离差平方和/离差叉积和矩阵求bi第j个变量的离差平方和为: (j = 1, 2, 、p ) 第j个和第k个变量的离差叉积和为: ( j k ) 21()nijijjiSSxxSS11

10、SS12 SS1p SS21 SS22 SS2p SSp1 SSp2 SSpp SS1y SS2ySSpyb1b2bp=回归系数矩阵B为: B=SSij-1SSiy (i ,j =1, 2, p) (二)标准回归系数和偏回归系数 根据相关矩阵求出的回归系数称为标准回归系数,记为bi, 而根据原始数据矩阵和离差平方和-离差叉积和矩阵求出的系数称为偏回归系数,记为bi。 其中,标准回归系数的绝对值大小真实地反映了各自变量在回归方程中的重要性,bi的绝对值越大,则xi对y的影响越大,条件是各xi之间的相关性很小。ixiiiyiiyxSbbSbb SS bi与bi有以下关系: Sxi自变量xi的标准差

11、, Sy因变量y的标准差。 至此,我们已求出回归系数,并可以建立回归方程。换句话说,我们已经根据地质模型建立了数学模型;该模型是否能有效地用于未知单元的预测。需要以过显著性检验。(三)回归方程的显著性检验 对回归方程进行显著性检验,目的是考查回归方程对预测区矿床值预测效果的好坏;在数学上就是考察回归方程中自变量与因变量之间线性关系的程度,常用方法有:1. 回代法 在已知的n个控制单元中只选取其中的m个( mF,引入引入j变量变量 2. 后退法(后退法(backward elimination)-只出不进只出不进若若min(Fj)F,剔除,剔除j变量变量3. 逐步回归法(逐步回归法(stepwi

12、se regression)-有进有出有进有出它们的共同特点是每一步只引入或剔除一个自变量。它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的决定其取舍则基于对偏回归平方和的F检验检验12( )(1);1;1(1)jmjSSR mSSR mFnmSSE nm自由度1,1)Fnm(此此F检验与对检验与对j变量回归系数的变量回归系数的t检检验是一致的。验是一致的。 前进法局限性:后续变量的引入可能会使前进法局限性:后续变量的引入可能会使先进入方程的自变量变得不重要。先进入方程的自变量变得不重要。后退法局限性:自变量高度相关时,可能得不出后退法局限性:自变量高度相关时,可

13、能得不出正确的结果;开始时剔除的变量即使后来变得有正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程显著性也不能再进入方程 。双向筛选:引入有意义的变量(前进法),双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法)剔除无意义变量(后退法)- 逐步回归逐步回归小样本检验水准小样本检验水准 a 一般定为一般定为0.10或或0.15,大样本把大样本把a值定为值定为0.05。 a值越小表示选取自变量的标准越严值越小表示选取自变量的标准越严在供选择的在供选择的m个自变量中,依各自变量对因变量作用的大小,个自变量中,依各自变量对因变量作用的大小,即偏回归平方和的大小,由大到小把自

14、变量依次逐个引入。每即偏回归平方和的大小,由大到小把自变量依次逐个引入。每引入一个变量,就对它进行假设检验。引入一个变量,就对它进行假设检验。当该自变量的偏回归平方和经检验是显著时,将该自变量引入当该自变量的偏回归平方和经检验是显著时,将该自变量引入回归方程。回归方程。新变量引入回归方程后,对方程中原有的自变量也要进行假设新变量引入回归方程后,对方程中原有的自变量也要进行假设检验,并把贡献最小且退化为不显著的自变量逐个剔出方程。检验,并把贡献最小且退化为不显著的自变量逐个剔出方程。逐步回归分析的基本思想逐步回归分析的基本思想因此逐步回归每一步(引入一个自变量或剔除一个自变量)前因此逐步回归每一

15、步(引入一个自变量或剔除一个自变量)前后都要进行假设检验,直至既没有自变量能够进入方程,也没后都要进行假设检验,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。有自变量从方程中剔除为止。回归结束,最后所得方程即为所求得的回归结束,最后所得方程即为所求得的“最优最优”回归方程。回归方程。实例实例安徽安徽地区玢岩铁矿床地区玢岩铁矿床矿石矿物为磁铁矿矿石矿物为磁铁矿已知已知n=32p=2未知未知m=7x1 磁异常指数磁异常指数x2 闪长玢岩出露面积比值闪长玢岩出露面积比值y 矿床经济价值(作对数变换)矿床经济价值(作对数变换)y 3.5 矿点矿点 小矿小矿 大中矿大中矿01 122 yx

16、xUnitIDx1x2y60.958 0.010 0.778 121.456 24.200 2.204 140.001 0.010 0.477 201.861 36.250 4.007 212.301 0.750 0.477 272.045 6.250 5.385 283.057 35.210 5.636 310.612 0.010 0.477 331.513 7.000 0.477 352.000 22.700 5.763 361.468 7.250 3.992 370.001 0.010 0.477 430.783 0.570 0.477 451.301 73.000 5.467 462.

17、672 24.200 5.035 473.250 75.200 3.464 561.096 7.000 0.477 580.001 8.500 2.553 592.950 11.000 0.829 601.491 11.000 0.477 630.001 0.750 0.954 640.001 1.500 0.954 650.001 5.750 4.625 660.001 1.500 0.477 670.001 0.010 0.477 680.001 0.750 0.954 760.001 0.010 3.437 770.001 0.010 0.477 830.001 0.010 0.778

18、870.001 1.000 0.477 890.001 0.150 2.813 1000.001 0.010 0.477 UnitIDx1x2y291.602 0.001 300.001 0.001 340.001 0.750 441.021 0.001 482.672 34.500 491.740 0.001 511.491 22.000YOUR SITE HEREX1yyX1X2X2yX2X1y = 1.1921 + 0.3241*x1 + 0.0489*x2 yMean = 2.0572SST = 117.8631SSE = 73.2383SSR = SST-SSE = 44.6248

19、222111RegressionErrorTotal()()()nnniiiiiiiyyyyyy回归平方和残差(剩余)平方和总离差平方和(回归变差)(残差(剩余)变差)(总变差)UnitIDx1x2yyfity-yfit60.958 0.010 0.778 1.503 -0.725 121.456 24.200 2.204 2.848 -0.644 140.001 0.010 0.477 1.193 -0.716 201.861 36.250 4.007 3.569 0.438 212.301 0.750 0.477 1.975 -1.498 272.045 6.250 5.385 2.161

20、 3.224 283.057 35.210 5.636 3.906 1.731 310.612 0.010 0.477 1.391 -0.914 331.513 7.000 0.477 2.025 -1.548 352.000 22.700 5.763 2.951 2.812 361.468 7.250 3.992 2.023 1.969 370.001 0.010 0.477 1.193 -0.716 430.783 0.570 0.477 1.474 -0.997 451.301 73.000 5.467 5.185 0.282 462.672 24.200 5.035 3.242 1.7

21、93 473.250 75.200 3.464 5.925 -2.461 561.096 7.000 0.477 1.890 -1.413 580.001 8.500 2.553 1.608 0.945 592.950 11.000 0.829 2.686 -1.857 601.491 11.000 0.477 2.214 -1.737 630.001 0.750 0.954 1.229 -0.275 640.001 1.500 0.954 1.266 -0.312 650.001 5.750 4.625 1.474 3.151 660.001 1.500 0.477 1.266 -0.789 670.001 0.010 0.477 1.193 -0.716 680.001 0.750 0.954 1.229 -0.275 760.001 0.010 3.437 1.193 2.244 770.001 0.010 0.477 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论