第三章回归分析_第1页
第三章回归分析_第2页
第三章回归分析_第3页
第三章回归分析_第4页
第三章回归分析_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 内容:回归分析概念及解决的问题、多元线性回归分内容:回归分析概念及解决的问题、多元线性回归分析、逐步回归分析、油气勘探中的应用,析、逐步回归分析、油气勘探中的应用,回归分析计算程回归分析计算程序留作同学上机练习和自学。序留作同学上机练习和自学。 1.1.变量间的关系变量间的关系 若变量若变量 y 的变化依赖于变量的变化依赖于变量 x i (i=1、2、m),那,那么么 y 与与 x i 之间的关系大致分为两类:之间的关系大致分为两类: 1)1)函数关系函数关系第三章第三章 回回 归归 分分 析析1 1 回归分析的概念及其解决的问题回归分析的概念及其解决的问题 一、基本概念一、基本概念 如曲边

2、梯形的面积如曲边梯形的面积S是曲边纵坐标是曲边纵坐标 f (x) 在其底边在其底边a,b区间上的积分,即区间上的积分,即:这类函数关系是数学分析的研究对象。这类函数关系是数学分析的研究对象。 badxxfS)( 2) 2) 相关关系相关关系 如生油门限时间如生油门限时间t t与生油层的温度与生油层的温度T T、埋藏深度、埋藏深度H H 和干和干酪根类型酪根类型k等地质因素有关,但它们之间却没有确切的数等地质因素有关,但它们之间却没有确切的数量关系。量关系。称称变量间不确切的依赖关系为变量的相关关系变量间不确切的依赖关系为变量的相关关系。它是回归分析的研究对象它是回归分析的研究对象。 2. 相关

3、变量相关变量 相关变量是存在着相互依赖性和制约性,但并没有严相关变量是存在着相互依赖性和制约性,但并没有严格数量关系的变量。格数量关系的变量。 【例例1】生油门限时间生油门限时间t 依赖于生油层的温度依赖于生油层的温度T 及其埋及其埋藏深度藏深度H等。温度越高、埋藏越深,有机质演化为油气所等。温度越高、埋藏越深,有机质演化为油气所需要的时间就越短,反之就长。需要的时间就越短,反之就长。 t 与与T、H 具相关性具相关性, 是相是相关变量。关变量。 【例例2】含油气地质单元中的油气资源量含油气地质单元中的油气资源量 Q 随地质单随地质单元内生油岩体积元内生油岩体积 、储集岩体积、储集岩体积 、近

4、油源圈闭面积、近油源圈闭面积S的的增大及有机质转化率增大及有机质转化率 k 的升高而增多,却随盆地所经受的的升高而增多,却随盆地所经受的剥蚀次数剥蚀次数n的增多而减少。上述地质变量也是相关变量。的增多而减少。上述地质变量也是相关变量。1V2V 3.3.回归分析回归分析 二、回归分析解决的问题二、回归分析解决的问题四方面的问题:四方面的问题:1)1)变量间是否存在相关性;变量间是否存在相关性;2)2)若存在相关性,确定相关密切的变量;若存在相关性,确定相关密切的变量;3)3)建立相关变量间的定量表达式;建立相关变量间的定量表达式;4)4)实际应用。实际应用。 根据相关变量根据相关变量 、 的观测

5、值,建立的观测值,建立 与与 之间定量关系的一种多元统计方法。之间定量关系的一种多元统计方法。), 2 , 1(mixiixyy2 多元线性回归分析多元线性回归分析 一、回归模型与回归方程一、回归模型与回归方程) 13(10miiixaay则称则称 y 与与 xi 之间具有之间具有 m 元线性相关关系,简称为线性关元线性相关关系,简称为线性关系,并称式系,并称式(3-1)(3-1)为为线性回归模型线性回归模型,其中,其中a0、a1、am 待定系数待定系数; ;误差项,且误差项,且 N(0,2)。若。若b0、b1、b m是是a0、a1、am 的最佳估计值,则有:的最佳估计值,则有:)23(10m

6、iiixbby 若变量若变量 y 与与 之间具有关系:之间具有关系:), 2 , 1(mixi)43(10miikikxbby 假设已有假设已有 x i 和和 y 的的 n 组观测值,记为:组观测值,记为:把式把式(3-3)(3-3)中的中的 x i k代入式代入式(3-2)(3-2),可得:,可得:),2,1(),(21nkyxxxkmkkk)33( 称式称式( (3-2) )为为 对对y的的线性回归方程线性回归方程, 而而 、 、 、 叫叫做做回归系数回归系数。ix0b1bmb 二、确定回归系(最小二乘法)二、确定回归系(最小二乘法)miiixbby10),(kkiyx),(kkiyx2)

7、(kkyym+1+1维空间维空间的一个平面的一个平面 确定回归系数的原则是使确定回归系数的原则是使 n 个偏差的平方和个偏差的平方和 )53()(121nkkkyyQ, ,并且并且 00,根据极值原理,故有:,根据极值原理,故有:1Q达到最小,由式达到最小,由式(3-5)(3-5)可知:可知:? 是关于是关于 、 、 的二次函数的二次函数1Q0b1bmb00011101mbQbQbQ(3-6)式式(3-6)(3-6)是是以以b0、b1、 、b m为未知数的线性方程组,从中为未知数的线性方程组,从中可解出可解出b0、b1、 、b m,得式,得式(3-2)(3-2),即,即 使偏差平方和最小确定数

8、使偏差平方和最小确定数 的方法叫最小二乘法的方法叫最小二乘法。)23(10miiixbby这就确定了相关变量间的定量关系。这就确定了相关变量间的定量关系。 前面的讨论是假设前面的讨论是假设 y 与与 具有线性关系,假设是否成具有线性关系,假设是否成立?要对假设进行检验。为此,先定义以下几个统计量:立?要对假设进行检验。为此,先定义以下几个统计量:ix :偏差平方和,反映观测值与:偏差平方和,反映观测值与回归值的逼近程度;回归值的逼近程度; nkkkyyQ121)(nkkyyQ12)( :总偏差平方和,反映:总偏差平方和,反映 y 观测值观测值离散程度的一个指标;其中离散程度的一个指标;其中 :

9、 :回归平方和,反映:回归平方和,反映 的变化的变化对对 y 引起的波动。引起的波动。nkkyyQ122)(ix三、回归模型检验三、回归模型检验nkkyny11 根据根据式式(3-7)(3-7),定义变量定义变量 y 与与 xi 的复相关系数的复相关系数作为检验变量相关程度的指标。作为检验变量相关程度的指标。2/12)/(QQR 21QQQ可以证明可以证明: : (3-7) R 的绝对值越接近于的绝对值越接近于 1,变量间的相关性越密切,即变量间的相关性越密切,即回归方程越显著。回归方程越显著。 nkkyyQ122)(nkkyyQ12)( 例:例:岩石渗透率岩石渗透率k与声波时差与声波时差t、

10、自然伽玛相对值、自然伽玛相对值GR之间具有:之间具有: 四、非线性回归分析四、非线性回归分析GRxtxky21,ln,ln 对于上例,若令:对于上例,若令:则可化为线性回归模型则可化为线性回归模型22110 xaxaayGRataak210lnln的非线性关系。如何求回归方程的非线性关系。如何求回归方程? 对非线性相关变量进行回归分析,先用变量替换的方对非线性相关变量进行回归分析,先用变量替换的方法将其化为线性关系,然后再求回归方程。法将其化为线性关系,然后再求回归方程。xbbylog1001b01b图图a 对数曲线对数曲线图图b 指数函数曲线指数函数曲线xbaey101b01bxbaey10

11、1b01b图图c 指数曲线指数曲线图图d 抛物线曲线抛物线曲线25423210zbxzbxbzbxbby常用的非线性关系曲线常用的非线性关系曲线mir iirxbby10 1. 预测预测 把变量把变量 (i =1、2、m; r =1、2、)的值代入式的值代入式(3-2) ,求出,求出 的估计值:的估计值:irxry) 2, 2(), (rrrryyyy) 1/(1mnQ 五、回归预测与控制五、回归预测与控制就是所谓的回归预测就是所谓的回归预测( (用回归方程估计因变量的值用回归方程估计因变量的值) )。 当当 时,时, 落在区间:落在区间:iknkiriknkxxx11maxminry内的概率

12、分别为内的概率分别为68%68%和和95%95%(图(图3-13-1)。其中剩)。其中剩余标准差余标准差2 图图3-1 回归精度示意图回归精度示意图 mir iirxbby10对应对应 的观测值的观测值irxry2ry2ry95% 2. 控制控制 调整调整 的值,使的值,使 落在区间落在区间 内就是控制内就是控制。y),(21yyix 改变储层非均质性、储层表面润湿性、流度比改变储层非均质性、储层表面润湿性、流度比( (驱动驱动液流度与被驱动液流度的比值液流度与被驱动液流度的比值) )等因素,使原油采收率提等因素,使原油采收率提高在某个范围内,是回归预测的一个典型例子。高在某个范围内,是回归预

13、测的一个典型例子。3 逐步回归分析逐步回归分析一、逐步回归的提出及其基本思想一、逐步回归的提出及其基本思想 如前所述,对于有机质向石油的演化速度来说,生如前所述,对于有机质向石油的演化速度来说,生油层的温度比埋藏深度影响更大,那么如何定量地衡量油层的温度比埋藏深度影响更大,那么如何定量地衡量某地质因素对研究问题的作用呢?为此,介绍一个统计某地质因素对研究问题的作用呢?为此,介绍一个统计指标指标相关系数,它是衡量变量相关程度的一个度量相关系数,它是衡量变量相关程度的一个度量。 假设:假设:1. 逐步回归的提出逐步回归的提出1) 变量变量 对对y 的作用不同的作用不同ix),(),(jnjjjin

14、iiixxxxxxxx2121jji ijijiSSSr/其相关系数定义为:其相关系数定义为:nkjijkikjimjmixxnxxS1) 1,2,1;,2,1(式中: 由定义可知,当由定义可知,当 = 时,时, =1。表明两变量的观。表明两变量的观测值完全相同,即相关程度达到最高。测值完全相同,即相关程度达到最高。ixjxijr 下面看一个实例: 【例【例1】据下表内生油层数据,试分析生油门限时间】据下表内生油层数据,试分析生油门限时间 t 分别对生油层度温分别对生油层度温T 和埋藏深度和埋藏深度H 的依赖的依赖性性( (相关性相关性) )。序号序号含油气盆地(地区)含油气盆地(地区)现在温

15、度现在温度( ( T T )/)/实际深度实际深度( ( H H )/m)/m地层年龄地层年龄( ( t t )/Ma)/Ma1 12 23 34 45 56 67 78 89 9101011111212131314141515161617171818杜阿拉盆地杜阿拉盆地( (喀麦隆喀麦隆) )落山矶盆地落山矶盆地( (美国美国) )文吐拉盆地文吐拉盆地( (美国美国) )巴黎盆地巴黎盆地( (法国法国) )阿启坦盆地阿启坦盆地(1)(1)(法国法国) )阿启坦盆地阿启坦盆地(2)(2)(法国法国) )卡马尔圭盆地卡马尔圭盆地( (法国法国) )阿尤恩地区阿尤恩地区苏绿海盆地苏绿海盆地( (沙

16、巴沙巴) )塔拉纳基盆地塔拉纳基盆地( (新西兰海上新西兰海上) )亚马逊盆地亚马逊盆地( (委内内瑞拉委内内瑞拉) )塔拉纳基盆地塔拉纳基盆地( (新西兰海上新西兰海上) )东营盆地东营盆地潜江盆地潜江盆地松辽盆地松辽盆地(1)(1)松辽盆地松辽盆地(2)(2)松辽盆地松辽盆地(3)(3)辽河盆地辽河盆地65651151151271276060909072721061068585120120808062629595939390907070656563638181120012002400240027402740140014003300330025002500325032502740274030

17、5030502900290017501750335033502200220022002200133013301230123011801180170017007070121212121801801121121351353838105105121270703593593232353535351101101001009090505018个盆地(地区)生油层数据个盆地(地区)生油层数据 根据研究资料,根据研究资料,t、T、H 三者之间具有关系三者之间具有关系 令令y=ln t 、x =1/(T+273)、z=1/H,那么,那么y与与x、z 的相的相关系数分别为关系数分别为: 根据表中数据,计算相关系数

18、,那么根据表中数据,计算相关系数,那么 t 与与T、H 的的相关系数分别为相关系数分别为:3587. 0tHr 和和6627. 0tTr由此表明:由此表明:有机质向石油演化的时间随着地温的升高和埋有机质向石油演化的时间随着地温的升高和埋藏深度的加大而缩短,但温度对演化时间起着主导作用藏深度的加大而缩短,但温度对演化时间起着主导作用。HaTaat/)273/(ln210 和8858. 0yxr4471. 0yzr 这与这与的结论一致,即的结论一致,即温度是有机质热演化进程的主温度是有机质热演化进程的主要因素。要因素。 该实例表明:对于拟定的自变量来说,各自对因变该实例表明:对于拟定的自变量来说,

19、各自对因变量的作用是不同的,其中很可能有不起作用的自变量。量的作用是不同的,其中很可能有不起作用的自变量。由此提出:由此提出:按自变量与因变量的相关程度逐步挑选自变按自变量与因变量的相关程度逐步挑选自变量建立回归方程,这是提出逐步回归分析的原因之一量建立回归方程,这是提出逐步回归分析的原因之一。 另外,我们可以进一步证明,另外,我们可以进一步证明,温度是有机质热演化进温度是有机质热演化进程的主要因素,温度不足可以在某个临界温度条件下通过程的主要因素,温度不足可以在某个临界温度条件下通过热演化时间来补偿。这是石油地质学中有机热成油学说的热演化时间来补偿。这是石油地质学中有机热成油学说的一个基础理

20、论问题。一个基础理论问题。需要对表中原始数据进行处理需要对表中原始数据进行处理 2) 2)变量间的相关性变量间的相关性 地质现象是地质作用过程迭加的结果,因此描述地质地质现象是地质作用过程迭加的结果,因此描述地质现象的变量现象的变量 之间就既有相对的独立性,又之间就既有相对的独立性,又存在着一定的成因联系。存在着一定的成因联系。对对 中具有成因联中具有成因联系的一些变量,好像各自对系的一些变量,好像各自对 y 都有不可忽视的影响。但是都有不可忽视的影响。但是,当把,当把 xi 选入回归方程后,又使得先选入的选入回归方程后,又使得先选入的 对对y的作用的作用变的无足轻重变的无足轻重。因此,就要把

21、。因此,就要把 这种变量从回归方程中去这种变量从回归方程中去掉,即对已选入回归方程中的变量进行逐步掉,即对已选入回归方程中的变量进行逐步“筛选筛选”,这这是提出逐步回归分析的另一个原因是提出逐步回归分析的另一个原因。), 2 , 1(mixixx), 2 , 1(mixi 在回归过程中,在回归过程中,按变量按变量xi(i=1,2,m)对对y作用的大小作用的大小,把作用达到一定程度的变量,把作用达到一定程度的变量xr(1rm)逐个逐个“引入引入”回归回归方程,同时还要逐个检验已引入回归方程的变量对方程,同时还要逐个检验已引入回归方程的变量对y的影的影响,若响,若 x ( xxr )对对y作用已不

22、显著,就再从回归方程中作用已不显著,就再从回归方程中“剔除剔除”它,如此进行下去,直到既没有对它,如此进行下去,直到既没有对y作用显著的作用显著的变量可引入回归方程,又没有作用不显著的变量从回归方变量可引入回归方程,又没有作用不显著的变量从回归方程程中中“剔除剔除”时为止。时为止。 回归分析结束时,若共引入了回归分析结束时,若共引入了l (l m) 个作用大的变个作用大的变量,那么含有量,那么含有 l个变量的回归方程:个变量的回归方程:2. 逐步回归的基本思想逐步回归的基本思想llkkkkkkxbxbxbby22110 在逐步回归中,不断地判断变量在逐步回归中,不断地判断变量 x i 对对 y

23、 的作用,那么的作用,那么如何衡量变量如何衡量变量 x i 对对 y 作用的大小呢?为此,就要构造一个作用的大小呢?为此,就要构造一个衡量变量衡量变量 x i 对对 y 作用大小的指标及检验作用大小的方法。作用大小的指标及检验作用大小的方法。89.10)273/(5346lnTt 二、变量的作用及作用大小的检验二、变量的作用及作用大小的检验 1. 1.衡量变量衡量变量 对对 作用的指标作用的指标kxy 【例例2 2】据据【例例1 1】中的数据分析变量的作用和相关性中的数据分析变量的作用和相关性 (1)(1)地层温度地层温度T T 对生油门限时间对生油门限时间t t的回归方程为:的回归方程为:

24、在此,不从理论上证明,仅以一个实例对这个问题加在此,不从理论上证明,仅以一个实例对这个问题加以说明,对其有个感性认识就可以了以说明,对其有个感性认识就可以了( (详教材详教材p33p3335)35)。 生油门限时间生油门限时间lntlnt与与1/(1/(T T+273)+273)的相关系数为的相关系数为0.8858,0.8858, 根据根据【例例1】中的数据和下式中的数据和下式 计算:计算: 总偏差平方和总偏差平方和 = 15.586; 偏差平方和偏差平方和 = 3.357; 回归平方和回归平方和 = 12.229; ; 相关系数相关系数 r = 0.8858。)1(1Q)1(2)1(1QQQ

25、Q)1(2Q89.10)273/(5346lnTt 请同学们注意请同学们注意偏差平方和与回归偏差平方和与回归平方和的值。平方和的值。 根据根据【例例1】中的数据和上式计算:中的数据和上式计算: 总偏差平方和总偏差平方和 = 15.586 ; 偏差平方和偏差平方和 = 1.685 ; 回归平方和回归平方和 = 13.900 ; 复相关系数复相关系数 r = 0.9444。)2(1QQ)2(2Q)2(2)2(1QQQ (2)(2)地地层温度层温度T、埋藏深度、埋藏深度H 对生油门限时间对生油门限时间 t 的回归的回归方程为:方程为:95.15/2370)273/(7585lnHTt 生油门限时间生

26、油门限时间lntlnt与与1/(1/(T T+273)+273)、1/1/H H 的相关系数为的相关系数为0.9444,0.9444,请同学们注意偏差平方和与回归平方和的值。请同学们注意偏差平方和与回归平方和的值。 3.35712.229r = 0.8858 由由【例例2】可知:回归方程中增加一个变量后,可知:回归方程中增加一个变量后,回归回归平方和的增加量等于偏差平方和的减少量平方和的增加量等于偏差平方和的减少量,即:,即:增加量增加量Q 是变量是变量 H 引入回归方程后,对引入回归方程后,对 t 引起的波动,引起的波动,常称其常称其为变量为变量H 对变量对变量 t 的方差贡献的方差贡献。

27、)2(1)1(1)1(2)2(2QQQQQ 一般情况下,一般情况下,变量变量 的方差贡献记为的方差贡献记为 ,它是衡量,它是衡量变量变量 对对 作用的一个指标。作用的一个指标。kxkVykx 下面讨论这个指标达到多大时,下面讨论这个指标达到多大时, 才被引入的问题。才被引入的问题。kx统计量统计量: 服从服从 分布分布)2/(),(1/ ),(21211lnxxxxQxxxVFkkkkkkkkkll)2, 1 (lnF方程中已有方程中已有l个变量,再增加个变量,再增加 时的方差贡献时的方差贡献kxl+1个变量的个变量的偏差平方和偏差平方和 2.2.检验变量检验变量 对对 作用大小的方法作用大小

28、的方法kxy(1)(1)检验检验 是否选入是否选入( (引入引入) )假设假设 :变量:变量 对对 作用不显著作用不显著( (作用不大作用不大) )0Hkxkxy式中式中 nn样本容量样本容量( (数据组数数据组数) );l回归方程中已选入的回归方程中已选入的自变量个数。自变量个数。 给定检验水平给定检验水平 (H0成立的概率成立的概率) ,查,查 分分),(21lnF布表得一个临界值,记为布表得一个临界值,记为 。当。当 时,则否定原假设时,则否定原假设,说明原假设不成立,应把变量,说明原假设不成立,应把变量 引入回归方程,否则引入回归方程,否则, ,回归引入变量结束。回归引入变量结束。1F

29、1FFkkx(2) (2) 检验检验 是否剔出是否剔出kx假设假设 (同前)(同前)0H统计量统计量: :) 1/(),(1/ ),(21211lnxxxQxxxVFllkkkkkkkk方程中已有方程中已有l个变量,其中个变量,其中 的方差贡献。的方差贡献。kxl个变量的偏差平方和个变量的偏差平方和服从服从 分布。分布。式中式中 n样本容量样本容量( (数据组数数据组数) );l回归方程中已选入的回归方程中已选入的自变量个数。自变量个数。 ) 1, 1 (lnF对检验方法的解释:对检验方法的解释: 作一次检验相当于进行了一次随机试验。那么进行一作一次检验相当于进行了一次随机试验。那么进行一次检

30、验则出现了次检验则出现了 ( (或或 ) ),意味着小概率事件在,意味着小概率事件在一次随机试验中发生了,这是不合理的,即假设一次随机试验中发生了,这是不合理的,即假设 不对,不对,对对 否定错了的概率为否定错了的概率为 。kF1FkF2F0H0H1F2F1假设假设 成立成立的概率为的概率为0H 给定检验水平给定检验水平 ,查,查 分布表得临界值分布表得临界值,若,若 ,则否定,则否定H0 ,即,即 对对 作用大,应将其留在作用大,应将其留在回归方程中,否则接受假设回归方程中,否则接受假设H0,从方程中去掉变从方程中去掉变量量 。 kF2F2Fkxkxy),(11lnF预预 备备 矩阵变换解方

31、程组矩阵变换解方程组: 对于一般的对于一般的n n阶线性方程组阶线性方程组 ) 1 ()0(1)0(2)0(21)0(1)0(12)0(22)0(221)0(21)0(11)0(12)0(121)0(11nnnnnnnnnnnnnaxaxaxaaxaxaxaaxaxaxa若若(1)(1)有有解,那么利用矩阵变换求解的过程如下:解,那么利用矩阵变换求解的过程如下: 1. 1.消元过程消元过程方程组系数矩阵方程组系数矩阵常常数数项项)0(1)0()0(3)0(2)0(1)0(13)0(3)0(33)0(32)0(31)0(12)0(2)0(23)0(22)0(21)0(11)0(1)0(13)0(

32、12)0(11nnnnnnnnnnnnnaaaaaaaaaaaaaaaaaaaa方程组系数矩阵方程组系数矩阵常数项常数项) 1 (1) 1 () 1 (3) 1 (2) 1 (13) 1 (3) 1 (33) 1 (32) 1 (12) 1 (2) 1 (23) 1 (22) 1 (11) 1 (1) 1 (13) 1 (120001nnnnnnnnnnnnaaaaaaaaaaaaaaaa第第1 1步步0) 0(11a设设第二步第二步0)1(22a设设)2(1)2()2(3)2(13)2(3)2(33)2(12)2(2)2(23)2(11)2(1)2(13)2(120000101nnnnnnn

33、nnnnaaaaaaaaaaaaa第第 n n 步步设设0)1(nnna)(1)(13)(3)(12)(2)(23)(11)(1)(13)(121000100101nnnnnnnnnnnnnnnnnnaaaaaaaaaa经过经过n n次消去计算,得到一个与次消去计算,得到一个与(1)(1)等价的方程组:等价的方程组:)2()(1)(12)(22)(11)(12)(121nnnnnnnnnnnnnnnaxaxaxaxaxax2.2.回代过程回代过程由式由式(2)(2)的第的第n n个方程得个方程得 )(1nnnnax把把 代入式代入式(2)(2)的第的第n-1n-1个方程得个方程得)(1nnnn

34、axnnnnnnnnxaax)(1)(111 再把再把 、 代入式代入式(2)(2)的第的第n-2n-2个方程求出个方程求出 ,如此逐个回代,可求出方程组的解。,如此逐个回代,可求出方程组的解。nx1nx2nx 上述求解过程可以总结成如下变换公式:上述求解过程可以总结成如下变换公式:.)()()()()()()()()() 1(,/1;,/;,/;,/kjkiakjkiaakjkiaaaakjkiaaaNkkNkkNjiNkkNjkNikNjiNkkNjiNji 消去变换的自变量号消去变换的自变量号。 N N 消去变幻的次数消去变幻的次数( (步数步数) )k 逐步回归是在多元回归的基础上派生

35、出的计算技巧,逐步回归是在多元回归的基础上派生出的计算技巧,它是通过对变量的相关系数增广矩阵实施一系列矩阵变换它是通过对变量的相关系数增广矩阵实施一系列矩阵变换来实现逐步引入和剔除变量,求解回归方程。来实现逐步引入和剔除变量,求解回归方程。),2,1(mixi)83(),2,1(11mjimjjimirbr 1. 1.相关系数增广矩阵相关系数增广矩阵 为消除变量量纲的影响,采用标准差标准化对变量观为消除变量量纲的影响,采用标准差标准化对变量观测值进行处理,并将处理后的变量记为测值进行处理,并将处理后的变量记为: : 三、实现逐步回归的变换公式三、实现逐步回归的变换公式 对标准化变量,可以证明回

36、归系数满足以下方程组:对标准化变量,可以证明回归系数满足以下方程组:式中式中r i j是是x i 与与 x j 的相关系数。的相关系数。 把方程把方程(3(38)8)的系数矩阵增加一行一列,的系数矩阵增加一行一列,得矩阵矩阵得矩阵矩阵R R,R ,R 叫做相关系数增广矩阵。叫做相关系数增广矩阵。111121112112222211111211mmmmmmmmmmmmmmmmrrrrrrrrrrrrrrrrR 逐步回归分析求解回归方程就是对逐步回归分析求解回归方程就是对R R实施一系列的矩实施一系列的矩阵变换。设已进行了阵变换。设已进行了N步,引入了步,引入了l个变量个变量 ,它的第它的第N+1

37、步不论是引入还是剔除变量步不论是引入还是剔除变量 , 都是按式都是按式(3(39)9)把把R R中的元素进行一次变换,得到第中的元素进行一次变换,得到第N+1步的矩阵。步的矩阵。lkkkxxx,21kx 2. 2.逐步回归的变换公式逐步回归的变换公式)93(,/1;,/;,/;,/.)()()()()()()()()()1(kjkirkjkirrkjkirrrrkjkirrrNkkNkkNjiNkkNjkNikNjiNkkNjiNji式中式中 、 分别是第分别是第N步、第步、第N+1步变换矩阵步变换矩阵 和中的元素。和中的元素。 )(Njir) 1(Njir)(NR)1(NR 1.1.方差贡献

38、方差贡献 在第在第N 步的基础上,逐步回归的第步的基础上,逐步回归的第N+1步不论是引入步不论是引入还是剔除变量还是剔除变量 ,它的方差贡献按下式计算:,它的方差贡献按下式计算:kx)103()()()(2211llkNkkNkkNkxbxbxbylkkkxxx,21 设逐步回归进行设逐步回归进行N 步,引入了步,引入了l 个变量个变量对应的回归方程为:对应的回归方程为: 四四、方差贡献、偏差平方和及回归系数方差贡献、偏差平方和及回归系数当当 时,第时,第N+1步是引入变量步是引入变量 ( 不在第不在第N步的回步的回归方程中归方程中) ), 时,第时,第N+1步是剔除变量步是剔除变量 ( 已在

39、第已在第N步的回归方程步的回归方程中中) )。 0)(NkVkxkx0)(NkVkxkx 2. 偏差平方和偏差平方和 第第N步回归方程步回归方程式式(3-10)(3-10)的偏差平方和为的偏差平方和为:)(11)(1NmmNrQ)()(1)(1)(/NkkNmkNkmNkrrrV,那么回归方程式那么回归方程式(3-10)(3-10)的系数为:的系数为:复相关系数为:复相关系数为:),2,1()(1)(lirbNmkNkii2/1)(11)1 (NmmrR 最后请同学们注意,逐步回归分析不仅能够挑选变量建立回归方程,而且能够帮助我们建立变量的相关形式。?5 5 回归分析在油气勘探及资源评价中应用

40、回归分析在油气勘探及资源评价中应用 松辽盆地南部松辽盆地南部6161个样品的个样品的R Ro o与温度时间指数与温度时间指数TTITTI有密有密切相关关系,其数量关系式为:切相关关系,其数量关系式为: 【例例1 1】温度时间指数温度时间指数 对镜质体反射率对镜质体反射率 回归方回归方程在油气勘探中的应用。程在油气勘探中的应用。 TTIlgoR利用上式预测有机质成熟度利用上式预测有机质成熟度Ro = 0.493lgTTI,R = 0.99 .(1975)(1975)据世界据世界2222个勘探程度较高的含个勘探程度较高的含油气盆地的资料,利用一元回归得出油气总资源量油气盆地的资料,利用一元回归得出

41、油气总资源量( (换算换算成石油地质储量成石油地质储量) )与盆地沉积体积速度的方程为:与盆地沉积体积速度的方程为: Lg Q = 2.813 1.613LgV 式中式中: : Q 油气地质储量,油气地质储量,t t; 沉积物充填的平均体积速度沉积物充填的平均体积速度, 10, 103 3kmkm3 3/Ma/Ma 【例例2】体积速度法估算资源量体积速度法估算资源量22个盆地分为四类个盆地分为四类:类:类:波斯湾、墨西哥湾、西波斯湾、墨西哥湾、西 西伯利亚等,西伯利亚等, 14 1410103 3kmkm3 3/Ma/Ma;类:类:伏尔加乌拉尔、马拉开伏尔加乌拉尔、马拉开波、南里海盆地等,波、

42、南里海盆地等, (44V V 14)14)10103 3kmkm3 3/Ma/Ma; 类:类:二叠盆地、圣华金盆地、二叠盆地、圣华金盆地、切尔斯克切尔斯克里海等,里海等, (1.5V4)(1.5V4)10103 3kmkm3 3/Ma/Ma;类类: : 多是小盆地,如维也多是小盆地,如维也 纳、伊里诺斯、密执安盆地,纳、伊里诺斯、密执安盆地, 1.51.510103 3kmkm3 3/Ma/Ma。 0.20.10.40.81.53.25.412.825.551.21024 512 256 128 64 32 16 8 4 2 1 0.5油 气 原 始 地 质 储 量油 气 原 始 地 质 储

43、量与沉积充填的平均体积速度与沉积充填的平均体积速度 QV 沉积速度越快,氧化作用对有机质的破坏程度就越低沉积速度越快,氧化作用对有机质的破坏程度就越低,则分散有机质的保存和向石油转化的条件就越好。这是,则分散有机质的保存和向石油转化的条件就越好。这是体积速度法估算油气资源量的理论基础,也是石油地质学体积速度法估算油气资源量的理论基础,也是石油地质学的一个基础理论问题。的一个基础理论问题。 B.BB.B波捷梁耶娃据稳定克拉通盆地,如阿拉伯台地、波捷梁耶娃据稳定克拉通盆地,如阿拉伯台地、乌拉尔乌拉尔伏尔加、二叠盆地等资料,得:伏尔加、二叠盆地等资料,得: LgQ = 1.40041LgV 1.89

44、11 贾维同等贾维同等(1983)(1983)利用利用206206个盆地资料得出适合我国东个盆地资料得出适合我国东部中新生代盆地资源预测公式:部中新生代盆地资源预测公式: LgQ=3.2101.311LgV 请问请问:为什么资源量随体积速度的增大而增多为什么资源量随体积速度的增大而增多? 为帮助同学们学习,讲一下学习总结的问题为帮助同学们学习,讲一下学习总结的问题 学习现状分析:学习现状分析: 忙碌忙碌 知识分散知识分散 深入思考不够深入思考不够 知识分散的解决方法:总结、预习知识分散的解决方法:总结、预习 总结:如回归分析:总结:如回归分析:研究对象研究对象; ;目的目的( (确定定量关确定

45、定量关系系););确定定量关系方法一(最小二乘估计回归系数);确定定量关系方法一(最小二乘估计回归系数);确定定量关系方法二(逐步回归分析);确定定量关系方法二(逐步回归分析);两种方法的两种方法的差异。差异。 预习:课前预习是解决忙碌和知识分散的有效方法。预习:课前预习是解决忙碌和知识分散的有效方法。 深入思考:培养分析问题和解决问题的能力深入思考:培养分析问题和解决问题的能力 【例例3 3】利用成油地质条件预测油气资源量利用成油地质条件预测油气资源量 我国东部勘探程度较高的含油气凹陷,其单位面积的我国东部勘探程度较高的含油气凹陷,其单位面积的油气储量与生、储、盖、运、圈、保油气储量与生、储

46、、盖、运、圈、保的关系密切,的关系密切,19851985年年2 2月,朱子仁等采用探明储量建立回归方程:月,朱子仁等采用探明储量建立回归方程: Q = 0.136 +0.729H+0.356 +0.152 -0.12N-5.37fVnSrV 式中:式中:Q : 单位面积的油气储量单位面积的油气储量 ; :生油岩体积与沉积岩体积之比,:生油岩体积与沉积岩体积之比,%; H :总烃与有机碳之比,:总烃与有机碳之比,%; :储集岩体积与沉积岩体积之比,:储集岩体积与沉积岩体积之比,%; :近油源圈闭面积与沉积岩面积之比,:近油源圈闭面积与沉积岩面积之比,%; N :含油气凹陷经历的剥蚀次数。:含油气

47、凹陷经历的剥蚀次数。 rVfVnS 泥质盖层封闭能力主要反映在两个方面:泥质盖层封闭能力主要反映在两个方面:一是微观封一是微观封闭能力的强弱,二是宏观展布范围闭能力的强弱,二是宏观展布范围。据盖层阻止油气运移。据盖层阻止油气运移的方式,可把盖层的微观封闭机理分为的方式,可把盖层的微观封闭机理分为毛细管力封闭毛细管力封闭、异异常压力封闭和浓度封闭常压力封闭和浓度封闭。对毛细管力封闭机理而言,泥质对毛细管力封闭机理而言,泥质盖层的突破压力是评价的关键参数盖层的突破压力是评价的关键参数。测井资料计算突破压。测井资料计算突破压力是通过测井计算的总孔隙度和有效孔隙度进行的。由苏力是通过测井计算的总孔隙度

48、和有效孔隙度进行的。由苏丹丹MugladMuglad盆地岩心与测井资料回归的突破压力方程为:盆地岩心与测井资料回归的突破压力方程为:36224200211.eakapept泥质盖层的总孔隙度泥质盖层的总孔隙度【例【例4 4】参数预测模型】参数预测模型泥质盖层的泥质盖层的有效孔隙度有效孔隙度经验系数经验系数(1)(1)测井盖层突破压力预测模型测井盖层突破压力预测模型式中式中 总孔隙度计算的泥质盖层突破压力;总孔隙度计算的泥质盖层突破压力; 泥质盖层的总孔隙度;泥质盖层的总孔隙度; 经验系数,当经验系数,当 时时 ,当,当 时,时, 。 有效孔隙度计算的泥质盖层突破压力;有效孔隙度计算的泥质盖层突

49、破压力; 泥质盖层的有效孔隙度。泥质盖层的有效孔隙度。本例据本例据( (方朝亮主编方朝亮主编勘探开发集成配套技术及应用实勘探开发集成配套技术及应用实践践,2006)2006)简编。简编。1ap2apte1k%20t201.k%20t2201.k 请问:盖层突破压力预测模型的物理意义是什请问:盖层突破压力预测模型的物理意义是什么,该物理意义是否正确么,该物理意义是否正确 4321021180112018600031804781xxxxy.ln(2)(2)油气运聚系数预测模型油气运聚系数预测模型( (据据(赵文智主编赵文智主编石油地质理论与方法进展石油地质理论与方法进展,2006)简编。简编。)

50、) 油气运聚系数是成因法估算资源量的关键参数油气运聚系数是成因法估算资源量的关键参数。在中。在中国石油第三次资源评价中,对国石油第三次资源评价中,对3838个资源探明程度相对较高个资源探明程度相对较高的油气聚集单元进行剖析,获得了油气成藏条件定量描述的油气聚集单元进行剖析,获得了油气成藏条件定量描述参数和油气运聚系数等重要参数。在此基础上分析、研究参数和油气运聚系数等重要参数。在此基础上分析、研究了油气成藏地质因素与油气运聚系数的关系,采用逐步回了油气成藏地质因素与油气运聚系数的关系,采用逐步回归分析方法,建立油气运聚系数预测模型:归分析方法,建立油气运聚系数预测模型:烃烃源源岩岩年年龄龄(

51、(MaMa) )烃烃源源岩岩成成熟熟度度(%)(%)不不整整合合面面个个数数圈圈闭闭面面积积系系数数石石油油运运聚聚系系数数(%)(%)序号序号含油气盆地(地区)含油气盆地(地区)现在温度现在温度( (T T)/)/实际深度实际深度( (H H)/m)/m地层年龄地层年龄( (t t)/Ma)/Ma1 12 23 34 45 56 67 78 89 9101011111212131314141515161617171818杜阿拉盆地杜阿拉盆地( (喀麦隆喀麦隆) )落山矶盆地落山矶盆地( (美国美国) )文吐拉盆地文吐拉盆地( (美国美国) )巴黎盆地巴黎盆地( (法国法国) )阿启坦盆地阿启

52、坦盆地(1)(1)(法国法国) )阿启坦盆地阿启坦盆地(2)(2)(法国法国) )卡马尔圭盆地卡马尔圭盆地( (法国法国) )阿尤恩地区阿尤恩地区苏绿海盆地苏绿海盆地( (沙巴沙巴) )塔拉纳基盆地塔拉纳基盆地( (新西兰海上新西兰海上) )亚马逊盆地亚马逊盆地( (委内内瑞拉委内内瑞拉) )塔拉纳基盆地塔拉纳基盆地( (新西兰海上新西兰海上) )东营盆地东营盆地潜江盆地潜江盆地松辽盆地松辽盆地(1)(1)松辽盆地松辽盆地(2)(2)松辽盆地松辽盆地(3)(3)辽河盆地辽河盆地65651151151271276060909072721061068585120120808062629595939

53、39090707065656363818112001200240024002740274014001400330033002500250032503250274027403050305029002900175017503350335022002200220022001330133012301230118011801700170070701212121218018011211213513538381051051212707035935932323535353511011010010090905050 利用以下利用以下1818个盆地生油层数据个盆地生油层数据 【例例5】 预测有机成熟区预测有机成熟

54、区95.15/2370)273/(7585lnHTt可得生油门限时间回归方程可得生油门限时间回归方程 设生油岩演化时间为设生油岩演化时间为 ,根据生油门限时间回归方程,根据生油门限时间回归方程计算不同点生油门限时间为计算不同点生油门限时间为 。利用数据。利用数据 绘制绘制等值线图,该图上的正偏差区为生油岩成熟区,据其可等值线图,该图上的正偏差区为生油岩成熟区,据其可估估算生油量。估估算生油量。it0tiittt0生油岩演化时间相同,门限时间不同生油岩演化时间相同,门限时间不同iittt0计算网格交点的计算网格交点的it101ttt202ttt303ttt等值图的地质解释等值图的地质解释 【例例6】确定含油面积系数,预测有利含油面积确定含油面积系数,预测有利含油面积 陈立平、陈子恩等利用构造因素、沉积因素、生油因陈立平、陈子恩等利用构造因素、沉积因素、生油因素对含油面积系数回归方程预测有利含油面积。基本思路素对含油面积系数回归方程预测有利含油面积。基本思路是:某个面积上的含油程度与该面积内的构造、沉积和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论