第三章 回归分析_第1页
第三章 回归分析_第2页
第三章 回归分析_第3页
第三章 回归分析_第4页
第三章 回归分析_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容:回归分析概念及解决的问题、多元线性回归分析、逐步回归分析、油气勘探中的应用,回归分析计算程序留作同学上机练习和自学。

1.变量间的关系若变量

y

的变化依赖于变量

xi

(i=1、2、…、m),那么

y

xi

之间的关系大致分为两类:

1)函数关系第三章回归分析§1回归分析的概念及其解决的问题

一、基本概念如曲边梯形的面积S是曲边纵坐标f(x)在其底边[a,b]区间上的积分,即:这类函数关系是数学分析的研究对象。

2)相关关系如生油门限时间t与生油层的温度T、埋藏深度H和干酪根类型k等地质因素有关,但它们之间却没有确切的数量关系。称变量间不确切的依赖关系为变量的相关关系。它是回归分析的研究对象。

2.相关变量

相关变量是存在着相互依赖性和制约性,但并没有严格数量关系的变量。

【例1】生油门限时间t依赖于生油层的温度T及其埋藏深度H等。温度越高、埋藏越深,有机质演化为油气所需要的时间就越短,反之就长。t与T、H具相关性,是相关变量。

【例2】含油气地质单元中的油气资源量Q随地质单元内生油岩体积

、储集岩体积

、近油源圈闭面积S的增大及有机质转化率k的升高而增多,却随盆地所经受的剥蚀次数n的增多而减少。上述地质变量也是相关变量。

3.回归分析二、回归分析解决的问题四方面的问题:1)变量间是否存在相关性;2)若存在相关性,确定相关密切的变量;3)建立相关变量间的定量表达式;4)实际应用。

根据相关变量、的观测值,建立与之间定量关系的一种多元统计方法。§2多元线性回归分析一、回归模型与回归方程则称

y

xi

之间具有

m

元线性相关关系,简称为线性关系,并称式(3-1)为线性回归模型,其中a0、a1、…、am

—待定系数;ε—误差项,且ε~N(0,σ2)。若b0、b1、…、bm是a0、a1、…、am

的最佳估计值,则有:若变量y与

之间具有关系:假设已有

xi和

y

n

组观测值,记为:把式(3-3)中的

xik代入式(3-2),可得:称式(3-2)为对y的线性回归方程,而

、、…、叫做回归系数。

二、确定回归系(最小二乘法)m+1维空间的一个平面确定回归系数的原则是使n个偏差的平方和

,并且

>0,根据极值原理,故有:达到最小,由式(3-5)可知:?

是关于、、…、的二次函数(3-6)式(3-6)是以b0、b1、…、bm为未知数的线性方程组,从中可解出b0、b1、…、bm,得式(3-2),即使偏差平方和最小确定数的方法叫最小二乘法。这就确定了相关变量间的定量关系。前面的讨论是假设y与

具有线性关系,假设是否成立?要对假设进行检验。为此,先定义以下几个统计量::偏差平方和,反映观测值与回归值的逼近程度;

:总偏差平方和,反映

y

观测值离散程度的一个指标;其中:

:回归平方和,反映

的变化对y引起的波动。三、回归模型检验根据式(3-7),定义变量

y

xi

的复相关系数作为检验变量相关程度的指标。可以证明:

(3-7)

R的绝对值越接近于1,变量间的相关性越密切,即回归方程越显著。

例:岩石渗透率k与声波时差Δt、自然伽玛相对值ΔGR之间具有:四、非线性回归分析

对于上例,若令:则可化为线性回归模型的非线性关系。如何求回归方程?

对非线性相关变量进行回归分析,先用变量替换的方法将其化为线性关系,然后再求回归方程。图a对数曲线图b指数函数曲线图c指数曲线图d抛物线曲线常用的非线性关系曲线

1.预测

把变量

(i=1、2、…、m;r=1、2、…)的值代入式(3-2),求出

的估计值:五、回归预测与控制就是所谓的回归预测(用回归方程估计因变量的值)。当时,

落在区间:内的概率分别为68%和95%(图3-1)。其中剩余标准差

图3-1回归精度示意图

对应的观测值95%2.控制

调整的值,使落在区间内就是控制。

改变储层非均质性、储层表面润湿性、流度比(驱动液流度与被驱动液流度的比值)等因素,使原油采收率提高在某个范围内,是回归预测的一个典型例子。§3逐步回归分析一、逐步回归的提出及其基本思想如前所述,对于有机质向石油的演化速度来说,生油层的温度比埋藏深度影响更大,那么如何定量地衡量某地质因素对研究问题的作用呢?为此,介绍一个统计指标—相关系数,它是衡量变量相关程度的一个度量。假设:1.逐步回归的提出变量

对y的作用不同其相关系数定义为:式中:

由定义可知,当=时,=1。表明两变量的观测值完全相同,即相关程度达到最高。

下面看一个实例:【例1】据下表内生油层数据,试分析生油门限时间t分别对生油层度温T和埋藏深度H的依赖性(相关性)。序号含油气盆地(地区)现在温度(T)/℃实际深度(H)/m地层年龄(t)/Ma123456789101112131415161718杜阿拉盆地(喀麦隆)落山矶盆地(美国)文吐拉盆地(美国)巴黎盆地(法国)阿启坦盆地(1)(法国)阿启坦盆地(2)(法国)卡马尔圭盆地(法国)阿尤恩地区苏绿海盆地(沙巴)塔拉纳基盆地(新西兰海上)亚马逊盆地(委内内瑞拉)塔拉纳基盆地(新西兰海上)东营盆地潜江盆地松辽盆地(1)松辽盆地(2)松辽盆地(3)辽河盆地6511512760907210685120806295939070656381120024002740140033002500325027403050290017503350220022001330123011801700701212180112135381051270359323535110100905018个盆地(地区)生油层数据

②根据研究资料,t、T、H三者之间具有关系

令y=ln

t

、x=1/(T+273)、z=1/H,那么y与x、z的相关系数分别为:

①根据表中数据,计算相关系数,那么t与T、H的相关系数分别为:

和由此表明:有机质向石油演化的时间随着地温的升高和埋藏深度的加大而缩短,但温度对演化时间起着主导作用。

和这与①的结论一致,即温度是有机质热演化进程的主要因素。

该实例表明:对于拟定的自变量来说,各自对因变量的作用是不同的,其中很可能有不起作用的自变量。由此提出:按自变量与因变量的相关程度逐步挑选自变量建立回归方程,这是提出逐步回归分析的原因之一。

另外,我们可以进一步证明,温度是有机质热演化进程的主要因素,温度不足可以在某个临界温度条件下通过热演化时间来补偿。这是石油地质学中有机热成油学说的一个基础理论问题。需要对表中原始数据进行处理2)变量间的相关性地质现象是地质作用过程迭加的结果,因此描述地质现象的变量

之间就既有相对的独立性,又存在着一定的成因联系。对

中具有成因联系的一些变量,好像各自对y都有不可忽视的影响。但是,当把

xi选入回归方程后,又使得先选入的

对y的作用变的无足轻重。因此,就要把

这种变量从回归方程中去掉,即对已选入回归方程中的变量进行逐步“筛选”,这是提出逐步回归分析的另一个原因。在回归过程中,按变量xi(i=1,2,…,m)对y作用的大小,把作用达到一定程度的变量xr(1≤r≤m)逐个“引入”回归方程,同时还要逐个检验已引入回归方程的变量对y的影响,若xα(

xα∈xr)对y作用已不显著,就再从回归方程中“剔除”它,如此进行下去,直到既没有对y作用显著的变量可引入回归方程,又没有作用不显著的变量从回归方程中“剔除”时为止。

回归分析结束时,若共引入了l

(l

m)

个作用大的变量,那么含有

l个变量的回归方程:2.逐步回归的基本思想在逐步回归中,不断地判断变量

xi对

y

的作用,那么如何衡量变量

xi对

y

作用的大小呢?为此,就要构造一个衡量变量

xi对

y

作用大小的指标及检验作用大小的方法。

二、变量的作用及作用大小的检验1.衡量变量对作用的指标

【例2】据【例1】中的数据分析变量的作用和相关性(1)地层温度T对生油门限时间t的回归方程为:

在此,不从理论上证明,仅以一个实例对这个问题加以说明,对其有个感性认识就可以了(详教材p33—35)。生油门限时间lnt与1/(T+273)的相关系数为0.8858,根据【例1】中的数据和下式计算:总偏差平方和=15.586;偏差平方和=3.357;回归平方和=12.229;

;相关系数r=0.8858。

请同学们注意偏差平方和与回归平方和的值。根据【例1】中的数据和上式计算:总偏差平方和

=

15.586;偏差平方和

=

1.685;

回归平方和

=13.900;

复相关系数r

=

0.9444。

(2)地层温度T、埋藏深度H对生油门限时间t的回归方程为:生油门限时间lnt与1/(T+273)、1/H的相关系数为0.9444,请同学们注意偏差平方和与回归平方和的值。

3.35712.229r=0.8858由【例2】可知:回归方程中增加一个变量后,回归平方和的增加量等于偏差平方和的减少量,即:增加量ΔQ

是变量

H

引入回归方程后,对

t

引起的波动,常称其为变量H对变量

t

的方差贡献。一般情况下,变量的方差贡献记为,它是衡量变量对作用的一个指标。下面讨论这个指标达到多大时,才被引入的问题。统计量:

服从分布方程中已有l个变量,再增加时的方差贡献l+1个变量的偏差平方和

2.检验变量对作用大小的方法(1)检验是否选入(引入)假设:变量对作用不显著(作用不大)式中n—样本容量(数据组数);l—回归方程中已选入的自变量个数。

给定检验水平(H0成立的概率),查分布表得一个临界值,记为。当时,则否定原假设,说明原假设不成立,应把变量引入回归方程,否则,回归引入变量结束。(2)检验是否剔出假设(同前)统计量:方程中已有l个变量,其中的方差贡献。l个变量的偏差平方和服从分布。式中n—样本容量(数据组数);l—回归方程中已选入的自变量个数。对检验方法的解释:

作一次检验相当于进行了一次随机试验。那么进行一次检验则出现了>(或>),意味着小概率事件在一次随机试验中发生了,这是不合理的,即假设不对,对

否定错了的概率为

。假设

成立的概率为给定检验水平,查分布表得临界值,若>,则否定H0,即对作用大,应将其留在回归方程中,否则接受假设H0,从方程中去掉变量。

预备

矩阵变换解方程组:对于一般的n阶线性方程组

若(1)有解,那么利用矩阵变换求解的过程如下:1.消元过程方程组系数矩阵常数项方程组系数矩阵常数项第1步设第二步设第n步设经过n次消去计算,得到一个与(1)等价的方程组:2.回代过程①由式(2)的第n个方程得

②把代入式(2)的第n-1个方程得③再把、代入式(2)的第n-2个方程求出,如此逐个回代,可求出方程组的解。上述求解过程可以总结成如下变换公式:

┅消去变换的自变量号。

N┅消去变幻的次数(步数)

逐步回归是在多元回归的基础上派生出的计算技巧,它是通过对变量的相关系数增广矩阵实施一系列矩阵变换来实现逐步引入和剔除变量,求解回归方程。1.相关系数增广矩阵为消除变量量纲的影响,采用标准差标准化对变量观测值进行处理,并将处理后的变量记为:

三、实现逐步回归的变换公式对标准化变量,可以证明回归系数满足以下方程组:式中rij是xi与

xj的相关系数。把方程(3–8)的系数矩阵增加一行一列,得矩阵矩阵R,R叫做相关系数增广矩阵。逐步回归分析求解回归方程就是对R实施一系列的矩阵变换。设已进行了N步,引入了l个变量,它的第N+1步不论是引入还是剔除变量,都是按式(3―9)把R中的元素进行一次变换,得到第N+1步的矩阵。2.逐步回归的变换公式式中、—分别是第N步、第N+1步变换矩阵和中的元素。

1.方差贡献

在第N步的基础上,逐步回归的第N+1步不论是引入还是剔除变量,它的方差贡献按下式计算:

设逐步回归进行N步,引入了l个变量对应的回归方程为:

四、方差贡献、偏差平方和及回归系数当时,第N+1步是引入变量(不在第N步的回归方程中),时,第N+1步是剔除变量(已在第N步的回归方程中)。

2.偏差平方和

第N步回归方程式(3-10)的偏差平方和为:,那么回归方程式(3-10)的系数为:复相关系数为:

最后请同学们注意,逐步回归分析不仅能够挑选变量建立回归方程,而且能够帮助我们建立变量的相关形式。????§5回归分析在油气勘探及资源评价中应用

松辽盆地南部61个样品的Ro与温度时间指数TTI有密切相关关系,其数量关系式为:

【例1】温度时间指数对镜质体反射率

回归方程在油气勘探中的应用。

利用上式预测有机质成熟度Ro=0.493lgTTI,R=0.99

И.И.Несмеров(1975)据世界22个勘探程度较高的含油气盆地的资料,利用一元回归得出油气总资源量(换算成石油地质储量)与盆地沉积体积速度的方程为:

LgQ=2.813+1.613LgV

式中:Q—油气地质储量,Mt;

V—沉积物充填的平均体积速度,103km3/Ma

【例2】体积速度法估算资源量22个盆地分为四类:Ⅰ类:波斯湾、墨西哥湾、西西伯利亚等,

V>14×103km3/Ma;Ⅱ类:伏尔加乌拉尔、马拉开波、南里海盆地等,

(4<V<14)×103km3/Ma;

Ⅲ类:二叠盆地、圣华金盆地、切尔斯克—里海等,

(1.5<V<4)×103km3/Ma;Ⅳ类:多是小盆地,如维也纳、伊里诺斯、密执安盆地,

V<1.5×103km3/Ma。·

·

·

·

·

·

·

·

·

·

·

·

·

·

·

·

·

·

·

·

0.20.10.40.81.53.25.412.825.551.2102451225612864321684210.5油气原始地质储量与沉积充填的平均体积速度ⅠⅡⅢⅣ·

沉积速度越快,氧化作用对有机质的破坏程度就越低,则分散有机质的保存和向石油转化的条件就越好。这是体积速度法估算油气资源量的理论基础,也是石油地质学的一个基础理论问题。

B.B波捷梁耶娃据稳定克拉通盆地,如阿拉伯台地、乌拉尔—伏尔加、二叠盆地等资料,得:

LgQ=1.40041LgV-1.8911

贾维同等(1983)利用206个盆地资料得出适合我国东部中新生代盆地资源预测公式:

LgQ=3.210+1.311LgV

请问:为什么资源量随体积速度的增大而增多?

为帮助同学们学习,讲一下学习总结的问题

学习现状分析:①忙碌②知识分散③深入思考不够

知识分散的解决方法:总结、预习总结:如回归分析:①研究对象;②目的(确定定量关系);③确定定量关系方法一(最小二乘估计回归系数);④确定定量关系方法二(逐步回归分析);⑤两种方法的差异。预习:课前预习是解决忙碌和知识分散的有效方法。

深入思考:培养分析问题和解决问题的能力

【例3】利用成油地质条件预测油气资源量我国东部勘探程度较高的含油气凹陷,其单位面积的油气储量与生、储、盖、运、圈、保的关系密切,1985年2月,朱子仁等采用探明储量建立回归方程:

Q=0.136+0.729H+0.356+0.152

-0.12N-5.37式中:Q:单位面积的油气储量;

:生油岩体积与沉积岩体积之比,%;

H:总烃与有机碳之比,%;

:储集岩体积与沉积岩体积之比,%;:近油源圈闭面积与沉积岩面积之比,%;

N:含油气凹陷经历的剥蚀次数。泥质盖层封闭能力主要反映在两个方面:一是微观封闭能力的强弱,二是宏观展布范围。据盖层阻止油气运移的方式,可把盖层的微观封闭机理分为毛细管力封闭、异常压力封闭和浓度封闭。对毛细管力封闭机理而言,泥质盖层的突破压力是评价的关键参数。测井资料计算突破压力是通过测井计算的总孔隙度和有效孔隙度进行的。由苏丹Muglad盆地岩心与测井资料回归的突破压力方程为:泥质盖层的总孔隙度【例4】参数预测模型泥质盖层的有效孔隙度经验系数(1)测井盖层突破压力预测模型式中—总孔隙度计算的泥质盖层突破压力;—泥质盖层的总孔隙度;—经验系数,当时,当时,。—有效孔隙度计算的泥质盖层突破压力;—泥质盖层的有效孔隙度。本例据(方朝亮主编《勘探开发集成配套技术及应用实践》,2006)简编。

请问:盖层突破压力预测模型的物理意义是什么,该物理意义是否正确

(2)油气运聚系数预测模型(据(赵文智主编《石油地质理论与方法进展》,2006)简编。)

油气运聚系数是成因法估算资源量的关键参数。在中国石油第三次资源评价中,对38个资源探明程度相对较高的油气聚集单元进行剖析,获得了油气成藏条件定量描述参数和油气运聚系数等重要参数。在此基础上分析、研究了油气成藏地质因素与油气运聚系数的关系,采用逐步回归分析方法,建立油气运聚系数预测模型:烃源岩年龄(Ma)烃源岩成熟度(%)不整合面个数圈闭面积系数石油运聚系数(%)序号含油气盆地(地区)现在温度(T)/℃实际深度(H)/m地层年龄(t)/Ma123456789101112131415161718杜阿拉盆地(喀麦隆)落山矶盆地(美国)文吐拉盆地(美国)巴黎盆地(法国)阿启坦盆地(1)(法国)阿启坦盆地(2)(法国)卡马尔圭盆地(法国)阿尤恩地区苏绿海盆地(沙巴)塔拉纳基盆地(新西兰海上)亚马逊盆地(委内内瑞拉)塔拉纳基盆地(新西兰海上)东营盆地潜江盆地松辽盆地(1)松辽盆地(2)松辽盆地(3)辽河盆地65115127609072106851208062959390706563811200240027401400330025003250274030502900175033502200220013301230118017007012121801121353810512703593235351101009050

利用以下18个盆地生油层数据

【例5】预测有机成熟区可得生油门限时间回归方程

设生油岩演化时间为,根据生油门限时间回归方程计算不同点生油门限时间为。利用数据绘制等值线图,该图上的正偏差区为生油岩成熟区,据其可估估算生油量。生油岩演化时间相同,门限时间不同计算网格交点的等值图的地质解释

【例6】确定含油面积系数,预测有利含油面积陈立平、陈子恩等利用构造因素、沉积因素、生油因素对含油面积系数回归方程预测有利含油面积。基本思路是:某个面积上的含油程度与该面积内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论