版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三回归分析演示文稿1现在是1页\一共有64页\编辑于星期五2(优选)第三回归分析现在是2页\一共有64页\编辑于星期五
(2)相关关系如生油门限时间t与生油层的温度T、埋藏深度H和干酪根类型k等地质因素有关,但它们之间却没有确切的数学关系。称变量间不确切的依赖关系为变量的相关关系。它是回归分析的研究对象。
2.相关变量相关变量是存在着相互依赖性和制约性、但并没有严格数量关系的变量。现在是3页\一共有64页\编辑于星期五例如生油门限时间t依赖于生油层的温度T及其埋藏深度H等。温度越高、埋藏越深,有机质演化为油气所需要的时间就越短,反之就长。t与T、H具相关性,是相关变量。
例如含油气地质单元中的油气资源量Q
随地质单元内生油岩体积V1、储集岩体积V2、近油源圈闭面积S的增大及有机质转化率k的升高而增加,却随盆地所经受的剥蚀次数n的增多而减少。上述地质变量也是相关变量。现在是4页\一共有64页\编辑于星期五
3.回归分析
二、回归分析解决的问题变量间是否存在相关性;各变量间的相关程度;建立相关变量间的定量表达式;实际应用。
根据相关变量xi(i=1,2,…,m)、y的观测值,建立y与xi之间近似定量关系的一种多元统计方法。现在是5页\一共有64页\编辑于星期五§2多元线性回归分析
一、回归模型与回归方程则称
y
与
xi之间具有
m
元线性相关关系,简称线性关系,并称式(3-1)为线性回归模型,其中a0、a1、…、am为待定系数;ε-误差项,且ε
~N(0,σ2)。若b0、b1、…、bm是a0、a1、…、am的最佳估计值,则有:
若变量y与xi
(i=1,2,…,m)
之间具有关系:现在是6页\一共有64页\编辑于星期五xyy=b0+b1x线性回归系数确定(一元回归)使回归效果最好的b0和b1即回归系数最佳估计值现在是7页\一共有64页\编辑于星期五称式(3-2)为xi对y的线性回归方程,而b0,b1,…,bm叫做回归系数。
二、确定回归系数(最小二乘法)
假设已有自变量xi
和因变量
y
的
n
组观测值,记为:
将
xik代入线性回归方程,可得n个yk的预测值:回归方程表示m+1维空间的一个平面现在是8页\一共有64页\编辑于星期五
确定回归系数的原则是使n个偏差的平方和达到最小。由上式可知,Q1是关于b0、b1、…、bm
的二次函数,且Q1>0,根据极值原理,有:(3-6)上式是以b0、b1、…、bm为未知数的线性方程组,可求出b0、b1、…、bm,故可确定式(3-2),即:(3-5)现在是9页\一共有64页\编辑于星期五整理得m+1阶线性方程组如下:其中:m阶线性方程组现在是10页\一共有64页\编辑于星期五如此便确定了相关变量间的近似定量关系。使偏差平方和最小来确定参数的方法称为最小二乘法。上述用最小二乘法确定回归方程的基本原理是回归分析的一个重要内容,应用很广,希望重点理解并掌握。现在是11页\一共有64页\编辑于星期五
前面的讨论是假设y与xi具有线性关系,那么,这种假设是否成立?回归模型检验解决的就是这个问题。为此,先定义以下几个统计量:
偏差平方和:,它反映观测值与回归值的逼近程度;总偏差平方和:,它是反映
y
观测值离散程度的一个指标;其中:三、回归模型检验现在是12页\一共有64页\编辑于星期五可以证明:
(3-7)回归平方和:,它反映xi的变化对y引起的波动。将Q、Q1、Q2的自由度分别定义为:fQ,fQ1,fQ2
可证fQ=n-1fQ1=n-m-1fQ2=m
且有fQ=fQ1+fQ2即:总偏差平方和=偏差平方和+回归平方和现在是13页\一共有64页\编辑于星期五根据式(3-7),定义变量
y
与
xi
的复相关系数:
作为检验变量相关程度的指标。
R的值越接近于1,变量间的相关性越密切,即回归方程越显著。1.复相关系数检验现在是14页\一共有64页\编辑于星期五2.F分布检验假设H0:变量y与xi没有线性关系若H0为真,则Q1相对较大,Q2相对较小。当Q2/Q1
小于某个临界值时,就接受假设H0
,否则否定原假设H0
,既认为变量y与xi(i=1,2,…,m)有显著的线性关系。可以证明:现在是15页\一共有64页\编辑于星期五对于给定的检验水平α,在F分布表上查得临界值Fα,当F>Fα时,否定原假设H0,这时称回归方程是显著的,可以使用;否则,接收原假设
H0,认为求得的回归方程不能应用。现在是16页\一共有64页\编辑于星期五如对于上例,若令:
例:岩石渗透率k与声波时差Δt、自然伽玛相对值ΔGR之间具有非线性关系:
四、非线性回归分析
问:如何求回归方程?
在非线性相关变量进行回归分析时,先用变量替换法将其转化为线性关系,然后再求回归方程。注:原始观测数据相应变化。
则可化为线性回归模型现在是17页\一共有64页\编辑于星期五a
对数曲线b
指数函数曲线c
指数曲线d
抛物线曲线常用的非线性关系曲线现在是18页\一共有64页\编辑于星期五
1.预测
把各自变量的取值代入式(3-2),可求出因变量的估计值:
五、回归预测与控制此即回归预测(用回归方程估计因变量的值)。内的概率分别大约为0.68和0.95(图3-1)。其中剩余标准差为:
当各自变量取值在观测值范围内时,yr(理论值)落在区间:现在是19页\一共有64页\编辑于星期五
2.控制
控制:调整xi的值,使y落在某区间(y1,y2)。如:改变储层非均质性、储层表面润湿性、流度比(驱动液流度与被驱动液流度的比值)等因素,使原油采收率提高到某个范围,就是回归控制的一个例子。
图3-1回归精度示意图P=0.95现在是20页\一共有64页\编辑于星期五§3逐步回归分析一、逐步回归的提出及其基本思想如前所述,对于有机质向石油的演化速度来说,生油层的温度比埋藏深度影响更大(相关程度更大),那么如何定量描述其相关程度呢?为此,介绍一个统计指标—相关系数,它是变量之间相关程度的一种度量。假设:1.逐步回归的提出(1)变量xi对y的作用不同现在是21页\一共有64页\编辑于星期五则相关系数定义为:式中:
由定义可知,当xi
=xj
时,rij=1。表明两变量的观测值完全相同,即相关程度达到最高。据下表内生油层数据,分析生油门限时间t分别对生油层温度T和埋藏深度H的依赖性(相关性)。或现在是22页\一共有64页\编辑于星期五序号含油气盆地(地区)现在温度(T)/℃实际深度(H)/m生油门限时间(t)/Ma123456789101112131415161718杜阿拉盆地(喀麦隆)落山矶盆地(美国)文吐拉盆地(美国)巴黎盆地(法国)阿启坦盆地(1)(法国)阿启坦盆地(2)(法国)卡马尔圭盆地(法国)阿尤恩地区苏绿海盆地(沙巴)塔拉纳基盆地(新西兰海上)亚马逊盆地(委内内瑞拉)塔拉纳基盆地(新西兰海上)东营盆地潜江盆地松辽盆地(1)松辽盆地(2)松辽盆地(3)辽河盆地6511512760907210685120806295939070656381120024002740140033002500325027403050290017503350220022001330123011801700701212180112135381051270359323535110100905018个盆地(地区)部分生油层数据现在是23页\一共有64页\编辑于星期五t与T的相关系数为
结论:有机质向石油演化的时间随着地温的升高和埋藏深度的加大而缩短,但温度对演化时间有着更明显的作用。t与H的相关系数为计算出两个相关系数如下:现在是24页\一共有64页\编辑于星期五该实例表明:对于拟定的自变量来说,它们对因变量的作用是不同的,其中很可能有不起作用的自变量。由此提出:按自变量与因变量的相关程度逐步挑选作用显著的自变量建立回归方程,这是提出逐步回归分析的原因之一。进一步还有:温度是有机质热演化进程的主要因素,温度不足可以在某个临界温度条件下通过热演化时间来补偿。这是石油地质学中有机热成油学说的一个基础理论问题。现在是25页\一共有64页\编辑于星期五(2)变量间的相关性地质现象是地质作用迭加的结果,因此描述地质现象的变量xi
(i=1,2,…,m)之间就既有相对的独立性、又存在着一定的成因联系。对具有成因联系的一些变量,一方面各自对y都有不可忽视的影响,另一方面,当把它们都选入回归方程后,又使得先选入的变量对y的作用变得微不足道。因此就要把这种变量从回归方程中去掉,即对已选入回归方程中的变量进行逐步“筛选”,这是提出逐步回归分析的另一个原因。现在是26页\一共有64页\编辑于星期五
在回归过程中,按变量xi(i=1,2,…,m)对y作用的大小,把作用达到一定程度的变量xr(1≤r≤m)逐个“引入”回归方程,同时逐个检验已引入回归方程的变量对y的影响,若
xα
(
xα∈xr
)对y作用已不显著,就再从回归方程中“剔除”它,如此直到既没有对y作用显著的变量引入回归方程,又没有作用不显著的变量从回归方程中“剔除”。2.逐步回归的基本思想回归分析结束时,若共引入了l(l≤m)个作用大的变量,那么含有l个变量的回归方程即为:现在是27页\一共有64页\编辑于星期五
在逐步回归中,需要判断变量
xi对
y
的作用,那么如何衡量其作用的大小呢?为此,构造一个衡量
xi对
y
作用大小的指标及检验作用大小的方法。
二、变量的作用及作用大小的检验
1.衡量变量xkα对y作用大小的指标据例1中的数据分析变量的作用
(1)地层温度T
对生油门限时间t的回归方程为:
在此,不从理论上证明,仅以一个实例对这个问题加以说明,理解即可(详见教材)。现在是28页\一共有64页\编辑于星期五
lnt与1/(T+273)的相关系数。
根据例1中的数据和上式计算得:总偏差平方和Q=15.586;
偏差平方和Q1(1)=3.357;
回归平方和Q2(1)=12.229;
Q=Q1(1)+Q2(1)
相关系数r=0.8858。注意偏差平方和与回归平方和的值。现在是29页\一共有64页\编辑于星期五
(2)增加一个变量---埋藏深度H后,对生油门限时间t
的回归方程为:
lnt与1/(T+273)、1/H
的相关系数
根据例1中的数据和上式计算:总偏差平方和Q=
15.586;偏差平方和Q1(2)=1.685;
回归平方和
Q2(2)
=13.900;
Q=Q1(2)+Q2(2)
复相关系数r
=
0.9444。
3.35712.2290.8858现在是30页\一共有64页\编辑于星期五
因此可见,回归方程中增加一个变量后,回归平方和的增加量等于偏差平方和的减少量,即:增加量ΔQ
是变量
H
引入回归方程后,对
t
引起的波动,称为变量H
对变量
t
的方差贡献。
一般情况下,把变量xkα的方差贡献记为Vkα,它是衡量变量xkα对y作用大小的一个指标。下面讨论这个指标达到多大时,xkα才被引入的问题。现在是31页\一共有64页\编辑于星期五统计量:
服从F(1,n–l-2)分布。
2.检验变量xkα对y作用大小的方法(1)检验xkα是否选入(引入)假设H0:变量xkα对y作用不显著(作用不大)式中n—样品数;l—回归方程中已选入的自变量个数。给定检验水平α(H0成立的概率),查F分布表得一个临界值,记为F1
。方程中已有l个变量,再增加xkα时的方差贡献l+1个变量的偏差平方和现在是32页\一共有64页\编辑于星期五(2)检验xkα是否剔出假设H0(同前)统计量:当Fkα
>F1时,则否定原假设,说明原假设不成立,应把变量xkα引入回归方程,否则引入变量结束。服从F(1,n–l-1)
分布。式中n—样品数(数据组数);l—回归方程中已选入的自变量个数。方程中已有l个变量,其中xkα的方差贡献。l个变量的偏差平方和现在是33页\一共有64页\编辑于星期五对检验方法的解释
做一次检验相当于进行了一次随机试验,而试验中统计量落在拒绝域(如Fkα
>
F1)的理论概率为α。一旦统计量的计算结果落在拒绝域,则意味小概率事件在一次试验即发生,这说明最初的假设H0是不合理的,应该否定。给定显著性检验水平α,查F分布表得临界值F2
,若F’kα>F2,则否定H0,即xkα对y作用大,将其留在回归方程中,否则接受假设H0,从方程中去掉变量xkα。现在是34页\一共有64页\编辑于星期五知识复习
高斯消去法解线性方程组
一般的n阶线性方程组可表示如下:
若(1)有解,那么利用矩阵变换求解的过程如下:1.消元方程组系数矩阵常数项现在是35页\一共有64页\编辑于星期五方程组系数矩阵常数项第1步设第2步设现在是36页\一共有64页\编辑于星期五第n
步设经过n次消去计算,得到一个与(1)等价的方程组:现在是37页\一共有64页\编辑于星期五2.回代①由式(2)的第n个方程得②把代入式(2)的第n-1个方程得③再把xn、xn-1代入式(2)的第n-2个方程求出xn-2,如此逐个回代,可求出方程组的解。
上述求解过程可以总结成如下变换公式:现在是38页\一共有64页\编辑于星期五
kα
┅消去变换的自变量号;
N┅消去变换的次数(步数)。现在是39页\一共有64页\编辑于星期五rijriy求回归系数的m阶线性方程组为:令而为避免sij的较大波动给求解带来舍入误差整理后原方程变为:三、实现逐步回归的变换公式现在是40页\一共有64页\编辑于星期五
1.相关系数增广矩阵因此其中rim+1=riy
逐步回归是通过对变量的相关系数增广矩阵实施一系列高斯求解变换来实现逐步引入和剔除变量的,并最终求出回归方程。方程组系数矩阵(相关系数矩阵)现在是41页\一共有64页\编辑于星期五把方程组系数矩阵增加一行一列,得矩阵R:R称之为相关系数增广矩阵。现在是42页\一共有64页\编辑于星期五逐步回归分析求解回归方程就是对R实施一系列高斯求解变换。设已进行了N步,引入了l个变量xk1’,xk2’,…,xkl’,它的第N+1步不论是引入还是剔除变量xkα’,都是根据式(3-9)对R中的元素进行变换来实施。并得到第N+1步的变换矩阵。
2.逐步回归的变换公式现在是43页\一共有64页\编辑于星期五式中rij(N)、rij(N+1)—分别是第N步、第N+1步变换矩阵R(N)和R(N+1)中的元素。
1.方差贡献在第N步回归的基础上,第N+1步不论是引入还是剔除变量xkα,它的方差贡献按下式计算:
设逐步回归进行N步,引入l个变量对应的回归方程为:
四、方差贡献、偏差平方和及回归系数现在是44页\一共有64页\编辑于星期五当Vkα(N)>0时,第N+1步是引入变量xkα’(xkα’不在第N步的回归方程中),Vkα(N)<0时,第N+1步是剔除变量xkα’(xkα’已在第N步的回归方程中)。
2.偏差平方和第N步回归方程式(3-10)的偏差平方和为:现在是45页\一共有64页\编辑于星期五则回归方程式(3-10)的系数为:复相关系数为:逐步回归分析不仅能够挑选变量建立回归方程,而且能够帮助我们建立变量的相关形式。现在是46页\一共有64页\编辑于星期五逐步回归分析流程图开始输入引入和剔除变量的临界值F1,F2计算相关系数增广矩阵计算不在回归方程中所有变量的方差贡献,求其中最大者检验相应变量是否引入变换相关系数增广矩阵计算回归方程中所有变量的方差贡献,求其中最小者检验对应的变量是否剔出变换相关系数增广矩阵计算引入回归方程中各变量的回归系数、复相关系数及对已知样品进行验算。回归结束现在是47页\一共有64页\编辑于星期五§4回归分析应用简例
松辽盆地南部61个样品的Ro(%)与TTI有密切相关关系,其数量关系式为:
例1
温度时间指数TTI对镜质体反射率Ro回归方程在油气勘探中的应用。利用上式可以预测有机质成熟度。Ro
(%)
=0.493lgTTI,R=0.99现在是48页\一共有64页\编辑于星期五
И.И.Несмеров(1975)据世界22个勘探程度较高的含油气盆地资料,利用一元回归得出油气总资源量(换算成石油地质储量)与盆地沉积体积速度的方程为:
lgQ=2.813+1.613lgV
例2
体积速度法估算资源量22个盆地分为四类:式中:Q—油气地质储量,mt;
V—沉积物充填的平均体积速度,103km3/Ma现在是49页\一共有64页\编辑于星期五Ⅰ类:波斯湾、墨西哥湾、西西伯利亚等,
V>14×103km3/MaⅡ类:伏尔加乌拉尔、马拉开波、南里海盆地等,
(4<V<14×103km3/Ma)Ⅲ类:二叠盆地、圣华金盆地、切尔斯克—里海等,
(1.5<V<4×103km3/Ma)Ⅳ类:多是小盆地,如维也纳、伊里诺斯、密执安盆地,
V<1.5×103km3/Ma·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
0.20.10.40.81.53.25.412.825.551.21024
512
256
128
64
32
16
8
4
2
1
0.5油气原始地质储量与沉积充填的平均体积速度ⅠⅡ
ⅢⅣ·现在是50页\一共有64页\编辑于星期五沉积速度越快,氧化作用对有机质的破坏程度就越低,则分散有机质的保存和向石油转化的条件就越好。这是体积速度法估算油气资源量的理论基础,也是石油地质学的一个基础理论问题。
B.波捷列耶娃据稳定克拉通盆地,如阿拉伯台地、乌拉尔—伏尔加、二叠盆地等资料,得:
lgQ=1.40041lgV-1.8911
贾维同等(1983)利用206个盆地资料得出适合我国东部中新生代盆地资源预测公式:
lgQ=3.210+1.311lgV
问:为什么资源量随体积速度的增大而增多?现在是51页\一共有64页\编辑于星期五
例3
利用成油地质条件预测油气资源量我国东部勘探程度较高的含油气凹陷,其单位面积的油气储量与生、储、盖、运、圈、保的关系密切,朱子仁等采用探明储量数据建立回归方程:
Q=0.136Vf+0.729H+0.356Vr+0.152Sn-0.12N-5.37式中:Q
:单位面积的油气储量;
Vf
:生油岩体积与沉积岩体积之比,%;
H
:总烃与有机碳之比,%;
Vr
:储集岩体积与沉积岩体积之比,%;
Sn
:近油源圈闭面积与沉积岩面积之比,%;
N
:含油气凹陷经历的剥蚀次数。现在是52页\一共有64页\编辑于星期五泥质盖层封闭能力主要反映在两个方面:一是微观封闭能力的强弱,二是宏观展布范围。据盖层阻止油气运移的方式,可把盖层的微观封闭机理分为毛细管力封闭、异常压力封闭和浓度封闭。对毛细管力封闭机理而言,泥质盖层的突破压力是评价的关键参数。突破压力的计算指标有测井计算的总孔隙度和有效孔隙度。由苏丹Muglad(穆格莱德)盆地岩心与测井资料回归的突破压力方程为:例4
参数预测模型(1)测井盖层突破压力预测模型泥质盖层的有效孔隙度泥质盖层的总孔隙度经验系数现在是53页\一共有64页\编辑于星期五式中
Pa1:总孔隙度计算的泥质盖层突破压力;φt:泥质盖层的总孔隙度;
k1:经验系数,当φ>20%时k1=0.2,当φ<20%时,k1=0.22;
Pa2:有效孔隙度计算的泥质盖层突破压力;φe:泥质盖层的有效孔隙度。(据方朝亮主编《勘探开发集成配套技术及应用实践》,2006)。现在是54页\一共有64页\编辑于星期五(2)油气运聚系数预测模型油气运聚系数是成因法估算资源量的关键参数。在中石油第三次资源评价中,对38个资源探明程度相对较高的油气聚集单元进行剖析,获得了油气成藏条件定量描述参数和油气运聚系数等重要参数。在此基础上分析、研究了油气成藏地质因素与油气运聚系数的关系,采用逐步回归分析方法,建立油气运聚系数预测模型:烃源岩年龄(Ma)烃源岩成熟度(%)不整合面个数圈闭面积系数石油运聚系数(%)(据赵文智等《石油地质理论与方法进展》,2006)现在是55页\一共有64页\编辑于星期五序号含油气盆地(地区)现在温度(T)/℃实际深度(H)/m生油门限时间(t)/Ma123456789101112131415161718杜阿拉盆地(喀麦隆)落山矶盆地(美国)文吐拉盆地(美国)巴黎盆地(法国)阿启坦盆地(1)(法国)阿启坦盆地(2)(法国)卡马尔圭盆地(法国)阿尤恩地区苏绿海盆地(沙巴)塔拉纳基盆地(新西兰海上)亚马逊盆地(委内内瑞拉)塔拉纳基盆地(新西兰海上)东营盆地潜江盆地松辽盆地(1)松辽盆地(2)松辽盆地(3)辽河盆地6511512760907210685120806295939070656381120024002740140033002500325027403050290017503350220022001330123011801700701212180112135381051270359323535110100905018个盆地生油层数据例5
预测有机成熟区现在是56页\一共有64页\编辑
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年上学期八年级物理期末考试试卷(无答案)
- 2024版有林地离婚协议
- 2025年度定制化床垫设计生产采购合同3篇
- 2024项目立项专用合同书
- 2024门诊部中医拔罐师劳动合同与拔罐养生服务协议3篇
- 2024年公务员考试宜宾市珙县《行政职业能力测验》模拟试题含解析
- 2024特许经营权许可与商标使用合同
- 2025年度安置房项目投资合作协议3篇
- 【单元AB卷 核心基础卷】人教新起点英语一年级上册单元核心基础卷-Unit 1 School(含答案)
- 2024年从业人员职业健康管理制度
- 部队行车安全教育
- 低温共烧陶瓷(LTCC)全球市场、份额、市场规模、趋势、行业分析报告2024-2030年
- 防止电气误操作课件
- 物业暖通工程师年工作总结及年工作计划
- 手术室标本管理
- 肌钙蛋白升高详细解读
- 新供应商评价表
- 地质灾害风险调查评价项目招标文件
- 直流屏安装施工方案
- 九年级上册第二单元民主与法治 单元作业设计
- 三年级上册竖式、脱式、应用题每日一练
评论
0/150
提交评论