第四章回归分析_第1页
第四章回归分析_第2页
第四章回归分析_第3页
第四章回归分析_第4页
第四章回归分析_第5页
已阅读5页,还剩117页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章回归分析§1引言§2一元回归分析§3多元线性回归分析§4逐步回归分析§5应用算例1

1.变量间的关系若变量y的变化依赖于变量xi(i=1、2、…、m),那么

y

xi

之间的关系大致分为两类:§1引言一、基本概念(1)函数关系如曲边梯形的面积S是曲边函数f(x)在其底边[a,b]区间上的积分,即:这类函数关系是数学分析的研究对象。2(2)相关关系如生油门限时间t与生油层的温度T、埋藏深度H和干酪根类型k等地质因素有关,但它们之间却没有确切的数学关系。称变量间不确切的依赖关系为变量的相关关系。它是回归分析的研究对象。

2.相关变量相关变量是存在着相互依赖性和制约性、但并没有严格数量关系的变量。3例如生油门限时间t依赖于生油层的温度T及其埋藏深度H等。温度越高、埋藏越深,有机质演化为油气所需要的时间就越短,反之就长。t与T、H具相关性,是相关变量。

例如含油气地质单元中的油气资源量Q

随地质单元内生油岩体积V1、储集岩体积V2、近油源圈闭面积S的增大及有机质转化率k的升高而增加,却随盆地所经受的剥蚀次数n的增多而减少。上述地质变量也是相关变量。4

3.回归分析或依据相关变量y、xi(i=1,2,…,m)的n组观测值(x1k,x2k,…,xmk,yk)(k=1,2,…,n),研究变量y、xi(i=1,2,…,m)间相关关系并确定近似定量关系的一种统计分析方法。5

二、回归分析解决的问题•确定地质变量y与xi(i=1,2,…,m)之间是否存在相关关系,如果存在,找出表示它们之间相关关系的数学表达式。•根据xi(i=1,2,…,m)的观测值,利用确定出的数学表达式预测y的估计值,并给出预测结果的精确度。•通过回归分析确定哪些地质变量对y的作用大,哪些变量对y的影响是无足轻重的,进而化简地质研究。6三、回归分析类型

根据自变量个数m的大小,回归分析可分为(m=1)一元回归分析和(m≥2)多元回归分析;按照变量间的相关类型,它可分为线性回归分析和非线性回归分析;从计算方法上,它可分为逐步回归分析和加权回归分析。7§2一元线性回归分析一、一元线性回归的含义、模型及方程

一元回归分析是研究两个变量(x与y)之间的相关关系,并确定其近似数学表达式的一种统计分析方法。1、含义2、模型及方程y=a0+a1x+

~N(0,

2)

若对x与y分别作了n次观测,则可得到n组数据yk,xk,

k

(k=1,2,…,n)8假设b0,b1是a0,a1的估计值,则有如下一元线性回归方程为:—方程给出的回归值;b0,b1—回归方程的待定系数。xyy=b0+b1x使回归效果最好的b0和b1即回归系数a0和a1最佳估计值9二、确定回归系数(最小二乘)偏差平方和10正规方程组

1112为了计算上的方便,我们引入下面的记号:13这样,a0,a1的估计值b0,b1就可以写成14三、回归检验(一)构造检验统计量总偏差平方和15其中由(4-9)式原形知16Q—总偏差平方和,它反映数据yk的总波动情况Q1—偏差平方和,它反映了实测数据yk偏离回归直线的程度Q2—回归平方和,反映了由于x的变化对y的影响程度。Q,Q1,Q2的自由度分别为n是观测样品数17(二)F检验遵从F(1,n-2)分布F>F

,y与x存在线性关系,回归方程显著F≤F

,y与x没有线性关系,回归方程不显著18(三)复相关系数检验R愈接近于±1时,说明y与x之间的线性关系很密切,此时回归方程的显著性越高;反之,当R愈接近于0时,说明y与x之间的相关性越差,此时回归方程就没有实际意义。19R的具体计算公式20统计量F与R之间的关系21四、回归预测与控制(一)回归预测根据回归方程算出y的回归值在观测次数n较大时,有

是剩余标准差,可用剩余平方和Q1除以自由度fQ1估计,记作

2

刻画了yk的值偏离回归直线的误差大小22如果对固定的x,观测值y是遵从正态分布的随机变量,则对给定的x=x0(当样本容量n较大,而x0在附近时),相应的观测值y0将以给定的概率落在下面的区间内:的概率为68.3%

的概率为95.4%

的概率为99.7%

23(二)回归控制所谓回归控制,就是调整xi(i=1,2,…,m),使y的值落在某一给定的范围y1≤y≤y2内。当给定值xr满足条件时,即可使y在给定的范围y1≤y≤y2内取值。24五、回归分析的具体计算步骤1.根据给定数据(xk,yk;k=1,2,…,n),计算252.根据式(4-15),求出回归方程待定系数:于是得到回归直线方程:263.计算检验回归方程显著性的参数R和F,并检验方程的显著性:4.根据显著性回归方程,给定x0值,预测y值;给定y的范围y1≤y≤y2,调整x,实现对y的控制。27六、方法算例海拉尔地区某口取心井在1131.20~1335.95m井段的大磨拐河组二段取得岩心样品10块,经过岩石物性分析,测得的物性数据如表4-2所示,试确定该井段渗透率(K)是否和孔隙度(Φ)存在相关关系?若有,确定其表达式。表4-2海拉尔某取心井物性分析数据表样品编号埋深m孔隙度%渗透率10-3

m211329.2923.639.121329.4116.43.9331329.5325.21741329.7917.80.5151329.9521.63.0961330.0625.947.971330.2725.422.381330.3728.795.291330.9125.249101330.9727.911028图4-2Φ与ln(K)的散点图渗透率的自然对数ln(K)与孔隙度Φ可能存在着线性相关关系29(1)令x=Φ,y=ln(K),建立回归方程:(2)求相关参数30进而可求出回归系数为:于是得到回归直线方程:31(3)检验方程的显著性复相关系数:统计量:以上检验说明方程是显著的32(4)将Φ=x,ln(K)=y代回方程,可以得到渗透率与孔隙度的关系式:33§3多元线性回归分析

一、回归模型与回归方程则称

y

xi之间具有

m

元线性相关关系,简称线性关系,并称式(3-1)为线性回归模型,其中a0、a1、…、am为待定系数;ε-误差项,且ε

~N(0,σ2)。若b0、b1、…、bm是a0、a1、…、am的最佳估计值,则有:

若变量y与xi

(i=1,2,…,m)

之间具有关系:34称式(3-2)为xi对y的线性回归方程,而b0,b1,…,bm叫做回归系数。

二、确定回归系数(最小二乘法)

假设已有自变量xi

和因变量

y

n

组观测值,记为:将

xik代入线性回归方程,可得n个yk的预测值:回归方程表示m+1维空间的一个平面35

确定回归系数的原则是使n个偏差的平方和达到最小。由上式可知,Q1是关于b0、b1、…、bm的二次函数,且Q1>0,根据极值原理,有:(3-6)上式是以b0、b1、…、bm为未知数的线性方程组,可求出b0、b1、…、bm,故可确定式(3-2),即:(3-5)36整理得m+1阶线性方程组如下:其中:m阶线性方程组37如此便确定了相关变量间的近似定量关系。使偏差平方和最小来确定参数的方法称为最小二乘法。上述用最小二乘法确定回归方程的基本原理是回归分析的一个重要内容,应用很广,希望重点理解并掌握。38

前面的讨论是假设y与xi具有线性关系,那么,这种假设是否成立?回归模型检验解决的就是这个问题。为此,先定义以下几个统计量:

偏差平方和:,它反映观测值与回归值的逼近程度;总偏差平方和:,它是反映

y

观测值离散程度的一个指标;其中:三、回归检验(一)对回归方程的显著性检验39可以证明:

(3-7)回归平方和:,它反映xi的变化对y引起的波动。将Q、Q1、Q2的自由度分别定义为:fQ,fQ1,fQ2可证fQ=n-1fQ1=n-m-1fQ2=m且有fQ=fQ1+fQ2即:总偏差平方和=偏差平方和+回归平方和40根据式(3-7),定义变量

y

xi

的复相关系数:作为检验变量相关程度的指标。

R的值越接近于1,变量间的相关性越密切,即回归方程越显著。1.复相关系数检验412.F分布检验假设H0:变量y与xi没有线性关系若H0为真,则Q1相对较大,Q2相对较小。当Q2/Q1

小于某个临界值时,就接受假设H0

,否则否定原假设H0

,既认为变量y与xi(i=1,2,…,m)有显著的线性关系。可以证明:42对于给定的检验水平α,在F分布表上查得临界值Fα,当F>Fα时,否定原假设H0,这时称回归方程是显著的,可以使用;否则,接收原假设

H0,认为求得的回归方程不能应用。43(二)对变量的显著性检验不论是用复相关系数R还是用统计量F对回归方程进行显著性检验,都是检验的m个地质变量对y的综合作用。如果变量xr与y无线性相关关系,就相当于线性回归模型中xr的待定系数ar等于0。假设H0:ar=0(即xr与y无线性相关关系)统计量44对于给定的检验水平α,在F分布表上查得临界值Fα,当Fr

>Fα时,否定原假设H0,这时即认为变量xr对y的作用显著,可以使用;反之,若Fr<Fa,在检验水平a下接受原假设H0,这时即认为变量xr对y的作用不显著,变量xr不应进入回归方程。对变量xi(i=1,2,…,m)逐个进行检验,筛选出对y作用显著的变量重新进行回归分析,建立更为简单而有效的线性回归方程。45

1.预测

把各自变量的取值代入式(3-2),可求出因变量的估计值:

四、回归预测与控制此即回归预测(用回归方程估计因变量的值)。内的概率分别大约为0.68和0.95(图3-1)。其中剩余标准差为:

当各自变量取值在观测值范围内时,yr(理论值)落在区间:46

2.控制

控制:调整xi的值,使y落在某区间(y1,y2)。如:改变储层非均质性、储层表面润湿性、流度比(驱动液流度与被驱动液流度的比值)等因素,使原油采收率提高到某个范围,就是回归控制的一个例子。

图3-1回归精度示意图P=0.9547如对于上例,若令:

例:岩石渗透率k与声波时差Δt、自然伽玛相对值ΔGR之间具有非线性关系:

五、非线性回归分析

问:如何求回归方程?

在非线性相关变量进行回归分析时,先用变量替换法将其转化为线性关系,然后再求回归方程。注:原始观测数据相应变化。

则可化为线性回归模型48a对数曲线b指数函数曲线c指数曲线d抛物线曲线常用的非线性关系曲线49

六、多元线性回归分析的计算步骤50七、方法算例据唐振宜等人研究,在生、储、盖、圈、保这五个控制油气聚集条件互相结合可以形成油气藏的条件下,油气藏储量密度(104t/km3)与以下生油条件参数有密切关系,这些参数是:生油门限以下平均地温梯度∆t0(用变量x1表示)、成油门限以下总有机碳含量C%(用x2表示),生油岩体积与沉积岩体积百分比(用x3表示)。砂泥岩厚度百分比(用x4表示)。成油门限以下生油带总烃与有机碳的百分比即有机质转化率(用x5表示)。现求储量密度y与这五个因素间的多元线性回归关系式。51指标样品x1x2x3x4x5y13.181.159.417.630.723.80.795.130.53.80.733.61.19.29.13.65142.730.7314.512.84.681.153.41.487.616.54.51.563.2110.810.18.12.672.60.617.316.116.162.784.12.33.717.86.73.193.721.949.936.14.16.1104.11.668.229.4139.6113.351.257.827.810.510.9123.311.8110.79.310.911.9133.61.424.612.612.7612.7143.51.3921.341.11014.7154.752.426.242.516.421.3我国东部15个勘探程度相对较高的中、新生代盆地、凹陷数据52解:(1)计算各个变量的平均值以及Sij

53(2)根据式(4-27)可得矩阵方程解矩阵可得:b1=-0.63b2=4.04b3=0.38b4=0.13b5=0.56将上述结果代入式(4-27)解得b0:54即可得回归方程为:(3)方程显著性检验

Q1=Q-Q2=6055则复相关系数统计量(4)变量的显著性检验(略)56§4逐步回归分析一、逐步回归的提出及其基本思想如前所述,对于有机质向石油的演化速度来说,生油层的温度比埋藏深度影响更大(相关程度更大),那么如何定量描述其相关程度呢?为此,介绍一个统计指标—相关系数,它是变量之间相关程度的一种度量。假设:1.逐步回归的提出(1)变量xi对y的作用不同57则相关系数定义为:式中:

由定义可知,当xi

=xj时,rij=1。表明两变量的观测值完全相同,即相关程度达到最高。据下表内生油层数据,分析生油门限时间t分别对生油层温度T和埋藏深度H的依赖性(相关性)。或58序号含油气盆地(地区)现在温度(T)/℃实际深度(H)/m生油门限时间(t)/Ma123456789101112131415161718杜阿拉盆地(喀麦隆)落山矶盆地(美国)文吐拉盆地(美国)巴黎盆地(法国)阿启坦盆地(1)(法国)阿启坦盆地(2)(法国)卡马尔圭盆地(法国)阿尤恩地区苏绿海盆地(沙巴)塔拉纳基盆地(新西兰海上)亚马逊盆地(委内内瑞拉)塔拉纳基盆地(新西兰海上)东营盆地潜江盆地松辽盆地(1)松辽盆地(2)松辽盆地(3)辽河盆地6511512760907210685120806295939070656381120024002740140033002500325027403050290017503350220022001330123011801700701212180112135381051270359323535110100905018个盆地(地区)部分生油层数据59t与T的相关系数为

结论:有机质向石油演化的时间随着地温的升高和埋藏深度的加大而缩短,但温度对演化时间有着更明显的作用。t与H的相关系数为计算出两个相关系数如下:60该实例表明:对于拟定的自变量来说,它们对因变量的作用是不同的,其中很可能有不起作用的自变量。由此提出:按自变量与因变量的相关程度逐步挑选作用显著的自变量建立回归方程,这是提出逐步回归分析的原因之一。进一步还有:温度是有机质热演化进程的主要因素,温度不足可以在某个临界温度条件下通过热演化时间来补偿。这是石油地质学中有机热成油学说的一个基础理论问题。61(2)变量间的相关性地质现象是地质作用迭加的结果,因此描述地质现象的变量xi

(i=1,2,…,m)之间就既有相对的独立性、又存在着一定的成因联系。对具有成因联系的一些变量,一方面各自对y都有不可忽视的影响,另一方面,当把它们都选入回归方程后,又使得先选入的变量对y的作用变得微不足道。因此就要把这种变量从回归方程中去掉,即对已选入回归方程中的变量进行逐步“筛选”,这是提出逐步回归分析的另一个原因。62

在回归过程中,按变量xi(i=1,2,…,m)对y作用的大小,把作用达到一定程度的变量xr(1≤r≤m)逐个“引入”回归方程,同时逐个检验已引入回归方程的变量对y的影响,若xα

(

xα∈xr

)对y作用已不显著,就再从回归方程中“剔除”它,如此直到既没有对y作用显著的变量引入回归方程,又没有作用不显著的变量从回归方程中“剔除”。2.逐步回归的基本思想回归分析结束时,若共引入了l(l≤m)个作用大的变量,那么含有l个变量的回归方程即为:63

在逐步回归中,需要判断变量

xi对

y

的作用,那么如何衡量其作用的大小呢?为此,构造一个衡量

xi对

y

作用大小的指标及检验作用大小的方法。

二、变量的作用及作用大小的检验

1.衡量变量xkα对y作用大小的指标据例1中的数据分析变量的作用

(1)地层温度T

对生油门限时间t的回归方程为:

在此,不从理论上证明,仅以一个实例对这个问题加以说明,理解即可(详见教材)。64lnt与1/(T+273)的相关系数。

根据例1中的数据和上式计算得:总偏差平方和Q=15.586;偏差平方和Q1(1)=3.357;回归平方和Q2(1)=12.229;

Q=Q1(1)+Q2(1)

相关系数r=0.8858。注意偏差平方和与回归平方和的值。65

(2)增加一个变量---埋藏深度H后,对生油门限时间t的回归方程为:lnt与1/(T+273)、1/H的相关系数

根据例1中的数据和上式计算:总偏差平方和Q=

15.586;偏差平方和Q1(2)=1.685;

回归平方和

Q2(2)

=13.900;

Q=Q1(2)+Q2(2)复相关系数r

=

0.9444。3.35712.2290.885866

因此可见,回归方程中增加一个变量后,回归平方和的增加量等于偏差平方和的减少量,即:增加量ΔQ

是变量

H

引入回归方程后,对

t

引起的波动,称为变量H对变量

t

的方差贡献。

一般情况下,把变量xkα的方差贡献记为Vkα,它是衡量变量xkα对y作用大小的一个指标。

下面讨论方差贡献达到多大时,xkα才被引入和方差贡献达到多小时时xkα才被剔除的问题。67

2.检验变量xkα对y作用大小的方法(1)检验xkα是否剔除则有则方差贡献:68则有统计量:服从F2(1,n–l-1)

分布。式中n—样品数(数据组数);l—回归方程中已选入的自变量个数。方程中已有l个变量,其中xkα的方差贡献。l个变量的偏差平方和当Fkα

>F2时,则否定原假设,说明原假设不成立,应把变量xkα保留,否则剔除。69(2)“引入”变量的原则则有则方差贡献:70这一步能引入则相当于下一步不能剔除,则有统计量:服从F(1,n–l-2)

分布。式中n—样品数(数据组数);l—回归方程中已选入的自变量个数。方程中已有l个变量,再增加xkα时的方差贡献l+1个变量的偏差平方和l个变量的偏差平方和71当Fkα

>F1时,则否定原假设,说明原假设不成立,应把变量xkα引入回归方程,否则引入变量结束。在F(1,n-l-2)和F(1,n-l-1)中,当n>>1时,因为故可取据经验值可取1、2、3、4等正整数即可。72三、逐步回归的变换公式1.数据的标准化问题给定一组实际观测数据x1k,x2k,…,xmk,yk(k=1,2,…,n),由于xi和y取值范围和单位不同,为了在无量纲下计算,同时也为了适应计算方法的需要,所以在逐步回归时应先将原始数据作如下变换:数据的标准化变换73其中:变换之后的数据显然有如下规律:74如果用变换后的数据作回归方程,得到的回归方程称为标准回归方程,其形式可写成:因为于是,标准回归方程为其中,标准回归系数(i=1,2,…,m)应满足75同理,

于是有,76则得到标准回归系数方程组:求出标准回归系数:得到标准回归方程:772.相关系数增广矩阵标准化正规方程组的系数矩阵增加一行一列,得矩阵矩阵R=[rij](i,j=1,2,…,m+1)叫做相关系数增广矩阵

逐步回归是通过对变量的相关系数增广矩阵实施一系列高斯求解变换来实现逐步引入和剔除变量的,并最终求出回归方程。78(二)标准化回归方程与原始回归方程的关系得79将上述方程变换得到:对比回归模型:则有:标准化回归方程与原始回归方程的系数关系80三个平方和之间的关系老回归方程的复相关系数R、统计量F及剩余标准差σ813、逐步回归的变换公式逐步回归分析求解回归方程就是对R实施一系列高斯求解变换。设已进行了N步,引入了l个变量xk1’,xk2’,…,xkl’,它的第N+1步不论是引入还是剔除变量xkα’,都是根据下式对R中的元素进行变换来实施。并得到第N+1步的变换矩阵。式中rij(N)、rij(N+1)—分别是第N步、第N+1步变换矩阵R(N)和R(N+1)中的元素。82知识复习

高斯消去法解线性方程组

一般的n阶线性方程组可表示如下:

若(1)有解,那么利用矩阵变换求解的过程如下:1.消元方程组系数矩阵常数项83方程组系数矩阵常数项第1步设第2步设84第n步设经过n次消去计算,得到一个与(1)等价的方程组:852.回代①由式(2)的第n个方程得②把代入式(2)的第n-1个方程得③再把xn、xn-1代入式(2)的第n-2个方程求出xn-2,如此逐个回代,可求出方程组的解。

上述求解过程可以总结成如下变换公式:86

┅消去变换的自变量号;N┅消去变换的次数(步数)。87

1.方差贡献在第N步回归的基础上,第N+1步不论是引入还是剔除变量xkα,它的方差贡献按下式计算:

设逐步回归进行N步,引入l个变量对应的回归方程为:

四、方差贡献、偏差平方和及回归系数88当Vkα(N)>0时,第N+1步是引入变量xkα’(xkα’不在第N步的回归方程中),Vkα(N)<0时,第N+1步是剔除变量xkα’(xkα’已在第N步的回归方程中)。

2.偏差平方和第N步回归方程式(4-46)的偏差平方和为:89则回归方程式(3-10)的系数为:复相关系数为:逐步回归分析不仅能够挑选变量建立回归方程,而且能够帮助我们建立变量的相关形式。90逐步回归分析流程图开始输入引入和剔除变量的临界值F1,F2计算相关系数增广矩阵计算不在回归方程中所有变量的方差贡献,求其中最大者检验相应变量是否引入变换相关系数增广矩阵计算回归方程中所有变量的方差贡献,求其中最小者检验对应的变量是否剔出变换相关系数增广矩阵计算引入回归方程中各变量的回归系数、复相关系数及对已知样品进行验算。回归结束91六、方法算例例:据唐振宜等研究,在生、储、盖、圈、保这五个控制油气聚集条件互相结合可以形成油气藏的条件下,油气藏储量密度(104t/km3)与以下生油条件参数有密切关系,这些参数是:生油门限以下平均地温梯度(x1)、生油门限以下总有机碳含量(x2),生油岩体积与沉积岩体积百分比(x3),砂泥岩厚度百分比(x4),生油门限以下生油岩总烃与有机碳的百分比即有机质的转化率(x5).先用逐步回归求储量密度Y与这五个因素之间的回归关系式。下列数据取自我国东部15个勘探程度较高的中新生带盆地(a=0.05)。92x1x2x3x4x5y3.181.159.417.630.73.80.795.130.53.80.73.61.19.29.13.6512.730.7314.512.84.681.13.41.487.616.54.51.53.2110.810.18.12.62.60.617.316.116.162.74.12.33.717.86.73.13.721.949.936.14.16.14.11.668.229.4139.63.351.257.827.810.510.93.311.8110.79.310.911.93.61.424.6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论