基于支持向量机的地震属性分析技术_第1页
基于支持向量机的地震属性分析技术_第2页
基于支持向量机的地震属性分析技术_第3页
基于支持向量机的地震属性分析技术_第4页
基于支持向量机的地震属性分析技术_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于支持向量机的地震属性分析技术

1地震属性优选方法地震属性的利用在气田勘探和开发中发挥着越来越重要的作用。目前在油气预测中应用较多的有模糊数学、模糊模式识别、灰色预测理论、人工神经网络等方法,这些算法都以较大的训练样本量为基础,在训练样本不足时预测的鲁棒性不理想。支持向量机(SVM)是基于结构风险最小化原理的模式分类器,在小样本情况下具有较强的分类与泛化性能,目前已成为继人工神经网络之后在油气勘探开发领域中又一个新的研究热点。地震属性种类较多,属性特性及针对性各异,加之勘探开发环境的差异,使得在进行油气预测之前需要优选出对研究区块油气敏感、彼此相关性不强的地震属性组合。地震属性选择方法总体上可以分为基于知识经验的专家选择法、基于数学算法的自动选择法、以及将二者共同使用的混合选择法。专家选择法是利用专家知识经验结合井资料直接挑选对研究区块敏感的地震属性,或利用属性交会图分析属性组合作用,但是它受制于专家知识与经验的局限性,同时由于可选择属性较多,造成属性选择工作量大、难以兼顾多种属性的综合作用。基于数学算法的自动选择法的基础是地震属性与储层性质之间存在统计相关性,这使得可以采用机器学习、模式识别方法根据井资料及地震数据实现属性优选。目前已引入油气预测领域的属性优选及属性压缩方法包括相关分析、主成分分析、遗传算法、模拟退火、粗糙集等。储层油气预测是一个典型的模式识别问题,地震属性优选的目标是为预测算法提供最具判别能力、信息冗余最少的属性集。本文针对SVM分类器提出一种以核相似性度量为基础,在特征空间最大化类可分性度量的属性优选算法,实现地震属性的自动优选,并与SVM结合进行储层油气预测。通过四川观音场数据和大庆油田G开发区块的实际储层油气预测,验证了本文算法的有效性。2svm对偶模型求解对于两类分类问题,给定观测样本集D={(x1,y1),…,(xn,yn)},其中x∈Rd为输入向量,y∈{-1,1}表示样本类别标记。SVM的核心思想是通过一个线性或非线性映射ϕ(·):Rd→F将原空间中线性或非线性分类问题映射到一个高维特征空间F中,然后在该特征空间中构建最优分类超平面。最优超平面方法控制了学习器的置信范围,使获得的SVM具有良好的泛化能力。在特征空间中寻找最优分类超平面可以表示为如下优化问题minJ(w,ξ)=12∥w∥2+C∑i=1nξi(1)minJ(w,ξ)=12∥w∥2+C∑i=1nξi(1)使得yi(wTϕ(xi)+b)≥1−ξiξi≥0yi(wΤϕ(xi)+b)≥1-ξiξi≥0其中:ξ为松弛项,用于体现样本分类错误;C为正则化参数,用于在经验风险与置信范围之间定义一种折衷,实现结构风险最小。上述最优分类面求解问题可以利用拉格朗日优化方法转化为其对偶问题maxL(α)=∑i=1nαi−12∑i=1nαiαjyiyj(ϕ(xi),ϕ(xj))maxL(α)=∑i=1nαi-12∑i=1nαiαjyiyj(ϕ(xi),ϕ(xj))使得∑i=1nαiyi=0αi≥0(2)∑i=1nαiyi=0αi≥0(2)其中αi为每个样本对应的拉格朗日乘子。求解上述问题后获得的支持向量机分类器判决函数为f(x)=sign[∑i=1nαiyi(ϕ(xi),ϕ(x))+b](3)[∑i=1nαiyi(ϕ(xi),ϕ(x))+b](3)其中sign(·)为符号函数。由于SVM在特征空间中所涉及的有关ϕ(·)的计算及判决函数都是以ϕ(·)的内积形式出现,因此通过引入核函数K(xi,xj)=<ϕ(xi),ϕ(xj)>(4)Κ(xi,xj)=<ϕ(xi),ϕ(xj)>(4)使得不需明确知道ϕ(·)的具体形式就可以将高维特征空间中的内积运算转化为低维输入空间的核函数运算,巧妙地解决了在高维空间中计算带来的“维数灾难”问题。支持向量机的判决函数也转变为f(x)=sign[∑i=1nαiyiK(xi,x)+b](5)f(x)=sign[∑i=1nαiyiΚ(xi,x)+b](5)常用的核函数有:线性核函数、多项式核函数、高斯径向基核函数、Sigmoid核函数等。3基于核相似性度量的递归特征选择属性优选的目的是将原问题转换到低维空间,只有那些与分类判别相关的属性信息被保留下来。对于两类分类问题,意味着在低维空间中两类样本之间的平均相似性更小,具有更大的可分性。因此,我们可以定义类可分性度量用于表示两类样本的差异。类可分性越大,则两类样本间的相似性越小,越容易分开。SVM的核心思想是通过使用某种线性或非线性映射,将训练样本由原属性空间映射到特征空间,并在特征空间中构建最优分类超平面。这种操作实际上也是提高了类可分性。由于SVM的训练和决策均是在特征空间中完成,因此属性优选也应基于向量在特征空间中的映射ϕ(x)的特征实现。本文中,我们首先定义了特征空间中的样本相似性度量和类可分性度量,在此基础上将移除某个特征后对类可分性度量的影响作为特征选择的依据,提出了一种新的基于核相似性度量的递归特征选择算法。本文算法主要包含4个问题:①在特征空间中定义样本相似性度量;②在特征空间中定义类可分性度量;③依据类可分性度量进行属性选择;④从现有属性集中搜索获取属性子集。3.1基于高斯核函数的相似性度量为了定义类可分性度量,首要的工作是定义样本相似性度量。分类问题本质上就是一个相似性问题,SVM也是如此。根据式(3)可看出,样本x的判定输出是基于它与所有支持向量xi在特征空间中内积的加权和得到的。不同的支持向量所赋予的权重αiyi不同,它代表着支持向量在决策中的作用程度不同。内积<ϕ(x),ϕ(xi)>则表示样本x与支持向量xi在特征空间中的相似度。因此在属性优选算法中,我们将内积<ϕ(x),ϕ(xi)>作为样本在特征空间中的相似性度量。给定两个输入样本xi和xj,他们在特征空间中的相似性定义为D(xi,xj)=<ϕ(x),ϕ(xi)>=K(xi,xj)(6)其中K(·,·)为核函数。选择不同的核函数隐式地选择了不同的映射函数ϕ(·),使得样本间相似性度量结果也不同。本文基于如下三方面原因而选用高斯核函数:(1)高斯核函数是单调有界函数,0<K(xi,xj)≤1,同时K(x,x)=1表明所有点的映像在特征空间中的范数都为1,任意两个映像的点积等于两映像间夹角的余弦值,即K(xi,xj)=<ϕ(x),ϕ(xi)>=cos(∠(ϕ(xi),ϕ(xj))),因此高斯核函数可以体现两映像在特征空间中的相对位置,是一种优秀的相似性度量;(2)高斯核函数具有平移不变性,即有K(xi,xj)=K(xi+x0,xj+x0)成立,表明样本相似性度量不依赖于数据表示空间的转移而变化;(3)高斯核函数对应Gram矩阵(核矩阵)是满秩的,因此它对应的特征空间可以是无限维的,因为有限的样本在该特征空间中肯定是线性可分的,所以高斯核函数具有极强的分类能力。3.2类别可分性度量基于样本相似性度量可以定义特征空间中的类可分性度量。设数据集D={(x1,y1),…,(xn,yn)},共含有n个训练样本分别属于类别A和类别B,其中类A中含有n1个样本,类B中含有n2个样本,ϕ(xi)表示向量xi在特征空间中的映像。根据样本相似性度量方法,我们可以在类内平均相似度和类间平均相似度的基础上定义类别可分性度量。针对两类分类问题,设k为类别标记,k∈{1,2}。类内相似度为同类别样本相似度的平均值,即mk=1nk(nk−1)∑i,j=1i≠jnkD(xi,xj)(7)mk=1nk(nk-1)∑i,j=1i≠jnkD(xi,xj)(7)类间相似度为异类样本相似度的平均值,即l=1n1n2∑i=1,j=1n1,n2D(xi,xj)(8)l=1n1n2∑i=1,j=1n1,n2D(xi,xj)(8)对于分类问题,由于SVM的结构化风险最小化是以最大化两类样本间隔距离实现的,同时样本的差异性是以内积为度量的,因此我们希望在特征空间中同类样本能尽可能地相似,异类样本尽可能地相异,即类内平均相似度越大,而类间相似度越小,则两类样本越容易分离。由此给出类别可分性度量为S=m1+m2l(9)S=m1+m2l(9)式中S越大,则在特征空间中同类样本聚集,而异类样本分离,两类样本越容易分开。3.3属性筛选算法从属性集中选择最优的属性子集是一个NP-hrad问题。本文中我们首先基于类可分性度量对属性排序,然后利用递归反向特征剔除算法(RFE)逐次优选属性。RFE算法起始于全体属性子集,依据属性删除标准,逐次删除最不利于分类的某个或多个属性。与全局搜索算法相比,该算法所得到的属性子集是子最优的,但是其计算效率高,总体性能好,是目前常用的一种属性搜索策略。本文中我们将剔除某个属性后对类别可分性度量的影响作为属性删除标准。如果剔除某个属性后,类别可分性出现较大的降低,则认为这个属性对类别可分性贡献较大,是重要属性;相反,如果类别可分性出现较大的增长,则说明该属性的存在不利于两类样本分类,属于无关属性。因此,在属性优选过程中,我们将那些剔除后使得类别可分性出现最大增长的属性视为无关属性,并予以剔除。由于类别可分性是基于核空间中的相似性度量获得的,因此命名此属性优选算法为基于核相似性度量的递归反向属性删除算法,简称KS-RFE。在地震勘探中,由于计算获取的地震属性性质各异,计算方法各异,因此属性数据提取结果没有统一的数据格式,数值变化范围也不同。因此,在进行属性优选前需要首先对数据进行标准化处理,再将各个属性数据限制在相同的范围内。数据标准化的方法很多,有总和标准化、最大值标准化、模标准化、中心标准化、标准差标准化等。KS-RFE算法基本步骤如下:步骤1输入训练样本集D={(xi,yi)Ni=1i=1Ν}并对其进行标准化处理,其中x∈Rd,y∈{-1,1}。令初始属性集F={f1,f2,…fd}步骤2令当前属性集为初始属性集:Cf=F,属性排序集合R=∅。步骤3循环执行步骤3.1至步骤3.6,直至Cf=∅,完成属性排序。步骤3.1根据当前属性集Cf提取数据组成新的训练样本集P。步骤3.2基于训练样本集P选择SVM模型参数。步骤3.3计算当前属性集Cf中每一属性的类可分性度量Si=m(−i)1+m(−i)2l(−i)(10)Si=m1(-i)+m2(-i)l(-i)(10)其中上标(-i)表示剔除第i个属性特征。步骤3.4找出对应于最大类可分性度量的属性特征:e=argmaxi(Si)e=argmaxi(Si)。步骤3.5更新属性排序集合:R=[e,R]。步骤3.6更新当前属性集:Cf=Cf-fe。步骤4输出属性集排序集R,是按照属性对分类的重要性递减排序的。4训练井与检验井预测实例1是针对四川观音场构造阳新统上部碳酸盐岩储层进行油气检测。该区块原始数据选自文献,包含17口井信息,每口井取3个地震道,地震属性信息包括振幅、相位、频率、构造曲率、速度、视极性和低速层厚度共7类属性数据。已知井分为三类:干井、低产气井和高产气井。针对此区块数据,已有多篇文献应用不同的方法进行了预测。其中文献采用模糊数学方法,文献采用BP神经网络方法,文献采用有监督的SOM神经网络方法,文献采用核Fisher判别分析方法。为与上述方法结果作比较,与文献相同,本文实验采用前10口井为训练井,用于属性优选和训练SVM,后7口井为检验井进行验证。由于SVM是两类分类器,因此本文采用两次训练SVM实现3类分类,即首先按照含油气性质分为干井(0)和气井(1)两类进行训练预测,然后再针对气井按产量分为低产气井(1)和高产气井(2)两类进行训练预测。首先,利用前10口井按照干井和气井两类组成训练井样本优选地震属性。采用KS-RFE算法提取出构造曲率、视极性和低速层厚度三个属性为优选属性子集。然后训练SVM,并对训练井回代预测,对检验井进行油气预测,结果如表1和表2所示。第二步,利用训练井中的低产气井和高产气井作为训练井,采用KS-RFE算法优选出构造曲率和视极性组成优选属性子集,然后训练SVM,并对训练井回代预测,对检验井进行油气预测,结果见表3和表4。可以看出,当分成干井和气井两类时,训练井回代预测和检验井预测均全部预测正确。当分成干井、低产井和高产井三类时,训练井回代预测正确率为100%,检验井预测正确率为71.4%。本文方法与其他方法预测结果比较见表5,为表示方便,将本文方法简称为KS-SVM。应用所有地震属性,直接利用高斯核SVM进行预测的方法简称为RBF-SVM。可以看出,当进行优选属性后,SVM性能得到较大提高,分类正确率由70.59%提高到88.23%。与其他方法结果比较表明,KS-SVM对该区块预测性能优于模糊数学和神经网络方法,与核Fisher判别方法性能相同。因此,在利用KS-RFE算法优选地震属性后采用SVM进行油气预测能够有效地提高SVM预测精度,降低预测风险。实例2为对大庆油田某开发区块进行的油气预测。在油气预测中,油田技术人员最初只提供了该区块14口井用于预测,其中产油井12口,产水井2口。待预测工作完成后,又提供了10口井进行检验,其中产油井9口,产水井1口。训练井与检验井信息见表6。首先提取了储层油气预测中常用的50种地震属性,属性列表如表7所示。然后对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论