基于突现自组织映射的火山岩识别数据挖掘方法_第1页
基于突现自组织映射的火山岩识别数据挖掘方法_第2页
基于突现自组织映射的火山岩识别数据挖掘方法_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于突现自组织映射的火山岩识别数据挖掘方法

岩石识别是评价井土流度的基础。主要方法有界面图、统计方法、神经网络等。BP网络和自组织映射(Self-OrganizingMap,SOM)是应用最为广泛的神经网络模型。但是高度参数化的BP网络需要很高的工程技巧确定合适的参数,否则很容易过度拟合到训练数据中;标准SOM遇到高维复杂、差异不明显的数据时,往往由于类簇相互重叠而无法得到有意义的聚类信息。突现自组织映射(EmergentSelf-OrganizingMap,ESOM)扩展了标准SOM算法,尤其适合高维数据的可视化聚类。笔者以准噶尔盆地陆东-五彩湾地区火山岩岩性识别为例,研究一种将ESOM作为综合数据挖掘工具用于测井岩性识别的新方法。1som映射算法的聚类分析SOM神经网络为一单层前馈网络,由输入层和输出层(竞争层)组成。输入层所在空间称为数据空间或样本空间,神经元数与样本维数相同;竞争层由两维网络组成,称为映射空间。网络是全连接的,可以把任意高维数据映射到低维空间,并且保持其拓扑结构不变。SOM经过充分训练并且收敛后,具有聚类、特征选择、降维可视化等功能。突现指的是在一个由大量个体组成的系统中自发涌现出来的集体行为,这种行为不能从系统个体的知识中预测甚至“想象”。比如生命之于无生命的物理化学特性,心灵之于神经细胞的生理活动,就是突现现象。ESOM的基本思想就是改进标准SOM映射使其能产生突现现象,以达到揭示隐藏在数据中宏观结构的目的。如果想要SOM产生突现,必须满足2个关键条件:①映射空间必须要有充足的神经元;②学习算法必须是拓扑保持的。对于条件①,ESOM选择的神经元个数至少上千,远远大于预期的类簇个数;对于条件②,SOM映射算法本身就是拓扑保持的,因此ESOM直接继承该算法,并采用无边界超环面映射空间。ESOM训练结果是高维原型向量的低维网络,样本匹配神经元坐标并不能提供直观可视化信息,必须采用额外的方法来可视化。这些方法主要有基于距离的U矩阵法、基于密度的P矩阵法和基于距离和密度结合的U*矩阵法3种。研究采用U矩阵法。定义神经元ni的邻域Ui为:Ui={nj|k(nj,ni)<u,nj≠ni}(1)式中,k为映射空间上的距离度量;u为正数阈值常量;神经元的U高度uh(ni)等于ni权向量到Ui内所有神经元权向量距离之和:uh(ni)=∑nj∈Uid(ni,nj)(2)uh(ni)=∑nj∈Uid(ni,nj)(2)式中,d为样本空间上的距离度量。为了可视化,典型作法是将U高度以等高线的形式显示在SOM的底平面上,这类地形图显示了样本空间的距离关系,实现了距离特征的突现,能够很直观地检查出类簇结构和异常点。U矩阵可视化的性质如下:①样本匹配神经元的坐标位置关系代表了数据空间的拓扑结构;②如果U高度比较大,说明该神经元与其他神经元相距较远,而U高度小的神经元,则处于其他神经元的包围之中;③样本匹配神经元一般位于“盆地”区域;④输入数据中的异常点位于“漏斗”状区域;⑤“山脉”代表了类簇边界。在平面映射空间中,边界处神经元的邻域要比中间位置神经元的邻域数据量少,这会导致映射结果的边界效应,解决办法是将平面空间边界连接起来转换为超环面映射空间。另一个问题是将环面映射的U矩阵再转为平面显示时,位于边界处的突现结构将被切断,给分析观察带来不便。解决办法是将多张无边界U矩阵平铺重复显示,这样就能完整展现边界处的突现结构。SOM可视为带有拓扑约束的k均值聚类算法的变体,对于输出神经元较少的SOM可称为拓扑k均值SOM(TKM-SOM),其能力等同于k均值聚类,而且这时拓扑保持的作用不大。ESOM聚类时明显不同于TKM-SOM。TKM-SOM神经元就代表类簇,k等于映射神经元数量,而ESOM需要通过人工观察U矩阵上的“地形特征”识别类簇,或者通过突现聚类算法来实施聚类,如U*F算法或U*C算法。对于BP神经网络,如果网络太小的话精度低,如果太大则又容易过度拟合,ESOM无此缺点,神经元数量多并不会增加模型的自由度,因为神经元受拓扑保持限制,增大规模意味着增加数据空间到映射空间的投影分辨率。2岩石岩性结构及激发参数数据挖掘(DataMining)是从海量数据中获取正确的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。应用数据挖掘就是一个人机交互、多次迭代进行的智能数据分析过程。ESOM具有可视化、聚类和分类功能,是非常理想的数据挖掘工具。下面结合火山岩岩性识别介绍ESOM数据挖掘流程。样本数据取自准噶尔盆地陆东-五彩湾地区,共收集了12口井的230块火山岩岩心样品,全部来自石炭系。根据该区块地质情况和测井评价要求,选取4种主要的火山熔岩:玄武岩、安山岩、英安岩、流纹岩进行研究。选择自然电位SP(mV)、自然伽马GR(API)、声波时差AC(μs/m)、密度DEN(g/cm3)、补偿中子CNL(%)、冲洗带电阻率RXO(Ω·m)、过渡带电阻率Ri(Ω·m)和地层电阻率Rt(Ω·m)等8条常规测井曲线作为识别参数。将岩心与测井曲线深度对齐并取值,去掉一些有缺失值或明显异常的样品,整理后有效样品共214块,其中玄武岩50块、安山岩123块、英安岩30块、流纹岩11块。挖掘流程分为6步。①数据预处理:首先对3条电阻率曲线取对数,再将全部8条测井曲线进行Z变换,并归一化到区间。然后将数据按80∶20比例划分为训练集和测试集,测试集41条,训练集173条,其中玄武岩40条、安山岩100条、英安岩24条、流纹岩9条。②网络结构和训练参数设计:ESOM网格50行82列,无边界环面映射;权值初始化方法为高斯随机数;训练算法为在线算法;采用欧氏距离函数;邻域半径和学习率线性衰减;映射神经元4格排列;近邻函数为高斯函数;训练代数为20。其中关键的是神经元个数,推荐设置为4000个以上。③可视化设计和分析:决定采用何种可视化方法、背景颜色梯度类型、是否显示等值线、是否平铺重复显示等,这里采用U矩阵法。④聚类分析:采用人工观察或自动化聚类算法。⑤分类:识别出映射空间中的类簇区域,赋于该区域所有神经元以类簇标签,之后ESOM成为类似于k最近邻的分类器,这里k=1。不同之处是,类簇分配是通过可视化方式进行的,而且可以轻易识别出那些无法分配类别的点,这可以使人有更多参与判断的机会;⑥如果对挖掘结果不满意,返回第①步重新调整数据、测井曲线和训练参数,再次进行挖掘。3岩性分区和类簇采用DatabionicsESOMTools完成火山岩岩性数据挖掘工作,每次迭代除了改变算法参数之外,主要调整参与挖掘的测井参数。经过多次尝试,挑选出最佳测井参数组合方案,该方案只用了GR、AC、DEN和CNL等4种参数。将训练集作为输入数据映射生成ESOM模型,其U矩阵可视化结果见图1。图中白色代表U高度高值,黑色代表低值;字母代表样本的匹配神经元,其中A为安山岩,B为玄武岩,R为流纹岩,D为英安岩。图1(a)为4幅无边界U矩阵平铺重复显示图,可以发现4种岩性被很好地聚集在图中的“盆地”区域(黑色部分),“山脉”(白色部分)代表类簇边界。同样也可以看出有些类簇区域跨越了单幅图边界(比如安山岩区),而在平铺图上则展示出完整结构。去除图中冗余部分后形成一个类似岛屿的图像,称之为U地图。随后分析U地图进行手动交互聚类,以山脉为边界,划分4种岩性的类簇区域,见图1(b)。由于岩性复杂,安山岩区域内部又划分为3个小区域。由于受研究区块岩样数量和测井曲线限制,玄武岩、流纹岩和安山岩的样本数量少,因此类簇区域小,尤其是流纹岩更小,而且部分流纹岩岩样落入英安岩区域。但总体上各种岩性区域很好地被区分开,这为分类打了下良好的基础。将测试数据集在ESOM模型上进行投影,以样本落入的岩性区作为该样本的岩性。结果发现3个样品识别错误:1块安山岩和1块玄武岩被投影到山脉区,划入无类别区域,这是由于训练样本中并没有覆盖这2块岩样的某些特征;1块流纹岩被错分到英安岩区,这是由于流纹岩和英安岩的训练样本过少,类簇代表性低造成的。测试集共有41块岩样,正确分类38块,分类准确率为92.68%。4人工参与区域地质及分类ESOM网络具有自组织和自适应能力,采用大规模神经元并采用U矩阵可视化处理后,能揭示数据中的突现现象,发现类簇结构和异常点,而这种能力是非突现SOM所不具备的。人工可以参与ESOM的聚类过程,因此可以融入专家

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论