基于数据挖掘的滑坡监测信息挖掘研究_第1页
基于数据挖掘的滑坡监测信息挖掘研究_第2页
基于数据挖掘的滑坡监测信息挖掘研究_第3页
基于数据挖掘的滑坡监测信息挖掘研究_第4页
基于数据挖掘的滑坡监测信息挖掘研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的滑坡监测信息挖掘研究

1基本概念和方法随着数据库技术的快速发展和广泛应用,收集的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,发现数据中存在的关系和规则,并根据现有的数据预测未来的发展趋势。但由于缺乏挖掘数据背后隐藏的知识手段,导致了“数据爆炸但知识贫乏”的现象。面对上述挑战,数据挖掘和知识发现技术(DMKD)应运而生,并显示出强大的生命力。数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是知识发现(KDD,KnowledgeDiscoveryinDatabase)最核心的部分,数据挖掘算法的好坏将直接影响到所发现知识的好坏。数据挖掘的主要任务有总结规则挖掘、关联规则挖掘、分类规则挖掘、聚类规则挖掘、趋势分析和偏差分析等。常用的数据挖掘方法有统计、基于事例的推理、神经网络、决策树、规则推理、贝叶斯信念网络、遗传算法/演化程序设计、模糊集及粗糙集等方法。虽然数据挖掘技术已经广泛应用于银行、电信、保险、交通、零售(如超级市场)等商业领域,但在科学研究领域的应用还相对较少,尤其是在滑坡监测资料分析方面的应用尚未见报道。本文运用比较常用的关联规则挖掘方法对滑坡监测信息进行了研究。2相关规则的挖掘2.1项的集合xt设I={i1,i2,…,im}是二进制文字的集合,其中的元素称为项(item)。记D为交易(transaction)T的集合,这里交易T是项的集合,并且T⊆I。对应每一个交易有唯一的标识,如交易号,记作TID。设X是一个I中项的集合,如果X⊆T,那么称交易T包含X。一个关联规则是形如X⇒Y的蕴涵式,这里X⊂I,Y⊂I,并且X∩Y=Φ。规则X⇒Y在交易数据库D中的支持度(support)是交易集中包含X和Y的交易数与所有交易数之比,记为support(X⇒Y),即support(X⇒Y)=|{T:X∪Y⊆T,T∈D}|/|D|规则X⇒Y在交易集中的可信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence(X⇒Y),即confidence(X⇒Y)=|{T:X∪Y⊆T,T∈D}|/|{T:X⊆T,T∈D}|给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小可信度(minconf)的关联规则。2.2管理区域间的关系可以将关联规则按不同的情况进行分类:(1)基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。(3)基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。2.3生成所有频集Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,其核心是基于频集理论的递推方法。以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究,包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;提出各种变体,如泛化的关联规则、周期关联规则等,对关联规则的应用进行推广。现将经典频集算法简述如下:Agrawal等1993年设计的经典频集算法是一个基于两阶段频集思想的方法,它将关联规则挖掘算法的设计可以分解为两个子问题:①找到所有支持度大于最小支持度的项集(Itemset),这些项集称为频集(FrequentItemset)。②使用第1步找到的频集产生期望的规则。这里的第2步相对简单一点。如给定了一个频集Y=I1,I2,…,Ik,k≥2,Ij∈I,产生只包含集合{I1,I2,…,Ik}中的项的所有规则(最多k条),其中每一条规则的右部只有1项,(即形如[Y-Ii]⇒Ii,∨?1≤i≤k)。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。首先产生频繁1项集L1,然后是频繁2项集L2,直到有某个k值使得Lk为空集,这时算法停止。在第k次循环中,先产生候选k?项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk1的频集做一个(k2)连接来产生的。Ck中的项集是用来产生频集的候选集,最后的频集Lk必须是Ck的一个子集。Ck中的每个元素需在交易数据库中进行验证来决定其是否加入Lk,这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库,即如果频集最多包含10个项,那么就需要扫描交易数据库10遍,这需要很大的I/O负载。Agrawal等引入了修剪技术(Pruning)来减小候选集Ck的大小,由此可以显著地改进生成所有频集算法的性能。算法中引入的修剪策略基于这样一个性质:一个项集是频集,当且仅当它的所有子集都是频集,那么,如果Ck中某个候选项集有一个(k1)子集不属于Lk1,则这个项集可以被修剪掉不再被考虑,这个修剪过程可以降低计算所有的候选集的支持度的代价。3计算示例以某水库库岸滑坡体为例,介绍用关联规则挖掘的方法对滑坡体的现场监测资料进行分析如下。3.1钻孔倾斜仪监测结果分析该滑坡体是一个具有多级、多期次滑动特征的古滑坡体,滑坡体自1993年以来发生了明显位移,且具有显著增长趋势。根据对现场埋设的钻孔倾斜仪的监测资料表明,到1994年已形成了明显的滑移面,而且位移幅度较大。例如,埋设于滑坡体前缘的1#测孔及后缘的4#测孔滑动面的水平相对位移均已超过20.00mm,位移方向大致沿滑坡体长轴方向并指向坡外。3.2滑坡体变形分析若关系表中的属性皆为布尔属性,那么从此关系表中挖掘的规则都是布尔联系规则。现在的问题是滑坡监测资料都是数值型数据,必须对数量属性进行必要的处理,使得数量联系规则的挖掘问题转化为布尔联系规则的挖掘问题。我们的策略是将数量属性的值域划分成若干区间,按照区间的划分将一个数量属性分解为若干个布尔属性。选取1993-1995年1#测孔孔口累计位移、4#测孔孔口累计位移、1#测孔地下水位、降雨量、江水位等5组实测数据作为原始数据进行标准化处理,分别对它们进行区间划分。为了减小计算工作量,对每组标准化处理后的数据按平均值进行区间划分,分别划分为低值区和高值区,划分结果见表1。运用基于经典频集算法对滑坡监测资料进行了关联规则挖数据挖掘,挖掘出一系列有用的规则,部分规则如下:规则1:w12=yesrain2=yeswaterlevel1=yesd42=yes⇒d12=yessupport:1confidence:1规则2:w12=yesrain2=yeswaterlevel1=yesd42=yes⇒d12=yesd4-1=nosupport:1confidence:1规则3:rain1=nowaterlevel1=yes⇒d11=nod12=yesd42=yessupport:1confidence:1规则4:w12=yesrain2=yeswaterlevel1=yesd12=yes⇒d42=yessupport:1confidence:1规则5:w11=norain1=nowaterlevel2=nod42=yes⇒d12=yessupport:1confidence:1规则6:w12=yesrain1=nowaterlevel1=yesd12=yes⇒d42=yessupport:1confidence:1规则7:w12=yesrain1=nowaterlevel1=yes⇒d12=yesd42=yessupport:1confidence:1规则8:rain1=nowaterlevel1=yesd42=yes⇒d12=yessupport:1confidence:1规则9:w11=norain1=nowaterlevel2=no⇒d12=yesd41=nod42=yessupport:1confidence:1规则10:w11=now12=yesrain1=nowaterlevel1=yesd12=yes⇒d42=yessupport:1confidence:1规则11:w11=now12=yesrain1=nowaterlevel1=yeswaterlevel2=nod12=yes⇒d42=yessupport:1confidence:1规则12:w11=now12=yesrain1=nowaterlevel1=yes⇒d12=yesd42=yessupport:1confidence:1规则13:rain1=yeswaterlevel2=yesd11=yes⇒d41=yessupport:1confidence:1由以上分析可以得出:(1)在降雨量较大以及地下水位较高的情况下,即使江水位不高,由于滑坡体后缘位移较大,也会促使滑坡体前缘出现较大的位移(根据规则1,2,4和5)。(2)在强降雨量条件下,即使江水位不高,滑坡体也可能整体出现较大的位移(根据规则3)。(3)在强降雨量条件下,地下水位较高,即使江水位不高,滑坡体前

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论