煤矿隐患数据挖掘模型及适用挖掘算法_第1页
煤矿隐患数据挖掘模型及适用挖掘算法_第2页
煤矿隐患数据挖掘模型及适用挖掘算法_第3页
煤矿隐患数据挖掘模型及适用挖掘算法_第4页
煤矿隐患数据挖掘模型及适用挖掘算法_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

煤矿隐患数据挖掘模型及适用挖掘算法赵作鹏,尹志民,陈金翠,刘韵,于景邨,许新征,江海蜂(1.北京大学遥感与地理信息系统研究所,北京100871;2.中国矿业大学江苏徐州221116;3.河北金牛能源股份有限公司,河北邢台054000)摘要:.研究煤矿隐患数据的挖掘以实现海量隐患数据的有效利用,在分析矿山数据挖掘枝术和煤矿隐患数据特点的基础上,提出煤矿隐患数据挖掘是矿山数字化的重要组成部分,给出煤矿隐患数据挖掘的概念,设计了煤矿隐患数据挖掘模型,并进一步分析了适用于煤矿隐患数据的挖掘算法。以关联算法为例,对隐患数据进行多维关联规则挖掘,分析挖掘结果表明隐患多维数据之间存在紧密关联性,能够为煤矿安全决策提供支持。关键词:煤矿隐患;数据挖掘;数字矿山;关联规则;决策中图分类号:TP391;X928.03文献标志码:A文章编号:0253-2336(2010)03-0067-03MineHiddenDangerDataDiggingModelandApplicativeDigging

AlgorithmZHAOZuo-peng,YINZhi-min,CHENJin-cui,LIUYun,YUJing-cun,XUXin-zheng,JIANGHai-feng(1.InstituteofRemoteSensingandGIS,PekingUniversitytBeijing100871China;2.ChinaUniversityofMiningandTechnology,Xuzhou221116,China3.HebeiJinniuEnergyCompanyLtdXingtai054000,China)Abstract:Tostudythediggingoftheminehiddendangerstohaveanefficientutilizationofthegreathiddendangerdata,basedontheanalysisontheminedatadiggingtechnologyandminehiddendangerdatafeatures,thepaperprovidedthatAxediggingoftheminehiddendangerdatawouldbetheimportantintegratedpartoftheminedigitalization.Thepaperprovidedtheconceptionoftheminehiddendangerdatadicing.Aminehiddendangerdatadiggingmodelwasdesigned.Thepaperfurtheranalyzedthediggingalgorithmsuitablefortheminehiddendangerdata.Takingtheassociationalgorithmasacase,multidimensionalassociationrulediggingwereconductedfortheminehiddendangerdata.Theanalysisresultsshowedthattherewascloserelevancebetweentheminehiddendangermultidimensionaldata,whichcouldprovidesupporttotheminesafetydecision.Keywords:minehiddendanger;datadigging;digitalmine;associationrule;decision随着煤矿隐患排查信息系统的陆续投入使用,煤矿企业隐患数据量不断激增的同时,也对大量隐患数据的理解和利用、发掘隐藏的重要信息提出了新的要求。数据挖掘技术使得掌握海量隐患数据之间的相互关系和发展趋势成为可能。数据挖掘技术是数字矿山战略实施的关键技术之一。在数字矿山的很多方面,如煤矿勘探、开采等领域,数据挖掘技术得到了较为广泛的应用。但在对煤矿安全生产有重大影响的隐患排查方面.数据挖掘技术研究和应用较少。数字矿山要求能够从煤矿主要相关海量数据中挖掘和发现矿山系统中内在的、有价值的信息、规律和知识,因此煤矿隐患数据挖掘技术是矿山数字化的重要组成部分,隐患数据挖掘将有力地支撑海量煤矿隐患数据的有敉利用。矿山数据挖掘技术是将数据挖掘应用于数字化矿山的构建过程中.以矿山数据仓库中的海量数据为对象,利用数据挖掘技术发掘其中的潜在信息,形成相应的预测知识,指导煤矿安全生产。2煤矿隐患数据挖掘模型及适用挖掘算法分析2.1煤矿隐患数据挖掘模型煤矿隐患数据挖掘是针对不同的安余决策需要,使用不间的数据挖掘算法以挖掘出潜在的隐患发生规律服务于煤矿安全生产。基于数据挖掘技术和煤矿隐患数据的特点,设计出的煤矿隐患数据挖掘模型如图1所示。图1煤矿隐患数据挖掘模型煤矿隐患数据采集有手工录入和自动采集等多种方式,其中自动采集主要是通过煤矿监测系统对瓦斯、一氧化碳等报警信息的自动录入。其数据库具有复杂特性,因此,将数据挖掘技术应用于煤矿隐患数据挖掘时,首先要使用数据清理技术挑选出需要的记录字段。其次,由于媒矿隐患排查过程中的各种不确定性,使得数据记录上可能丢失数据,造成数据的不完整性,在进行数据挖掘之前需要迸行数据预处理;然后选择一种数据挖掘技术进行挖掘,不同的挖掘算法得到不同的挖掘结果,如使用关联规则算法和时序算法挖掘时能得到预测知识,使用聚类算法挖掘得到分类模式。2.2适用的隐患数据挖掘算法分析关联算法。关联规则挖掘能够从大量的数据集中发现有用的依赖性或关联性的知识,因此通过对煤矿隐患数据进行关联规则挖掘,能够发现造成煤矿隐患的各个属性之间的关联,从而获得大量有用信息。常用的关联算法有Apriori算法、DIC算法、Fp-Growth算法等,通过对海量隐患数据进行挖掘生成频繁数据项集,导出关联规则。时序算法。预测是数据挖掘的重要任务之一,可以通过收集时间序列的数据来预测将来的值。不同时间段有不同的隐患发生数量,根据随时间的变化而形成的互相关联的隐患数据,利用时序算法,对历史隐患数据进行深层次分析,通过正确的建模可以发现数据中隐藏的潜在规律,预铡隐患未来时间段可能发生的隐患情况,对于矿山安全生产有很大的实用价值。其他算法。数据挖掘的其他算法,也可以有效地应用于煤矿隐患数据中。例如,回归分析是分析数据项之间相关的具体形式,能确定其隐患发生的因果关系,并用数学模型来描述其具体关系。3基于关联算法的隐患数据挖掘应用令I={i1,i2,…,im}是事务中所有项目的集合,而T是所有事务的集合。每个事务ti包含的项集都是I的子集。关联规则(AssociationRule)是形如X-Y的蕴涵表达式,其中X和Y是不相交的项集。关联规则可以用其支持度(support)和置信度(confidence)来度量。项集X在事务集D中的支持度计数是乃中包含X的事务数,记作support(X),X在D中的支持度就是X的支持数与D的总事务数的百分比。规则X=>Y的支持度定义为P(XUY),标识x和y同时出现的可能性,而置信度确定Y在包含X的事务中出现的频繁程度。如果用户设定一个最小支持度为minsup,那么对于那些支持度大于minsup的项集,称为频繁项集。给定事务的集合T,关联规则挖掘是指找出支持度不小于mimup并且置信度大于minconf的所有规则,其中minsup和minconf是对应的支持度和置信度阈值。Fp-Growth算法是研究和应用较为成熟和高效化关联算法。其思想是将发现长频繁模式的问题转化成递归地发现短模式,然后连接后缀。挖掘过程中不产生候选项集,只需2次扫描数据库,就能够高效地处理海量数据。下面以Fp-Grewth算法为例,对隐患数据进行挖掘。1)对先期采集的隐患数据进行数据选择(数据清理),从煤矿隐患数据仓库中选择隐患部门、地点、隐患内容等属性数据,得到的结果见表1。表1部分隐患数据信息隐患部门地点隐患内容类别级别时间掘一队13507探巷掘进工作面第2排锚杆3根出现网兜、不贴顶顶板2008-07-14T12:34:56安装队1123运料巷木棚子拉条不全,多个拉条用料少运输2008-05-05T21:23:30机掘队1197运料巷运料巷掘进工作面断层错位2m,叫应加锚索一通三防2008-09-23T14:56:042)进行数据预处理。每个隐患数据项由一个包含6个数据字段的集合组成,包括隐患部门、地点、隐患内容、类别、级别和时间。由于同一数据字段的不同取值在一个项集中不可能同时出现,为了防止不同数据字段列所取值相同,需要为每个属性值添加一个标识位,每个项集可标记为(Ai,Bj,Ck,Dl,Em,Fn)隐患部门地点隐患内容类别级别时间掘一队13507探巷掘进工作面第2排锚杆3根出现网兜、不贴顶顶板2008-07-14T12:34:56安装队1123运料巷木棚子拉条不全,多个拉条用料少运输2008-05-05T21:23:30机掘队1197运料巷运料巷掘进工作面断层错位2m,叫应加锚索一通三防2008-09-23T14:56:042)进行数据预处理。每个隐患数据项由一个包含6个数据字段的集合组成,包括隐患部门、地点、隐患内容、类别、级别和时间。由于同一数据字段的不同取值在一个项集中不可能同时出现,为了防止不同数据字段列所取值相同,需要为每个属性值添加一个标识位,每个项集可标记为(Ai,Bj,Ck,Dl,Em,Fn),其中,A,B,C,D,E,F分别代表隐患部门、地点、名称、类别、级别、时间,i,j,k,l,m,n的取值范围是小于对应列取值数量的所有整数。时间这一列值需要量化,进行区间划分,如2008年7月的所有项用2008-7表示。3)利用Fp-Growth算法进行频繁项集的挖掘,数据预处理后使用Fp-Growth算法进行操作,假设最小支持度为0.05,则得到的频繁项集的挖掘结果见表2。项集支持度计数支持度项集支持度计数支持度掘一队5300.1310掘二队6110.1511顶板14590.3608运输8270.2045综采队,1427工作面,2160.0533综采队,1427工作面2160.0533级别C掘一队2520.0615顶板,2008-42640.0652表2频繁项集的挖掘结果4)导出关联规则,规则X=>Y的置信度定义为con(X=>Y)=P(XUY)/P(X),表示包含X的事务同时也包含Y的可能性。给定一个最小置信度C,得到的关联规则X=>Y都必须满足置信度不小于C。系统挖掘出的关联规则及置信度见表3。表3关联规则的挖掘结果规则左边(X)规则右边(Y)支持度置信度/%1522工作面,2008-4安装队0.116698.37掘一队顶板0.061565.40综采队,2008-41427工作面0.054160.891528补运输巷,2008-3顶板0.112361.86基于上述的挖掘结果,通过支持度和置信度数据,可以得到很多潜在规律。例如关联规则:综采队=>1427工作面,置信度为59.91%,表示综采队发生的隐患中,发生在1427工作面的概率为59.91%,得出的结论为综采队的隐患主要发生在1427工作面,即1427工作面就是综采队的重点监测区。关联规则如下:1528补运输巷A2008-3=>顶板,置信度为61.86%,1528补运输巷A2008-6=>运输,置信度为51.86%,说明在1528补运输巷3月份发生的隐患中顶板类占61.86%,而6月份发生的隐患中运输类占51.86%,得出的结论为1528补运输巷3月份主要发生顶板类的隐患,6月份主要发生运输类的隐患。这2条规则挖掘出的规率可为煤矿安全决策提供支持。4结语在分析煤矿数据挖掘和煤矿隐患数据特点的基础上,提出煤矿隐患数据挖掘是矿山数字化的重要组成部分。给出了煤矿隐患数据挖掘的概念、模型及隐患数据挖掘算法,并以关联算法为例对隐患数据进行关联规则挖掘,发掘出了潜在的隐患发生规律。利用数据挖掘算法开发的软件系统经过在金牛能源集团葛泉矿的应用表明,隐患数据挖掘技术不仅降低了安全生产事故发生概率,而且至少可以每月节约企业目标生产成本的5%~10%。参考文献[1]吴立新,殷作如,钟亚平.再论数字矿山:特征、框架与关键技术[J]煤炭学报,2003,28(1):1-6.[2]孙庆先,方涛,郭达志,等.空间数据挖掘技术中的划区效应及在矿山中的应用[J].煤炭学报,2007,32(8):804-807.‘[3]杨敏,汪云甲.面向数据挖掘的矿山数据仓库技术研究[J].金属矿山,2004(S):47-49.[4]何彬彬,方涛,郭达志.不确定性空间数据挖掘算法模型[J].中国矿业大学学报,2007,36(1):121-125,[5]高志武,秦德先、数字矿床概述[J].金属矿山,2005(2):54-56.[6]黄解军,潘和平,万幼川.数据挖掘技术的应用研究[J].计算机工程与应用,2003,39(2):45-48.[7]袁

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论