已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 v n 6 3 8 9 8 2 目前,出于安全、高效生产的考虑,各个大型 厂基本上都对一些重要设备实施了 实时监控,由传感器不断地获取机组运行状态的各种参数,并对这些参数进行有效地存 储,就形成了庞大的数据仓库。人们关心的是从这些数据库中我们可以发现什么样的有 价值的知识,这些知识以什么样的形式表现出来。基于人们的这一关注,本文将贝叶斯 网络一一数据挖掘的一种方法引入到故障诊断领域,以直观的表达形式,有效地解决了 数据库中的知识发现问题。 贝叶斯网络以统计学为基础,是数据挖掘技术的一种方法。本质上贝叶斯网络是一 个有向无循环的图表模型,直观地表述了多个变量之间的依赖关系。它通过一个有向无 循环表来描述各个节点之间的因果关系,通过一个条件概率分布表来描述各个节点之间 的关系密切程度。并且,贝叶斯网络可以有效地把先验知识和现有数据结合起来,使得 网络的推理结果更加的合理。特别是在当前数据较少或者较难获得的情况下,贝叶斯网 络的这一优点更加明显。 结合故障诊断技术自身特点,本文组建了一个具有两层结构的贝叶斯网络模型,上 层代表故障节点,下层代表症状节点,且所有节点所对应的随机变量都是二元矢量。在 网络模型结构已知的前提下,根据故障样本数据的完整与否,我们采用不同的学习法则 来有效地调整贝叶斯网络模型的条件概率分布表,使之更符合特定机组的实际运行情 况。同时一种简化的推论法则被用来计算各个故障发生的后验概率,这样就可以有效地 解决对故障数据的识别、分类问题。最后,利用转子实验台的模拟故障数据对该网络模 型进行考核。结果表明,网络模型的学习是有效的,其推理结果是和专家知识相一致的。 之所以采用贝叶斯网络来进行故障诊断,是因为贝叶斯网络用于故障诊断有其突出 的优势。第一,贝叶斯网络方法有坚实的理论基础:第二,贝叶斯网络有成熟的概率推 理算法;第三,贝叶斯网络更适合于表达设备故障诊断问题;第四,贝叶斯网络具有很 强的学习能力。 在w i n d o w s 2 0 0 0 开发平台上,结合开发工具m a t l a b 6 1 ,采用模块化的程序设计 方法,对该数据挖掘方法进行了软件实现。 关键词:故障诊断;数据挖掘;贝叶斯网络;分类 a b s t r a c t a tp r e s e n t ,f o rt h e p u r p o s eo fs a f e t y a n dh i g h e f f i c i e n c y ,t h er e a l i t y o ft h e i n s t a l l a t i o no fr e a l - t i m em o n i t o r i n gs y s t e mt os i g n i f i c a n te q u i p m e n th a sc o m ei n t ob e i n g i nm a n ys i z e a b l ee n t e r p r i s e s a l lo fi u f o r m a t i o na b o u tt h em a c h i n ea r eo b t a i n e db yt h e s e n s o r sa n ds t o r e de f f e c t i v e l v it h e nl a r g e - s c a l ed a t a b a s e sa n dd a t aw a r e h o u s e sc o m ei n t o b e i n g 。w h a tw e e o u c e r nl i e si nw h a tv a l u a b l ew ec a nf i n df r o mt h e s ed a t aw a r e h o u s e s a n dh o wt o p r e s e n tt h ek n o w l e d g e c o n s i d e r i n go u rc o n c e r n s ,t h eb a y e sn e t w o r k , w h i c hi so n em e t h o do fd a t am i n i n g i si n t r o d u c e dt ot h ef a u l td i a g n o s i sf i e l d s t h e p r o b l e mh o w t of i n dk n o w l e d g ef r o mt h ed a t a b a s e si ss o l v e d o nt h eb a s eo fs t a t i s t i c s ,t h eb a y e sn e t w o r ki sam e t h o do fd a t am i n i n g i ne s s e n c e t h eb a y e sn e t w o r ki sad i r e c t e da c y c l i cg r a p hp r e s e n t i n gd i r e c t l yt h er e l i a n c er e l a t i o n s a m o n gm a n yv a r i a b l e s i td e p i c t st h ec a u s ea n de f f e c tr e l a t i n n sb yad i r e c t e da c y c l i c g r a p ha n d t h ec h u m m yr e l a t i o n sb yac o n d i t i o n a lp r o b a b i l i t yd i s t r i b u t i o nt a b l ea m o n g a l l n o d e s m o r e o v e r w e c a n i n c o r p o r a t e t h e p r i o rk n o w l e d g e i n t oc u r r e n td a t a e f f e c t i v e l ya n dg e tam o r er e a s o n a b l er e s u l le s p e c i a l l yw h e n t h ec u r r e n td a t aa r es c a r c e o rh a r dt oo b t a i n t h ea d v a n t a g eo ft h eb a y e sn e t w o r ki se v i d e n t a c c o r d i n gt ot h ep r o p e r t i e so f f a u l td i a g n o s i s ,w ec o n s t r u c tab a y e sn e t w o r km o d e l w h i c hi sm a d e u po ft w o - l a y e r n o d e s t h eu p p e rl a y e rn o d e sr e p r e s e n tt h ef a u l tn o d e s a n dt h el o w e ro n e sr e p r e s e n tt h es y n d r o m en o d e s f u r t h e r m o r e ,e a c ho ft h ev a r i a b l e s c o r r e s p o n d i n g t ot h en o d e si sb i n a r yv e c t o r o nt h es u p p o s et h a tt h en e t w o r ks t r u c t u r e i sk n o w n a c c o r d i n g 协t h ef a c tt h ed a t aa r ec o m p l e t eo rn o t , v a r i e dl e a n i n ga l g o r i t h m s a r ea d o p t e dt oa d j u s tt h ec o n d i t i o n a lp r o b a b i l i t yd i s t r i b u t i o nt a b l ea n dm a k ei tm o r e a c c o r d a n tt oas p e c i f i e dm a c h i n e a tt h es a m et i m e ,as i m p l i f i e di n f e r e n c ea l g o r i t h mi s u s e dt oe a l c u l a t et h ep o s t e r i o rp r o b a b i l i t i e so fe a c hf a u l t , s ot h ep r o b l e mh o wt o r e c o g n i z ea n dc l a s s i f yt h ef a u l td a t ai ss o l v e dv e r yw e l l f i n a l l y , w et e s tt h en e t w o r k s m o d e lb a s e do nt h ee x p e r i m e n td a t a t h er e s u l t ss h o wt h a tt h el e a n i n go ft h en e t w o r k s m o d e li se f f e c t i v ea n dt h ec a i c u l a t e dr e s u l t sa c c o r dt oe x p e r tk n o w l e d g e v e r y w e l l t h er e a s o nw ei n t r o d u c et h eb a y e sn e t w o r kt of a u l td i a g n o s i sf i e l dl i e si nt h a tt h e b a y e sn e t w o r kh a si t sd i s t i n c tp r e d o m i n a n c ea sf o f l o w s f i r s t , t h eb a y e sn e t w o r kh a s i t ss o l i dt h e o r e t i ef o u n d a t i o n ;s e c o n d t h eb a y e sn e t w o r kh a si t sm a t u r ep r o b a b i l i t y r e a s o n i n ga l g o r i t h m s ;t h i r d ,t h eb a y e sn e t w o r k i sf i a b l et op r e s e n tt h ep r o b l e m sa b o u t f a u l td i a g n o s i s ;f i n a l l y , t h eb a y e sn e t w o r kh a sa p o w e r f u ll e a n i n gc a p a b i l i t y o nt h ep l a t f o r mo fm a t l a b 6 1a n dw i n d o w 2 0 0 0 ,af a u l td i a g n o s i ss o f t w a r ei sd e v e l o p e db yu s i n g d a t am i n i n gm e t h o d s k e y w o r d s :f a u l td i a g n o s i s ;d a t am i n i n g ;b a y e sn e t w o r k s ;c l a s s i f i c a t i o n i i 第一章绪论 第一章绪论 1 1 故障诊断的发展及现状 机械设备故障诊断是识别机械设备( 机器或机组) 运行状态的一门综合性的应用学 科,主要研究机械设备运行状态的变化在诊断信息中的反映。其主要内容包括对机械设 备运行状态的监测、识别和预测三个方面。其中,状态监测有时也称为简易诊断,一般 是通过测定设备的某些较为单一的特征参数( 如振动、温度、压力等) 来检查设备状态, 并根据特征参数值与门限值之间的关系来决定设备是处于正常、异常还是故障状态。如 果对设备进行定期的连续的监测,便可获得有关设备状态变化的趋势规律,据此可进行 状态的预测和预报,通常这就是所谓的趋势分析,是一种较为普遍采用的有效方法。而 故障诊断则不仅要掌握设备的状态正常与否,同时还必须对故障的原因、产生部位以及 严重程度进行深入的分析和判断,故通常被称为精密诊断。相比之下,精密诊断目前尚 不如简易诊断成熟和简便易行,并且还处于不断完善和发展过程中。 机械设备故障诊断技术初步形成于2 0 世纪6 0 年代末,迅速发展在7 0 8 0 年代,集 大成于8 0 9 0 年代,它是一项年轻的技术,是一门既有基础理论,又有广泛实际应用 背景的正在不断完善和发展的交叉型工程应用性学科。设备故障诊断是随设备管理和设 备维修发展起来的。欧洲各国在欧洲维修团体联盟( f e n m s ) 推动下,主要以英国倡导的 设备综合工程学( t e r o t e c h n o l o g y ) 为指导;美国以后勤学( l o g i s t i c s ) 为指导;目本吸收二者 特点,提出了全员生产维修( t p m ) 的观点。美国自1 9 6 1 年开始执行阿波罗计划后,出现 一系列因设备故障造成的事故,导致1 9 6 7 年在美国宇航胃j ( n a s a ) 倡导下,由美国海军 研究室( o n r ) 主持成立了美国机械故障预防小组( m f p g ) ,并积极从事技术诊断的开发。 美国诊断技术在航空、航天、军事、核能等尖端部门仍处于世界领先地位。英国在6 0 7 0 年代,以c o l l a c o t t 为首的英国机器保健和状态监测协会( m h m g c m a ) 最先开始研 究故障诊断技术。英国在摩擦磨损、汽车和飞机发电机监测和诊断方面具领先地位。日 本的新日铁自1 9 7 1 年开发诊断技术,1 9 7 6 年达到实用化。日本诊断技术在钢铁、化工 和铁路等部门处领先地位。虽然故障诊断技术已有3 0 多年的发展历史,但作为一门综 合性新学科故障诊断学还是近些年发展起来的。 机械设备故障诊断技术是一项与现代化工业生产密切相关的技术,其重点是研究故 障诊断及故障预报的理论、方法及实施技术。机械设备故障诊断是个相当复杂的过程, 在多数情况下,仅依靠单一的方法往往无法解决问题,因此,必须从各种相关学科中广 泛探求有利于故障诊断的原理、方法和手段,这样就使得故障诊断技术呈现多学科交叉 融合这一鲜明的特点。机械设备故障诊断技术的形成与发展过程可大致分为三个阶段: 早期主要是依靠人的感觉来直接进行状态分析,或者利用物理或化学的原理和手段,通 过伴随故障出现的各种物理或化学现象来直接检测故障;在传感器技术和测试、分析技 术进步后,逐步形成了依靠传统的信号分析手段来完成故障诊断的中期发展阶段;再经 第一章绪论 过前几年的快速发展和学科的深层次交叉渗透,到今天已经突破了传统的分析方法限 制,在大量吸收相关学科的基础上,形成了以现代信号处理理论、软计算、智能化信息 处理以及计算机网络应用为核心的现代故障诊断技术,并产生了许多新的研究热点和前 沿。 随着现代化大生产的不断发展和科学技术的日益进步,为了最大限度地提高生产效 率和产品质量,作为主要生产工具的机械设备不断朝大型、高速、强载、连续运转以及 结构复杂的方向发展。这样,在满足生产要求的同时,设备故障的潜在可能性和方式也 在相应增加,并且设备一旦发生故障,就可能破坏整台设备甚至影响整个生产过程,造 成巨大经济损失,还可能导致灾难性的人员伤亡和社会影响。因此,对机械故障进行及 时的诊断,预测故障发生的趋势就显得十分的必要和紧迫了。于是,如何确保机械设备 的安全正常运行,就成为现代设备运行维护和管理的一大课题。实践证明,坚持开展机 械设备状态监测、有效地实施故障诊断技术是保障机械设备安全正常运行的重要措施。 在我国故障诊断技术起步较晚,1 9 7 9 年才初步接触设备诊断技术。目前我国诊断技 术在化工、冶金、电力等行业应用较好。故障诊断技术经过3 0 多年的研究与发展,已 应用于飞机自动驾驶、人造卫星、航天飞机、核反应堆、汽轮发电机组、大型电网系统、 石油化工过程和设备、飞机和船舶发动机、汽车、冶金设备、矿山设备和机床等领域。 但是发展比较迅速。大型机组设备故障诊断技术在我国的发展大致经历了三个阶段:f f t 分析仪阶段,计算机辅助监测分析阶段,网络化监测诊断阶段【6 。2 0 世纪9 0 年代以来, 大型机组监测系统的一个重要发展方向就是网络化。在监测系统的开发方面,人们已经 进行了大量的研究,并开发了许多相应的仪器设备。以个人计算机为基础开发的在线监 测系统,由于性价比高、柔性好、开发周期短,近年来在国内外日益受到重视。在分析 方法上,出现了多种多样的信号分析处理方法,如全息谱分析技术、小波分析技术、神 经网络诊断技术、时频分析技术等等,且更加注重振动幅值、频率、相位信息的全面、 综合利用。从传统的分析方法,如相关分析、时域波形、轴心轨迹、a r 谱分析、f f t 谱分析到一些较新的分析方法,如主分量分析、时频分析、全息谱分析、轴心轨迹的计 算机模拟等,均被应用于故障诊断领域,并取得了很好的应用效果。 为了达到安全生产的目的,目前大型工厂的重要设备都实行了实时监测,通过传感 器不断地获得设备运行的很多状态参数,形成了庞大的机组运行状态数据库。如何充分 利用数据库中的有价值的信息,从而正确识别机组的运行状态,特别是如何利用机组所 有历史数据预测机组在未来发生何种故障的可能性的大小,服务于实际的生产、生活, 是目前在该领域的科技工作者所面临的一项十分紧迫的课题。 1 2 故障诊断过程 1 2 1 故障诊断过程简介 首先,故障诊断按诊断的精细程度可以分为简易诊断和精密诊断【1 。简易诊断是设 备运行状态的初级诊断,目的是为了能够对设备的运行状态做出一个概括的评价。简易 2 第一章绪论 诊断主要是由现场的工作人员实施。简易诊断通常是测定设备的某个较为单一的特征参 数,参照其允许范围看其是否正常。一般来说,简易诊断所用仪器较为简单,易于操作 和掌握,对人员素质要求不高,常作为一种常规检查措施。而精密诊断是更深层次的诊 断,目的是对设备故障发生的原因、部位以及严重程度进行深入的分析,做出判断,从 而为采取进一步的决策提供依据。精密诊断常需较精密的分析仪器,不仅价格昂贵,同 时对使用人员的素质要求也比较高,往往用于重要的大型设备上。其次,按具体诊断的 方式可以分为离线诊断和在线诊断。离线诊断一般可以在现场完成数据的采集、存储, 而分析处理和诊断工作可以在实验室或其它合适的地方进行。其优点是灵活、方便,投 资较小。缺点是实时性差。在线诊断是将传感器所采集的信息直接送入分析、处理仪或 计算机。计算机可以位于现场也可以远离现场,并及时进行分析处理和诊断。其优点是 实时性好,可保证不遗漏故障,但不灵活、造价高。一般用于关键的设备上。 故障诊断过程中需要利用被诊断对象所表现出来的各种有用信息,经过适当的处理 和分析从而获得最能识别设备状态的特征参数,以便做出正确的诊断结论。需要用到以 下知识: ( 1 ) 数据采集 设备的故障诊断依据是被诊断对象所表征的一切有用的信息,比如振动、噪声、转 速、温度、压力、流量等。没有这些信息,对设备的故障诊断也就无从谈起。因此,需 要合理选择数据( 信息) 采集方式、手段,合理选择数据( 信息) 的来源、测量部位等, 包括将最原始的数据转换成适合于计算机或分析仪进行处理的形式。其中最关键的问题 是正确的选用传感器。 ( 2 ) 数据的处理、分析 由传感器所获得的信息往往是杂乱的,其特征不明显。而数据处理、分析过程其目 的是要把原始的数据( 信息) 经过一定的处理和分析,从中提取出最敏感、最直观和最 具代表性的特征参数,因此这一过程也称为特征提取。特征提取通常都是通过专门的分 析仪或计算机完成的。 ( 3 ) 状态识别、判断和预报 根据得到的特征参数,利用有关的知识和经验对设备所处的状态进行识别、判断, 并进一步对其发展趋势做出预测和预报,最终还要给出诊断结论或解释。 ( 4 ) 故障机理知识 这是指关于诊断设备的各种专业知识。其中包括设备本身的结构原理,运动学和动 力学,设计、制造、安装、运转以及维修等方面的知识。总而言之,是要对被诊断对象 有一个全面的了解,否则将无法做出正确的诊断结论。 1 2 2 机械故障诊断的一般过程 机械故障诊断的一般过程如图1 1 所示: 3 第一章绪论 图1 1 机械诊断的过程 ( 1 ) 数据采集 机械设备在运转过程中必然会有力、热、振动以及能量等各种量的变化,这样从外 部表现来看会产生各种不同的信号。因此,应根据不同的诊断目的,选择最能代表机械 设备运行状态的信号作为状态信号初始模式,并采用合适的传感器和测量方法来采集信 号。 ( 2 ) 特征提取 将采集得到的信号进行分类加工、处理,包括进行数据维数的压缩、形式转换、模 型转换等,从而去掉冗余信息,提取出故障特征信息,形成待检模式。 ( 3 ) 状态识别 将经过特征提取所获得的待检模式与数据库中已有的样板模式( 故障档案) 按一定 准则和诊断策略进行对比分析,以确定设备当前所处状态是否存在故障以及故障的类型 和性质等。 ( 4 ) 诊断决策 根据对设备状态所做出的判别决定应当采取的对策和措施,即对机械设备的运行进 行必要的预测和实施必要的干预措施。 以上四个步骤构成了一个循环。一个复杂、疑难的故障往往并不能通过一个循环就 正确地找到症结的所在,而通常都需要经过多次诊断重复循环,逐步加深认识的深度和 判断的准确度,才能最后解决问题。 1 3 旋转机械常见的故障类型 为了检验b a y e s 网络应用于故障诊断的实际性能,我们需要结合旋转机械常见的几 种故障,对基于b a y e s 网络的故障诊断系统进行实际考核。以下是旋转机械常见的几种 故障类型以及它们所具有的特钳”。 1 转子不对中:在各类旋转机械故障中,不对中是最为常见的故障之一,旋转机械 故障中6 0 的故障与不对中有关。转子不对中是指驱动轴的轴线和从动轴的轴线不在同 4 第一章绪论 一直线上,它是旋转机械常见的一种故障。常见的转子不对中分为三种情况:平行不对中、 角度不对中、综合不对中。单一的不对中不常见。综合不对中( 既有平行不对中,也有角 度不对中) 是最普遍的一种情形,只是在哪一种不对中形式严重程度上有所区别。不对 中会造成转子的弯曲以及在轴承中的附加负荷,致使各轴承之间负荷重新分配。并且会 产生一系列的不利于设备运行的动态效应。引起设备的振动、联轴器的偏转、轴承的磨 损和油膜失稳、轴的挠曲变形等。联轴节的制造误差以及实地安装中的误差都可能导致 转子不对中故障的出现。 当设备发生转子不对中故障时的主要振动特征有:转子径向振动出现工频和二倍 频,不对中越严重,二倍频所占比例越大,而其它频段振幅很小;时域曲线类似正 弦曲线,轴心轨迹为香蕉型或八字形,轴心为正进动;0 振动方向为径向和轴向: 振动 随转速、负荷变化明显: 激励力幅与不对中量成正比,并随其线性增大;流量和压力 对转子不对中故障也有一定的影响。 2 转子不平衡:转子不平衡故障分为转子质量偏心和转子部件缺损两种状态。转子 质量偏心是由于转子的制造误差、装配误差、材质不均匀等原因造成,称此为初始不平 衡。转子部件缺损是指转子在运行中由于腐蚀、磨损、介质结构以及转子受疲劳应力的 作用,使转子的零部件( 如叶轮、叶片等1 局部损坏、脱落、碎块飞出等,造成新的转予 不平衡,发生异常振动。转子质量偏心和转子部件缺损是两种不同的故障,但其故障机 理却有共同之处。 当发生转子不平衡故障时的振动特征为:o 振动的时域波形为正弦波;频谱图中 的谐波能量主要集中于基频;工作转速一定时相位稳定;转子的轴心轨迹为椭圆; 振动的强烈程度对工作转速的变化非常敏感; 低速时振幅趋于零。 3 油膜涡动:油膜涡动是由于滑动轴承的油膜动力学特性引起的自激振动。轴承发 生油膜涡动时,尽管振幅较小,对轴承的润滑和工作影响不大,但它所产生的附加动力 载荷容易使机器零部件发生松动和疲劳失效等故障。 当油膜涡动故障发生时的振动特征为:油膜涡动时含有丰富的低频成分,频谱中 的次谐波在半频处有峰值;0 常伴频率为1 倍频;0 振动方向为径向; 轴心轨迹为双 环椭圆;轴心为正进动:振动随转速、油温变化明显。 4 油膜振荡:转子工作转速高于两倍第一临界转速时所发生的轴瓦自激振动,称为 油膜振荡,这时振动频率与转子第一临界转速接近,从而发生共振,所以转予表现为强 烈的振荡。这时转轴和轴承的振幅要比半速涡动大得多。 当油膜振荡故障发生时的振动特征为:只有涡动的角频率高于第一阶临界角频率 5 第一章绪论 时才会发生;o 特征频率为基频与涡动频率的组合频率;o 振动方向为径向;一旦油 膜振荡发生,继续升高转速,振动不变;振动的发生与消失具有突发性;油膜振荡 发生之前一般有油膜涡动现象。 5 喘振:喘振是透平压缩机特有的现象。喘振不仅引起生产效率下降,而且会对机 器本身造成严重的危害。常常会导致机器内部密封件、涡轮导流板、轴承等损坏:喘振 幅度较大时常导致转子弯曲、连轴器及齿轮箱损坏:机器横向大幅度摆动还会造成与机 器相连的管网系统及测试仪表等外部设备的损坏。 当喘振故障发生时的振动特征为:特征频率为超低频,常伴频率为1 倍频。且管 网的容量越大,喘振的振幅越大,频率越低;管网的容量越小,则喘振的振幅越小,频 率越高。o 振动方向为径向:o 轴心轨迹紊乱;振动随流量、压力变化明显; 出口 压力和进口流量波动大,噪声大。 1 4 本文的主要工作 贝叶斯网络的发展和应用有着悠久的历史,并且在很多领域的应用都取得了令人满 意的结果。特别是近几十年来,随着数据挖掘技术的广泛应用和日趋成熟,人们对贝叶 斯网络又有了新的认识和发现。我们尝试着把贝叶斯网络的一些模型和推理方法引入到 机械故障诊断领域,通过研究希望得到令人满意的结果,服务于实际的工业生产生活。 本文完成了以下工作: 1 将数据挖掘方法引入到故障诊断领域,具体的对贝叶斯网络的建模方法和推论规 则做了理论上的探讨,组建完成了相应的网络模型,并建立了相应的故障诊断系统。 2 在缺乏先验知识的情况下,网络模型成功的实现了对以往设备运行数据的学习功 能。 3 采用一种简化的网络推论方法实现了对故障数据的分类,实现了对设备运行状态 的判断和预测。 4 在w i n d o w s 2 0 0 0 操作系统环境下,采用m a t l a b 6 1 为主要开发工具,对本 故障诊断系统实现了软件设计。 5 利用现场实测的典型故障数据,对该系统进行了分析与考核。 6 第二章基于数据挖掘方法的故障诊断思想 第二章基于数据挖掘方法的故障诊断思想 2 1 数据挖掘研究的历史和现状 从数据库中发现知识( k d d ) 一词首次出现在1 9 8 9 年举行的第十一届国际联合人 工智能学术会议上。到目前为止,由美国人工智能协会主办的k d d 国际研讨会已经召 开了8 次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法 转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1 9 9 9 年,亚太地区在北京召开的第三届p a k d d 会议收到1 5 8 篇论文,空前热烈。i e e e 的 k n o w l e d g e a n dd a t ae n g i n e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术专刊。并行计算、 计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题 和专刊讨论,甚至到了脍炙人口的程度。 与国外相比,国内对d m k d 的研究稍晚,没有形成整体力量。1 9 9 3 年国家自然科 学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相 开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究 所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在 知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究, 华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等 单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大 学等单位探讨、研究了非结构化数据的知识发现以及w e b 数据挖掘。 2 2 数据挖掘的定义及其发展过程 数据挖掘( d a t a m i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的实 际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识 的过程【”。 何为知识? 从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、 规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石 中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结 构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方 法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可 以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。 因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到 从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤 其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工 程技术人员,投身到数据挖掘这一一新兴的研究领域,形成新的技术热点。 这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新 的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都 7 第二章基于数据挖掘方法的故障诊断思想 是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。 最好能用自然语言表达所发现的结果。 数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些 方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习的过程就是将 一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并 生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题。随后,随着 神经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那 样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,而 计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得到的成果,但 它有投资大、效果不甚理想等不足。8 0 年代人们又在新的神经网络理论的指导下,重新 回到机器学习的方法上,并将其成果应用于处理大型商业数据库。随着在8 0 年代末一 个新的术语,它就是数据库中的知识发现,简称k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。 它泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用k d d 来描 述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘 ( d a t am i n i n g ) 来描述使用挖掘算法进行数据挖掘的子过程。但最近人们却逐渐开始使 用数据挖掘中有许多工作可以由统计方法来完成,并认为最好的策略是将统计方法与数 据挖掘有机的结合起来。 数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘 越来越热的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖 掘可直接从操作数据源中挖掘信息。 2 3 数据挖掘的一般过程 数据挖掘环境可示意如图2 1 所示: 图2 1 数据挖掘环境框图 具体步骤如图2 2 所示: 8 第一二章基于数据挖掘方法的故障诊断思想 图2 2 数据挖掘具体实施步骤 ( 1 ) 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结 构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目 性,是不会成功的。 ( 2 ) 数据准备 1 ) 数据的选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖 掘应用的数据 2 ) 数据的预处理 研究数据的质量,为进一步的分析做准备。并确定将要进行的挖掘操作的类型。 3 ) 数据的转换 将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个 真正适合挖掘算法的分析模型是数据挖掘成功的关键。 ( 3 ) 数据挖掘 对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一 切工作都能自动地完成。 ( 4 ) 结果分析 解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化 技术。 ( 5 ) 知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去。 2 4 数据挖掘的常用技术 ( 1 ) 人工神经网络 神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对 9 第二章基于数据挖掘方法的故障诊断思想 来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题( 当然实 际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多) 。神 经网络常用于两类问题:分类和回归。简单的概括为:仿照生理神经网络结构的非线性 预测模型,通过学习进行模式识别口】。 ( 2 ) 决策树 决策树的基本组成部分:决策节点、分支和叶子【“1 12 1 。决策树中最上面的节点称为 根节点,是整个决策树的开始。决策树的每个节点子节点的个数与决策树在用的算法有 关。如c a r t 算法得到的决策树每个节点有两个分支,这种树称为二叉树。允许节点含 有多于两个子节点的树称为多叉树。决策树很擅长处理非数值型数据,这与神经网络只 能处理数值型数据比起来,就免去了很多数据预处理工作。 ( 3 ) 遗传算法 基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。 ( 4 ) 近邻算法 将数据集合中每一个记录进行分类的方法。 ( 5 ) 规则推导 从统计意义匕对数据中的“如果那么”规则进行寻找和推导。 2 5 数据挖掘的功能 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目 标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能: ( 1 ) 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题 如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使 用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报 破产以及认定对指定事件最可能做出反应的群体 ( 2 ) 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值 之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联 分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即 使知道也是不确定的,因此关联分析生成的规则带有可信度。 ( 3 ) 聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观 现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方 法和数学分类学。8 0 年代初,m c h a l s k i 提出了概念聚类技术物其要点是,在划分对象 时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技 术的某些片面性 l o 第二章基于数据挖掘方法的故障诊断思想 ( 4 ) 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述 分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之 间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描 述的方法很多,如决策树方法、遗传算法等。 ( 5 ) 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括 很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的 偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意 义的差别。 2 6 数据挖掘与统计学的关系 统计学和数据挖掘有很多共同点,但与此同时它们也有很多差异。 统计学是一门比较保守的学科,目前有一种趋势是越来越精确。数学背景和追求精 确加强了这样一个趋势。统计学很少会关注实时分析,然而数据挖掘问题常常需要这些。 数据挖掘作为几门学科的综合,已经从机器学习那里继承了实验的态度。这并不意味着 数据挖掘工作者不注重精确,而只是说明如果方法不能产生结果的话就会被放弃。 现代统计学是以模型为主的。而计算、模型选择条件是次要的,只是如何建立一个 好的模型。但在数据挖掘中,却不完全是如此。在数据挖掘中,准则起了核心的作用。 相对于统计学而言,准则在数据挖掘中起着更为核心的作用并不奇怪,数据挖掘所继承 的学科如计算机科学及相关学科也是如此。数据集的规模常常意味着传统的统计学准则 不适合数据挖掘问题,而不得不重新设计。部分地,当数据点被逐一应用以更新估计量, 适应性和连续性的准则常常是必须的。尽管一些统计学的准则已经得到发展,但更多的 应用是机器学习。 总之,统计学与数据挖掘各有所重,且相互交叉,具体地统计学在数据挖掘技术创 新中的贡献有: 1 ) 统计理论在人工神经网络技术中的应用概率分析网( p l n ) 2 ) 统计思想在数据挖掘学习方法上的贡献b a y e s 网络 3 ) 统计在遗传算法中的应用概率进化算法( p m e a ) 4 ) 统计对数据挖掘过程的贡献。用统计学方法开发的工具可用于数据的抽取、清洗、 转换、整合等方面,统计逻辑推理还可以让数据分析员站在更高层次上进行数据的 模式识别。 2 7b a y e s 网络用于数据挖掘 八十年代b a y e s 网络成功地应用于专家系统,成为表示不确定性专家知识和推理的 一种方法。九十年代以来,研究者们进一步研究了直接从数据中学习并生成b a y e s 网络 第二章基于数据挖掘方法的故障诊断思想 的方法,为b a y e s 网络用于数据挖掘和知识发现开辟了新途径。这些新的方法和技术还 在发展之中,但已在一些数据建模问题中显示出令人瞩目的效果。b a y e s 网络表示了世 界中客体的条件概率分布与因果联系,其蕴涵的不确定性知识及规则是进行不确定推理 的主要工具。它的结构就蕴涵了规则,而伴随各节点的条件概率则表达了某种知识。 b a y e s 网络在统计学、决策分析、人工智能等领域已有越来越多的应用。近年来人们发 现利用b a y e s 网络进行数据挖掘能从数据库中挖掘出多层、多点的因果概念联系,这是 客观世界普遍存在的一种关系。由于数据挖掘在本质上具有很强的统计色彩,且b a y e s 网络又起源于b a y e s 统计学,因此数据挖掘与b a y e s 网络的结合自然是顺理成章。b a y e s 网络用于数据挖掘有如下优点【6 】: 1 ) b a y e s 网络描述了变量之间的因果关系,这种联系的确信度以概率的形式表达。 概率化使得b a y e s 网络的学习允许样本的不完整及噪音数据的存在。 2 ) 挖掘出知识的隐含性。用b a y e s 网络进行数据挖掘实质上是从数据库中获得一个 网络结构或者在结构已知的前提下,寻找变量的条件概率表。只有对b a y e s 网络进行推 理、解释,才能从中得到我们想要的知识、概念和决策信息。 3 ) b a y e s 网络具有良好的可理解性和逻辑性。它自然的将先验知识与概率推理相结 合,从而贴近现实问题,有助于优化人们的决策。 4 ) b a y e s 网络结合了先验知识,并用图表模型的形式描述数据之间的相互关系,非 常便于进行预测分析。 b a y e s 方法正在以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先 验知识的增量学习特性等成为当前数据挖掘众多方法中最为引人注目的焦点之一。 2 8 本章小结 1 ) 绍了数据挖掘的概念及发展过程,对其实现的一般过程和常用技术做了总结,为其 应用于旋转机械故障诊断奠定了基础。 2 ) 随着统计学与现代信息技术的融合,在方法上不断进行新的探索,一定会为数据挖 掘的未来发展开创一片新天地。 3 ) 将b a y e s 网络应用于数据挖掘,是研究含有不确定性因素事物的一个重要工具,有 着许多具有现实意义的优点。 1 2 第二章基_ 】二b a y e s 网络的故障诊断方法 第三章基于b a y e s 网络的故障诊断方法 3 1 前言 在故障诊断领域中,不确定性问题占多数,这主要是由诊断对象的复杂性、测试手 段的局限性、知识的不精确决定的【9 】。尤其是大型复杂的机电设备,其构件之间及构件 内部都存在很多错综复杂、关联耦合的相互关系,不确定因素及不确定信息充斥其间, 其故障可能是多故障、关联故障等复杂形式。b a y e s 网络是一种基于网络结构的有向图 解描述,适合用于表达和分析不确定性事物。作为一种基于概率的不确定性推理方法, b a y e s 网络在处理不确定信息的智能化系统中已有重要的应用。并且在医疗诊断、统计 决策、专家系统等领域已经得到了很好的应用。这充分体现了b a y e s 网络技术是一种强 有力的不确定性推理方法。本文依据大型旋转机械故障诊断中含有许多不确定性因素的 特点,把合适的b a y e s 网络模型引入到故障诊断领域,进行推
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年废弃物处理与环保合同
- 2024年度智能语音交互系统研发与推广合同
- 2024年搅拌站场地租用:混凝土生产协议
- 回家的路中班教案教案6篇
- 员工代表发言稿怎么写范文(素材稿件16篇)
- 2024年投资借款合同的电子版管理
- DB4114 124-2019‘吉德1号’杨扦插育苗技术规程
- DB4106T 22-2020 畜禽养殖场防疫监督管理规范
- 员工个人年终总结
- 专题14人体的内环境与稳态-2023年高考生物真题分类解析与应试策略
- GB/T 7702.20-2008煤质颗粒活性炭试验方法孔容积和比表面积的测定
- 新历史主义文艺思潮
- GB/T 40120-2021农业灌溉设备灌溉用热塑性可折叠软管技术规范和试验方法
- GB/T 3903.2-1994鞋类通用检验方法耐磨试验方法
- GB/T 10801.2-2018绝热用挤塑聚苯乙烯泡沫塑料(XPS)
- 12J5-1 平屋面建筑标准设计图
- 中印边境争端
- 《墨梅》课件(省一等奖)
- 招聘与录用期末考试卷及答案AB卷2套
- 实验室基本技能培训课件
- 如何申报科研项目 课件
评论
0/150
提交评论