第7章 数据分析软件_第1页
第7章 数据分析软件_第2页
第7章 数据分析软件_第3页
第7章 数据分析软件_第4页
第7章 数据分析软件_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章数据分析中心软件第2

页专家软件作用

软件开发基础数据分析基础

智能变电设备在线监测实例内容提纲厚德弘毅博学笃行第3

页第一部分专家软件作用厚德弘毅博学笃行第4

掌握电气设备的状态,及时检测出电气设备在运行中有关参数及其变化趋势是电气测试的目标。对电气设备相关运行参数的获取有离线检测和在线监测两种方法。

离线检测:通过设备以外的各类检测仪表对设备状况进行必要的人工抽查;

在线监测:通过装在设备上的各类监测仪表对设备的各类信号进行连续自动监测并上传至终端接收端。

在信息化时代的今天,有效地将计算机系统应用于电力企业生产的各个环节来提高生产效益,节约成本,同时提高生产管理的科学决策水平是一种必然趋势。为此针对电网各个环节设计开发了多种在线监测与离线监测的信息一体化平台,其数据则是通过多种终端渠道汇总于电力系统数据库中,通过生产管理系统对电力系统实现集约化、规范化和精细化管理。目前电力系统中使用的主流软件电力环节电力系统发电输电配电变电用电发电厂用电电气监控管理系统输变电设备状态检修辅助决策系统微机五防、综合自动化、SCADA等系统配变监测、配电监测管理、线路故障定位等系统生产管理系统用电信息采集、智能电表能源管理平台等系统厚德弘毅博学笃行第7

页第二部分软件开发基础厚德弘毅博学笃行第8

页1.面向对象的设计

面向对象是90年代以来软件开发方法的主流。软件系统本质上是信息处理系统,与传统方法相反,面向对象方法把对象作为由数据及可以施加在这些数据上的操作所构成的统一体,需要发消息请求对象主动执行某些操作并处理其私有数据。基于面向对象设计的软件则是让软件开发者自己先定义或选取解空间对象,然后把软件系统作为一系列离散的解空间对象的集合。与传统的程序设计方法比较,面向对象的程序设计有以下优点:与人习惯性的思维方法一致

面向对象的软件技术以对象为核心,按照人们习惯性的思维方法建立问题域的模型稳定性好可重用性好较易开发大型软件产品可维护性好

以对象间的联系刻画实体间的联系,当对系统功能需求变化时,仅需要做一些局部性的修改

继承性机制使得子类可以重用父类数据结构和程序代码,且可在父代码基础上修改和扩充,而不影响原有类的使用

开发软件时有自己的数据、,操作、功能和用途,降低了开发的技术难度,降低软件成本的同时提高了软件质量

稳定性较好,易于修改,容易理解,并且易于测试和

试2.可选编程语言

编程语言是用来定义计算机程序的形式语言,用来向计算机发出指令。一种计算机语言让程序员能够准确地定义计算机所需要使用的数据,并精确地定义在不同情况下所应当采取的行动。目前通用的编程语言有两种形式:汇编语言和高级语言。高级语言的出现使得计算机程序设计语言不再过分依赖某种特定的机器或环境。目前主流使用的高级语言主要有C语言、C++、VB(VisualBasic)、Java、C#5种。3.数据库管理

数据库管理系统就是实现把用户意义下抽象的逻辑数据处理转换成计算机中具体的物理数据处理的软件。有了数据库管理系统,用户就可以在抽象意义下处理数据,而不必顾及数据在计算机中的布局和物理位置。一个设计合理的数据库,可以实现数据共享,减少数据冗余,数据独立性更好,对实现数据集中控制具有一致性、可维护性、安全性和可靠性高,数据故障易恢复等特点。以下将会介绍几种主流数据管理系统。

目前较为主流的数据库管理系统包括:SQLServer、Oracle、MySQL、Access厚德弘毅博学笃行第12

页第三部分数据分析基础数据预处理是在对原始数据分析等主要处理以前,先对原始数据进行必要的清洗、集成、转换、离散和规约等一系列的预先处理工作。目前数据预处理的常规方法包括:数据清理、数据集成、数据变换以及数据归约,依次也为数据预处理的步骤。1.数据预处理数据预处理数据清理数据集成数据规约数据变换维度规约数值规约数据处理分析1)数据清理

数据清理主要处理缺失数据、平滑噪声数据、识别或除去异常值以及解决数据不一致的问题。数据处理缺失值的处理含噪声数据的处理不一致数据的处理缺失值的处理若数据属于时间局部性缺失,则可采用近阶段数据的线性插值法进行补缺。若时间段较长,则应该采用该时间段的历史数据恢复丢失数据。若属于数据的空间缺损,则用其周围数据点的信息来代替,且对相关数据作备注说明,以备查用。使用一个全局常量或属性的平均值填充空缺值,也可使用回归的方法或使用基于推导的贝叶斯方法或判定树等来对数据的部分属性进行修复,或者直接忽略元组。含噪声数据的处理

噪声是被测量变量的随机误差或方差,噪声数据包括孤立点,目前最广泛的方法是应用数据平滑技术处理此类数据。但对于孤立点或异常数据,不可以随便删除。目前处理噪声数据的方法主要包括分箱、聚类、回归等方法,必要时候还需借助人工设置阈值的方式辅助计算机识别孤立点。分箱:

分箱方法通过考察数据的“近邻”(即周围的值)来光滑有序数据的值。有序值分布到一些“桶”或“箱”中。由于分箱方法考察近邻的值,因此可对数据进行局部光滑。一般来说,宽度越大光滑效果越好。箱也可以是等宽的,每个箱值区间范围是个常量,分箱也可以作为一种离散化技术使用。回归:可以用一个函数(如回归函数)拟合光滑数据。线性回归的目的是找出拟合两个属性(或变量)的“最佳”线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩展,其中涉及的属性多于两个,并且将数据拟合到一个多维曲面。聚类:通过聚类检测离群点,将类似的值组织成群或“簇”。直观地落在簇集合之外的值视为离群点。根据要求选择模糊聚类分析或灰色聚类分析技术检测孤立点数据,并进行修正,还可结合使用灰色数学或粗糙集等数学方法进行相应检测。不一致数据的处理不一致数据一般指相对于同类型属性发生突变的,不符合实际情况的数据,包括编码使用的不一致和数据表示的不一致数据。有些不一致类型容易检测,例如:充油设备油中溶解气体含量不应是负值。在某些情况下,可能需要查阅外部信息源。结合数据所反映的实际问题,进行分析、更改、删除或忽略;也可结合模糊数学的隶属函数寻找约束函数,根据前一段历史数据趋势对当前数据进行修正。还可以使用其他补充材料人工更正某些数据不一致的情况。2)数据集成

数据集成主要解决模式集成和对象匹配、数据冗余、数据值冲突检测与处理等问题。数据集成模式集成和对象匹配问题冗余问题数据值冲突检测与处理模式集成和对象匹配问题

判断一个数据库中的数据集与另一个数据库中的数据集是否是相同的属性,例如:判断一个数据库中的customer与另一个数据库中的customer是否是相同的属性。每个属性的元数据(即每个属性下的属性值)有助于避免模式集成的错误,元数据还可以用来帮助变换数据。冗余问题冗余问题包括属性冗余和属性数据的冗余。属性冗余指一个属性能由另一个或另一组属性“导出”,若通过因子分析或经验等方法确信部分属性的相关数据足以对信息进行挖掘和决策,可通过用相关数学方法找出具有最大影响属性因子的属性数据,其余属性可删除。属性数据冗余,若某属性的部分数据足以反映该问题的信息,则其余属性数据可删除。若经过分析,这部分冗余数据可能还有他用则先保留并作备注说明。属性或未命名的不一致也可能导致结果数据集中的冗余。有些冗余可以被相关分析检测到,对给定的两个属性,这种分析可以根据可用的数据度量一个属性蕴涵另一个属性的程度。对于数值属性,通过计算属性和之间的相关系数估计这两个属性的相关度,即其中是元组个数,和分别是元组中和的值,和分别是和的均值,和分别是和的标准差,而是叉积的和。注意:如果大于0,则和是正相关的,其值越大,相关性越强(即每个属性蕴含另一个的可能性越大)。因此,一个较高的值表明(或)可以作为冗余而被去掉。如果结果等于0,则和是独立的,不存在相关。如果结果值小于0,则和是负相关的,一个值随另一个的减小而增加。注意,相关并不意味因果关系。也就是说,如果和是相关的,这并不意味导致或导致。

数据值冲突检测与处理对于现实世界的同一实体,来自不同数据源的属性值可能不同。这是因为数据的表示、比例或编码可能不同。例如,重量属性可能在一个系统中以公制单位存放,而在另一个系统中以英制单位存放。遇到该种情况,若数据量不大可人工进行集成,若数据量大时采用计算机编程进行集成。3)数据变换

数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据,消除它们在时间、空间、属性及精度等特征表现方面的差异。包括平滑处理,聚集处理,数据泛化处理、规范化、属性构造。1)平滑处理用于去掉数据中的噪声,可采用分箱、聚类、回归技术。2)数据聚集对数据进行汇总和聚集,例如,可以聚集日监测数据,计算月和年监测量。通常,这一步用来为多粒度数据分析构造数据立方体。3)数据泛化也称为概念分层,用高层概念替换低层或“原始”数据。4)规范化将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0-1.0或0.0-1.0。4)数据规约

数据归约可在不影响最终分析结果的前提下,通过数值聚集、删除冗余属性的办法压缩数据,提高算法分析的质量、降低时间复杂度。数据规约数据立方体聚集属性子集选择数据立方体聚集数据立方体存储多维聚集信息。每个单元存放一个聚集值,对应于多维空间的一个数据点。每个属性可能存在概念分层,允许在多个抽象层进行数据分析。数据立方体提供对预计算的汇总数据进行快速访问。数据立方体可以被看作方体的格,对每个较高层抽象将进一步减少结果数据的规模。属性子集选择用于分析的数据集可能包含数以百计的属性,其中大部分属性与挖掘任务不相关或冗余。属性子集选择的基本启发式方法包括以下几种:逐步向前选择:该过程由空属性集作为归约集开始,确定原属性集中最好的属性,并将它添加到归约集中。在其后的每一次迭代中,将剩下的原属性集中最好的属性添加到该集合中。逐步向后删除:该过程由整个属性集开始,在每一步中,删除该步属性集中最差的属性。向前选择和向后删除相结合:可以将逐步向前选择和向后删除方法结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。决策树归纳:决策树归纳用于属性子集选择时,由给定的数据构造决策树。不出现在树中的所有属性假定是不相关的,出现在树中的属性形成归约后的属性子集,结束标准可以不同。该过程可以使用一个度量阈值决定何时停止属性选择过程。5)维度规约

维度归约是使用数据编码或变换,得到原数据的归约或“压缩”表示。两种流行、有效的有损的维归约方法是:小波变换和主成分分析。小波变换

离散小波变换(DWT)是一种线性信号处理技术,这种技术用于数据归约时,每个元组看作一个维数据向量,用来描述个数据库属性在元组上的个测量值。如果在小波空间进行计算,利用数据稀疏特点的操作计算非常快。该技术也能用于消除噪声,但不会光滑掉数据,这使得它们也能有效地用于数据清理。给定一组系数,使用所用的DWT的逆,可以构造原数据的近似。主成分分析

主成分分析(PCA),又称Karhunen-Loeve或K-L方法,搜索k个最能代表数据的n维正交向量,其中k

n。这样,原来的数据投影到一个小得多的空间,导致维度归约,原数据可以投影到这个较小的集合中。PCA常常揭示先前未曾察觉的联系,并因此允许解释不寻常的结果。PCA计算开销低,可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据,多于2维的多维数据可以通过将问题归约为2维问题来处理。主成分分析可以用作多元回归和聚类分析的输入。与小波变换相比,PCA能够更好地处理稀疏数据,而小波变换更适合高维数据。数值归约技术指的是选择可替代的、较小的数据表示形式来减少数据量。6)数值规约数值规约回归和对数线性模型直方图抽样数据离散化与概念分层聚类回归和对数线性模型

回归和对数线性模型可以用来近似给定的数据。在(简单)线性回归中,对数据建模,使之拟合到一条直线。对数线性模型近似离散的多维概率分布。给定n维元组的集合,可以把每个元组看作n维空间的点。可以使用对数线性模型基于维组合的一个较小子集,估计离散化属性集的多维空间中每个点的概率。这使得高维数据空间可以由较低维空间构造。因此,对数线性模型也可用于维归约和数据光滑。直方图直方图使用分箱来近似数据分布。属性A的直方图将A的数据分布划分为不相交的子集或桶。如果每个桶只代表单个属性值/频率对,则称为单桶。通常,桶表示给定属性的一个连续区间。确定桶和属性值的划分规则,包括等宽、等频(或等深)、V最优、MaxDiff。V最优和MaxDiff直方图是最准确和最实用的。对于近似稀疏和稠密数据、高倾斜和均匀的数据,直方图高度有效的。多维直方图可以表现属性间的依赖,这种直方图能够有效地近似多达5个属性的数据。但有效性尚需进一步研究。对于存放具有高频率的离群点,单桶是有用的。聚类

聚类技术将数据元组视为对象,将对象划分为群或簇,使一个簇中的对象互相“相似”,而与其他簇中的对象“相异”。通常,相似性基于距离函数,用对象在空间中的“接近”程度定义。簇的“质量”可以用直径表示,直径是簇中任意两个对象的最大距离。质心距离是簇质量的另一种度量,定义为由簇质心(表示“平均对象”或簇空间中的平均点)到每个簇对象的平均距离。在数据归约中,用数据的簇替换实际数据,但该技术的有效性依赖于数据的性质。如果数据能够组织成不同的簇,该技术将变得更有效。抽样

抽样可以作为一种数据归约技术使用,由于处理大型数据集常常需要过高的代价和过长的处理时间,因此也常采用数据选样方法。它允许用极少的数据作为随机样本(子集)表示大型数据集,因而在某种情况下,使用数据选样方法可以减小数据集规模,使得某些效果更好但代价较高的算法可以应用到数据集上。有效的数据选样原则是选样后的数据集与原数据集在算法中的效果应当相同。这就要求选样的数据在原数据集中应该有代表性,即选样数据在某些特征上应与原数据集更接近。最常用的抽样方法有无放回简单随机抽样、有放回简单随机抽样、聚类抽样、分层抽样。数据离散化与概念分层数据离散化技术通过将属性值域划分为区间,可以用来减少给定连续属性值的个数,用少数区间标记替换连续属性的数值,从而减少和简化了原来的数据。对于给定的数值属性,概念分层定义了该属性的一个离散化。通过收集较高层的概念(如前期、中期或后期)替换较低层的概念(如使用年限的具体数值),另外可以用来归约数据。通过这种数据泛化,尽管细节丢失了,但是泛化后的数据更有意义、更容易解释。分箱是一种基于箱的指定个数自顶向下的分裂技术。直方图分析像分箱一样,其也是一种非监督离散化技术,因为它也不使用类信息。熵的离散化是一种监督的、自顶向下的分裂技术。基于检验的区间合并采用自底向上的策略,递归地找出最佳邻近区间,并合并形成较大的区间。

聚类分析是将属性A的值划分成簇或组,考虑A的分布及数据点的邻近性,产生高质量的离散化结果。直观划分离散化:3-4-5规则可以将数值数据分割成相对一致、看上去自然的区间。数据离散化与概念分层方法数据预处理方法分析

数据类型多种多样,对应不同类型的数据有不同的数据预处理方法,恰当的选择和应用这些方法,可以使数据预处理得以顺利进行。某些数据预处理方法在不同的阶段分别使用可达到相应阶段的预处理效果。数据预处理方法中有较多的统计方法,现将数据预处理中用到的不同方法归纳如下:统计方法应用场合回归数据清理中的缺失值填写、平滑噪声;数据归约中的数值规约聚类数据清理中的平滑噪声;数据归约中的数值规约均值填充数据清理中的缺失值填写填充,有属性均值和同类样本均值相关系数数据集成中检测冗余属性

2检验数据集成中检测冗余属性;数据归约中的数值归约规范化方法数据变换中的规范化小波变换数据归约中的维度归约主成分分析数据归约中的维度归约抽样数据归约中的数值归约2.故障诊断算法

随着智能电网的崛起,传统的诊断方法已经不能满足故障诊断准确性和快速性的要求,因此许多智能故障诊断方法被提出。故障诊断方法由传统技术向智能化技术方向发展是该领域未来研究的重点和热点。由于电气测试涉及到的电力设备众多,智能算法也是日新月异,以下着重介绍一些常用故障诊断方法。基于专家系统的故障诊断算法

专家系统首先用自然语言对在线监测得到的知识信息以及运行人员的诊断经验建立产生式规则,构建故障诊断专家系统的知识库;然后基于对这一产生式规则的理解,知识工程师将知识表示成机器语言并通过人机接口储存到知识库中。故障发生时,将故障信息输入到推理机,推理机根据当前输入的故障信息,运用知识库中的知识,按一定的策略进行推理,将故障发生后的故障信息与规则进行匹配,从而识别出故障元件。

专家系统基本结构图基于人工神经网络的故障诊断算法

一般神经网络包含3层:输入层,隐藏层和输出层。神经网络的输入层对每个输入信号进行处理,以确定其强度(权重)。将所有输入信号的组合(加权和)作为中间层转移函数的输入,转移函数可以是阶跃函数或曲线函数。通过转移函数对输入进行函数转换,将可能无限域的输入化成指定的有限范围内的输出,随后在输出层得到最终的结果。神经网络通过对大量数据的学习,不断调整其内部权重、阈值等参数,使得网络以需要的方式工作。神经网络结图基于模糊集理论的故障诊断方法

基于模糊理论的故障诊断算法通过建立征兆与故障原因之间的因果关系矩阵;建立故障与征兆的模糊关系方程,进而确定诊断结果判定准则,再确定隶属度函数,这样可将各诊断要素的影响权重引入集合论中的隶属函数中,利用融合隶属函数和模糊关系矩阵的概念来解决故障与征兆之间的不确定关系,进而实现故障的检测与诊断。基于贝叶斯网络的故障诊断方法

贝叶斯网络主要由两部分组成,其一是具有N个节点的有向无环图,图中的节点代表随机变量,节点间的有向边代表节点间的相互关联关系。节点变量可以是任何问题的抽象,如设备部件状态、测试值、观测现象、意见征询等。其二是与每个节点相关的条件概率表P,它表达了节点同其父节点的相关关系——条件概率,没有任何父节点的节点条件概率为其先验概率。贝叶斯网络结构和参数都可通过样本数据进行学习而获得,贝叶斯网络推理就是利用其表达的条件独立性,根据已有信息快速计算待求概率值的过程。用贝叶斯网络表达设备的故障诊断问题,就是利用一些故障征兆快速计算故障原因概率信息的过程,当然还可同时获得其他节点变量的概率信息。贝叶斯网络结构图基于支持向量机的故障诊断方法支持向量机方法考虑寻找一个满足分类条件的分类平面,并使训练集中的点距离该分类平面尽可能远。支持向量机利用一定原则设计最优分类面,在高维特征空间中设计线性最优分类面。利用核函数方法通过采用非线性变换将n维空间中的随机矢量x映射到高维特征空间,在高维特征空间中设计线性学习算法,从而得到输入空间中的非线性学习算法。最优分类面示意图基于故障树的故障诊断方法

故障树方法首先把选定的系统故障事件作为顶端事件,然后,按照演绎分析的原则,再分析可能引起顶端事件的子系统故障事件,从顶事件逐级向下分析各自的直接原因事件,直至所要求的分析深度,追溯到不能再分解的元件故障为止,形成故障树。然后,通过求取最小割集的方法找到导致顶端事件发生的最少路径,推算出故障概率,进行故障诊断。所以执行故障树分析,故障树建模是最关键的一步。故障树建模,就是寻找所研究系统故障和导致系统故障的诸因素之间的逻辑关系,并且用故障树的逻辑符号(事件符号与逻辑门符号),抽象表示实际故障和传递的逻辑关系。故障树逻辑示意图基于优化技术的故障诊断方法

优化算法,一般是为了优化某个目标函数,其基本思想是将电力系统故障诊断问题描述成为0-1整数规划问题,并构造一种解析数学模型,利用优化技术寻找问题的最优解。

常用的优化算法包括:遗传算法,模拟退火算法和群智能算法,还有较新的算法如交叉熵算法等。基于集成学习故障诊断方法

集成学习是当前机器学习中主要的热点研究方向之一。弱可学习理论和强可学习理论的出现为集成学习奠定了理论基础。其主要思想是为解决同一问题,采用一种个体生成方法训练得到一系列同质或异质的弱学习器(也称为:基学习器,基分类器),并使用一定的策略把各个不同的学习结果进行整合,从而获得比单个学习器更好的学习效果。集成算法结构图一般集成学习算法包含以下两个步骤:1)采用一种个体生成方法产生多个训练子集,从而得到若干不同的个体学习模型(弱学习器);Bagging和Boosting作为集成学习的代表,其个体生成方法也是常用的训练弱分类器方法。其中Bagging算法采用重采样技术得到不同的训练子集,Boosting则根据上次学习的结果调整原始训练集的权重分布从而获得不同的训练子集。2)采用一定的结论合成方法,对个体分类器的输出进行集成,得到最终的强学习器。当集成学习模型用于分类时,集成的输出通常由弱学习器的输出投票产生。当集成学习模型用于回归统计时,集成的输出通常由各弱学习器的输出通过简单平均或加权平均产生。厚德弘毅博学笃行第53

页第四部分智能变电设备在线监测实例1.系统介绍智能变电设备在线监测中心包括监控系统与辅助决策系统,它整合完善智能变电站内所有监测单元,定义标准数据输入/输出接口,统一进行标准数据建模与展示,通过一个在线监测平台系统完成变电站内所有运行设备的在线监测,对设备运行状态进行状态诊断与评估,并对相关工作单元进行必要控制,结合各类故障诊断策略完成对设备的最终诊断,预防和预测被监测运行设备出现重大故障,当预测到重大故障时监测中心下发控制指令,消除萌芽故障,对需要调整或检修的部分给出参考建议,指导辅助检修,最终实现智能变电站安全稳定运行。2.软件设计总体设计软件采用JavaWeb,基于Struts+Spring+Hibernate的主流框架整合,结合JSP和CSS开发设计,数据库使用多用户多线程的小型开源数据库MYSQL。B/S三层结构图数据库设计数据库分区表软件的数据库设计是整个软件开发的关键步骤,使用PowerDesigner作为建模工具,在保证数据完整性的基础上降低数据冗余,提高数据并发性。软件数据根据业务共分四个区域:监测基础区、数据存储区、诊断结果区、数据配置区。基础区为数据存储区各类监测项目表的自由拓展提供服务,诊断结果由基础采集根据数据配置区的各项配置参数计算得出,具体的库表分区如图所示。数据库建模架构设计

软件采用JavaWeb的SSH框架(Struts+Spring+Hibernate)作为结构设计,实现B/S模式(Browser/Server,浏览器/服务器模式)下的Web应用程序的总体框架设计,软件的SSH框架结构图如图所示。系统SSH框架结构图SSH是一个由表示层,业务逻辑层,数据持久层组成的三层体系结构。1)表示层:系统的主要展示页面都位于此层,负责提供用户界面的交互控制。2)业务逻辑层:该层Spring的最主要职责,是实现系统的多层架构之间的松散耦合。3)数据持久层:在这一层,Web应用程序与数据库做数据的读取与写入,实现O/R映射,将面向对象转化为面向关系。油浸式变压器故障诊断电力变压器作为电力系统中的关键设备之一,其正常运行与否关系着电网的安全可靠性。目前国内外大多利用DGA技术对变压器内部故障进行检测,此方法对于发现充油变压器内部早期潜伏性故障十分有效,是充油电气设备进行故障检测的常用方法。本章在DGA技术基础上,采用虹桥220kV智能变电站变压器油色谱监测IED采集到的油中溶解气体数据作为故障诊断算法的原始数据。通过现场变压器油色谱在线监测装置获得750组样本数据作为原始数据,采用150组样本数据作为测试集,剩下的600组数据作为训练集或者根据具体算法需要分成训练集和验证集,为了方便对实验结果进行说明分析,部分测试数据如表所示。样本编号特征气体组分含量μL/L故障类型故障编码H2CH4C2H6C2H4C2H218.8115.020.4315.980.19正常N251.016.544.211.570.92正常N327.0926.451.872.730正常N414.653.7110.522.690.22正常N556.0477.1218.9421.050.1中低温过热T1657.2176.9819.0420.910.1中低温过热T17160.31129.9733.4297.180.77中低温过热T18166.6128.29672.1512.430.33中低温过热T1956.5442.71167.381413.317.2高温过热T21098.52554.97200.031636.118.35高温过热T211172.89334.13172.9812.5237.71高温过热T212242.8176.344.42173.112.4高温过热T21341.284.511.51.816.2低能量放电D11461.5224.611.355.6420.5低能量放电D115979.8873.0458.1511.790.14低能量放电D116538.3312.628.6814.120.35低能量放电D117138.8152.16.7762.7510.57高能量放电D218148.329.210.3124.832.97高能量放电D219256.6282.856.4382.37116.07高能量放电D220345.51112.3427.5251.4958.78高能量放电D2

部分测试数据采用AdaBoost的一种延伸算法SAMME结合CART分类和回归树,建立变压器故障诊断模型,对变压器多故障模式进行识别。该模型以CART决策树作为弱分类器,并采用10折交叉验证给出迭代次数较为确切的估计,这样可有效提高弱分类器的分类准确率,进而提高故障诊断准确率。具体算法步骤如下。(1)数据预处理

通过DGA技术得到氢气(H2)、甲烷(CH4)、乙烷(C2H6)、乙烯(C2H4)、乙炔(C2H2)这五种典型特征气体组分的浓度作为原始属性数据。将五种溶解气体组分含量进行C2H2/C2H4、CH4/H2、C2H4/C2H4三种比值运算,使原有的5维数据降为3维,将维归约后的3种比值作为样本集中新的属性。其次对变压器故障类型进行表示,将正常状态、中低温过热、高温过热、低能量放电、高能量放电五类故障模式分别记为N、T1、T2、D1、D2,作为样本集中属性值所对应的类标签。(2)单一CART算法变压器故障诊断

CART算法采用二分递归分割技术,总是将当前样本集分割为两个子样本集,生成二叉树,随后利用建好的树对新样本进行分类,CART决策树模型如图所示。

CART分类和回归树模型CART算法具体步骤如下:给定样本集M,属性集,分支数目n和分支停止准则,1)依据分支停止准则判断当前节点是否满足停止条件,若是,则返回空树,否则执行步骤2);2)根据训练样本集M,对于属性集中的t个属性,计算当使用做判断属性时对应的不纯度改变量,即就是Gini指数改变量;3)选出Gini指数值改变量最大的那个属性,并将该属性作为该分支的分裂属性;4)根据分裂属性,将训练样本集分为个子集;5)分别对个子集执行步骤1)~4),新的输入为子集和属性集,从而得到对于分支的分类器(可能为空树);6)对已建好的决策树进行剪枝操作,得到一系列嵌套子树;7)采用10折交叉验证进行最优子树的选择;8)采用选出的最优决策树对新的测试样本进行条件判定,输出相应的分类结果。采用已经过预处理后的数据作为CART算法的输入数据。先利用600组已降维的样本数据作为训练数据,建立未剪枝的初始CART决策树。实验结果如图所示。未剪枝的初始CART决策树a代表C2H2/C2H4的值,b代表CH4/H2的值,c代表C2H4/C2H6的值。显而易见,未经剪枝的CART决策树比较庞大繁杂,泛化性能较差,故采用10折交叉验证寻找最佳剪枝子树。在数据不充足的情况下,10折交叉验证可以充分利用有限的学习数据。利用10折交叉验证寻找最佳剪枝后子树的实验结果如图所示。最佳子树选择蓝色实线为交叉验证误差,红色虚线为训练数据再代入误差。经剪枝后的决策树如图所示。最佳CART决策树利用剪枝操作后的CART决策树对对应于上表中的20组测试样本进行测试,变压器故障诊断结果如图所示。图中,红色星号标记的折线是正确的目标故障类型输出,蓝色圆圈标记的折线是运用单一CART算法对20组测试样本的故障类型输出。可以看出,单一改进CART算法错误分类4组测试样本数据,故障诊断准确率有待提高。基于单一CART算法变压器故障诊断(3)SAMME-CART变压器故障诊断SAMME-CART算法流程图单一CART算法可以满足SAMME算法对弱分类器分类准确率的要求,经SAMME算法的集成作用,将若干CART弱分类器集成在一起得到新的强分类器,在SAMME-CART算法中,以CART分类和回归树作为弱分类器,为了保证各个弱分类器之间的差异性,避免弱分类器过强,对CART算法不进行剪枝操作。SAMME集成CART算法流程图如图所示。建立SAMME-CART的变压器故障诊断算法模型如图。SAMME-CART故障诊断模型采用上述750组变压器油中溶解气体含量数据作为原始数据,同使用单一CART算法建立变压器故障诊断模型一样,对原始数据进行归一化和维规约处理后,选取其中的600组样本数据作为SAMME-CART算法的输入数据,即作为训练样本集,同时利用10折交叉验证确定最优SAMME算法的迭代次数,设置迭代次数初始值,实验结果如图所示。由图可看出,初始迭代时,泛化误差估计较大,这是因为模型拟合不足,对数据尚未学习完全。当迭代次数增加,泛化误差呈下降趋势,对训练数据的拟合程度越来越高,当迭代次数时,泛化误差估计值达到最小,约为13.5%,随后泛化误差趋于平缓并有稍许上升趋势,因为模型偶然地拟合了训练数据中的某些噪声,这些噪声降低了模型的性能,使模型不能很好的泛化到样本数据,出现过分拟合现象。由此确定SAMME-CART模型中参数M的最优值为70。选定最优的参数M后,初始化样本权重分布为。为了保证弱分类器之间的差异性,减小对强分类器泛化能力的影响,对CART弱分类器不进行剪枝操作,采用SAMME-CART算法对表中的20组测试样本进行测试,实验结果如图所示。基于SAMME-CART算法的变压器故障诊断单一故障诊断算法与集成故障诊

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论