基于分类算法的供水管网泄漏定位方法的研究_第1页
基于分类算法的供水管网泄漏定位方法的研究_第2页
基于分类算法的供水管网泄漏定位方法的研究_第3页
基于分类算法的供水管网泄漏定位方法的研究_第4页
基于分类算法的供水管网泄漏定位方法的研究_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论1.1研究背景六十年代末,错误诊断技术成为一种新的机器学习技术。根据发展的来源,美国是历史上第一个研究错误诊断技术的国家。在美国宇航局于1967年主张和在美国海军研究服务(ONR)的领导下,在研究和开发方面处于领先地位。在工程工业故障检测和机器设备损伤诊断技术上,取得了很多突破性的研究成果和进步,如故障原因探究、故障检测、故障预测和故障诊断等方面。在航空方面,波音747、DC9等大型客机上的故障诊断系统,能够利用当前获取的信息分析飞行故障原因并报错,这有利于提高乘客的人身安全。随着故障诊断技术的兴起,在仿真阶段取得了显著的研究成果,并发表了大量的学术论文。20世纪70年代,美国发展了基于分析冗余的故障检测和诊断方法。1971年,麻省理工学院的比尔德在他的博士论文中首次提出用分析冗余取代硬件冗余。在自组织系统的帮助下,通过比较观察者的输出来稳定封闭系统并检测系统误差[1]。基于分析库存的生成故障诊断技术。1971年,Mehra和Peshona[2]关于自动化的文章也被广泛认为是故障诊断技术的基础之一。与外国不同的是,故障诊断技术的开发和发展相对较迟,只是在1970年代初才开始发展[3]。我国在1986年成功举办了首次国际技术会议,对机械设备故障进行诊断。在未来的几年里,在政府的指导下,一些理论研究与国外的比较。目前,一些具体的检测技术工程故障有其特点,并成功地开发了自己的监测和诊断工具。设备故障检测系统逐渐成为全国关注的焦点,尤其是专家智能检测系统,核电站,航空部门和空间项目中居住的能源系统,石油系统,冶金系统和高科技产业[4-9]。特别是在20世纪90年代以后,国民经济的各个领域都依赖于故障诊断技术并且正在全面展开。没有故障样本是故障诊断瓶颈之一,而不是诊断方法本身。在实际应用中,例如大型单元的故障诊断,可用样品的数量通常是有限的。大型机组系统非常昂贵,其运行状态与公司的整个生产密切相关。在大多数情况下,信号和缺陷之间的对应关系非常模糊,并且信号也可能对应于几个缺陷。1990年代中期,随着统计学习理论的发展,支持向量机(SVM)作为一种机器学习技术在小型样本中得到发展[10-12]。同样地,我们支持在向量机和超能力学习中适用最大限度地减少结构性风险的原则,因为设备故障本身就是一个小的样品事故,所以SVM对故障的诊断非常合适。在样本量较小的情况下,SVM通过限制结构风险的最小化来展示强大的分类能力。小样本的解决方案是其在故障排除中使用的最大优势。在具有有限功能集的信息的情况下,训练方法的本质是能够最大化隐藏在数据中的分类知识,这对于故障的诊断具有重要的实际意义。1.2研究意义随着中国城市规模的扩大和居民生活水平的提高,城市供水网络的发展和农村供水的扩大对安全可靠的供水系统的需求。管理和服务系统也变得越来越重要。一方面,为了满足用户的需求另一方面,在水和压力下,必须确保用户在一段时间内不间断地使用水,更重要的是,管道的破坏不应导致管道的损坏。这意味着管道周围的设施的破坏和损失。城市水管网运行中的漏水现象不仅造成水源的浪费,还减少管道安全和损坏基础甚至附近公共设施,如建筑物和结构构成潜在的威胁。因此,如果不能及时发现和修复泄漏地区,将造成大量水资源的损失,并对国家乃至世界造成重大经济损失。城市供水也是一项公共事业,供水公司提供的服务质量不仅是衡量城市供水管理水平的指标,也体现了党和政府的形象。在一定程度上的人口。随着社会的发展和市民对权利的敏感化。对供水公司的需求不断增加,水质,水压,环境的连续性和安全性等问题都是环境问题。如果路面坍塌,将影响交通安全,长期的水泄漏将导致建筑物,防空洞,地下室以及用于测试井中水的各种电缆的质量问题。一些严重干扰公民正常生产和生活的问题和情况的出现常常受到政府和媒体的干扰。如果供水公司得不到妥善处理,将对社会产生严重的负面影响。简而言之,对供水管网中的泄漏进行成本有效的控制一直是国内和国际供水行业的一个重要问题。自来水公司加强泄漏检测,谨慎控制管网泄漏,可以显着提高供水的有效容量,这对节约用水,营造救助社会至关重要,并提高企业的社会和经济效益。统计学习理论(SLT)的出现和神经网络等新机器学习方法的发展遇到了一些重要的困难[13,14]。然而由于支持向量机具有良好的多维数据处理能力,并且相对难以从时域中的信号中提取故障信号,因此直接使用时域中的信号来诊断SVM中的问题也是一个重要的研究方向。许多学者分析了泄漏引起的现象,并对它们进行建模,以改善管道分配系统中的检测和定位性能[15,16]。然而,这些研究只把压力的变化作为一个模型参数,而流体管道耦合振动的弹性波模型没有考虑,因为大量的参数取决于泄漏类型和介质特性。在相关文献[17,18]中提到,如果可以应用机器学习的方法,则可以通过采集小样本数据或数据驱动的增强来增加数据集,并且可以纠正错误,以帮助提高性能。1.3论文研究内容及其组织结构论文主要研究基于支持向量机的方法判别供水管网中的泄漏,通过学习的方式加以训练以达到能够识别供水管网是否泄漏的目的。判断是否泄漏后,还需要判别是管网中哪一号节点发生的泄漏,并对其进行定位。第一章为绪论,首先阐述了错误诊断技术的起源和发展,阐述了基于支持向量机的错误诊断技术,最后阐明了本文的研究内容。第二章主要讲述了供水管网泄漏定位的理论方法。第三章研究svm的基础理论以及核函数和组合核函数,通过组合算法改善分类的精度。第四章为漏点定位算法分析与仿真研究,主要讲述了如何进行实验以及对实验结果的分析。第五章为总结与期望,通过仿真实验和实验结果分析得出一些结论。

第二章供水管道泄漏定位理论方法本章介绍供水管网泄漏检测定位的各种目前使用的方法及本文所提到的方法,并突出一些方面的优越性。然后讨论一下强泄漏与弱泄漏不同情况以及供水管网参数对实验正确率的影响。2.1简单泄漏估计技术主动观察是最常见和最简单的评估:当泄漏量已经很大并且可以被人们察觉时,例如,当大量的水渗透到表面或当人们担心水的压力会降低,泄漏就会被识别出来。主动观察适用于泄漏很重要的情况。在大多数系统中,水审计[19]或连续流量测量[20]与主动观测结合使用。水审计将一些子网与整个管网分开,并测量每个子网的输入和输出,大约24小时一个周期。流入和流出之间的差异是未考虑的水量。未经授权使用水、流量计不准确、测量错误以及失窃或漏水可能是未经授权使用水的原因。据估计,在大多数系统中,大约三分之一的未被识别的流量是由于泄漏造成的。水压试验需要单独选择管道并随后在一段时间内持续增加水压。如果无法保持水压,则会发生泄漏。由于水系统可能存在干扰,零消耗和水压试验的使用受到严重限制。2.2专用定位技术特殊的漏泄定位法能准确确定管道恢复时的漏泄点。目前有很多特殊的方法可以确定泄漏点。可分为两个部分的定位系统:非声信号泄漏定位方法和声信号泄漏定位方法1非基于声信号分析的检测定位方法1)气体跟踪:这种方法设计用于注入无毒,不溶于水的气体,将氦气和氢气等空气排入水管的一部分[21]。当管道泄漏发生时,充入气体将会从泄漏处溢出,并且由于该气体密度小于空气,因此它会渗透地面和路面而上升。可以通过用高灵敏度气体检测器扫描管道上表面来定位泄漏的位置。气体跟踪法花销十分巨大,并且在供水系统中通常不是非常有效。红外热成像:使用红外热成像补充泄漏检测的原理是,当地下管道漏水时,相邻土壤的热性质会发生变化[22]。例如,相邻的土壤比周围的干燥土壤冷却得更快。通过红外线扫描仪探测管道中的热异常,可以探测管道渗漏情况。红外线热成像技术也很昂贵,需要专门的操作人员,在许多地方并不实际。2)探地雷达方法:采用这种方法时,传输和记录设备预先放置在管道上方的表面上,电磁波传输到地面并延迟透射波和反射波用于确定反射表面与表面的距离[23]探地雷达方法使用两种方法来确定漏水:(a)通过识别漏水湍流产生的地面空隙:(b)通过区分由于泄漏引起的饱和土壤的介电常数的增加,形成比正常更深的管段。2基于声信号分析的检测定位方法听音技术:听音装置包括听音棒和地面麦克风,无论是机械还是电子[24]。检查员沿管网进行泄漏检测检查,并使用接力棒监听相应管道部分泄漏的特征嘶嘶声。听力检测的有效性取决于泄漏的大小,管道交通和水牵引引起的背景噪声以及检测到的细节水平。群体普查仅监听易于监控的管道组件,例如消防栓和阀门。它主要检测大泄漏;详细检查使您可以收听管道的所有组件并检测小泄漏。地面麦克风直接侦听管道上表面的不可靠声音。这个过程需要很长时间,其成功取决于员工的经验。2)噪声记录技术:噪声记录器是装有振动传感器(水下听音)的压缩装置和可编程的数据记录器,可用于探测大规模泄漏,但设备不适合用于跟踪泄漏情况,记录器可组合成邻近的管道组件,一组大约六个或更多,通常在整个晚上放置,记录器通常使用程序控制在凌晨2点到4点之间收集管道噪音。数据,第二天收集它们,然后将收集的数据从前一天下载到PC,然后将收集的录像机放在下一个位置。通过数据的统计并分析泄漏是否存在。3)泄漏噪声相关检测:使用加速度计,水听器或地震检波器在管道的两个点处收集泄漏噪声(噪声或振动),并使用两个泄漏信号的最大相关事件偏移量泄漏,通过无线或有线连接将信号收集到相关器。泄漏位置由信号传播速度和两个测点之间的距离决定[25]。相关器包括BCC和PHAT等等多种相关器,不同的相关器对噪声的敏感程度和鲁棒性有所差异,这将直接导致泄漏定位的精确程度。相关器在检测和定位方面比听音装置更有效,并且更少依赖于检查员的经验。然而,现有的相关仪器对于铸铁和球墨铸铁以及大多数塑料管的无噪声泄漏是不可靠的。相关器也非常昂贵。2.3本文采用的泄漏定位方法本文描述的泄漏定位方法是基于压力传感器获取数据,通过统计泄漏前和泄漏后的压力数据值进行分辨是否存在泄漏,使泄漏前和泄漏后的压力数据作为训练集训练支持向量机。每当有泄漏到来时,通过机器学习(支持向量机)的方法将采集到的压力数据进行分类,从而判断是否发生了泄漏。然后又采用多分类的方式定位泄漏节点,选取几个易漏点,分别采集每个易漏点泄漏时所有节点的压力数据作为训练集,再通过支持向量机多分类方法判断是哪一号节点发生了泄漏,从而实现节点上的定位。该方法相比上述方法操作简单且易实现,准确度相对来说很客观,实验环境廉价并且支持向量机主要是软件上的实现,可在算法上进行改进和优化。与其它方法相比,支持向量机有以下优点:①结构相对简单②泛化能力与性能相比之前的机器学习方法有所提高③对高维数据仍然适用④克服了维数灾难的发生⑤在求解最优化问题时,存在唯一最小值点⑥高效的学习速度⑦根据不同的和函数可以得到不同的超平面以实现更精确的分类x支持向量机具有良好的推广能力,因此支持向量机在设备故障模式识别方面具有广阔的应用前景。在有关SVM的水系统检漏文献中[26],已经分析了使用SVM进行供水管网泄漏定位检测的可行性,在本文将进一步把泄漏分为强泄漏和弱泄漏两种情况,并分析SVM对两种情况的分类性能。在使用SVM进行供水管网泄漏定位分类时,采用不同种核函数进行实验,从而观测不同核函数在供水管网泄漏定位的不同结果,并选取最优的核函数进行实验。2.4泄漏标准分析在使用支持向量机SVM时,为了使精度更加精确,通常将泄漏分为两个等级,即强泄漏和弱泄漏。本文给出的强泄漏与弱泄漏的流量阈值指标是10GPM,如果泄漏流量的值小于10GPM则认为是弱泄漏,如果泄漏的流量大于10GPM,则认为是强泄漏。强泄漏情况下,泄漏前后的压力差比较大,并且泄漏的水流量也相对较大。因为SVM是一种机器学习的分类算法,因此对于不同精度的压力数据分类的准确度也是不同的。在强泄漏的情况下分类的精度要高一些。在EPANET中保证泄漏流量等于10GPM,并通过合理计算得到扩散器系数的值作为阈值。在EPANET的仿真环境下设定了扩散器系数值的节点即为泄漏点,通过设定不同的扩散器系数代表泄漏程度不同,从而分成了强泄漏和弱泄漏两种情况。弱泄漏代表泄漏量很小的情况,主要表现在泄漏的水流量相对较小而不易检测。但是SVM算法具有高分辨率,可以将两组偏差较小的数据进行训练并学习,即便是弱泄漏正确率也比较客观。弱泄漏情况表示的是泄漏流量小于10GPM,但是针对弱泄漏情况下的SVM分类算法正确率却不如强泄漏,这是因为弱泄漏的压力差非常小不善于分类,而强泄漏却有相对较大的压力差,因此强泄漏情况下分类的正确率相对较高一些。2.5管道参数对仿真压力数据的影响在实际测量中,管道的参数对压力值的测量有很大的影响。主要参数包括管道的材质、管道直径、粗糙系数、损失系数等等。因此,在实际测量数据时,需要考虑参数对实验结果的影响。EPANET仿真环境下可以设置管道的直径、粗糙系数和损失系数等指标,并且在每个节点的标高和需水量也有相应的设定。对于模拟一个城市的供水管网的实际模型,EPANET具有良好的功能。通过仿真软件的测试可以发现,当供水管道的直径越小,管道的水流量就越小,与此同时相邻节点的水压力值也会降低。增加管道的粗糙系数越大,管道的水流量会下降,与此相连接的节点压力值略微有所下降。增加损失系数,管段的水流量值也会发生下降。以上分析可以看出,管道的参数对压力数据是具有影响的,因此需要在实际中精确地测量管段及其节点的参数值并录入EPANET仿真环境当中,尽量减少SVM的误分次数,得到正确率相对较高的分类结果。

第三章支持向量机的理论基础自1960年代以来,Vapnik等人根据统计学习理论从事机器学习研究,并成功地在1992年至1995年期间采用了以统计学习理论为基础的SVM[27]。目前,通过训练学习数据的模式已经成为机器学习领域最受欢迎的研究领域之一。相比神经网络和其他方法,SVM具有更强大的理论基础,该方法具有全局优化,泛化能力和对测量不敏感的优点。与线性模型相比,线性学习机不仅增加了计算复杂度,而且在一定程度上避免了“维度灾难”。所有这些都与内核函数的扩展和计算理论有关。SVM算法包括诸如VC测量理论,最小化结构风险的可能性以及概括的能力等概念。主要思想是基于学习统计理论中的VC测量理论,接受了最小化结构风险的标准,并且他的推广能力很强,尤其在处理小样本数据和高维数据的情况下,由于核函数的种类和组合的多样性,使得SVM能够构建不同类型的超平面来满足符合训练集数据的分布模式,因此,支持向量机是机器学习领域的一个重要的突破和进程。在了解支持向量机之前,统计理论的基础知识必不可少,因此统计理论的基本概念和知识如下所述。3.1支持向量机基本理论3.1.1支持向量线性分类支持向量机的线性分类问题等价于一个二分类问题,x表示数据点,x是n维向量,中的T为向量转置,y来表示类别,同时也表示标签,y的值为1或者-1,这两个值分别代表两个不同的种类。线性分类器的学习目标是找到被分类到多维数据空间的超平面,其方程可以表示为:

(3.1)

图3.1线性分类从上面的图片可以看出,红线将红点和蓝点分开,红线是上面提到的超级蓝线,换言之,超平面将所有的数据点分为两类,分别用不同颜色表示,即红色与蓝色,超平面其中一测的数据点为y=-1,而另一测的数据点为y=1,则分类函数可以写为:(3.2)如果f(x)=0,那么数据点x刚好在超平面上。对所有满足f(x)<0的数据点,其对应的y等于-1,而f(x)>0则对应的数据点y=1。图3.2分类函数将-1与+1分为两类有时,或大多数情况下,数据不是线性可分的。此时,根本不存在满足这些条件的超平面。当SVM被分类时,数据点x被代入f(x),并且如果获得的结果小于0,则分配类-1,并且如果它大于0,则分配类1。如果f(x)=0,那么哪个类别不是。函数间隔定义为:(3.3)上式,x是特征,y是结果标签(-1和+1),i表示第i个样本,定义最小函数间隔如下式:(3.4)将向量w进行约束,使其规范化。引出几何间隔的定义,该参数表示数据点到超平面的欧氏距离。将w和b归一化,使用w/||w||和b/||w||分别替换原来的w和b,那么间隔就可以写成(3.5)式(3.5)就被定义为几何间隔,它是点到直线的距离公式。其中是w的范数。图3.3和到达H的距离即为集合距离几何间隔与样本的误分次数满足如下不等式:误分次数(3.6)这里,R是所有样本中向量的最大值。这种错误分类是由于分类器的分类误差所导致的。如式(3.6)所示,误分次数的上限与几何间隔成反比。几何间隔越大,误分次数越少,因此训练阶段的目标是最大限度地扩大几何间隔。3.1.2分类函数的参数确定通过式(3.5)和(3.6)可知,当几何距离越大,误分次数的上限越小,分类越精确,而几何距离越大意味着去的最小值,所以只需要找出最小的即可,这也是一个优化问题。但实际上对于这个目标,常常使用另一个完全等价的目标函数来代替,那就是在约束条件内取得最小值即为支持向量机所寻求的最优化目标。约束条件可分为等式约束与不等式约束,在有约束条件的最优化求解过程中,得到的最优解一定满足约束条件等式或不等式。这表明样本点必须在超平面H1或H2的某一侧(或者至少在H1和H2上),而不能存在于两者中间。在这里将固定为1,这表明在所有的样本点中,最小间隔为1。同时也说明了其他点间隔都大于1,根据间隔的定义,满足这些条件就相当于让下面的式子总是成立:(3.7)因此,该问题等价于如下最优化问题,即不等式约束的最小化问题:(3.8)很显然确定了w(也就求出了b),那么中间的直线H就是已知的,那么和也就明确了。通过拉格朗日数乘法的解,w可以表示为样本的某种组合:(3.9)其中被称为拉格朗日乘子,是样本点,是标签(-1和+1),上式也可以通过求和符号被写为:(3.10)则g(x)表达式可以被写为:(3.11)(3.12)这里,将求解w的问题转化为求解。3.2核函数3.2.1常用核函数核函数[28,29]用小空间的核函数代替大空间中的内积运算,它在非线性映射能力中起着决定性的作用。矢量支持回归模型并解决了“维度灾难”的问题。为了建立一个具有良好预测效果的回归模型,我们必须选择合适的核函数。核函数的选择也是支持向量中搜索的热点,但它不存在有效选择细胞核功能的原理或方法。通常,为了为SVM模型选择合适的核函数,可以根据专家的先验知识选择,或者可以逐个使用实验方法。就模型内核函数的选择而言,现在有四种核函数可供使用:线性核函数(3.13)多项式核函数(3.14)多层感知机核函数(3.15)径向基核函数(3.16)这些核函数大致分为大域核函数和局部核函数,大域核函数通化能力强,但是学习能力弱。线性和多项式核函数属于此类。散射基函数(RBF)和多层感测器核函数属于此类。这四种类型的内核函数各有优缺点,它们相互补充,因此混合内核函数在某些情况下十分重要。核函数的作用是将两个低维空间的向量经过某种变换,投影到高维空间并计算其向量的内积值。根据前文所述的线性分类器,它的形式是:(3.17)现在这是高维空间中的线性函数(在低维和高维空间中区分函数和向量,更改函数的名称并用x’替换x),可以在低维空间中使用函数代替,(3.18)f()和g(x)里的,y,b全都是一样的。也就是说,虽然给定的问题是线性不可分的,但很难将其解决为线性问题,但在求解过程中,当需要内部产品时,使用您选择的核函数。由此获得的α与你选择的核函数组合以获得分类器。3.2.2组合核函数设与是上的核函数,则下面核函数的组合为核函数:(3.19)(3.20)(3.21),其中是任意的正实数(3.22)根据核的基本性质,当核用于简单的线性组合运算时,会出现新的复合核。此外,如果内核被正确转换,也可以生成满足应用程序要求的新内核。因此,可以得到两种简单的核函数造方法[30]。修改基本核函数的核参数构造核函数每个基本核功能都有自己的参数,代表着不同的物理意义,在实际遇到的问题中,常常有不符合要求的参数,例如,在文本分类中,高斯核功能的恒定核宽度无法将其区分开来。为应对这一问题,建议对不同样品的属性特性进行调整,以增强高斯核功能:(3.23)类似的改进型高斯核函数:(3.24)上述构建核函数的方法是分析样本数据的特征,根据自己的经验增加或改变反映样本间信息的核参数,并采取适当的调整间隔,使新核函数可用于实际任务。更改参数以匹配样本的特征,以提高广义核函数的性能。然而,这只是一个微观和局部的调整,并没有改变原核功能的原始性质,如(3.23)和(3.24),虽然它可以更好地反映样本之间的信息,但它仍然属于本地核心不会增加内核函数的整体性能。利用若干基本核函数的简单组合构造核函数对于某些基本内核函数,内核函数具有闭合动作规则,因此可操作性能更高的结合内核函数来构成,可组合多项式核函数和高斯核函数来制作新的核函数。(3.25)对高斯核功能的研究表明,高斯核功能结构复杂,不利于应用其快速分类特性和低误差率。此外,由于高斯核功能有两个缺陷,它通过改进高斯核心的功能并有效地克服高斯核心功能的两个缺点,同时保持其四个原始特征,进一步提高了核心功能的性能。高斯核函数表达式:(3.26)其中高斯核带宽是唯一一个参数,传统的高斯核函数支持向量机是通过控制惩罚系数C和高斯核带宽来调整SVM的性能与分类能力。根据先前的研究,调节这两个参数是无效的,这不能改善高斯核心功能中固有的缺陷。因此,他的想法可以提供满足第一和第二条件的核函数。他试图将距离方程放在指数函数的分母中。这允许核心功能保持远离控制点的某个衰减速率。因此,内核函数最初构造为:(3.27)其中为核函数的带宽,该参数的值可以通过交叉验证法逐步迭代求取最优解而获得。以核函数为基础的定性曲线可以同时满足这两个条件,因为当样品的价值往往是无限的时,该函数的降解可能相对缓慢。将核心偏移参数和校正值分别列出,以适用偏转调整,并调整核心功能的限度。(3.28)另外,通过乘以系数G来控制核函数的幅度变化,通过调整幅值G的大小来观察核函数的复制对分类的影响。因此,式(3.28)可以进一步的被写为下式:(3.29)其中,为新核函数的带宽变量、为位移参数,而则是函数的微调变量。参数和参数可以通过交叉验证求得其最优解。当核函数远离测试点时,公式(3.29)的构造不能保持一定的衰减速度,数据测试的精度不理想。3.2.3本文的组合核函数本文用自定义的核函数进行SVM的分类识别,使用了一个线性核linear和一个多项式核polynoial的组合形式,二者权系数之和为1。参照式(3.13)和(3.14)。推导出自定义核函数为:(3.30)第四章给出使用该自定义核函数做泄漏检测与定位的仿真实验的实验精确度的效果,通过合理的讨论选取的值来调整泄漏检测的精确度。组合核函数的组合方式以及组合类别有很多种,本文使用的是式(3.30)自定义和函数。组合核函数相当于对核函数的一种改进,通过改进核函数的方式提高分类精度是本文主要研究的内容。3.3损失与惩罚因子C现在有另一个训练集,只有一个样本大于原始训练集。在与多维空间匹配(当然,使用相同的核心函数)后,还有另一个样本点,但此样本的位置是:图3.4带有噪声的分类图中阴影的点是负类的一个样本例子,这一独特的样品使线性分界线问题具有线性和不可分割性,类似的问题(只有几个不可分割的线性分界线)被描述为“近似线性分界线”问题。由于噪声的存在,该样本点的分类结果出现了误差。因此,人们只是忽略这个采样点并仍然使用原始分类器,这不会以任何方式影响效果。但这种对噪声的容错是由人类思维造成的,而且程序没有这种思维。由于原始的优化问题,我们必须考虑所有的示例点,基于此我们寻找正类和负类之间的最大几何距离。几何区间本身表示非负的距离,如上所述。嘈杂的情况使整个问题无法解决。但解决方案也非常明显,就是要遵循人类的思想,允许某些点对不符合原始要求的距离平面进行分类。最接近分类表面的点采样函数的间隔也大于1.如果需要输入容错,设置松弛变量在阈值范围之内,即允许(3.31)因为松弛变量是非负的,所以最终结果是所需的间隔可能会小于1。然而,如果某些点似乎小于1(也被称为异常值),这意味着你已经具体说明了这些点的确切分类,这对分类来说是一种损失。然而,具体说明这些点的好处是,分类图不必沿着这些点的方向移动。可以得出更大的几何距离(在一个较低的空间中,分配的限度较低),显然必须平衡这些损失和利益,其好处显而易见,分类间隔越长,效率越高。由式(3.8)可以看出,为我们所寻找的目标函数,通过之前的分析,我们希望该值越小越好,因为损失与其成反比例关系,其损失定义为。其中l是样本数,若目标能够允许一定的损失存在,则需要添加惩罚因子作为损失的系数(cost为libSVM的参数中的C),原始优化问题变为以下:(3.32)3.4支持向量机的多类分类有许多不同的方法可以解决分类几个类的问题。以下是两种基本方法:一对一的多分类算法该算法确定了两种可能的N级分离器,每一类分离器只训练了两个N级培训样品,可在试验数据样品分类中建立一个N(N-1)/2子类,将这些分类器结合起来,采用“投票法”。测试样本x被输入到由m类样本和n类样本构成的两个分类器中,如果分类函数(3.33)如果x的输出结果属于m类别,则会向m类别添加一个投票;如果属于n类别,则会向n类别添加一个投票。在所有n(n-1)/2分类器对测试样本x进行分类之后,n个类中的哪一个获得最多的投票(max-wins),我们就可以决定测试样本x属于哪个类别。这种多分类算法的主要缺点是:子分类器太多,需要在测试中对这两个类进行比较,结果导致训练和测试中的分类时间较长,训练速度随类数的增加呈指数级下降;在测试分类中,由于子分类器数量多,训练速度随类数的增加呈指数级下降。当一个或两个类别的得票数相同时,不可能确定属于哪个类别,这可能导致分类错误。根据前面几节介绍的二分类算法,优化后可建立第m个分类器的分类输出函数为(3.34)通过将N类数据中每一类数据与除了自己本身之外的所有类别总和视为一次二分类实验,这样一来,通过对每一个类别进行二分类最后达成对N类数据的多分类实现。这种算法在计算复杂度上相对较高,运算速度较慢,但是分类有效,且分类精度可靠。这种多分类算法的主要缺点是:1)当构造两种类型的分类器中的每一种时,所有类型的训练样本N必须参与操作。训练样本的数量大并且训练困难。为了确定测试样品的类型。因此,当训练样本数量l和类别数量N较大时,训练和测试的分类较慢,并且对计算资源的要求仍然很高,特别是对于实时应用。2)当测试样本不属于N类和其他类别中的任何一类时,会发生分类错误。因为,根据“比较方法”,N个分类器之一的输出是最大的,并且不属于任何N个类的测试样本被错误地认为是与分类器对应的类。最大的出口。他的晋升错误是无限的。3.5本章小结本章简单介绍了SVM的基本原理与数学推导,讲述了如何确定分类函数及惩罚因子,并给出了四种核函数以及多种组合核函数供参考,同时由于SVM是二分类器,在有些场合需要的是多分类,因此介绍了多分类器。接下来的章节主要介绍基于SVM的水系统泄漏及定位的仿真环境及实验结果。

漏点定位算法分析与仿真研究4.1EPANET仿真软件EPANAT在模拟供水管网的供水模式,时间推移模式,漏损情况以及水质和管道老化程度上具有相对较高的可靠性,在EPANET中,只需输入各个节点与管道的实际参数,便能模拟出与实际相符的随时间变化的压力数据和流量数据,这些数据对支持向量机的泄漏定位判断至关重要,因此,EPANET在研究供水管网泄漏定位具有十分重要的意义。EPANET的发展目的是提高对配水系统中迁移和物质转换规律的理解。它可以实施多种不同类型的配水系统分析,开发取样程序,验证水力模型,分析余氯,评估用户影响,例如EPANET。有助于评估系统水质整体改善的各种控制策略可能包括。1.改变多水源供水系统的水源配置;2.更改提升泵和注入/排出池水的时间表;3.水处理的的方案与措施;4.保持管道的清洁并方便更换。在Windows环境中,EPANET可以显示管道内压力与流量的输入数据,提供水力、水质模拟及计算结果的功能。结果以管线网络图、数据表、时间序列的形式精确的给出相关模拟数据。4.2对EPANET的仿真应用及数据提取通过实际测量的数据,比如说水库、水泵、节点、管道、阀门、水池,可以在EPANET中绘制出模拟的供水管网的仿真图。各个管段以及节点的参数随着时间的变化而变化,可以自行调整时间与水分配的时间比例,还可以控制水泵的射程来提供供水量,在每个节点处可以是用户,也可能是泄漏,这取决于用户在节点处是否设置扩散器系数。对于数据的提取,可以获得某一时刻的任意节点的数据。不仅如此,还可以获得任意时间某一节点的数据。除此之外,还可以观测到想得到的数据关于时间的波形图,这有助于支持向量机对数据的依赖。4.3扩散器扩散器与管道中的节点相连接,通过喷嘴以及其他形式将流量排出。经过扩散器的液体与气体的流量与压力之间的关系如下:(4.1)式中q为流量,p为压强,C为流量系数,γ为压强指数。对于喷嘴,γ采用0.5。厂家常常提供了流量系数的数值。放大器用于模拟喷嘴系统和灌溉网络的水流,也可以模拟连接已连接节点的管道渗漏,或计算连接节点的火灾流量(在确定的最低残留压力下可得)。对于压力目标等效的水,将使用非常高的通量系数(例如,预计最高流率为100次),并将改变连接点的得分。EPANET将放大器作为连接点的一个属性,而不是作为管道网络的一个单独组成部分。通常在模拟泄漏时,往往需要调整扩散器系数的值。4.4仿真实验4.4.1强泄漏分析该仿真实验结合EPANET和MATLAB共同实现,通过EPANET获取数据,并通过MATLAB程序实现SVM分类别判断是否残生泄漏以及泄漏的节点位置。先对于强泄漏情况进行分析,在第二章提到,泄漏流量阈值设为10GPM,在泄漏节点3处的压力值为118.55pa。由式(4.1)可计算出阈值扩散器系数C为0.9184,本文在强泄漏情况下设置扩散器系数为3(大于0.9184),用EPANET搭建下图管网:图4.1仿真管网图中菱形节点3是仿真模拟的泄漏节点,首先制造训练集。分别采集泄漏前与泄漏后的10个节点的压力数据作为训练集,其中每组数据的压力数据随着时间的变化而变化。这样就得到20组训练数据作为训练集。紧接着,继续选取泄漏前与泄漏后的8个节点的压力数据作为测试集(测试集数据考虑误差),这样就拥有了16组测试集数据。分别给出它们的标签:未泄漏的标签为1,泄漏的标签为0。接下来利用MATLAB编写程序通过SVM实现二分类,即泄漏与未泄漏两种情况,实验结果如下:图4.2polynomial核函数分类结果图4.2可以看到,对于强泄漏而言,利用SVM进行分类识别的有效性是较高的,正确率达到了100%,不过这也取决于所采用的核函数的类别,这里采用的是多项式核函数(polynomial,式(3.14))。然而其他核函数的分类结果却不像多项式核函数那样拥有完美的结果。图4.3linear核函数分类结果从图4.3中明显看到linear核函数的分类效果远不如polynomial核函数的性能,其正确率仅仅只有62.5%。这在实际应用中是完全缺乏可信度的。图4.4quadratic核函数的分类结果从图4.4可以看出quadratic核函数的分类结果,相比linear核函数已经改善了很多,可信度大大提高,正确率达到了81.25%。可以大致判断是否产生泄漏。不过还需要有待改善。图4.5mlp核函数分类结果从图4.5中可以看出,mlp核函数的分类效果不是很理想。几乎不能分辨出任何泄漏。综上,可以发现强泄漏情况下mlp和linear核函数不适合判断供水管网是否存在泄漏的应用当中。不过发现polynomial核函数的分类效果最佳,因此,在弱泄漏的分析中,优先考虑polynomial核函数。这里没有分析组合核函数的性能,是因为polynomial核函数的分类效果已经接近理想。接下来讨论的弱泄漏情况需要考虑组合核函数的效果。4.4.2弱泄漏分析相比强泄漏来说,若泄漏拥有更小的扩散器系数。在仿真实验中,设扩散器系数为0.7(小于0.9184)。仍然从EPANET中获取泄漏与未泄漏的压力数据各10组并组成训练集,然后再获取泄漏与未泄漏的压力数据各8组作为测试集(测试集数据考虑误差)。然后利用MATLAB实现SVM分类并观测实验结果。图4.6polynomial核函数分类结果图4.6可以发现,polynomial核函数对若泄漏情况下的分类效果比强泄漏的分类效果要差一些,正确率仅有81.25%,具有相对来说较好的可信度,不过实际应用中,需要更加完善算法并进行优化,提高真确率进而提高可信度。图4.7linear核函数的分类结果图4.7表明了linear核函数对若泄漏的分类效果正确率很低,仅为56.25%,没有可信度,相比polynomial核函数相差甚多。图4.8quadratic核函数分类结果图4.8表明quadratic核函数的分类效果依然不是很好,正确率为62.5%,不予采纳。图4.9mlp核函数分类结果图4.9显示了mlp核函数的分类效果。正确率50%,分类效果很差,远不如polynomial核函数的效果。综上,弱信号泄漏检测时,polynomial核函数的分类效果优越性最明显,但是正确率也不是非常接近100%。这不难理解,因为处于弱泄漏的情况下,压力大小变化的不是很明显,因此受到分类误差的影响分类效果有所下降,这就需要更进一步的完善SVM的算法。为此,采用本文的组合核函数可以提高分类的准确率,甚至可以达到100%。图4.10组合核函数不同参数值图4.10可以看出,通过调整参数la的值,可以得到相应的分类正确率,也就是说即便是弱泄漏情况,调整参数也可以达到100%的分类正确率。从以上分析得出,强泄漏的情况下分类效果更加明显,而弱泄漏的情况下分类的正确率有所下降。通过分析也发现polynomial核函数对供水管网泄漏的判断更有优势,尽管polynomial核函数优势明显,但正确率依然不够好,但是使用组合核函数可以提升分类的可靠性,精确度可以达到100%,这对于在供水管网的弱泄漏判别方面有着很大的提升。4.5泄漏定位在EPANET中设置了3号节点为泄漏点,并给定相应的扩散器系数。但是,在收集训练集数据的时候,将选取几点可能的泄漏点并且分别依次给定扩散器系数,把每一个节点泄漏时所有节点的压力数据都记录下来,这样得到一个数据量庞大的训练集,其中包含每一个选取节点泄漏时所有节点的压力数据。然后选取3号节点为泄漏点,然后再次采集所有节点的的压力数据作为测试集。由于SVM机器学习是二分类的分类器。而要做到泄漏定位必须定位到节点上,由于选取可能泄漏的节点个数远大于2,所以要采用多分类的方法去定位泄漏的节点。选取好训练集和测试集之后,通过MATLAB实现SVM多分类,将泄漏节点标注出来,实验结果如下:(a)11号节点分类结果(b)13号节点分类结果(c)22号节点分类结果(d)31号节点分类结果(e)3号节点分类结果图4.10泄漏节点定位结从图4.10可以看出,利用SVM多分类方式准确定位出了3号节点发生了泄漏。注意对22号节点压力数据进行分类的时候产生了误判,正确率为11%,最后使用最优选取算法,将每一号节点分类正确的样本点设为1,分类错误的样本点设为0,构成了5个向量,每个向量9个元素,分别取5个向量的范数,范数最大的的向量组所对应的节点号即为泄漏点标号。该实验验证了利用SVM进行泄漏节点定位的有效性。4.6本章小结本章主要讲述了基于EPANET和MATLAB的仿真实验步骤及其结果分析。利用SVM方法先判断泄漏是否发生,并讨论了不同程度泄漏对实验结果的影响。接下来又考虑了使用不同种核函数对实验结果的影响。发现使用polynomial核函数的性能要更好一些,对于强泄漏判断的正确率比较理想。对于弱泄漏正确率也达到了81.25%,大致上可信度可以接受。造成这种差别的原因是由于弱泄漏与未泄漏压力值差距不大,导致SVM的误判增多。不过使用组合核函数可以改善弱泄漏的判别正确率偏低的问题。最后又讲述了对泄漏节点的定位实验步骤以及实验结果分析,发现基于SVM的供水管网节点泄漏定位是有效的,能准确地定位出模拟的泄漏点。

第五章总结与展望支持向量机的研究从上个世纪90年代开始,发展到现在已经有了三十多年的研究。其研究从理论方面的逐步转向了工程应用方向,支持向量机在小样本的情况下,具有非常优秀的学习性能。而城市供水管网的故障发生是小样本事件,为了找出设备故障的发生情况,故SVM可以适用于该领域研究。本文主要研究的是将支持向量机机器学习方法应用到供水管网泄漏判断及其定位之中,并且利用EPANET和MATLAB等工具进行了仿真实验。针对不同程度的泄漏做出详细的分析与解释,并对核函数以及组合核函数的性能进行分析。最后选用分类效果最佳的核函数应用于供水管网泄漏检测与定位中。通过以上实验结果可以看出,将泄漏程度分成强泄漏和弱泄漏,然后进一步的检测,强泄漏时采用polynomial核函数进行分类,精确度很理想;在弱泄漏的情况下,可以通过调整组合核函数的参数值来提高分类的精确度,最后利用SVM的多分类算法进行泄漏节点定位。遗憾的是,对实验结果误差的改善以及数据处理方面的能力有所欠缺。并且算法的准确度仍有不足,在日后的研究当中将重点关注算法的改进与优化。可加入遗传算法或粒子群算法优化支持向量机,以及在数据采集方面,采用高效精准的数据作为训练集,这样也可以提高SVM的分类误差以及运算速度。从而使机器学习在供水管网泄漏检测定位的应用中实用性更强。

参考文献周东华,纪洪泉,何萧.高速列车信息控制系统[J].自动化学报,2018,44:1-12.MEHRARK,PESCHON,J.INNOVATIONSAPPROACHTOFAULTDETECTIONANDDIAGNOSISINDYNAMICSYSTEMS[J].AUTOMATICA,1971,Vol7(5):637-&.周东华,叶银忠.现代故障诊断与容错控制[M].北京:清华大学出版社,2000.HuilingC,BoY,GangW,SujingW,JieLiu,Dayou.SupportVectorMachineBasedDiagnosticSystemforBreastCancerUsingSwarmIntelligence[J].Jouralofmachinesystem,2012,36:2505-2519.LIXiaodong,ZENGGuangming.FaultDiagnosisofWWTPBasedonImprovedSupportVectorMachines[J].JournalofHunanUniversityNatureSciences,2007,12:68-71.邓乃扬,田英杰.数据挖掘中的新方法—支持向量机[M].北京:科学出版社,2004,10:30-31.杨世凤,高相铭,胡瑜.给水管网实时故障诊断的支持向量机模型[J].震动、测量与诊断,2011,31:11-14.韩阳,王威.给水管网实时故障诊断的支持向量机模型[J].计算机技术,2007,33:109-112.Linannan,Qiezhihong.PSO-SVMmodelforpipeburstingdiagnosisofwatersupplynetwork[J].SystemEngineeringTheoryandPractice,2012,33:2104-2110.卿宇博,莫学芳,吴上海.故障诊断技术综述及其发展趋势[R].军事物流,2012,11:122-124.张曦,闫威武,刘振亚,邵惠鹤.基于核主元分析和邻近支持向量机的汽轮机凝气器过程监控和故障诊断[J].中国电机工程学报,2007,14:56-61.袁胜发,褚福磊.支持向量机及其在机械故障诊断中的应用[J].振动与冲击,2007,11:29-35+58+181.CHENyanlong,ZHANGpeilin.BearingFaultDiagnosisBasedOnDCTandGA-SVM[J].Computerengineering,2012,38:247-250.LianJunqiang,JiaoZiping,RenTing.ResearchonFaultDiagnosisofServoSystemofNavalGunBasedonSVM-ANNHybridModel[J].ShipElectronicEngineering,2008,9:77-80.胡清,王荣杰,詹宜巨.基于支持向量机的电力电子电路故障诊断技术[J].中国电机工程学报,2008,12:107-111.郑蕊蕊,赵继印,赵婷婷,李敏.基于遗传支持向量机和灰色人工免疫算法的电力变压器故障诊断[J].中国电机工程学报,2011,07:56-63.V.Vapnik.ThenatureofstatisticallearningTheory[M].NY:Spring-Verlag,1995.CortesC,VapnikV.Support-vectornetworks[J].MachineLearning,1995,20(3):27-297.AmericanWaterWorksAssociation.WaterAuditsandLeakDetection[J].ManualofWaterSupplyPracticesM36,AmericanWaterWorksAssociationDenver,CO,1999.UKWaterIndustryResearch,ManualofDMAPractice,UKWaterIndustryResearchLimited,LondonU.K1999.Hunaidi,O,Chu,W,Wang,A,andGuan,W.DetectingleaksinPlasticWaterDistributionPipes[J].2000.徐新旋.相关仪的运用[J].地下管线管理[M].1998,3:37-40.雷林源.城市地下管线探测与泄漏[M].北京:冶金工业出版社,2003.王继明,杨昌彬.浅淡漏水听音原理及在实验中的应用[J].地下管线管理,2002,3:38-39.李立光,李文建.相关检漏仪的原理及应用[J].地下管线管理,1998,3:37-40.Thisarticlehasbeenacceptedforpublicationinafutureissueofthisjournal,buthasnotbeenfullyedited.Contentmaychangepriortofinalpublication.Citationinformation:DOI10.1109/TIE.2017.2764861,IEEETransactionsonIndustrialElectronics.CortesC,VapnikV.Support-vectornetworks[J].MachineLearning,1995,20(3):27-297.郭丽娟,孙世宇,段修生.支持向量机及核函数研究[J].科学技术与工程,2008,8(2):487-489.李盼池,许少华.支持向量机在模式识别中的核函数特性分析[J].计算机工程与设计,2005,26(2):302-306.郑艳秋,江涛.混合核函数SVM在融资风险评估中的应用[J].统计与决策期刊,2018,5:74-77.

附录%泄漏检测clc;clear;X=xlsread('训练集.xlsx','B1:Z20');label=xlsread('01.xlsx','A1:A20');T=xlsread('测试集.xlsx','A1:Y16');traindata=X(1:20,:);testdata=T(1:16,:)%1type1=ones(10,1);type2=zeros(10,1);groups1=[type1;type2];test_label1=label(3:18,1);svmModel1=svmtrain(traindata,groups1,'kernel_function','polynomial');predict1=svmclassify(svmModel1,testdata);figureplot(1:length(test_label1),test_label1,'r-*')holdonplot(1:length(test_label1),predict1,'b:o')gridonlegend('真实类别','预测类别')xlabel('测试集样本编号')ylabel('测试集样本类别')title(string)fprintf('使用svmclassify,正确率:%f\n',sum(predict1==test_label1)/size(test_label1,1));%泄漏定位clc;clear;X=xlsread('44.xlsx','A2:I46');label=xlsread('label.xlsx','A1:B9');T=xlsread('55.xlsx','A1:I9');traindata=X(1:45,:);testdata=T(1:9,:);%1type1=zeros(9,1);type2=ones(36,1);groups1=[type1;type2];test_label1=label(1:9,1);svmModel1=svmtrain(traindata,groups1,'kernel_function','polynomial');predict1=svmclassify(svmModel1,testdata);%2type1=ones(9,1);type2=zeros(9,1);type3=ones(27,1);groups2=[type1;type2;type3];test_label2=label(1:9,1);svmModel2=svmtrain(traindata,groups2,'kernel_function','polynomial');predict2=svmclassify(svmModel2,testdata);%3type1=ones(18,1);type2=zeros(9,1);type3=ones(18,1);groups3=[type1;type2;type3];test_label3=label(1:9,1);svmModel3=svmtrain(traindata,groups3,'kernel_function','polynomial');predict3=svmclassify(svmModel3,testdata);%4type1=ones(27,1);type2=zeros(9,1);type3=ones(9,1);groups4=[type1;type2;type3];test_label4=label(1:9,1);svmModel4=svmtrain(traindata,groups4,'kernel_function','polynomial');predict4=svmclassify(svmModel4,testdata);%5type1=ones(36,1);type2=zeros(9,1);groups5=[type1;type2];test_label5=label(1:9,1);svmModel5=svmtrain(traindata,groups5,'kernel_function','polynomial');predict5=svmclassify(svmModel5,testdata);Y1=sqrt(dot(predict1,predict1));Y2=sqrt(dot(predict2,predict2));Y3=sqrt(dot(predict3,predict3));Y4=sqrt(dot(predict4,predict4));Y5=sqrt(dot(predict5,predict5));M=[Y1;Y2;Y3;Y4;Y5];[reselt,number]=min(M);fprintf('使用svmclassify,泄漏点标号:%d\n',number);figureplot(1:length(test_label1),test_label1,'r-*')holdonplot(1:length(test_label1),predict1,'b:o')gridonlegend('真实类别','预测类别')xlabel('测试集样本编号')ylabel('测试集样本类别')title(string)fprintf('使用svmclassify,11号节点泄漏正确率:%f\n',sum(predict1==test_label1)/size(test_label1,1));figureplot(1:length(test_label2),test_label2,'r-*')holdon

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论