《基于多模型的办公建筑电力能耗实时异常诊断研究》14000字(论文)_第1页
《基于多模型的办公建筑电力能耗实时异常诊断研究》14000字(论文)_第2页
《基于多模型的办公建筑电力能耗实时异常诊断研究》14000字(论文)_第3页
《基于多模型的办公建筑电力能耗实时异常诊断研究》14000字(论文)_第4页
《基于多模型的办公建筑电力能耗实时异常诊断研究》14000字(论文)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于多模型的办公建筑电力能耗实时异常诊断研究目录TOC\o"1-2"\h\u40641多模型方法选择及异常诊断标准建立 2252961.1基于3-sigma准则的异常诊断 290811.2基于XGBoost算法的异常诊断 3312201.3基于条件推理树的异常诊断 8222361.4基于恒定阈值的异常诊断 10132441.5基于相似日算法的异常诊断 10201622基于多模型的实时电力能耗异常诊断策略 11219923数据准备 1451823.1数据来源 14287323.2数据异常值处理 145684案例分析 15229304.1Ⅰ类线路异常诊断 15281694.1.1数据说明 15229754.1.2典型日能耗基准及其上下限 16289854.1.3在线异常诊断 17228304.2.1数据说明 1770614.2.2离线模型建立 1754324.2.3在线异常诊断实例 2058184.3.1数据说明 22297364.3.2模式识别 22282764.3.3在线异常诊断实例 23241904.4Ⅴ类线路异常诊断策略 231多模型方法选择及异常诊断标准建立1.1基于3-sigma准则的异常诊断1.1.13-sigma准则基本原理3-sigma准则又称为拉依达准则,该算法假设有一组被检测数据只含有随机误差,计算得到其标准偏差,按一定概率确定一个区间,则认为超过该区间误差为异常值(粗大误差)而不是数据随机误差,需要对该数据进一步处理。3-sigma准则适用于具有正态分布或近似正态分布的数据序列,假设正态分布中标准差为σ,平均值为μ,则该正态分布数据的对称轴x=μ。3-sigma准则对于数值分布在(μ−σ,μ+σ)中的概率为0.6826;数值分布在(μ−3-sigma准则是建立在正态分布的等精度重复测量基础上而造成奇异数据的干扰或噪声难以满足正态分布。如果一组测量数据中某个测量值的残余误差的绝对值γi>3σ,则该测量值为坏值应剔除。通常把等于±3σ的误差作为极限误差,对于正态分布的随机误差,落在±3σ以外的概率只有0.27%,它在有限次测量中发生的可能性很小,故存在假设待检测序列X,对每个独立测量值xi,计算该值的算数平均值x和数据偏差γi=xi(4-1)则认为xa1.1.2异常诊断标准3-sigma准则的异常诊断是一种无监督异常检测方法,适用于正态分布或类正态分布的独立数据集。利用3-sigma准则进行异常诊断时,利用历史数据建立异常诊断置信区间上下限。该诊断方法可以描述为异常点,由式(4-2)可得:(4-2)若绝对值大于3σ则认为该点异常;若绝对值小于3σ认为该点正常。1.2基于XGBoost算法的异常诊断1.2.1XGBoost算法的基本原理XGBoost算法(eXtremeGradientBoosting)即极端梯度提升算法,是一种基于梯度提升树的一种有监督学习算法,该模型通过组合多个简单、精确度降低的模型形成高精确度模型实现对于目标的准确预测。XGBoost算法中每颗弱学习树皆为严格二叉回归树,通过回归数据将输入进行迭代映射,实现梯度的逐渐提升。XGBoost算法损失函数采用最小化凸损耗函数(基于预测输出和目标输出之间的差异)和模型复杂性(正则化L1和L2)的组合目标函数,该组合函数具可扩展性、高精确度、拟合效果好等特点。通过不断迭代的方式,添加新的树来预测前树的残差或误差,并与前树进行组合得到预测最终结果。XGBoost算法适用于结构化特征数据、对于多维数据具有较好的处理速度和精度且算法的鲁棒性和泛化性较强。XGBoost算法的优点主要有:(1)可以有效处理稀疏、缺失数据;(2)以结构分数为标准;(3)可以使用多线程的方式提升算法速度;(4)可以通过特征的列采样防止过拟合。XGBoost算法将树结构分为叶子节点的权值向量ω和不同样本点分配到对应叶子节点的函数q两部分,其中q可以将数据映射到相应的叶子结点。决策树复杂度Ω(f)计算方法如式(4-3)所示:(4-3)其中,f为当前树的预测函数;T为叶子节点数目;γ为控制叶子数量权重的参数;λ为正则化系数。XGBoost算法复杂度越低,泛化能力越强。其中boosting(提升树)部份如式(4-4)所示(4-4)其中,L为损失函数;φ为整个树群;l为计算误差设定指标,该指标可以根据需求选择绝对误差或者平方误差;为预测值;为实际值;表示第k颗决策树。则多棵树组合树的boosting模型组合函数如式(4-5)所示。(4-5)其中,为目标函数;为第k棵决策树的预测函数;constant为常数项部分。为寻找合适的子树,XGBoost算法通过二阶泰勒展开对损失函数进行求解[69]损失函数二阶泰勒展开如式(4-6)所示。(4-6) 假设如式(4-7)所示2个变量(4-7)其中,,分别为第i个样本损失函数的一阶导和二阶导。将式(4-7)带入式(4-6)可得到新的目标函数如式(4-8)所示。同时,假设候选特征集合如式(4-13)所示。(4-8)(4-9)其中,为对应的子节点,j为该分裂节点表示的特征。在XGBoost模型使用和训练的过程中,根据式(4-8)和(4-9)可得目标函数(4-10)对目标函数最优解进行求解得到式(4-11)和式(4-12)。(4-11)(4-12)1.2.2异常诊断标准 基于XGBoost算法的异常诊断标准需要构建高精度的预测模型,其模型建立流程和诊断步骤如图4-1所示。步骤1:特征选择在XGBoost算法预测模型中,输入的样本特征与输出的目标值之间具有强相关因素,因此科学合理的选择样本特征对提升算法准确度十分重要。(1)特征分析1.时间周期性因素根据2.3.1节办公建筑人员行为分析可知,办公建筑人员活动具有时间上的周期性且影响设备的运行方式,进而对建筑用能情况产生影响。因此,在逐日能耗上办公建筑具有工作日和非工作日的能耗差异,能耗在工作日较为平稳而非工作日则呈现低谷状;对于工作日工况(非工作日工况)中逐时能耗跟随人员上下班呈现“几”字形,下班时间设备关闭,建筑能耗出现当日低谷,而工作时间能耗成规律变化。因此,日类型和小时对于能耗都属于重要特征。2.气候因素对于Ⅲ类线路根据分类标准与室外气候尤其是室外温度和室外湿度强相关。室外温度和湿度的变化影响设备的整体运行状态和设备运行内部参数,进而影响设备的能耗,尤其是在设备运行阶段能耗随室外温度和湿度变化相关性更加强烈。3.历史数据建筑未来的能耗水平可以从某种程度上视作当前建筑能耗水平的延续,历史同期的建筑能耗是预测建筑能耗的重要依据。在预测建筑能耗时,被预测日的建筑能耗与其前几日的建筑能耗水平有着强烈的相关性,可以以预测日前几日的建筑能耗作为预测的依据,因此建筑历史能耗时间序列是输入样本必选的特征。(2)特征构造1.时间细粒度特征构造本章对办公建筑实时能耗进行诊断,因此在日逐时能耗的基础上对时间因素进行进一步的构造,得到7个相关参数,分别为:1.“dow”:一周的第几天;2.“doy”:一年的第几天;3.“day”:一月的第几天;4.“woy”:一年的第几周;5.“month”:一年的第几月;6.“hour”:一天的第几个小时;7.“minute”:一天的第多少分钟。2.历史运行负载构造办公建筑能耗具有明显的周期性,在运行没有发生异常的情况下,实时负载对前24小时和前48小时负载具有较强的依赖性。因此构造同工况下的前24小时和前48小时运行负载特征:1.“t_m24”:前24小时的负载;2.“t_m48”:前48小时的负载。综合特征分析和特征构造两小节内容,本文选取办公建筑Ⅲ类线路的样本特征为建筑历史能耗时间序列、日逐时室外温度、日逐时室外湿度、小时、日类型、前24小时负载等属性。(3)特征选择特征选择一般有两个目的:一方面,选择出重要的特征可以缓解维数灾难问题;二、去除不相关特征可以降低学习任务的难度,提升准确度和计算速度。本文主要目的为第二个,合适的输入特征子集选取对提升算法预测精度有重要意义。本文采用协方差法对特征进行选取。本文选择可解释总变异95%的子集作为输入子集。利用相关性进行特征选择步骤如下:(1)为每个变量引入连续时刻的测量值构成增广型数据矩阵Xa(2)针对第i(i=1,2,…,m)个测量变量xi,计算Xi与Xa中各个变量xj(3)对Ci,j∈R(4)对所得到m个变量子集选取特征变量,构建最优特征子集。步骤2:参数调节算法自身参数的调整决定了模型预测的运行效率和准确度并且对于不同的数据集模型参数具有一定的特异性,因此参数调节是模型构建的重要一环。目前,常见的模型参数选取方法有枚举法、网格搜索法、遗传算法、粒子群算法[70],其优缺点如表4-1所示。本文从效率和效果的角度出发选用网格搜索法进行参数寻优,有效避免了遗传算法和粒子群网络的局部最优陷阱。XGBoost算法参数众多,本文针对树模型(booster)参数中eta、min_child_weight、max_depth等重要参数和学习任务参数中objective、seed等参数,利用网格搜索和交叉验证进行参数寻优和结果验证。表4-1参数选取方法优缺点对比参数选取方法优点缺点枚举法对于参数不敏感的样本集,能够简单快速寻得最优参数对于参数敏感的样本集,寻优耗时长且不易寻得最优参数网格搜素法一定能获得全局最优解需要足够大的搜索区间与小的搜索步距,遍历所有网格耗费时间长遗传算法不必遍历区间内所有的参数组即可找到全局最优解,寻优时间短寻优结果不稳定,易得到局部最优解粒子群算法不必遍历区间内所有的参数组即可找到全局最优解;寻优效果略优于遗传算法寻优时间较遗传算法时间长;易得到局部最优解学习模型的泛化能力是指利用该方法建立学习建立的模型对未知数据的预测能力,其表示方法如图4-2所示,可以通过比较学习算法的经验风险与期望风险之间偏差和收敛速度获得。以上参数选择都是针对训练集数据进行,为更好提升模型的代表性和适用性,在参数选择的同时考虑式(4-13)通过学习曲线进一步对参数进行优化。其中,为学习得到的模型。(4-13)步骤3:预测结果评价XGBoost算法的性能评价方法一般有决定系数(R2)、平均绝对误差(MAE)、平均相对误差(MAPE)和均方根误差(RMSE)。(1)决定系数(4-14)(2)平均绝对误差(4-15)观测值与真实值的误差绝对值的平均值。(3)平均相对误差(4-16)(4)均方根误差均方根误差即标准误差,能够综合衡量预测值与实测值之间的偏差。误差越大,该值越大。(4-17)其中,上式中n为预测总数,yi为待预测数据的实测值,yi表示利用XGBoost算法得到的回归预测值,为待预测数据的均值。对于以上性能指标越大拟合优度越好,而对于MAE、MAPE和RMSE越小模型拟合越优。步骤4:异常诊断标准在预测模型中存在训练误差与测试误差两类误差,误差有多种评价方式,只有将训练后的模型测试误差控制在一定范围内,模型才被认为有效。在利用测试集进行测试的过程中会产生新的误差,在理想状态下测试集产生的误差应该与既有的测试误差持平。假如预测误差出现突然剧烈增大的情况,一方面,模型本身的可能存在异常;另一方面,则可以认为被预测目标值的实际值存在问题。在利用已完成训练的XGBoost算法进行能耗预测时,同样存在着上述误差,记测试集的平均相对误差为MAPE,测试集相对误差取绝对值后最大值为。预测被预测日能耗时,记该日第n时的相对误差绝对值为,其判断标准如表4-2所示。表4-2异常判定标准正常(0)异常等级(1)异常等级(2)σ(n)≤MAPEMAPE≤σ(n)≤σ(max)σ(max)≤σ(n)1.3基于条件推理树的异常诊断1.3.1条件推理树基本原理决策树算法作为一种常见的数据挖掘算法,通过对实例自上而下的递归实现对其的分类和预测。决策树算法呈现树型结构,利用类似逻辑思考的方式根据数据属性逐层进行选择。每一个非叶子节点根据数据的属性选择度量,利用贪心(非回溯)方法选择最佳属性进一步分裂,不断迭代直至叶子节点生成。决策树算法的构建思路是不断选择分类结果中最“纯”的属性作为当前决策依据,使当前子数据集的相似度最高并与其他子数据集差异度较大,理想最终目标每个子数据集都是“纯”的,即该子数据集中的所有数据都属于相同类。与其他常见的黑箱数据挖掘算法如ANN算法、SVM算法等相比,决策树算法通过属性选择度量的分裂递归方法使其具备模仿性,进而实现了其挖掘过程的可解释性。因此,决策树算法往往可以帮助使用者更好的对数据挖掘过程进行理解并对规则进行归纳和模仿。常见的决策树算法有ID3算法、C4.5算法、CHAID算法以及CART算法等,其中C4.5算法和CART算法最为常见。以上算法都采用贪心方法选择属性选择度量极值作为分裂依据,实现自上而下的分裂。最先出现的ID3算法使用信息增益作为属性选择度量和分裂的划分依据[71]。C4.5算法作为ID3算法的扩展,使用增益率进行属性评价,并解决了ID3算法只适用离散型数据的缺点,可以同时处理离散型数据和连续型数据[72]。CART算法是一种严格的二叉树算法,使用基尼系数最小作为节点属性划分依据[73]。同时,CART算法也可以作为基学习器参与构建树集成算法。CHAID算法的分裂标准为卡方自动交互检测法,可以实现多叉树结构,但是其输入变量只能为离散型变量,而连续型变量需要进行离散化后才可输入[74]。以上四种算法它们都对所有可能的分裂执行详尽搜索,以最大化节点杂质的信息度量,选择显示最佳分裂的变量这些算法有三个基本的问题:(1)数据使用类型受限;(2)结果依赖主观调参和剪枝,易过拟合;(3)倾向于选择更具有分割可能的变量[134]。Hothorn等人[75]于2006年针对以上问题提出CIT算法,该算法是一种采用显著性作为属性选择度量的严格二叉树算法。一方面,CIT算法通过提前定义显著性p进行参数选择和调节有效减少了过拟合,且保证了属性选择的无偏性;另一方面,CIT算法同时适用于离散型和连续性数据回归的情景。CIT算法利用树结构递归分区给出m个协变量X状态下响应变量Y的条件分布。响应变量Y为样本空间y的一元或多元响应变量。CIT算法假定协变量函数f对给定X和Y的条件分布D(YX)有重要影响如式(4-18),且通过训练集样本Ln(即n个独立且分布均匀的观测值的随机样本)可以得到X和Y的回归拟合模型。训练集样本L(4-18)(4-19)可以使用非负整数值案例权重W=(w1,(1)对于案例权重W,检验m个协变量中的任何一个与响应之间的独立性的全局零假设。如果无法拒绝该假设,则停止。否则选择与Y关联最强的第j∗个协变量X(2)选择一个集合A∗⊂Xj∗,以便将Xj∗分为两个不相交的集合A∗和Xj∗∖A∗。案例权重wleft和wrig(3)利用修改后的案例权重wleft和w其中,步骤1是实现无偏差特征选择的关键。步骤1假设全局独立性假设是根据m个部分假设和全局零假设组成的。为保证分裂的无偏差性CIT树利用式(4-20)衡量Y与每个协变量Xj的线性关系(4-20)其中,h为影响函数,基于置换对称方式与响应相关;gi为协变量xi的非随机变换。在零假设条件下,通过固定协变量并调节所有可能的相应变量的组合方式解决下的分布未知的问题。(4-21)(4-22)其中,w为权重和,为克罗内克积。通过式(4-21)和式(4-22)对给定相应的所有组合的期望和方差进行计算,进而根据每个部分假设的测试结果进行无偏差的变量选择和特征提取。1.3.2异常诊断标准 根据条件推理树的结果验证,可以据此确定线路用能模式,在该模式内可以利用3-sigma准则对能耗范围进行异常识别。1.4基于恒定阈值的异常诊断对于具有无趋势性,近似平稳特点得数据可配置简单的恒定阈值。时刻T配置的恒定阈值是对历史数据的恒定,在T+1时刻,这个阈值会被新加入的数据更新。超过预先设定的恒定阈值则数据存在异常。1.5基于相似日算法的异常诊断本节基于相似日算法的异常诊断原理及诊断标准与第三章相似日算法一致。2基于多模型的实时电力能耗异常诊断策略2.1基于多模型的实时电力能耗异常诊断流程本文基于历史数据特征的能耗分类提出了一种多模型的实时电力能耗异常诊断方法,如图4-3所示和图4-4所示。该方法可有效结合线路历史数据特征,根据特征特点自适应的选择诊断模型,实现多种类型线路异常检测。与单一模型能耗异常诊断方法相比有两个主要优点:一方面,拓展了能耗异常诊断的应用范围;另一方面,充分挖掘办公建筑实际运行能耗特征提升了数据实时诊断的准确性。如图4-3所示,多模型实时电力能耗诊断可分为离线和在线2部份,图4-3左侧为离线诊断基准分类生成部份,右侧为在线诊断部份。离线能耗诊断基准分类生成部份流程为:首先,对历史数据进行预处理,分类对数据的异常值和缺失值进行处理的无错数据;其次,根据2.4节办公建筑电力能耗线路分类的原则对能耗线路进行分类;再次,根据图4-4所示,针对不同类型的线路则特征选择对应的诊断模型;最后,计算被诊断日的逐时能耗基准或建立能耗诊断规则,具体方法将在下文进行分析。能耗在线诊断部份流程为:对实时数据所处的线路类型进行确定,与离线建立被诊断日的逐时能耗基准或建立能耗诊断规则进行比较,根据判断结果预警线路能耗异常。2.2Ⅰ类线路异常诊断策略Ⅰ类线路特征如图4-4所示,同工况下全年逐日能耗为平稳序列且能耗序列离散度较小,该序列逐日能耗具有无趋势无周期性的特征,根据办公建筑电力能耗特征可知,该类线路设备运行策略稳定逐日电力能耗不随时间变化,同工况下每日设备运行状态一致。因此,采用3-Sigma方法对逐时能耗进行诊断。其逐时异常诊断流程为:(1)基于同工况历史数据建立逐时电力能耗集;(2)计算逐时电力能耗的平均值和标准差;(3)在线数据值与计算历史平均值的偏差进行比较,若超过3倍,则为异常值,反之,则为正常数据;(4)对异常数据进行报警,并返回步骤(3)。2.3Ⅱ类线路异常诊断策略Ⅱ类线路特征如图4-4所示,同工况下全年逐日能耗不平稳,但运行工况逐时能耗稳定。该序列逐日能耗具有无趋势无周期性的特征,但运行逐时能耗稳定,线路设备组合可能为单定频(组合定频设备)设备运行策略随季度或周期性改变。因此,在同运行策略中采用3-Sigma方法进行诊断,诊断步骤如Ⅰ类线路所示。2.4Ⅲ类线路异常诊断策略Ⅲ类线路特征如图4-4所示,在运行工况下与室外气候尤其是温度和湿度具有强相关性,且设备运行具有周期性,办公建筑内典型的Ⅲ类线路有:冷水机组能耗线路、冷泵线路或冷泵组合线路等。Ⅲ类线路典型设备运行能耗变化分布如图4-5所示,根据能耗线路分类的原则,其工作日工况下逐时运行能耗与室外温、湿度和建筑内人员作息规律显著相关。可以将该类线路逐时运行能耗依据其变化规律进行进一步的划分,得到3个典型阶段:(1)持续待机阶段:办公建筑内没有或很少有人员活动,设备处于关闭状态,此时线路能耗为线路待机能耗,一般为恒值常数。(2)开机阶段:根据办公建筑内人员上班时间和室外温、湿度情况,确定设备开启状态和参数设置,能耗随室外温湿度和时间进行变化。开机阶段具有两方面特征:一方面,由于现阶段实际运行的限制,大部分设备开启时间主要由运维人员确定易受主观因素影响具有不确定性。另一方面,与关机操作不同开机阶段容易出现能耗震荡波动,难以直接预测。(3)持续运行阶段:办公建筑内人员活动稳定,设备根据室外温度、湿度依据控制策略进行调整,当室外温度达到关闭阈值或达到运维人员设置设备关闭时间时设备关闭,持续运行阶段结束。因此,本节提出一种多模式的Ⅲ类线路能耗异常诊断策略,如图4-6所示。该策略有效结合线路逐时能耗分布特征,对线路运行模式进行划分,结合XGboost算法、相似日算法和阈值法三种方法,建立能耗基准并根据给定标准进行实时能耗异常诊断。如图4-6所示,该诊断策略分为离线模型生成和在线异常诊断两部分。左侧为离线模型生成模块,右侧为在线异常诊断模块。离线模型利用多模式方法生成诊断日24h逐时能耗异常诊断基准,其流程如下:首先,基于XGBoost的多维数据的时间预测为基础对被诊断日进行逐时能耗预测获得被诊断日24h线路能耗数据;其次,结合办公建筑人员上下班时间对该线路进行典型阶段划分,获得持续待机阶段、开机阶段、持续运行阶段3个典型阶段;再次,结合相似日方法以开机阶段总体能耗为目标寻找该时间段内最相似日;最后,根据历史数据确定持续待机能耗阈值,形成被诊断日离线模型。在线异常诊断部份其算法流程为:1)将逐时在线数据根据时刻信息进行典型阶段划分;2)若为持续待机阶段。将在线数据与固定阈值进行比较,超过阈值进行异常报警;3)若为持续运行阶段。采用XGBoost多维时间序列预测构建该阶段能耗基准,计算相对误差MAE,依据表4-2的异常判定标准对在线数据进行诊断,异常等级(1)进行异常提醒,异常等级(2)进行异常报警;4)若为开机阶段。持续累计直至开机阶段结束对该阶段总能耗值进行基于相似日算法的异常诊断;5)输出诊断结果,并返回步骤1) 2.5Ⅳ类线路异常诊断策略根据图4-4所示Ⅳ类线路具有逐日能耗非平稳、与室外天气弱相关且日逐时运行能耗平稳的特点。若该类线路已知设备运行策略则仿照Ⅱ类线路进行分析,若该类线路设备运行策略不宜确定,采用基于决策树的用能模式与分类。诊断策略如图4-7所示:(1)以日期、时间、月份作为输入变量,采用CIT树对待识别能耗线路进行模式划分,通过计算显著性差异确定各模式间的相互独立性,构建离线能耗基准;(2)对输入数据进行模式识别,确定所在模式;(3)利用3-sigma准则对能耗异常值进行识别。2.6Ⅴ类线路异常诊断策略根据图4-4所示Ⅴ类线路具有逐日能耗非平稳、与室外天气弱相关且日逐时运行能耗非平稳的特点,如3.2节所述,采用相似日算法进行能耗异常诊断。由于需要对实时能耗进行诊断,因此,如图4-8所示,需要采用分段相似算法逐段寻优,最终得到最优实时能耗基准。3数据准备3.1数据来源本章电力能耗数据和天气能耗数据来源与分类与上节相同。3.2数据异常值处理逐时能耗与逐日能耗相比具有数量大、变化复杂的特点,且本文采用建筑实际能耗数据,数据质量参差不齐。为提高历史数据的准确性和模型的精度,因此对能耗进行进一步的预处理,数据处理流程如下:1)利用过滤的手段对电力能耗平台数据库中的缺失值、异常值和死值进行初步处理。由于本文使用的两办公建筑电力平台监测数据较为稳定,历史数据库中不存在缺失值和死值。因此,本文不考虑以上2类数据。2)对于运行中的异常一般有两种。一种异常值产生于系统的开机过程中,这种非稳态过程回导致能耗采集系统数据剧烈波动,因此对这些异常数据进行认为剔除。3)对于另一种数据为持续运行或者持续待机中的异常值。该类异常值对于单变量数据采用上文所示的箱线图法进行异常值发现。异常值处理结果如图4-9和图4-10所示。4)对于多变量数据采用孤立森林(iForest)剔除非平稳运行数据和噪声数据。iForest算法适用于连续数据的异常检测,可以实现高维的数据输入。它将异常定义为“容易被孤立的离群点”,也可以理解为分布稀疏且离密度高的群体较远的点。iForest算法与传统基于密度或者距离的异常检测算法不同,它们的阈值全部是全局的阈值,所以在异常点局部密度较大时会失效,而iTree在每次对二叉树进行划分时,都是在局部的最大值和最小值之间随机选值,也就是说每次划分的取值区间是根据局部自适应的,这让iForest算法的鲁棒性得到了提升。因此,采用iForest算法对多变量数据进行异常检测。以冷水机组供冷季逐时运行数据为例进项说明,逐时能耗异常检测结果如图4-11和图4-12所示。对基于iForest算法的异常点进行整理可以得到表4-3过iForest算法可以对持续运行和持续待机状态下的异常值进行有效的检测。表4-3iForest异常点展示NumDateyearmonthdaydoydowHourTemThrPower122019/5/6201956126019:00:009.262191.92132019/5/6201956126020:00:008.377240.18142019/5/6201956126021:00:007.48113.37272019/5/7201957127120:00:0011.558147.61702019/5/102019510130421:00:0015.96722.9842019/5/12201951213268:00:001490106.89922019/5/122019512132616:00:0011231517942019/5/122019512132618:00:0012.922147.33952019/5/122019512132619:00:0010.838148.23962019/5/122019512132620:00:009.14416.81772019/5/20201952014007:00:0026.31323.321892019/5/202019520140019:00:0011.27439.062132019/5/23201952314336:00:0036.91525.592692019/5/272019527147019:00:0012.67030.952702019/5/28201952814816:00:0032.61513.964282019/6/11201961116218:00:0037.614724.566872019/6/30201963018166:00:0037.32076.8510082019/7/22201972220303:00:0037.24310.3510972019/7/28201972820963:00:0036.52831.5216642019/9/420199424724:00:0035.13014.6418232019/9/152019915258617:00:00138213.944案例分析4.1Ⅰ类线路异常诊断4.1.1数据说明本节以第二章中的办公建筑为例,由表2-12可知该建筑内公区照明(低区干线)属于Ⅰ类线路,选择2018年12月-2019年12月工作日逐时能耗数据作为训练集样本,对历史数据集进异常数据处理,经异常处理后该训练集一共包含5728组数据,每组数据包含2个参数,即小时变量和能耗变量。采集2020年9月14日-2020年9月18日逐时能耗数据作为测试集样本。4.1.2典型日能耗基准及其上下限公区照明(低区干线)属于Ⅰ类线路。公区照明(低区干线)工作日全年逐时能耗分布情况如图4-13所示,为更直观对该线路能耗进行定量诊断和分析取逐时能耗中位数构成典型日用能基准。通过对工作日全年逐时能耗分布情况的分析,基于3-Sigma准则构建该线路的逐时能耗上下限阈值该阈值和基准值数值如表4-4所示。通过对于基准值的构建实现了对于数据的定量诊断和分析。表4-4基于3-Sigma准则的能耗上下限阈值时刻能耗上限用能基准限能耗下限0h89.8178.8669.691h88.6777.0165.682h87.1076.086333h84.8375.636314h83.4271963.565h83.7273563.556h89.0676.5063.217h109.5597.0682.568h148.17135.72120.499h186.13169.68151.6210h216.69205.18192.1511h221.26209.53195.6812h2117203.30191.0713h216.80203.59188.7014h221.30205.89186.9515h216.63202.54182.3716h216.22203.85187.6617h219.20205.75193.6118h207.14195.41182.7719h192.80182.05171.0320h171.36158.63145.4621h153.37140.88126.4322h125.82113.3099.2823h95.7485.1374.874.1.3在线异常诊断 取2020年9月14日-2020年9月18日5个工作日的公区照明(低区干线)能耗数据,共计120组数据。使用此数据,验证所提在线异常诊断方法的有效性。其中以9月17日逐时能耗为例,该线路逐时能耗诊断结果如图4-15,在9月17日11时该线路能耗异常,异常值为185.08kWh,超过阈值下限10.6kWh。经翻看2020年9月17日建筑物业人员异常运行记录发现,B1层部份公区照明设置为手动模式,没有通过楼宇自控系统自动开启。 由于Ⅱ类线路诊断方法与Ⅰ类线路一致,因此本节不在赘述。4.2Ⅲ类线路异常诊断4.2.1数据说明本节以第二章中的办公建筑为例,由表2-12可知该冷水机组线路(供冷季)和冷泵组合(供冷季)属于Ⅲ类线路。根据其线路定义和1.3节所示,样本中应包含时间构造特征、工作日非工作日属性、室外气候参数和历史数据共4类参数,其中,根据能耗周期性特征对时间构造特征进行选择,选择参数包括:一周的第几天、一年的第几天、一月的第几天、一年的第几周、一年的第几月、一天的第几个小时,6个参数。工作日/非公日属性通过一周第几天进行判断。室外气候参数包括室外平均气温、室外最高气温、室外最低气温、室外湿度,4个参数。历史数据参数则包括前24h历史数据和前48h历史数据,2个参数。该模型建立采用的数据集自2019年5月6日开始-2020年9月13日冷机运行阶段能耗数据共计5413组数据,每组数据包含以上4类12个参数,其中利用XGBoost算法建立模型时对数据集进行随机分割:训练集0.7,测试集0.3。该线路工作日每日典型工况划分为:持续待机状态时间段为0:00-6:00和21:00-0:00;开机时间段为7:00-9:00;持续运行时间段为10:00-20:00。4.2.2离线模型建立(1)特征选择1)24h历史温度对模型建立的影响分析根据Ⅲ类线路诊断方法,需要对被预测日(0:00-23:00)能耗进行逐时预测。除添加传统历史数据外,还额外选择添加前24h历史数据和前48h历史数据,2个参数作为输入。通过添加删减前24h和前48h历史数据其预测结果如图4-16所示。根据图4-16所示,红色折线为输入参数含有前24h(t-m24)和前48h(t-m48)历史数据的XGBoost算法预测结果,橙色折线为输入参数不含有前24h(t-m24)和前48h(t-m48)历史数据的XGBoost算法预测结果。在同算法参数,其他输入也相同的情况下,含有前24小时和前48小时历史数据的预测结果从趋势上和更加贴近实际能耗折线,且红色折线MAE的值为10.23而橙色折线MAE的值为28.66,可以看出红色折线的预测效果更好。此外,红色折线通过前24h和前48h对能耗的认为运行策略进行了学习,对于冷机关闭时刻的预测更加准确。2)特征选择对模型建立的影响利用XGBoost算法中特征重要性函数对预测模型的输入特征的重要性进行排序,如图4-17所示,可以得到输入特征的最重要的前4项为:室外温度(Tem)、前24h历史数据(t-m24)、前48h历史数据(t-m48)和室外湿度(Thr)。图4-5表示所有输入的累计方差,根据结果表明选取包含总变异系数的95%的特征集,特征集特征数k设置为8。因此,选择XGBoost算法前8个特征:Tem、t_m24、t_m48、Thr、doy、hour、Tem_max、day作为构建模型的主要参数。为进一步验证特征选择的重要性,针对同XGBoost算法参数,全部12个参数输入情况和经选取的8个参数输入情况的R2进行比较,同参数条件下特征选择前后的预测结果如表4-5所示,根据结果可以看出经过选择后预测结果得到了提升准确度由0.93提升到了0.94,起到了优化算法模型的作用。表4-5同参数条件下特征选择前后的预测结果模型参数参数数量决定系数R2base_score=0.5,booster='gbtree',colsample_bylevel=1,colsample_bynode=1,colsample_bytree=1,gamma=0,importance_type='gain'120.9380.94(2)参数调节按照0.7/0.3的比例对经过数据异常处理的历史数据进行分割,获得训练集和测试集用于构建模型。通过5折交叉验证、网格搜索和学习曲线等方法对算法关键参数进行自动寻优。其中,n_estimators设定参数范围为[100,300]、min_child_weight设定参数范围为[1,5]、max_depth设定参数范围为[3-10]、subsample设定参数范围为[0.5-1]、colsample_bytree设定参数范围为[0.5-1]、reg_alpha设定参数范围为[0.01-1]、reg_lambda设定参数范围为[0.1-1]、learning_rate设定参数范围为[0.01-0.3]。以n_estimators为例参数寻优过程如图4-2所示,红色虚线为模型泛化误差曲线,黑色为实际学习曲线,寻找峰值作为最佳值,n_estimators最佳值为135。表4-6XGBoost算法最优参数参数名称最优值参数名称最优值n_estimators135colsample_bytree0.6min_child_weight3reg_alpha0.5max_depth5reg_lambda0.3subsample0.7learning_rate0.06最终,得到XGBoost算法最优参数组合如表4-6所示。将该参数组作为该离线模型XGBoost算法的参数,将获得数据集下的最优模型。下文XGBoost算法模型构建将采用该参数组。(3)XGBoost算法预测结果分析 采用上述方法构建 XGBoost算法预测模型,对逐时能耗进行训练,其模型训练效果如表4-7所示。表4-7不同条件下XGBoost算法模型训练集效果模式R-scoreRMSEMAPE原始参数92.78%49.56107.00%调参后95.08%40.93218%调参且特征选择96.23%2617.01%如表4-7所示模型训练结果的准确率随着参数和特征的选择不断优化,在经过上文调参和参数选择后准确率从92.78%提升至96.23%,同时模型的RMSE也有了明显的下降,由49.56下降至26。MAPE较大。根据定义可知,MAPE是一个相对值,根据公式影响MAPE的因素主要由两个方面:一个方面,MAPE容易受到数据实际值得影响,残差一定的情况下实际值越小,MAPE的值越大,因此当残差出现在冷水机组的持续待机时间时,实际值和预测值极易出现较大的差距导致MAPE过大。另一方面,由于为平均相对误差,易受极值影响,冷水机组开机时能耗常有剧烈波动且与人员操作相关,难以预测易产生较大的误差。单独对经过调参和特征选择的持续运行阶段训练集的MAPE进行计算,其MAPE值为7.8%。(4)持续待机状态固定阈值确定持续待机状态下能耗分布和概率密度如图4-20和图4-21所示,该线路待机状态下冷机能耗具有正态分布性。为更好获得固定阈值,利用箱线图去除持续待机时间的能耗极值,取能耗上限作为固定阈值。根据图4-20所示,本文冷水机组线路持续待机能耗固定阈值设置为4kWh。(5)开机阶段相似日能耗基准构建 采用相似日诊断时对根据气象数据网获得当日7:00-9:00时间段气象数据,根据第3章和2.4节所述相似日构建开机阶段相似日能耗基准和能耗异常阈值。4.2.3在线异常诊断实例取2020年9月14日星期一工作日的冷水机组能耗数据,使用此数据验证所提在线异常诊断方法的有效性。根据4.3.2节构建的离线模型可知,该线路XGBoost算法离线模型仅持续运行阶段的MAPE为7.8%,相对误差取绝对值后的最大值δmax为9.3%,预测误差处于可接受水平,可以进一步用于实时能耗异常诊断。得到基于XGB表4-89月14日基于XGBoost算法的异常诊断结果日期实际能耗/kWh预测能耗/kWh相对误差诊断结果2020-09-1400:00:001.722.4743.39%22020-09-1401:00:002.212.8127.18%22020-09-1402:00:002.232.386.51%02020-09-1403:00:002.342.129.60%22020-09-1404:00:002.432.492.32%02020-09-1405:00:002.282.5712.85%22020-09-1406:00:002.262.8927.98%22020-09-1407:00:00210.34235.0111.73%22020-09-1408:00:00372.8444719.23%22020-09-1409:00:00366.21443.4921.10%22020-09-1410:00:00392.97423.447.75%02020-09-1411:00:00408.51398.672.41%02020-09-1412:00:00377.83397.185.12%02020-09-1413:00:00369.26395.907.21%02020-09-1414:00:00373.56395.035.75%02020-09-1415:00:00373.47395.035.77%02020-09-1416:00:00365.35393.787.78%02020-09-1417:00:00360.79370.522.70%02020-09-1418:00:00313.1340.428.72%12020-09-1419:00:00238.49246.373.31%02020-09-1420:00:00143.99175.5321.91%22020-09-1421:00:001.858.90381.32%22020-09-1422:00:001.842.7147.40%22020-09-1423:00:001.772.4035.82%2利用2.4节Ⅲ类线路实时能耗诊断策略对其进行能耗基准重新构建。对于持续待机时间异常基准进行重构,其固定阈值为4kWh,即持续待机阶段(21:00-23:00/0:00-6:00)当逐时实际能耗大于4kWh,能耗异常;若小于4kWh,能耗正常。对于开机阶段(7:00-9:00)取5日最优相似日该时段平均值,作为能耗基准,与实际能耗比较,若相对误差大于10%则认为异常。图4-22为仅利用XGBoost算法进行诊断得结果,可以看出在开机阶段(7:00-9:00)线路误差较大,分别为24.67kWh、71.67kWh和77.28kWh,误差占比为11.73%、19.22%和21.10%,不能作为该线路实时异常诊断指标。该时段最相似5日为8月31、9月11日、8月24日、9月02日和9月03日。5日7:00-9:00平均开机总能耗为1012.89kWh,9月14日7:00-9:00开机总能耗为949.35kWh,误差百分比为6.27%,满足作为线路能耗基准的要求。因此,开机阶段采用相似日方法构建能耗基准比直接采用XGBoost算法预测构建能耗基准更加准确。综上所述,9月14日能耗基准及诊断结果应如表4-9和图4-23所示。如表4-9所示,修正后的能耗基准较仅基于XGBoost算法建立的能耗基准可以有效降低持续待机阶段和开机阶段的异常误报率。进一步说明了Ⅲ类线路能耗异常诊断的正确性。表4-9基于Ⅲ类线路实时能耗诊断策略的诊断结果日期逐时能耗基准/kWh实际能耗/kWh诊断结果2020-09-1400:00:004.001.72正常2020-09-1401:00:004.002.21正常2020-09-1402:00:004.002.23正常2020-09-1403:00:004.002.34正常2020-09-1404:00:004.002.43正常2020-09-1405:00:004.002.28正常2020-09-1406:00:004.002.26正常开机阶段1012.89949.35正常2020-09-1410:00:00423.44392.97正常2020-09-1411:00:00398.67408.51正常2020-09-1412:00:00397.18377.83正常2020-09-1413:00:00395.90369.26正常2020-09-1414:00:00395.03373.56正常2020-09-1415:00:00395.03373.47正常2020-09-1416:00:00393.78365.35正常2020-09-1417:00:00370.52360.79正常2020-09-1418:00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论