基于支持向量机的综合负荷模型参数建模_第1页
基于支持向量机的综合负荷模型参数建模_第2页
基于支持向量机的综合负荷模型参数建模_第3页
基于支持向量机的综合负荷模型参数建模_第4页
基于支持向量机的综合负荷模型参数建模_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于支持向量机的综合负荷模型参数建模

0负荷数据的分类负荷是能源系统的重要组成部分。负荷模型对能源系统的稳定分析和电气系统动态模拟的准确性有很大影响。因此,负荷模型的重要性得到了广泛接受。但由于负荷模型自身的不确定性以及时变性使得负荷建模是一个公认的世界性难题。目前建立负荷模型的方法主要分为两类:第一种是综合统计法,第二种是总体测辨法。这两种方法互有优缺点,因此近年来它们已经结合起来应用于负荷建模。负荷建模的目的在于用尽可能少的负荷模型来对尽可能多的负荷情况进行模拟,在实际的负荷模型辨识中就采用了多曲线辨识的方法,以期建立泛化能力较强的负荷模型。但由于随着采集数据的增多,多曲线辨识的实际辨识过程将会变得越来越困难,甚至会无法施行。因此,需要对实测负荷数据进行分类,以缓解实测数据增多为辨识带来的困难。在众多的负荷数据中,大量的负荷数据是冗余的,泛化能力强的负荷模型能对所有的负荷数据进行良好的拟合,但泛化能力强的负荷模型并不需要由所有的负荷数据来建立,它只需要提取出负荷数据中的共有的统计学规律,而这些共有的统计学规律往往只需要其中的一些数据就能提供。基于此思想,文献提出用统计学中的支持向量机理论对实测数据进行缩减,建立了负荷数据的特征样本空间,并以此建立负荷模型,经检验证明所建模型泛化能力较强。但由于其分析的对象是全部的实测数据,因此所建立的负荷模型物理概念比较模糊。而负荷数据分类的目的在于把相互之间差别较大的负荷数据分开,把相互之间较为接近的负荷数据合并,在此基础上建立负荷模型,不仅物理概念明确,而且还能更进一步提高所建立负荷模型的泛化能力。本文以2004年虎石台变电站实测数据为例,在采用综合负荷模型的基础上,提出了以统计学理论中的方差分析思想对负荷数据加以分类的方法,并在分类的基础上对数据加以分析筛选,观察出了分类后的数据在时间以及参数上存在的特征,这些特征反映了负荷数据中所隐含的统计学规律。在分类的基础上由支持向量机工具和多曲线参数辨识的方法建立了对应于每一类数据的负荷模型,经检验有较强泛化能力。本文还总结了负荷数据由现场采集,经过统计学指标筛选分析,到最后分类建模的全过程,为实测负荷建模提供了一条新思路。1负荷数据的聚类电力负荷动特性的分类属于聚类分析问题,它包括特征向量的选取和聚类方法的研究两个方面,在聚类的方法方面,已经有了相当成熟的数学方法,例如模糊数学中的模糊C均值聚类,统计学中的系统聚类法以及人工智能中的神经网络模式识别聚类法等。而在特征向量的选取上可供选取的特征向量有:①实测响应,也就是在某一扰动下,负荷的实测有功和无功标幺值;②模型参数,也就是负荷扰动在选定的负荷模型结构下由参数辨识所获得的负荷模型的参数;③标准电压激励下的模型响应,也就是由不同的负荷扰动数据所辨识得到的各组负荷模型参数在同一个电压扰动下所获得的有功和无功的模型响应;④负荷成分构成特性,也就是负荷扰动时刻对应的负荷用电设备的构成情况;⑤负荷扰动数据的采集时间、工作日类型和季节、负荷水平等直观特征。其中第④、⑤两种比较少采用,而实际的负荷数据由于电压的波动形状不一,因此其有功和无功的波形也不一样,用以作为特征向量处理较为麻烦,因此①也不宜采用;由于负荷模型参数的多值性,将②作为特征向量对于分类的准确性上有较大的影响,因此选用特征向量③。在进行负荷数据聚类时需要对聚类的有效性以及聚类的数目进行判断和确定,聚类数目的确定决定了总的负荷数据的分类数,也就解决了实际的负荷模型到底存在一个还是多个的问题,它是实测负荷数据分类和筛选的依据,因此,这是实测建模的一个关键环节。本文选用的聚类方法采用统计学中系统聚类法中的重心法,因为从物理的角度来看,仿真曲线用它的重心来表示比较合理,类与类之间的距离就用重心之间的距离来表示。好的聚类结果包括两个方面:高的类内相似性、低的类间相似性。如何确定分类的数目,统计学中的方差分析思想对此有较好解释。下面介绍4个统计学指标。假设:观测个数为n,变量个数为v,G为在某一聚类水平上的个数,xi为第i个观测,CK是当前(水平G)第K类,NK为CK中的观测个数,ˉX为均值向量,ˉXΚ为类CK中的均值向量(中心),‖x‖为欧式长度,Τ=n∑i=1∥xi-ˉX∥2为总的离差平方和,WΚ=∑i⊂CΚ∥xi-XΚ∥2为类CK的类内离差平方和,PG=∑WJ为聚类水平G对应的各类的类内离差平方和总合。假设某一步聚类把类CK和类CL合并为下一个水平的类CM,则定义BKL=WM-WK-WL为合并导致的类内离差平方和的增量。①R2统计量(RSQ)R2=1-ΡGΤ(1)式中,PG为分类数为G个类时的总类内离差平方和;T为所有变量的总离差平方和。R2越大,说明分为G个类时每个类内的离差平方和都比较小,也就是分为G个类是合适的。但是,显然分类越多,每个类越小,R2越大,所以只能取G使得R2足够大,但G本身比较小,而且R2不再大幅度增加。②伪F统计量(PSF)F=(Τ-ΡG)/(G-1)ΡG/(n-G)(2)伪F统计量评价分为G个类的效果,如果分为G个类合理,则类内离差平方和(分母)应该较小,类间平方和(分子)相对较大,所以应该取伪F统计量较大而类数较小的聚类水平。在聚类过程中,当伪F统计量在出现峰值时所对应的分类数较合适。③半偏统计量(SPRSQ)在把类CK和类CL合并为下一个水平的类CM时,定义半偏相关统计量为R2=BΚLΤ(3)式中,BKL为合并类引起的类内离差平方和的增量。半偏相关越大,说明这两个类越不应该合并。所以如果由G+1类合并为G类时,如果半偏相关很大就应该取G+1类。在聚类分析中,它表示每一次合并对信息的损失程度。④伪t2统计量(PST2)t2=BΚL[(WΚ+WL)/(ΝΚ+ΝL-2)](4)用此统计量评价合并类CK和类CL的效果,该值大说明不应合并这两个类,所以应该取合并前的水平。2基于支持向量机理论的负荷模型负荷数据由现场采集之后,到最后的建立负荷模型需要经过一系列的数据处理与过滤。其总的过程可由图1所示。在图1中方框代表所处理的对象,箭头旁的椭圆代表处理的方式。首先要进行的是负荷数据的筛选和分类工作,将所测数据经单曲线辨识,得到每一条数据所对应的负荷模型参数,将所得负荷模型在标准电压激励下的有功和无功曲线作为数据分类的特征向量,接下来运用第1节中所提到的统计学指标对负荷数据加以分类。当在统计学指标下确认分类数时,要对所分数据加以筛选,因为负荷数据中有的数据属于干扰数据,这类数据的特点是它在总的数据中所占数目极少,且对分类有很大的影响,比如总的数据有700条,由统计学指标确认出的最优分类数为两类,第一类有3条,其余数据为第二类,这3条数据可被认为是干扰数据,应将其从总的数据中剔除,再继续计算统计学指标,确定最优分类数。这个过程在流程图中为原始数据分组到判断分组是否合理的阶段。当确定了最优分类数之后,接下来的工作就是对所确定的分类中的负荷数据进行概括,以建立泛化能力强的负荷模型,这里就会用到支持向量机理论。支持向量机理论属于统计学习理论,它基于结构风险最小化的原理,而不是传统的经验风险最小化,因此它表现出很多优于已有方法的性能,用它概括每一类的负荷数据,表现出了良好的泛化能力。在数据分类的基础上应用支持向量机理论,不但会使所得出的负荷模型具有明确的物理概念,而且所建立的负荷模型泛化能力将会更强。此外,支持向量机在计算每一类数据的特征向量时,还会为分类是否准确加以映证。因为分类如果准确,那么每一类数据在空间上的维数应该是相等或接近的,而不管每一类包含的数据是多还是少;如果分类不准确,或者错误分类,势必将会增加某一类数据的维数,减少另一类数据的维数,造成类与类之间维数差增大。3pst2分类结果及方差分析本例对辽宁虎石台变电站2004年全年负荷扰动数据进行处理,采用综合负荷模型,通过遗传算法对负荷模型参数进行辨识得到与之对应的695条负荷模型参数数据,经过初步筛选删除数据中电压水平不在额定电压下的,以及在经过扰动之后没有恢复到稳态的等条件的数据,再将剩余数据通过残差分析指标计算,剩余数据625条,此时这625条数据映射到响应空间进行负荷数据的聚类,但在经过单位阶跃响应,有7条数据潮流不收敛,因此最后映射到负荷数据响应空间的还剩618条数据。将响应曲线作为聚类的特征向量,由系统聚类法中的重心法进行聚类,并用第1节中所介绍的4个统计学指标进行聚类数目的确定。结果如图2~5。由于数据数量较大,因此应该将统计学指标的计算范围扩大来对聚类的效果进行判断,这样可以保证确保聚类数目确定的准确性,下面对各个统计学指标进行分析。在聚类的过程中RSQ指标在由65类到24类时下降较慢,由24类到11类时曲线陡度稍有增加,由11类到最终聚为1类时,指标下降较快;PSF指标在2、4、11、14、19、22、24、57处取得极值,其中11类处为最大值;SPRSQ指标在由65类到24类时数据变化很平缓,且数值较低,在由23类往前聚类时,指标变化逐渐增大,在3、6、8、10、13、17、22、23处取得极值;PST2指标在3、6、8、10、13、15、17、22、23处取得极值,且由23类往前聚类时,指标变化较为剧烈。综合对各个统计学指标的分析,为了保证分类的准确性,确定的最优分类数应该为24类较为合适。从表1的结果显示有3类数据较多,其中数据量最多的有4类数据,分别是第1类,第2类,第5类,第7类,这4类数据数量的总合为总的数据的94.6%,因此,可以认为总的数据空间由这4类数据构成,其他的数据由于所占数量很少,因此将这些数据看作偶然数据,由这些数据所建立的负荷模型不具有代表性,可以将其忽略。观察这4类数据的特征,可以发现其中第1类数据(26条)中有22条数据是位于晚上9∶00到第二天白天9∶00的时间段内,因此可以认为第1类数据所代表的负荷是一个典型的夜间负荷,其中第7类数据(70条)中绝大部分是位于9、10、11月份,具有典型的季节性特征。这些特点都反映了负荷所存在的规律性,其中第1类数据与其他几类数据相比所反映的夜间性规律是一个重要的特征。首先对第1类负荷数据(26条)进行计算,得出9条支持向量。第2类数据(475条)的支持向量共8条。第7类数据(70条)的支持向量共7条。从计算所得出的支持向量的数目相同可以从另一个方面证实分类的准确性,说明分类所得的负荷数据空间在维数上是相同或接近的。第5类数据由于一共只有14条,因此可以不必计算其支持向量,直接用多曲线辨识的方法建立其对应当负荷模型。以计算出的支持向量为基础,以多曲线辨识的方法建立各类数据对应的负荷模型,得到表2负荷模型参数。下面对分类后负荷数据所建立的负荷模型的泛化能力作一些讨论,将类1、2、5、7的数据合起来作为总的负荷数据空间,在此空间里用支持向量机工具提取出具有代表性的负荷数据,经计算,它们是2004A15070A、2004A091400、2004A091401、2004A251601、2004924160B、20043181600、20044121400、20046081401、2004A280601共9条支持向量。下面就分类之后所建立的负荷模型的泛化能力作讨论。以第1类负荷数据(26条)为例,任意选取其中的一条数据,比如选取20046201100这条数据,数据的名称代表的是负荷所采集的时间,即2006年6月9日5时34分37秒。用具体参数为表3中所列出的综合负荷模型来对此数据进行仿真。由图7和图8中实测功率曲线与仿真功率曲线之间的差别可以看出仿真有功功率与实测有功功率曲线拟合较好,而仿真无功功率则与实测无功功率的误差较大。用数据分类之后所建立的负荷模型对该数据进行仿真,此时所用综合负荷模型的参数为表2的类1。通过实测曲线与仿真曲线之间误差的比较,可以明显的看到,仿真有功功率和无功功率与实测负荷有功功率无功功率之间的误差很小。下面,用残差分析指标对前后两个负荷模型对实测数据的仿真作误差计算,结果如表4。在表4中模型1所指的是依据全部数据空间所计算的支持向量所建立的负荷模型,其参数为表3所示,模型2所指模型为负荷数据分为4类时类1(26条)所建立的负荷模型。通过误差指标的计算可以清楚的看到模型2仿真时的误差指标小于模型1仿真的误差指标,模型1的误差主要来自无功功率仿真所造成的误差,其大约是有功仿真误差的6倍,模型2的误差也主要来自无功功率仿真所造成的误差,但其有功无功的误差水平是非常接近的。由此可见分类之后各自建立的负荷模型与不进行分类所建立的负荷模型相比,既具备了一定的泛化能力,又兼顾了模型仿真的准确性。由此可见,对负荷数据的分类无论是在研究负荷的统计学规律上还是负荷模型的实测建模问题上都有其重要的意义,负荷数据在分类之后所建立的负荷模型在泛化能力和仿真时模型的准确性方面得到了一个良好的平衡。4基于统计学理论的负荷模型杂乱无章的负荷数据后隐藏着某种统计学规律,而揭示负荷数据所包含的这种统计学规律是建立具备强泛化能力负荷模型的关键。本文在采用综合负荷

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论