改进的模糊C均值法在负荷特性统计数据聚类中的应用_毕业设计论文_第1页
改进的模糊C均值法在负荷特性统计数据聚类中的应用_毕业设计论文_第2页
改进的模糊C均值法在负荷特性统计数据聚类中的应用_毕业设计论文_第3页
改进的模糊C均值法在负荷特性统计数据聚类中的应用_毕业设计论文_第4页
改进的模糊C均值法在负荷特性统计数据聚类中的应用_毕业设计论文_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、改进的模糊C均值法在负荷特性统计数据聚类中的应用摘要电力负荷是整个电力系统的安全稳定运行中较活跃的一部分。建立符合实际的动态负荷模型对电力系统规划、设计和运行等诸方面均有十分重要现实意义。本文采用实用化负荷建模思想 ,对负荷特性进行聚类,从而为变电站建立合适的负荷模型打下基础。基于目前负荷建模方面存在的问题,使用模糊C均值法,对同一地域不同地点变电站的负荷统计数据进行聚类分析。针对湖南电网48个变电站,对模糊C均值法实施改进后对其进行聚类,并与未改进的模糊C均值法的聚类结果进行比较,以说明改进方案的有效性。关键字:电力负荷;负荷特性;聚类;模糊C均值法APPLICATION OF IMPROV

2、ED FCM TO ELECTRIC LOAD CHARACTERISTICS OF STATISTICAL DATA CLUSTERINGABSTRACTThe power load is an active part in the security and stable operation of the entire electrical power system. It is significantly important to make suitable load model for the power system planning, design and operation. In

3、 this paper the practical load modeling method is employed, and the load characteristics is clustered to establish the actual load model for substations. Based on the current problems, FCM with hierarchical clustering is used to perform the clustering of the load characteristics data of the differen

4、t substations on the same area, the improved method is applied for the clustering of Hunan grid substation. The clustering result shows that the improved method is effective comparing with the unimproved method.Key Words: power load; load characteristic; cluster,FCM目 录第一章 绪论.11.1 研究背景.11.2发展及研究现状.2

5、1.2.1 发展.2 1.2.2 研究现状.4 1.2.2.1 电力负荷建模的总体原则.4 1.2.2.2 电力负荷建模的基本概念.4 1.2.2.3 分类.5 1.2.3 实用化负荷建模思想.6 1.2.3.1 统计综合法.6 1.2.3.2 总体测辨法.71.3 聚类分析在负荷特性分析中的应用现状.81.4 本文主要研究内容.9第二章 聚类分析.102.1 聚类分析的基本概念.102.2 聚类方法.112.3 系统聚类法.15 2.3.1 最小张树聚类法.16 2.3.2 基于密度的聚类算法.16 2.3.3 基于网络的聚类方法.16 2.3.4 基于模型的聚类算法.16 2.3.5 基于

6、划分的聚类算法.162.4 各算法优缺点比较.17第三章 模糊C均值在负荷特性聚类中的应用实例.193.1 聚类在电力系统中的应用综述.193.2 模糊C均值聚类算法.20 3.2.1 硬C均值聚类算法(HCM).20 3.2.2 模糊C均值聚类.22 3.2.3 程序流程图.233.3对模糊C均值法的改进.25 3.3.1 改进的各方案比较.25 3.3.2 最终改进方案的选定.263.4 聚类实例.27 3.4.1 原始数据聚类数据.27 3.4.2 未改进的模糊C均值法在实例中的应用.27 3.4.3 改进的模糊C均值法在实例中的应用.28 3.4.4 两种算法的比较.293.5 结果分

7、析.31第四章 结语.33参考文献 .34致谢.35附录.36附录A 原始聚类数据.36附录B 系统聚类法所得的聚类中心生成的隶属度矩阵.38附录C 改进的模糊C均值法源程序.41附录D 类间距离计算源程序.47附录E 类内距离计算源程序.48 第一章 绪 论1.1 研究背景目前电力系统的数字仿真已成为电力系统设计、规划、运行的主要工具, 相应的决策无不是以数字仿真的结果为依据。但数字仿真毕竟是仿真, 其与实际系统有着或大、或小的误差, 误差的大小及性质对该决策的正确性具有决定作用。如果决策基于悲观的仿真分析结果,则在规划设计方面将会因不必要的加强系统结构和反事故措施而投入过多的资金,造成浪费

8、;在运行方面采取过分保守的策略而限制了功率传输的极限,使设备得不到充分的利用。如果决策基于乐观的仿真分析结果,则在规划设计方面将会导致系统结构、反事故措施方面投入资金不足,从而产生不合理的系统规划方案,给以后的系统运行造成不便,带来许多运行限制;在运行方面将导致系统运行于危险的临界状态或疏于防范而造成事故。仿真结果的误差是由仿真所用模型的准确性决定,目前发电机组和输电网络的模型已相当成熟,比较而言,电力负荷模型仍相当简单,往往从基本物理概念出发,采用理想化的模型,如: 恒功率、恒阻抗、恒电流或三者的组合。负荷模型的过分粗糙已成为制约电力系统仿真计算精度的关键因素。当今,在电力市场化的趋势冲击下

9、,人们对系统分析软件的精度要求将越来越高,负荷模型的研究的重要性也将更加凸现7。电力负荷作为能量的消耗者,在电力系统的设计、分析与控制中有着重要影响。在进行电力系统分析时,不恰当地考虑负荷的模型,会使所得结果与系统实际情况不相一致,或偏乐观,或偏保守,从而构成系统的潜在危险或造成不必要的投资。目前,数字模拟计算已成为电力系统设计、运行与控制中不可缺少的辅助手段。人们不但要求模拟计算结果是定性正确的,而且要求模拟计算结果是定量精确的。大量的计算与实验结果表明:负荷模型对电力系统动态行为的定量模拟结果影响很大,对潮流计算、短路计算、安全分析、电压稳定性等也有一定影响。在临界情况下,还有可能从根本上

10、改变定性的结论。例如,在澳大利亚Queensland系统将理论计算与实测结果作了比较,发现用恒定阻抗表示负荷时两者相差较大,而当负荷的有功电压指数改为1.4,无功电压指数改为3.0时,两者基本吻合。另一计算表明,当某负荷的频率相关成分提高到40%时,原来稳定的系统变成不稳定。因此,负荷的频率特性对系统稳定性也有显著影响。还有的研究报导,感应电动机对稳定极限的影响相当大,其误差有时可高达30%。此外,负荷特性对低频振荡也有很大影响。通过这些例子,对改进负荷模型的必要性便可见一斑。在过去的几十年间,发电机及输电网络的建模已取得很大的发展。与之相比,负荷建模则发展较慢,显得有些不相匹配。显然,电力系

11、统模拟计算精度的提高与发电机、输电网络及电力负荷三大部分的建模都有密切的关系。负荷模型的粗糙阻碍了整个系统模拟精度的进一步提高,并降低了改善发电机及输电网络模型的价值。因此,改进负荷模型具有一定的迫切性。现代电力系统稳定分析常需把仿真的时间跨度增大,人们对低频率振荡、频率稳定、中长期稳定性等问题的兴趣日增。为此,更需要研究相应的模型和算法,负荷模型当然也应考虑在内。随着计算机技术的迅速发展,计算机的容量不断扩大,计算速度也不断提高。这就为采用更加精确、详细的负荷模型创造了条件。总之,电力负荷是电力系统的重要组成部分,电力系统运行与控制中的大多数内容都与负荷问题有关。因此,负荷建模研究是电力系统

12、运行与控制中的基础性课题,既具有非常重要的理论意义,又具有十分显著的工程实用价值19。1.2发展及研究现状1.2.1 发展 人们较早就认识到负荷模型对系统稳定研究的重要性, 并对此进行了初步研究, 这可算是负荷模型研究的萌芽阶段。 到了60 70年代,由于数字电子计算机及控制理论的引入,电力系统这门工程学科焕发了新的活力。在这样的背景下, 人们可以采用数字电子计算机对复杂的电力系统进行精确的仿真研究。而精确的仿真的基础便是精确的模型, 同其他系统元件模型一样, 负荷建模工作有了相当的进展, 除提出了最常用的恒阻抗、恒电流、恒功率模型以外,还在计算中采用了感应电动机负荷模型和多项式、幂函数静态负

13、荷模型。 到了70年代末80年代初统计综合法 (componen t- basedmethod)的提出是负荷建模在这一时期的最重大的成果。从1976年开始美国EPR I 主持了一项庞大的研究计划。根据该计划,研究工作在美国和加拿大同时展开。整个工作经过了严密的计划和组织,从理论、现场实验上以及数据收集系统的软、硬件开发和数据处理程序等几个方面全面铺开。美国的Texas 大学与GE及其他一些电力公司合作致力于统计综合法负荷建模的研究。该方法是在实验室内确定每种典型负荷 (如工业电动机、电冰箱、荧光灯等)的平均特性方程,然后在一个负荷点上统计一些特殊时刻的负荷 (如冬季峰值负荷、夏季峰值负荷)的组

14、成,即每种典型负荷所占的百分比,以及配电线路和变压器的数据,最后综合这些数据得出该负荷点的负荷模型。经过多年的努力,到了1987年完成的EL25003计划, 一个在统计综合法负荷建模中最具影响的软件包EPR I 的LOAD SYN开发完成了 17 。该软件包使用时虽然需要三种数据: 负荷组成, 即各类负荷(民用、商业、工业等)所占的比例; 各类负荷中各用电设备(荧光灯、电动机、空调等) 所占的比例; 各用电设备的平均特性。但对于使用者来说,必须提供的只有第一种数据,后两种数据可以利用该软件包所给的典型值,这给该软件包的使用者提供了一定的方便。 60年代开始迅速发展起来的系统辨识理论到了80年代

15、前后已取得了许多令人瞩目的成就,加之计算机数据采集与处理技术的发展,为另一种新的负荷建模方法-总体测辨法的产生奠定了基础。该方法的基本思想是将负荷群作为一个整体, 先在现场进行人为扰动实验或捕捉自然扰动,采集并记录该扰动数据,然后由现场采集的数据辨识负荷模型的结构和参数,最后再由大量的实测数据验证所建模型的有效性。中国、美国、日本、加拿大和澳大利亚等国在实际系统研制和投运了一大批电力负荷特性数据在线记录装置,记录了大量数据,借此开展了大量的基于总体测辨法的研究 。 GIGRE和IEEE都设有负荷建模工作组,其不定期的发表一些专题报告,以指导负荷建模方面的研究和及时总结负荷建模方面的进展。199

16、0年GIGRE发表的专题报告,结合荷兰FGO电网对各种负荷模型的暂态稳定计算效果为例论证了负荷模型的重要性,并对建立实际负荷模型的方法及负荷测试的有关问题进行了论证。IEEE在1993年发表的报告统一了负荷建模中的许多术语和定义, 总结了负荷模型从建立、验证到应用的有关问题。IEEE在1995年2月的报告列出了国际上学者在负荷建模研究中提出的许多有价值的负荷模型以及他们的文献和著作,以期推动负荷建模的进一步研究和实际应用。在1995年8月的报告中推荐了用于电力系统潮流计算和动态仿真的标准化负荷模型,为各种仿真程序的使用者指明了方向7。1.2.2 研究现状1.2.2.1 电力负荷建模的总体原则

17、(1)可用性原则 电力负荷建模具有时变性、随机性、分布性、多样性、非连续性等特点,多年来虽然人们做了大量努力,但要对所有负荷点、所有时间点建立“精确”的模型是不现实的。虽然不能做到定量完全精确,但至少要做到定性正确。所以,在目前只能考虑建立“可用”的负荷模型,对该模型的最基本的要求是能够反映负荷的实际本质特征。 (2)实用性原则 电力负荷建模的目的当然是为了应用。这就要求模型在能够反映负荷本质的前提下要尽量简单,最好与现有电力系统计算程序能够衔接。同时要求方法也要尽量简单,最好少做全系统性的大规模试验尤其是稳定试验。 (3)针对性原则 国外对电力负荷建模已有大量研究,美国等国家进行了大量实际负

18、荷参数的研究,给出了推荐参数。但不同国家的管理体制和负荷情况具有明显差异,国外的做法不一一定就能够照搬,国外的数据也不一定能够照用。我国开展负荷建模工作,一方面要借鉴国外的经验,但另一方面要针对我国的实际,立足国内,走1条 有中国特色的负荷建模之路8。1.2.2.2 电力负荷建模的基本概念电力系统是由发电厂、电力网及电力负荷三大部分组成的能量生产、传输和使用系统。发电厂是电能的发出者,这些电能经高压输电网及低压配电网被传送到各个用户,并由安装在用户处的用电设备所消耗。电力负荷就是这些用电设备的总称,其中有时也包括配电网络,并简称为负荷。电力系统中有各式各样的负荷,可以从不同的角度进行分类。从用

19、电部门来看,可以分为城市民用负荷、商业负荷、农业负荷、工业负荷及其它负荷。城市民用负荷主要是城市居民的家用电器负荷。商业和工业负荷是为商业与工业服务的负荷。农业负荷是农村所有负荷的统称,包括农村民用电、生产与排灌用电及农村商业用电等。其它负荷包括市政用电、公用事业用电、政府办公用电、铁路与电车用电等等。家用电器大致有如下几类。1) 照明电器:荧光灯、白炽灯;2) 备餐电器:电炉、电饭锅、电烤箱、烤炉等等;3) 洗熨电器:洗衣机、电熨斗、烘干机等;4) 食品储存电器:电冰箱及其它冷冻设备;5) 调温电器:电风扇、空调等;6) 电视音响电器:收录机、电视机、录像机等。 工业负荷中电力设备种类更多,

20、最主要的是感应电动机和同步电动机,其它还有整流型负荷、电弧炉、阻抗型负荷(如工厂照明)等等。配电网主要有配电线路、变压器和补偿电容等。 负荷吸收的有功功率(P)及无功功率(Q)是随着负荷母线的电压(U)和频率(f)的变动而变化的,这就是负荷的电压、频率特性,用于描述负荷特性的数学方程称为负荷模型。建立负荷模型就是要确定描述负荷特性的数学方程的形式及其中的参数,简称为负荷建模19。1.2.2.3 分类按照是否反映负荷的动态特性,负荷模型一般可分为静态模型和动态模型两类,前者通常用代数方程来描述,后者通常用微分方程或差分方程描述。每一类都有多种结构。 (1) 静态模型在稳态条件下,负荷功率与端电压

21、及频率之间的非线性函数关系称为负荷的静态模型19 。基本的静态负荷模型的结构为:幂函数模型;多项式模型。通常一个幂函数在电压变化范围比较大的情况下仍能较好地描述许多负荷的静态特性。多项式模型由恒功率、恒电流、恒阻抗三部分组成,它可以看作是三个幂函数相加的特例,这三个幂函数的幂指数分别为0,1,2。静态的负荷模型主要适用于潮流计算和以潮流计算为基础的稳态分析中。在电力系统动态分析中,静态负荷模型一般适用于计算结果对负荷模型不太敏感的负荷点。目前国内电力系统潮流计算所采用的负荷模型多是恒功率模型,暂态计算所采用的负荷模型也多是多项式模型(多为40% 的恒功率+60%的恒阻抗)。与有些文献所述不同的

22、是,由于大部分的计算程序采用的多项式负荷模型, 在低电压下(0.6pu) 多相应的转化为恒阻抗模型,所以对多项式的负荷模型并不存在电压为零时功率不过零点的问题4。 (2) 动态模型动态负荷模型又可进一步分为机理模型和非机理模型。其中机理模型通常就是感应电动机模型。相应的还有采用一台等值感应电动机, 两台或更多的等值感应电动机 , 以及将感应电动机并联上有关的静态模型等几种形式。非机理模型则是在系统辨识理论发展过程中,从大量的具体动态系统建模中概括出来的,对一大类动态系统具有很强的描述能力。每一种非机理模型模型都有其普遍适用的范围, 也正是由于其普遍适用性也掩盖了它作为具体系统的具体物理机理。目

23、前常用的非机理动态负荷模型的形式有:常微分方程模型, 传递函数模型 , 状态空间模型 ,时域离散模型 。此外还有考虑描述负荷模型非线性而提出的人工神经网络模型4。负荷模型的评判是困难的,因为不同的应用目的对负荷的要求不同,不同的研究人员看问题的出发点可能也不一样。一般来说,需要考虑以下几个方面:(1)精确度;(2)计算量;(3)物理背景;(4)参数获取;(5)应用方便。可以说,目前没有一种统一的负荷模型在各方面都可以适用。事实上,上述几个方面有的有时甚至是互相矛盾的。因此,往往要根据应用者关心的主要方瑶,选择一种折中的负荷模型。1.2.3 实用化负荷建模思想 负荷建模:两大方法、特点、不足时至

24、今日,人们已提出了不少负荷建模方法,这些方法可以归纳为两大类:一类是“统计综合法”,另一类是“总体测辨法”。 1.2.3.1 统计综合法 统计综合法的基本思想是将负荷看成个别用户的集合,先将这些用户的电器分类,并确定各种类型电器的平均特性,然后统计出各类电器所占的比重,最后综合得出总的负荷模型,其典型成果体现在EPRI联合研究集团开发研制的LOADSYN软件中。这套软件的理论部分是由美国Texas大学的Arlington分校负责的,GE和其他电力公司负责在电网上进行实验验证。现在许多国家的电力部门都采用这类办法。在采用这类方法时,需要3种数据资料:负荷组成及各类负荷所占的比重;配电网络的参数;

25、各类负荷的平均特性。一般来说,后两种数据变化较小,而第一种数据变化较大。据文献报导:有功功率的电压特性系数随运行条件的变化较小,从而使综合得到的有功电压特性与实际的比较吻合;而无功功率的电压特性系数则变化较大,使综合得到的无功电压特性与其试验结果相差较大;综合得到的频率特性与试验结果相差较大;对负荷动态特性也不能很好地模拟。统计综合法是一种传统的做法,比定性估计负荷参数前进一大步。它不依赖现场试验,花费的代价较小。但这种方法存在着下列问题:(1) 需事先统计成千上万个用户的负荷组成及参数。这种统计工作不但耗时费力,而且难以统计准确。(2) 各类电器的“平均特性”难以确定。(3) 统计综合工作不

26、可能随时进行,甚至不能经常进行。而负荷特性是经常变化的,甚至变化很大。因此,这种方法不能适应负荷特性的时变性。(4) 对无功电压特性、频率特性及动态特性难以模拟准确。(5) 负荷成分往往比较复杂,包含的用电设备可达数十种,如电动机、电阻负荷、电压器、荧光灯等等。若将所有这些类型的负荷都考虑进去,则因各类用电设备的模型不同,从而导致总的模型难以应用。随着负荷成分的日益复杂化,这个问题将更加突出。1.2.3.2 总体测辨法 总体测辨法的基本思想是将负荷群看作一个整体,先从现场采集测量数据,然后确定负荷模型的结构,最后根据现场采集的数据辨识出模型参数,其典型成果体现在加拿大Quebec及Ontari

27、o水电研究所开发的在线监测装置上。他们设计了一套微机控制的实时数据采集系统,收集了大量的现场实测数据资料。在此基础上,离线或在线辨识出负荷特性系数。总体测辨法是一种比较新颖的方法,目前正处于开发研究中。这种方法所必需的现场测量工作比较复杂,甚至会受到实际条件的限制,例如电压波动难以做到超过10%。但与统计综合法相比,它具有如下优点:(1) 无需知道各个用户的负荷组成及参数,不依赖于用户统计资料。(2) 在负荷母线处长期装设测量装置,可以根据各个时刻的测量数据得到相应的负荷特性参数,从而解决了负荷特性的时变性问题。(3) 有希望获得较好的参数估计值。(4) 当负荷组成比较复杂时,仍可以用简单的输

28、入/输出模型来描述。这种模型的参数易于辨识,模型结构统一,便于处理。(5) 总体测辨法实质上是将负荷看作“灰色系统”或“黑色系统”,而现代系统理论为总体测辨法提供了有力的理论依据和分析工具19 。1.3 聚类分析在负荷特性分析中的应用现状 聚类分析是一种新兴的多元统计方法,是当代分类学与多元分析的结合。聚类分析是将分类对象置于一个多维空间中,按照它们空间关系的亲疏程度进行分类。也就是说,对彼此不同属性的事物进行辨认,将具有相似属性的事物聚为一类,使得同一类的事物具有高度的相似性8。 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类与分类的

29、不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工

30、具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。1.4 本文主要研究内容 负荷建模领域的研究目前大多仍以理论研究为主,尚未很

31、好地推广到工程应用。随着当前电网规模的日益增大,对于一个广域电力系统分析人员而言,如果该区域的所有负荷站点均采用同一种负荷模型,该负荷模型必定是非常保守和粗糙的。而如果将每个负荷站点均根据总体测辨法建立起相当精确的负荷模型,这将需要大量的设备和资金的投入,无论是从人力、财力和物力上考虑都是不可取的。这一问题是近来负荷建模工作一直不断探讨的热点,目前正在逐步形成一类基于统计与基于量测相结合的负荷建模新方法。在初步探讨了聚类分析技术在负荷建模中的应用现状的基础上,重点研究了模糊C-均值法的基本原理和实现过程,并将其用于统计负荷特性数据的分类,从而验证了聚类技术在负荷特性分类中应用的工程实用性,为统

32、计综合法和总体测辨法的融合提供了有效的途径。第2章 聚类分析聚类分析就是如何对样品(或变量)进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。2.1 聚类分析的基本概念 在实际研究中,既可以对样本个体进行聚类,也可以对研究变量进行聚类,对样本个体进行的聚类通常称为Q型聚类,对研究变量进行的聚类称为R型聚类。本文采用的是对样本个体进行聚类分析。所谓样本,就是指待分类的对象全体。每个样本都由一系列指标表示,这些指标形成样本矢量,全体样本矢量构成的集合称为样本矢量集,这里设样本矢量集合为X=,每一个对象(i=1、2、m)都由一组n个指

33、标刻画:。定义为样本与的距离,常用的距离有:1 闵氏距离 如 当q=l时,称为绝对值距离。 当q=2时,称为欧氏距离 当q=时,称为切比雪夫距离2马氏距离 其中为样本的P个指标组成的向量,为协方差矩阵3. 兰氏距离 ()在众多的距离中,用的较多的是欧氏距离和绝对值距离。4. 距离选择的原则一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时,应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则:(1) 要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距

34、离概念,马氏距离有消除量纲影响的作用。(2) 要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3) 要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分析。实际中,聚类分析前不妨试探地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。 在量纲取定的条件下,两个样本越相似,它们之间的距离d就越小,反之亦然,值得注意的是量纲的选取不同会改变某特征的判断依据性。因此当样本的不同特征值的量纲差别很大

35、时,会对聚类结果造成很大的影响。这就需要将各种特征值进行标准化。标准化的方法有很多种,他们可以保证比例的不变性或至少可以试图使距离度量方法在各种特征下的贡献达到一个最佳的平衡8。2.2 聚类方法 聚类分析的方法有很多种,经典的聚类方法有谱系数聚类分析法,动态聚类分析法,由于新的理论不断提出,现在又有了模糊聚类分析法和灰色聚类分析法。这些方法各有优缺点,分别适用于不同的场合。相比而言,谱系数聚类分析法和动态聚类分析法在理论上相对比较成熟。下面对这几种方法做出介绍:1 谱系数聚类分析法 这种方法又称为系统聚类分析法,设样本矢量集合为,每个样本有n个特征量表示,表示第k次合并时的第i类。首先,视m个

36、样本各自成为一类,后计算类与类之间距离,选择距离最小的一对合并成一个新类,计算在新的类别划分下各类之间的距离,再将距离最近两类合并,直至所有样本聚成一类为止。将所有样本聚成一类结果是没有意义的,再根据一定的原则确定最终的种类个数。算法的具体步骤如下:1) 数据的标准化处理。由原样本矢量集形成新的样本矢量集,其中: 式中:,即各列数据平均值; 即各列数据标准方差;i=1,2,m, j=1,2,n。2) 初始分类。令K=0,每个样本自成一类,即3) 计算各类间的距离,由此生成一个对称的距离矩阵,其中m为类的个数(初始时,m=N)。4) 找出前一步求得的矩阵中最小元素,设它是和间的距离,将和两类合并

37、成一类,于是产生新的聚类令K=K+1,N=N-1;5) 查聚类后的个数,如果类数N大于2,则转至3),否则,停止。 谱系数聚类法除了要定义事物之间的亲疏程度指标,还要定义类与类之间亲疏程度指标并且要导出求取类间亲疏指标值的递推公式。类与类之间亲疏程度指标不同,则求取类间亲疏指标值的递推公式也就不同。这样就有很多种不同的谱系数聚类法,其中几种介绍如下: 1)重心距离法 从物理观点看,若一个类空间位置要用一个点表示,那就用重心来表示。设类、重心分别为、,它们分别有、个,将和合 并为,则有个样本,易知的重心 设另一类的重心为则它与的距离平方是2) 平均距离法两类和之间距离平方也可定义为这两类元素两两

38、之间平均平方距离,即 设,类平均距离递推公式为 3) 最短距离法定义类和之间的距离为两类最近样品的距离,即为 设类和合并成一个新类记为,则任一类与的距离为 4) 最长距离法定义类和之间的距离为两类最远样品的距离,即为 最长距离法与最短距离法的并类步骤完全一样,也是将各样品先自成一类,然后将距离最小的两类合并。将类和合并成一个新类记为,则任一类与的距离为 再找距离最小两类并类,直至所有的样品全归为一类为止。可以看出最长距离法与最短距离法只有两点不同:一是类与类之间的距离定义不同;另一是计算新类与其他类的距离所用的公式不同。2动态聚类分析法 动态聚类的原理是先对分类事物做一个初始的粗糙的分类,然后

39、再根据某种原则对初始分类进行修改,直至准则函数取得极值或者是分类被认为比较合理为止。其基本步骤为:1)建立初始聚类中心,进行初始聚类。2)计算模式和类的距离,调整模式的类别。3)计算各聚类的参数,删除合并或分裂一些聚类。4)从初始聚类开始,运用迭代算法动态地改变模式的类别和聚类中心 使准则函数取得极值或设定的参数达到设计要求时停止。在众多的动态聚类分析方法中,c均值聚类算法是最常用的一种,这里简要介绍一下,假设样本特征矢量集为,事先取定类的数目为C类,并确定C个初始聚类中心,按最小距离原则将各样本分配到C类中某一类,之后不断计算类心和调整各样本的类别,最终使各样本到其判属类别中心的距离平方之和

40、最小。C均值聚类分析法是以确定的类数及选定的初始聚类中心为前提,使各样本到其所判属类别中心距离平方之和最小的最佳聚类,受这一前提的影响,其结果很容易陷入局部最优。3 灰色聚类分析法 灰色聚类分析法属于灰色系统理论中灰色评估范畴,灰色系统理论是一种新的分析系统的理论,它以“部分信息已知,部分信息未知”的“小样本”、“贫信息”不确定系统为研究对象,主要通过对“部分”已知信息的生成、开发,提取有价值的信息,实现对系统运行行为的正确认识和有效控制,有很多系统可以看成是贫信息不确定系统,因此,这一新的理论具有十分广阔的应用前景。4 模糊聚类分析法人类在社会实践中,常常要把所处理的事物按其特征分为若干类,

41、所谓“物以类聚,人以群分”。由于实际对象之间在很多方面,其差异的变化表现为一种连续性,差异对象之间并没有一个截然区别的界限,所以事物分类的本身具有模糊性的特点。模糊聚类方法是通过建立模糊相似关系而将客观事物予以分类的方法。在普通聚类分析中,类别之间是清晰的,分类集合中的任意两个对象要么等价,要么不等价。而模糊聚类的结论并不表征对象绝对地属于某一类或绝对地不属于某一类,而是表征对象在什么程度上相对地属于某一类,在什么程度上相对地属于另一类。模糊聚类分析的数学基础是模糊集合论。自模糊集合论建立以来,聚类分析很快地运用了这一新的数学方法。EHRuspinid 1969年在聚类分析中引入了模糊划分的概

42、念。JCBezdek和JCDunn在1974年给出了模糊ISODATA聚类方法。此后国外一些学者提出了许多模糊聚类方法,更多的学者还将这些方法应用于实河海大学硕士学位论文践,目前这种聚类分析法正在不断改进中,有待于进一步开展研究。2.3. 系统聚类法系统聚类算法5,又称为等级聚类法,层次聚类法。它将给定数据集合进行层次的分解。根据聚类过程方向的不同,系统聚类算法可以分为分解法(divisive,自顶而下)和聚类法(agglomerative,自底而上)两类。分解法把整个集合看作一个整体(类),再逐步划分为更小的类,直到每个数据对象分别隶属于一个类,或者达到某个终止条件。聚合法则刚好相反,它先是

43、把每一个数据对象都看成一个单独的类,然后合并相似的数据对象成为一个新类,直到所有数据对象置于一个类中,或者达到某个终止条件。实际中的绝大多数层次聚类算法属于聚合法。一个纯粹的层次聚类算法最大的问题是一旦一个合并或者分裂被执行,就不可修正。目前的研究集中于凝聚层次聚类和迭代重定位方法的集成。2.3.1 最小张树聚类法 在图论聚类法中,将各个模式视为加权图G的顶点,加权图的权定义为模式之间的距离,当取类间最近距离为类间距离时,聚类过程所表示成的树就是最小张树7,第j步合并的两类正是Kruskal法中第j步取出的je所连结的两类,此时每类各自的最小张树是G的最小张树的子集。当两个距离较近的密聚点集之

44、间有少量孤立的模式特征时,使用前述的方法将会错分。2.3.2 基于密度的聚类算法基于密度的聚类算法比较有代表性的有:包括基于高密度连接区域的DBSCAN聚类方法,通过对象排序识别聚类结构的OPTICS聚类方法;基于密度分布函数的DENCLUE聚类方法。其主要思想是只要临近区域的密度(样本的数目)超过某个阀值则继续聚类。即对于给定簇中的每个样本,在一个给定范围的区域中必须至少包含某个数目的样本,但它只能发现球状的簇,而基于密度的方法可用来过滤“噪声”孤立点数据,以发现任意形状的簇。2.3.3基于网络的聚类方法 这种方法首先将数据空间划分成为有限个单元(cell)的网络结构,所有的处理都是以单个的

45、单元为对象的。其突出的优点就是处理速度快,通常与目标数据库中记录的个数无关的,而只与数据空间的单元有关。代表算法有:STING它利用存储在网络单元中的统计信息;CLIQUE算法,它是在高维数据空间中基于网络和密度的聚类算法;WAVE-CLUSTER算法,它通过小波变换来转换原始的特征空间能很好的处理高维数据和大数据集的数据表格。2.3.4 基于模型的聚类算法基于模型的方法首先是基于这样一个假定:目标数据集是由一系列的概率分布所决定的。那么,可以在空间中寻找诸如密度分布函数这样的模型来实现聚类。统计的方案和神经网络的方案是近些年两种不同的尝试方向。神经网络方法将每个簇描述为一个标本。标本作为聚类

46、的“原型”,不一定对应一个特定的数据实例或对象。根据某些距离度量,新的对象可以被分配给标本与其最相似的簇。被分配给一个簇的对象的属性可以根据该簇的标本的属性来预测。2.3.5 基于划分的聚类算法基于划分的聚类方法,又称动态聚类法。逐步聚类法,是实际中受到普遍欢迎的一种方法。这种方法把聚类分析归结成一个带约束的非线性规划问题,通过优化求解获得数据集的最优划分和归类。其基本思想是,在一个平面层次上对所有的样本点先做出某种较为粗略的划分,然后按照某种最优的准则进行修正,通过算法的迭代执行,得到一个较为合理的聚类结果。基于划分的聚类方法设计简单、解决问题的范围广,还可以转化为优化问题而借助经典数学的非

47、线性规划理论求解,非易于计算机实现。因此,随着计算机的应用和发展,基于划分的聚类算法成为新的研究热点。基于划分的聚类方法中最有代表性的算法是C均值算法(C均值算法有时又称为K均值算法,C或者K是聚类类别的个数),和K中心点算法,C均值算法又可分为硬C均值算法和模糊C均值算法。2.4 各算法优缺点比较表2-1 几种算法的比较算法名称优点缺点系统聚类法对初值不敏感一旦一个合并或者分裂被执行,就不可修正,当两个距离较近的密聚点集之间有少量孤立的模式特征点时容易出错。最小张树法理论上完备实际中运用效率低下基于密度的聚类算法可以发现任意形状的簇,对噪声不敏感对于空间数据分布不均匀的情况聚类效果不佳基于网

48、络的聚类算法速度快,可以高效处理低维的海量数据对于维数较高的数据集,生成的单元数过多,导致算法的效率较低基于划分的聚类算法设计简单、解决问题的范围广,还可以转化为优化问题而借助经典数学的非线性规划理论求解,并易于计算机实现对初值敏感,初值选取不当可能造成聚类失败。 由表可以看出,基于划分的聚类算法设计简单,解决问题的范围广,以及易于计算机实现的突出优点十分合适本文的设计,因为随着计算机技术的发展,电力负荷聚类,更多地要求计算机实现。虽然,它对初值要求较高,但对这一不足的改进与克服也正是本文的核心所在。第三章 模糊C均值在负荷特性聚类中的应用实例3.1 聚类在电力系统中的应用综述目前,聚类分析在

49、电力系统中的应用一般在以下方面,电力系统的故障诊断,电力系统同调机群,电力负荷预测以及电力负荷建模等。文献8结合新英格兰10机39节点系统和IEEE50机145节点系统为例,将聚类和矢量量化方法相结合,将故障后系统的能量裕度作为特征变量之一,发展了电力系统暂态稳定故障筛选方法,对电力系统故障分类的新的探索。文献17中给出了一种利用模糊划分的迭代自组织数据分析技术(Iterative Self-Organizing Data Analysis TechniquesAlgorithm,ISODATA)识别电力系统同调机群的算法。该方法原理简单,计算量小,适用于快速的电力系统分析。国内外关于电力系统短期负荷预测的文献很多,采用的预测方法和预测精度也各不相同,但由于影响负荷的诸多因素和负荷的不确定性,各种预测方法都存在着一定的局限性。传统的短期负荷预测方法有回归模型,时间序列等,随着人工智能的兴起和发展,模糊聚类辨识方法也引入到短期负荷预测中,并取得了较好的结果。文献18中依据模糊聚类理论,提出一种短期负荷预测新方法。应用隶属度来描述负荷与影响负荷因素之间的相关关系,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论