




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
声明尸明 本人郑重声明:此处所提交的硕士学位论文负荷特性聚类分析方法的研 究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作 和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之外。论文中不 包含其他人已经发表或撰写过的研究成果,也不包含未获得华北电力大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名: 潲 日 期:弘。7 军 和 ;) 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有 权保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩 印或其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅; 学校可以学术交流为目的,复制赠送和交换学位论文;同意学校可以用不同 方式在不同媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名: 日期: 导师签名: 华北电力大学硕士学位论文 1 1 本课题研究背景及意义 第一章绪论 电力负荷是整个电力系统的安全稳定运行中较活跃的一部分。电力负荷作为电力能 量的消耗体,对整个电力系统的安全稳定运行起着至关重要的作用。通常用电力系统动 态仿真研究电力系统的动态特性,其中一个重要组成部分就是负荷模型,负荷模型描述 的是负荷吸收的有功功率、无功功率与负荷母线电压和频率之间的关系。建立符合实际 的动态负荷模型对电力系统规划、设计和运行等诸方面均有十分重要现实意义【“2 1 。它 的准确与否直接影响着仿真的结果,进而关系到社会效益。目前电力系统的数字仿真已 成为电力系统设计、规划、运行的主要工具, 相应的决策都是以仿真的结果为依据【3 】。 但是仿真与实际系统存在着一定的误差,误差的大小及性质对该决策的正确性具有 决定作用。如果决策基于悲观的仿真分析结果,则在规划设计方面将会因不必要的加强 系统结构和反事故措施而投入过多的资金,造成浪费,在运行方面采取过分保守的策略 而限制功率传输的极限,使设备得不到充分的利用。如果决策基于乐观的仿真分析结果, 则在规划设计方面将会导致系统结构、反事故措施方面投入资金不足,从而产生不合理 的系统规划方案,绘以后的系统运行造成不便,带来许多运行限制;在运行方面将导致 系统运行于危险的i 临界状态或疏于防范而造成事故。仿真结果的误差是由仿真所用模型 的准确性决定的,目前发电机组和输电网络的模型已相当成熟,然而电力负荷模型仍相 对较简单,往往从基本物理角度出发,采用理想化的模型,如:恒功率、恒阻抗、恒电 流或三者的结合。负荷模型的过分粗糙已经成为制约电力系统仿真计算精度的关键性因 素。当今在电力市场的趋势冲击下,人们对系统分析软件的精度要求将越来越高,负荷 模型的研究的重要性也将更加凸现 3 1 。 虽然电力负荷模型很重要,但由于负荷本身的随机性、分散性和多样性使得负荷模 型的建立十分困难,负荷模型研究表明负荷模型的变化对系统暂态稳定、电压稳定以及 潮流计算的结果具有不同程度的影响,在临界情况下,将发生质的变化p j 。 现有的负荷建模研究方法有两大类:统计综合法和总体测辨法。 统计综合法基本思想是:先在实验室内确定每种典型负荷的平均特性方程,然后在 一个负荷点上统计一些特殊时刻负荷( 如冬季峰值负荷,夏季峰值负荷) 的组成,即每 种典型负荷所占的百分比( 每个变电站的负荷统计数据我们称之为样本l 以及配电线 路和变压器的数据,最后综合这些数据得出该负荷点的负荷模型。e p r i 经过多年的努 力发表了许多研究报告,并且研制了到目前为止统计综合法负荷建模中最具影响的软件 2 华北电力大学硕士学位论文 包e p r il o a d s y n ,该软件使用时虽然需要三种数据:负荷组成,即各类负荷( 民用, 商业,工业等) 所占的比例;各类负荷中各用电设备( 荧光灯,电动机,空调等) 所占 的比例;各用电设备的平均特性,但由使用者必须提供的只有第一种数据,后两种数据 可以利用该软件包所给的典型值。在1 9 9 5 年发表的文献【1 2 】中,w e n - s h i o wk a o 采用该 软件建立的综合负荷模型( 动态+ 静态) 对一个三相母线接地事故和一个低频振荡事故 进行仿真仍取得了比较满意的效果。 但是该方法存在着很多不足: ( 1 ) 各类元件的平均特性的确定,如电动机群的等值,另外,负荷模型的参数确定 与所给的激励大小有关,不同的激励下得到的参数也就不一样。 ( 2 ) 负荷元件组成复杂繁多,统计工作费时,费力,而且难以统计准确。 ( 3 ) 负荷具有很强的随机性,变结构性和时变性,即统计综合法不适合研究负荷的 时变性。 ( 4 ) 统计综合法得到负荷模型参数的方法过于简单,通常是简单的加权平均,现 有的方法主要有k v a 加权等值法和初始功率不变法等。这些方法的假设条件过于理想, 方法过于简单,结果误差比较大。由于上述困难,近年来,较少见到有关的文献和实际 应用。 总体测辨法基本思想是:通过现场实验和在线捕捉电力系统的自然扰动获得负荷所 在母线的电压、频率、电流、有功和无功数据,然后根据系统辨识理论确定综合负荷模 型。这一方法无需过多的负荷信息,辨识结果具有真实性,随着计算机,通讯技术和系 统辨识理论的发展,该建模方法变得更加简单、易行。总体测辨法所获得的模型参数是 以模型响应能最好拟合所观测到的负荷响应数据为目标,所以负荷模型具有符合实际的 特点。该方法现在是发展较快,目前占主导地位的负荷建模研究方法。基于实测负荷特 性数据的模型结构与参数的辨识是总体测辨法负荷建模的两个重要的问题。中国、美国、 日本、加拿大和澳大利亚等国相继研制和投运了一批电力负荷特性数据观测和记录装置 【4 】,目前现在国际上通用的负荷模型结构是一个组合式的负荷模型( 动态部分+ 静态部 分) 。同样的,该方法也存在着很多不足: ( 1 ) 模型的通用性问题,即由某负荷点数据建立的负荷模型表现出专有性,难以 灵活地推广至其它负荷点。这个问题也是负荷模型研究走向实用化的关键。 ( 2 ) 模型对负荷时变性和变结构性的适应问题,基于实测数据所建模型可以较好 地描述当时地负荷行为,但难以描述随时间、季节、气候变化后的负荷行为。也就是说, 基于实测数据所建模型仅能准确描述实测数据所采集那一刻的负荷行为。而不能适应其 它。 ( 3 ) 建模所需激励强度的问题,研究表明在小激励下建立的负荷模型不一定能适 应大激励的情况下,总体测辨法负荷建模需要足够的激励程度,这与电力系统安全运行 华北电力大学硕士学位论文 的要求相矛盾。缺乏充分的激励数据,给该方法建模带来很大困难。 基于目前负荷建模方面存在的问题,需要采用实用化负荷建模思想,建立实用化的 负荷模型,通过对统计综合法和总体测辨法对比分析研究,我们发现,统计综合法能对 一个地区的整体负荷状况进行把握,而总体测辨法能对一个具体的测量点负荷特性进行 把握。我国学者结合我国的实际情况,综合两种方法的特点,提出了综合测辨法的思想, 以总体测辨法为主,吸收了统计综合法的优点,在较短的时间内,以较少的人力和物力 得到系统内所有变电站一定精度的负荷模型,具有一定的实用性和先进性【5 】。 实用化负荷建模的原则就是在保证一定精度的前提下“粗线条”地、突出本质 地描述负荷的行为。它建立的负荷模型应该具有良好的内插和外推能力,能综合描 述不同负荷组成能力。要做到这一点,就有必要对所得到的大量数据( 统计、测量 和录波等) 进行有效地分析和处理。近些年来,为了更有效地应用和处理电力系统 中得到的大量数据,人们引入了多元数理统计技术、模式识别等相关的理论来对数 据进行信息分析。其中,聚类分析方法得到了很有效的使用。 1 2 聚类问题综述 1 2 1 聚类的概念及综述 聚类分析是一种新兴的多元统计技术,也是一种模式识别的技术。数据库中的发 现和数据挖掘( k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ,简称k d d m ) 受到当今国际人工 智能与数据库界的广泛重视 6 - 8 1 。聚类则是k d d m 领域中的一个重要的研究课题【9 】所 谓聚类是将物理或抽象的集合分组成为类似的对象组成的多个类的过程。由聚类所生成 的簇是一组对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相 异。聚类分析( c l u s t e ra n a l y s i s ) 是多元统计分析被引入分类学中逐步形成的一个新的数 学分支,是研究如何将一组样品( 对象、指标、属性等) 分成类内相近、类间有别的若干 类群的一种多元统计分析方法f 1 3 , 1 4 。近年来,由于计算机技术的飞速发展,聚类分析在生 物学、农学等领域的应用日趋广泛( 如物种分类、资源分析、农业区划、土壤分类、农 作物杂交亲本选配和杂种优势预测、作物品种适宜生态区域划分、作物品种稳定性评价 等方面) ,并取得可喜的成果 1 2 2 聚类在电力系统中的应用综述 目前,聚类分析在电力系统中的应用一般在以下一些方面:电力系统的故障 诊断,电力系统同调机群,电力负荷预测以及电力负荷建模等。 4 华北电力大学硕士学位论文 ( 1 ) 电力系统中的故障诊断,如基于聚类分析的电力系统暂态稳定故障筛选, 该方法的基本原理是:先将给定的故障样本根据其特征变量信息分为若干类。计算 各类的聚类中心,并确定每一类的稳定属性,然后针对实际电力系统故障列表中的 每一故障,依据其特征变量相对于各类的隶属度将故障划归到某一类。当故障所属 类别为不稳定类时,则认为该故障为严重故障;当故障所属类别为稳定类时,则认 为该故障为不严重故障。据此思路,可以从故障表中筛选出严重故障。暂态稳定故 障分类问题是实现电力系统动态安全性分析与评估的关键,文献 1 6 】结合新英格兰 l o 机3 9 节点系统和i e e e 5 0 机1 4 5 节点系统为例,将聚类和矢量量化方法相结合, 将故障后系统的能量裕度作为特征变量之一,发展了电力系统暂态稳定故障筛选方 法,对电力系统故障分类的新的探索。 ( 2 ) 用模糊聚类方法识别电力系统同调机群。同调机群的识别,在电力系统 动态特性研究中有着广泛应用,发电机的同调是指在系统受到扰动后,发电机摇摆 曲线具有相同的形式。同调机群的识别方法有多种,何种程度的动态相似才算同调 机群划分准则,有一定的模糊性和不确定性,而何种程度的动态相似才算同调需要 视研究的具体问题而定,不存在严格的同调机群划分准则,用传统的精确的数学理 论来处理模糊现象显得十分不足。根据这一特点,可用模糊数学中基于模糊划分的 模糊聚类方法应用于电力系统同调机群的识别。文献 1 7 q a 给出了一种利用模糊划 分的迭代自组织数据分析技术( i t e r a t i v es e l f - o r g a n i z i n gd a t aa n a l y s i st e c h n i q u e s a l g o r i t h m i s o d a t a ) 识别电力系统同调机群的算法。该方法原理简单,计算量小, 适用于快速的电力系统分析。 ( 3 ) 用于电力负荷短期预测,电力系统负荷预测是电力调度、用电、计划、 规划等管理部门的重要工作之一,提高负荷预测水平有利于计划用电管理,有利于 安排电网运行方式和机组检修计划,有利于提高电力系统的经济效益和社会效益。 国内外关于电力系统短期负荷预测的文献很多,采用的预测方法和预测精度也各不 相同,但由于影响负荷的诸多因素和负荷的不确定性,各种预测方法都存在着一定 的局限性。传统的短期负荷预测方法有回归模型,时间序列等,随着人工智能的兴 起和发展,模糊聚类辨识方法也引入到短期负荷预测中,并取得了较好的结果。文 献【18 】中依据模糊聚类理论,提出一种短期负荷预测新方法。应用隶属度来描述负 荷与影响负荷因素之间的相关关系,又可以考虑多种因素,从而较大地提高了预测 的精度。文献应用哈尔滨地区1 9 9 9 年3 月到5 月的实际负荷数据作为预测因子进 行模糊聚类分析,并以负荷的峰值、低谷和一般三种情况作为类别模式,求隶属度 矩阵、根据模糊聚类参数与预测因子的前期特征值,确定相应的类别变量特征值, 建立类别变量特征值与预测对象之间的相关关系,进行负荷预测。又如文献【1 9 】针 对时间序列中出现的各种随机现象,分别建立数学模型,提出一种马尔可夫链和模 糊聚类相结合的预测方法。负荷预测最新的研究趋势表现在对时间序列内在特性的 5 华北电力大学硕士学位论文 深入分析,文献中作者认为电力负荷具有一定的混沌特性,但也是纯粹的随机性与 严格的确定性之间的产物【2 们。时间序列所表现出的随机性大多数是由各种干扰因 素造成的,如降雨量,温度变化等。这些影响都已经反映在时间序列中,通过模式 识别中的聚类方法,将变化趋势分为几种典型类别,再通过马尔可夫链计算预测时 刻前负荷所处的类别,对各类别分别建立预测函数,这样就把对负荷变化的跟踪建 立在对系统的随机性分析上。模糊聚类较为灵活,样本对于各类别均由一定的隶属 度,即样本可能属于任一类别,只是隶属度大小不同,设定初值后经过反复迭代, 该算法最终收敛,得到聚类结果。再如文献 2 l 】中根据数据集的基本知识建立一个 基于模糊规则的电力负荷模式分类系统,在考虑规则的分类准确性和可解释性的情 况下,利用遗传优化算法挑选出p a r e t o 最优模式分类规则集用于电力负荷模式分类。 并在仿真试验中,将此分类系统用于电力负荷预测,结果表明此分类系统具有较好 的分类性能,可为电力负荷预测提供更为充分有效的历史数据,从而改善其负荷预 测性能。 1 2 3 聚类在负荷建模方面的应用综述 众所周知,电力负荷具有时变性、变结构性和不同地域特性的差异等特点。忽 视这些特点,建立一个“通用”模型,就目前的理论和研究现状来说是不现实的。 按照季节、时间、负荷水平和负荷构成等将负荷分成几个大类,针对每类负荷分别 建模,从多侧面多角度来描述负荷的行为,则是一个合理的选择,这也是负荷建模 理论的基本思想【2 2 1 。负荷分类是电力负荷本身的特殊性决定的。负荷特性具有一定 的重复性,负荷特性是有规律可循的。对于得到的样本数据聚类,虽然聚类分析后, 分属于同类的负荷数据具体反映的负荷特性也有差异。但也应该认识到属于同一类 的负荷具有相对稳定的性质和共同的特点。而这也就是对负荷数据进行聚类分析的 理论基础。对一个大的地域来说,先采用统计综合法调查出该地域几种最主要的负 荷成分( 如工业、农业、商业等) ,并统计该地域所有变电站的样本数据,对样本 数据分类,再采用总体测辨法为每个类别建立一个统一的覆盖该地区所有负荷的负 荷特性的负荷模型。这样,在整个地区只采用几个负荷模型,就能“具有一定精度” 得覆盖该地区所有负荷的负荷特性。这就是前面提到的将负荷建模研究的成果实用化 的思想,很早就引起了人们的注意。并且随着电力负荷特性记录装置的负荷特性数 据的不断积累,欲使负荷建模工作由研究阶段走向实际应用,就不可避免地面临着 负荷特性的分类与综合问题。这也是电力负荷本身的特点和电力负荷建模原则所决 定的。 聚类分析作为一种有效的数据处理方法,已经被人们引入到了负荷建模的研究 中,章健博士在文献 2 3 】中,提出了要将负荷建模研究走向实用化,就要对负荷特 6 华北电力大学硕士学位论文 性进行分类和综合。文献提到由河南省电力试验研究所郑州自动化技术公司研制的 f h 2 型负荷特性记录装置对河南省焦作市东郊变电站采集负荷数据,应用综合模型 在扰动时段内的模型响应不能理想地与实测相应吻合。而分类和综合分析后,取得 了较好的结果。文献f 2 4 】则采用了聚类分析方法( 采用k o h o n e n 神经网络) 对河 北沧州于庄变电站采集的1 9 9 6 、1 9 9 7 和1 9 9 8 年的负荷数据进行聚类,k o h o n e n 神 经网络是一种具有自组织特征影射能力的无教师学习网络,对噪声具有较强的抗干 扰能力,通过负荷动态特性综合检验了其聚类的正确性,从而验证了k o h o n e n 神经 网络对负荷特性聚类的有效性,同时也证明了总体测辨法的可行性。这种方法在文 献 2 5 】中也有相关的说明。文献 2 6 】针对负荷的时变性,探讨如何引入统计学的聚 类分析理论,从统计学的角度分析负荷采样数据中隐含的负荷组成成分的时变规 律,最终建立负荷时间特性到参数变化的映射。该文在前人的基础上,采用机理负 荷模型,引入多元统计中的系统聚类法,对分类问题进行了系统的研究,提出了一 套完整的分类算法。设在某一负荷点安装负荷动态特性记录装置,记录该负荷点一 段时间( 如1 年) 内,在不同日期、时间、不同初始电压和不同电压波动下的n 条 负荷采样数据,包括对应的电压、功率波动曲线。结合广州某负荷a 和河北张家口 某负荷b 的功率曲线的1 6 个负荷采样点的3 4 3 条有效数据,将动态特性相近、可 以用同一组模型参数代表的采样数据分为一类,用2 个模型来表征负荷比采用一个 负荷模型可以获得更小的拟合误差,提高了模型表征精度并兼顾了控制所建立的负 荷模型数量。 1 3 本文的工作 ( 1 ) 本文查阅了大量电力系统中负荷建模方面的文献,对负荷模型有重要影响的负荷 以及负荷特性进行深入的分析研究。 ( 2 ) 针对北京二十多个变电站的采样数据,考虑到其与建模所需数据形式上的差异, 并可能存在一定的误差,进行数据预处理。 ( 3 ) 对处理过的采样数据进行分类分析,将之分成合适的类数;再采用总体辨识法 为每个类别建立一个统一的负荷模型。引入聚类分析法对同一地域不同地点变电站的 负荷统计数据进行聚类分析应用四个判别标准对其进行聚类类数的决定。 ( 4 ) 在传统的方法的基础上指出在位置选择中应重视各类负荷的特性差异对位置 选择的影响,提出一个以静态指数负荷模型的特征量进行聚类分析的负荷测辨装置位置 选择的新方法。 7 华北电力大学硕士学位论文 2 1 聚类方法的选择 第二章聚类研究的准备 2 1 1 聚类中常用的距离度量 目前在文献中存在大量的聚类算法,算法的选择取决于数据的类型、聚类的目的和 应用。如果聚类分析用于描述或探索的工具,可以对同样的数据尝试多种算法,以便发 现数据可能揭示的规律与结果。 无论采用何种聚类分析方法,必须要对样本和变量之间的相似性进行度量。距离常 用来度量样本间的相似性,相似系数常用来度量变量之间的相似性。 设砖( i = 1 ,2 ,。n ;j = 1 ,乏,) 为第x 个样品的第j 个指标的观测数据。定义d i 为 样品五与z ,的距离。常用的距离有: 明氏距离( m i n k o w s k i ) d r ( q ) = ( 羔k 一靠) l ,9 当g = 1 时,乃( i ) = 芝k 一靠f 称为绝对值距离。 ( 2 - 1 ) 当g = 2 时,a r c 2 ) :( 兰k 一靠1 2 ) 1 7 2 称为欧氏距离。 当9 2 m 时,d u ( o v ) = m ,。a 。x x n 一i 称为切比雪夫距离。 马氏距离( m a h a l a n o b i s ) a ;( m ) - - ( x , - 乃) 1 一乃) ( 2 2 ) 其中五为样本五的p 个指标组成的向量,为协方差矩阵 兰氏距离( c a n b e r r a ) 郴,= 吉喜恻c 矿。, 斜交空间距离 ( 2 - 3 ) 华北电力大学硕士学位论文 = 古喜喜c 一靠劫勃m i ( 2 - 4 ) 其中七是变量以与变量而间的相关系数。 统计学中的聚类方法主要是基于距离的聚类分析。如k - m e a n s 方法、k - m e d o i d s 方 法以及其它一些方法已被加入到s s ,s p s s ,s - p l u s 等统计分析软件中。在众多的距离中, 用的最多的是明氏距离中的欧氏距离,有的软件如( s p s s ) 和书籍采用的是欧氏平方距 离,即将欧氏距离加以平方。本质上,欧氏平方距离和欧氏距离没有什么不同,只是随 着特征向量之问分离得越来越远,欧氏平方距离得增长速度要快些。 在量纲取定的条件下,两个样本越相似,它们之间的距离d 就越小,反之亦然, 值得注意的是量纲选取不同会改变某特征的判断依据性。因此当样本的不同特征值的量 纲差别很大时,会对聚类结果造成很大的影响。这就需要将各种特征值进行标准化。标 准化的方法有很多种 5 7 , 2 引,它们可以保证比例的不变性或至少可以试图使距离度量方法 在各种特征下的贡献达到一个最佳的平衡。由于本文中分析的数据量纲均为一致。所以 本文中的数据不必标准化。 2 1 2 聚类方法的比较标准 数据挖掘的聚类一般是针对大数据集而言的,因此在数据挖掘中聚类方法的比较应 该满足以下7 个标准1 2 9 】: ( 1 ) 可伸缩性。算法在满足小数据集的同时能否满足大数据集、高复杂性、高增 量的要求; ( 2 ) 处理不同类型属性的能力。算法在处理数值类型数据的同时能否处理其它的 数据类型,如二元类型,分类标称型,序数型及混合数据类型。 ( 3 ) 发现任意形状的类。许多基于距离的算法只能发现具有相似尺度的球状簇。 而算法能够发现任意形状的簇很重要,如螺旋型。 ( 4 ) 决定输入参数的领域知识最小化。许多算法要求用户输入一定的参数( 如希 望产生的簇数) 。聚类结果对输入的参数十分敏感,因此要尽量避免。 ( 5 ) 处理噪声数据的能力实际数据集都包括孤立点、空缺、未知数据或错误等。 算法能否降低这些噪声数据的影响。 ( 6 ) 对输入数据顺序的敏感性算法能否与顺序无关。 ( 7 ) 处理高位数据的能力。算法在应付低维数据的同时能否处理高维空间的非常 稀疏、高度偏斜的数据。 9 华北电力大学硕士学位论文 2 1 3 聚类方法分类 聚类方法有很多种,而且为了找到一个效率高且通用性强的聚类算法,人们从不同 的角度提出了数十种聚类算法。在数据挖掘中,常用的有:k - p r o t o t y p e s 方法,c l a r a n s 算法,b i r c h 算法,c u r e 算法,d b s c a n 算法,w a v e c l u s t e r 算法,c l i q u e 算法掣3 0 d 2 1 。下 面就在理论和实际应用中较成熟的几种方法简述。 由于每种算法都有其优点和不同的应用领域,在数据挖掘中应根据实际需要选择适当的 聚类算法。 ( 1 ) k 均值聚类算法 k 均值聚类算法:也称硬c 均值聚类。该算法首先由m a c q u e n 提l 1 3 3 , 3 4 ,在数据挖 掘领域中得到了广泛的应用。包括图像和语音数据压缩、用径向基函数网络进行系统建 模的数据处理、以及在异构神经元网络的结构中任务分解。k 均值聚类是一种划分的而 非分层的聚类方法。给定一个例子的集合x ,其中包括n 个数据对象,并要生成数目为k 的簇。k 均值算法将数据对象划分k 个聚类( k ,这表明线性均方估计误差等于数据估计误差与被估计参数 乘积的均值。 为了推导出权系数,将( 2 ) 式改写为: n e ( w 。x i x ) x ;) = o i = l “2 n i = l 令g i = e x x j ) 和r = e x j x j ) ,则( 3 ) 式可以简化为: 善啪t 2 9 t 纠石,n ( 3 - - 4 ) 若记r = j r 日】警l ,w = 【w 。,w 2 ,w 。】t ,g - 【g l ,9 2 ,g 。】t 则( 4 ) 式可表示为: w = r 一1 g 需要说明的是,由于采样数据x ,x :,x 。相互独立,所以相关矩阵r 是非奇异, 在计算g 时由于未知,这时可用中间值的期望对其进行逼近【3 9 1 。 线性均方估计步骤如下: 首先求出采样数据x ,x :,k 的中间值( 去掉最大值和最小值) 的期望值,作为计 算g i 的x 值; 然后计算 r 一= e ( x 。x j ) 】= e x i x lx i x 2x l x n x 2 x i x 2 x 2x 2 x n ;i x n x ix n x 2 x n x n 1 7 华北电力大学硕士学位论文 再计算g = g i 9 2 : g s = e x x l x x 2 : x x n ( 3 6 ) 最后计算w = r g 实例验证 因为钢铁站点是百分百比例,不计入考虑范围,以芦城为例,下面是春季采样,采 集到3 个月份6 个时刻的采样值,经过统计得到如下图表所示:采样日期代表月和日, 具体数值代表成分百分比。 表3 - 1 芦城春季各成份百分比采样值 采样日期2 1 0 2 2 03 53 2 6 4 1 54 2 8 这样x l - - - 0 2 1 ,x 2 = 0 2 3 ,x n = 0 2 3 ,n = 6 运用线性均方估计求权系数 w = r 一1 g =e x i x i x 2 x ! x n x i x i x 2 x 2 x 2 x n x 2 ( e 卦 式中:x = 0 2 2 7 5 。为去掉最大值和最小值后的均值。 将数据代入后可得w = o 1 8 0 5 ,o 1 6 4 8 ,0 1 7 2 3 ,o 1 5 1 6 ,o 1 6 4 8 ,0 1 6 4 8 ; 计算x - - - - - - w i x i + w 2 x 2 + + w 6 x 6 = 0 2 2 7 取小数点后两位,我们取o 2 3 。 1 8 篡;碱 华北电力大学硕士学位论文 用同样的方法,用程序实现算法,我们得到初步的数据统计成表格3 3 如下。: 它采用误差软化的方法,为珍贵采样数据的进一步处理提供了原始数据,为信号处 理提供了更多的信息。 3 3 本章小结 采样的数据由于存在一定的偏差或者误差,如果直接进行聚类分析,必然会影响效 果,这样需要对数据进行预处理,本文通过线性均方估计方法,对少量样本量进行分析, 滤除误差较大的数据,有效地改善聚类结果。 表3 - 3 数据预处理后的采样值 1 9 华北电力大学硕士学位论文 第四章基于成分统计的负荷聚类 正如前面所提到的,电力负荷具有时变性、变结构性和不同地域特性的差异等 特点。建立一个“通用”模型是不现实的。所以我们按照季节、时间、负荷水平和 负荷构成等将负荷分成几个大类,针对每类负荷分别建模,从多侧面多角度来描述 负荷的行为。负荷分类是电力负荷本身的特殊性决定的。对于得到的样本数据聚类, 虽然聚类分析后,分属于同类的负荷数据具体反映的负荷特性也有差异但也应该 认识到属于同一类的负荷具有相对稳定的性质和共同的特点。而这也就是对负荷数 据进行聚类分析的理论基础。这样,在整个地区只采用几个负荷模型,就能“具有一 定精度”的覆盖该地区所有负荷的负荷特性。 4 q s p s s 软件介绍 统计软件( s t a t i s t i c a ls o f t w a r e ) 是统计方法与计算机相结合的产物,是由统计学家、 数学家、电脑专业人员根据统计学理论将各种统计方法用一定的计算机语言编成各种统 计分析模块,让计算机去完成统计计算过程的专业软件,它的作用在于代替专家对科研 数据进行统计处理【4 2 1 。各种软件统计包一般都是由统计学家、数学家、计算机硬件专家 共同设计研制而成,并经过精心调试,严格考察才面市的,7 0 年代后国内外涌现了大量 的统计软件,如s p s s 、s a s 、b m d p 、s t a t a 等。目前,计算机和统计软件已成为统 计学的必备工具。 s p s s ( s t a t i s t i c a lp a c k a g ef o rs o c i a ls c i e n c e ) 是世界公认的权威统计软件,即社会科 学统计软件包,2 0 0 0 年s p s s 公司由于产品升级及业务拓展的需要,将其产品正式更名 为s p s s ( s t a t i s t i c a lp r o d u c ta n ds e r v i c es o l u t i o n s ) ,即统计产品与服务解决方案【4 3 1 。随着计 算机应用的不断发展,对利用计算机进行数据分析和统计运算已经成为人们科研工作的 重要手段。s p s s 软件包集数据整理、分析功能于一身,用户可以根据实际需要选择合 适的功能模块,而且大多数操作是通过“菜单”、“快捷图标”、“对话框”来完成的,使 用起来简易方便。 s p s s 是世界上通用的统计软件包之一,它不仅适用于社会科学,同样也适用于医 学、经济学、心理学等领域。该软件于1 9 9 6 年由美国斯坦福大学研制,1 9 7 7 年经美国 s p s s 软件公司实现商品化,早期的版本是d o s 环境支持的s p s s p c + v 4 0 及其低版本, 随着w i n d o w s 操作平台的面市,s p s s 从1 9 9 2 年开始由d o s 版本升级为w i n d o w s 版本, 即最初的4 0 版本。之后,陆续推出了由w i n d o w s 3 x 平台下的s p s s 6 0 和s p s s 6 1 版 本,以及基于w i n d o w s 9 5 或以上平台的s p s s 7 0 ,s p s s 7 5 和s p s s 8 0 ,1 9 9 9 年又推出了 2 0 华北电力大学硕士学位论文 s p s s 9 0 版本,至2 0 0 0 年后相继推出新版本s p s s l 0 0 、s p s s i i 0 3 ,s p s s l l 0 ,s p s s l 2 0 , 目前版本仍在不断升级和更新。该软件已成为能支持几十种机型,多种操作系统的通用 性很强的集成软件包,主要包含8 个组件,用户可以根据工作需要、计算机的配置选择 适合的s p s s 的组件,完全安装需要5 0 m 左右的硬盘空间,用户可在中英文w i n d o w s 9 5 、 9 8 、2 0 0 0 及w i n d o w sm e 、w i n d o w sx p 等操作系统下安装s p s s l 0 0 以上版本。 与其它软件如s a s 、s t a t a 、b m d p 等相比,s p s s 除了提供能满足不同领域、不 同层次的统计分析人员所需的基础统计、专业统计及高级统计等几十种统计方法外,最 显著的特点就是不需要编程,完全采用菜单和对话框的操作方式,绝大多数操作过程仅 靠鼠标点击即可完成,简便易学,易于操作。目前是非统计人员应用最多的统计软件, 也是国际医学期刊引用最多的统计软件。s p s s 提供用户图形界面( g r a p h i c a lu s e l i n t e r f a c e , g u i ) 窗口环境,在屏幕上清晰显示各类分析选项,并具备完整的下拉式菜单 ( p u l l - d o w n m e n u s ) 及对话框( d i a l o g u e b o x ) ,用户界面友好,操作具有和其他w i n d o w s 应用软件相同的特点。之所以如此方便,实际上是s p s s 软件设计人员讲数据分析过程 中的数据管理和统计方法等过程通过菜单的形式来实现,而这在其它软件中往往要通过 编程来实现,这样就使医学人员省去了记忆大量的命令和编写复杂程序,从而使非专业 人员使用起来方便。除此以外,s p s s 具备完备的统计表制作功能,能绘制精美的统计 图表,并可以方便的对其编辑和修饰,s p s s 还是一个开放的统计软件,其主窗口是一 个类似于e x c e l 的二维表,研究人员可以及其方便的创建s p s s 本身的数据文件,同时 他还能读取a s ci i 文件或纯文本文件,数据库文件、电子表格等多种软件生成的数据文 件类型。对于s p s s 的初学者,该软件还拥有全面生动的设计理念,使其大众化。当然 对于高级用户,s p s s 同样可以进行各种编程功能,使其统计分析更加灵活,同样菜单 操作也可配合编程使用。 s p s s 的主要窗口有数据编辑窗i ( d a t a e d i t o r ) ,结果输出窗n ( s p s sv i e w e r ) ,命令语 句编辑窗n ( s y n t a x e d i t o r ) ,每一个窗口都有相应的菜单栏及工具栏选项,通过以上的窗 口可以方便地实现科研数据建立或调入、统计分析、结果显示与编辑及s p s s 高级程序 的编写与运行。数据编辑窗又有两个用户界面,即d a t a v i e w 界面和v a r i a b l e v i e w 界面, 前者用于输入科研数据,后者则是在输入数据前用于定义数据变量的结构。除了主窗口 外,s p s s 还提供了一些其他窗口,如统计图形编辑窗、表格编辑窗等,从而帮助修饰 和编辑统计分析后的输出内容。 4 2 层次聚类分析 本文主要应用h i e r a r c h i c a lc l u s t e r ,思想在前面已经提到具体操作结合后面的实 例应用。 h i e r a r c h i c a lc l u s t e r 过程 2 l 华北电力大学硕士学位论文 调用此过程可完成系统聚类分析。在系统聚类分析中,用户事先无法确定类别数, 系统将所有例数均调入内存,且可执行不同地聚类算法。系统聚类分析有两种形式。一 是对研究对象本身进行分类,称为q 型聚类;另一是对研究对象的观察指标进行分类, 称为r 型聚类。本文采用对研究对象本身进行分类,属于q 型聚类。 激活s t a t i s t i c s 菜单选c l a s s i f y 中的h i e r a r c h i c a l c l u s t e r 项,弹出h i e r a r c h i c a l c l u s t e r a n a l y s i s 对话框。从对话框左侧的变量列表中选x l 、) 【2 、】【3 、“、x 5 、x 6 ,点击 钮使 之进入v a r i a b l e ( s ) 框;在c l u s t e r 处选择聚类类型,其中c a s e s 表示观察对象聚类,v a r i a b l e s 表示变量聚类,选择v a i l a b l e s 。 图4 - 1 系统聚类分析对话框 点击s t a t i s t i c s 钮,弹出h i e r a r c h i c a lc l u s t e r a n a l y s i s :s t a t i s t i c s 对话框,选择d i s t a n c e m a t r i x ,要求显示距离矩阵,点击c o n t i n u e 钮返回h i e r a r c h i c a lc l u s t e r a n a l y s i s 对话框如 图4 - 2 。 若要求系统输出聚类结果的树状关系图,点击p l o t s 钮弹出h i e r a r c h i c a lc l u s t e r a n a l y s i s :p l o t s 对话框,选择d e n d r o g r a m 项,点击c o n t i n u e 钮返回h i e r a r c h i c a lc l u s t e r a n a l y s i s 对话框。点击m e t h o d 钮弹出h i e r a r c h i c a lc l u s t e r a n a l y s i s :m e t h o d 对话框,系 统提供7 种聚类方法供用户选择: b e t w e e n - g r o u p sl i n k a g e :类间平均链锁法; w i t h i n - g r o u p sl i n k a g e :类内平均链锁法; n e a r e s tn e i g h b o r - 最近邻居法: f u r t h e s tn e i g h b o r :最远邻居法: c e n l t o i dc l u s t e r i n g :重心法,应与欧氏距离平方法一起使用; 华北电力大学硕士学位论文 图4 - 2 系统聚类分析对话框 m e d i a nc l u s t e r i n g :中间距离法,应与欧氏距离平方法一起使用; w a r d sm e t h o d :离差平方和法,应与欧氏距离平方法一起使用。 在选择距离测量技术上,系统提供8 种形式供用户选择: e u c l i d e a nd i s t a n c e :e u c l i d e a n 距离,即两观察单位间的距离为其值差的平方和的平方根, 该技s q u a r e de u c l i d e a nd i s t a n c e :e u c l i d e a n 距离平方,即两观察单位间的距离为其值差 的平方和,该技术用于q 型聚类; c o s i n e :变量矢量的余弦,这是模型相似性的度量; p e a r s o nc o r r e l a t i o n :相关系数距离,适用于r 型聚类; c h e b y c h e v :c h e b y c h e v 距离,即两观察单位间的距离为其任意变量的最大绝对差值,该 技术用于q 型聚类; b l o c k :c i t y - b l o c k 或m a n h a u a n 距离,即两观察单位间的距离为其值差的绝对值和,适 华北电力大学硕士学位论文 用于q 型聚类; m i n k o w s k i :距离是一个绝对幂的度量,即变量绝对值的第p 次幂之和的平方根;p 由 用户指定。 c u s t o m i z e d :距离是一个绝对幂的度量,即变量绝对值的第p 次幂之和的第r 次根,p 与r 由用户指定。 4 3 负荷聚类过程 以北京部分变电站的负荷统计结果为例,对数据进行预处理,将百分比例之和大 于1 的变电站去掉,将百分比例之和小于1 的添加一项使其和为l ,这样聚类数据得到 百分之百的利用率,下面就其北京部分变电站某一年春季统计负荷百分比例进行举例分 析。 下表为綮理后的统计数据 图4 - 3 系统聚类分析对话框 导入到s p s s 软件中进行聚类分析,根据前面介绍的方法,先定义变量v a r i a b l ev i e w , 把 华北电力大学硕士学位论文 数据精确n d , 数点后两位,然后进入a n a l y z e 的c l a s s i f y 下的h i e r a r c h i c a lc l u s t e r 聚类。 图4 4 系统聚类分析对话框 设定聚类项目,s t a t i s t i c s ,p l o t s ,m e t h o d , s a v e 里都设定相应的数值和方法 图4 5 系统聚类分析对话框 基于这些原始数据,得到的关于春季变电站聚类从3 类到9 类的四个判断标准 s p a r s q ,s p t 2 ,p s f , r s q ,绘出图表见下图禾7 。 从统计量结果图表中可以看出,合并信息的损失程度半偏统计量p s r s q 在当有7 类聚成6 类或者8 类聚成7 类时,值较小,说明聚类数目为6 类或者7 类较适合。说明 合并类效果的伪t 2 统计量在由7 类聚成6 类时最小,由8 类聚成7 类时,较小。 华北电力大学硕士学位论文 图4 - 6 系统聚类分析对话框 图4 - 7 春季变电站负荷百分比聚类统计量 伪f 统计量p s f 在聚成6 类时,取得较大值。 r 2 统计量r s q 一直成上升趋势,聚成类数综合其它标准判断较好。 综合以上可以做出结论,在聚成6 类时效果最佳。下面给出聚成6 类时的聚类结果。 华北电力大学硕士学位论文 表4 1 c a s ep m o 瞄硝n gs u m m a n l c a s e s lv a l i d lm i s s i r 均 it o t a l lnp e r c e n tl n lp e r c e n ti n ip e r c e n t i2 斗1 0 0 o1010i2 4l1 0 0 0 d e n d r o g r a m 表4 - 2 c l u s t e rm e m b e r s h i p c a s e6 a u s t e r s 1 :芦城21 2 :南苑32 3 东北安酣3 4 :高陋营53 5 :怀柔63 6 :李遂73 7 :草桥94 8 :张仪1 04 9 :八里庄i l4 1 0 :白庙1 35 1 1 :左安门1 5聿 1 2 :王府井1 64 1 3 :蓖大望1 74 1 4 :朝阳门1 94 1 5 :王四营加6 1 6 :北寺2 12 1 7 :大兴挖1 墙:老君堂2 3 3 1 9 :台湖2 4 1 2 0 :通州2 5 2 2 1 :清河2 63 2 2 :知春里2 74 2 3 :聂各庄捣1 2 4 :两沙屯2 92 + hi erar chic lcluster n ly s is 华北电力大学硕士学位论文 d e n d r o g r a mu s i n ga v e r a g el i n k a g e ( b e t w e e ng r o u p s ) r e s c a l e dd i s t a n c ec l u s t e rc m b i n 一 一 case 05 1 0 1 5 2 02 印 l a b e l 酾 叫+ _ 卜斗_ 一 一 卜 张仪1 0 8 - 1 。 王府井1 6 1 2 十 草桥9 t h p 八里庄l l 9 - t i 一 左安门1 5 1 1 - ih 。 朝陌门1 9 1 4 j ii r 西大望l t 1 3 t _ jh 。 知春里2 2 2 - j ii 北寺2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全教育:不攀爬高处
- 2025年乡村医生公共卫生服务考试题库环境卫生试题
- 2025年初中地理学业水平考试模拟试卷:地图与地球知识专项训练题及答案
- 2025年消防执业资格考试题库:消防应急通信保障应急预案修订与完善试题
- 肿瘤患者营养状况的护理
- 科学实验小探秘
- 科技驱动共享出行
- 化学解析生活
- 谷雨文化与风俗解析
- 创意美术漫步太空课件
- 《产业转型与创新》课件
- “艾梅乙”感染者消除医疗歧视制度-
- 2025-2030年中国测序仪市场运行态势及发展规划分析报告
- 《物理前沿科学》课件
- 餐厅市场调研与定位
- 2025电动自行车安全技术规范培训课件
- 网络直播承诺书范本范本
- 《电力安全工作规程DLT408-2023》知识培训
- DB21-T 3943-2024 消防控制室管理
- 规划课题申报范例:高校毕业生高质量就业服务体系建设研究(附可修改技术路线图)
- 2025北京语言大学新编长聘人员招聘21人笔试备考试题及答案解析
评论
0/150
提交评论