基于SOM和ID3算法综合分析的负荷特性研究_第1页
基于SOM和ID3算法综合分析的负荷特性研究_第2页
基于SOM和ID3算法综合分析的负荷特性研究_第3页
基于SOM和ID3算法综合分析的负荷特性研究_第4页
基于SOM和ID3算法综合分析的负荷特性研究_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于SOM和ID3算法综合分析的负荷特性研究胥威汀1,刘俊勇1,刘友波1(1四川大学电气信息学院,四川 成都 610065)摘要:提出了一个电力用户负荷特性表征体系用于对负荷特性的研究。负荷定性模块和负荷分类模块构成了该体系。负荷定性模块使用自组织特征映射(SOM)网络和K均值聚类操作创造出一套用户分组,并取每个分组内所有负荷曲线的均值以标识出各组的典型负荷特性。分类模块根据这些训练集的聚类结果和负荷曲线形态指标建立出一个ID3分类决策树,使其能够把不同的用户分配到现有的分组中。文章最后用一个真实数据算例说明了方法的有效性。关键字:分类;聚类;数据挖掘;负荷特性Abstract:This pa

2、per proposed an electricity consumer characterization framework used to study load characteristics. The load profiling module and the classification module compose this framework. The load profiling module creates a set of consumer classes by using self-organizing maps(SOM) and k-means clustering op

3、eration. The representative load profiles for each class are built by averaging the measured load diagrams in each class. Based on several profile curve indexes, the classification module uses these clusters knowledge to build a ID3 classification decision tree which is able to assign different cons

4、umers to the existing classes. The quality of this framework is illustrated with a case study concerning a real database.Index Terms:Classification; Clustering; Data mining; Load profiles随着电力工业的发展和电力体制改革的深化,电力行业的管理和电力企业的运营逐步暴露出一些新的问题。比如电力用户分类不尽合理,阻碍了市场经济条件下电力资源的优化配置。由于用户的负荷曲线反映了用户用电行为的特征和偏好,而不同的用电行为

5、因其对电力系统的生产运行成本影响不同,对电价的形成具有重要影响,因此,利用负荷曲线的特征对用户进行特性分析有利于合理电价机制的形成,有助于电力销售公司制定营销策略1。另外,由于电力负荷数据量不断增大,新负荷指标不断增多,分析变得越来越复杂,这就给负荷特性研究带来了很大的困难。所以,电力负荷特性分析迫切需要一种能快速处理海量数据的技术支持。这就需要把数据挖掘技术引入到电力用户负荷特性的分析中来。基于数据挖掘技术的负荷特性分析方法应运而生2。1 电力用户负荷特性表征体系该体系是基于以应用于进程中不同的阶段的数据挖掘(DM)技术为支撑的数据库知识发现(KDD)程序的体系3。该体系的结构可见下图:初始

6、数据集数据预处理典型负荷曲线分类指标分类数目聚类模块分类模块负荷特性决策树规则集分组图1 电力用户负荷特性表征体系的结构该系统运行步骤如下:体系首先对输入的初始数据集进行选择、清理和简化等预处理,处理后的数据集被转化为每个用户的典型负荷曲线。之后,这些曲线与分类指标将一并作为聚类模块和分类模块的输入项输入数据挖掘模块。在聚类模块中,先要指定分类数目,经过一系列聚类操作,典型负荷曲线会被聚为数类,同时获取到各类负荷平均化后的负荷曲线,作为每一类的代表曲线;在分类模块中,聚类结果会作为目标属性,分类指标作为分类属性,经过先前预处理得到的用户负荷特性曲线作为分类对象,一并输入分类模块,训练得到一棵决

7、策树,以此导出规则集,作为负荷特性分类预测的依据4。如下图所示:聚类算法的结构SOM:维度简化K均值:获取最终聚类(分组)对同一聚类分组中的用户典型负荷特性曲线取平均负荷特性Som输出单元权值向量图2 负荷定性模块的结构负荷形态指标:每一个典型负荷图表都将转化为一组对应负荷形态指标的值分类算法的结构使用算法:ID3输入属性:每一个用户的负荷形态和商业指标目标属性:用户分组模型评价:十倍交叉验证法分类模块:决策树规则集按指标离散化:按照以区间均衡法制定的指标进行数据离散每一个区间作为各自分组的标签和名词属性图3 分类模块的结构2 基于数据挖掘技术的负荷特性表征体系原理电力用户负荷特性表征体系中所

8、用到的数据挖掘技术有:负责聚类操作的自组织特征映射(SOM)和K均值聚类,负责分类预测的ID3决策树。2.1 自组织特征映射(SOM)图4 SOM网络的结构自组织映射学习算法包含竞争、合作和更新三个过程5:1) 竞争过程: (1)输入向量X和权值向量Wi的欧氏距离最小值胜出。2)合作过程: (2)以在竞争过程中得到的获胜神经元为中心取拓扑邻域,在邻域范围内的神经元为激活神经元。3)更新过程: (3)权值向量的更新。网络经过以上学习训练后,如果训练充分且算法收敛,则自组织特征映射网络具有特征映射能力6。2.2 K均值聚类K均值算法的基本思想为7:(1)首先从n个数据对象中任意选择k个对象作为初始

9、聚类中心;(2)根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;(3)再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值); 不断重复这一过程直到标准测度函数开始收敛为止。一般都采用数据库中所有对象与相应聚类中心的均方差之和作为标准测度函数8: (4)2.3 ID3决策树ID3是基于信息熵的决策树分类算法。该算法的核心是在决策树中各级结点上对属性的选择。使用该属性将训练样本集分成子集后,系统的熵值最小,即最大信息增益9。 (5)这样不断划分结点 ,直到不能再划分,就作为叶结点。最终构成完整的树型。这些叶结点就是分类结果。训练好的决策树可以用于对

10、用户的分类预测。实际上,能正确分类训练集的决策树不只一棵。而ID3算法能得出的是结点信息最小的决策树。ID3算法总的来说是一个很有实用价值的示例学习算法,它的基础理论清晰,算法较简单,学习能力较强,是数据挖掘和机器学习领域中一个极好范例10。3 实际算例分析本章节展示的算例会对一个拥有73个电力用户信息的数据库进行聚类和分类。这里用到的是某西南省份供电公司提供的用户日载荷数据。该日用户数据集是用户的每小时电量,这些数据集转化为各电力用户负荷曲线,经预处理后输入到前面章节介绍的电力用户负荷特性表征体系中进行操作。其结果在本章有相应展示。3.1 数据预处理每个用户都会在各自的数据集合里被一个唯一的

11、典型负荷曲线所表述,以此区别不同的载荷状态,这些典型负荷特性曲线就是通过对原始用户数据作平均化处理后得到的。它们需要综合为相似的规模以便进行模式比较。要使输入聚类模块的特性曲线的形态具有可比性,需要对用户数据进行归一化处理。图5 归一化处理之后的负荷曲线归一化按照以下公式进行: (6)3.2 聚类模块在该体系中,SOM网络首先用输入数据进行网络训练。网络根据算法不断地迭代更新输入向量与输出神经元、神经元与神经元之间的权重值,以形成一个成熟的普遍适用的SOM网络。接下来对输入数据进行仿真,得到一系列投射在SOM输出层的点,这些就是输入数据对应的激活神经元。激活同一神经元的特性曲线自然被归入同一类

12、别,这样初步的聚类也就形成了。下面是训练后的SOM网络对训练集的仿真结果:表1 Somout(步数:10000/25)输入用户12345678激活神经元2811621244542589101112131415161718584836810864365236192021222324252627284949644726321039442930313233343536373821616223516216148394041424344454647481648 725232376419524950515253545556575814746562993242294259606162636465666768

13、436 5842657253364586970717273579336138表2 输入数据对应的SOM网络二维输出层12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364将SOM网络输出层的激活神经元表示为直角坐标系上的坐标点,再把这些二维数据点输入K均值聚类函数进行聚类运算。K均值聚类函数以各元到各自聚类中心的均方差之和作为标准测度,不断叠代,至其收敛,其结果就能在平面上表示为不同的区域,而每一个区域内的点即是

14、被归为同一类的SOM激活神经元。图6 K均值聚类结果(5类)SOM网络聚类的结果为输入数据映射到输出平面的激活神经元,K均值聚类结果为激活神经元在二维平面上按照各元到中心的均方差之和进行迭代收敛操作而得到的5个分类。将SOM网络的聚类结果与K均值的聚类结果通过对激活神经元的操作对应联系起来,就能把输入的数据集划分为5类,即得到聚类模块的输出结果:表3 Clustering Module Results类别用户序号11038401521466722502432355272233036395121433434441455560375658896168174819203459646966714231

15、37491326232529426547547062635146111618272851535773每一类的用户负荷特性曲线如下面5张图表所示:图7 第一类曲线图8 第二类曲线图9 第三类曲线图10 第四类曲线图11 第五类曲线上面5张图表分别表示了属于5个类别的电力用户日负荷特性曲线。可见73个用户被很好的分为了5类:同类曲线形态相近,而不同类的曲线形态明显相异。对每一类中的所有用户曲线进行平均化操作,就可以得到5个具有代表性的特性曲线,这就是用于表征各自类别的典型负荷曲线:+1类 O2类 3类 4类 *5类图12 最终聚类结果如图所示,对73个用户的分类效果非常明显,通过对曲线的分析也能够

16、挖掘出一些具体的信息:第1类用户属于避峰用户,聚到这一类的用户一般是在夜间用电,以避开常规上班和居民生活的用电高峰时段,缓解了供电紧张情况,同时也降低了用电成本;第2类用户属于常规工作用户,聚为该类的用户大多是工厂、学校、公司等按正常上班时间用电的单位;第3类曲线相对比较平缓,可能代表了常设工作岗位;第4类曲线属于居民生活用电曲线,归为这类的用户大都是下班之后回家,通过下厨、照明等行为用电的居民用户;第5类用户曲线比较平缓,夜间用电量稍微低一些,但起伏不大,可能是白天需电量不大的常规工作单位。3.3 分类模块表4 规范化负荷形态指标参量 定义 定义时段负荷率 1天峰谷差率 1天曲线走向 上午:

17、210 下午:1523午间载荷率 1天(午间:1113)夜间载荷率 1天(夜间:06以及23)ID3算法要求其分类属性为名词性属性,所以需要先对所有用户的典型负荷特性曲线作离散拟合。这里根据负荷率、峰谷差率、曲线走向、午间载荷量和夜间载荷量取合适的界定范围完成属性拟合。表5 负荷特性属性集分类属性a1负荷率<0.6低, 0.60.76)中, >=0.76高a2峰谷差率<0.65低, 0.650.9)中, >=0.9高a3曲线走向<-0.1上升, -0.10.1)不明显, >=0.1下降a4午间载荷量<0.09较低, 0.090.12)适中, >=

18、0.12较高a5夜间载荷量<0.2较低, 0.20.45)适中, >=0.45较高目标属性d1所属聚类class1,class2,class3,class4,class5每一个名词性属性包含3个取值,在接下来的决策树中就可以作为属性结点的3个树枝,以便对负荷根据不同属性进行分类。这样拟合后得到的用户属性集就可以直接用于构造决策树了。把上述属性表载入ID3算法程序中进行训练,得到一棵决策树。夜间载荷量曲线走向曲线走向峰谷差率午间载荷量午间载荷量负荷率负荷率222224344无5无121较低适中较高上升不明显高较低适中较高上升不明显下降较低适中较高低中高低中下降低中高55图13 负荷特

19、性决策树这里随机取2个用户作为例子输入该决策树,测试其分类效果。例如,数据集中第5个用户的夜间载荷量“较低”、曲线走向“下降”,则按照树形理出来的叶结点为“2”,那么它就归为第2类用户;第34个用户的夜间载荷量“适中”、曲线走向“上升”、午间载荷量“较高”,按其分类属性值梳理出来的叶结点是“3”,则第34个用户属于第3类用户。以此类推,每一个用户都能根据自己的分类属性值在决策树中找到各自所属的分组。如果训练集足够大,样本分布足够广,就能够使决策树普遍适用,达到准确分类预测的功能。在分类算法的最后,将名词性属性还原到连续值,按照决策树的根、枝、叶的隶属、并列等关系导出一个负荷特性规则集,以便于对

20、负荷分类预测的实际应用。表4-6 负荷特性规则集if a5<0.2then class2if a50.20.45) and a3<-0.1 and a4<0.09then class4if a50.20.45) and a3<-0.1 and a40.090.12) and a1<0.76then class4if a50.20.45) and a3<-0.1 and a4>=0.12then class3if a50.20.45) and a3-0.10.1)then class5if a50.20.45) and a3>=0.1 and a1

21、<0.6 and a20.650.9)then class1if a50.20.45) and a3>=0.1 and a1<0.6 and a2>=0.9then class2if a50.20.45) and a3>=0.1 and a1>=0.6then class5if a5>=0.45then class14 结论与展望本文提出的体系能够从电力用户数据集中获取一套表征为各类负荷特性的用户分组和一个表征为负荷特性决策规则集的分类预测模型 ,对负荷特性研究工作非常有帮助,也能支持实际的应用。如果该体系能在计算速度、数据处理量和鲁棒性方面不断改进和完善,它将可以作为一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论