




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
01数据预处理通过AMI,配电公司得以掌握海量的用户配电数据。然而所获得的用户配电数据往往具有数量庞大、密度高、数据间特征差异不明显、部分数据丢失等特点,带来求解速度慢、结果准确率低、算法耗时较长等问题。获得的配电数据不宜直接使用,需要经过一系列数据预处理,本文采用Z-score数据标准化放大数据特征差异,采用t-SNE降维处理降低数据密度,削弱畸形数据干扰,实现保留数据主要特征、凸显特征差异、提纯数据的目的,为后续算法实现相位识别提供数据基础。1.1
Z-score数据标准化在相位识别时,希望能保留用户数据的整体分布特性,避免数据量级差异过大干扰分析结果。Z-score标准化是一种特征缩放的方法,它可以将原始的有量纲数据变为无量纲数据,在不改变数据分布的同时,将原有的数据分布变换为均值为0、方差为1的标准正态分布,使数据按照比例缩放,落入指定区间。该方法保留了原始数据特征,适合处理用户配电数据。Z-score标准化过程如下。本文选取用户台区同一日内相同时刻下用户日电压数据作为分析数据。定义用户日电压数据矩阵U为式中:N为台区用户总数;t为该日选取的时刻点总数。以用户1在该日的日电压数据向量
U1=[u1,1u1,2⋯u1,t]为例,Z-score标准化的计算方式为式中:
μ1
为用户1的日电压数据的均值;
σ1
为用户1的日电压数据的标准差;为经过Z-score标准化处理后的用户1的日电压数据向量。通过上述公式,可得到处理后的标准化用户电压数据,此时该数据维数仍与原数据维数保持一致,但数据分布变为标准正态分布。1.2
t-SNE降维处理流形学习(manifoldlearning)是在2000年被首次提出的概念,如今已成为信息科学领域的研究热门。流形学习假设数据是由一个低维流形向高维欧氏空间映射的结果,而流形学习的方法就是从高维欧氏空间中把低维流形的结构恢复出来,并求出相应的嵌入映射,实现数据简化。随机邻域嵌入(stochasticneighborembedding,SNE)是一种典型的流形学习方法,该方法基于高斯分布,但存在梯度计算复杂、数据拥挤问题。t-SNE是将t分布和SNE结合起来的改进方法,解决了原SNE存在的数据拥挤问题,对高维数据集有良好的处理效果。t-SNE共分为3个步骤。1)求解标准化用户数据集的高斯概率分布矩阵P。对于P中第i行第j列的元素pij,计算公式为式中:
pj|i
为用户j是用户i邻近点的概率;pij为用户i和用户j之间的联合概率密度;
σi
为以用户i为中心的高斯概率分布的标准差,通常由二分搜索的方式求解得出。2)求解低维用户数据集的t概率分布矩阵Q。对于Q中第i行第j列的元素qij,计算公式为式中:Y为随机选定的一个初始化低维数据集;qij为低维空间中用户i和用户j之间的联合概率密度。3)计算Kullback-Leible(KL)散度,迭代求解出低维数据集Y。为衡量高维空间和低维空间之间的相似性,可采用KL散度的概念,KL散度主要用来描述2个概率分布的差异,KL散度
C
定义为C
的值越小,说明降维前后用户之间的相对分布越一致,意味着经过处理后所得的低维数据集越能代替标准化用户数据集。由
C
对
Yi
求偏导得迭代计算式为式中:
η
为学习率;
α
为动量因子。反复迭代,求解式(9)直至ΔY小于等于设定阈值,此时所得的低维数据集Y与标准化用户数据集数据分布保持一致,有效剔除了标准化数据集中的无用信息,降低了标准化数据集的维度。02放射传播聚类算法AP聚类算法是一种基于信息传递的无监督学习算法,其基本思想在于认为所有数据点都有成为聚类中心的可能,通过在不同点之间传递信息,逐步筛选出聚类中心,直至聚类中心稳定。2.1
相似度AP聚类算法以数据点之间的相似度距离构成的相似度矩阵S作为输入,根据实际情况可采用不同的距离概念如欧式距离、夹角余弦、曼哈顿距离等。本文采用数据点i、k之间欧式距离的负值定义相似度矩阵元素
S(i,k),假如以二维空间为例,相似度计算公式为式中:xi和xk分别为二维数据点i和k的横坐标;yi和yk分别为二维数据点i和k的纵坐标,其他维空间的相似度计算公式亦是同理。
S(i,k)越大,说明点i和点k越相似,也表示点k作为点i的聚类中心的能力越强。对于相似度矩阵主对角线元素
S(k,k),称其为参考度p,
S(k,k)表示的是点k作为聚类中心的可能程度,由相似度的概念可知
S(k,k)应为0,但在AP聚类算法中,
S(k,k)设置为相似度矩阵的平均值或最小值,本文取平均值。2.2
吸引度和归属度定义
r(i,k)为点k对点i的吸引度,表示的是点k适合作为点i的聚类中心的程度;定义
a(i,k)为点i对点k的归属度,表示的是点i选择点k作为其聚类中心的认可程度。
r(i,k)和
a(i,k)共同反映点k作为点i的聚类中心的可能性。AP聚类算法通过不断地交替更新每个点的吸引度和归属度的值,直至达到最大迭代次数或聚类中心稳定不再改变。2.3
更新过程在算法开始时,所有数据点的吸引度和归属度均置为0。首先计算吸引度。当
i≠k
时,吸引度
r(i,k)为当
i=k
时,吸引度
r(k,k)为式(11)和(12)说明所有候选点即有机会成为聚类中心的点之间相互影响,所有候选点都将参与到点的归属权中,更新后
r(i,k)表示相比于最强的竞争点,点k在争取点i时所具有的优势程度。此时
r(i,k)仅考虑了点k成为点i聚类中心的可能性,但没有考虑点k是否会成为其他点的聚类中心,所以还需要计算归属度。当
i≠k
时,归属度
a(i,k)为当
i=k
时,归属度
a(k,k)为式(13)说明更新后
a(i,k)等于自我吸引度
r(k,k)加上来自除点i、k外其他点的正向吸引度之和,且求出的值不得超过0。式(14)说明自我归属度
a(k,k)的值等于从除点k外其他点的正向吸引度之和。吸引度和归属度更新的示意如图1所示。图1
更新示意Fig.1
Updatediagram在更新过程中,为防止出现数据振荡,导致聚类中心不能稳定下来,影响聚类效果,引入阻尼因子λ,即式中:t为迭代的次数;
λ∈(0,1),本文
λ=0.5。反复迭代更新,直至吸引度和归属度稳定后,数据点i所归属的聚类中心k为即k为使
a(i,k)+r(i,k)取得最大值时的取值。2.4
评价指标为判断相位识别结果的好坏,须采用合适的评价指标衡量识别结果。评价指标分为内部指标和外部指标,外部指标需要借助实际结果情况做出比对分析,内部指标则直接对计算结果做出评估,无须借助实际结果。本文采取以下几个外部指标衡量识别效果。1)改进兰德系数(adjustedRandindex,ARI)。兰德系数(Randindex,RI)是一种常见的聚类评价指标,用来衡量两个数据集的吻合程度。现定义兰德系数
λRI
为式中:λTP指在实际结果中被归为同一类,在聚类结果中也被归为同一类的数据点对数;λTN指在实际结果中被归为不同类,在聚类结果中也被归为不同类的数据点对数;N为数据点总数;CN为数据点总数为N的组合数。RI的缺点在于区分度不够,因此更多采用的是改进兰德系数λARI,即式中:
E(λRI)指RI的数学期望。λARI用于衡量分类正确的用户在所有用户中的占比,取值为[–1,1],聚类结果越准确,λARI的值越接近1。2)FM指数(FowlkesMallowsindex,FMI)是由聚类结果和实际结果计算得到的准确率和召回率的几何平均值,则FM指数
λFMI
为式中:λFP指在实际结果中被归为不同类,但在聚类结果中被归为同一类的数据点对数;λFN指在实际结果中被归为同一类,但在聚类结果中被归为不同类的数据点对数。λFMI用于衡量分类正确和分类错误的用户间相对比例,取值为[0,1],λFMI越接近1,说明聚类结果和真实情况越吻合。03相位识别流程采用第1章的数据预处理方法,得到保留主要特征的数据集,作为第2章的放射传播聚类算法的输入,得到识别结果,与真实结果相比较,完成对低压台区用户相位的识别,具体步骤为:1)对原始数据集进行数据清洗,去除电压值全为零、计量周期内电压不变、数据缺失严重的用户。2)使用Z-score标准化和t-SNE降维对清洗后的数据集进行处理,获得包含主要数据特征和数据分布特性的降维后数据集。3)设定AP聚类算法的参考度p、最大迭代次数n、阻尼因子λ,计算相似度矩阵S,初始化吸引度r和归属度a。4)由式(11)~(14)更新吸引度和归属度,直至吸引度和归属度稳定或迭代次数达到最大值。5)确定所有点的聚类结果,根据评价指标,评估聚类效果。识别流程如图2所示。图2
相位识别流程Fig.2
Flowchartofphaseidentification04算例分析
本文以某市2个小区为例,按照15min的时间间隔采集一天共96个计量点(T=96)的电压数据,小区1共包含136个用户,小区2共包含147个用户,对于部分缺失值,采用插值法补全。部分台区用户日电压曲线如图3和图4所示。图3
台区1用户日电压曲线Fig.3
Dailyvoltagecurveofstationarea1users图4
台区2用户日电压曲线Fig.4
Dailyvoltagecurveofstationarea2users4.1
t-SNE处理前后相关性分析对台区1、2用户日电压数据做出Z-score数据标准化后,采用t-SNE对台区1、2标准化用户日电压数据集降维处理。为分析t-SNE降维效果,以台区2为例,设定t-SNE降维的目标维数为2维,根据处理前后的用户日电压数据集计算用户间电压相关系数,并绘制相关系数热力图如图5和图6所示。图5
经t-SNE处理前台区2用户相关系数热力图Fig.5Thermaldiagramofstationarea2usersrelatedindexbeforet-SNEprocessing图6
经t-SNE处理后台区2用户相关系数热力图Fig.6Thermaldiagramofstationarea2usersrelatedindexaftert-SNEprocessing由图5分析可知:经t-SNE降维处理前的台区2用户间相关系数均大于0.95,由相关系数阈值表可知,经t-SNE降维处理前用户间相关性极强,用户间区分彼此的特征不明显,说明经t-SNE降维处理前的台区2用户日电压数据集不利于后续算法抓住用户日电压曲线特征进行区分;经t-SNE降维处理后,相关系数热力图出现明显变化,由图6可看出,用户间相关系数大幅度降低,部分用户间已无相关性,此时用户日电压曲线特征得以凸显,且处理后的用户日电压数据集降到2维,数据维度得到极大压缩的同时还保留了数据特征,证明了本文采取的t-SNE降维处理的有效性。4.2
识别结果分析和对比方法分析对原有用户日电压数据做出数据预处理后,采用AP聚类算法,对得到的用户日电压低维数据集进行聚类,依次取不同的参考度,计算后得到聚类簇数变化如图7所示。图7
台区1和2取不同参考度的聚类簇数Fig.7
Thenumberofclusterswithdifferentpreferencesinstationareas1and2由图7可以看出,聚类簇数随参考度绝对值的不断增大而逐渐减少,簇数为3或者1时逐渐稳定。考虑到当参考度绝对值足够大时,所有用户必然归于同一集合,因此聚类簇数为1不具有实际意义,实际簇数应为3。对于台区1,当参考度达到–450时,簇数达到3并且趋于稳定;对于台区2,当参考度达到–400时,簇数达到3并且趋于稳定。选取台区1参考度为–450,台区2参考度为–400时,两台区的聚类效果如图8和图9所示。图8
台区1聚类效果Fig.8
Clustereffectofstationarea1图9
台区2聚类效果Fig.9
Clustereffectofstationarea2为证明本文方法在相位识别问题中的准确性,采用相同的评价指标,将本文方法与未经标准化和降维处理的AP聚类、相关系数法、多元线性回归做比较,分别计算评价指标,识别结果评价指标对比如表1所示。表1
各相位识别方法评价指标对比Table1
Comparisonofevaluationindexesofeachphaseidentificationmethod由表1可知,对于台区1和台区2用户日电压数据,本文所采用的方法在评价指标上均为最高。对原始用户日电压数据集不采用数据预处理,直接使用放射传播聚类算法进行相位识别,ARI和FMI指数出现明显下降,这证明本文采用的Z-score数据标准化和t-SNE降维的数据预处理方法有效提高了识别准确率,说明降维后的用户日电压数据集保留了原始数据集的主要特征和数据分布,减少了高维数据集带来的冗余信息的干扰。为进一步验证本文方法的有效性,采取其他降维方式如线性降维中的典型方法—主成分分析(PCA)以及不同聚类方法进行相位识别,并设置不同降维维度做横向比较,结果如表2~4所示。表2
各相位识别方法评价指标对比(维度为2)Table2
Comparisonofevaluationindexesofeachphaseidentificationmethod(dimensionis2)
表3
各相位识别方法评价指标对比(维度为3)
Table3
Comparisonofevaluationindexesofeachphaseidentificationmethod(dimensionis3)
表4
各相位识别方法评价指标对比(维度为4)Table4
Comparisonofevaluationindexesofeachphaseidentificationmethod(dimensionis4)由表2~4可以看出,采用相同聚类算法时,作为非线性降维的t-SNE降维识别准确率要大于作为线性降维的PCA,这是因为PCA易丢失数据的分布特性,导致压缩后的数据集信息完整程度下降,所以不同维度时整体的识别准确率要低于保留了完整数据分布特性的t-SNE降维。此外,由表2~4还可以看出,不同维度但降维方法相同时,AP聚类的识别准确率整体上要高于DBSCAN聚类,说明AP聚类算法在相位识别问题上具有一定的优势。在降维维度等于2时,使用t-SNE降维的识别准确率较高,说明选取该维度作为目标维度较合适,符合以往行业人员的经验。4.3
数据采集频率及计量误差对识别效果的影响分析在实际现场中,由于不同用户智能电表可能存在配置不同或老化问题等原因,所采集的电压数据可能存在采集频率不同和计量误差问题,为分析这些因素带来的影响,本文设置15min、30min、1h、3h等4种采集间隔,以及0、0.1%、0.3%、0.5%等4种计量误
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度智慧城市员工合作协议书
- 2025年度银行资金监管与体育产业合作协议
- 二零二五年度油罐租赁与仓储物流服务合同
- 二零二五年度学校临时教师聘用合同书-体育专项技能培养
- 2025年度生物科技企业劳动合同年签生物技术成果转化合同
- 二零二五年度出租车品牌使用权及运营权转让协议
- 二零二五年度广州商铺租赁合作协议
- 2025年度诊所与信息技术人员劳动合同
- CPMM学习的循序渐进方法试题及答案
- 消防设施日常维护基础知识试题及答案
- 消防应急疏散演练课件
- hsk5-成语学习知识
- GB/T 16799-2018家具用皮革
- 南京市2018小升初简历
- 重症感染与抗生素的选择课件
- 截流式合流制管道系统的特点与使用条件课件
- 应急管理工作检查记录表
- 四年级下册英语课件:Unit 4 There are seven days in a week-Lesson 19人教精通版
- 千分尺公开课教案
- 加油站承重罐区安全风险及管理
- 箱变施工安全文明保证措施
评论
0/150
提交评论