版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、本文完整的叙述了数据分析实战项目“电力窃漏电用户自动识别”,包括数据探索分析、数 据预处理、专家样本的构建、模型的构建以及模型的评价等。1. 背景方而传统的防窃漏电方法主要通过左期巡检、泄期校验电表、用户举报窃电等方法来发现窃 电或讣疑装置故障。但这种方法对人的依赖性太强,抓窃査漏的目标不明确。通过采集电量 异常、负荷异常、终端报警、主站报警、线损异常等信息,建立数据分析模型,来实时监测 窃漏电情况和发现计量装置的故障。本次数据挖掘与数据分析目标:(1)归纳出窃漏电用户的关键特征,构建窃漏电用户的识别模型;(2)利用实时监测数据,调用窃漏电用户识别模型实现实时诊断;2. 分析过程窃漏电用户在电
2、力计量自动化系统的监控大用户中只占一小部分,同时某些大用户也 不可能存在窃漏电行为,如银行、税务、学校和工商等非居民类别,故在数据预处理时候有 必要将这些类别用户剔除。系统中的用电负荷不能直接体现出用户的窃漏电行为,终端报警存在很多误报和漏报 的情况,故需要进行数据探索和预处理,总结窃漏电用户的行为规律,再从数据中提炼岀描 述窃漏电用户的特征指标。最后结合历史窃漏电用户信息,整理出识別模型的专家样本数据集,再进一步构建分 类模型,实现窃漏电用户的自动识别。窃漏电用户识别流程如下图所示,主要包括以下步骤:业务系统数据抽取数据探索与预处理建模&诊断结果&反馈每大实时抽取W史数据 实
3、时诊断数据缺失值处理数据变换数据探索分析建模样木数据颅处理后诊断数据A动诊断模型优化与更构诊断结果图6-1窃漏电用户识别流程(1)从电力计量自动化系统、营销系统有选择性地抽取部分大用户用电负荷、终端报警及 违约窃电处罚信息等原始数据。(2)对样本数据探索分析,剔除不可能存在窃漏电行为行业的用户,即白需单用户,初步 审视正常用户和窃漏电用户的用电特征。(3)对样本数据进行预处理,包括数据淸洗、缺失值处理和数据变换。(4)构建专家样本集。(5)构建窃漏电用户识别模型。(6)在线监测用H用电负荷及终端报警,调用模型实现实时诊断。数据抽取与窃漏电相关的原始数据主要有用电负荷数据、终端报警数据、违约窃电
4、处罚信息以及用户 档案资料等,故进行窃漏电诊断建模时需从营销系统和计虽:自动化系统中抽取如下数据。1)从营销系统抽取的数据主要如下:用户基本信息:用户需称、用户编号、用电地址、用电类別、报装容量、计量方式、电流互 感器变化、电压互感器变比;违约、窃电处理记录:计量方法及依据:2)从计量自动化系统采集的数据属性主要如下:实时负荷:时间点、计量点、总有功功率、A/B/C相有功功率、A/B/C相电流、A/B/C相电 压、A/B/C相功率因数:终端报警。为了尽可能全而覆盖各种窃漏电方式,建模样本要包含不同用电类别的所有窃漏电用户及部 分正常用户。窃漏电用户的窃漏电开始时间和结束时间是表征其窃漏电的关键
5、时间节点,在 这些时间节点上,用电负荷和终端报警等数拯也会有一定的特征变化,故样本数据抽取时务 必包含关键时间Yj点前后一疋范帀的数据,并通过用户的负荷数据计算岀当天的用电量,公 式如下:fz =0.25* Ds¾e 天fl为第1天的用电量,mi为第1天每隔15分钟的总有功功率,对其累加求和得到当天用电 量。3. 数据探索分析(1)数据分布分析对数据所在时间段的所有窃电用户进行分布分析,统讣岀各个用电类别的窃漏电用户分布 情况,如下图所示。从下而的结果可以看出非居民类別不存在窃漏电情况,故在接下来的分 析中不考虑非居民类別的用电数据。14用电类别窃漏电悄况大工业 非工业 居民生活农业
6、生产普通工业 商业图6-2用电类别窃漏电情况图(2)数据周期性分析如下图所示分别为一个正常用电用户和一个窃漏电用户的用电量统计结果。可以 看出正常用户用电量比较平稳,没有太大的波动,这就是用户正常用电的电量指 标特征。而从窃漏电用户的统汁中就能看出用户用电量有明显的下降趋势,这就 是用户异常用电的电量指标特征。综上所述,正常用电到窃漏电过程是用电量持续下降的过程。60005500正常用电用户电量趋势图6-3正常用电用户电址档势图4.数据预处理针对上述问题的数据预处理包括数据清洗、缺失值处理和数据变换等方面。4. 1数据清洗数据清洗主要从业务以及建模相关需要方面考虑,筛选岀需要的数据。本案例 主
7、要进行以下操作:(1)通过数据的探索分析,发现在用户类别中,非居民用电类别不可能存在窃 漏电现象,需要将非居民用电类别的用电数据过滤掉;(2)结合相关业务分析,节假日用电量与工作日相比,会明显降低。为了尽可 能达到较好的数据效果,过滤掉节假日的用电数据。4. 2缺失值处理在原始讣量数据,特别是用户电量抽取过程中,发现存在缺失值。若将这些数 据去掉,会严重影响供出电量的讣算结果,最终导致日线损率数据误差偏大。为 了达到较好的仿真效果,需要对缺失值处理,本案例采用拉格朗日插值法对缺失 值进行插补。具体方法如下:首先从原始数据中确定因变量和自变量,取出缺失值前后各5个数据(前后数 据中遇到数据不存在
8、或者为空的,直接将其舍去,将仅有的数据组成一组),根 据取岀来的10个数据组成一组。拉格朗日公式如下:n厶n(") = i=0兀 JJ 工的电=供W)235.8333350.8333478.3231236.2708351.2708515.4564238.0521353.0521517.0909235.9063350.9063514.89236.7604351.7604352.4167486.0912237.4167353.6563516.233238.6563237.6042352.6042435.3508238.0313353.0313487.675235.0729350.0729
9、235.5313350.5313660.2347349.4688621.2346234.4688611.3408235.5350.5643.0863235.6354350.6354642.3482234.5521349.5521236602.9347235.2396350.2396589.3457235.4896350.4896556.3452236.9688351.9688538347其中,X为缺失值对应的下标序号I Ln(X)为缺失值的插值结果,Xi为缺失值yi的下标序号。对全部 缺失数据进行插值,直到不存在缺失值为止。Iibrary(XLCOnneCt)missing_data v XL
10、COnnect:readWorksheetFromFile(file = w.datamissing_data.xls:Sheet = 1, header = FALSE)Iagrange <- function(xr XiJ yi) n <- Iength(xi)Iage <- 0for (i in l:n) Ii <-1for (j in l:n) if (!=j)i<-i*(x-xij)(xii-xij)Iage <- Ii * yii + Iagereturn(lage)missdatamissing_datafor (k in 1:3) X <
11、;- which(is.na(missing_data, k)xl <- c(0, x)×2 <- c(x, nrow(missing_data)xl2 <-×2-xl-lxxl <- xl2l:(Iength(X12) -1) # 缺失值前面的行数 xx2 <- xl22:(Iength(Xl2) # 缺失值后面的行数j<-ifor (m in x) if(x×lj >= 5) #空值前的判断Xi <- (m - 5):(m 1) else Xi <- (m - xxlj):(m -1)if(x×2
12、j >= 5) #空值后的判断Xi OC(XL (m + l):(m + 5) else Xi <- C(Xif (m + l):(m + xx2j)yi <- missing_dataxi, kmissdatamj kIagrange(m, Xif yi)Print(c(mr missdatam, k)j <-j + I4.3数据变换通过电力计量系统采隼的电量、负荷,虽然在一走程度上能反映用户窃漏电行为的某些规律但要作 为构建模型的专家样本,特征不明显,需要进行重新构造。基于数据变换,得到新的评价指标来表征 窃漏电行为所具有的规律,其评价指标体系如图所示。图65窃漏电
13、评价指标体系窃漏电评价指标如下:(1)电量趋势下降指标对统计当天设走前后5天为统计窗口,计算这11天内的电量趋势下降情况。首先计算这11天每天的电量趋势r其中第i天的用电量趋势是考廉前后5天期间的用电量斜率f即: (fl -f)d-i)伦= (6-4) (/-O2 = i-5I i÷5. i+5其中,/ =亓工几 =TT工人化为第i天的电圧的势拆为第/天的用电風ll = -511=-5若电量趙势为不断下降的,则认为具有一走的窃电嫌疑,故计算这11天内,当天比前一天用电量趋势为递减的天数,即设有:D(Z)1,心 < -(6-5)(6-6)则这11天内的电量趋势下降指标为: D(n
14、)n £ -4(2 )轴指标线损率是用于衡量供电线路的损失比例,同时可结合线户拓扑关系计算出用户所属线路在当天 的线损率,一条线路上同时供给多个用户,若第I天的线路供电量为si,线路上各个用户的总用电量可计算出,故线损率公式为:× 100%SI(6-7)大用户1大用户2大川户3线路图6-7线路与大用户的拓扑关系示意图如果用户发生窃电,则当天的线损率会上升,用户每天用电量存在波动,以天 为单位,误差较大,所以考虑前后儿天(5天)的线损率的平均值,判断增长率 是否大于1陰 若大于1%,则认为是窃电。前5天的线损率平均值Vil,后5天 的平均值Vi2,若Vil比Vi2的增长率大于
15、1%,认为有窃电嫌疑。故定义线 损率指标:E(D1,1>1%VIO1%(6-8)(3)告警类指标与窃电相关的终端告警数,计算发生与漏电相关的报窖的总次数。5构建专家样本最终得到的专家样本库如下所示,专家样本共291个.时间用户编号电董趋势 增长指标线损指标吿警类指 标足否窃漏电2014 年 9 月 6口990066715441112014 年 9 月 20 口99006394314041?014 年 9 月 Itrl990058551621112014年9丿打4H990053115490工02O149JJ17H990049105031工02014$9JJ13H99004615012000
16、2014 年 9JJ22H990041259350巨12014年9丿J20H990036613031312014年9月19日990032296030002014 年9月 9 口990025467341002014 年9 月 18 口9900196505101212014 年9 月 16 口9900145248101312014 年 9 月6口990013753520302014 年 9JJ7H990006453740202014 年 9JJ9H911010386730卫02014年9丿J23H90101006890工02O149JJ21H89L0101S4090U12014 年 9 丿 Jll
17、HS91010120900202014 年9 月 19 口8910101132S1412014 年9 月 19 口891010030920402014年9月9 口8S1010146330102014 年 9 月 9口871010085770002014年9丿打6 861010157660002014 年 9 川 20H86101010024122014 年9 丿 J24HS61010061170工06.模型构建数据划分:随机选取20%数据作为测试样本,剩下的80%作为训练样本。#数据划分#设巻工作空间#把“数据及程序”文件夹拷贝到F盘下,再用SetWd设置工作空间SetWd("F:/
18、数据及程序chapter6示例程序")#把数据分为两部分:训练数据、测试数据#读入数据Data <- read.csv(".datamodel.csv")#数据命名COlnameS(Data) <- c(,time", "userid", ,elejnd,z "lossjnd,z "alarmJnd"z "class")#数据分割set.seed(1234) #设置随机种子#定义序列ind,随机抽取1和2的个数占80%, 2的个数占20%ind <- SamPle(2
19、, nrow(Data), replace = TRUE, PrOb = c(0.8, 0.2)train Data <- Dataind = IJ # 训练数据testData <- Dataind = 2,# 测试数据#数据存储write.csv(trainDataz ,.tmptrainData.csv,z s = FALSE)write.csv(testData, ,.tmptestData.csvl,z s = FALSE)Daua291 obs. Of 6 VarlableS记间:FaCtOr w/ 19 IeVelS ,20149月 1
20、0曰”,:16 11 S 5 8 4 13 11 1(用户煽启:num 9.9g+09 9. 9e+09 9.9e09 9.9*09 9. 9e+09 电里迨势增忙指标:Int 4429525334.线损指标:num 1010100101告警类指标:it 1410002200是SSJffi电:in 1110001100 模型选择:窃漏电用户识别可通过构建分类预测模型来实现,比较常用的分类预测有LM神 经网络和CART决策树,各个模型都有优缺点,故采用这两种方法构建窃漏电用户识别,并 从中选择最优的分类模型。LM神经网络模型如下:输入节点:3 ,输出节点:IJ隐藏节点:10 J权值的衰减参数0.
21、05#神经网络模型构建#设置工作空间#把"数据及程序”文件夹拷贝到F盘下,再用SetWd设置工作空间SetWd(下:/数据及程序chapter6示例程序J#读取数据train Data <- read.csv(".datatraiData.cSVH)#将CIaSS列转换为factor类型trainData <- transform(trainDataz ClaSS = as.factor(class)#神经网络模型构建Iibrary(nnet) # 加载 nnet 包#利用nnet建立神经网络nn et.model <- nn et(class elej
22、nd + IOSSnd + alarmjnd, train Data,SiZe = IOf decay = 0.05)SUmmary( nn et.model)#建立混淆矩阵COnfUSiOn <- table(trainData$CIaSSr PrediCt(nnet.modelf trainDataztype = "class")accuracy <- SUrn(diag(confusion) * IOO / SUm(COnfusion)#保存输出结果OUtPUt_nnet.trainDatacbind(trainData, PrediCt(nnet.mod
23、el, trainDataztype = "class")COlnameS(OUtPUCnnet.trainData) <- C(COlnameS(trainData)r "OUTPUT”) write.csv(output_nnet.trainData, w.tmpOUtPULnnet.trainData.csv s = FALSE)#保存神经网络模型save(nnet.modelf file = .tmpnnet.model.RDataM)CART决策树模型构建#构建CART决策树模型#设巻工作空间#把“数据及程序”文件夹拷贝到F盘下,再
24、用SetWd设置工作空间SetWd("F:/数据及程序chapter6示例程序")#读取数据trainData <- read.csv(,.datatrainData.csv)#将CIaSS列转换为factor类型trainData transform(trainDataz ClaSS = as.factor(class)#构建CART决策树模型Iibrary(tree)#加载 tree 包#利用tree建立CART决策树tree.model <- tree(class Z elejnd + IOSSJnd + alarmJndz trainData)SUmma
25、ry(tree.model)#画决策树图plot(tree.model) te×t(tree.model)#建立混淆矩阵COnf USiOn <- table(trainData$CIaSSz PrediCt(tree.model, train Data,type = "class11)accuracy <- SUm(diag(confusiOn) * IOO / SUm(COnfusiOn)#保存输出结果OUtPUtetree.trainData <- Cbind(trainData, PrediCt(tree.model, trainData, typ
26、e <- ,classu)COlnameS(OUtPUt-tree.trainData) <- C(COlnameS(trainData), "OUTPUT,)write.csv(output-tree.trainDataz ,.tmpOUtPUt-tree.trainData.csv,row. names = FALSE)#保存CART决策树模型save(tree.modeljile = ,.tmptree.model.RData11)lossalarm-xi<1.5alsnij Kj < 2 Sj<25aiarrnj Id < 0.5IOSSj( a V 0.5ete ind< 1.50IF 25OOI模型建立后,得到对训练数据的混淆矩阵,通过汁算预测准确率等指标对模型进行初步评价。为了进一步评估模型的分类性能,利用之前的20%测试样本进行预测。采用ROC曲线评价 方法,一个优秀的分类器所对应的ROC曲线应该是尽可能靠近左上角的。分别画出LM神经 网络和CART决策树在测试样本下的ROC曲线,对模型进一步评估。# ROC曲线#设豊工作空间#把“数据及程序”文件夹拷贝到F盘下,再用SetWd设置工作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 统编人教版六年级语文上册第2课《丁香结》精美课件
- 摩托车手买卖合同手摩托车买卖合同模板
- 平整场地合同书
- 围栏安装合同范本
- 回归分析教育课件
- 酒店保洁外包合同范本
- 《工程质量问题汇编》课件
- 产品销售协议合同范本
- 财政请示报告范文
- 区域独家代理合同模板
- NB-T+31010-2019陆上风电场工程概算定额
- 2024广西水利电力职业技术学院教师招聘考试笔试试题
- 在线网课知道智慧《大学物理(三峡大学)》单元测试考核答案
- 养生防治及康复原则
- 商业伦理与企业社会责任(山东财经大学)智慧树知到期末考试答案章节答案2024年山东财经大学
- 《智慧农业》课件
- 原地投垒球教案
- 《世界现代设计史》课件-第10章各国设计简史
- 医务科工作制度及流程(全套)
- 裸眼3D项目方案
- 公车拍卖质量保证措施
评论
0/150
提交评论