![能源系统人工智能方法 课件 第3、4章 无监督学习、监督学习方法_第1页](http://file4.renrendoc.com/view12/M09/03/17/wKhkGWX9ceyAAQqxAAGGHKsvCjQ153.jpg)
![能源系统人工智能方法 课件 第3、4章 无监督学习、监督学习方法_第2页](http://file4.renrendoc.com/view12/M09/03/17/wKhkGWX9ceyAAQqxAAGGHKsvCjQ1532.jpg)
![能源系统人工智能方法 课件 第3、4章 无监督学习、监督学习方法_第3页](http://file4.renrendoc.com/view12/M09/03/17/wKhkGWX9ceyAAQqxAAGGHKsvCjQ1533.jpg)
![能源系统人工智能方法 课件 第3、4章 无监督学习、监督学习方法_第4页](http://file4.renrendoc.com/view12/M09/03/17/wKhkGWX9ceyAAQqxAAGGHKsvCjQ1534.jpg)
![能源系统人工智能方法 课件 第3、4章 无监督学习、监督学习方法_第5页](http://file4.renrendoc.com/view12/M09/03/17/wKhkGWX9ceyAAQqxAAGGHKsvCjQ1535.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
无监督学习—Clustering&AssociationRule能源系统人工智能方法
第三节能源系统运行过程中会产生海量的数据数据特点:变量种类多、数据体量大、价值密度低、数据标签稀缺背景如何从繁杂的数据中提取有用的信息?2数据挖掘技术被认为是解决这一问题的方法背景DataminingHVACsystemoperationdata高价值数据3背景无监督学习算法是常用的数据挖掘方法:无监督学习:样本的标记信息未知,通过对样本的学习来揭示数据的内在性质和规律的过程对数据做进一步分析有价值知识4背景无监督学习算法典型能源应用场景:5背景无监督学习的一般流程:数据预处理无监督数据挖掘知识后挖掘6背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲7聚类的定义数据聚类结果示意图聚类结果:算法自动生成簇的意义:由使用者定义聚类(Clustering):将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)三个聚类簇8数学表达样本集D:包含m个样本每个样本xi:为一个包含n个数的向量聚类过程:基于样本间的相似程度将样本集中的样本划分为k个子集(聚类簇)聚类目的:得到包含每个样本归属于哪个簇的簇标记向量
x聚类簇数目k=2x1x3x2x4x5x6聚类算法1x2x3x4x5x6样本集(样本数m=6)聚类簇1聚类簇2x11x12含n=2个数9相似性度量相似性度量:用于定量估计样本间的相似程度分类:几何距离的性质:非负性:样本之间的距离大于等于0同一性:相同样本间的距离为0对称性:样本互相交换位置不改变结果直递性:两点之间直线距离最短10相似性度量-几何距离-闵可夫斯基距离闵可夫斯基距离:范围∈(0,∞),越大越不相似样本和的距离计算公式:p值不同时,具有不同的名称以及计算公式:几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数
p=∞:切比雪夫距离p=2:欧式距离p=1:曼哈顿距离11二维空间中的三种距离展示红色点划线:曼哈顿距离,温湿度差值绝对值之和黄色直线:欧氏距离,两点之间的直线距离蓝色虚线:切比雪夫距离,温湿度差值绝对值的最大值相似性度量-几何距离-闵可夫斯基距离几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数12马拉哈诺比斯距离:适用于衡量量纲存在显著差异的样本间的相似度实例展示:相似性度量-几何距离-马拉哈诺比斯距离几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数使用欧氏距离进行聚类d1
将纳入绿点使用马拉哈诺比斯距离进行聚类d2
将纳入绿点d1d2d1d2d1<d2d1>d225~35℃40~90%40~90%可看作是欧氏距离的推广取值差异过大13马拉哈诺比斯距离计算示例:数据来源:7个房间同一天的室内信息房间平均温度(ºC)平均相对湿度(%)房间123.969.0房间227.361.0房间325.170.1房间428.365.2房间526.267.0房间624.872.4房间727.766.5相似性度量-几何距离-马拉哈诺比斯距离几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数计算公式:样本向量样本矩阵的协方差矩阵14马拉哈诺比斯距离计算示例:将表中数据写入一个7×2的矩阵计算Xt的协方差矩阵S以及它的逆S-1:计算xi和xj之间的马拉哈诺比斯距离相似性度量-几何距离-马拉哈诺比斯距离几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数15余弦距离:通过计算两个样本向量的夹角余弦值评估两者相似度几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数相似性度量-几何距离-余弦距离三个样本计算公式实例展示:角α<角β→cos(α)>cos(β)→distS(x1
,x2)<
distS(x1
,x3)→x1与x2更相似相似不相似16余弦距离计算示例:余弦距离的计算公式房间1的室内环境向量:x1=
(23.9,69)
房间2的室内环境向量:x2=(27.3,61)x1与x2的余弦距离:几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数相似性度量-几何距离-余弦距离17皮尔逊相关系数:衡量两个样本之间的线性相关性取值∈(-1,1)
正值表示正相关,负值表示负相关相似性度量-相关系数-皮尔逊相关系数几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数相关性强相关性弱18协方差Cov(Xi,Xj)标准差σXi*σXj皮尔逊相关系数计算示例:时间建筑1能耗(kW)建筑2能耗(kW)9:005.89.210:007.611.211:007.813.912:0010.414.813:008.915.614:005.911.515:004.19.2建筑1的能耗向量x1建筑1的能耗向量x2相似性度量-相关系数-皮尔逊相关系数相关系数:19斯皮尔曼相关系数:用途:衡量样本之间的单调相关性几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数单调性与线性的区别:计算示例:房间1温度房间2温度满足点调性不满足线性原始样本元素转化为降序位置作差相似性度量-相关系数-斯皮尔曼相关系数20斯皮尔曼相关系数计算示例:时间建筑1能耗(kW)建筑1能耗降序位次建筑2能耗(kW)建筑2能耗降序位次9:005.869.26.510:007.6411.2511:007.8313.9312:0010.4114.8213:008.9215.6114:005.9511.5415:004.179.26.5相似性度量-相关系数-斯皮尔曼相关系数建筑2原始能耗向量x2,位次向量x2’
建筑1原始能耗向量x1,位次向量x1’
计算式:21相似性度量-总结相似性度量总结:距离度量闵可夫斯基距离:基础的距离指标,p值不同计算公式不同曼哈顿距离:折线距离欧氏距离:直线距离切比雪夫距离:横向距离马拉哈诺比斯距离:在闵可夫斯基距离的基础上,消除了由于变量取值范围不同造成的影响余弦距离:两个样本向量的夹角,与位置无关相关系数度量皮尔逊相关系数:衡量线性相关性斯皮尔曼相关系数:衡量正负相关性(包括线性与非线性相关)22三个聚类簇23聚类性能评价如何用数学公式(或者程序流程)来定义什么是好的聚类?聚类性能评价:对聚类结果进行评估内部评价指标:根据聚类簇之间的相似度来评价聚类结果外部评价指标:根据聚类结果与真实结果进行比较来评价聚类结果指标分类:聚类性能评价24轮廓系数(SilhouetteCoefficient):对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。轮廓系数的取值范围是[-1,1],同类别样本距离越相近不同类别样本距离越远,分数越高。聚类性能评价-内部评价指标-轮廓系数样本i的轮廓系数计算式ai:样本i与簇内其他样本的平均距离(图中红色线段长度的均值)bi:样本i与其他簇样本的平均距离(图中绿色线段长度的均值)样本i与其他簇样本的距离i内部评价指标:轮廓系数戴维森堡丁指数邓恩指数外部评价指标纯度兰德系数F值样本i与簇内其他样本的距离25计算示例:使用轮廓系数评价聚类结果的好坏10个样本的聚类结果如下评价指标中样本间距离计算均使用欧式距离房间平均温度(ºC)平均相对湿度(%)聚类簇房间137.868.61房间237.268.51房间336.769.91房间423.974.62房间522.876.12房间621.185.22房间720.081.72房间830.163.73房间928.367.13房间1027.865.23聚类性能评价-计算示例26轮廓系数计算示例:以聚类簇1中的样本1为例:样本1与同簇其他样本的平均距离为:聚类性能评价-计算示例-轮廓系数与聚类簇2(C2)内样本的平均距离为:与聚类簇3(C3)内样本的平均距离为:与聚类簇2和3的平均距离的最小值为:样本1的轮廓系数:27所有样本的轮廓系数计算结果样本序号aibisi11.169.770.8821.059.180.8931.599.320.8346.9710.470.3355.7912.310.5367.9621.290.6376.0118.560.6883.308.920.6392.919.160.68102.3610.200.77聚类性能评价-计算示例-轮廓系数聚类结果的轮廓系数等于si列的平均值:28两个聚类簇中心的距离:戴维森堡丁指数(Davies-bouldinIndex,DBI):该指标用来衡量任意两个簇的簇内距离之后与簇间距离之比。该指标越小表示簇内距离越小,簇内相似度越高,簇间距离越大,簇间相似度低。取值∈(0,∞),值越小聚类效果越好聚类性能评价-内部评价指标-戴维森堡丁指数簇内样本与簇中心距离,其均值:内部评价指标:轮廓系数戴维森堡丁指数邓恩指数外部评价指标纯度兰德系数F值29计算示例:使用戴维森堡丁评价聚类结果的好坏10个样本的聚类结果如下评价指标中样本间距离计算均使用欧式距离房间平均温度(ºC)平均相对湿度(%)聚类簇房间137.868.61房间237.268.51房间336.769.91房间423.974.62房间522.876.12房间621.185.22房间720.081.72房间830.163.73房间928.367.13房间1027.865.23聚类性能评价-计算示例30戴维森堡丁指数计算示例:各聚类簇的中心点:聚类性能评价-计算示例-戴维森堡丁指数每个聚类簇内各样本到该簇中心点的平均距离:31各聚类簇中心点之间的距离:聚类性能评价-计算示例-戴维森堡丁指数该聚类结果的戴维森堡丁指数:32簇内的最远距离:邓恩指数:(DunnIndex)如果一个簇的质心与该簇中的点之间的距离很小,则意味着这些点彼此靠近。取值∈(0,∞),值越大聚类效果越好聚类性能评价-内部评价指标-邓恩指数簇间的最近距离:内部评价指标:轮廓系数戴维森堡丁指数邓恩指数外部评价指标纯度兰德系数F值33计算示例:使用邓恩指数评价聚类结果的好坏10个样本的聚类结果如下评价指标中样本间距离计算均使用欧式距离房间平均温度(ºC)平均相对湿度(%)聚类簇房间137.868.61房间237.268.51房间336.769.91房间423.974.62房间522.876.12房间621.185.22房间720.081.72房间830.163.73房间928.367.13房间1027.865.23聚类性能评价-计算示例34邓恩指数指数计算示例:计算两两聚类簇样本间距离的最小值,以聚类簇1和聚类簇2为例聚类簇1样本序号聚类簇2样本序号4567115.1416.7723.5522.10214.6316.2823.2021.68313.6415.2221.8520.45聚类性能评价-计算示例-邓恩指数最小值不同簇样本间的最小值:各聚类簇内样本间的最远距离:聚类结果的邓恩指数:35基本原理——聚类性能聚类性能总结:内部评价指标:仅从聚类结果的角度评价聚类效果轮廓系数:范围∈(-1~1),值越大聚类效果越好戴维森堡丁指数:范围∈(0~∞),值越小聚类效果越好邓恩指数:范围∈(0~∞),值越大聚类效果越好外部评价指标:需要有标准的分类结果作参考纯度兰德系数F值36在能源领域,聚类任务的性能基本不采用外部评价指标进行评估,因此不再详细展开介绍背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲37原型聚类原型:样本空间中具有代表性的点簇中心的十字表示原型位置定义:原型聚类旨在找到一组能够最大可能刻画原始样本分布的原型原理:随机选取一组原型。然后对原型进行迭代更新,直到得到一组稳定的原型适用领域:不同类型的样本间差异较大的任务,如识别控制策略、区分运行状态、划分系统用能水平、揭示不同的用能行为代表算法:k-means算法、学习向量量化、高斯混合聚类原型38原型聚类聚类目标:最小化各簇内的点与其原型间的欧氏距离之和39示例分析:基于k-means的建筑用能模式识别数据来源:某办公建筑30个样本数据,样本由2个维度组成聚类目的:揭露建筑不同室外温度下的建筑用能模式样本序号室外温度(ºC)建筑冷负荷(kW)014.961201115.891224………2930.178318量纲差异过大,聚类前需先进行归一化样本序号室外温度建筑冷负荷00.060.0410.110.05………290.930.9940示例分析:基于k-means的建筑用能模式识别不同聚类簇数量下聚类结果轮廓系数曲线基于k-means算法的建筑用能模式识别结果聚类数目∈(2,9)最佳轮廓系数三种常见的用能模式聚类步骤:确定聚类数量、分析聚类结果41背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲42密度聚类定义:基于密度的聚类简称密度聚类原型聚类结果与密度聚类结果的区别原理:根据样本密度分布,将相邻的样本聚合到一起,形成多个聚类簇适用领域:密度聚类算法能够发现任意形状的聚类簇,具有更高的灵活性,常应用于离群点异常检测任务代表算法:DBSCAN、OPTICS、DENCLUE43密度聚类:DBSCAN算法基本概念:
ε邻域:对某样本点,以其为圆心,半径为ε的领域MinPts=3
x3由x2密度直达x3由x1密度可达x3与x4密度相连ε邻域噪声核心对象:ε邻域内包含的样本点数量大于等于某一阈值(MinPts)的样本密度直达:若样本p是核心对象,样本q在其ε邻域内,则称q由p密度直达密度可达:若样本p与q之间存在一组可连续密度直达的样本,称p与q密度可达密度相连:若存在样本o使得p与q均由o密度可达,称p与q密度相连注:密度直达与密度可达均有方向,密度相连无方向核心对象44密度聚类:DBSCAN算法DBSCAN算法的步骤:DBSCAN算法流程图DBSCAN将聚类簇的定义为最大的密度相连的样本集合45示例分析:基于DBSCAN的建筑异常用能模式识别数据来源:某办公建筑30个样本数据,聚类目的:找出该建筑的异常用能模式样本序号室外温度(ºC)建筑冷负荷(kW)022.513165122.443182………2924.028318量纲差异过大,聚类前需先进行归一化样本序号室外温度建筑冷负荷00.080.2310.060.23………290.560.9046示例分析:基于DBSCAN的建筑异常用能模式识别绿色叉号:正常样本点橙色圆形:异常用能点基于DBSCAN算法的建筑异常用能模式识别结果47示例分析:基于DBSCAN的建筑异常用能模式识别对比k-means算法和DBSCAN算法的差异仅能识别一个异常用能模式k-means算法聚类结果轮廓系数曲线基于k-means算法的建筑异常用能模式识别最佳轮廓系数正常用能模式异常用能模式48背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲49样本的空间位置基于层次树的聚类过程进行可视化层次聚类定义:基于层次的聚类简称层次聚类原理:将每个样本视作一个簇,不停合并最相似的两个簇,直至收敛123123适用领域:需要可视化聚类过程的问题,应用场景与原型聚类基本一致代表算法:AGNES、DIANA50层次聚类簇间距离计算方法:最小连接距离:两个簇中距离最近的两个样本间的距离最大连接距离:两个簇中距离最远的两个样本间的距离平均连接距离:两个簇中所有样本间的距离平均值最小连接距离最大连接距离平均连接距离51层次聚类:AGNES算法AGNES算法:采用自下向上的策略收敛条件:所有样本都被划分成一个簇聚类簇的数量等于某一阈值最相似的两个簇之间的距离大于等于某一阈值AGNES算法流程图123123样本的空间位置基于层次树的聚类过程进行可视化52层次聚类:DIANA算法DIANA算法:采用自上向下的策略123基于层次树的聚类过程进行可视化123样本的空间位置53示例分析:基于AGNES的区域供热系统控制策略识别数据来源:某区域供热系统热源处采集的30个样本数据聚类目的:识别该建筑的异常用能模式样本序号供水温度(ºC)供水流量(kg/s)室外温度(ºC)094.10886.11-3.00194.00850.00-4.00…………2979.00850.4020.00量纲差异过大,聚类前需先进行归一化样本序号供水温度供水流量室外温度00.940.530.1510.940.120.11…………290.300.121.0054示例分析:基于AGNES的区域供热系统控制策略识别AGNES生成的层次树1234聚类顺序(倒数)5聚类簇1聚类簇2聚类簇3根据经验可划分为三个聚类簇层次聚类结果展示55示例分析:基于AGNES的区域供热系统控制策略识别基于AGNES的区域供热系统热源控制策略识别结果室外温度降低供水温度升高通过调整供水温度来增加供热量称作“质调节”56背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲57关联规则起源美国中西部的一家连锁店发现,男人们会在周四购买尿布和啤酒。这样商店可以将尿布与啤酒放在一块,以确保在周四全价销售从而获利典型的例子是购物篮分析,从大量的订单中发现商品潜在的关联聚类算法当前的相似性度量难以有效量化高维变量之间的相关性,无法自动抽取出有效变量,因此对能源领域的复杂数据挖掘场景无法适用58关联规则定义关联规则挖掘算法被广泛用于高维变量的数据挖掘任务,其核心思想为通过遍历所有可能发现其中存在强相关性的变量组合。项(i)是关联规则挖掘中的最小分析单元,通常为变量本身或者变量和数值的组合。通常可用I={i1,i2,…,im}表示项的全集。e.g“冷水机组”或“冷水机组出水温度7.1ºC”
e.g.
{“冷机功率653.1kW”,“冷机冷冻出水温度6.9ºC”,“冷机冷冻回水
温度12.3ºC”}事务(T)是关联规则挖掘中数据库的最小采样单元,通常为多个项的集合(T⊆I)。D={T1,T2,…,Tn}表示数据挖掘任务的事务集合。
e.g
{“冷机功率653.1kW”}→{“冷机冷冻出水温度6.9ºC”,“冷机冷冻回水温度12.3ºC”}
59关联规则定义,
项集I={milk,bread,butter,beer,diapers}{butter,bread}⇒{milk}是一条关联规则,表示如果butter和bread同时被购买了,milk也会被购买。每一个条目中,1表示项出现在相应的事务中,0表示项没有出现在事务中。练习在实际应用中,数据库通常包含成千上万的事务,一条规则需要上百个事务的支持才能被认为是统计显著的。60关联规则属性
支持度(support)是一种衡量关联规则重要程度的指标。关联规则“A→B”的支持度为事务集D中A和B同时存在的事务T所占的比例。为了从所有可能的规则集中选出有用的规则需要用到各种性能指标,如:支持度、置信度、提升度、重要度、兴趣度等。置信度(confidence)是一种衡量关联规则可信程度的指标。关联规则“A→B”的置信度为事务集D中同时包含A和B的事务占只包含A的事务的比例。支持度范围介于0%~100%之间,某关联规则的支持度越大,则该规则在事务集合中出现的概率越大。反之,该规则出现的概率越小。置信度范围介于0%至100%之间,某关联规则的置信度越大,则该规则的结论与前提之间的相关性越强。反之,该规则的结论与前提之间的相关性越弱。61关联规则属性,
关联规则{“冷机功率1200-1300kW”}→{“冷机冷冻出水温度7-8ºC”,“冷机冷冻回水温度9-10ºC”}练习:事务序号事务内容1“冷机功率1200-1300kW”,“冷机冷冻出水温度7-8ºC”,“冷机冷冻回水温度9-10ºC”2“冷机功率1100-1200kW”,“冷机冷冻出水温度7-8ºC”,“冷机冷冻回水温度11-12ºC”3“冷机功率1600-1700kW”,“冷机冷冻出水温度8-9ºC”,“冷机冷冻回水温度9-10ºC”4“冷机功率1100-1200kW”,“冷机冷冻出水温度7-8ºC”,“冷机冷冻回水温度9-10ºC”5“冷机功率1200-1300kW”,“冷机冷冻出水温度7-8ºC”,“冷机冷冻回水温度9-10ºC”6“冷机功率1600-1700kW”,“冷机冷冻出水温度6-7ºC”,“冷机冷冻回水温度9-10ºC”7“冷机功率1200-1300kW”,“冷机冷冻出水温度7-8ºC”,“冷机冷冻回水温度9-10ºC”8“冷机功率1200-1300kW”,“冷机冷冻出水温度7-8ºC”,“冷机冷冻回水温度10-11ºC”9“冷机功率1200-1300kW”,“冷机冷冻出水温度7-8ºC”,“冷机冷冻回水温度9-10ºC”10“冷机功率1100-1200kW”,“冷机冷冻出水温度6-7ºC”,“冷机冷冻回水温度9-10ºC”支持度计算:统计该关联规则在事务集合中出现的次数:4次(事务1,5,7和9)该关联规则的支持度等于该规则出现次数4除以事务总数10,即support=40%。置信度计算:统计该关联规则前提{“冷机功率1200-1300kW”}在事务集合中出现的次数:5次(事务1,5,7,8和9)。统计该关联规则在事务集合中出现的次数:4次(事务1,5,7和9)。该关联规则的置信度等于该关联规则在事务集合中出现的次数4除以前提在事务集合中出现的次数5,即confidence=80%。62关联规则属性
强/弱关联规则依据支持度阈值和置信度的阈值进行区分。例3-9:设支持度阈值0.8,置信度阈值0.9。关联规则1-3的支持度和置信度分别为0.85和0.95、0.25和0.55、0.45和0.95。答:关联规则1为强关联规则;关联规则2、3为弱关联规则(非)频繁项集、频繁项依据支持度阈值区分。频繁项集两个重要的性质性质1:频繁项集的所有非空子集也是频繁的性质2:非频繁项集的所有超集也是非频繁的例3-10:设支持度阈值为60%。项{“冷机冷冻出水温度7-8ºC”}支持度为70%,大于支持度阈值,是频繁项。项集{“冷机冷冻出水温度7-8ºC”,“冷机冷冻回水温度9-10ºC”}支持度为50%,小于支持度阈值,不是频繁项集。关联规则挖掘的步骤:(1)找出事务集合中所有的频繁项集
(2)由频繁项集组成强关联规则。63背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲64Apriori算法
1.设支持度阈值为50%,置信度阈值为80%。2.生成所有1项集的集合构成候选1项集,并构成频繁1项集的集合。3.对频繁1项集的集合进行连接,生成候选2项集的集合。对候选2项集的集合进行剪枝和遍历计数,产生频繁2项集的集合。4.判断频繁2项集的集合是否为空集,若为空集则停止迭代,若不为空集则进入迭代(k=k+1)。65Apriori算法
5.k=2,因此对所有频繁2项集进行连接,生成候选3项集的集合。对候选3项集的集合进行剪枝,产生频繁3项集的集合。
8.根据每个频繁项集生成关联规则。66Apriori算法
通过“自底向上”的逐层搜索策略对事务集合进行遍历以生成强关联规则。其两大核心:“连接”和“剪枝”
67基于Apriori的冷机控制策略识别
采用Apriori算法对以上25个样本进行关联规则挖掘以揭示该冷机的冷冻阀控制策略和出水温度设定点。练习:样本序号采样时间冷机启停冷冻阀启停冷冻水出水温度(ºC)010/3016:20OffOff15.42110/3016:30OffOff15.43210/3016:40OffOn11.96310/3016:50OnOn8.16410/3017:00OnOn7.68510/3017:10OnOn7.58610/3017:20OnOn7.51710/3017:30OnOn7.51810/3017:40OnOn7.51910/3017:50OnOn7.511010/3018:00OnOn7.511110/3018:10OnOn7.521210/3018:20OnOn7.511310/3018:30OnOn7.491410/3018:40OnOn7.521510/3018:50OnOn7.511610/3019:00OnOn7.521710/3019:10OffOff9.31810/3019:20OffOff9.61910/3019:30OffOff10.032010/3019:40OffOff10.472110/3019:50OffOff10.792210/3020:00OffOff11.132310/3020:10OffOff11.472410/3020:20OffOff11.79由于Apriori算法仅对分类型变量有效,而表中的冷冻水出水温度为连续型变量。因此,需要对冷冻水出水温度进行离散化,本例采用等宽法将该变量的数值划分到间隔为1ºC的区间。同时,为便于理解,将部分变量名直接与其采样值进行拼接。例如若冷机启停的采样值为On,可以将其被转换为“冷机On”。转换后的冷机运行数据见表3-21。68基于Apriori的冷机控制策略识别
69基于Apriori的冷机控制策略识别
支持度和置信度的阈值分别设置为40%和90%。70基于Apriori的冷机控制策略识别
最终得到的所有频繁项集见表3-22。由频繁项集生成的强关联规则见表3-23。揭示出冷冻阀门的控制策略和冷冻出水温度的设定点:1)根据强关联规则0和5:冷冻阀门随冷机的启动而打开,随冷机的停机而关闭。2)根据强关联规则8:冷机的冷冻出水温度设定点介于7-8ºC之间。71背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲72频繁模式增长算法
Apriori算法本质是时间换空间,在计算的过程中有以下缺点:可能产生大量的候选集。因为采用排列组合的方式,把可能的项集都组合出来了;每次计算都需要重新扫描数据集,来计算每个项集的支持度。Han等提出了FP-Growth算法(空间换时间):只进行2次数据库扫描;无候选集;直接压缩数据库成⼀个频繁模式树FP-tree;通过这棵树生成关联规则相比Apriori算法的重复扫描,它具有更高的计算效率(约快1个数量级)。73频繁模式增长算法
1.设置支持度阈值为40%,置信度阈值为80%。2.遍历事务集合,找出所有项并计算它们在事务集合中的支持度,找出所有支持度大于或等于支持度阈值的项,构成频繁项的集合。假想事务集合的项见表3-25,其中的频繁项见表3-26。74频繁模式增长算法3.扫描原始事务集合,对每个事务创建根节点下的一个分支,最终组成一棵FP-tree。4.按频繁项的支持度,由低到高依次生成对应的条件FP-tree并对它进行挖掘。为方便遍历,通常可以创建一个降序排序的频繁项项头表,每个频繁项通过节点链连接FP-tree中的一个或多个节点。75频繁模式增长算法
76频繁模式增长算法
5.输出所有频繁项集。6.根据每个频繁项集生成关联规则,生成过程参照Apriori算法的第八步。77基于FP-growth的教室照明能源浪费行为识别
采用FP-growth算法对以上24个样本进行关联规则挖掘,以旨在揭示该教室在使用过程中的照明能源浪费行为。练习:78基于FP-growth的教室照明能源浪费行为识别
使用FP-growth算法对表中的数据进行关联规则挖掘。支持度和置信度的阈值分别设置为30%和90%。79基于FP-growth的教室照明能源浪费行为识别
构建“课程有”的条件FP-tree并进行递归挖掘,得到频繁项集。构建“房间空闲”的条件FP-tree进行递归挖掘,得到频繁项集。80基于FP-growth的教室照明能源浪费行为识别
构建“时间段晚上”的条件FP-tree并进行递归挖掘得到频繁项集。构建“灯光开启”的条件FP-tree进行递归挖掘,得到频繁项集。81基于FP-growth的教室照明能源浪费行为识别
构建“灯光关闭”的条件FP-tree并进行递归挖掘得到频繁项集。“房间占用”的条件模式基不存在频繁项,因此不存在条件FP-tree,其频繁项集只有它本身。82基于FP-growth的教室照明能源浪费行为识别
“课程无”不存在条件模式基,其频繁项集只有它本身。最终得到的所有频繁项集见表3-40。由频繁项集生成的强关联规则见表3-41.83基于FP-growth的教室照明能源浪费行为识别
最终的关联规则中应该含有时间段、房间占用情况、课程和灯光的取值情况。时间段、房间占用情况和课程直接导致灯光开启与否。因此,这三个变量应该包含在前提中,而灯光应该包含在结论中。符合这一条件的强关联规则仅有一条,即关联规则22。84背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲85关联规则应用案例[1]ZhangC,XueX,ZhaoY,ZhangX,LiT.Animprovedassociationrulemining-basedmethodforrevealingoperationalproblemsofbuildingheating,ventilationandairconditioning(HVAC)systems.ApplEnergy2019;253./10.1016/j.apenergy.2019.113492.[2]ZhangC,ZhaoY,ZhangX.AnAssociationRule-BasedOnlineDataAnalysisMethodforImprovingBuildingEnergyEfficiencyBT-Proceedingsofthe11thInternationalSymposiumonHeating,VentilationandAirConditioning(ISHVAC2019).In:WangZ,ZhuY,WangF,WangP,ShenC,LiuJ,editors.,Singapore:SpringerSingapore;2020,p.375–83.DiscoveringabnormaloperationpatternsofHVACsystemsusingAssociationRule86136measuredvariablesforchillerplants5minutessamplinginterval40thousandmeasurementsperday14millionmeasurementsperyearAHVACsysteminacommercialcenterinShenzhen(chillerplants)Valuableinformation?项目简介87The
dataismeasuredfromthechillerplantsoftheHVACsysteminacommercialcenterinShenzhen,China.项目简介88136measuredvariables:TemperatureHumidityPowerFrequencyControlsignalDataproblem:MissingvaluesOutliers……项目简介89TransactionIDItemsT1beef,chicken,milk,cheeseT2beef,cheeseT3beef,cheese,bootT4beef,chicken,cheeseT5beef,chicken,cheese,milkT6chicken,clothes,milkCan
betheassociationruleminingusedtotheoperationdataoftheHVACsystem?NumericalCategoricalTransformthenumericalmeasurementsintocategoricalmeasurements.数据转换90ThedatatransformationmethodTimeTSCOW2016/3/10:0918.92016/3/11:0918.82016/3/12:0918.8……2016/9/42:5029.62016/9/42:5529.62016/9/43:0029.6……DensitySupplycoolingwatertemperature(℃)ProbabilitydensityfunctionThe
probability
that
thetemperatureis30℃is14%.
Statisticalmethod数据转换91ThedatatransformationmethodDensitySupplycoolingwatertemperature(℃)CharacteristicsoftheprobabilitydestinyfunctionPeaksandvalleysareexisted.Thedestinyofsomemeasurementsisverysmall.Somepeaksmaybecausedbynoises.PeakValleyOutliersNoise
Transformthemeasurementsaroundthesamepeakintothesameform.数据转换92ThedatatransformationmethodDensitySupplycoolingwatertemperature(℃)CharacteristicsoftheprobabilitydestinyfunctionPeaksandvalleysareexisted.Thedestinyofsomemeasurementsisverysmall.Somepeaksmaybecausedbynoises.
Transformthemeasurementsaroundthesamepeakintothesameform.DeletetheoutliersDatacategoryCategory1Category2Category3Category4CategorymergingCategory3数据转换93TheresultforatypicalcontinuousvariableTimeTSCOW……2016/3/1611:0515.5……2016/3/2016:1920.9……2016/9/42:5529.6……TSCOW…TSCOW,OTCT
_8.9_18.4…TSCOW,OTCT
_18.4_23.1…TSCOW,OTCT
_23.1_33.0…OriginaldataTransformeddataDatatransformationSupplycoolingwatertemperatureTSCOW(℃)Density15.520.929.6SupplycoolingwatertemperatureTSCOW数据转换94TheresultforatypicalnoncontinuousvariableTimeFCHWP4……2016/3/19:0144.7……2017/3/1812:4035.4……2016/8/1417:350……2016/9/69:2541……OriginaldataTransformeddataDatatransformationFCHWP4(Hz)DensityFrequencyofthefourthchilledwaterpumpFCHWP4FCHWP4…FCHWP4_44.7_45.6…FCHWP4_34.9_36.0…FCHWP4_0.0_1.7…FCHWP4_39.9_42.2…035.444.741数据转换95Totalknowledge:2514one-to-onerules({onevariable}{onevariable})AbnormalpatternofHVACsystems=InterestingruleChiller1Chiller2Chiller3Chiller46.1℃12.1℃6.2℃8.4℃6.5℃11.9℃5.9℃12.9℃规则挖掘96Only1411
rules(56%ofthetotalrules)areleft.…TSCHW,
C1
_5.9_8.3TRCHW,
C1
_11.9_13.4TSCHW,
C2
_5.7_7.6TRCHW,
C2
_8.1_10.1TSCHW,
C3
_6.1_8.7TRCHW,
C3
_10.9_13.5TSCHW,
C4
_6.0_8.5TRCHW,
C4
_11.2_13.9…………PC1
_27.1_37.4TSCHW,
C1
_5.9_8.3FCHWP1
_40.1_41.4FCHWP2
_41.1_42.1TSCOW1
_12.1_15.7TRCOW1
_17.1_20.2TSCHW,
C1
_5.9_8.3TRCHW,
C1
_11.9_13.4TSCHW,
C2
_5.7_7.6TRCHW,
C2
_8.1_10.1TSCHW,
C3
_6.1_8.7TRCHW,
C3
_10.9_13.5TSCHW,
C4
_6.0_8.5TRCHW,
C4
_11.2_13.90.250.390.320.870.760.85TSCHW,
C1
_0.07_0.87TRCHW,
C1
_0.66_0.91TSCHW,
C2
_0_0.63TRCHW,
C2
_0_0.34TSCHW,
C3
_0.13_1TRCHW,
C3
_0.48_0.93TSCHW,
C4
_0.1_0.93TRCHW,
C4
_0.53_1Associationrules规则挖掘97supplychilledwatertemperaturereturnchilledwatertemperatureAbnormalpattern1:Thesupplychilledwatertemperatureishigherthanthereturnwatertemperatureforthethirdandfourthchillers.TRCHW,CC3&4_4.8_8.6TSCHW,CC3&4_11.5_19.6AbnormalruleNormalruleTRCHW,CC1&2_6.4_12.6TSCHW,CC1&2_4.6
_9.7returnchilledwatertemperaturesupplychilledwatertemperatureTheresultsoftheruleextractionmethod规则挖掘98Abnormalpattern2:Thereturnchilledwatertemperatureoftheseconddistrictisusuallyhigherthanthatofthefirstdistrict.TRCHW,D1_8.8_14.0TRCHW,D2_11.2
_21.5AbnormalruleNormalruleTRCHW,D1_8.8_14.0TRCHW,D3_8.6
_13.3returnchilledwatertemperatureoftheseconddistrictreturnchilledwatertemperatureofthefirstdistrictreturnchilledwatertemperatureofthethirddistrictTheresultsoftheruleextractionmethod规则挖掘99背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲100引言无监督学习本身不具有解释知识的能力,需要借助专家的工程经验对无监督学习得到的知识进行深度解读后,才能提取出知识背后的价值。能源领域常用的三种知识后挖掘方法:知识可视化、知识降维、知识筛选。聚类:散点图、折线图、热图、箱型图和小提琴图;关联规则挖掘:因为规则本身具有可解释性,因此一般不需要对其进行可视化;关联规则的数量巨大,进行可视化十分困难。知识降维常用于对高维空间中的聚类结果进行可视化,通过线性或非线性映射将高维空间的聚类结果映射到低维空间。知识筛选通过预先设定准则,自动剔除海量知识中的无用知识,大幅提高知识的价值浓度,助力专家实现更高效和更精准的知识解读。101聚类后挖掘-聚类结果可视化散点图:聚类结果可视化的首选,可以显示二维和三维样本在空间中的分布情况。102聚类后挖掘-聚类结果可视化箱型图:对不同维度聚类结果单独进行可视化。中位数和上下四分位数需要通过对样本进行升序排序得到,排在第25%、第50%、第75%的数称为下四分位数(Q1)、中位数(Q2)和上四分位数(Q3)。四分位距IQR=Q3-Q1,上边缘(Q3+1.5IQR)和下边缘(Q3-1.5IQR)。上下边缘并非最大最小值,而是通过大量统计实验得到的正常样本范围,超出这一范围的样本通常为异常值。103聚类后挖掘-聚类结果可视化表3-42为35个住宅建筑的年分项用电负荷。每个建筑记录了6项用电负荷。1)由于表中不同用电负荷取值范围之间差异较大,在聚类前需要对表中数据进行最大最小归一化。2)使用k-means算法对表中的住宅分项用能负荷进行聚类,旨在揭示不同建筑的用能特征。3)根据轮廓系数对聚类数进行优化,最佳聚类数为3,最终的聚类结果见右表。练习:104聚类后挖掘-聚类结果可视化基于箱型图,可以很直观地看出不同聚类簇中的分项用电负荷高低。105聚类后挖掘-聚类结果可视化小提琴图:展示了变量在任意取值位置出的密度(箱型图的一种改进)。小提琴图在展示分位数位置的同时,也展示了变量在不同取值时的出现频率。相较于箱型图,小提琴图可以提供更详细的数据分布信息。106聚类后挖掘-聚类结果可视化折线图:时序样本的聚类任务表3-43为某办公建筑14天的小时冷负荷数据。使用k-means算法对表中的日负荷曲线进行聚类。根据轮廓系数对聚类数进行优化,最佳聚类数为2。9/2、9/3、9/9和9/10的日负荷曲线被归为聚类簇1,其余负荷曲线归为聚类簇2。练习:107聚类后挖掘-聚类结果可视化聚类簇1冷负荷曲线显著低于聚类簇2:由于聚类簇1中的冷负荷曲线采集自周末,而聚类簇2中冷负荷曲线采集自工作日。部分员工周末不上班,因此周末的冷负荷显著低于工作日。108聚类后挖掘-聚类结果可视化热图:时序样本聚类结果的同时使用颜色深浅来表示目标变量数值高低。使用热图对表3-43中数据的聚类结果进行可视化。练习:相比折线图3-35,热图3-36和3-37还可以呈现出不同日期的冷负荷分布,因此能够反映更多信息。但是热图不如折线图直观,可读性较差。109聚类后挖掘-聚类结果降维t-SNE的基本思想是保证高维空间中距离相近的样本映射到低维空间时距离也相近。降维后的聚类结果损失原有聚类变量物理意义,所以仅能提供聚类结果的可视化图表无法进行解释。1.设存在N个高维聚类样本,构建之间的概率分布P。110聚类后挖掘-聚类结果降维2.设存在N个低维(通常为二维或三维),它们的概率分布Q如下式所示:3.使用梯度下降算法最小化低维分布Q与高维分布P之间的KL散度。KL散度定义如下:使用t-SNE对表3-40中数据的聚类结果进行降维,维度设置为2。练习:111背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲112关联规则后挖掘
基于变量约束的筛选若分析人员对知识目标明确,可以人为对关联规则前提和结论的变量进行约束仅适用于变量组合数较少,不适用于变量组合数巨大的关联规则挖掘任务。基于评价指标的筛选提升度(lift)能够反映前提A对结论B出现概率的提升作用,从而判断两者是否存在相关性。通常认为提升度大于1的关联规则更有价值。关联规则为{“冷机功率1200-1300kW”}→{“冷机冷冻出水温度7-8ºC”,“冷机冷冻回水温度9-10ºC”}
练习:答:1.计算该关联规则的结论在前提条件下的发生概率,可知发生概率为4/5=80%。2.计算该关联规则的结论,可知它在事务集中的发生概率为5/10=50%。3.该关联规则的提升度等于上述两个概率的比值,即lift=80%/50%=1.6。113通过聚类等算法,分析建筑运行数据,发现典型工况提交说明文档和代码文件:说明文档需介绍使用的聚类方法和关键细节,模型的输入,最终结论等(展示发现的典型工况并作出解释)课后作业欢迎交流!监督学习方法上能源系统大数据分析理论与实践第四节116背景能源预测是指对各种能源的需求量及其比例关系的未来状况的推测。能源预测的主要内容有:煤炭、石油、天然气、薪柴、核电等各种能源的未来需求量各种能源需求量之间的比例关系生活能耗和生活人均能耗…能源预测按供需关系分,包括能源需求预测和能源供应预测两个方面。前者是根据社会和国民经济发展目标,经济结构的调整,科学技术的进步,能源价格的趋势以及消费方式的变化估计未来规划年份国民经济各部门所需要的能源数量及能源品种的构成;后者是根据能源资源可获得性及其开发利用的工艺技术条件,能源价格的趋势和能源投资与外贸的前景,预测未来规划年份能源分品种的供应量及能源供应的技术构成。背景通过能源预测,可以建立能源消耗与环境保护之间的关系,结合环境保护要求,有针对性地调整能源结构和工业布局,达到经济与环境的协调发展。对建筑能耗进行可靠的预测是实现建筑能耗管理任务的重要基础,包括:能耗异常发现故障检测与诊断需求侧管理控制优化运行能源规划调度…背景基于物理模型的方法利用建筑本身的物理特性和传热原理,通过仿真软件建立建筑的热力学模型来模拟建筑实际运行中的能耗过程,从而实现准确的能耗预测。目前应用最多的物理建模软件有EnergyPlus、TRNSYS、DeST等。在利用热力学原理建立理想化的建筑运行模型时,需要输入大量的建筑参数和环境参数,建模时间成本较高。同时,由于实际工程中不同建筑的建筑参数和环境参数均不相同,每一栋建筑都需要重新建立物理模型来进行能耗预测。背景建筑能耗预测方法可分为两类:基于物理模型的方法和数据驱动的方法基于数据驱动的方法通过对历史数据的挖掘来实现对建筑能耗的预测。该方法摒弃了物理建模大量参数输入的弊端,将收集到的建筑能耗相关数据作为输入,对应的能耗作为输出,训练得到对应的数据驱动的能耗预测模型,该建模方式比较简洁且预测精度高,在建立好算法模型后便可依据建筑相关数据来进行预测,增加了模型的可复制性。常见的数据驱动方法有:人工神经网络(ArtificialNeuralNetwork,ANN)支持向量机(SupportVectorMachine,SVM)决策树(DecisionTree,DT)…背景122提纲总论特征工程模型选择与优化模型评价方法模型解读监督学习基础概念监督学习通过学习若干输入变量的协同关系对输出变量进行预测。根据输出变量的数据类型,可以分为回归模型和分类模型;监督学习包含各类统计和机器学习建模算法,常见算法包括:在实践中并非采用越复杂的监督学习算法效果越好,应从数据源质量、计算能力和解读需求等多角度出发选择最合适的算法。Output人工神经网络支持向量回归123能源领域典型应用场景监督学习算法典型能源应用场景:124典型能源应用场景实例——故障诊断与检测建筑系统在运行过程中存在多种故障,会导致室内温度失调、空气品质降低、设备能耗增加等问题,严重时甚至会引发安全事故:冷媒循环回风温度传感器温度传感器表冷器压缩机膨胀阀蒸发器冷却塔冷凝器送风放热吸热放热末端(空气-空气)冷水机组(水-制冷剂-水)新风排风空气处理机组(水-空气)7种主要隐性故障制冷剂泄漏存在不凝结气体冷凝器结垢冷却水流量过少制冷剂充注过多冷冻水流量过少蒸发器结垢
68种故障新风风阀故障混风风阀故障表冷器阀门故障加热器阀门故障…10种故障风阀阀门故障流量传感器故障温度传感器故障控制器故障…125典型能源应用场景实例——故障诊断与检测根据美国RP-1403项目调研,冷水机组典型故障可以总结为7类,运行中往往难以察觉:冷却水不足制冷剂充注过量不凝性气体冷凝器结垢16.2%21.3%20.0%8.2%制冷剂泄露蒸发器结垢126典型能源应用场景实例——故障诊断与检测据美国RP-1312项目统计,一个典型的AHU中共有68类故障[1]:6个受控设备有25类故障5个设备中有11类故障8个控制器中有8类故障12个传感器中有24类故障案例:阿姆斯特丹博物馆AHU故障冷却盘管阀持续处于最大开度,热水负荷抵消了冷水负荷。室内环境温度没有受到影响,持续三周后才被发现,浪费了大量的能源冷负荷热负荷[1]J.WenandS.Li,2011.ASHRAE1312-RP:ToolsforEvaluatingFaultDetectionandDiagnosticMethodsforAir-HandlingUnits-Finalreport,DrexelUniversity,PA,UnitedStates.127典型能源应用场景实例——故障诊断与检测[1]J.Y.Qin,S.W.Wang,AfaultdetectionanddiagnosisstrategyofVAVair-conditioningsystemsforimprovedenergyandcontrolperformances,EnergyandBuildings37(2005)1035-1048.一个典型VAVBox有10类故障,香港理工团队对香港某商用建筑的1251个VAVbox核查,发现20.9%存在故障[1]:期望故障征兆调适实际变风量系统风阀卡死冷/热量不足定风量系统调整送风温度实际应用中,大部分变风量系统最终变成了定风量系统128129典型能源应用场景实例——故障诊断与检测数据驱动的监督学习模型原理:基于历史数据,通过分类算法建立起征兆与故障的潜在关系神经网络实现故障诊断支持向量机实现故障诊断相比传统人工方法,自动化水平高,人力和时间成本大大降低基于监督学习的预测建模流程监督学习算法“五步走”建模流程:数据预处理、特征工程、模型设计与优化、模型表现评估和模型解读基于监督学习的预测建模过程示意图130131提纲总论特征工程模型选择与优化模型评价方法模型解读引言输入变量对监督学习算法影响很大,需要使用特征工程从原始数据中构建模型的输入变量,提高算法精度:特征工程方法总述132引言133ANN输出冷负荷预测区间输入量重要性排序ZhangC,ZhaoY,FanC,LiT,ZhangX,LiJ.Agenericpredictionintervalestimationmethodforquantifyingtheuncertaintiesinultra-short-termbuildingcoolingloadprediction.ApplThermEng2020;173./10.1016/j.applthermaleng.2020.115261.基于专家知识的特征筛选方法原理:基于专家对预测任务的理解,手动筛选特征变量缺点:理解难度高,专业性强;批量化建模耗时耗力。134能效水平预测专家判断示例基于变量相关性的特征筛选方法原理:采用统计方法计算输出和输入变量间的相关性
类别型输入连续型输入类别型输出克莱姆V系数点二列相关系数、逻辑回归连续型输出方差分析(ANOVA)、点二列相关系数皮尔森相关系数、斯皮尔曼相关系数135基于变量相关性的特征筛选方法汇总连续数值型输入输出变量的相关性计算方法皮尔森相关系数(Pearsoncorrelationc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 实验动物复习测试卷附答案
- 企业采购合同电子化进程及优势
- 新能源技术应用项目合同
- 软件授权使用标准合同范本
- 合同市场变动:劳动合同终止率预测
- 土地使用权合同新规定:土地市场迎变革
- 实木家具订购合同
- 电梯施工总承包合同
- 租赁办公场地合同范本
- 上海市房屋租赁合同范本(年版)
- 游泳社会指导员专项理论考试复习题库汇总(附答案)
- 《简单教数学》读书-分享-
- 口腔颌面外科学 功能性外科
- 脊椎动物学知识点归纳各纲特征
- 波普解析PPT质谱教案资料
- GB/T 27476.5-2014检测实验室安全第5部分:化学因素
- 一级医院基本标准1
- 霍乱病例分析课件
- 金属非金属矿山重大生产安全事故隐患判定标准课件
- 四年级上册数学课件-一般应用题 全国通用(共26张PPT)
- 体检报告单入职体检模板
评论
0/150
提交评论