版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
绪论能源系统大数据分析理论与实践第一节2汇报提纲什么是能源?什么是智慧?为什么需要智慧能源?如何实现智慧能源?GPT类的技术将带来哪些变革?课程安排3人类文明与能源的关系-卡尔达舍夫等级卡尔达舍夫等级其实就是一种用来衡量一个文明的技术的先进程度的方法,以可以制造的能量多少来衡量,这也是目前学界较为认同的一种方法,大致可以分成下面三个等级:级别I:该文明是行星能源的主人,也就是说他们有能力控制整颗母星以及周围卫星的能源。级别II:该文明有能力收集整个恒星系统的能源.例如:我们可以取得木星上的氢气作为自己的能源吗?其实主要的问题就是我们的科技等级还做不到,一旦到达了二级就可以做到了。级别III:又称为星系文明,可以控制整个星系的能量,比如银河系,这个能量就大的吓人了,目前来看这已经是科幻小说的领域了。这个级别的文明基本上和二级文明运作模式差不多,可以收集星球中的能量,只不过不是一个星球,而是数百万个星球,星系对于这种文明来说基本上就是他们的游乐园,甚至星系中心的黑洞也可能被他们用作能量来。4卡尔达舍夫提出一个方程来确定一个文明所处的级别,K代表级别,P代表文明的能耗.人类连这一个文明等级都达不到,人类大约处在0.75级作用。人类文明与能源的关系-卡尔达舍夫等级5薪柴时代薪柴是人类第一代主体能源。火也是人类掌握的第一项技术,恩格斯在评价火的作用时说:“磨擦生火第一次使人支配了一种自然力,从而最终把人同动物分开。”人类能源史6煤炭时代随着蒸汽机的发明,机械力开始大规模代替人力,低热值的木材已经满足不了巨大的能源需求,煤炭以其高热值、分布广的优点成为全球第一大能源。这也随之带动了钢铁、铁路、军事等工业的迅速发展,大大促进了世界工业化进程,煤炭时代所推动的世界经济发展超过了以往数千年的时间。人类能源史7石油时代19世纪末,人们发明了以汽油和柴油为燃料的内燃机。福特成功制造出世界第一辆量产汽车。这一时期起,石油以其更高热值、更易运输等特点,于20世纪60年代取代了煤炭第一能源的地位,成为第三代主体能源。石油作为一种新兴燃料不仅直接带动了汽车、航空、航海、军工业、重型机械、化工等工业的发展,甚至影响着全球的金融业,人类社会也被飞速推进到现代文明时代。人类能源史8新能源时代20世纪30年代以来,随着科学技术的进步,各类新能源开始投入使用,而化石能源带来的全球性危机,也进一步加快了新能源技术进步和实际应用速度。人类能源史9全球能源消耗趋势10能源对当前国际关系的影响11可控核聚变?人类下一个千年能源未来史?12什么是能源?什么是智慧?为什么需要智慧能源?如何实现智慧能源?GPT类的技术将带来哪些变革?课程安排汇报提纲13智慧是一个汉语词语,拼音是zhìhuì,一指聪明才智,二指梵语“般若”(音bo-re)的意译。出自《墨子·尚贤中》:“若此之使治国家,则此使不智慧者治国家也,国家之乱,既可得而知已。”智慧是生命所具有的基于生理和心理器官的一种高级创造思维能力,包含对自然与人文的感知、记忆、理解、分析、判断、升华等所有能力。智慧与智力不同,智慧表达智力器官的综合终极功能,与“形而上之道”有异曲同工之处;智力则谓“形而下之器”,是生命的一部分技能。什么是智慧?141997年电脑深蓝国际象棋比赛中战胜人类冠军152011年电脑Watson美国综艺节目危险边缘战胜人类冠军AI能思考吗?162016年电脑AlphaGo在围棋比赛中战胜人类冠军172017-2023GPT技术的发展模型参数的不断增大技术创新的不断引入应用场景的不断扩展18人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。研究热度时间什么是人工智能(AI)19如何理解当下的人工智能浪潮?20连马桶都叫智慧了吗?!如何理解当下的人工智能浪潮?21什么是能源?什么是智慧?为什么需要智慧能源?如何实现智慧能源?GPT类的技术将带来哪些变革?课程安排汇报提纲我国区域供热供冷系统占全国总能耗约5%,运行过程中普遍有10%-20%的能源浪费主要原因:粗放式运行管理突出矛盾:运行管理人员专业素养普遍较低与节能理论技术水平要求高之间的矛盾技术瓶颈:普遍稀缺能够及时发现运行过程问题的能力22重建设,轻运行重硬件,轻软件重维持,轻节能我国区域供热供冷面积趋势图北方区域供热南方区域供冷供热年均增长率12%为什么需要“人工智能+”?-以城市能源为例23住宅建筑热电联产余热驱动制冷污水废水余热商业建筑工业过程太阳能发热天然冷源垃圾焚烧余热可再生热源图片来源:联合国环境规划署.城市区域能源[R].2015.区域供热供冷系统是一种大规模复杂热力系统,包括热源、冷源、流体输配管网和冷热负荷,具有大惰性、大滞后、非线性等特性致力于解决城市能源智能化问题24典型领域我国大型公建用电总量趋势图用电总量(万亿kWh)我国大型公共建筑约占建筑总面积4%,但能耗却占我国建筑总能耗的20%以上[1];大型公共建筑普遍有10%-30%能源浪费,主要原因是中央空调系统运行效率远低于预期[1]。[1]中国建筑节能年度发展研究报告[M].清华大学建筑节能研究中心,2014.机场剧院医院医院办公楼商业中心机场以我国公共建筑的中央空调系统为例冷媒循环回风温度传感器温度传感器表冷器压缩机膨胀阀蒸发器冷却塔冷凝器送风放热吸热放热变风量末端(空气-空气)冷水机组(水-制冷剂-水)新风排风空气处理机组(水-空气)7种主要隐性故障制冷剂泄漏存在不凝结气体冷凝器结垢冷却水流量过少制冷剂充注过多冷冻水流量过少蒸发器结垢
…43种故障新风风阀故障混风风阀故障表冷器阀门故障加热器阀门故障…10种故障风阀阀门故障流量传感器故障温度传感器故障控制器故障…中央空调系统故障种类繁多,人工检测诊断理论难度高、工作量大且不及时。以中央空调系统运维管理中设备故障诊断为例上海27幢酒店建筑供冷设备装机容量与实际运行负荷单位建筑面积冷机装机容量的平均值为120W/m2实测单位建筑面积夏季尖峰负荷多数在30~40W/m2,基本上不超过50W/m2冷机装机容量普遍偏大上海市公共建筑供冷供热系统现状调研注:数据来自上海市建筑科学研究院朱伟峰调研成果上海50幢大型公共建筑水泵装机容量与实际运行情况夏季高负荷下,实测一次冷冻水流量/一次冷冻泵装机容量(不包含备用水泵)的平均值为44.5%上海市公共建筑供冷供热系统现状调研注:数据来自上海市建筑科学研究院朱伟峰调研成果2862%的公共建筑安装BA系统52%的建筑提供监测或启停控制真正实现BA智能控制的建筑较少,少于5%上海65幢大型公共建筑注:数据来自上海市建筑科学研究院朱伟峰调研成果上海市公共建筑供冷供热系统自控现状调研29总体能效水平≈
设备性能X控制水平X运维管理水平时间运维水平理想水平实际水平1980s2018时间控制性能理想性能实际性能1980s2018理论技术水平设备性能理想性能实际性能1980s2018随着制造工艺提升和理论技术进步,设备性能已经大幅度提升,整体水平较高弱电工程人员往往控制出身,对系统一知半解,控制策略适应性差运维管理人员的检测、诊断和优化能力严重欠缺时间设备性能运维管理控制策略影响实际制冷系统能效水平的主要因素30据美国RP-1312项目统计,一个典型的AHU中共有68类故障[1]:6个受控设备有25类故障5个设备中有11类故障8个控制器中有8类故障12个传感器中有24类故障案例:阿姆斯特丹博物馆AHU故障
冷却盘管阀持续处于最大开度,热水负荷抵消了冷水负荷。室内环境温度没有受到影响,持续三周后才被发现,浪费了大量的能源。[1]J.WenandS.Li,2011.ASHRAE1312-RP:ToolsforEvaluatingFaultDetectionandDiagnosticMethodsforAir-HandlingUnits-Finalreport,DrexelUniversity,PA,UnitedStates.冷负荷热负荷举例一:空气处理机组(AHU)典型故障31期望故障征兆调适实际变风量系统风阀卡死冷/热量不足定风量系统调整送风温度实际应用中,大部分变风量系统最终变成了定风量系统一个典型VAVBox有10类故障,香港理工团队对香港某商用建筑的1251个VAVbox核查,发现20.9%存在故障[1]J.Y.Qin,S.W.Wang,AfaultdetectionanddiagnosisstrategyofVAVair-conditioningsystemsforimprovedenergyandcontrolperformances,EnergyandBuildings37(2005)1035-1048.举例二:变风量末端(VAVBox)典型故障32冷却水量不足制冷剂充注过量不凝性气体冷凝器结垢16.2%21.3%20.0%8.2%制冷剂泄露蒸发器结垢数据来自美国RP-1043项目实测据美国RP-1403项目调研,运行维护不善可能导致8类冷水机组软故障,且难以人工察觉举例三:冷水机组典型故障33运维技术人员专业素养普遍不高教育程度不高,缺乏必要的基本知识只会开机关机和简单记录运行数据只会简单的维修,经常错误操作运行管理模式落后责任、权利、利益不明缺少有效具体考核方法设计、施工、调试、运行等过程脱节举例三:冷水机组典型故障34领域的主要矛盾:日益增长的节能需求和能源领域不平衡不充分的发展之间的矛盾根本原因当前历史条件下由于我国社会整体水平不高所导致的历史阶段性问题人系统人系统原有的二元关系下难以解决升维到三元关系,提供了新的自由度人工智能对我国现阶段能源系统节能领域问题本质的思考35莫拉维克悖论(1980)“要让电脑如成人般地下棋是相对容易的,但是要让电脑犹如一岁小孩一般的感知和行动能力,却是相当困难甚至是不可能的”对于计算机,困难的问题是易解的,简单的问题是难解的。人类独有高阶智慧在感知环境和行动能力方面,目前仍具有显著优势能够实际手工处置问题计算机有强大的计算存储能力对海量数据的大规模计算、预测、推理、抽象、仿真和存储方面,具有压倒性优势人工智能与人具有能力互补性36专业素养难以提高工作负荷依旧较重人力成本逐渐攀升难以吸引优秀人才信息化成本越来越低互联网物联网普及数据采集量越来越多计算能力大幅提升应用边际成本极低“人工智能”条件逐渐成熟“人”的进步缓慢我来帮您如何解决“人”的问题37规模性:日常大量应用重复性:大量重复工作可能性:人能够做得到!当前人工智能的价值和能力大多体现在具有如下特征的领域:对象问题当前人工智能在工科研究领域探索人类未知方面的作用十分有限!制冷低温领域符合左边特征的:1.批量生产制冷设备2.个性化制冷系统-冷库-建筑中央空调系统产品相关1.设计缺陷不足2.潜在优化设计空间3.产品缺陷运行维护相关1.故障检测诊断2.优化控制运行什么样的对象问题适合AI+?对象问题38什么是能源?什么是智慧?为什么需要智慧能源?如何实现智慧能源?GPT类的技术将带来哪些变革?课程安排汇报提纲39关键科学问题如何让计算机具备领域专家水平的理论知识;如何能够在传感器缺失导致的信息不足和不确定情况下深度理解数据;如何具有通用化的自主性的能效分析、优化运行、人机协同,和持续学习的能力人工智能+热力学系统的实际约束传感器数量少质量不高所导致的“信息不足”问题由于信息不足进一步导致推理过程的“不确定性”问题个人认知:当下智慧+热力学的科学问题40智能电网太阳能发电基于消防水池的水蓄冷吸收式冷机发电机冷机基于模型预测控制方法(MPC)的分布式能源优化控制案例:净零能耗建筑系统的优化设计与优化控制产电用电策略蓄冷用冷策略电网价格高的时候向电网卖多余的电电网价格低的时候蓄冷电网价格高的时候放冷案例:净零能耗建筑系统的优化设计与优化控制42第一类:海量数据高度冗余语音识别(Google)每天超过5亿条的社交语言数据积累。微软机器翻译已达到人类平等水平图像识别(Google)几十亿量级音频库识别80种语言95%的准确率数据量:测点数量远远少于能够描述完整热力过程所需要(量级之差)冗余度低:物理(测点)冗余度低,数值(物理公式角度)冗余度低当下热门的三类人工智能热力系统现状千万量级图片训练16000个CPU运行3天自动生成“猫”的概念机器翻译当下深度学习和大数据技术对热力系统效果如何?43
热力领域现状AlphaGoZero在3天内进行490万次自我对弈练习,以100:0的战绩完胜AlphaGo无人驾驶上路前完成超过100亿公里虚拟行程测试第二类:低成本大量交互试错当下热门的三类人工智能当下深度学习和大数据技术对热力系统效果如何?44系统之间差异较大:每个系统的组成、设计理念、拓扑结构、运行策略和传感器安装均不一样,可类比性很低热力领域现状购物医疗餐饮导航人的衣食住行需求的标准化程度远超能源领域金融租房传媒第三类:与人的需求相关的大数据技术当下热门的三类人工智能当下深度学习和大数据技术对热力系统效果如何?45什么是能源?什么是智慧?为什么需要智慧能源?如何实现智慧能源?GPT类的技术将带来哪些变革?课程安排汇报提纲46人工通用智能的火花:GPT-4的早期实验2023年3月微软研究院发表154页重磅论文论文地址:/pdf/2303.12712v1.pdf它比之前的AI模型表现出更多的通用智能我们证明,除了对语言的掌握,GPT-4还能解决跨越数学、编程、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示47我们对GPT-4的研究完全是现象学的:我们专注于GPT-4能做的令人惊讶的事情,但我们没有解决为什么以及如何实现如此卓越的智能的基本问题。它是如何推理、计划和创造的?当它的核心只是简单的算法组合--梯度下降和大规模变换器与极其大量的数据的结合时,它为什么会表现出如此普遍和灵活的智能?这些问题是LLM的神秘和魅力的一部分,它挑战了我们对学习和认知的理解,激发了我们的好奇心,并推动了更深入的研究。关键的方向包括正在进行的对LLMs中的涌现现象的研究2023年3月微软研究院发表154页重磅论文涌现现象论文地址:/pdf/2303.12712v1.pdf48GPT发展历史模型参数的不断增大技术创新的不断引入应用场景的不断扩展49GPT赋能各行各业ChipGPT
GPT大模型自动完成设计芯片Source:KaiyanChang,etal.“ChipGPT:Howfararewefromnaturallanguagehardwaredesign”Framework+PromptEngineering50GPT赋能各行各业信息搜索...日常办公编写程序51GPT赋能各行各业
GPT大模型游戏公司Source:ChenQian,etal.“CommunicativeAgentsforSoftwareDevelopmen”Source:RongshengWang,etal.XrayGLM-/WangRongsheng/XrayGLMXrayGLMGPT大模型进行医学影像诊断多模态GPTChatDev多智能体交互52论文中的一些测试用例:冷机阀门故障诊断53论文中的一些测试用例:空调系统冷冻水供回水温度分析54论文中的一些测试用例:建筑能耗建模55用SCL语言写一个PLC里面用的冷水机组负载调控代码56室内温湿度的PID控制57室内温湿度的PID控制58GPT+建筑能源领域数据挖掘方面的展望
负荷预测优化控制故障诊断数据挖掘解决思路:GPT有强大的理解、生成自然语言和模式识别能力,在特定应用中有潜力部分取代人工。行业问题与需求:数据挖掘方法在建筑能源系统的应用过程中过于依赖人工,亟需类人的通用性的数据挖掘能力.建筑数据空调照明电梯……数据导入部分替代人工解决问题59GPT在建筑能源管理中的应用基于GPT-4具有的强大编程、理解自然语言和推理能力,我们期望其能够自动完成建筑能源系统中的能源负荷预测,故障诊断和异常检测任务。60基于GPT辅助的建筑负荷预测的初步尝试通过人工与GPT的交互,可以实现建筑负荷预测的任务的自动编程,涉及数据预处理、特征工程、模型训练、模型评估、结果可视化和模型解释等环节.评估指标:代码的正确性:预测精度:一致性:MAE、MSE、RMSE、MAPE、R2、CV-RMSE61基于GPT辅助的建筑负荷预测的初步尝试62基于GPT辅助的建筑负荷预测的初步尝试63GPT在能源负荷预测任务上的性能GPT-4能够自动的通过编写程序实现数据预处理到模型解释的全部过程预测精度GPT生成模型解释方法代码GPT在负荷预测任务上的不足无法正确选择合适的特征变量GPT-4更倾向于首先选择室外空气温度、室外空气相对湿度和历史冷负荷作为模型输入,与时间相关的变量通常会被忽略。缺少对于时间相关变量的选择无法正确利用python包进行模型解释应用LIME来解释分类任务,而不是解释回归任务。GPT模型对特定领域的理解还不够深入,或者在理解和应用Python库时还存在缺陷。GPT在负荷预测任务上的不足基于GPT的空气处理机组故障诊断故障编号故障类型1排气风门卡住(完全打开)2排气风门卡住(完全关闭)3回风机卡在固定转速4回风机完全失灵5室外空气风门泄漏6室外空气风门卡住(完全关闭)7冷却盘管阀卡住(完全打开)8冷却盘管阀正向卡住(部分打开)9冷却盘管阀被卡住(完全关闭)10冷却盘管阀被反向卡住(部分打开)11加热盘管阀泄漏12送风机后空气处理机组管道泄漏13送风机前空气处理机组管道泄漏14冷却盘管阀控制不稳定以空气处理机组(AHU)为例,从ASHRAERP-1312项目中收集故障数据和正常数据,并考虑14种故障类型,用以评估GPT性能。每次评估用相同的Prompt和GPT-4进行5次独立对话。Case1:仅提供故障数据和潜在故障的列表,GPT可否正确诊断?Case2:提供故障时候的数据和故障列表,以及无故障时候的数据,GPT可否正确诊断?Case3:提供故障时候的数据,以及无故障时候的数据,GPT可否正确诊断?提供无故障数据的描述已知一个夏季运行的空气处理机组在某一天稳定运行时相关参数如下:相关变量的平均值如下:加热盘管阀位置0.0%;冷却盘管阀位置41.92%;……相关变量的标准差如下:送风温度0.26℃;送风机转速3.24%;……提供潜在故障的范围根据以上提供的数据,分析判断当天AHU是否出现故障。如果有,请给出故障类型并做出解释。可选的故障类型如下:故障1排气风门卡住(全开)故障2排气风门卡住(全关)故障3回风机卡在固定转速故障4……提供故障数据的描述已知一个夏季运行的空气处理机组在某一天稳定运行时获得的故障数据如下:相关变量的平均值如下:冷却盘管阀位置41.92%;……相关变量的标准差如下:冷却盘管阀位置10.78%;……Prompt示例:基于GPT的空气处理机组故障诊断68基于GPT的空气处理机组故障诊断69基于GPT的空气处理机组故障诊断70基于GPT的空气处理机组故障诊断71基于GPT的空气处理机组故障诊断不使用故障列表,回答自由度提高,某些故障诊断能力提升(如故障10),但稳定性有所下降。使用故障和正常数据和故障列表,诊断正确率与推理正确性均得到提高,但还是无法诊断某些故障。仅使用故障数据,在某些故障上效果很好,但有相当一部分故障无法被诊断。评价指标:诊断正确率:在m次对话中,统计GPT正确诊断故障的次数。推理正确率:在m次对话中,统计GPT正确解释诊断结果的次数。基于GPT的空气处理机组故障诊断GPT在故障诊断上的不足部分情况下,不理解故障和征兆之间的关系GPT无法理解某些故障下关键变量的变化关系。GPT-4无法理解“冷却盘管阀卡死(部分打开)”的故障下关键征兆的变化,导致误诊。GPT在故障诊断上的不足由于知识过多,存在过拟合现象(混淆知识点)GPT-4认为为了节能而关闭排风阀门是正常的。因此,它无法正确诊断“排风阀门卡住(完全关闭)”故障。GPT-4学习了过多的知识,但是又没有精准理解知识之间的关系,因此其推理可能会过度拟合。75GPT对脑力劳动的革命:生成式AI(AIgenerateactions)76GPT对脑力劳动的革命:生成式AI(AIgenerateactions)77GPT对脑力劳动的革命:生成式AI(AIgenerateactions)78GPT对脑力劳动的革命:生成式AI(AIgenerateactions)79浙大赵阳研究员团队在暖通GPT方面的初步尝试目前学会了暖通本科生课程,和ChatGPT相比具有更为体系的专业基础知识80结论:未来已来,工业4.0革命的序幕即将拉开GPT初步具有通用人工智能,具有一定的普适应用价值,是新生产力未来大部分知识的生产创造的边际成本趋近于零从SaaS(软件即服务)到MaaS(模型即服务)生成式AI是解决暖通痛点问题的有潜力发展方向AGI的模型将成为智能社会的“水暖电”数字孪生具有高效性、可解释性、可靠性等优点,有望成为暖通制冷生成式AI的底座亟需思考未来制冷暖通人才的培养的改革81人们不仅容易高估未来1-2年的趋势,
而且更容易低估未来10年的趋势!关于未来:AGI技术日新月异加速发展未来会有几百几千个类GPT模型类GPT技术之后会是什么样的人工智能?它会引爆什么新的技术?类GPT模型将对暖通领域颠覆什么?带来什么?未来的价值点在哪里?暖通及传统工科未来的发展?82GPT类技术带来的曙光,将有望打破之前的认知先前认知(摘自本人2018年的一个学术报告)GPT类的初期通用人工智能技术将加速引领进入智能化时代83在此之前,阻碍AI技术在我们领域应用的难题之一在于“升维”的复杂度和难度高。也就是不同维度的智能能力的叠加。GPT技术有潜力天然打通这些环节。先前认知(摘自本人2018年的一个学术报告)GPT类的初期通用人工智能技术将加速引领进入智能化时代84初期通用人工智能技术将加速引领进入智能化时代2018年初期AGI类技术出现,有可能将这个时间点大幅度提前先前认知(摘自本人2018年的一个学术报告)85其他热力系统云脑综合能源云脑电力云脑燃气云脑智慧城市智慧地球复杂热力系统云脑是未来综合能源云脑的基础节点从以人交互为主变为以无中心云脑互联为主“云脑”间相互协同,动态优化能源生产、运输和利用过程(例如动态电价下的发电用电规划,等)建筑能源系统云脑公共建筑和能源站等未来的智慧能源时代:云脑互联86什么是能源?什么是智慧?为什么需要智慧能源?如何实现智慧能源?GPT类的技术将带来哪些变革?课程安排汇报提纲87本课程主要关于智慧能源及大数据技术的最新发展,讲授大数据技术和人工智能在能源系统数据分析中的应用及其原理,让学生掌握能源系统大数据处理的编程方法,具备开发能源系统大数据分析的理论基础。本课程将采用实际能源系统数据进行案例教学,培养学生具备大数据实践能力。理论数据实践课程目标88能够”手撕”基础算法,熟练掌握算法原理能够”手写”算法代码能够用python解决智慧能源基础类型问题代码编程实战基础算法周一:算法理论<授课教师>周四:编程答疑<助教和博硕同学>课后作业交作业课程要求欢迎交流!能源系统数据预处理能源系统大数据分析理论与实践第二节90目录能源系统中的数据数据清洗方法数据降维方法数据规范化方法数据转换方法数据分割方法91数据来源温度传感器水泵电机压力传感器能源系统的数据通常来自传感器的测量信号和执行器的执行信号:数据的格式和特点能源系统运行数据注意:不是所有运行数据的连续变量都具有严格的连续含义,如定频运行的水泵。93连续数值变量:取值为连续区间类别变量:取值为离散值如:水管流速,房间温湿度等如:设备开关、时间变量频率:50HZ0HZ10相对湿度:[0,1]设备开关状态:{0,1}数据的表现形式能源系统运行数据的存储:二维数据表94典型建筑运行数据格式分析数据的时序关系分析变量的静态关系采集间隔:秒、分钟、小时、天…实际分析角度:静态关系、时序关系…特定时间点收集到的观测值采集时间数据存在的问题95能源系统运行机理复杂,数据采集、储存的过程中容易出现各种问题,数据整体质量低,存在缺失值、异常值。因此,需要引入数据清洗方法:正常值缺失值异常值某实际建筑2017年运行数据中:缺失值占比约为8%异常值占比约为5%数据预处理方法96能源领域中,不同的应用需求对数据有着不同的要求,因此需要引入一系列数据预处理方法,提高后续工作的可靠性:常见数据预处理方法汇总目录能源系统中的数据数据清洗方法数据降维方法数据规范化方法数据转换方法数据分割方法97数据清洗98目的:改善原始数据质量缺失值实例:冷机2017年1月1日冷冻出水温度数据集温度/℃冷冻水出水温度陡增,不符合领域认知温度/℃该时间段内没有对应数据缺失值:各种原因导致的数据缺失现象,数据样本存在未完整记录的数值异常值:不符合常理或系统运行规律的数值,如取值超出正常范围、连续呈现固定状态等异常值实例:冷机2017年1月20-22日冷冻出水温度数据集缺失值处理异常值识别能源领域中的缺失值缺失值出现的主要原因:人工采集错误:数据采集人员疏忽大意等人为因素导致的部分数据没有被记录采集仪表故障:传感器接触不良、发生故障等原因导致的部分数据没有被采集数据储存故障:断电或者数据储存设备损坏等原因导致的部分数据没有被储存缺失值的影响:个别变量的数据缺失:无法对数据缺失时段的统计规律进行有效分析某些变量的数据缺失:回归建模过程中缺少这些变量的有效信息,影响模型精度99缺失值处理方法100举例:假设目前只有50个历史数据样本可供使用,且其中20个数据样本包含缺失值丢弃补全缺失值处理方法丢弃:缺失值样本的比例较小,不会显著影响数据分析的质量补全:缺失值样本的比例过大,或者样本采集的成本过高丢弃补全单变量补全单变量补全:用目标变量的数据特征来推断缺失值101均值/中位数插补:表中所有有值数据的统计量:
均值:24
中位数:25T=6和T=7时刻的缺失值由数据集的均值或中位数填补均值插补补全方法单变量补全多变量补全中位数插补正向/反向时序插补移动平均法插补单变量补全102正向/反向时序插补:正向:采用最邻近缺失值的上一时刻数值进行补全:
选取T=5时刻的真实值(30)反向:采用最邻近缺失值的下一时刻数值进行补全:
选取T=8时刻的真实值(35)均值插补补全方法单变量补全多变量补全中位数插补正向/反向时序插补移动平均法插补单变量补全103移动平均插补:固定时间窗口w,计算最邻近缺失值的w个连续数值的均值设w=3,则T=6时刻的缺失值:计算T=3、4、5时刻的数据均值(20+25+30)/3=25T=7时刻的缺失值:计算T=4、5时刻的真实值和T=6时刻的填补值的均值(25+30+25)/3=27均值插补补全方法单变量补全多变量补全中位数插补正向或反向时序插补移动平均法插补多变量补全多变量补全:寻找其他参考变量与目标变量的关系来估算缺失值104K邻近算法补全方法单变量补全多变量补全基于回归思想基于K近邻的缺失值填充:通过参考变量(较易获得且准确的变量,如时间、温度…)的取值确定样本邻近关系,根据K个最邻近的完整样本数值计算缺失值令K=3。T=6时,参考变量取值为21,最邻近的3个参考变量取值为18、15、14,分别对应T=8、5、9时刻的样本T=6时刻的目标变量:计算对应三个时刻目标变量的均值,即(30+35+30)/3=32多变量补全105基于回归思想的缺失值填补:
×2K邻近算法补全方法单变量补全多变量补全基于回归思想异常值人工采集错误:人工输入的疏忽仪表测量误差:仪器测量误差或性能漂移导致,最为常见数据处理错误:运行算法时,一些操作错误可能导致数据出现异常值6.1℃60.1℃T1:6.1℃T2:6.2℃T3:8.2℃……T:42.1℃F:6.1Hz106异常值出现的常见原因:异常值的影响:导致数据挖掘出现不可解释的结果/误导性结果大量异常值会大大降低回归模型的精度和可靠性箱线图箱线图是一种用于显示一组数据分布情况的统计图,常用于快速识别异常值箱线图的绘制方法:找出一组数据的上边缘、下边缘、中位数和两个四分位数连接两个四分位数画出箱体将上边缘和下边缘与箱体相连接,中位数在箱体中识别原理:异常值往往明显偏离正常测量值107单变量识别:观测目标变量自身的分布情况,利用统计方法确定少概率异常样本异常值识别方法:单变量识别多变量识别四分间距法(箱线图)3σ法箱线图108上边缘Q3+1.5IQR下边缘Q1-1.5IQR下四分位数Q1上四分位数Q3中位数异常值异常值四分位距IQR=Q3-Q1下四分位数:一组数据从小到大排序后处于25%位置上的值上四分位数:一组数据从小到大排序后处于75%位置上的值四分间距法示例例:对于表中数据109
序列目标样本1102153204255306407208259301035四分间距法的应用110ZhangC,ZhaoY,LiT,ZhangX,LuoJ.Acomprehensiveinvestigationofknowledgediscoveredfromhistoricaloperationaldataofatypicalbuildingenergysystem.JournalofBuildingEngineering2021;42:102502.1113σ法3σ原则:假设一组检测数据中只含有随机误差,通过计算得到标准偏差σ,按一定概率确定一个区间,将超过这个区间的误差剔除。使用前提:样本数据呈正态或近似正态分布,且测量次数充分大3σ原则:数值分布在(μ-σ,μ+σ)中的概率为68.27%数值分布在(μ-2σ,μ+2σ)中的概率为95.45%数值分布在(μ-3σ,μ+3σ)中的概率为99.73%服从正态分布的数据取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%,这些超出范围的数据可以认为是异常值μ为平均值σ为标准差例:对于表中数据112
讨论:3-sigma认定的上下限范围要比IQR方法更大,因此,3-sigma方法也是更为保守的一种异常值识别方法。序列目标样本11021532042553064072082593010353σ法示例1133σ法的应用某冷水机组冷却水出水温度分布异常值占比:0.8%-3σ+3σ多变量识别方法很多复杂的异常情况并不能从单一维度进行有效识别多变量识别方法114二维空间异常点示意图基于距离的异常值识别方法基于密度的异常值识别方法注:多变量异常识别方法多通过聚类算法实现。例如,通过k-means聚类实现基于距离的方法,通过DBSCAN聚类实现基于密度的方法。它们将在第三章进行介绍。基于距离基于密度目录能源系统中的数据数据清洗方法数据降维方法数据规范化方法数据转换方法数据分割方法115数据降维方法能源系统运行数据的冗余性:116某能源系统#1数据采集结果…样本数量大样本维度变量维度采集频率高,相邻数据差异小某能源系统#2数据采集结果监测变量为24个样本维度变量维度样本维度降维方法117样本维度降维方法依赖抽样技术:随机抽样:从数据集中随机选择一定比例的数据随机分层采样:对数据集进行划分并对子数据集分别随机抽样随机抽样示意图随机分层抽样示意图随机抽样随机分层采样样本维度降维方法118基于规则的样本筛选在时间维度上,某时刻的数据与前后几分钟的数据间相似度较高。在进行数据降维时,可以只选择每个整点的数据作为样本,提升计算效率基于规则的样本筛选基于规则的样本筛选方法通常需要结合领域知识与实际情况,因地制宜地进行设置变量维度降维方法119变量维度降维方法基于领域知识的方法:基于专家经验选取变量中最相关的变量组合基于统计学方法:筛选出与建模目标变量高度相关的变量过滤式:根据相关性指标对变量进行排序选择包裹式:对不同组合的输入变量进行数据试验获取最佳特征子集;嵌入式:使用机器学习算法确定最优特征变量。注:具体实现过程将在第四章《特征工程》中介绍基于领域知识基于统计方法能耗进水温度出水温度流量
目录能源系统中的数据数据清洗方法数据降维方法数据规范化方法数据转换方法数据分割方法120数据规范化的意义121能源系统数据中的变量:能源系统常见数据类型的变化范围不同量纲变量的影响变化范围小的变量对模型效果影响微弱温度:18~26℃相对湿度:30%~80%建筑负荷:kW~MW量纲不同范围不同温度T/℃相对湿度φ0130
数据规范化的意义122建筑能源领域主流数据规范化处理方法:
Z-score标准化方法、最大最小归一化方法Z-score标准化
12310050408030原始数据x
归一化后的数据x’-0.868-1.2150.5210.1741.562-0.174前提假设:数据满足正态分布将原始数据集归一化为均值为0,方差为1的数据:
σ:原数据集的标准差Z-score标准化124物理意义:以标准差度量原始数据偏离均值的程度
σ:原数据集的标准差34.13%34.13%13.59%13.59%2.14%2.14%0.14%0.14%0+1σ+2σ+3σ+4σ-1σ-2σ-3σ-4σ标准差:Z分数:0+1.0+2.0+3.0+4.0-1.0-2.0-3.0-4.0
最大最小归一化对原始数据进行线性变换,将数据值映射到[0,1]之间:
最大值:80最小值:-1000125前提假设:数据中不存在极端值-10000504080300.0000.9260.9720.9631.0000.954原始数据x归一化后的数据x’
无法描述数据本身的分布规律最大最小归一化
126物理意义:以百分比度量数据的相对大小
最大值:80最小值:0100504080300.1250.0000.6250.5001.0000.375原始数据x归一化后的数据x’010304050800.12500.3750.50.6251不改变数据分布目录能源系统中的数据数据清洗方法数据降维方法数据规范化方法数据转换方法数据分割方法127数据转换方法等宽法:将变量整体浮动范围分割成若干个等长度的区间,将不同区间赋予不同的类别等频法:将变量整体浮动范围分割成若干个包含相同样本数的区间,将不同区间赋予不同的类别128等频法示意图
等宽法示意图
连续数值型变量→类别型变量:部分算法只能处理离散变量离散变量计算成本更低等宽法的应用129以2℃为单位,对某空调系统冷冻出水温度进行等距分箱:某空调系统冷冻出水温度
等频法的应用130以20%为间隔,对某空调系统冷冻出水温度进行等频分箱:某空调系统冷冻出水温度
数据转换方法131有明显大小关系的类别型变量,可以通过简单的数字编码将其转换为离散的数值型变量:水泵运行功率离散变量0Hz关机0
20Hz低速运行150Hz高速运行2类别型变量→连续数值型变量:保障算法的有效性数据转换方法132时间周一周二周三周四周五周六周日转化成1行,m-1列的矩阵100000类别型变量-连续数值型转换方法:没有明显大小关系的类别型变量,通常采用独热(one-hot)编码的方法进行数据转换:m个类别0100000010000001000000100000010000001000000目录能源系统中的数据数据清洗方法数据降维方法数据规范化方法数据转换方法数据分割方法133数据分割方法*134能源系统运行过程本身存在明显的周期性:工况环境……某办公建筑一个月的负荷曲线工作日休息日数据分割方法*135分割方法:无监督有监督基于决策树进行能耗分级基于小波分解进行负荷数据分割具体方法在后续章节介绍136课后习题深圳某公共建筑一年的运行数据异常缺失使用python对缺失值进行填充,对异常值进行识别上传python代码文件与处理后的表格欢迎交流!137138线性插值x0定义:线性插值是一种针对一维数据的插值方法,它根据一维数据序列中需要插值的点的左右邻近两个数据点来进行数值的估计。计算公式:已知点(x0,y0)和(x1,y1),填充插值点x处的数据y,我们可以根据(x0,y0)和(x1,y1)两点所连的直线的斜率,计算出插值处y的值。xx1y0yy1XYx0y0x?x1y1139线性插值Time空调系统冷冻出水温度7/19:007.637/19:107.637/19:207.637/19:30?7/19:407.597/19:507.61……Time空调系统冷冻出水温度7/19:007.637/19:107.637/19:207.637/19:307.63+10*(7.59-7.63)/20=7.617/19:407.597/19:507.61……线性插值二次插值计算公式:已知(i,j)、(i+1,j)、(i,j+1)、(i+1,j+1)四个点的数据f(i,j)、f(i+1,j)、f(i,j+1)、f(i+1,j+1),填充(p,q)处的缺失值f(p,q)。
在线性插值中,缺失数据y由一个自变量x决定,但在某些情况下,当缺失数据f(p,q)由两个自变量p和q决定时,则需要用二次插值来计算插值点的数据。f(i,j+1)f(i,j)f(i+1,j+1)f(i+1,j)f(p,q)f(p,j)f(p,j+1)140样条插值定义:插值样条是由一些多项式组成的,每一个多项式都是由相邻的两个数据点决定的,这样,任意的两个相邻的多项式以及它们的导数在连接点处都是连续的。一次样条插值:已知四个点(3,2.5),(4.5,1),(7,2.5),(9,0.5)。两点确定一条直线,我们可以在每两点间画一条直线,就可以把所有点连起来。3.02.52.01.51.00.50.02.03.04.05.06.07.08.09.010.0本质上,一次样条插值是分段线性插值,对于处于不同区间内的缺失值,可使用不同的线性回归式进行计算。但是,一次样条插值在节点处不够光滑,如何解决这一问题?141样条插值二次样条插值:曲线不光滑的原因是连接点处的一次函数导数不相同。如果可以用二次函数代替,保证不同分段函数在节点处的导数相同,便可以使得曲线在连接点处光滑,这便是二次样条插值。如下图所示,共有4个点,x0,x1,x2,x3,有3个区间,需要3个二次样条,每个二次样条均为二次函数ax2+bx+c,故总计需要估计9个未知参数。142样条插值
143样条插值二次样条插值连续光滑,看起来效果还行,但是前两个点之间是直线,这是假设a1为0造成的,同时,曲线末端过于陡峭。二次函数最高项系数为0,导致变成直线,那三次函数最高项系数为0,还是曲线,插值效果应该更好。于是,便有了三次样条插值。3.02.03.01.00.0-1.04.05.06.07.08.09.0144样条插值三次样条插值:三次样条思路与二次样条基本相同,假设有4个点,3个区间,那么需要3个三次样条,每个三次样条为ax3+bx2+cx+d,故总计需要估计12个未知参数。计算方法:1.内部节点处的函数值应该相等。2.函数的第一个端点和最后一个端点,应该分别在第一个方程和最后一个方程中。3.两个函数在节点处的一阶导数应该相等。4.两个函数在节点处的二阶导数应该相等。
5.假设端点处的二阶导数为零:a1=0b1=0145无监督学习—Clustering&AssociationRule能源系统人工智能方法
第三节能源系统运行过程中会产生海量的数据数据特点:变量种类多、数据体量大、价值密度低、数据标签稀缺背景如何从繁杂的数据中提取有用的信息?147数据挖掘技术被认为是解决这一问题的方法背景DataminingHVACsystemoperationdata高价值数据148背景无监督学习算法是常用的数据挖掘方法:无监督学习:样本的标记信息未知,通过对样本的学习来揭示数据的内在性质和规律的过程对数据做进一步分析有价值知识149背景无监督学习算法典型能源应用场景:150背景无监督学习的一般流程:数据预处理无监督数据挖掘知识后挖掘151背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲152聚类的定义数据聚类结果示意图聚类结果:算法自动生成簇的意义:由使用者定义聚类(Clustering):将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)三个聚类簇153数学表达样本集D:包含m个样本每个样本xi:为一个包含n个数的向量聚类过程:基于样本间的相似程度将样本集中的样本划分为k个子集(聚类簇)聚类目的:得到包含每个样本归属于哪个簇的簇标记向量
x聚类簇数目k=2x1x3x2x4x5x6聚类算法1x2x3x4x5x6样本集(样本数m=6)聚类簇1聚类簇2x11x12含n=2个数154相似性度量相似性度量:用于定量估计样本间的相似程度分类:几何距离的性质:非负性:样本之间的距离大于等于0同一性:相同样本间的距离为0对称性:样本互相交换位置不改变结果直递性:两点之间直线距离最短155相似性度量-几何距离-闵可夫斯基距离闵可夫斯基距离:范围∈(0,∞),越大越不相似样本和的距离计算公式:p值不同时,具有不同的名称以及计算公式:几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数
p=∞:切比雪夫距离p=2:欧式距离p=1:曼哈顿距离156二维空间中的三种距离展示红色点划线:曼哈顿距离,温湿度差值绝对值之和黄色直线:欧氏距离,两点之间的直线距离蓝色虚线:切比雪夫距离,温湿度差值绝对值的最大值相似性度量-几何距离-闵可夫斯基距离几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数157马拉哈诺比斯距离:适用于衡量量纲存在显著差异的样本间的相似度实例展示:相似性度量-几何距离-马拉哈诺比斯距离几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数使用欧氏距离进行聚类d1
将纳入绿点使用马拉哈诺比斯距离进行聚类d2
将纳入绿点d1d2d1d2d1<d2d1>d225~35℃40~90%40~90%可看作是欧氏距离的推广取值差异过大158马拉哈诺比斯距离计算示例:数据来源:7个房间同一天的室内信息房间平均温度(ºC)平均相对湿度(%)房间123.969.0房间227.361.0房间325.170.1房间428.365.2房间526.267.0房间624.872.4房间727.766.5相似性度量-几何距离-马拉哈诺比斯距离几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数计算公式:样本向量样本矩阵的协方差矩阵159马拉哈诺比斯距离计算示例:将表中数据写入一个7×2的矩阵计算Xt的协方差矩阵S以及它的逆S-1:计算xi和xj之间的马拉哈诺比斯距离相似性度量-几何距离-马拉哈诺比斯距离几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数160余弦距离:通过计算两个样本向量的夹角余弦值评估两者相似度几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数相似性度量-几何距离-余弦距离三个样本计算公式实例展示:角α<角β→cos(α)>cos(β)→distS(x1
,x2)<
distS(x1
,x3)→x1与x2更相似相似不相似161余弦距离计算示例:余弦距离的计算公式房间1的室内环境向量:x1=
(23.9,69)
房间2的室内环境向量:x2=(27.3,61)x1与x2的余弦距离:几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数相似性度量-几何距离-余弦距离162皮尔逊相关系数:衡量两个样本之间的线性相关性取值∈(-1,1)
正值表示正相关,负值表示负相关相似性度量-相关系数-皮尔逊相关系数几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数相关性强相关性弱163协方差Cov(Xi,Xj)标准差σXi*σXj皮尔逊相关系数计算示例:时间建筑1能耗(kW)建筑2能耗(kW)9:005.89.210:007.611.211:007.813.912:0010.414.813:008.915.614:005.911.515:004.19.2建筑1的能耗向量x1建筑1的能耗向量x2相似性度量-相关系数-皮尔逊相关系数相关系数:164斯皮尔曼相关系数:用途:衡量样本之间的单调相关性几何距离:闵可夫斯基距离马拉哈诺比斯距离余弦距离相关系数:皮尔逊相关系数斯皮尔曼相关系数单调性与线性的区别:计算示例:房间1温度房间2温度满足点调性不满足线性原始样本元素转化为降序位置作差相似性度量-相关系数-斯皮尔曼相关系数165斯皮尔曼相关系数计算示例:时间建筑1能耗(kW)建筑1能耗降序位次建筑2能耗(kW)建筑2能耗降序位次9:005.869.26.510:007.6411.2511:007.8313.9312:0010.4114.8213:008.9215.6114:005.9511.5415:004.179.26.5相似性度量-相关系数-斯皮尔曼相关系数建筑2原始能耗向量x2,位次向量x2’
建筑1原始能耗向量x1,位次向量x1’
计算式:166相似性度量-总结相似性度量总结:距离度量闵可夫斯基距离:基础的距离指标,p值不同计算公式不同曼哈顿距离:折线距离欧氏距离:直线距离切比雪夫距离:横向距离马拉哈诺比斯距离:在闵可夫斯基距离的基础上,消除了由于变量取值范围不同造成的影响余弦距离:两个样本向量的夹角,与位置无关相关系数度量皮尔逊相关系数:衡量线性相关性斯皮尔曼相关系数:衡量正负相关性(包括线性与非线性相关)167三个聚类簇168聚类性能评价如何用数学公式(或者程序流程)来定义什么是好的聚类?聚类性能评价:对聚类结果进行评估内部评价指标:根据聚类簇之间的相似度来评价聚类结果外部评价指标:根据聚类结果与真实结果进行比较来评价聚类结果指标分类:聚类性能评价169轮廓系数(SilhouetteCoefficient):对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。轮廓系数的取值范围是[-1,1],同类别样本距离越相近不同类别样本距离越远,分数越高。聚类性能评价-内部评价指标-轮廓系数样本i的轮廓系数计算式ai:样本i与簇内其他样本的平均距离(图中红色线段长度的均值)bi:样本i与其他簇样本的平均距离(图中绿色线段长度的均值)样本i与其他簇样本的距离i内部评价指标:轮廓系数戴维森堡丁指数邓恩指数外部评价指标纯度兰德系数F值样本i与簇内其他样本的距离170计算示例:使用轮廓系数评价聚类结果的好坏10个样本的聚类结果如下评价指标中样本间距离计算均使用欧式距离房间平均温度(ºC)平均相对湿度(%)聚类簇房间137.868.61房间237.268.51房间336.769.91房间423.974.62房间522.876.12房间621.185.22房间720.081.72房间830.163.73房间928.367.13房间1027.865.23聚类性能评价-计算示例171轮廓系数计算示例:以聚类簇1中的样本1为例:样本1与同簇其他样本的平均距离为:聚类性能评价-计算示例-轮廓系数与聚类簇2(C2)内样本的平均距离为:与聚类簇3(C3)内样本的平均距离为:与聚类簇2和3的平均距离的最小值为:样本1的轮廓系数:172所有样本的轮廓系数计算结果样本序号aibisi11.169.770.8821.059.180.8931.599.320.8346.9710.470.3355.7912.310.5367.9621.290.6376.0118.560.6883.308.920.6392.919.160.68102.3610.200.77聚类性能评价-计算示例-轮廓系数聚类结果的轮廓系数等于si列的平均值:173两个聚类簇中心的距离:戴维森堡丁指数(Davies-bouldinIndex,DBI):该指标用来衡量任意两个簇的簇内距离之后与簇间距离之比。该指标越小表示簇内距离越小,簇内相似度越高,簇间距离越大,簇间相似度低。取值∈(0,∞),值越小聚类效果越好聚类性能评价-内部评价指标-戴维森堡丁指数簇内样本与簇中心距离,其均值:内部评价指标:轮廓系数戴维森堡丁指数邓恩指数外部评价指标纯度兰德系数F值174计算示例:使用戴维森堡丁评价聚类结果的好坏10个样本的聚类结果如下评价指标中样本间距离计算均使用欧式距离房间平均温度(ºC)平均相对湿度(%)聚类簇房间137.868.61房间237.268.51房间336.769.91房间423.974.62房间522.876.12房间621.185.22房间720.081.72房间830.163.73房间928.367.13房间1027.865.23聚类性能评价-计算示例175戴维森堡丁指数计算示例:各聚类簇的中心点:聚类性能评价-计算示例-戴维森堡丁指数每个聚类簇内各样本到该簇中心点的平均距离:176各聚类簇中心点之间的距离:聚类性能评价-计算示例-戴维森堡丁指数该聚类结果的戴维森堡丁指数:177簇内的最远距离:邓恩指数:(DunnIndex)如果一个簇的质心与该簇中的点之间的距离很小,则意味着这些点彼此靠近。取值∈(0,∞),值越大聚类效果越好聚类性能评价-内部评价指标-邓恩指数簇间的最近距离:内部评价指标:轮廓系数戴维森堡丁指数邓恩指数外部评价指标纯度兰德系数F值178计算示例:使用邓恩指数评价聚类结果的好坏10个样本的聚类结果如下评价指标中样本间距离计算均使用欧式距离房间平均温度(ºC)平均相对湿度(%)聚类簇房间137.868.61房间237.268.51房间336.769.91房间423.974.62房间522.876.12房间621.185.22房间720.081.72房间830.163.73房间928.367.13房间1027.865.23聚类性能评价-计算示例179邓恩指数指数计算示例:计算两两聚类簇样本间距离的最小值,以聚类簇1和聚类簇2为例聚类簇1样本序号聚类簇2样本序号4567115.1416.7723.5522.10214.6316.2823.2021.68313.6415.2221.8520.45聚类性能评价-计算示例-邓恩指数最小值不同簇样本间的最小值:各聚类簇内样本间的最远距离:聚类结果的邓恩指数:180基本原理——聚类性能聚类性能总结:内部评价指标:仅从聚类结果的角度评价聚类效果轮廓系数:范围∈(-1~1),值越大聚类效果越好戴维森堡丁指数:范围∈(0~∞),值越小聚类效果越好邓恩指数:范围∈(0~∞),值越大聚类效果越好外部评价指标:需要有标准的分类结果作参考纯度兰德系数F值181在能源领域,聚类任务的性能基本不采用外部评价指标进行评估,因此不再详细展开介绍背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲182原型聚类原型:样本空间中具有代表性的点簇中心的十字表示原型位置定义:原型聚类旨在找到一组能够最大可能刻画原始样本分布的原型原理:随机选取一组原型。然后对原型进行迭代更新,直到得到一组稳定的原型适用领域:不同类型的样本间差异较大的任务,如识别控制策略、区分运行状态、划分系统用能水平、揭示不同的用能行为代表算法:k-means算法、学习向量量化、高斯混合聚类原型183原型聚类聚类目标:最小化各簇内的点与其原型间的欧氏距离之和184示例分析:基于k-means的建筑用能模式识别数据来源:某办公建筑30个样本数据,样本由2个维度组成聚类目的:揭露建筑不同室外温度下的建筑用能模式样本序号室外温度(ºC)建筑冷负荷(kW)014.961201115.891224………2930.178318量纲差异过大,聚类前需先进行归一化样本序号室外温度建筑冷负荷00.060.0410.110.05………290.930.99185示例分析:基于k-means的建筑用能模式识别不同聚类簇数量下聚类结果轮廓系数曲线基于k-means算法的建筑用能模式识别结果聚类数目∈(2,9)最佳轮廓系数三种常见的用能模式聚类步骤:确定聚类数量、分析聚类结果186背景聚类定义与基本原理原型聚类(以k-means算法为代表)密度聚类(以DBSCAN为代表)层次聚类(以AGNES为代表)关联规则挖掘定义与基本原理Apriori算法FP-growth算法应用案例知识后挖掘聚类后挖掘关联规则后挖掘提纲187密度聚类定义:基于密度的聚类简称密度聚类原型聚类结果与密度聚类结果的区别原理:根据样本密度分布,将相邻的样本聚合到一起,形成多个聚类簇适用领域:密度聚类算法能够发现任意形状的聚类簇,具有更高的灵活性,常应用于离群点异常检测任务代表算法:DBSCAN、OPTICS、DENCLUE188密度聚类:DBSCAN算法基本概念:
ε邻域:对某样本点,以其为圆心,半径为ε的领域MinPts=3
x3由x2密度直达x3由x1密度可达x3与x4密度相连ε邻域噪声核心对象:ε邻域内包含的样本点数量大于等于某一阈值(MinPts)的样本密度直达:若样本p是核心对象,样本q在其ε邻域内,则称q由p密度直达
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版教育信用借款合同范本助力学子圆梦3篇
- 2024年甲乙双方关于文化旅游项目投资与合作协议
- 2025版航空航天发动机研发中心建筑工程一切险及知识产权保护合同3篇
- 2025版跨境电商业务培训与市场拓展代理服务合同模板3篇
- 2024年高品质猪场租赁服务合同书2篇
- 2025版科技创新型企业劳动合同全解析百问百答3篇
- 二零二五年企业签约落户保障与服务协议3篇
- 课题申报书:大学生“社恐”现象的心理机制与应对策略研究
- 2024影像资源数字化与版权管理服务合同3篇
- 2024年矿产资源国际贸易与合作合同
- 304焊接工艺参数
- 交感神经相关性疼痛及其治疗通用课件
- 工装夹具项目开发计划书
- 中小学生研学旅行 投标方案(技术方案)
- 文创产品市场营销策略
- 社区生鲜可行性报告
- 6款课堂活动随机点名-抽奖模板(可编辑)两套
- 2023新兵集训总结发言
- 《辐射安全许可证》申请条件核查表
- 《财务管理》课程教学成果创新报告
- DB15-T 2537-2022 涉路工程安全性评价报告编制指南
评论
0/150
提交评论