




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据、数据挖掘与暖通专业HVAC-relatedBigdata,datamining大数据、数据挖掘与暖通专业HVAC-relatedBig一、大数据的故事一、大数据的故事1.1
数据的由来记录信息的能力是人类文明的标志之一;计量和记录是数据的起点,是数据化最早的根基;1.1数据的由来数字时代和数据爆炸人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度比世界经济的增长速度快9倍。其中非数字数据不到2%。数字时代和数据爆炸人类存储信息量的增长速度比世界经济的增长速大数据的特征——“量”大指数增长,从0.8zb(2009)到35zb(2020)Exponentialincreaseincollected/generated
data阿里数据拥有5000台服务器,攒下了超过100PB已处理过的数据,等于104857600个GB,相当于4万个西雅图中央图书馆,580亿本藏书。仅淘宝和天猫两个子公司每日新增的数据量,就足以让一个人连续不断看上28年的电影。大数据的特征——“量”大指数增长,从0.8zb(2009)到大数据的特征——种类繁杂不同格式、类型、结构…文本、数字、图片、录音影像、时序信号、社交媒体数据…静态数据、流数据简单的应用程序可以产生、收集多种类型的数据注意数字化和数据化的区别大数据的特征——种类繁杂大数据的来源数据收集自身不再成为了解世界的障碍->任性的时代!关键问题:->数据管理、分析、整理、可视化和新知识的获得大数据的来源数据收集自身不再成为了解世界的障碍->任性的时代大数据带给我们的新研究理念①传统随机采样技术的结束->小数据时代大数据带给我们的新研究理念①传统随机采样技术的结束->小数据缺陷:受采样条件的制约,即随机性自身的影响;不适合子项的深入研究;忽略细节;不能脱离事先设计、传统思维的影响缺陷:样本=总体。只有获得所有数据,才有真正认识事物的可能;不单纯意味着数据一定要“多”,重要的是所有细节的涵盖;样本=总体。只有获得所有数据,才有真正认识事物的可能;大数据带给我们的新研究理念②追求精确的时代结束大数据带给我们的新研究理念②追求精确的时代结束只有5%左右的数据是结构化的;不精确不再是缺点,大数据决定了适当的容错是可能的;不再需要对数据进行仔细的事先清理和筛选,不再为误差精度而担心,“概率”>>准确度;大数据的简单算法比小数据的复杂算法更有效->为什么谷歌翻译系统最出色?接受混乱是数据的标准状态,不要想法去避免它->开放性、多样性的数据库建立和分析方法只有5%左右的数据是结构化的;大数据带给我们的新研究理念③注重机理(因果)研究时代的结束大数据带给我们的新研究理念③注重机理(因果)研究时代的结束相比于内在机理的挖掘,在大数据时代,相关关系的寻找更重要->“是什么”>>“为什么”;相比之下,相关关系的发现更准确、更快速,更不易受误导->机理研究存在很大风险;是大数据预测技术的核心思想->只要找好关联物即可;相比于内在机理的挖掘,在大数据时代,相关关系的寻找更重要-大数据的应用①——人类行动学表面:看起来随机而无规律的每个人的移动潜在价值:提供定制广告;预测交通状况和人员聚集情况;消除潜在的传染病危害;利用:GPS各种相关设备、移动车辆、移动通信、银行信息…大数据的应用①——人类行动学大数据的应用②——人类社交活动表面:寻找和维持朋友、同事关系,发泄情绪;潜在价值:个体的喜好、商务信用;营销策略;利用:Facebook,
Twitter,
微信,QQ…大数据的应用②——人类社交活动大数据的应用③——人类商务活动表面:基本商务信息(购物、金融贸易…);潜在价值:新的商务类型;利用:电商(阿里巴巴、Amazon、ebay)、大型销售商、政府部门的数据大数据的应用③——人类商务活动大数据的应用④——人体健康• 表面:测量身体各部位数据;• 潜在价值:提供个性化医疗服务;• 利用:各种传感器大数据的应用④——人体健康• 表面:测量身体各部位数据;一般性的结论未来的世界,数据将无处不在。世界不再是各种事件的构成,而是信息组合;所有数据均有其价值,而且数据的真实价值可能远远大于表象价值,就像冰山藏在海洋下面的部分一样;与自然界的物质不同,数据的价值不会随着使用而减少,关键是如何评估和挖掘数据的潜在价值;数据的总和比部分更有价值->数据重组技术;数据的价值是动态变化的;要格外关注数据噪声(数据废气)的重要价值;引领大数据时代的关键因素不是技能,而是思维的创新。一般性的结论可怕的结论大数据时代,“专家”或“行业工程师”可能要让位于数据科学家、统计学家和分析家,因为后者没有传统观念的束缚,更注意把握数据内在的规律;原因:专业技能是小数据时代的产物!思考:我们会失业么?可怕的结论大数据时代,“专家”或“行业工程师”可能要让位于数大数据的局限性大数据的预测可能是不全面、不准确的;大数据只能提供参考答案,不能给出准确答案;真正的创新是超越于数据之上的!大数据的局限性二、数据分析和数据挖掘二、数据分析和数据挖掘数据分析和数据挖掘的区别共同点:都是从收集到的数据中提取有用信息,对数据进行处理后发现知识的过程;区别:数据量不同(数据分析->小、数据挖掘->大);数据类型不同(数据分析->规范化数据;数据挖掘->规范化和非规范化数据);目的不同(数据分析->假设检验;数据挖掘->挖掘新的知识和信息);手段不同(数据分析->统计学;数据挖掘->还需要机器学习的算法)常规的Excel数据处理过程是数据分析!数据分析和数据挖掘的区别共同点:都是从收集到的数据中提取有用数据挖掘的9大定律BusinessGoalsLawBusinessKnowledgeLawDataPreparationLawNFL
LawWatkins’LawInsightLawPredictionLawValueLawLawof
Change数据挖掘的9大定律数据挖掘的挑战如何选择数据挖掘的方案?如何规避和有效利用数据噪声?如何面对数据不断更新的影响?数据挖掘的挑战数据挖掘的基本流程信息收集(数据仓库)数据集成数据规约数据清理数据变换数据挖掘模式评估知识表示数据预处理,至少占60%工作量至少占60%费用数据挖掘的基本流程信息收集(数据仓库)数据预处理,至少占60(1)数据挖掘的基础——数据仓库(data
warehouse)数据存放、组织归类、提供使用的集成平台;主要用于支持决策,可以对多个异构的数据来源有效集成,集成后可按照主题重组,包括历史数据;传统的一体式、云存储等不同形式;内涵不同于现有的企业型数据库(data
base),表现在:数据仓库的数据结构更灵活,包含了过去的、综合的、集成的、提炼的信息;数据一旦进入数据仓库,修改或更新的操作较少知名数据仓库产品:Oracle(Oracle),Teradata(Teradata),DB2(IBM),SQLServer(Microsoft)…(1)数据挖掘的基础——数据仓库(datawarehous数据仓库的基本结构ETL(ExtractTransformLoad):数据抽取、转换、装载过程;OLAP(OnLineAnalyticalProcessing):对数据进行有效集成和分析;Reporting:报表数据仓库的基本结构(2)数据集成将多个数据源中的数据(以数据库为代表)结合起来存放到一个一致的数据存储(以数据仓库为代表)中的过程;目的:进行数据汇总和数据概化;需要利用专业知识来检测并解决数据值的识别和冲突问题;(2)数据集成数据预处理目的:提高数据质量,使数据挖掘的过程更加有效,更加便捷,提高结果的精度和可靠性;此过程重要、不可或缺;针对对象:噪声数据、空缺数据、错误数据和不一致数据;背景太多杂乱的数据->属性信息不完整、夹杂噪声值(错误、孤立点)、重复值(属性和数据冗余)、异常值、格式不符合要求…数据挖掘需要高质量的数据数据预处理目的:提高数据质量,使数据挖掘的过程更加有效,更加(3)数据清理通过填写缺失的数据、光滑噪声数据、识别或删除离群点并解决不一致性来对数据进行处理的过程。目标:格式标准化异常数据剔除错误纠正重复数据去除(3)数据清理通过填写缺失的数据、光滑噪声数据、识别或删除离(3-1)
处理缺失数据数据仓库的数据很多是不完整的;空缺(遗漏)属性值:简单地将存在空缺(遗漏)属性值的数据记录删除->有风险人工方式填写、补齐空缺值->可行性差将空缺(遗漏)属性值作为一种特殊属性值处理;采用统计学原理,根据信息表中其余数据在该属性上的分布情况对空缺(遗漏)属性值进行估计补充。具体做法:平均值、同类样本最可能值、贝叶斯公式或判定树->有风险时空序列缺失:时间段局部性缺失->线性插值补缺;缺失时间段较长->利用历史数据;空间缺失->周围数据点代替(3-1)处理缺失数据数据仓库的数据很多是不完整的;空缺(3-2)处理重复数据真正重复性的数据;属性冗余:通过因子分析或经验方法确信部分属性的相关数据足以对信息进行挖掘和决策,可通过专业常识或相关数学方法找出具有最大影响属性因子的属性数据,其余属性删除;属性数据冗余:若某属性的部分数据足以反映该问题信息,则其余可删除。若经过分析,这部分冗余数据可能还有他用,则先保留。数据集成可以部分解决该问题。(3-2)处理重复数据真正重复性的数据;(3-3)处理噪声数据数据随机误差或偏差;利用分箱技术(平滑箱算法)来检测周围相应属性值进行局部数据平滑;利用聚类技术,根据要求检测孤立点数据并进行修正;利用回归函数和时间序列分析进行修正;(3-3)处理噪声数据数据随机误差或偏差;(3-4)处理异常数据专指不遵循数据模型的一般规律的数据。注意异常点不同于噪声,前者是数据固有可变性的结果。有时异常点隐含着重要的信息,甚至于其本身就是重点寻找的对象。方法:针对时间序列数据,采用移动窗口理论等实现检测;针对空间数据,采取移动曲面拟合法等实现检测;针对多维数据,采取聚类分析法等实现检测。(3-4)处理异常数据专指不遵循数据模型的一般规律的数据。(4)数据转换分为常规数据转换和非常规数据转换两类,实现定性问题定量化、定量问题定性化。常规数据转换:通过线性或非线性数学变换方法等消除数据在空间、属性、时间及精度等特征表现上的差异,将数据转换为适用于数据挖掘的形式。常用方法:最小-最大规范化、Z-score规范化即零-均值规范化、小数定标规范化;目的:减少数据复杂度;数据规范化,使数据按比例缩放,落入特定区域;进行属性构造,通过一个或多个属性变换计算构造出新的属性等。(4)数据转换分为常规数据转换和非常规数据转换两类,实现定性数据标准化处理后的所有数据的平均值为0,标准差为1。把区间较大的数据整合到一个相对较规则的区间中。常用方法:标准差标准化:标准差数据标准化处理后的所有数据的平均值为0,标准差为1。把区间较极差标准化:处理后的所有数据的极差为1。极差正规化:处理后的所有数据都在0~1之间。最小-最大规范化:把所有数据转化到新设定的最小值和最大值区间内极差极差标准化:极差非常规数据转换如音频、视频数据转换为文本格式的数据等,方法多样。非常规数据转换如音频、视频数据转换为文本格式的数据等,方法多(5)数据规约目的:一般的数据预处理之前,对数据集进行压缩,以便后续的数据挖掘工作更高效、精度更高、更简便;可以没有该步骤;特点:损失原始数据->与数据清理、数据变换的不同之处;主要方法:维数消减模型->慎用,以免牺牲数据质量(5)数据规约数据挖掘的主要算法①——聚类算法把有共同特征的对象聚成一类,又称群分析;是数据挖掘的核心技术,也可作为数据挖掘系列过程中的预处理算法;把所有的对象数据按相异度(距离)分成不同的群组;特点:划分前不知道数据要分成几组,也不知道依赖哪些变量来进行划分。聚类后要结合专业知识予以合理解释;代表算法:K-means算法、K-medoids算法、PAM算法等。区别只在于每个聚类中心点的确定方法。数据挖掘的主要算法①——聚类算法建筑环境及能源大数据专业讲义课件数据挖掘的主要算法②——分类算法目的:如何找出同类事物共同性质的特征性知识和不同事物之间的差异性知识;代表算法:KNN算法;决策树算法;神经网络算法;支持向量机SVM算法;分类不会百分百准确,每个算法都有其准确率表述。数据挖掘的主要算法②——分类算法数据挖掘的主要算法③——关联算法概念:关联:两个或多个变量的数据之间存在某种规律性;支持度:数据集中包含某几个特定项的概率,反映关联规则在数据集中的重要性;置信度:数据集中出现A时,B发生的概率,用于衡量关联规则的可信程度;目的:寻找海量数据各属性之间隐含的关联性;代表算法:Apriori算法、Eclat算法、FP-Growth算法数据挖掘的主要算法③——关联算法概念:数据挖掘的主要算法④——序列挖掘从一个序列中的数据找出统计规律,一般用于预测;序列可以是字符串、基因排列等,更常见的是时间序列;代表算法:Autoregressive
Model、Integrated
Model、movingaverage…数据挖掘的主要算法④——序列挖掘数据挖掘工具R语言:;;免费开源的数据挖掘工具函数式编程;向量化运算算法全、数据展示多样;用户:Facebook,
Google,LinkedIn,Microsoft…MATLAB:数值计算软件;高效的数学表达式、符号运算功能SPSSModeler,SASEnterpriseMiner,IBMIntelligentMiner,
…左为Ross
Ihaka
右为Robert
Gentleman数据挖掘工具R语言:;免费开源的数据挖掘工具LinkedInR语言的镜像站,包含了R的执行文档、源代码和说明文件,还有各种用户自己撰写的软件包/R语言的镜像站,包含了R的执行文档、源代码和说明文件,还有数据挖掘的结果显示原则:直观加美观;MSOffice是远远不够的;更为专业的数据可视化工具:Google
Chart,
TableauSoftware…数据挖掘的结果显示Software…三、数据挖掘与建筑HVAC三、数据挖掘与建筑HVAC影响建筑环境和能耗的因素、影响因素具体内容气象条件大气温湿度、风速风向、太阳辐射、PM2.5…建筑本体外形尺寸、总体及局部功能或用途、围护结构物性参数朝向、窗墙比…能源形式化石能源、自然能源或可再生能源利用…建筑设备集中或分散式供热、空调系统自身性能、运行…用户行为开闭各种建筑设备(供热空调、电器、照明)、通风换气…社会因素当地总体生活水平、用户文化和收入水平、能源价格…相关标准环境质量、节能…理论上,搞清楚以上所有因素及所携带信息(数据),就可以实现环境保障和节能减排的目的影响建筑环境和能耗的因素、影响因素具体内容气象条件大气温湿度存在问题现有的技术手段或模型不能涵盖所有的影响因素和相应数据信息,同时这些技术手段也不能很方便地为用户所用;各影响因素同时作用于建筑,又存在相互作用。有的影响因素自身极为复杂,很难把握其规律->point:
人员行为;海量(同时伴随质劣)数据自身如何校正、检验?如何提取出有价值的信息来应对建筑环境和能耗需求?存在问题常规数据分析方法①——指标法人为定义各种简单的评价指标单位建筑面积能耗(EUI):建筑总体或建筑特定能源系统用能量,一般用单位建筑面积表示;用于比较不同建筑间或同一建筑不同时期能源使用效率能源系统能效比(COP):能源系统产出和投入比;用于能源系统自身在不同工况下的性能评价优点:简便;缺陷:作为数据分析太不充分常规数据分析方法①——指标法人为定义各种简单的评价指标常规数据分析方法②——统计分析法回归分析(线性、非线性):建立建筑能耗或环境参数与各影响因素之间的关系式,预测建筑能耗或环境参数的动态变化相关分析:研究建筑能耗或环境参数与各影响因素之间的相关性和重要度优点:简便易于使用;缺陷:只能处理较为简单的问题,多变量处理技术比较复杂;由于数据噪音存在,统计分析结果可能存在比较大偏差常规数据分析方法②——统计分析法回归分析(线性、非线性):建常规数据分析方法③——数值模拟利用自主开发或商用软件进行建筑环境或用能的稳态/动态评价;优点:工况自定义,不受外界影响,可重复,易于深入研究问题实质;缺陷:影响因素的细微变化,如人员行为等的影响不易考虑常规数据分析方法③——数值模拟利用自主开发或商用软件进行建筑针对暖通专业的数据挖掘具体流程针对暖通专业的数据挖掘具体流程数据仓库——日本居住建筑能源调查(2002~2004)数据仓库——日本居住建筑能源调暖通专业数据挖掘技术框架体系①暖通专业数据挖掘技术框架体系①分类算法:对相关数据各种属性进行分类或预测,从而更好地进行建筑节能设计或运行调节;聚类算法:计算数据(如建筑属性和人员行为属性)之间的相似度,用于深入了解建筑环境或用能的形成机理,确定各影响因素的影响度;关联算法:发现测试数据(如HVAC系统各参数,如送风温度、送风量、风机压降等)之间的关联度,深入了解建筑系统运行规律,建立更合理的环境或用能控制策略。分类算法:对相关数据各种属性进行分类或预测,从而更好地进行建筑环境/用能数据挖据的框架体系②建筑环境/用能数据挖据的框架体系②建筑环境/用能数据挖据的框架体系③建筑环境/用能数据挖据的框架体系③应用案例①——办公建筑开窗行为现有的建筑节能不能完全达到预期目标,部分原因在于技术本身,部分则在于人员行为;人员和建筑本体、能源系统之间的互动关系对能耗影响极大;现有的能耗模拟工具对人员行为的定义过于死板,实际上是高度随机复杂、多学科交叉的过程;利用数据挖掘技术研究办公室人员开窗行为,加深对人员行为和用能之间的关系的理解,从而可以有效解决预测和实际能耗之间差别很大的问题应用案例①——办公建筑开窗行为多层办公建筑面积17,402
m2(8585
m2
heated)人员~350德国法兰克福(温和海洋型气候)满足建筑围护结构节能标准(U-values:墙体0.24-0.5W/m2K,窗体1.5W/m2K)年一次能源消耗<100Wh/m22层地下车库、4层办公、顶层公寓测试房间:办公室建设时间:2002窗体朝向:Eand
W窗体开闭、遮阳:自动BMS、人员行为多层办公建筑测试对象办公室数
16(11东向;5个西向)实测期间
2006and2007面积
20m2人员数
1or2persons/房间实测项目->取样时间间隔均为10min室外温湿度、太阳辐射、风速风向、降雨量室内温湿度、CO2(只测3个房间)能源系统(供热供冷、通风、照明)人员行为(窗户开闭状态、遮阳状态、照明使用时间)测试对象办公室数16(11东向;5个西向)数据格式数字化变量室内外温度室内外相对湿度水平面太阳辐射照度风速风向非数字化变量季节(春夏秋冬)星期一~星期日时间(早晨、上午、中午、下午、晚上)窗户状态(关:0;开:1)人员状态(在:0;不在:1)窗户状态变化人员状态变化降雨(0~1)数据利用极差正规化进行标准化处理数据格式数字化变量室内外温度非数字化变量窗户开闭的标准化回归分析(R语言)窗户开闭的标准化回归分析(R语言)聚类分析——总体类型、开闭驱动力的前5个主要影响因素(Thek-means,RapidMiner
6.0)热驱动热-时间驱动时间驱动热-时间驱动时间驱动聚类分析——总体类型、开闭驱动力的前5个主要影响因素热驱动热聚类分析——开闭时间聚类分析——开闭时间聚类分析——开闭次数聚类分析——开闭次数聚类分析——开启角度(日)聚类分析——开启角度(日)开启角度(季节)开启角度(季节)关联算法((FP
growth,
Rapid
Miner)supportof30%,confidenceof
80%关联算法((FPgrowth,RapidMiner)s应用案例②——居住建筑人员行为与能耗居住者的社会和经济水平、室内外环境决定人员行为,进而影响建筑能耗。通过数据分析,识别居住者行为对建筑能耗的影响度,从而可加深对能耗内在机理的认识,通过改善人员行为实现节能目的。应用案例②——居住建筑人员行为与能耗测试对象日本80户(6个不同城市)住宅;2002.12~2004.11,不良数据进行了处理现场测试:末端用能电力(每分钟)燃气(每5分钟)煤油(每5分钟)室内温度(1.1m高,每15分钟)问卷调查:建筑本体信息、生活规律、设备使用情况、收入等(仅一次)测试对象日本80户(6个不同城市)住宅;2002.12~20末端用能构成HVAC;生活热水HWS;厨房(炊事,相关设备)KITC;照明LIGHT;冰箱REF;信息设备(电视、电话、计算机)A&I;家务用设备(洗衣机、吸尘器…)HOUSE;其他OTHER数据经过最大-最小极差标准化处理末端用能构成影响因素气象条件年均气温T、相对湿度RH、风速WS、太阳辐射RA建筑本体建筑类型(非数字)HT、建筑面积BA、当量渗风面积ELA、热损失系数HLC居住者人数NO建筑设备供热供冷HC、生活热水HWS、厨房设备(非数字)KE影响因素气象条件灰色关联度分析——月用能的地区影响(WEKA)灰色关联度分析——月用能的地区影响(WEKA)聚类分析——住宅的影响因素特征聚类(K-means,
WEKA)聚类分析——住宅的影响因素特征聚类(K-means,WEK年均EUI的构成年均EUI的构成不同聚类的月末端用能变化不同聚类的月末端用能变化不同聚类的月均居室温度不同聚类的月均居室温度应用案例③——楼宇自动化系统的数据挖掘大量建筑利用楼宇自动化系统(BAS)监测和控制建筑内环境参数以及能源系统运行;采集数据的有效利用不好:包含大量数据噪声、异常点;给出利用数据挖掘技术进行BAS数据库数据处理的技术框架并予以实际应用;应用案例③——楼宇自动化系统的数据挖掘大量建筑利用楼宇自动化建筑环境及能源大数据专业讲义课件BAS原始数据香港最高的商业建筑,2011年被亚洲智能建筑协会评为智能建筑;设置先进的BAS,超过500以上的功率表实时(15min间隔)测量各种电力数据;数据收集2012.1~2012.8;数据包括:时间、室内外物理参数(温湿度、室内CO2浓度)、各种电量(冷机、空调机组、水泵、风机、电梯、照明…);BAS原始数据数据前处理包含大量缺失值和异常值;缺失值->移动平均进行处理;“死”值(长时间不发生变化)->1h不变化则剔除;异常值->四分位数间距法则(interquartilerangerule)处理->通过数据清理,22974数据剩下19,962将数据重新归纳分为早晨(7~12点)、下午(13~19点)和晚上(20~翌日6点)三部分,再考虑平均、最大值、最小值三种情况。->通过数据规约,将数据维度从96降为12。数据前处理包含大量缺失值和异常值;关联算法所需的数据转换处理需要将目前的电量和气象数据从数字转为类型;气象数据->气温范围低于10~高于30℃,分为6档,每档5℃;相对湿度范围低于70%~高于90%,分为6档,每档5%;电量数据->等频bin法,高中低3档(一次冷冻水泵、冷凝水泵由于定流量除外)。关联算法所需的数据转换处理不同聚类分析方法的验证(R语言)不同聚类分析方法的验证(R语言)熵权K-means算法结果(左);特征相对重要度的热力图(右)熵权K-mean
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论