能源大数据分析理论与实践 课件 2.数据获取与预处理_第1页
能源大数据分析理论与实践 课件 2.数据获取与预处理_第2页
能源大数据分析理论与实践 课件 2.数据获取与预处理_第3页
能源大数据分析理论与实践 课件 2.数据获取与预处理_第4页
能源大数据分析理论与实践 课件 2.数据获取与预处理_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据获取与预处理02DataAcquisitionAndPreprocessing数据获取与预处理概述DataAcquisitionAndPreprocessingOverview2.1.1数据获取在现实应用中,多个源系统的数据兼容性较差,因此需要对获取的异构数据进行处理。ETL方法提供了一个数据获取与预处理的标准流程和技术工具。数据获取是指从各种相关数据源获取数据的过程,也指ETL的数据获取环节,是数据分析与挖掘的基础。数据获取是ETL处理的第一步,也是最重要的一步,数据被成功获取后,才可以进行转换并加载到数据仓库中。2.1.1数据获取传统数据获取和大数据获取有如下不同:数据源方面,传统数据获取的数据源单一,而大数据获取系统还需要从社交系统、互联网系统及各种类型的机器设备上获取数据。数据量方面,互联网系统和机器系统产生的数据量要远远大于企业系统产生的数据量。数据结构方面,传统数据获取系统获取的数据都是结构化数据,而大数据获取系统需要获取大量的视频、音频、照片等非结构化数据,以及网页、博客、日志等半结构化数据。数据产生速度,传统数据获取系统获取的数据几乎都是由人操作生成的,远远慢于机器生成数据的速度。2.1.2数据清洗与数据转换在一般情况下,数据仓库分为ODS、DW两个部分。ODS是数据库到数据仓库的一种过渡,数据结构一般与数据源保持一致,便于减少ETL的工作复杂性,而且ODS的数据周期一般比较短。ODS的数据最终流入DW,DW是数据的归宿,这里保存着所有从ODS到来的数据,而且这些数据不会被修改。数据转换:它是在ODS到DW的过程中转换的,将数据转换为适用于查询和分析的形式和结构。数据从操作型源系统获取后,需要进行多种转换操作,通常是最复杂的部分,也是ETL处理中用时最长的一步。数据清洗:数据转换一个最重要的功能是数据清洗,目的是只有“合规”的数据才能进入目标数据仓库。这步操作在不同系统间交互和通信时尤为必要。2.1.3数据加载数据加载就是将转换后的数据导入目标数据仓库中。这步操作需要重点考虑两个问题,一是数据加载的效率问题,二是一旦加载过程中失败了,如何再次执行加载过程。要提高数据加载的效率,加快加载速度,可以采用如下两种做法:保证足够的系统资源。在进行数据加载时,禁用数据库约束(唯一性、非空性、检查约束等)和索引,当加载过程完全结束后,再启用这些约束,重建索引。ETL系统一般会从多个应用系统中整合数据,常用实现方法有三种:借助ETL工具采用SQL方式ETL工具和SQL方式相结合为了提高ETL处理的效率,通常数据获取、数据转换、数据加载操作会并行执行。数据获取技术DataAcquisitionTechnique2.2.1数据获取技术概述数据获取需要在调研阶段做大量的工作。如果已经明确了需要获取的数据,下一步就该考虑从源系统获取数据的方法了。数据获取方法的选择高度依赖于源系统和目标数据仓库环境的业务需要。随着大数据的蓬勃发展,数据获取的来源广泛且数据量巨大,数据类型丰富,包括结构化数据、半结构化数据、非结构化数据,它们大多存在于分布式数据库中。目前大数据获取主要方法如下:数据库获取系统日志获取网络数据获取感知设备数据获取针对软件系统的数据获取,有如下三种方式:接口对接方式开放数据库方式基于底层数据交换的数据直接获取方式2.2.2网络爬虫网络爬虫可以按照我们制定的规则自动浏览网络中的数据,这些规则称为网络爬虫算法。网络爬虫由控制节点、爬虫节点、资源库构成。控制节点主要负责根据URL分配线程,并调用爬虫节点进行具体的爬取爬虫节点会按照相关的算法,对网页进行具体的爬取,爬取后会将爬取结果存储到对应的资源库中。通用网络爬虫通用网络爬虫的爬取目标是整个互联网上的所有网页。主要由初始URL集合、URL队列、网页爬取模块、网页分析模块、网页数据库、链接过滤模块等构成。通用网络爬虫在爬取的时候会采取一定的爬取策略,主要有深度优先策略和广度优先策略。这类网络爬虫主要应用于大型搜索引擎中,有非常高的应用价值。聚焦网络爬虫聚焦网络爬虫是按照预先定义好的主题有选择地进行网页爬取的一种爬虫。可以大大节省爬虫爬取时所需的带宽资源和服务器资源。聚焦网络爬虫应用在对特定信息的爬取中,主要为某一类特定的人群提供服务,主要由初始URL集合、URL队列、网页爬取模块、网页分析模块、网页数据库、链接过滤模块、内容评价模块、链接评价模块等构成。聚焦网络爬虫的爬取策略主要有四种:基于内容评价的爬取策略基于链接评价的爬取策略基于强化学习的爬取策略基于语境图的爬取策略增量式网络爬虫增量式更新指在更新的时候只更新改变的地方,未改变的地方则不更新,所以只爬取内容发生变化的网页或新产生的网页,对于未发生内容变化的网页则不会爬取。深层网络爬虫在互联网中,按存在方式分类,网页可以分为表层网页和深层网页:表层网页:不需要提交表单,使用静态的链接就能够到达的静态网页;深层网页:隐藏在表单后面,不能通过静态链接直接获取,是需要提交一定的关键词之后才能够到达的网页。在互联网中,深层网页的数量往往比表层网页的数量要多很多,因此需要深层网络爬虫。深层网络爬虫在爬取深层网页时需要自动填写好对应的表单,表单填写方式有两种:①基于领域知识的表单填写:建立一个填写表单的关键词库,在需要填写的时候,根据语义分析选择对应的关键词进行填写。②基于网页结构分析的表单填写:会根据网页结构进行分析,并自动地进行表单填写,一般在领域知识有限的情况下使用。数据预处理DataPre-processing2.3.1数据质量数据质量是指数据在特定应用环境中是否满足预期的要求。包括以下几个方面:准确性:数据与实际情况的符合程度,数据值与实际值的一致性高低。完整性:数据是否包含了需要的全部信息,有无遗漏或缺失。一致性:数据在不同的数据源、数据记录等方面是否保持一致,数据之间有无冲突或矛盾。及时性:数据是否及时地进行采集、处理、传输和更新,以保证数据的实效性和时效性。可理解性:数据是否易于被理解,数据结构和格式是否清晰,数据值和字段是否具有明确的含义。可靠性:数据是否可信、可靠,其产生的过程和来源是否可靠,数据是否经过验证和核实。可用性:指数据是否易于访问、检索和使用,数据存储和管理系统的性能是否足够高效。导致数据质量不高的根源主要如下:数据采集问题数据存储问题数据处理问题数据管理问题数据使用问题2.3.2数据清洗数据清洗是审查和校验数据的过程,旨在删除重复信息、纠正错误并确保一致性。缺失数据处理:删除缺失数据:适用于少量缺失且影响较小时,但可能引入样本偏差。插补缺失数据:适用于缺失较多或影响较大时。插补的方法可以分为三类:(1)均值插补(2)回归插补(3)多重插补创建指示变量:对于分类变量的缺失数据,新增指示变量(0/1)标记缺失情况,避免插补误差。其他:利用聚类或专门模型处理缺失数据。在处理缺失数据时,还需要注意以下三个问题:①缺失数据的模式②数据的完整性③插补方法的合理性2.3.2数据清洗噪声数据是指数据中存在错误或异常(偏离期望值)的数据,即测量变量中存在随机误差或方差。噪声数据处理:分箱:通过考察相邻数据来确定最终值。

分箱的方法有四种:(1)等深分箱法(2)等宽分箱法(3)用户自定义区间法(4)最小熵法。

在分箱之后,要对每个“箱子”中的数据进行平滑处理:(1)按均值进行平滑处理(2)按中位数进行平滑处理(3)按边界值进行平滑处理。聚类:将数据集合分组为若干个簇,在簇外的值为孤立点,应对这些孤立点进行删除或替换。相似或相邻的数据聚合在一起形成各个聚类集合,在这些聚类集合之外的数据为异常数据。回归:如果变量之间存在函数关系,则可以使用回归分析方法进行函数拟合,通过使用拟合值或平滑数据来更新变量数值,从而实现噪声数据去除。2.3.3数据集成数据集成是将来自不同数据源的数据整合到统一的数据集中,以便分析、决策支持和业务应用。其过程涉及数据整合、匹配、冲突解决、质量控制、元数据管理和安全等方面。模式识别和对象匹配是在数据集成过程中的两个重要任务,用于识别和匹配不同数据源中的模式和对象,以提高数据集成的准确性和效率。模式识别:对表征事物或现象的模式进行自动处理和判读。对象匹配:将不同数据源中的对象进行匹配和对应。在进行模式识别和对象匹配时,需要考虑以下几个方面:①特征提取:在进行模式识别和对象匹配时,需要选择合适的特征并进行提取。②相似度度量:方法包括欧氏距离、曼哈顿距离、余弦相似度等。③匹配算法:算法包括基于规则的匹配、基于机器学习的匹配、基于统计的匹配、基于图的匹配等。④冲突解决:可以通过规则、投票机制、权重分配、机器学习等方法来确定最佳匹配结果。2.3.3数据集成数据冗余是指数据存储或集成过程中产生的重复或多余数据,包括重复数据和无关数据。需处理数据冗余以减少存储占用和分析误差。可通过一下几种方式来实现:规则和约束:通过定义规则和约束来防止数据冗余的产生。数据规范化:数据规范化是一种将数据划分成更小、更规范的单元的过程。数据清洗和去重:去除重复和冗余的数据。数据合并和归约:将重复和冗余的数据进行合并和归约。数据压缩:通过编码或压缩技术减少存储占用。数据分析和挖掘:通过数据分析和挖掘技术,可以识别和消除数据冗余。2.3.3数据集成在数据集成过程中,不同数据源可能存在冲突(如值、格式、单位、覆盖范围不一致)。为确保数据质量和准确性,需要进行冲突检测与处理。步骤如下:(1)确定冲突类型。常见类型包括数据值、格式、单位或覆盖范围不同。(2)数据冲突检测。利用算法或规则检测相同实体在不同数据源中的特征是否一致或存在矛盾。(3)冲突解析。当发现冲突时,需要进行冲突解析来确定集成数据的准确值。常见的冲突解析方法如下:①人工解析②投票机制③权重分配④规则和模型。(4)冲突解析后的数据集成。应用解析后的数据,形成最终集成结果。冲突检测与处理较复杂,需根据数据需求、质量要求和冲突类型选择合适方法,并考虑数据源的可靠性和权威性。2.3.4数据转换数据转换是数据预处理的重要环节,通过转换提高数据质量和可用性,使其更适合分析和建模。主要方法包括数据规范化、数据离散化、数据泛化和数据脱敏。数据规范化:将被挖掘对象的特征数据按比例缩放,使其落入一个小的特定区间。常用方法有三种:①小数定标规范化:将原始数据除以一个固定值,将数据映射到[-1,1]之间。②最小值—最大值规范化:将原始数据映射到0~1之间的特定区间,保留数据的相对大小关系。③Z-Score规范化:将原始数据转化为均值为0、标准差为1的标准正态分布。2.3.4数据转换数据离散化:将连续型数据转换为离散型数据的过程,将数据划分为若干个区间或类别。常见方法如下:①等宽离散化:将数据根据固定的宽度划分为若干个区间,每个区间的宽度相同。②等频离散化:将数据根据相同的样本数量划分为若干个区间,每个区间中包含的样本数量相同。③聚类离散化:用聚类算法将数据聚类为若干个簇,每个簇表示一个离散化的类别。④决策树离散化:使用决策树算法将连续型数据转换为决策树的划分节点,将数据分为不同的类别。2.3.4数据转换数据泛化:把较低层次的概念用较高层次的概念替换来汇总数据,或者通过减小维度,在较小维度的概念空间中汇总数据。常用的方法如下:①基于数据立方体的数据聚集:用于从多维数据集中提取有用的信息。数据立方体是一个多维数组,其中每个维度表示数据的一个特征,构建步骤:选择维度→设计度量→聚合数据→构建数据立方体。②面向特征的归纳:旨在从数据中归纳出特征间的关系、规律和模式。主要过程包括以下步骤:

特征选择→归纳分析→模式评估与验证。2.3.4数据转换数据脱敏:通过对敏感数据进行部分或完全的删除、替换或隐藏,以抹去个人敏感信息。常见方法如下:①删除(Deletion):直接删除或部分删除包含敏感信息的数据。②替换(Substitution):将敏感数据替换为不可识别的伪造值。③脱敏屏蔽(Masking):在数据中通过覆盖、屏蔽或空白值等方式隐藏敏感信息,以避免敏感信息的识别。④加密(Encryption):使用加密算法对敏感信息进行加密,只有授权的用户才能解密和访问。具体方法的选择取决于数据类型、隐私需求和分析任务。2.3.5数据归约数据归约是在保持数据原貌的前提下,最大限度地精简数据,以降低数据规模。主要包括维归约和数据归约两种方法。维归约:目的是将高维数据集转换为低维表示,以减少数据集的维度并保留主要的信息。①特征集选择(FSS):筛选最相关和有价值的特征,去除无关或冗余特征。②主成分分析(PCA):将高维数据映射到低维子空间,提取主要特征。③线性判别分析(LDA):监督学习方法,寻找最能区分类别的投影方向。④非负矩阵分解(NMF):将高维矩阵分解为两个低维非负矩阵,以降低维度。⑤t-SNE:基于数据相似性,将高维数据映射到低维,保持局部关系,适用于可视化。2.3.5数据归约数据归约:通过聚合、压缩或采样等方法减少数据点,以简化分析和处理,提高计算效率并降低存储需求。常见方法如下:①聚合(Aggregation):按规则汇总数据,减少数据规模。②采样(Sampling):从数据集中选取部分样本作为代表,如随机、均匀、分层采样等。③插值(Interpolation):在数据点之间插值,填补缺失值,提高数据密度。④压缩(Compression):使用压缩算法减少数据存储空间,如gzip、LZW、哈夫曼编码等。数据归约提高效率,但可能造成信息损失,需根据任务需求权衡选择。数据集的构建ConstructionOfDataSets2.4.1数据集的划分数据预处理后可存入数据仓库,供分析或训练时提取。通常,数据会被划分或重抽样以适应模型应用。在机器学习算法中,通常将原始数据集划分为三个部分:训练集(TrainingSet)、验证集(ValidationSet)和测试集(TestSet)。训练集是用于训练的样本集合,主

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论