




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章大数据处理北京市园林绿化局在2017年对全市果树资源进行了摸底调查,调查范围涉及了北京市13个区、159个乡镇、2298个行政村;梳理编制了8套调查表,涉及了340个数据项,积累了188万条基础数据。2019年建立了北京市果树大数据管理系统,首次全面掌握了果树资源情况。北京市果树大数据管理系统是一种集数据采集、归纳分类、数量质量保证、批量数据处理与数据库管理、可视化展示功能于一体的系统管理平台。案例-北京市果树大数据应用果树产业大数据管理系统已经得到越来越深入和广泛的应用,为果树产业发展政策制定、规划编制、项目实施、资源管理、精准施策等提供数据支撑,实现果树产业动态化、数字化、精准化、智慧化管理,推动北京市果树产业健康发展,促进果农增收致富。案例-北京市果树大数据应用目录3.1数据采集3.2数据清洗3.3数据变换3.5数据归约第三章大数据处理3.4数据集成3.1数据采集>>>1数据采集数据采集方法数据质量评估数据质量影响因素数据采集方法系统日志采集:使用日志收集系统,收集业务日志数据供离线和在线的分析系统使用。1.数据采集方法数据采集数据采集方法数据质量评估数据质量影响因素数据采集产品数据采集产品数据采集产品有很多,较为常用的是以下六种:ApacheFlume、Scribe、Fluentd、ApacheChukwa、Logstash、Splunk数据采集数据采集方法数据质量评估数据质量影响因素数据采集方法系统日志采集:使用日志收集系统,收集业务日志数据供离线和在线的分析系统使用。网络数据采集:通过网络爬虫或网站公开API等方式从网站上获取数据信息。可以将非结构化数据以结构化的方式存储。1.2.数据采集方法数据采集数据采集方法数据质量评估数据质量影响因素数据采集产品数据采集产品/activities/learn数据采集数据采集方法数据质量评估数据质量影响因素八爪鱼采集器八爪鱼采集器特征八爪鱼数据采集系统是一款免费的、不需要编程语言的一款数据采集器。它可以帮助任何需要从网页获取信息的客户实现数据自动化采集、编辑和规范化,摆脱对人工搜索及收集数据的依赖,并且降低获取信息的成本,提高效率。八爪鱼最基本的是模板采集,模板采集模式内置上百种主流网站数据源,比如京东、天猫、大众点评等热门采集网站,只需参照模板简单设置参数,就可以快速获取网站公开数据。1.2.数据采集数据采集方法数据质量评估数据质量影响因素数据采集方法系统日志采集:使用日志收集系统,收集业务日志数据供离线和在线的分析系统使用。网络数据采集:通过网络爬虫或网站公开API等方式从网站上获取数据信息。可以将非结构化数据以结构化的方式存储。数据库采集:在采集端部署大量数据库,并对如何在这些数据库之间进行负载均衡和分片进行深入的思考和设计。1.2.3.数据采集方法休息一下!第3章大数据处理数据采集数据采集方法数据质量评估数据质量影响因素评估标准完整性一致性准确性及时性数据质量的评估标准数据质量的评估标准数据采集数据采集方法数据质量评估数据质量影响因素完整性:数据信息是否存在缺失的情况,数据缺失的情况可能是整个数据的缺失,也可能是数据中某个字段信息的缺失。数据完整性是数据质量最为基础的一项评估标准。1.一致性:数据是否遵循了统一的规范,数据之间的逻辑关系是否正确和完整。规范指的是,一项数据存在它特定的格式,逻辑指的是,多项数据间存在着固定的逻辑关系。2.准确性:数据中记录的信息和数据是否准确,数据记录的信息是否存在异常或错误。3.数据质量的评估标准及时性:数据从产生到可以查看的时间间隔,也叫数据的延时时长,是数据世界与客观世界的同步程度。数据的及时性主要跟数据的同步和处理过程的效率相关。4.数据质量的评估标准数据采集数据采集方法数据质量评估数据质量影响因素数据质量的影响因素信息因素技术因素流程因素管理因素元数据对数据的描述及理解错误、数据源规格不统一等。数据采集数据采集方法数据质量评估数据质量影响因素定义:元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(dataaboutdata),主要是描述数据属性property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。“元”:事物或对象。“数据”:该对象的相关数据。元数据数据采集数据采集方法数据质量评估数据质量影响因素数据质量的影响因素信息因素技术因素流程因素管理因素元数据对数据的描述及理解错误、数据源规格不统一等。指由于具体技术处理的异常造成的数据质量问题。指由于系统流程和操作流程设置不当造成的数据质量问题。指由于人员素质及管理机制方面的原因造成的数据质量问题。休息一下!3.2数据清洗>>>2为什么进行数据清洗?数据清洗处理残缺数据处理噪声数据处理冗余数据数据清洗原理残缺数据:是指不完整的数据,可能是整个数据的缺失,也可能是数据中某个字段信息的缺失。残缺数据噪声数据冗余数据是指数据之间的重复,也可以说是同一数据存储在不同文件中的现象。冗余数据噪声数据:在测量一个变量时测量值可能出现的相对于真实值的偏差或错误,主要包括错误数据、假数据和异常数据。数据的“脏”在于数据有重复、数据有缺失、数据有不一致。脏数据主要有残缺数据、噪声数据和冗余数据。脏数据数据清洗处理残缺数据处理噪声数据处理冗余数据处理残缺数据弊端:采用忽略元组的方法,意味着不能使用该元组的剩余属性值,而这些剩余属性值很可能是分析问题所必须的。除非元组有多个属性残缺,否则该方法不是很有效。当某个属性有很多元组缺失时,它的性能特别差。数据清洗处理残缺数据处理噪声数据处理冗余数据当元组的某个属性残缺时,忽略整个元组忽略整个元组处理残缺数据仅适用于数据量小且缺失值少的情况,当数据量很大、缺失很多值时,该方法可能行不通。需要注意的是,在某些情况下,缺失值并不意味数据有错误。数据清洗处理残缺数据处理噪声数据处理冗余数据通过人工填写或者设立某一规则确定残缺值的填写内容填写残缺值处理残缺数据如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失值的变量值;如果缺失值是非数值型的,则可以使用众数来填充该缺失的变量值。数据清洗处理残缺数据处理噪声数据处理冗余数据缺失值填充:均值填充法均值填写法其他填充缺失值的方法全局常量法、就近补齐法、期望最大法、K最近距离邻法文献综述数据清洗处理残缺数据处理噪声数据处理冗余数据分箱方法具体标准分箱结果等深分箱法箱子深度为4箱1:800100012001500箱2:1500180020002300箱3:2500280030003500箱4:4000450048005000等宽分箱法箱子宽度为1000箱1:80010001200150015001800箱2:20002300250028003000箱3:350040004500箱4:48005000用户自定义分箱法将客户收入划分为1000以下、1000~2000、2001~3000、3001~4000和4000以上五组箱1:800箱2:100012001500150018002000箱3:2300250028003000箱4:35004000箱5:450048005000参考答案800100012001500150018002000230025002800300035004000450048005000噪声数据数据清洗处理残缺数据处理噪声数据处理冗余数据噪声数据定义噪声数据是指数据中存在着错误或者异常的数据处理必要性增加数据和噪声信息,影响数据收敛和模型准确度处理方法分箱分箱方法等深分箱法等宽分箱法用户自定义分箱法数据平滑处理按平均值平滑按中值平滑按边界值平滑聚类回归:利用预测值替换噪声线性回归一元线性回归多元线性回归非线性回归文献综述3.聚类1.分箱处理噪声数据把待处理的数据按照一定规则放进“箱子”中,采用某种方法对各个箱子中的数据进行处理。数据清洗处理残缺数据处理噪声数据处理冗余数据2.平滑处理4.回归等深分箱法:每箱具有相同的记录数,每个箱子的记录数称为箱子的深度。等宽分箱法:在整个数据值的区间上平均分割,使得每个箱子的区间相等,这个区间被称为箱子的宽度。用户自定义分箱法:根据用户自定义的规则进行分箱处理。分箱文献综述数据清洗处理残缺数据处理噪声数据处理冗余数据分箱练习
以下是客户收入属性的取值,请按照上述三种方案进行分箱处理
800100012001500150018002000230025002800300035004000450048005000等深分箱法深度为4箱1:800100012001500箱2:1500180020002300箱3:2500280030003500箱4:4000450048005000等宽分箱法箱子宽度为1000箱1:80010001200150015001800箱2:20002300250028003000箱3:350040004500箱4:48005000用户自定义分箱法将客户收入划分为1000以下、1000~2000、2001~3000、3001~4000和4000以上五组箱1:800箱2:100012001500150018002000箱3:2300250028003000箱4:35004000箱5:450048005000文献综述4.回归2.平滑处理处理噪声数据在分箱之后,要对每个箱子中的数据进行平滑处理。数据清洗处理残缺数据处理噪声数据处理冗余数据3.聚类1.分箱按平均值:对同一箱子中的数据求平均值,用均值代替箱子中的所有数据按中值:取箱子中所有数据的中值,用中值代替箱子中的所有数据按边界值:对箱子中的每一个数据,使用离边界值较小的边界值代替文献综述数据清洗处理残缺数据处理噪声数据处理冗余数据平滑处理练习对上一题中的等宽分箱的结果进行不同的平滑处理,并合并最后的结果(注:在按边界值进行平滑处理时,若距离两侧边界相同时,取较小的边界)箱1:80010001200150015001800箱2:20002300250028003000箱3:350040004500箱4:48005000文献综述数据清洗处理残缺数据处理噪声数据处理冗余数据平滑处理方式平滑处理结果合并后的结果按平均值箱1:1300130013001300130013001300130013001300130013002520252025202520252040004000400049004900箱2:25202520252025202520箱3:400040004000箱4:49004900按中值箱1:1350135013501350135013501350135013501350135013502500250025002500250040004000400049004900箱2:25002500250025002500箱3:400040004000箱4:49004900按边界值箱1:8008008001800180018008008008001800180018002000200020003000300035003500450048005000箱2:20002000200030003000箱3:350035004500箱4:48005000参考答案箱1:80010001200150015001800箱2:20002300250028003000箱3:350040004500箱4:48005000簇:是指一组数据对象的集合,同一簇内的数据具有相似性,不同簇之间的数据的差异性较大。文献综述1.分箱3.聚类处理噪声数据将数据集合分组为若干个簇,在簇外的值即为孤立点,这些孤立点就是噪声数据,对这些孤立点进行删除或替换。
相似或相临近的数据聚合在一起形成各个聚类集合,在这些聚类集合之外的数据即为异常数据。数据清洗处理残缺数据处理噪声数据处理冗余数据4.回归2.平滑处理如图所示的A、B、C三点即为异常数据文献综述聚类方法数据清洗处理残缺数据处理噪声数据处理冗余数据文献综述2.平滑处理4.回归处理噪声数据通过发现两个相关的变量之间相关关系,构造一个回归函数使得该函数能够更大程度地满足两个变量之间的关系,使用这个函数来平滑数据。数据清洗处理残缺数据处理噪声数据处理冗余数据1.分箱3.聚类噪声数据数据清洗处理残缺数据处理噪声数据处理冗余数据噪声数据定义噪声数据是指数据中存在着错误或者异常的数据处理必要性增加数据和噪声信息,影响数据收敛和模型准确度处理方法分箱分箱方法等深分箱法等宽分箱法用户自定义分箱法数据平滑处理按平均值平滑按中值平滑按边界值平滑聚类回归:利用预测值替换噪声线性回归一元线性回归多元线性回归非线性回归重复过滤:在已知重复数据内容的基础上,从每一个重复数据中取出一条记录保留下来,删去其他的重复数据。重复过滤=识别重复数据+过滤操作。处理冗余数据条件过滤:根据一个或多个条件对数据进行过滤。对一个或多个属性设置条件,将符合条件的记录放入结果集,将不符合条件的数据过滤掉。实际上,重复过滤就是一种条件过滤。冗余数据通常采用过滤数据的方法来处理冗余数据。对于重复的数据采用重复过滤的方法,对于无关的数据则采用条件过滤的方法。数据清洗处理残缺数据处理噪声数据处理冗余数据冗余数据数据清洗案例原始数据信息数据清洗处理残缺数据处理噪声数据处理冗余数据数据清洗要求筛选出职能类别为大数据/分析的数据整理工作地点、薪酬数据数据清洗数据数据工具分列查找替换薪资单位统一为元时长单位统一为月最终数据数据清洗处理残缺数据处理噪声数据处理冗余数据薪酬数据处理数据清洗案例/group-live-share/index.htm?encCid=9ba3b45e3dd76000621ae5b24a1db1dc&liveUuid=13cbde06-1484-4566-9568-6a4ebfdea84a数据变换属性类型变换属性值变换属性构造根据原属性与目标属性之间的映射关系,可将属性变化分成一对一映射和多对一映射两种。一对一映射:原数据类型与目标数据类型之间为一一对应的关系,如将“××年××月××日”的日期转换为“××/××/××”,只是形式上的转换,是一对一的关系。多对一映射:原数据类型与目标数据类型之间为多对一的关系,如下表所示之间的关系即为多对一关系。构造新的属性并添加到属性集合中以便帮助挖掘。原数据类型(得分,int)目标数据类型(品质,string)9~10优等品6~8中等品1~5劣等品表3-1多对一关系表数据变换属性类型变换属性值变换最大-最小标准化0-1标准化属性值变换小数定标标准化零-均值标准化已知属性的原范围[old_min,old_max],将其映射到新范围[new_min,new_max]
这种方法简单,但是存在着缺陷,当新加入的数据超过了原范围[old_min,old_max]是,必须更新old_min与old_max的值,否则会出错。属性值变换即数据标准化,将属性值按比例进行缩放,使之落入一个特定的区间以消除数值型属性因大小不一而造成的挖掘效果的偏差。数据变换属性类型变换属性值变换最大-最小标准化0-1标准化属性值变换小数定标标准化零-均值标准化0-1标准化是最大-最小标准化的一种特殊形式,即new_min=0,new_max=1的情况
属性值变换数据变换属性类型变换属性值变换最大-最小标准化0-1标准化属性值变换小数定标标准化零-均值标准化适用于数据符合正态分布的情况其中,μ为均值,σ为标准差。
通过移动小数点的位置,将属性值映射到[0,1]之间,使用小数的科学计数法来达到规范化地目的其中,j是使max(|x'|)<1成立的最小值。
属性值变换3.4数据集成>>>403彼此独立、相互封闭,难以交流、共享和融合数据源02异构、运行在不同软硬件平台上信息系统01开发时间和开发部门不同企业数据集成信息孤岛信息孤岛数据集成数据集成(DataIntegration)是把不同来源、格式、特点性质的数据有机地集中起来,通过一致的、精确地表示方法,对同一种实体对象的不同数据做整合的过程。传统数据集成跨域数据集成数据集成1模式匹配
数据值冲突
数据冗余
数据集成数据集成解决的主要问题数据集成数据集成模式匹配与数据值冲突数据冗余模式匹配与数据值冲突模式匹配的实质就是实体识别问题,实体识别就是为了匹配不同数据源的现实实体,如A.user-id=B.customer_id。通常以元数据为依据进行实体识别,避免模式集成时出现错误。每个属性的元数据包括属性名字、含义、数据类型、允许取值范围、空值规则等。元数据还可以用来帮助变换数据。在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,需要注意匹配数据的结构以保障原模式数据之间的关系在集成后的模式中仍然适用。对于同一现实世界的实体而言,在不同的系统中的同一属性的数据值可能不同,可能的原因有:属性的表示方式不同、单位不同等等。针对数据值冲突,需要根据元数据提取该属性的规则,并在目标系统中建立统一的规则,将原始属性值转换为目标属性值。数据冗余在数据集成时,数据冗余是不可避免的:同一属性在不同系统中使用不同的字段名,如同样的顾客ID,在A系统中字段名是Cust_id,在B系统中是Cutromer_Num;集成后某个数据属性可以由其他数据属性经过计算得出,如A系统中有月营业额属性,在B系统中有日营业额属性,而月营业额是可以由日营业额导出的。可以通过相关分析来检验属性之间的相关度,进而判断是否存在数据冗余。数据集成模式匹配与数据值冲突数据冗余数据冗余标称数据检测对于标称数据,两个属性A和B之间的相关联系可以通过卡方检验发现
卡方检验假设A、B之间是独立的,如果可以拒绝该假设则说明A、B之间是统计相关的。数据集成模式匹配与数据值冲突数据冗余数据冗余对于数值数据,可以通过检测它们之间的相关系数来估计这两个属性之间相关度
数值数据检测
3.5数据归约>>>5大型数据集数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间高维度数据由于高维度会引起数据超负,一些挖掘算法不适用数据归约数据归约为什么进行数据归约?数据归约也称数据削减,是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。主要介绍数据归约的两种方法:维归约、数值归约。维归约逐步向前选择从一个空属性集开始,该集合作为属性子集的初始值,每次从原属性集中选择一个当前最优的属性添加到属性子集中,迭代地选最优并添加直至无法选出最优为止。向前选择与向后删除结合可以将向前选择和向后删除的方法结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。1.2.3.维归约数据归约维归约数值规约维归约是从原有的数据中删除不重要或不相关的属性,或者通过对属性进行重组来减少属性的个数。维归约的目的是为了找到最小的属性子集,且该子集的概率分布尽可能地接近原数据集的概率分布,找到最小属性子集的方法有以下几种:逐步向后删除从一个拥有所有属性的属性集开始,该集合是属性子集的初始值,每次从当前子集中选择一个当前最差的属性并将其从属性子集中删除,迭代地选最差并删除直至无法选出最差为止。数据归约维归约数值归约数据归约逐步向前选择逐步向后删除维归约数据归约维归约数值规约抽样参数回归数值规约聚类直方图使用分箱来近似数据分布,是一种流行的数据归约形式。属性A的直方图将A的数据分布划分为不相交的子集/桶。如果每个桶只代表单个属性值/频率对,则该桶称为单值桶。通常,桶表示给定属性的一个连续区间。聚类技术把数据元组看作对象。它将对象划分为群或簇,使得在一个簇中的对象相互“相似”,而与其他簇中的对象“相异”。在数据归约中,用数据的簇代表替换实际数据。数值归约数据归约维归约数值规约直方图聚类数值规约参数回归抽样抽样可以作为一种数据归约技术使用,因为它允许用数据的小得多的随机样本(子集)表示大型数据集。采用抽样进行数据归约的优点是:得到样本的花费正比例于样本集的大小,而不是数据集的大小。参数回归通常采用一个模型来评估数据,该方法只需要存放参数而不用存放实际数据。这种方法能极大地减少数据量,但只对数值型数据有效。数值归约休息一下!3.6案例-TableauPrep数据处理技术应用>>>6大数据,任何数据无论是电子表格、数据库还是Hadoop和云服务,任何数据都可以轻松探索。自动更新通过实时连接获取最新数据,或者根据制定的日程表获取自动更新。快速分析在数分钟内完成数据连接和可视化。Tableau比现有的其他解决方案快10到100倍。TableauPrep数据处理技术应用TableauPrep数据处理步骤:打开TableauPrep,连接数据源,此处从中国统计年鉴上搜集了2016年中国高技术产业新产品开发的一些相关数据,见表3-3。表3-32016年高技术产业新产品开发数据表高技术产业名称新产品开发项目数(个)开发经费支出(万元)销售收入(万元)出口销售收入(万元)医药制造业253204978805.7054227526.504896556.00化学药品制造126422532006.0028629122.903034577.30中成药制造5431966074.3013037868.60352638.40生物、生化制品的制造3720827242.505807140.50921788.60航空航天器制造业19791909534.6015336595.901373118.40电子及通信设备制造业4259222741770.00318206467.80138247189.30通信设备制造业612010458336.30154306436.8077281533.30雷达及配套设备制造业468248228.602024144.50151710.70广播电视设备制造业2143544664.404884347.401224889.00电子器件制造业100574387057.6052854160.0024546514.70电子元件制造业115362912731.8039478279.2018011787.40家用视听设备制造业34271579533.5031026890.0010520890.80其他电子设备制造36411080824.2011263319.602264787.90电子计算机及办公设备制造业53472457057.2054641230.1032686511.10电子计算机整机制造业10301254812.2036421771.7022503619.20电子计算机外部设备制造业1482388950.006149683.403795880.60医疗器械及仪器仪表制造业168333034640.8025014345.503109374.20医疗仪器设备及器械制造业4515933322.404628267.80823536
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国气动气门研磨机市场调查研究报告
- 2025年中国机动泵站市场调查研究报告
- 2025年中国复合浮阀市场调查研究报告
- 2025年中国反光轮廓标志市场调查研究报告
- 2025年中国列车接近报警装置市场调查研究报告
- 2025年中国BGA测试架市场调查研究报告
- 道德与法治文化活动的实施计划
- 建筑材料买卖合同模板
- 一年级上册体育教师课堂管理计划
- 中学法治教育与社会调研活动计划
- 《公路工程现浇泡沫聚合土应用技术规程》
- 2025届云南省民族大学附属中学高三(最后冲刺)数学试卷含解析
- 墨菲定律知识介绍墨菲定律启示课件
- 品管圈PDCA获奖案例-新生儿科运用PDCA循环缩短早产儿完全经口喂养过渡时间成果汇报
- 河流沿岸护栏安装工程协议
- 工程四新培训
- T∕CACM 1021.19-2018 中药材商品规格等级 白芷
- 2024电力安全工器具及小型施工机具预防性试验规程
- 《钢铁是怎样炼成的》读书分享课件
- 呼吸内科护理新技术
- 山东省义务教育必修地方课程小学四年级上册《环境教育》教案-全册
评论
0/150
提交评论