




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据清洗01ONE数据清洗课堂研讨任务描述知识准备拓展训练CONTENTS目录CONTENTSONE数据质量的高低严重影响了工业、经济等社会的方方面面,数据质量问题及其所导致的知识和决策错误已经在全球范围内造成了恶劣的后果,严重困扰着信息社会,大数据的广泛应用对数据质量的保障提出了迫切需求。数据清洗是数据质量管理的重要问题,其内容十分丰富,包括缺失值处理、实体识别与真值发现,错记的主动发现和修复等问题。张明对此产生了疑惑:什么是数据清洗呢?如何清洗“脏数据”呢?任务描述知识准备
数据清洗是一种对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。定义数据清洗的概念一知识准备“脏数据”的类型二残缺数据重复数据“脏数据”的类型错误数据这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如:数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。对于这一类数据需将重复数据记录的所有字段导出来,让客户确认并整理。知识准备数据清洗流程三在实际操作中,数据清洗通常会占据分析过程的50%~80%的时间。图3-7为浅层次的数据清洗流程图。知识准备三数据清洗流程(一)预处理阶段查看数据看元数据抽取一部分数据,使用人工查看方式将数据导入处理工具12知识准备三数据清洗流程(二)阶段1:缺失值清洗缺失值是最常见的数据问题,处理缺失值也有很多方法。首先,确定缺失值范围。对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略,可用图3-8表示。图3-8
数据的重要性与缺失率关系比例图知识准备三数据清洗流程(三)阶段2:格式内容清洗时间、日期、数值、全半角等显示格式不一致内容中含有不该存在的字符内容与该字段应有内容不符知识准备三数据清洗流程(四)阶段3:逻辑错误清洗这部分的工作是去掉一些使用简单逻辑推理就可以直接发现问题的数据,防止分析结果走偏。主要包含去重、去除不合理值以及修正矛盾内容。去重A去除不合理值B修正矛盾内容C知识准备三数据清洗流程(五)阶段4:非需求数据清洗在进行数据清洗时人们往往会把看上去不需要但实际上对业务很重要的字段删了,又或者某个字段觉得有用,但又没想好怎么用,不知道是否该删。此时,如果数据量没有大到不删该字段就无法处理,则能不删的字段尽量不删。此外,应该勤备份数据,以免误删数据影响后续分析。(六)阶段5:关联性验证如果数据有多个来源,则有必要进行关联性验证。例如,同时获得某品牌汽车的线下购买信息,以及相应汽车品牌的电话客服问卷信息,两者通过姓名和手机号关联。同一个人线下登记的车辆信息和线上问卷问出来的车辆信息如果不是同一辆,则该条数据需要调整或去除数据。课堂研讨张明现在收集到一份“链家”平台广州地区的房屋出租信息,但不知道该用什么工具对这份数据进行清洗,请你帮帮他。拓展训练01请使用至少两种工具对采集后的“链家”平台数据进行数据清洗。
数据清洗方法现实世界的数据常常是有噪声、不完全的和不一致的。数据清洗过程通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致的数据。遗漏数据处理假设在分析一个商场销售数据时,发现有多个记录中的属性值为空,如顾客的收入属性,对于为空的属性值,可以采用以下方法进行遗漏数据处理:忽略该条记录。手工填补遗漏值。利用缺省值填补遗漏值。利用均值填补遗漏值。利用同类别均值填补遗漏值。利用最可能的值填补遗漏值。最后一种方法是一种较常用的方法。噪声数据处理噪声是指被测变量的一个随机错误和变化。下面通过给定一个数值型属性,如价格,来说明平滑去噪的具体方法。方法被分为四种:Bin方法聚类方法人机结合检查方法回归方法噪声数据处理Bin方法Bin方法通过利用相应被平滑数据点的周围点(近邻),对一组排序数据进行平滑。排序后数据分配到若干桶(称为Buckets或Bins)中。对Bin的划分方法一般有两种,一种是等高方法,即每个Bin中的元素的个数相等;另一种是等宽方法,即每个Bin的取值间距(左右边界之差)相同。噪声数据处理例如:首先对价格数据进行排序,然后将其划分为若干等高度的Bin,即每个Bin包含三个数值
Bin均值平滑对每个Bin中所有值均用该Bin的均值替换。图中第一个Bin中4、8、15均用该Bin的均值9替换Bin边界平滑对于给定的Bin,利用每个Bin的边界值(最大值或最小值),替换该Bin中的所有值。一般讲,每个Bin的宽度越宽,其平滑效果越明显。噪声数据处理聚类方法通过聚类分析可帮助发现异常数据。相似或相邻近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,自然而然就被认为是异常数据。噪声数据处理人机结合检查方法通过人与计算机检查相结合方法,可以帮助发现异常数据。如:利用基于信息论方法可帮助识别用于分类识别手写符号库中的异常模式;所识别出的异常模式可输出到一个列表中;然后由人对这一列表中的各异常模式进行检查,并最终确认无用的模式(真正异常的模式)。这种人机结合检查方法比单纯利用手工方法手写符号库进行检查要快许多。噪声数据处理回归方法可以利用拟合函数对数据进行平滑。如:借助线性回归方法,包括多变量回归方法,就可以获得的多个变量之间的一个拟合关系,从而达到利用一个(或一组)变量值来帮助预测另一个变量取值的目的。利用回归分析方法所获得的拟合函数,能够帮助平滑数据及除去其中的噪声。不一致数据处理现实世界的数据库常出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中俄外贸合同样本
- 2025年广州市合同范本
- 冷物流运输合同标准文本
- 公司窗外保洁服务合同标准文本
- 幼儿园教育公平性的探索与实践计划
- 举升机租赁合同样本
- 农村工程维护合同样本
- 学校教学任务分配方案计划
- 农户马铃薯订单合同样本
- 兼职招商顾问合同样本
- HG-T 2643-2023 非金属化工设备 丙烯腈-丁二烯-苯乙烯、聚氯乙烯、均聚聚丙烯、聚偏氟乙烯和玻璃纤维增强聚丙烯隔膜阀
- 污水排入城镇污水管网排放口设置技术规范
- 医护人员职业倦怠与心理健康研究
- 宠物分期付款协议书
- 精密超精密加工
- 10月自考现代语言学(00830)试题及答案解析与评分标准
- 仓库搬运工安全操作培训课程
- 《怪老头儿》名著导读
- 外研社一年级起点英语-四年级上册各单元知识点
- 老年人的口腔知识讲座
- NB-T 47013.1-2015 承压设备无损检测 第1部分-通用要求
评论
0/150
提交评论