《商务数据分析》教学课件:4.2 数据清洗_第1页
《商务数据分析》教学课件:4.2 数据清洗_第2页
《商务数据分析》教学课件:4.2 数据清洗_第3页
《商务数据分析》教学课件:4.2 数据清洗_第4页
《商务数据分析》教学课件:4.2 数据清洗_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务数据分析模块四规范化,数据处理01认识数据处理PartOne02数据清洗PartTwo03数据合并PartThree04数据拆分PartFour05数据计算PartFive06数据转换PartSix学习目标知识目标了解数据处理的作用和方法;理解数据处理中的常用函数,包括:VLOOKUP、MID、LEFT、RIGHT、DATEDIF、IF等。能力目标能够探查数据质量,发现数据问题,并对数据进行清洗操作;能够根据分析需求对数据进行合并、拆分、计算、转换等加工操作。知识导图数据处理数据清洗缺失值错误数据重复数据数据合并字段合并字段匹配数据拆分分列字符串截取数据计算简单计算函数计算合并计算数据转换行列互换二维表转换一维表数据类型转换单元二数据清洗一、数据清洗缺失数据错误数据(格式/逻辑)重复数据数据清洗(DataCleaning)是对数据进行审查和校验的过程。数据清洗包括:填补缺失数据纠正错误数据删除重复信息目的在于提升数据的质量,确保数据的准确性、完整性和一致性。一、数据清洗进行数据清洗的原因在于直接采集来的数据是“脏”的。主要体现在数据的:不完整性异常性错误性冗余性数据清洗常见方法操作包括以下几方面:缺失值清洗错误数据清洗重复数据清洗数据清洗二、缺失值清洗缺失值产生的原因客观因素:有些信息客观上无法获取,如未婚人士的配偶、未成年儿童的工作单位等;人为因素:人为原因导致的某些信息被遗漏或删除;机械因素:数据收集或者保存失败造成数据缺失,如数据存储的失败、存储器损坏、机械故障等。缺失值的处理方法通过关联维度推断缺失值;用一个样本统计量(样本平均值)的值代替;用一个统计模型(回归模型)计算出来的值代替;删除包含缺失值记录;保留包含缺失值记录。缺失值是指对数据集中某个或某些字段的值存在缺失(空值)或不完整。数据中缺失值过多将直接导致后续数据分析的质量。二、缺失值清洗【定位】批量清洗空值操作选中数据区域,单击【开始】>【查找和选择】>【定位条件】,在弹出的【定位条件】对话框中,选中【空值】,单击【确定】按钮后所有的空值即可被一次性选中。1定位到空白值后,直接输入需要补齐的内容,如“不详”,然后按“Ctrl+Enter”快捷键,则所有空值被批量填充为”不详“。2二、缺失值清洗【定位】批量清洗空值操作Ctrl+Enter三、错误数据清洗错误数据

包括数据集中某个或某些字段字段的值出现书写格式不规范、不统一,或者违反逻辑规则而产生的错误。对于错误数据应进行纠正或剔除。内容格式错误逻辑错误数据不合理:如客户年龄500岁,或者消费金额为-100元,明显不符合客观事实;数据关联矛盾:如客户的出生年份是1980年,但年龄却显示18岁;城市为西安,省份却为广东;数据不符合规则:如限购1件的商品,客户的购买数量却为3。格式不规范:如日期中出现“2017*11*30”

、2018.9.5”等不规范数据格式;格式不统一:书写格式不统一,如性别出现“男”、“男性”;或内容里包含多余的空格,如“苏州”和“苏州”;错误标识符:如公式计算中出现“#DIV/0!”、“#VALUE!”、“#N/A”等错误标识符。三、错误数据清洗选中数据区域,单击【开始】>【查找和选择】>【替换】命令,在弹出的【查找和替换】对话框中,分别设置【查找内容】文本框内容为“.”,【替换为】文本框内容为“-”,单击【全部替换】后,则选中数据区域中所有的“.”被统一替换为“-”,同时提示完成替换的数量。1【替换】批量清洗错误数据操作三、错误数据清洗选中数据区域,单击【插入】>【数据透视表】按钮,在弹出的【来自表格区域的数据透视表】对话框中,在【表/区域】框中选择要分析的数据,这里默认为前面选中的区域,可重新选择。在“选择放置数据透视表的位置”中选中【新工作表】,单击【确定】。1【数据透视表】核验逻辑错误操作三、错误数据清洗单击“确定”后,Excel自动创建一个空白的数据透视表框架,同时在其右侧展开【数据透视表字段列表】窗格。将“国家”、“大洲”字段依次拖动至【行】区域、将

“国家”拖动至【值】区域。同时将【值】区域中的的“国家”字段设置为“计数”汇总方式。2【数据透视表】核验逻辑错误操作生成的数据透视表统计了各国家对应的大洲及其对应的记录数量,可以看到“西班牙”对应下有“欧洲”、“亚洲”2个大洲,从而核验出数据中“西班牙”存在地理归属逻辑错误。3四、重复数据清洗重复数据

数据集中值相同的记录信息被认为是重复数据,重复数据会影响数据处理结果的正确性,从而导致数据分析出现偏差,因此需要将其删除。选中数据区域,创建数据透视表,将“订单号”依次拖动至【行】和【值】区域,同时将【值】区域中的的“国家”字段设置为“计数”汇总方式。1【数据透视表】查找重复数据操作该数据透视表统计了各订单号出现的频次,可以看到订单号“ANN32149745”的频数为2,说明该订单号有2条记录。2四、重复数据清洗选中工作表中的数据区域,单击【数据】>【删除重复项】,在弹出的【删除重复项】对话框中,点击选择要删除的列,注意这里全选,即所有列值都相同的才认为是重复项而去删除。1【删除重复项】操作四、重复数据清洗【删除重复项】功能单击【确定】按钮完成重复项删除,Excel将显示一条消息,指出有多少重复值被删除,多少唯一值被保留。2五、数据清洗流程数据清洗一般步骤通过【筛选】功能逐一检查各字段有无缺失值、错误值(格式/逻辑)并纠正,如年龄、单价为负值,电话号码不足11位等;检查有关联关系的字段是否逻辑正确并纠正;存在对应关系的相关字段是否对应正确,如国家和大洲、地市和省份存在计算关系的相关字段是否计算正确,如数量、单价和金额三者间是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论