《数据化运营》课件-锦囊二:数据清洗_第1页
《数据化运营》课件-锦囊二:数据清洗_第2页
《数据化运营》课件-锦囊二:数据清洗_第3页
《数据化运营》课件-锦囊二:数据清洗_第4页
《数据化运营》课件-锦囊二:数据清洗_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络营销与直播电商专业教学资源库BYYUSHEN《数据化运营》数据清洗BYYUSHEN01数据清洗定义02

缺失值清洗网络营销与直播电商专业教学资源库03空值清洗04

错误标示清洗05格式内容清洗BYYUSHEN01EntrepreneurshipPlan数据清洗定义数据清洗是指将数据表中多余、重复的数据筛选出来并删除,将缺失、不完整的数据补充完整,将内容、格式错误的数据纠正或剔除的操作行为。缺失值清洗格式内容清洗逻辑错误清洗重复数据清洗无价值数据清洗BYYUSHEN02EntrepreneurshipPlan缺失值清洗缺失值清洗数据集中某个或某些属性的值是不完整的。缺失值产生的原因有些信息无法获取,如在收集顾客婚姻状况和工作信息时,未婚人士的配偶、未成年儿童的工作单位等都是无法获取的信息。数据收集或者保存失败造成数据缺失,如数据存储的失败、存储器损坏、机械故障等。人为原因导致的某些信息被遗漏或删除。BYYUSHEN03EntrepreneurshipPlan空值清洗空值清洗打开原始数据表格,选中数据区域,在“开始”选项卡下的“编辑”功能组中单击“查找和选择”按钮,点击“定位条件”命令,在弹出的“定位条件”对话框中选中“空值”,点击“确定”后,所有的空值即可被一次性选中。1BYYUSHEN03EntrepreneurshipPlan空值清洗2定位到空白值后,可以选择“数据补齐”、“删除记录”或者“不处理”。如需数据补齐,则直接输入需要补充的内容,按“Ctrl+Enter”组合键,进行批量填充。BYYUSHEN03EntrepreneurshipPlan空值清洗处理缺失值的三种方法:(1)数据补齐。即使用某个统计指标填充缺失数据,如该变量的样本平均值等。(2)删除记录。将有缺失值的记录删掉,但这样会导致样本量减少,数据量较少时应谨慎使用。(3)不处理。样本较少时,或者该数据缺失属正常情况时,不做处理。BYYUSHEN04EntrepreneurshipPlan错误标识符清洗#####

单元格中的数据超出了该单元格的宽度,或者单元格中的日期时间公式产生了一个负值#DIV/0!

进行公式运算时除数使用了数值零、指向了空单元格或包含零值单元格的引用如图,由于2022年7月5日所采购的商品还未采集到因不合格而产生退货的数量,因此在计算退货率时,发生了“#VALUE!”的错误。BYYUSHEN04EntrepreneurshipPlan错误标识符清洗将鼠标定位在出现“I12”单元格中,在公式编辑栏中,修改原公式“=H12/E12”为“=IFERROR(H12/E12,"/")”1BYYUSHEN2确认输入后,“I12”单元格中的“#VALUE!”被修改为“/”,然后拖动“I12”单元格的填充柄,将其他发生错误的单元格进行填充修改04错误标识符清洗BYYUSHEN05格式内容清洗由于系统导出渠道或人为输入习惯的原因,整合而来的原始数据往往不能做到格式统一,内容上也容易出现空格。“订单创建时间”列出现了四种不同的表达方式,“物流公司”列的字符前面或中间存在空格,需要将其修正。BYYUSHEN选中“订单创建时间”整列,右击打开弹出式菜单,单击“设置单元格格式”选项,在弹出的“设置单元格格式”对话框中,选择“数字”选项卡,单击“日期”,将其类型修改为如图所示的样式。单击“确定”完成。105格式内容清洗BYYUSHEN2“物流公司”列数据中的空格可以使用“替换”一次性批量去除。选中数据区域,在“开始”选项卡下的“编辑”功能组中单击“查找和替换”按钮,单击“替换”命令,在“查找内容”中输入一个空格,在“替换为”中不输入任何内容,单击“全部替换”即可全部删除表格中的空格。05格式内容清洗BYYUSHEN06逻辑错误清洗违反逻辑规律的要求和逻辑规则而产生的错误,一般使用逻辑推理就可以发现问题。123数据不合理数据自相矛盾数据不符合规则如客户年龄500岁,或者消费金额为-100元,明显不符合客观事实。如限购1件的商品,客户的购买数量却为3件。如客户的出生年份是1980年,但年龄却显示18岁。BYYUSHEN06逻辑错误清洗如客户的出生年份是1980年,但年龄却显示18岁。“多彩橡皮泥套盒”商品的订单表BYYUSHEN由于该商品限购1件,因此需要将“购买数量”大于1的记录标注出来。选中“购买数量”列,选择“开始”选项卡—“样式”功能组—“条件格式”—“突出显示单元格规格”—“大于”,在弹出的“大于”对话框中,填入数值“1”,单击“确定”,即可将错误数据标注出来。106逻辑错误清洗BYYUSHEN2同理,条件格式选择“小于”即可将“买家实际支付金额”列的错误数据标注出来。05格式内容清洗BYYUSHEN02EntrepreneurshipPlan数据分类统计上述案例中,可以把“流量来源”“来源明细”放置在列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论