




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电子商务数据分析基础模块三数据分类与处理CONTENT目录单元一认识数据分类与处理单元二分类统计单元三数据处理单元四数据计算单元三数据处理引导案例某电器官方旗舰店于2022年8月份参加了一期聚划算活动,因折扣力度大,推广效果极好。活动结束后,该企业将后台销售数据导出,交给数据分析部门,进行此次活动的效果追踪评价。数据分析师拿到数据经过整理后,发现该源数据存在如图所示的质量问题。引导案例为了保证数据分析结果的准确性,数据分析师先对该源数据进行了处理,修正了错误数据,统一了日期格式,处理了缺失内容,又将混杂在一起的数据分开,为之后的数据计算和数据分析做好了准备。结合案例,思考并回答以下问题:(1)在图3-22中,处理完成后的数据是怎样的?(2)在电商运营中,除了案例中存在的数据质量问题,还需要进行哪些问题的数据处理?单元三数据处理一、数据清洗数据清洗是指将数据表中多余、重复的数据筛选出来并删除,将缺失、不完整的数据补充完整,将内容、格式错误的数据纠正或剔除的操作行为。数据清洗是对数据进行重新审查和校验的过程,目的在于提升数据的质量,确保数据的准确性、完整性和一致性。缺失值清洗格式内容清洗逻辑错误清洗重复数据清洗无价值数据清洗单元三数据处理缺失值清洗数据集中某个或某些属性的值是不完整的。缺失值产生的原因有些信息无法获取,如在收集顾客婚姻状况和工作信息时,未婚人士的配偶、未成年儿童的工作单位等都是无法获取的信息。数据收集或者保存失败造成数据缺失,如数据存储的失败、存储器损坏、机械故障等。人为原因导致的某些信息被遗漏或删除。单元三数据处理空值清洗打开原始数据表格,选中数据区域,在“开始”选项卡下的“编辑”功能组中单击“查找和选择”按钮,点击“定位条件”命令,在弹出的“定位条件”对话框中选中“空值”,点击“确定”后,所有的空值即可被一次性选中。1单元三数据处理定位到空白值后,可以选择“数据补齐”、“删除记录”或者“不处理”。如需数据补齐,则直接输入需要补充的内容,按“Ctrl+Enter”组合键,进行批量填充。2单元三数据处理知识链接处理缺失值的三种方法:(1)数据补齐。即使用某个统计指标填充缺失数据,如该变量的样本平均值等。(2)删除记录。将有缺失值的记录删掉,但这样会导致样本量减少,数据量较少时应谨慎使用。(3)不处理。样本较少时,或者该数据缺失属正常情况时,不做处理。单元三数据处理错误标识符清洗######DIV/0!单元格中的数据超出了该单元格的宽度,或者单元格中的日期时间公式产生了一个负值进行公式运算时除数使用了数值零、指向了空单元格或包含零值单元格的引用如图,由于2022年7月5日所采购的商品还未采集到因不合格而产生退货的数量,因此在计算退货率时,发生了“#VALUE!”的错误。单元三数据处理将鼠标定位在出现“I12”单元格中,在公式编辑栏中,修改原公式“=H12/E12”为“=IFERROR(H12/E12,"/")”1单元三数据处理确认输入后,“I12”单元格中的“#VALUE!”被修改为“/”,然后拖动“I12”单元格的填充柄,将其他发生错误的单元格进行填充修改2单元三数据处理格式内容清洗由于系统导出渠道或人为输入习惯的原因,整合而来的原始数据往往不能做到格式统一,内容上也容易出现空格。“订单创建时间”列出现了四种不同的表达方式,“物流公司”列的字符前面或中间存在空格,需要将其修正。单元三数据处理选中“订单创建时间”整列,右击打开弹出式菜单,单击“设置单元格格式”选项,在弹出的“设置单元格格式”对话框中,选择“数字”选项卡,单击“日期”,将其类型修改为如图所示的样式。单击“确定”完成。1单元三数据处理“物流公司”列数据中的空格可以使用“替换”一次性批量去除。选中数据区域,在“开始”选项卡下的“编辑”功能组中单击“查找和替换”按钮,单击“替换”命令,在“查找内容”中输入一个空格,在“替换为”中不输入任何内容,单击“全部替换”即可全部删除表格中的空格。2单元三数据处理逻辑错误清洗违反逻辑规律的要求和逻辑规则而产生的错误,一般使用逻辑推理就可以发现问题。123数据不合理数据自相矛盾数据不符合规则如客户年龄500岁,或者消费金额为-100元,明显不符合客观事实。如客户的出生年份是1980年,但年龄却显示18岁。如限购1件的商品,客户的购买数量却为3件。单元三数据处理“多彩橡皮泥套盒”商品的订单表单元三数据处理由于该商品限购1件,因此需要将“购买数量”大于1的记录标注出来。选中“购买数量”列,选择“开始”选项卡—“样式”功能组—“条件格式”—“突出显示单元格规格”—“大于”,在弹出的“大于”对话框中,填入数值“1”,单击“确定”,即可将错误数据标注出来。1单元三数据处理同理,条件格式选择“小于”即可将“买家实际支付金额”列的错误数据标注出来。2单元三数据处理“签收时间”应晚于“订单创建时间”,否则该条记录便属于异常。选中“签收时间”列,选择“开始”选项卡—“样式”功能组—“条件格式”—“突出显示单元格规格”—“其他规则”,在弹出的“新建格式规则”对话框中,选择规则类型“使用公式确定要设置格式的单元格”,编辑规则为“=$M1<$J1”,设置格式为背景色黄色,单击“确定”,即可将错误数据标注出来。3单元三数据处理重复数据清洗就是数据被重复、多次记录。重复数据会影响数据处理结果的正确性,从而导致数据分析出现偏差,因此需要将其删除。某店铺类目结构月表单元三数据处理选中工作表中的数据区域,在“数据”选项卡下的“数据工具”功能组中,单击“删除重复项”,在弹出的“删除重复项”对话框中,选择要删除的列,注意“统计日期”、“一级类目”、“二级类目”、“叶子类目”应同时选中,否则会产生误删。1单元三数据处理单击“确定”按钮完成重复项删除,Excel将显示一条消息,指出有多少重复值被删除,多少唯一值被保留。2单元三数据处理无价值数据清洗是指对本次数据统计或数据分析没有产生作用的数据,直接删除对应的字段即可。但在通常情况下,并不建议删除。如果数据表过大,在汇报展示时用不到又影响操作,可以考虑备份后将其删除。单元三数据处理二、数据转化数据转化是数据处理的前期准备,包括数据表的行列互换、文本数据提炼、数据类型的转换等。数据表的行列互换打开Excel数据表,选中目标内容,按住“Ctrl+C”组合键进行复制。1单元三数据处理选中要进行数据复制的单元格,点击“开始”选项卡,在“剪贴板”功能组中单击“粘贴”——“转置”按钮,即可让选中的内容进行行列互换,得到新数据表。2单元三数据处理使用键盘快捷方式,按“Ctrl+Alt+V”组合键,会弹出如图所示的“选择性粘贴”对话框,勾选“转置”复选框,即可实现转置粘贴。单元三数据处理文本数据提炼在导入文本数据时,有时多项数据会显示在同一单元格中,需要对数据进行提炼,使相同属性的数据位于同一列中。单元三数据处理文本数据的提炼涉及到文本函数的运用LEFT函数,用于获取字符串左边指定个数的字符LEFT函数的语法为:=LEFT(text,[num_chars]),其中text为要取得给定值的文本数据源,num_chars表示需要从左开始算提取几个字符数,其中每个字符按1计数。RIGHT函数,用于获取字符串右边指定个数的字符RIGHT函数的语法为:=RIGHT(text,num_chars),其中text为要取得给定值的文本数据源,num_chars表示需要从右开始算提取几个字符数,其中每个字符按1计数。单元三数据处理MID函数,用于获取字符串从指定位置开始指定个数的字符MID函数的语法为:=MID(text,start_num,num_chars),其中text为要取得给定值的文本数据源,start_num表示指定从第几位开始提取,num_chars表示需要从指定位置开始算提取几个字符数,其中每个字符按1计数。单元三数据处理将表格中的客户姓名提炼出来,可以使用LEFT函数,选定客户姓名要放置的单元格,单击插入函数“fx”,选择文本函数,从中选取LEFT函数,如图。随后分别输入文本源和数值,如提取A1单元格中从左开始的5个字符数,如图。点击“确定”,完成姓名提取。1文本函数选取函数参数输入姓名数据提炼单元三数据处理接下来完成电话号码的提炼,选取文本函数中的MID函数,如图。电话号码是从第6位字符开始的,需要提取11位字符,输入函数参数,如图。单击“确定”,即可完成电话号码的提炼,如图。2文本函数选取函数参数输入姓名数据提炼单元三数据处理提取订单号,选取文本函数中的RIGHT函数,订单号为从右开始的18个字符,输入函数参数,如图。单击“确定”,即可完成订单号的提炼,如图。3函数参数输入订单号提炼单元三数据处理数据类型的转换数值转字符在Excel输入数据的时候,会默认使用数值型数据,若是数字超过11位长,会变成科学计数法,不利于查看数据在Excel中打开数据表,选择要转换的数字所在的单元格,随后单击“数据”选项卡中的“分列”按钮,在文本分列向导中使用默认设置,连续单击“下一步”,完成第1步和第2步的设置。1单元三数据处理进入文本分列向导第3步,单击“列数据格式”下的“文本”,单击“完成”,即可完成设置。2设置完成后,返回Excel数据表,数据前有小三角符号,代表已转换成功。3单元三数据处理字符转数值在进行数据统计时,有时获取的原始数据是以文本字符形式展现的。虽然不影响数据展现,但无法进行计算。单元三数据处理参考数值转文本字符的方法,但在第三步选择“列数据格式”时,勾选“常规”,单击“完成”,即可完成转换。直接选中要转换的数据列,点击数据列前出现的提醒符号,在给出的选项中点击“转换为数据”,即可将文本型字符转换为数值。单元三数据处理文本日期转标准日期在Excel中打开数据列表,选中为文本格式的日期信息,随后单击“数据”选项卡中的“分列”。在文本分列向导中,使用默认设置,连续单击“下一步”,完成第1步和第2步的设置,进入第3步后,在列数据格式选择“日期”,在其下拉列表中选择“YMD”选项,如图。单击“完成”后,即可完成标准日期的转换,如图。1设定列数据格式完成日期的转换单元三数据处理转换后的月份和日期都是单数显示,想要转换成双数,可以打开“设置单元格格式”对话框,在设置页面选择分类为“自定义”,右面的类型设置为“yyyy-mm-dd”,设置完成后单击“确定”按钮,即可完成日期双数的设置。2单元三数据处理上述案例中,如果需要将统计日期“2022年7月1日”的格式修改为“7/1/2022",其自定义类型应如何设置?单元三数据处理实训专区3-2调取源数据3-2,对该表中C列数据进行文本提炼,并放置在相应属性列中。单元三数据处理三、数据排序简单排序简单排序高级排序自定义排序针对单列数据进行的快速排序,即只有一个关键字段。图是某网店无线端推广的流量汇总表,下面以表中数据为例,采用从高到低(即降序)的方式,快速找到带来访客数最多的流量来源。单元三数据处理选中需要排序的列“访客数”,在“数据”选项卡下的“排序和筛选”功能组中单击“降序”按钮,在弹出的“排序提醒”对话框中,选择排序依据,这里选择“扩展选定区域”。1单元三数据处理排序完成,即可得到该网店无线端推广的效果排行情况,如图。从表中数据可以得出,智钻引流效果最好。2单元三数据处理高级排序“访客数”从高到低排列引入第二关键字。即修改“某网店无线端推广的流量汇总表”的排序条件为:按“访客数”降序排列,在“访客数”相同的情况下按“下单买家数”降序排列。单元三数据处理在“排序”对话框中,“主要关键字”选择“访客数”,“排序依据”选择“数值”,“次序”选择“降序”。1单元三数据处理单击“添加条件”按钮,新增“次要关键字”,设置参数为“下单买家数”、“数值”、“降序”,排序结果如图。2单元三数据处理自定义排序在进行自定义排序时,必须先建立需要排序的自定义序列项目,然后才能根据设置的自定义序列对表格进行排序。以图所示的数据表为例,对其按照“流量分类”进行排序。单元三数据处理选择“文件”选项卡下的“选项”命令,弹出“Excel选项”对话框,在“高级”标签下,找到“常规”栏目,单击“编辑自定义列表”按钮。1单元三数据处理在弹出的“自定义序列”对话框中,输入序列,单击“添加”按钮,将其添加到自定义序列中,点击“确定”按钮完成。2单元三数据处理返回Excel文档中,在“数据”选项卡下的“排序和筛选”功能组中单击“降序”按钮,弹出“排序”对话框,“主要关键字”选择“来源分类”,“排序依据”选择“数值”,“次序”选择“自定义序列”。3单元三数据处理在弹出的“自定义序列”对话框中,选择已经定义好的序列。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 承揽运输装卸合同范本
- 餐馆合租合同范本
- 家装合同范本广州
- 防火灾消防安全主题班会
- 办公室主任年中工作总结
- 教师节节日教育
- 2021年对口招生职业适应性测试试卷(样题)
- 2025年山西省晋中市榆次区一模生物学试题(含答案)
- 防雷电安全知识
- 民办合肥滨湖职业技术学院《变质岩岩石学》2023-2024学年第二学期期末试卷
- 2025江苏南京市金陵饭店股份限公司招聘高频重点模拟试卷提升(共500题附带答案详解)
- 中国急性缺血性卒中诊治指南(2023)解读
- 人教版三年级下册语文《古诗三首(元日)》练习题(含答案)
- 华为采购管理
- 小学学生一日常规管理
- 基于代际互动视角的农村老年家庭数字反哺机制研究
- 《敏捷项目管理》课件
- 外研版(2025新版)七年级下册英语Unit 1 学情调研测试卷(含答案)
- 专题10 开展心理健康教育 促进身心健康成长-备战2023年中考英语阅读理解时文爆点专题训练(解析版)
- 土壤质地与土壤酶活性-第1篇-洞察分析
- 智联招聘行测题库及答案
评论
0/150
提交评论