《财税大数据分析》课件-任务二 大数据处理_第1页
《财税大数据分析》课件-任务二 大数据处理_第2页
《财税大数据分析》课件-任务二 大数据处理_第3页
《财税大数据分析》课件-任务二 大数据处理_第4页
《财税大数据分析》课件-任务二 大数据处理_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据处理项目二大数据的采集、处理与挖掘任务二大数据处理一数据缺值补全缺失值对数据挖掘来说,空值的存在,造成了以下影响:丢失了大量的有用信息;数据所表现出的不确定性更加显著,其中蕴涵的确定性成分更难把握;包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。空缺的数据需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。在各种实用的数据库中,数据属性值缺失的情况经常发生甚至是不可避免的。缺失值处理的方法:(1)删除操作(2)补全操作缺失值缺失值处理的方法删除操作当某个特征上面的数据缺失太大的时候,直接将这个特征删除。当特征上面的缺失值很少的时候,比如只有几个缺失值的时候,可以考虑把包含这些缺失值的元组进行删除。缺失值处理的方法缺失值处理的方法补全操作如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是非数值型的,则使用众数来补齐该缺失的变量值。(1)均值填充法缺失值处理的方法缺失值处理的方法补全操作在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。(2)热卡填充填补法缺失值处理的方法缺失值处理的方法补全操作回归替换法首先需要选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望值对缺失值进行替换。(3)回归填充法缺失值处理的方法缺失值处理的方法补全操作极大似然估计、期望最大化法、K最近距离邻法等。(4)其它填充方法缺失值处理的方法在处理缺失值时,可以对缺失值进行舍弃或补全,但在实际数据中,如果缺失数据占据了相当的比重,舍弃缺失数据则会丢失大量信息,不利于后续数据的处理和分析。数据缺失值补全是数据清理中十分重要的一步。任务描述任务要求上传子任务一中保存的经过数据清洗的文件,即清洗后的电商评论数据。选择恰当的补全方法,将表中的空缺值进行补全,对无图片的评价记录填写无图评价。任务描述(1)登录大数据处理平台,选择“大数据处理”下的“数据清洗”,打开数据清洗页面。任务实现点击【上传文件】,将任务一采集的唯品会的评论数据文件上传到平台中。任务实现选择数据源为之前上传的数据源,数据显示选择“显示50行”。任务实现(2)数据清洗步骤参照子任务一,此处略过这一步,继续单击【下一步】,进入缺失值插补步骤。任务实现(3)根据任务要求,在缺失值插补页面设置缺失值规则,选择“为空缺失值插补”,字段选择为“评论图片”,插补要求选择为“默认值补缺”,默认值填写为“无图评价”。任务实现(4)设置完成后点击【执行插补】,执行成功后在下方“数据预览”处查看并下载excel表格。任务实现二数据转换数据转换数据转换长度统一转换日期格式转换短信消息转换订单信息转换……将同一数据字段规范成统一的长度将非结构化的短信消息转换成结构化的数据将消息格式的订单转换成结构化的数据将不同格式的日期统一成相同的格式将数据转换成规范、结构化的形式,以便更好地理解和处理。对数据进行规范化处理,将上传的excel表格中的数据进行数据转换,以实现字段精度统一、日期格式转换等功能。将数据转化为适当的形式,适用于之后数据挖掘的需要。任务描述对“销售订单(一)”表里的数据做数据转换,要求单据编号为10位,如不足的右边补0,要求商品编号为7位,不足的左边补*。“销售订单(一)”表展示:任务要求(1)登录大数据处理平台,选择“大数据处理”下的“数据转换。任务实现打开数据转换页面,点击【上传文件】,将需要转换的文件上传到平台中,选择数据源为之前上传的数据源,点击【下一步】。任务实现(2)在数据转换规则页面点击【添加规则】,按案例任务要求填写完成规则后,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论