《商务数据分析》课件-缺失数据处理_第1页
《商务数据分析》课件-缺失数据处理_第2页
《商务数据分析》课件-缺失数据处理_第3页
《商务数据分析》课件-缺失数据处理_第4页
《商务数据分析》课件-缺失数据处理_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务数据分析缺失数据处理缺失数据的定义1目录CONTENTS缺失数据的处理3缺失数据的定义01缺失数据的定义01缺失数据(MissingValue)是指数据集中的某些值没有被观测到或记录下来。这些数据存在于原始数据集中,但是由于各种原因,缺失了某些值,导致数据集中有空白或空缺值的地方。信息暂时无法获取。如某种产品的收益等具有滞后效应。01数据因人为因素没有被记录、遗漏或丢失,这个是数据缺失的主要原因。02数据采集设备的故障、存储介质、传输媒体故障而造成数据丢失。03获取这些信息的代价太大。04有些对象的某个或某些属性是不可用的;如:未婚者的配偶姓名、儿童的固定收入状况等。05系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策。06缺失值产生的原因缺失数据的处理02(1)删除0102(2)插补03(3)不处理缺失数据的处理样本清单中,如果单元格为空,则认为存在缺失数据。缺失数据通常用以下两种方法替换:(1)删除

删除含缺失值的样本(行)删除含缺失值的特征(列)成对删除(在重要变量存在的情况下,成对删除只会删除相对不重要的变量行。这样可以尽可能保证充足的数据。该方法的优势在于它能够帮助增强分析效果,但是它也有许多不足。它假设缺失数据服从完全随机丢失(MCAR)。如果你使用此方法,最终模型的不同部分就会得到不同数量的观测值,从而使得模型解释非常困难。)(2)插补平均值填充人工填写0103将初始数据集中的属性分为数值属性和非数值属性来分别进行处理。如果空值是数值型的,就用平均值来填充该缺失的属性值;如果空值是非数值型的,就使用众数来填充缺失值当你对自己手头的数据集足够了解时,可以选择自己填写缺失值。然而一般来说,该方法很费时,当数据规模很大、空值很多的时候,该方法是不可行的。一般不推荐。02将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。一般作为临时填充或中间过程。有时可能导致严重的数据偏离,一般不推荐。特殊值填充(3)不处理缺失值当样本量足够大,缺失值的数量相对较小时,缺失值对整体数据的影响微乎其微的时候,可以选择不处理缺失值。缺失数据的处理首先要发现缺失值。一般用定位条件来查找缺失数据的单元格。下面演示将“年龄”字段中的空值替换为“20”。1)选中年龄所在的E列,选择“查找和选择”→“定位条件”命令,如图4-6所示。图4-6选择“定位条件”命令

2)在“定位条件”对话框中,选中空值单选按钮,如图4-7所示。3)单击“确定”按钮,E列所有的空白单元格呈选中状态,如图4-8所示。图

4-7

选中

空值”

单选按钮图

4-8

选中所有空值缺失数据的处理(4) 输入替代值“20”,按<Ctrl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论