任务8.2.3-异常值处理_第1页
任务8.2.3-异常值处理_第2页
任务8.2.3-异常值处理_第3页
任务8.2.3-异常值处理_第4页
任务8.2.3-异常值处理_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ETL数据预处理技术主讲人:张宏伟任务8-2-3异常值处理01.异常值处理概述02.目录异常值判断CONTENTS04.样例解析03.异常值的处理方式所谓异常值,就是在数据集中存在不合理的值,又称离群点。例如年龄为负数,成绩大于100或小于零,商品评分超出5分或商品日销售量远远超过年销售量等,都属于异常值的范围。(1)散点图分析(2)简单统计分析(3)3δ原则

3δ原则是指当数据服从正态分布时,根据正态分布的定义可知,距离平均值3δ之外的概率为P(|x-μ|>3δ)<=0.003,这是属于极小的概率事件,因此,当样本距离平均值大于3δ时,则认定该样本为异常值。(4)箱型图分析箱型图提供了一个识别异常值的标准,即大于或小于箱型图设定的上下界的数值即为异常值。常用的异常值处理方法有以下4种。(1)删除含有异常值的记录。(2)将异常值视为缺失值,按照缺失值的处理方法来处理。(3)用平均值来修正异常值。(4)对异常值不处理。现有某商场的产品销售数据如右图所示:要求:将amount列的异常值替换为该列的中位数首先读取数据:输出结果如下:(1)查看统计信息,代码如下:输出结果如下:如图所示,统计出了每一列平均值、中位数、方差等数据(2)根据历史数据得出结论,销售数量在0-20之间,所以将异常数据替换为中位数,代码如下:输出结果如下:小结函数使用异常值的判断删

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论