下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据处理-缺-失值处理异常值处理缺失值处理:造成数据缺失的原因是多方面的,主要可能有以下几种:有些信息暂时无法获取,致使一部分属性值空缺出来。有些信息因为一些人为因素而丢失了。有些对象的某个或某些属性是不可用的。如一个未婚者的配偶姓名。获取这些信息的代价太大,从而未获取数据。空值处理的重要性:空值的存在,造成了以下影响:系统丢失了大量的有用信息;系统的不确定性更加显著,系统中的确定性成分更难把握;包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。空值处理的方法:一、删除元组将存在遗漏信息属性值的对象(记录)删除,从而得到一个完备的信息表。这种方法在对象有多个属性缺失值、被删除的含缺失值的对
2、象与信息表中的数据量相比非常小的情况下是非常有效的。然而这种方法丢弃了大量隐藏在这些对象中的信息。在信息表中对象很少的情况下会影响到结果的正确性,可能导致数据发生偏离,从而引出错误的结论。二、数据补齐这类方法是基于统计学原理用一定的值去填充空值,从而使信息表完备化。数据挖掘中常用的有以下几种补齐方法:人工填写这个方法产生数据偏离最小,是填充效果最好的一种。当数据规模很大、空值很多的时候,该方法是不可行的。特殊值填充将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。这样将形成另一个概念,可能导致严重的数据偏离,一般不使用。平均值填充如果空值是数值
3、属性,就使用该属性在其他所有对象的取值的平均值来填充该缺失的属性值.如果空值是非数值属性,就根据统计学中的众数原理,用该属性在其他所有对象出现频率最高的值来补齐该缺失的属性值。热卡填充(就近补齐)对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题选用不同的标准来对相似进行判定。K最近邻法先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。使用所有可能的值填充这种方法是用空缺属性值的所有可能的属性取值来填充,能够得到较好的补齐效果。但是当数据量很大或者遗漏的属性值较多时,其计
4、算的代价很大,可能的测试方案很多。回归基于完整的数据集,建立回归方程(模型)。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。期望值最大化方法(EM)在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,通过观测数据的边际分布可以对未知参数进行极大似然估计。它一个重要前提:适用于大样本。有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。三、不处理直接在包含空值的数据上进行数据挖掘。这类方法包括贝叶斯网络和人工神经网络等。异常值处理异常值,即在数据集中存在不合理的值,又称离群点
5、。异常值的判别方法:34.1%34.1%简单统计分析对属性值进行一个描述性的统计(规定范围),从而查看哪些值是不合理的(范围以外的值)。2.3d原则若数据服从正态分布:根据正态分布的定义可知,距离平均值3d之外的概率为P(|x-u|3d)=0.003,这属于极小概率事件,在默认情况下我们可以认定,距离超过平均值3d的样本是不存在的。因此,当样本距离平均值大于3d,认为该样本为异常值。13.6%叩一n叩一1r一丿4e1-命那么可以计算每个维度的均值K2i1%0.1%假设门维的数据集合形如叫和方差附巧r.具体来说对于丿e1一;f可以计算分=澤血_血7机在正态分布的假设下,如果育一个新的数据&可以计算概率卩门如下:根据概率值的大小可以判断是否属于异常值。疔)=空二叫(_气牡.)3使用距离检测多元离群点当数据不服从正态分布时,可以通过远离平均距离多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年物业买卖担保合同
- 高职班主任工作计划范文
- 七年级教学计划三篇
- 心理健康工作计划
- 师德规范学习心得体会
- 游艺机项目可行性研究报告
- 初中数学教师年度考核总结
- 幼儿园大班班会活动教案
- 公司经理述职报告三篇
- 小升初自我鉴定合集12篇
- 2023年妇科门诊总结及计划
- 方大重整海航方案
- 河北省秦皇岛市昌黎县2023-2024学年八年级上学期期末数学试题
- 矿山治理专项研究报告范文
- 国家开放大学2023年7月期末统一试《11124流行病学》试题及答案-开放本科
- 货运安全生产管理制度
- 幼儿园中班体育《我们爱运动》+课件
- 郭锡良《古代汉语》课件
- 外研版四年级英语下册(一年级起点)全册完整课件
- 防止电力生产事故的-二十五项重点要求(2023版)
- 教研室主任岗位申请书
评论
0/150
提交评论