数据挖掘缺失值处理_第1页
数据挖掘缺失值处理_第2页
数据挖掘缺失值处理_第3页
数据挖掘缺失值处理_第4页
数据挖掘缺失值处理_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘缺失值处理第1页,共21页,2023年,2月20日,星期六报告提纲缺失数据为什么进行插补单一插补多重插补几何插补问题与挑战第2页,共21页,2023年,2月20日,星期六缺失数据

在许多实际问题的研究中,有一些数据无法获得或缺失。当缺失比例很小时,可直接对完全记录进行数据处理,舍弃缺失记录。但在实际数据中,往往缺失数据占有相当的比重,尤其是多元数据。这时前述的处理将是低效率的,因为这样做丢失了大量信息,并且会产生偏倚,使不完全观测数据与完全观测数据间产生系统差异。

第3页,共21页,2023年,2月20日,星期六什么是插补给每一个缺失数据一些替代值,如此得到“完全数据集”后,再使用完全数据统计分析方法分析数据并进行统计推断。80年代以后,人们开始重视数据缺失问题,着力研究插补方法。迄今为止,提出并发展了30多种的插补方法。在抽样调查中应用的主要是单一插补和多重插补。第4页,共21页,2023年,2月20日,星期六为什么进行插补允许应用标准的完全数据分析方法能融合数据收集者的知识数据缺失使数据结构复杂化,需要使用更复杂的统计工具进行分析,而插补可以缓解这一困难能够防止删除不完全记录造成的信息丢失在一些情形下,插补能够减少无回答偏倚特别注意:插补的目的并不是预测单个缺失值,而是预测缺失数据所服从的分布第5页,共21页,2023年,2月20日,星期六单一插补单一插补指对每个缺失值,从其预测分布中取一个值填充缺失值后,使用标准的完全数据分析进行处理。单一插补的方法很多,总的说来可以归为两类:随机插补和确定性插补。常用的确定性插补方法有以下几种:推理插补第6页,共21页,2023年,2月20日,星期六均值插补热平台插补

冷平台插补第7页,共21页,2023年,2月20日,星期六最近邻插补—在插补类中按匹配变量找到和受者记录最接近的供者记录替代缺失记录比率/回归插补—根据辅助信息与样本中的有效回答记录建立一个比率或回归模型EM算法—

每一种确定性的插补方法都对应着一种随机插补方法。插补定量数据时,用确定性的方法得到一个插补值,加上从某个适宜的分布中产生的一个残差作为最后的插补值,就成为随机插补。随机插补能更好地保持数据的频数结构,保持比确定性插补更真实的变异性。第8页,共21页,2023年,2月20日,星期六下面绍两种贝叶斯观点的随机插补:贝叶斯Bootstap(ABB)近似贝叶斯Bootstap(ABB)单一插补的优点1、标准的完全数据分析方法2、对公众应用数据库,程序运行一次缺点—低估估计量的方差改进—校正估计量的方差,主要利用Jackknife、Bootstrap等工具,给出方差的相合估计。第9页,共21页,2023年,2月20日,星期六第10页,共21页,2023年,2月20日,星期六第11页,共21页,2023年,2月20日,星期六多重插补单一插补往往会低估估计量的方差,为改善这一弊病,80年代前后,Rubin提出了多重插补。后经Rubin、MengX.L.和J.L.Schafer等人完善和发展,已经在著名的统计软件SAS中采用。多重插补是一种以模拟为基础的方法,对每个缺失值产生m个合理的插补值,这样插补后,得到m组完全数据,使用标准的完全数据方法分析每组数据并融合分析结果。第12页,共21页,2023年,2月20日,星期六

多重插补保持了单一插补的两个基本优点,即应用完全数据分析方法和融合数据收集者知识的能力。相对于单一插补,多重插补有三个极其重要的优点:第一,为表现数据分布,随机抽取进行插补,增加了估计的有效性。第二,当多重插补是在某个模型下的随机抽样时,按一种直接方式简单融合完全数据推断得出有效推断,即它反映了在该模型下由缺失值导致的附加变异。第三,在多个模型下通过随机抽取进行插补,简单地应用完全数据方法,可以对无回答的不同模型下推断的敏感性进行直接研究。第13页,共21页,2023年,2月20日,星期六多重插补缺点:一、生成多重插补比单一插补需要更多工作二、贮存多重插补数据集需要更多存储空间三、分析多重插补数据集比单一插补需要花费更多精力。多重插补所面临的主要问题是如何得到缺失数据的多个插补版本。为正确地进行插补,需要首先要明确缺失机制,然后讨论插补机制。第14页,共21页,2023年,2月20日,星期六第15页,共21页,2023年,2月20日,星期六第16页,共21页,2023年,2月20日,星期六第17页,共21页,2023年,2月20日,星期六第18页,共21页,2023年,2月20日,星期六第19页,共21页,2023年,2月20日,星期六问题与挑战

第2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论