数据缺失值处理之均值填补法_第1页
数据缺失值处理之均值填补法_第2页
数据缺失值处理之均值填补法_第3页
数据缺失值处理之均值填补法_第4页
数据缺失值处理之均值填补法_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据缺失值处理之均值填补法学习目标2知识目标●数据缺失简介●数据缺失的处理方法●均值填补法能力目标●了解数据缺失●掌握数据缺失的处理方法●了解均值填补法学习任务3初步探索什么是数据缺失值初步探索数据缺失值的处理方法初步探索均值填补法总结处理方法的优缺点引言数据缺失的处理方法数据缺失简介4均值填补法目录引言5在社会调查资料中,最为常见的问题就是数据缺失。造成数据缺失的原因有:失访、无响应或是回答问题不合格等等。统计学上,将含有缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查研究的影响是很大的。所以在统计学中,为了能够更加充分地利用已经搜集到的数据,国内外很多学者都对缺失数据的处理提出了自己独到的见解,来挽救有缺失的调查数据,以保证研究工作顺利进行。6数据缺失简介数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。统计调查中能否按设计要求获得被调查单位的详全资料是衡量数据质量的一个重要标准,但实际调查中经常遇到数据缺失的情况。无回答有2种表现形式:单位无回答(unitnon-response)和项目无回答(itemnon-response)。“单位无回答”——被调查者不愿意或者不能够回答整张的问卷;“项目无回答”——被调查者拒绝回答个别的调查项目。7数据缺失简介缺失原因(Reason)在统计调查过程中,数据缺失是不可避免的,造成这种现象的原因是多方面的,主要有以下几种:1.在存储数据的过程中,由于机器的损坏造成数据存储失败;2.调查员在采集数据过程中,由于主观因素人为地认为数据不重要或无用,而私自丢弃数据;4.受访者拒绝透露被调查信息,或回答错误信息;3.调查员信息录入失误;5.受访者选取失误。例如调查工资情况,选取的受访者是婴幼儿8数据缺失简介产生机制(Mechanism)Little和Rubin针对缺失数据,探讨缺失数据与目标变量是否有关,定义了3种不同的缺失机制。MCAR完全随机缺失(MissingCompletelyAtRandom):数据的缺失与不完全变量以及完全变量都是无关的。MAR随机缺失(MissingAtRandom):数据的缺失仅仅依赖于完全变量。MNAR非随机缺失(NotMissingAtRandom):不完全变量中数据的缺失,依赖于不完全变量本身。这种缺失是不可忽略的。9数据缺失简介产生机制(Mechanism)10数据缺失简介缺失模式(Pattern)数据缺失模式主要研究哪些变量缺失,更确切的说,关注的是缺失数据矩阵R的分布。当一维目标变量出现缺失数据时,我们在数据处理过程中首先要考虑缺失数据产生机制,而对于多维目标变量而言,除了考虑缺失数据产生机制外,还要判断数据的缺失模式。11数据缺失简介缺失模式(Pattern)假设完全数据资料阵y是由m个观测、n个变量组成的m×n矩阵,通过分析这个矩阵的特点,可以推断出数据缺失模式。12数据缺失的处理方法基本方法基于完整观测单位的方法删除法加权调整法列表删除个案删除(配对删除)基于填补的方法单一填补法多重填补法随机回归填补法(PMM法)趋势得分法人工填补法均值填补法回归填补法不处理贝叶斯网络人工神经网络13均值填补法数据的属性定性数据和定量数据。如果缺失值是定量的,就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论