




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、logo1数据缺失及其填补方法综述报告人:邵宏赡日 期:2013.4logo2目录页contents page引言数据缺失简介 数据缺失的处理方法处理方法评价总结logo3transition page过渡页引言数据缺失简介数据缺失的处理方法处理方法的选择与评价总结logo4引言part 1 在社会调查资料中,最为常见的问题就是 。造成数据缺失的原因有:失访、无响应或是回答问题不合格等等。统计学上,将含有缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查研究的影响是很大的。所以在统计学中,为了能够更加充分地利用已经搜集到的数据,国内外很多学者都对缺失数据的处理提出了自己独到的见解,来挽救
2、有缺失的调查数据,以保证研究工作顺利进行。数据缺失logo5transition page过渡页引言数据缺失简介数据缺失的处理方法处理方法的选择与评价总结logo6数据缺失简介part 2 数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。 统计调查中能否按设计要求获得被调查单位的详全资料是衡量数据质量的一个重要标准, 但实际调查中经常遇到数据缺失的情况。无回答有2种表现形式: 单位无回答(unit non-response)和项目无回答(item non-response) 。“单位无回答”被调查者不愿意或者不能够回答整张的问卷;
3、 “项目无回答”被调查者拒绝回答个别的调查项目。概念(concept)logo7数据缺失简介part 2缺失原因(reason)在存储数据的过程中,由于机器的损坏造成数据存储失败;调查员在采集数据过程中,由于主观因素人为地认为数据不重要或无用,而私自丢弃数据;调查员信息录入失误;受访者拒绝透露被调查信息,或回答错误信息;受访者选取失误。例如调查工资情况,选取的受访者是婴幼儿。 在统计调查过程中,数据缺失是不可避免的,造成这种现象的原因是多方面的 ,主要有以下几种:logo8数据缺失简介part 2 little和rubin针对缺失数据,探讨缺失数据与目标变量是否有关,定义了3种不同的缺失机制。
4、产生机制( mechanism )mcarmarmnar完全随机缺失(missing completely at random) :数据的缺失与不完全变量以及完全变量都是无关的。随机缺失(missing at random):数据的缺失仅仅依赖于完全变量。 非随机缺失(not missing at random):不完全变量中数据的缺失,依赖于不完全变量本身。这种缺失是不可忽略的。logo9数据缺失简介part 2产生机制( mechanism )logo10数据缺失简介part 2缺失模式( pattern) 数据缺失模式主要研究哪些变量缺失,更确切的说,关注的是缺失数据矩阵r的分布。当一维
5、目标变量出现缺失数据时,我们在数据处理过程中首先要考虑缺失数据产生机制,而对于多维目标变量而言,除了考虑缺失数据产生机制外,还要判断数据的缺失模式。logo11数据缺失简介part 2缺失模式( pattern) 假设完全数据资料阵 y 是由m个观测、 n个变量组成的mn矩阵,通过分析这个矩阵的特点,可以推断出数据缺失模式。logo12transition page过渡页引言处理方法的选择与评价总结数据缺失简介数据缺失的处理方法logo13part 3数据缺失的处理方法基本方法基于完整观测单位的方法单一填补法基于填补的方法人工填补法删除法不处理加权调整法列表删除个案删除(配对删除)多重填补法均
6、值填补法回归填补法热平台填补法(hot deck 填补法、就近补齐法)冷平台填补法期望最大化法极大似然估计马尔科夫链蒙特卡罗法(mcmc)趋势得分法随机回归填补法(pmm法)k最近距离邻法贝叶斯网络人工神经网络c4.5方法logo14part 3数据缺失的处理方法 这种方法简便这种方法简便易行易行。在被调查对象出现多个变在被调查对象出现多个变量的缺失量的缺失, , 并且被删除的含缺失的数据量在整个数并且被删除的含缺失的数据量在整个数据集中的数据量占的比例非常小的情况下据集中的数据量占的比例非常小的情况下, , 是非常是非常简单而有效的。简单而有效的。 它的不足之处在于,删除缺失数据的过程中减它
7、的不足之处在于,删除缺失数据的过程中减少了原始的数据,导致了信息的损耗。因此少了原始的数据,导致了信息的损耗。因此, , 当缺当缺失数据所占比例较大失数据所占比例较大, ,特别当缺失数据非随机分布时特别当缺失数据非随机分布时, , 这种方法可能导致数据发生偏离这种方法可能导致数据发生偏离, , 从而引出错误的从而引出错误的结论。结论。基于完整观测单位的方法删除法加权调整法列表删除个案删除(配对删除) 加权是一个减少偏差的比较简单的加权是一个减少偏差的比较简单的措施措施, , 但是由于丢弃不完整单位的信息但是由于丢弃不完整单位的信息, , 并且没有提供一个内在的方差控制并且没有提供一个内在的方差
8、控制, , 所所以在样本量较大时以在样本量较大时, , 易出现错误的结果。易出现错误的结果。logo15part 3数据缺失的处理方法 多重填补法1977年由rubin首先提出,经过meng和schafer等人不断的完善和综合已形成一个比较系统的理论,该法有以下优优点点:多重插补过程产生多个中间插补值,可以利用插补值之间的变异反映无回答的不确定性,包括无回答原因已知情况下抽样的变异性和无回答原因不确定造成的变异性。多重插补通过模拟缺失数据的分布,较好地保持变量之间的关系。多重插补能给出衡量估计结果不确定性的大量信息,单一插补给出的估计结果则较为简单。 单一插补的优点优点 1、标准的完全数据分析
9、方法 2、对公众应用数据库,程序运行一次 缺点缺点低估估计量的方差 改进改进校正估计量的方差,主要利用jackknife、bootstrap 等工具,给出方差的相合估计。单一填补法基于填补的方法人工填补法多重填补法均值填补法回归填补法热平台填补法(hot deck 填补法、就近补齐法)冷平台填补法期望最大化法(em)极大似然估计马尔科夫链蒙特卡罗法(mcmc)趋势得分法随机回归填补法(pmm法)k均值聚类法( k-means clustering )c4.5方法多重插补缺点缺点:一、生成多重插补比单一插补需要更多工作二、贮存多重插补数据集需要更多存储空间三、分析多重插补数据集比单一插补需要花费
10、更多精力。logo16part 3数据缺失的处理方法 不处理就是直接在包含空值的数据上进行数据挖掘。 贝叶斯网络仅适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增加),网络维护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响了它的预测精度。当在任何一个对象中的缺失值数量很大时,存在指数爆炸的危险。 人工神经网络可以有效的对付空值,但人工神经网络在这方面的研究还有待进一步深入展开。不处理贝叶斯网络人工神经网络logo17part 3数据缺失的处理方法 数据填补通常是一件非常繁琐的工作, 很多
11、常用的统计软件以及专门为其编写的软件都可以完成。从中可以看出,各种软件的着重点不同, 使用效果也不尽相同, 在使用时要根据个人实际需要加以选择。常用的数据缺失填补软件logo18transition page过渡页引言数据缺失的处理方法总结数据缺失简介处理方法的选择与评价logo19part 4处理方法的选择与评价处理方法的选择logo20part 4处理方法的选择与评价处理方法的评价logo21part 4处理方法的选择与评价logo22part 4处理方法的选择与评价处理方法的评价logo23transition page过渡页引言数据缺失的处理方法处理方法的选择与评价数据缺失简介总结logo24总结part 5这段时间,阅读了相关的文献资料,对数据缺失的概念、缺失原因、缺失机制、缺失模式以及一些基本填补方法有了大致的理解,并初步了解了数据缺失处理方法的研究现状。对于数据缺失国内外学者已经做了广泛的研究,但没有哪一种处理缺失数据的方法是普遍适用的,每种方法都存在不如人意之处 。目前各种新兴的方法层出不穷, 如人工神经网络, 机器智能模型等。所以针对各种实际问
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年顾客满意度测量试题及答案
- 小自考视觉传播设计必考试题及答案
- 市场营销战略规划相关题目试试及答案
- 江苏省南京市上元中学九年级化学下册 10.2 酸和碱之间会发生什么反应教学设计 新人教版
- 诗歌形式的多样性与审美价值试题及答案
- 美综胆量测试题及答案
- 全国滇人版初中信息技术七年级下册第二单元第8课《音频的获取与加工》教学设计
- 高一立体几何试题及答案
- 2024-2025学年高中化学 4.3 硫的氧化物教学设计
- 10 我们爱和平 教学设计-2024-2025学年道德与法治六年级下册统编版
- 排水管道检测
- 五、董仲舒思想
- 颅高压幻灯片
- 六年级数学试卷讲评课教学设计(共16篇)
- 钢沉井制造及安装专项施工方案电子
- 虞大明教学实录——《刷子李》
- 第二代身份证号码验证器
- 市场调查与预测复习资料
- 施工组织设计双代号时标网络图
- 财政部金融企业不良资产批量转让管理办法(财金[2012]6号)
- 办公建筑设计规范2019
评论
0/150
提交评论