




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据清理 原悦2018 9 数据清理 顾名思义就是把数据中 脏 的部分清洗掉 其中不符合要求的主要包括不完整的数据 错误的数据 重复的数据三大类 我们在清理的时候也是主要的三种类型 包括将缺失的数据补充完整 将错误的数据纠正或者删除 对多余的重复数据筛选清除 重复数据 data identifiedduplicatecases 将变量放入 definematchingcasesby 框中 其他选项如果没有特殊要求 保持默认设置即可 会生成一个重复数据记录标识变量 primarylast 将 primarylast 变量进行排序 排序后将标有重复个案的个案选中 然后选择 清除 即可 奇异值 利用frequencies来发现和检查奇异数据 analyze descriptivestatistics frequencies 通过这个操作不仅可以发现奇异值 而且能够发现缺失值清理系统缺失值 data selectcases ifconditionissatisfied MISSING unselectedcasesare filtered 对奇异值的清理也可以通过这种方式 比如清理掉数值为3的性别变量 使用箱线图 boxplot 探测异常值 箱线图能够显示数据大致的分布及极值的分布情况 它比较直观 形象 易于理解 analyze descriptivestatistics explore plots 在 boxplots 方框中可以选择箱线图的生成方式 factorlevelstogether 表示将要为每个因变量创建一个箱线图 dependenttogether 表示将为每个分组变量水平创建箱线图 none 表示不创建箱线图 无效值和缺失值的处理 估算 estimation 插补法 最简单的办法使用某个变量的样本均值 中位数或众数代替无效值或缺失值 这种办法简单 但是没有充分考虑数据中已有信息 误差的可能性较大 另外一种方式就是根据调查对象对其他问题的答案 通过变量之间的相关分析或逻辑推论进行估计整列删除 casewisedeletion 剔除含有缺失值的样本 由于很多问卷都可能存在缺失值 这种做法的结果可能导致有效样本量大大减少 无法充分利用已经收集到的数据 因此只适合关键变量缺失 或者含有无效值或缺失值的样本比重很小的情况变量删除 variabledeletion 如果某一变量的无效值和缺失值很多 但是该变量对所研究的问题不是特别重要 则可以考虑直接将该变量删除成对删除 pairwisedeletion 保留了数据集中全部的变量和样本 但是在具体计算时只采用完整答案的样本 因而不同的分析涉及的变量可能不同 其有效样本量也会有所不同 这是一种保守的处理方法 最大限度地保留了数据集中的可用信息 插补法 均值替换法 meanimputation 我们要将变量的属性分为数值型和非数值型来分别进行处理 如果缺失值是数值型的 就根据该变量在其他所有对象中取值的平均值来填充该缺失的变量值 如果缺失值是非数值型的 就根据统计学中的众数原理 用该变量在其他所有对象中取值次数最多的值来补齐该缺失的变量值 这是一种简便 快速的处理数据方法 使用均值替换法插补数据后 对该变量的均值估计不会产生影响 但这种方法会造成变量的方差和标准差变小 热卡填充法 hotdecking 对于包含缺失值的变量 热卡填充法是在数据库中找到一个和它最相似的对象 然后用这个相似对象的值来进行填充 最常见的是使用相关系数矩阵来确定一个和缺失值所在变量 变量X 最相关的变量 变量Y 然后把所有个案按Y的取值大小进行排序 然后将所有个案按照Y的取值大小进行排序 那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了 与均值替换法相比 利用热卡填充法插补数据后 其变量的标准差与插补前较接近 但在回归方程中 使用热卡填充法容易使得回归方程的误差增大 参数估计变得不稳定 而且这种方法使用不便 比较耗时 回归替换法 regressionimputation 回归替换法首先需要选择若干个预测缺失值的变量 然后建立回归方程估计缺失值 即用缺失数据的条件期望对缺失值进行替换 与前述几种插补方法比较 该方法利用了数据库中尽量多的信息 但是也存在一些问题 第一 这虽然是一个无偏估计 但是却容易忽视随机误差 低估标准差和其他未知性质的测量值 而且这一问题会随着缺失信息的增多而变得更加严重 第二 研究者在进行回归替换法之前必须假设缺失值所在变量与其他变量之间存在线性关系 条件较为苛刻 多重替代法 multipleimputation 多重估算是由Rubin等人于1987年建立起来的一种数据扩充和统计分析方法 是简单估算的改进方式 首先使用多重估算技术用一系列可能的值来替换每一个缺失值 反映了被替换的缺失数据的不确定性 然后用标准的统计分析过程对多次替换后产生的若干个数据集进行分析 最后把来自于各个数据集的统计结果进行综合 得到总体参数的估计值 由于多重估算技术并不是用单一的值来替换缺失值 而是试图产生缺失值的一个随机样本 这种方法反映出了由于数据缺失而导致的不确定性 能够产生更加有效的统计推断 结合这种方法 研究者可以比
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 扎兰屯职业学院《医学超声技术》2023-2024学年第二学期期末试卷
- 西安思源学院《商业演出策划与实践》2023-2024学年第二学期期末试卷
- 山东省济南市天桥区重点中学2025年初三第五次模拟考试数学试题试卷含解析
- 宁夏吴忠市盐池一中学2025年初三下-第一次调研考试化学试题试卷含解析
- 浙江省宁波万里国际学校2025年初三数学试题下学期第二次模拟考试试题含解析
- 沙洲职业工学院《通信工程专业导论》2023-2024学年第二学期期末试卷
- 江苏省江都区六校2025届初三入学调研物理试题(1)试卷含解析
- 江西司法警官职业学院《生物信息处理》2023-2024学年第二学期期末试卷
- 宁波市海曙区2025届初三1月调研(期末)测试物理试题含解析
- 吉林司法警官职业学院《工程流体力学》2023-2024学年第二学期期末试卷
- 危大工程巡视检查记录
- (房屋建筑部分)工程建设标准强制性条文2023年版
- 空气自动监测站运维技术服务合同模版
- 苏教版科学一年级下册第10课形形色色的动物课件25张
- (完整)康复医学考试题(含答案)
- 延期还款申请表
- 江苏省地图矢量PPT模板(可编辑)
- DB44∕T 1702.2-2015 屋面并网光伏发电系统 第2部分:施工与验收规范
- 高等教育心理学专业知识考试题库与答案
- 植物生理学 水分代谢
- 北京市育英学校章程
评论
0/150
提交评论