




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据清理技术 冯国双中国疾控中心卫生统计室 数据清洗 从数据收集结束 到统计分析之前 需要对数据做的清理工作 数据清洗 数据双录入对比数据合并查找重复值查找缺失值查找异常值 双录入对比 Excel用到的函数 If函数If 判断条件 条件满足返回值 条件不满足返回值 exact函数 比较两个文本是否相同exact 比较文本1 比较文本2 offset函数 返回给定偏移量的新区域offset 参照区域 行 列 双录入对比 small 数据区域 第几小 计算单元格范围的第几小的数值Column 返回单元格所在号Row 返回单元格所在行号 双录入对比 SAS命令 proccompare by变量1变量2 run 双录入对比 proccompare语句调用数据比较过程 选项base和compare分别指定两个比较和被比较的数据集 nosummary的作用是不显示一些概括性的结果 by语句指定的变量有点类似于索引的作用 通常指定id号 如果两个数据集的观测数不同 利用by语句可以保证它们比较的仍然是同一个id号 而不会出现错位比较的情况 双录入对比 dataa1 inputidggenderagemarriageheightweightnation cards 数据 dataa2 inputidggenderagemarriageheightweightnation cards 数据 proccomparebase a1compare a2nosummary run 双录入对比 双录入对比 查找缺失值 Excel函数 If函数If 判断条件 条件满足返回值 条件不满足返回值 exact函数 比较两个文本是否相同exact 比较文本1 比较文本2 offset函数 返回给定偏移量的新区域offset 参照区域 行 列 查找缺失值 small 数据区域 第几小 计算单元格范围的第几小的数值Column 返回单元格所在号Row 返回单元格所在行号 查找缺失值 SAS可用missing函数实现如果结合数组和自动变量 可以一次性实现所有变量缺失值的输出 查找缺失值 dataa1 inputidggenderagemarriageheightweightnation miss g missing g miss gender missing gender miss age missing age miss marriage missing marriage miss height missing height miss weight missing weight miss nation missing nation cards 数据 procprint run 查找缺失值 部分结果 查找缺失值 利用数组和自动变量datamissing seta arraycha character doi 1todim cha ifmissing cha i thenoutput end arraynum numeric doi 1todim num ifmissing num i thenoutput end dropi procprint run 查找缺失值 缺失值结果 查找重复值 Excel函数 countif 计数区域 条件 根据指定条件 在计数区域内计数 查找重复值 SAS命令 procsort by变量1变量2 run 查找重复值 procsort语句调用排序过程 选项out 数据集指定排序后的数据集名 因为排序后数据发生了变化 因此可指定该选项将排序后的数据存放到一个新的数据集中 如果不加该选项 排序后的数据集将覆盖原有数据集 这样你就找不回原有的未排序的数据了 选项nodupkey表示如果by语句指定的排序变量有重复值 则删除重复值 如按id排序 如果id有重复值 则只保留重复值中的第一个值 删除其它值 选项nouniquekey的作用跟nodupkey正好相反 如果by语句指定的排序变量都是唯一值 则将其删除 如按id排序 如果id没有有重复值 则全部删除 查找重复值 by语句指定排序的变量 可以指定多个 选项descending表示按降序排序 如果不加该选项 默认的是按升序排序 当需要查找重复值时 by语句指定的变量就是需要查找的重复值变量 查找重复值 dataa1 inputidggenderagemarriageheightweightnation cards 数据 procsortnouniquekeyout bb bygenderagemarriageheightweight run procprintdata bb run 查找重复值 5个变量均重复的观测 查找异常值 Excel函数 If函数If 判断条件 条件满足返回值 条件不满足返回值 结合各种算术运算符 比较运算符 逻辑运算符等 查找异常值 常见运算符 查找异常值 SAS可用if语句或where语句结合各种运算符来查找异常值 查找异常值 SAS中的常见运算符 查找异常值 dataa1 inputidggenderagemarriageheightweightnation cards 数据 datab1 seta1 if gendernotin 1 2 age 60 height 200 weight 100 marriagenotin 1 0 nationnotin 1 2 procprint run 查找异常值 查找异常值 datab2 seta1 if gendernotin 1 2 age and age 60 height and height 200 weight and weight 100 marriagenotin 1 0 nationnotin 1 2 procprint run 查找异常值 查找异常值 datagender where gendernotin 1 2 age where notmissing age and age 50 marriage where marriagenotin 1 0 height where notmissing height and height 200 weight where notmissing weight and weight 100 nation where nationnotin 1 2 seta1 run 查找异常值 procprintdata gender varidgender procprintdata age varidage procprintdata marriage varidmarriage procprintdata height varidheight procprintdata weight varidweight procprin
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子真空器件在汽车电子中的应用考核试卷
- 拍卖行业公共服务效能提升考核试卷
- 玻璃制品超声波焊接机考核试卷
- 洗衣机械的工业互联网应用考核试卷
- 石膏在印刷工业中的应用考核试卷
- 手持设备按键故障修复考核试卷
- 水产罐头产品创新设计与消费者需求考核试卷
- 《三袋麦子》课件-2
- 动物产科学模拟习题含参考答案
- 数字化转型升级背景下潍坊市制造业高质量发展模式研究
- 2024年全国中学生生物学联赛试题含答案
- GLB-2防孤岛保护装置试验报告
- 高压液氧泵原理、结构及检修、结构及检修
- 《长方体正方体》课前小研究
- MIL-STD-105E抽样计划表
- 标准件新旧标准德标国际标准对照表
- 一课一练21:关联速度模型(答案含解析)—2021届高中物理一轮基础复习检测
- 高中化学选择性必修3教材解读(鲁科版2021)
- 学习通《商业计划书的优化》章节测试附答案
- “三会一课”记录表(样表).doc
- 高中师徒结对物理新教师总结
评论
0/150
提交评论