2023学年完整公开课版重复值清洗_第1页
2023学年完整公开课版重复值清洗_第2页
2023学年完整公开课版重复值清洗_第3页
2023学年完整公开课版重复值清洗_第4页
2023学年完整公开课版重复值清洗_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据采集与处理

重复值清洗数据采集与处理课程教学团队识别重复数据删除重复数据(1)函数法(2)高级筛选法(3)条件格式法(4)数据透视法(1)通过菜单删除重复项(2)通过排序删除重复项(3)通过筛选删除重复项(4)通过Powerquery删除重复项识别重复数据(1)函数法函数:=countif(范围,条件)可以看出在列字段为A的范围内,“男”重复4次,“女”重复4次。识别重复数据在countif函数中调节范围即可:=COUNTIF(A$2:A2,A2)----------A$2固定从A列的第二行开始,A2会变动,下拉时会变成A3,A4,A5...;||A$2:Ai:范围从A的第2行到第i行。可以C2:男出现一次,C3:当下,男出现2次,C4:自此,男出现3次。C5:女第一次出现,C6:自此,女出现两次了。识别重复数据该函数的语法规则如下:countif(range,criteria)参数:range要计算其中非空单元格数目的区域参数:criteria以数字、表达式或文本形式定义的条件用法编辑(1)求真空单元格个数:=COUNTIF(数据区,"=")(2)非真空单元格个数:=COUNTIF(数据区,"<>")相当于counta()函数(3)文本型单元格个数:=COUNTIF(数据区,"*")假空单元格也是文本型单元格(4)区域内所有单元格个数:=COUNTIF(数据区,"<>"""),如果数据区内有",该公式不成立.(5)逻辑值为TRUE的单元格数量=COUNTIF(数据区,TRUE)Countif用法识别重复数据(2)高级筛选法开始--排序与筛选--筛选(高级)结果是:为什么会出现两个“男”呢?识别重复数据第一次做高级筛选时,没有表头,此时进行,会将第一个单元格的内容作为表头一起复制过去。识别重复数据(3)条件格式法选择区域--开始--条件格式--重复值选择自己需要的标识方式。选第一种,可以看到,有重复的标红了。识别重复数据(4)数据透视法插入--数据透视表--创建数据透视表:选择用的区域和透视表放置区域---设置透视表:把表头拖到行和列的字段选择在当前的工作表汇总汇总透视表识别重复数据透视表框架出现在框架的最右边,可以设置透视表的行、列字段。将行字段设置为表头对应的内容,不难看出,每行的字段将为:男、女和未知。将列字段设置为表头的内容,列字段对应的是计数项,所以内容应为男、女和未知对应的个数。识别重复数据数据透视表创建成功:可以看出:“男”的重复个数为4,“女”的重复个数为14,“未知”的为1,总个数为19.识别重复数据数据透视表创建成功:可以看出:“男”的重复个数为4,“女”的重复个数为14,“未知”的为1,总个数为19.识别重复数据函数法:根据范围选择不同,可以看到重复的个数,也可以得到这是第几个重复值。高级筛选法:将多余的去除,只留下唯一一个。条件格式法:将有重复项的标记,可以直观看出哪些有重复项。缺点是只能看到该内容是重复的,不能区分不同的内容的重复项。但可以灵活运用,如果重复项过多,将条件设为找唯一项,可以很快找唯一项也不错。数据透视法:将计算重复项这个工作直接做成表格,可以直观看到每个字段的重复个数。总结:删除重复数据数据--数据工具--删除重复项可包括表头,共有20行,表头还是作为表头,内容为19个,结果是删除了16个重复值,留下了唯一值:男、女、和未知。(高级筛选法也可以有这个效果)(1)通过菜单删除重复项删除重复数据排序--删除(2)通过排序删除重复项对第一列,也就是我们想删除重复项的内容排序,将相同内容放在一起,通过countif,标记每个内容是第几个重复值,这几个重复值就是我们所需的第一列排序的效果是,女全在前面,男全在后面,countif的结果排序,效果是女列或者男这列,它们按属于第几个重复值排好序删除重复数据

删除大于1的

;同理删除“女”的大于1的删除重复数据countif排序---排序--筛选--删除重复项(3)通过筛选删除重复项具体如下:通过countif,标记每个内容是第几个重复值,这几个重复值就是我们所需的数据--排序和筛选:排序点击排序,出现下拉格删除重复数据因为靠第三列做筛选,所以点击第三列下拉框,会出现下面选项,把除了1以外的全部去掉留下的就是唯一的了,把灰色筛选那个点一下,就变成不是灰色了,结果就出来了。删除重复数据数据---从表格—Powerquery编辑器(4)通过powerquery删除重复项选择“区域”列,删除重复项删除重复数据通过菜单删除重复项:快

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论