错误值清洗格式错误_第1页
错误值清洗格式错误_第2页
错误值清洗格式错误_第3页
错误值清洗格式错误_第4页
错误值清洗格式错误_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据采集与处理错误值清洗—格式错误数据采集与处理课程教学团队格式错误格式类型不一致12多余的字符2格式错误清洗

错误符号错误原因#DIV/0!除数为0#N/A函数或公式中没有可用的数值#NAME?在公式中使用了不能识别的文本#NULL!使用了不正确的区域运算符或引用的单元格区域的交集为空#NUM!公式或函数中某些数字有问题#REF!单元格引用无效#VALUE!在公式中使用了错误的数据类型格式错误常见格式错误格式错误清洗

格式类型不一致数据类型不一致:数据的存储类型不符合实际情况,如日期类型的以数值型存储,时间戳存为字符串等。数据编码不一致:数据存储的编码不一致,例如将UTF-8写成UTF-80。数据格式不一致:数据的存储格式问题,如半角全角字符、中英文字符等。数据异常不一致:如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期越界、数据前后有不可见字符等。数据依赖冲突:某些数据字段间存储依赖关系,例如城市与邮政编码应该满足对应关系,但可能存在二者不匹配的问题。数据多值不一致:大多数情况下,每个字段存储的是单个值,但也存在一个字段存储多个值的情况,其中有些可能是不符合实际业务规则的。格式错误清洗名称:对于同一个数据对象的名称首先应该是一致的。例如对于访问深度这个字段,可能的名称包括访问深度、人均页面浏览量、每访问PV数。类型:同一个数据对象的数据类型必须统一,且表示方法一致。例如普通日期的类型和时间戳的类型需要区分。单位:对于数值型字段,单位需要统一。例如万、十万、百万等单位度量。格式:在同一类型下,不同的表示格式也会产生差异。例如日期中的长日期、短日期、英文、中文、年月日制式和缩写等格式均不一样。长度:同一字段长度必须一致。小数位数:小数位数对于数值型字段尤为重要,尤其当数据量累积较大时会因为位数的不同而产生巨大偏差。计数方法:对于数值型等的千分位、科学计数法等的计数方法的统一。缩写规则:对于常用字段的缩写,例如单位、姓名、日期、月份等的统一。例如将周一表示为Monday还是Mon还是M。值域:对于离散型和连续型的变量都应该根据业务规则进行统一的值域约束。约束:是否允许控制、唯一性、外键约束、主键等的统一。统一数据规格格式错误清洗

多余的字符删除空格“Ctrl+H”替换空格为空格式错误清洗删除空行方法1:开始—查询和选择—定位条件选择“空值”表格中所有的空行是不是已经被全部选中了,呈蓝色显示,然后选择所在行删除即可。格式错误清洗第1步:接下来,按下“Ctrl+A”键,选择整个工作表。依次点击菜单栏的“数据/筛选/自动筛选”命令。第2步:这时,在每一列的顶部,都会出现一个下拉列表框,任选一列,点击其下拉列表框,从中选择“空白”。如果页面内还有数据行,那么,再另选一列,从其下拉列表框中选择“空白”,直到页面内已看不到数据为止(如图2)。第3步:好了,此时页面中剩下的就全部是空白行了,全选后单击“编辑”菜单,选择“删除行”命令就可以了。第4步:这时所有的空行都已被删去,再单击“数据/筛选/自动筛选”命令,工作表中的数据就全恢复了,最后将左侧插入的一列删除即可。方法2:筛选法格式错误清洗方法3:开始—数据—从表格删除行—>删除空行格式错误清洗一、从最左边起取字符

=left(源数据格,提取的字符数)

=left(A3,2)表述为:从单元格A3的最左边起,提取2个字符。二、从最右边起取字符

=right(源数据格,提取的字符数)

=right(A3,2)表述为:从A3单元格最右边起,提取2个字符。三、从数据中间提取几个字符

=mid(A3,5,2)表述为:提取单元格A3中第五位起后面两位。

=mid(sheet1!A3,5,2)表述为:提取sheet1表的单元格A3中第五位起后面两位。也就是提取第5和第6两个字符。单元格里面去掉或提取某些字符格式错误清洗四、先从左取字符,再从右取字符

=RIGHT(LEFT(A3,5),3)表述为:首先从A3单元格第一个字符从左往右取5个字符,然后再对取出来的5个字符从右向左取3个字符。假如A3中是“abcdefghijkl”,先从左向右取5个变成abcde,然后从右往左取3个,就变成edc了。如果不足10个字符的话,那就是最后一个字符了。五、去掉字符前面的几个字符

=RIGHT(A3,LEN(A3)-2)表述为:从单元格A3字符的右边起,提起所有的字符数,去掉后面两个字符。LEN表示返回字符串中的字符数。例如:字符123456789,变成了3456789六、去掉字符后面的几个字符

=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论