




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据清洗与可视化数据质量01数据清洗02数据清洗流程03错误、异常数据04数据可视化05单击此处添加文本具体内容06目录CONTENTSDataQuality数据质量问题代价高昂且普遍存在1.DQ问题每年花费数千亿美元。收入、信誉、客户损失2.解决数据质量问题通常是数据挖掘研究中最大的工作。数据挖掘项目中50%-80%的时间花在DQ上3.有助于简化业务运营数据库以提高运营效率(例如周期时间),降低成本,符合法律要求根据高德纳集团的数据,糟糕的数据质量平均每年会给一家公司浪费820万美元的资源,以及运营效率低下、错过销售和未实现的新机会而造成的费用。此外,弗雷斯特的一项研究显示,只有12%的公司实际上使用数据驱动的智能来指导关键的业务功能和企业战略。这意味着88%的人正在忍受脏数据造成的浪费、低效率和机会丢失。数据不是静态的,在数据收集和使用过程中流动数据收集数据交付数据存储数据集成数据检索数据挖掘、分析在所有这些阶段都可能会出现问题需要端到端的持续监控有效性Validity准确性
Accuracy完整性Completeness一致性Consistency均匀性Uniformity取决于数据收集、存储高维、描述性、纵向、流媒体、Web(抓取)、数字、文本数据取决于应用(分发、集成、分析)业务运营,综合分析,预测客户关系。数据解释了解用于生成数据的所有规则数据适用性代理的使用缺少相关连数据IncreasedDQIncreasedreliabilityandusability(directionallycorrect)Validity数据符合已定义的业务规则或约束的程度。数据类型约束:特定列中的值必须是特定的数据类型的,例如,布尔值、数字、日期等。范围限制:通常,数字或日期应该在一定的范围内。强制约束:某些列不能为空。唯一约束:一个字段或一个字段的组合在一个数据集上必须是唯一的。设置-成员关系约束:一个列的值来自于一组离散的值。例如,一个人的性别可以是男性,也可以是女性。跨字段验证:跨多个字段的某些条件必须成立。例如,病人的出院日期不能早于入院日期。Accuracy数据接近真实值的程度。定义所有可能的有效值允许很容易地出现无效值,但这并不意味着是准确的。一个有效的街道地址可能实际上并不存在。一个有效的人的眼睛颜色,比如蓝色,可能是有效的,但不是真的(不代表现实)。准确和精确precision的区别。说你生活在地球上,其实是准确的。但是,不精确。地球上哪里?说你住在某个特定的街道地址会更精确。Completeness所有所需数据的已知程度。由于各种原因,会导致数据丢失。人们可以通过询问原始的数据来源来解决这个问题,比如重新检索。很有可能,要么给出不同的答案,要么很难再次找到。Consistency数据在同一数据集中或跨多个数据集中的一致性的程度。当数据集中的两个值相互矛盾时,就会发生不一致。一个有效的年龄,比如10岁,可能与婚姻状况不匹配。客户记录在两个不同地址的两个不同表中。哪一个是真的?。均匀性Uniformity使用相同的测量单位的比例。重量可以以磅或公斤为单位来记录下来。日期可能遵循美国格式或欧洲格式。货币有时以$表示,有时以¥表示。因此,数据必须被转换为一个单一的测量单位。数据清洗大多数统计理论侧重于数据建模、预测和统计推断,而通常假定数据处于数据分析的正确状态。在实践中,数据分析师在做任何统计操作之前,会花大部分时间来准备数据。很少看到原始数据是正确的格式的,没有错误,完整的,并有分析所需的所有正确的标签和代码。数据清洗是将原始数据转换为可以进行分析的一致数据的过程。其目的是改进基于数据的统计报表的内容及其可靠性。不正确或不一致的数据会导致错误的结论。因此,如何清理和理解数据会对分析结果的质量有很大的影响。事实上,仅仅因为得到了足够的高质量数据,一个简单的方法可以超过一个复杂的方法。高质量的数据胜过了花哨的模型/算法。数据清洗(datacleaning)是从记录集、数据库表或数据库中检测和纠正(或删除)损坏或不准确的记录的过程,是指识别数据的不完整、不正确、不准确或不相关部分,然后替换、修改、或删除脏数据或粗数据datacleaning清洗后,一个数据集应该与系统中其他类似的数据集保持一致。数据清洗不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。数据清洗流程工作流程序列由三个步骤组成,旨在生成高质量的数据。检查:检测到意外、不正确和不一致的数据。清理:修复或删除所发现的异常。验证:清洗后,检查结果,验证其正确性。记录关于所做的更改和当前存储的数据的质量的报告。Inspection检查检查数据是很耗时的,并且需要使用许多方法来探索底层数据以进行错误检测。Dataprofiling关于数据的汇总统计数据,称为Dataprofiling,给出关于数据质量的一般划分。例如,检查一个特定的列是否符合特定的标准或模式。数据列是否记录为字符串或数字?缺少了多少个值?。一列中有多少个唯一值及其分布情况?此数据集是否与另一个数据集有链接或有关系?可视化通过使用诸如平均值、标准差、范围或分位数等统计方法来分析和可视化数据,可以发现那些意想不到的错误的值。利用约束关系检查数据是否违反约束。此外,可以生成关于哪些规则被违反以及违反了多少次的报告,还可以创建一个关于哪些列与哪些规则相关联的图表。例如,年龄不能是负的,身高也不能是负的。其他规则可能涉及同一行中的多个列,或跨数据集。Cleaning数据清理涉及到基于问题和数据类型的不同技术。可以应用不同的方法,每种方法都有处理机制。总的来说,不正确的数据要么被删除、纠正,要么被说明错误原因。Irrelevantdata不相关的数据是指那些实际上并不需要的数据,并且不符合所试图解决的问题的背景。例如,如果分析关于人口总体健康状况的数据,电话号码就不是必要的。同样地,如果你只对一个特定的国家感兴趣,你也不希望包括所有其他国家。或者,只研究那些做过手术的病人,我们不包括每个人。只有当确定某条数据不重要时,才可以放弃它。否则,需要探讨特征变量之间的相关性。永远不知道,一个看起来无关的特性是否绝对无关。Duplicates数据集中重复的数据点。当组合来自不同来源的数据时,通常会发生这种情况。用户可能会两次点击提交按钮,认为表单并没有实际提交。我们两次提交了在线预订请求,纠正了第一次意外输入的错误信息。一个常见的症状是,当两个用户具有相同的标识号时。或者,同一篇文章被废弃了两次。因此,应该被移除。Typeconversion确保将数字存储为数字数据类型。日期应该存储为日期对象,或Unix时间戳(秒数),等等。如果需要,分类值可以转换成数字。可以浏览摘要中每个列的数据类型来快速发现。需要注意的是,无法转换为指定类型的值应转换为NA值(或任何值),并显示警告。这表明该值不正确,必须被标注。Syntaxerrors删除空格:应删除字符串的开头或结尾的额外空格。“helloworld“=>”helloworld”填充字符串:字符串可以用空格或其他字符填充到一定的宽度。例如,一些数字代码通常用前置0表示,以确保它们总是具有相同的数字。313=>000313(6位数字)Syntaxerrors修复拼写错误:字符串可以以多种不同的方式输入,也会有错误。性别:m/男/fem./女性/女这个分类变量被认为有5个不同的类别,而不是预期的2个类别:男性和女性,因为每个值都是不同的。条形图对于可视化所有唯一的值很有用。可以注意到一些值是不同的,但确实是相同的,即“信息技术”和“IT”,即“其他”和“其它”。因此,我们的职责是从上述数据中识别出每个值是男性还是女性。我们怎么才能这样做呢?。1.手动将每个值映射到“male”or“female”.dataframe['gender'].map({'m':'male',fem.':'female',...})2.使用模式匹配。例如,可以在字符串的开头查找性别中m或M的出现情况。re.sub(r"\^m\$",'Male','male',flags=re.IGNORECASE)2.使用模糊匹配:识别预期字符串(s)和每个给定字符串之间的距离。请注意像0、NA、None、Null或INF这样的值,可能具有相同的含义:该值缺失。Standardize不仅要识别拼写错误,而且要把格式标准化。对于字符串,请确保所有的值都是小写的或大写的。对于数值,请确保所有值都有一定的测量单位。例如,高度可以以米和厘米为单位。1米的差与1厘米的差相同。所以,这里的任务是将高度转换为一个单位。对于日期,美国版本和欧洲版本不一样。将日期记录为时间戳(毫秒数)与将日期记录为日期对象不同。Scaling/Transformation缩放意味着转换数据,使其适合一个特定的规模,例如0-100或0-1。例如,考试分数可以被重新缩放为百分比(0-100),而不是GPA(0-5)。还可以使某些类型的数据更容易绘制。例如,减少
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽车油漆采购合同范本
- 拿货购销合同范本
- 电梯标准施工合同范本
- 设备采购合同范本8篇
- 2025年防眩光太阳镜合作协议书
- 设计服务适用协议书(2篇)
- 个税赡养老人专项附加扣除分摊协议-综合因素分摊
- 物流行业合同审批流程执行
- 中间服务费协议书
- 2025年度运输车司机雇佣与车辆维修服务合同
- 《国际金融》课件国际金融导论
- 各种el34名胆电子管评测
- 超分子化学-杯芳烃课件
- 车标识别 课讲义件课件
- 一年级下学期安全教育教案
- 哈萨克斯坦共和国劳动法解读
- 送达地址确认书(样本)
- 甘肃省酒泉市各县区乡镇行政村村庄村名明细
- 压力容器考试审核考试题库(容标委-气体协会联合)
- 学校食堂操作流程图
- DB13 2795-2018 大清河流域水污染物排放标准
评论
0/150
提交评论