什么是数据质量管理-目标是-常见工具有哪些-_第1页
什么是数据质量管理-目标是-常见工具有哪些-_第2页
什么是数据质量管理-目标是-常见工具有哪些-_第3页
什么是数据质量管理-目标是-常见工具有哪些-_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

什么是数据质量管理_目标是_常见工具有哪些_1.数据质量管理数据质量管理是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。2.数据质量管理的目标数据质量管理的目标是“通过加强数据质量管理,保障企业数据中心数据的准确性、完整性,推进数据资源分析利用,使企业积累的数据成为重要的资源,为企业宏观管理和决策提供有效支持”。3.数据质量管理工具(1)GreatExpectations作为一个开源库,Great

Expectations可用于验证、记录和分析数据。用户以期望(expectations)的形式定义断言(assertions)。顾名思义,期望是您期望从数据中获得的质量;断言则是用声明性语言编写的。Great

Expectations的另一个功能是自动化数据分析。它可以根据统计数据,自动从数据中生成期望。由于数据质量工程师不必从头开始编写断言,因此大幅节省了开发的时间。目前,GreatExpectations兼容大部分数据源,其中包括CSV文件、SQL数据库、SparkDataFrames和Pandas等。(2)SpectaclesSpectacles是一种持续集成(CI)类工具,旨在验证项目中LookML。此处的LookML是Looker类型的数据建模语言。而Looker是一个BI(业务智能)平台,它允许那些不懂SQL的人员去分析和可视化数据。Spectacles通过在后台运行SQL查询,并检查错误,来验证LookML。它能够与GitHub、GitLab和Azure

DevOps相集成。该工具适用手动调用、从拉取请求中触发,以及作为ETL作业的一部分运行等,几乎任何类型的部署模式。(3)Datafold作为一个主动式的数据质量平台,Datafold由数据差异(DataDiff)、具有列级沿袭(lineage)的数据目录(Data

Catalog)、以及数据监控(DataMonitoring),三个主要组件所构成。Data

Diff允许您在合并到生产环境之前,对两个数据集(例如dev和prod)进行比较。这有助于用户采用更为主动的开发策略。它也可以被集成到团队的CI/CD管道中,以便共享GitHub或GitLab中的代码更改,并显示出具体的差异。(4)DbtDbt是一个数据转换类工作流工具。它在部署之前,能够针对目标数据库执行数据转换的代码,显示代码将如何影响数据,并突出显示各种潜在的问题。也就是说,Dbt通过运行SELECT语句,以基于转换的逻辑,去构建数据的结束状态。(5)Evidently作为一个开源的Python库,Evidently用于分析和监控机器学习的模型。它能够基于Panda

DataFrames和CSV文件生成交互式的报告,可用于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论