![数据治理那些事_第1页](http://file4.renrendoc.com/view/05b18633c5b6433241feee9380bc83f3/05b18633c5b6433241feee9380bc83f31.gif)
![数据治理那些事_第2页](http://file4.renrendoc.com/view/05b18633c5b6433241feee9380bc83f3/05b18633c5b6433241feee9380bc83f32.gif)
![数据治理那些事_第3页](http://file4.renrendoc.com/view/05b18633c5b6433241feee9380bc83f3/05b18633c5b6433241feee9380bc83f33.gif)
![数据治理那些事_第4页](http://file4.renrendoc.com/view/05b18633c5b6433241feee9380bc83f3/05b18633c5b6433241feee9380bc83f34.gif)
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据治理那些事(9)-—数据质量6上节主要讲了HADOOP平台的数据质量管理平台的规则配置,本节继续讲数据质量检管理平台的工作流程.数据质量评估信息数据质量评估信息是数据质量管理平台不定期数据质量评估活动中所涉及的明细业务数据信息、编码信息、评估元数据信息及评估指标选择信息等。参见错误!未找到引用源。节。数据质量问题处理信息数据质量问题处理信息是数据质量告警被确认后转入问题处理流程的相关处理信息及数据质量评估发现的问题信息。数据质量存储方式数据质量存储库使用关系数据库或文件存储数据质量规则、数据质量信息和数据质量知识;对于问题总结过程和数据质量评估过程中输出的文档可以以Text、PDF、Excel或Word等文件格式存储。数据质量功能层按照数据质量管理流程,即质量定义、度量、分析和改进,质量管理子系统主要功能包括:开数据质量满意度反馈、Hadoop结构化数据稽核、新数据源质量稽核、规则配置管理、数据质量监控、数据质量问题处理、数据质量评估、数据质量报告和数据质量对外服务等。基础功能规则配置管理规则管理功能结构如错误!未找到引用源。所示:规则配置管理建查点1枪迁点n节瞽祝则规阊设寿规则配置管理建查点1枪迁点n节瞽祝则规阊设寿规削堆护规则tit化〔时间触澄•、事件仙而质坦成1顽斗规则定义数据质量规则是以被操作对象为中心,展开的一系列质量管理活动的判断准则。一个规则通常包括规则ID、规则名称、规则算法、规则阈值和被监控对象等要素。数据质量规则可分为采集规则、监控规则、告警规则和审计规则四类。采集规则是获取被监控对象的具体数值的方法,包括采集代理规则和采集程序规则;监控规则是对采集到的监控对象数据进行质量校验的校验规则;告警规则是监控规则执行后,出现违反规则允许范围的异常时,发送告警信息的方式方法,包括告警方式规则和告警订阅规则;审计规则是进行两级联动对象数据质量审计的算法依据,包括及时性审计规则和准确性审计规则。下面根据规范实施重点,详述监控规则的规则结构,并简述采集、告警和审计等其他规则的内容。规则设置数据质量管理平台需要对大量的监控点进行质量监控。规则动态设置,即是在规则统一结构和存储的基础上,根据监控对象的类型、属性及历史数据,动态提供与其相应的监控规则、初始阈值及数据维度信息等,实现规则的类型及阈值等与被监控对象快速匹配,支持对新增监控点的动态配置和快速部署。主要包括以下几点:规则类型支持根据监控对象类型做匹配,如对接口文件提供及时性检查规则、对关键指标提供波动检查规则。规则阈值支持参照历史数据波动情况或同类型监控对象的规则阈值做匹配。支持根据相同监控对象的不同维度(如客户到达数的城市、品牌等维度)进行规则配置。规则运行配置:规则配置完成后,支持立即运行规则或重跑。支持一个指标多个规则配置,能够一个指标监控使用多个监控规则。如快报应用,同一指标在10点钟与同期对比波动范围为±30%,在20点钟与同期对比波动范围为±20%。规则维护规则维护即是规则建立后对规则各种属性的日常管理,包括规则的界面维护即后台维护两部分。规则的界面维护即是对规则相关的规则类型、规则算法、规则阈值及数据维度等进行管理,包括如下几部分:规则修改:修改规则的相关属性信息。规则删除:删除一条规则。规则查询:提供按照规则的ID、名称、属性等精确匹配及模糊查询。后台维护规则的后台维护包括对当前规则、规则变更和历史规则信的存储维护等,分别说明如下:当前规则信息:记录所有当前可有效使用的最新规则信息,由规则的基本结构信息,包括规则定义、规则类型、规则对象以及规则阈值等组成;规则变更信息:记录规则发生修改时的变更信息,包括变更编码(每次变更的唯一识别码)、规则编码、变更类型(阈值、对象维度等)、变更值(变更后的值)以及变更人和变更时间等;历史规则信息:记录一次规则变更发生前的规则信息。规则调度数据质量规则调度是面向规则对象的检查任务,按照时间触发和事件请求方式触发规则调用,具体说明如下。时间触发方式定时触发即根据设定的时间:年、月、日、小时、分钟及秒等进行规则调度;循环触发即指定时间段进行规则的循环调度;间隔触发即指定两个规则调度的间隔时间;事件请求方式前置依赖调度即某规则是否执行调度需要判断它的前置条件是否满足。女0错误!未找到引用源。所示,根据元数据血统图建立了指标1和指标2的相关监控点。前置依赖即链路上每个监控点是否进行规则调度,都要依赖于前一个监控点执行的结果,如果前一个监控点出现告警,则该监控点即无需调度。如接口1的及时性检查出现告警(即接口1未按时到达),则ETL1和ETL1之后的节点则无需调度。实现该调度方式可以减少大量的关联告警产生。女[错误!未找到引用源。所示。后置触发调度后置触发调度即某规则执行之后,根据其执行的结果,来决定另一个节点是否执行。该调度方式可支持在出现质量问题时,进行进一步的质量探查分析。本节讲的数据质量管理平台的数据规则的功能和配置,通过数据检核规则的配置和调度进行数据检核的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 沪科版数学九年级上册《平行线分线段成比例》听评课记录1
- 苏科版版数学七年级上册听评课记录《3-5 去括号》
- 2022年新课标八年级上册历史第四单元新民主主义革命的开始12-14课共3课时听课评课记录
- 一年级拼音听评课记录
- 湘教版数学八年级上册5.2《二次根式的除法》听评课记录1
- 苏科版数学七年级下册7.5.1《多边形的内角和与外角和》听评课记录
- 商铺租赁长期出租合同范本
- 农业开发战略合作协议书范本
- 2025年度焊接清包工劳务创新合作协议
- 郊区中等装修住宅长期出租协议书范本
- 自卸车司机实操培训考核表
- 教师个人基本信息登记表
- 中考现代文阅读理解题精选及答案共20篇
- ESD测试作业指导书-防静电手环
- 高频变压器的制作流程
- 春季开学安全第一课PPT、中小学开学第一课教育培训主题班会PPT模板
- JJG30-2012通用卡尺检定规程
- 部编版人教版二年级上册语文教材分析
- 艾宾浩斯遗忘曲线复习方法表格模板100天
- APR版制作流程
- 《C++程序设计》完整教案
评论
0/150
提交评论