某企业数据智能管理治理平台设计建设技术方案_第1页
某企业数据智能管理治理平台设计建设技术方案_第2页
某企业数据智能管理治理平台设计建设技术方案_第3页
某企业数据智能管理治理平台设计建设技术方案_第4页
某企业数据智能管理治理平台设计建设技术方案_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目编号:某企业数据智能管理治理平台设计建设方案目录1.1 总体建设方案概述 31.1.1 数据治理论述 51.1.2 数据治理流程 71.1.3 基础库治理步骤 81.1.4 治理过程产出 111.2 平台建设总体设计 111.2.1 平台设计理念 121.2.2 平台架构设计 131.2.3 平台技术特点 151.3 数据治理建设方案 161.3.1 数据标准管理 161.3.2 元数据管理 201.3.3 数据质量管理 251.3.4 数据集成管理 301.4 数据管理建设方案 311.4.1 数据资产管理 311.4.2 数据异常管理 441.4.3 数据架构管理 471.4.4 数据开发管理 481.5 数据智能建设方案 541.5.1 数据血缘 541.5.2 智能标签 561.5.3 数据探索 581.5.4 画像分析 59总体建设方案概述数据管理平台涵盖了数据的全局治理和过程管控,是数据可用的前提,只有确保数据的标准化、规范化,可信可用,才能进一步通过数据运营、数据应用帮助大数据中心实现数据资产管理,发现内部数据问题、发掘数据价值,进而实现数据资产的盘活和有效利用。数据管理平台基于元模型驱动模式,构建一体化的数据资产管控,实现全流程、全生命周期和全景式的“三全”治理,确保每一份数据资产皆可靠、可信、可用。通过对数据、应用、系统综合管理,构建标准化、流程化、自动化、一体化的数据管理体系。数据治理将分散、多样化的数据通过汇集、标准化、清洗等操作对数据的质量进行全面的提升和监控,形成城市大数据的管理和控制机制,并提供一站式数据治理体系,持续不断的挖掘和提升数据的应用价值。从功能角度,数据治理系统包括数据标准管理、数据目录管理、数据质量管理、数据集成、工作流、数据地图/数据血缘、数据管理数据安全、多租户、元数据管理、系统安全等功能。制定相关标准规范及管理制度,通过相应平台工具汇聚区内各单位公共数据及市级落地数据资源,形成区级数据池,同时经过数据清洗、转换、融合、治理后高质量的公共数据资源,形成区级综合数据平台。数据治理系统通过对数据全生命周期、端到端的全链路透明化管控,实现“数据模型标准化、数据关系脉络化、数据加工可视化、数据质量度量化”,实现数据资产的统一管理及全业务流程的实时监控,有效解决数据资源不可知、数据质量不可控、数据关系不可联、数据脉络不清晰的痛点问题。数据治理就是将数据转化为资产的手段和方法,采用的数据治理子系统和工具,以分布式存储和运算为基础,通过人工智能和机器学习技术,辅之以适量的人工训练和专家反馈不断优化数据理解和数据关联。数据治理子系统给围绕闵行区大数据资源平台的应用建设目标,包含数据地图、数据质量、智能监控、数据保护伞以及安全卫士,提供全面的数据治理能力,提供数据提取、数据清洗、数据标准化、数据转换、数据关联、数据比对等方面服务。在数据打通过程中,同时做好数据质量管理,主要包括四个方面数据缺失补缺、数据重复去重、数据错误纠正、数据不可用补救。数据治理子系统通过标准API接口、用户自主上传与自主数据抽取技术将用户内部数据直接导入数据池,利用全局数据处理技术在数据池中解决大量数据的集成处理,将数据统一整合、集成,最终形成可以提供高质量数据的数据集成平台,提供规则、无错漏、清洁、有价值、易使用的集成数据环境。数据治理流程图数据治理子系统支持现有的绝大多数数据格式的导入和识别。通过结合人工智能技术,数据治理系统能够将数据自动识别并抽取存入数据湖中,与传统ETL不同的是,数据治理系统的全局数据处理技术在应对多系统、多部门、多环节、多数据、多表单的使用场景时更加科学。全局数据处理能够避免在全局数据汇总前的信息流失,最大程度的在完成数据集成的同时保持数据的高保真、高还原。数据治理论述大数据治理工作从数据汇聚开始,到最终服务业务,主要包括以下几个阶段:第一阶段:数据汇聚,融合管理从政务办公网、感知网、社会协同单位收集各类数据,形成大数据中心的数据基础,并对汇集的原始数据开展基于数据管理视角和业务应用视角的治理及应用工作。基于数据管理视角,对业务元数据、技术元数据进行集中采集和管理,从站位全局服务闵行区大数据创新应用的角度梳理大数据资产,构建数据资源目录和数据资产管理应用,达到数据资源的规范化和可视化;汇聚后的原始数据仍处于零散、不可直接使用的状态,为数据使用者提供一站式的集成开发环境,从而满足数据资源平台下,数据开发者进行ETL开发、数据挖掘算法开发、数据主题库建设等需求;对数据融合处理的全过程通过质量管理工具进行管理监测,保障数据质量;因政府数据的机密性、高敏感性等特点,需对数据资源层中各数据项进行安全上的分类分级,确保数据使用合理、安全可控。基于业务应用视角,对汇聚的基础数据开展模型治理,通过数据清洗加工、基于业务背景及要求的处理加工、以及面向应用专题场景的开发,依次构建整合数据资源层、主题数据资源层、应用数据资源层,形成指标口径一致、统存统用的大数据资源层。第二阶段:基于数据,提炼抽象信息,形成知识因政务大数据涉及的来源广泛、数据采集背景及方法多样甚至特殊、复杂,导致因不同的汇集场景等因素,各个实体对象往往存在多个ID,需要对ID间关系做计算,通过IDMapping,建立ID和实体人/物间的关系,从而串联起实体人/物的属性/行为信息。数据中的各种人/物、事件、活动轨迹也不是孤立存在的,需要对各个部份的数据做动态关系识别、轨迹匹配等操作,形成统一的关系库、轨迹库等。基于业务需求引导和对数据资源信息的价值梳理,对数据进行进一步提炼加工和算法计算,将数据标签化,基于“四大库”构建全息档案等标签库,支撑专题应用库建设,并通过标签中心产品对用户及开发者开放。第三阶段:构建应用,服务业务按照业务场景需求,将基础库、主题库和专题库等进一步组合利用,可构建起各类业务创新应用,如监控大屏、全息画像、预警中心等应用。通过数据服务平台,可以把数据和标签在线服务化提供给开发者和用户。数据治理流程标准录入数据治理平台会包含部分5大库数据标准,行标、部门标准等需由实施人员从客户处采集后录入系统同步数据结构由于数据治理过程需采集数据元并标准化,故需先将生产库需桥接库表的数据结构录入前置库元数据采集将数据结构采集入数据治理平台标准化实施人员为采集来的元数据挂接数据标准,标准化其元数据格式属性、值域等落标及数据桥接部门管理员根据标准化的字段属性,将生产库数据桥接到前置库质检及整改中心管理员对前置库数据进行质量检查及整改数据集成中心管理员将质检后数据集成到治理库逻辑质检中心管理员对治理库的数据根据业务需求进行逻辑层质量检查资源挂载部门管理人员对已完成数据治理的治理库数据进行资源挂载基础库治理步骤针对于基础库的治理主要流程如下:基础库准备基础物理库以及基础库元数据通过产品初始化脚本创建。默认基础库模型中的字段约束,包括字段类型,长度,规则等参考基础库基础目录技术规范,例如人口库:数据集成以人口库为例,将前置库中的部分数据和人口数据元进行关联。以人口基本信息表单(T_RK_BaseInfo)和人口扩展信息(T_RK_Summary)为目标,主要验证:多个表的数据合并:户籍人口和流动人口汇集到人口库基本信息表。默认字段赋值;人口基本信息表中的rowguid、personguid需要uuid赋值。一张表到多张表;户籍人口和流动人口汇集到人口库扩展信息表,并且扩展信息表的personguid需要与基本信息的personguid一致。规则过滤;自动过滤不满足身份证校验的数据;自动过滤不满足代码项的数据,其中不满足部门代码项的、满足部门代码项但是人口库中没有对应的代码项的数据都需要过滤。代码项转换;性别和名族代码项,部门代码项实际值与人口库代码项的值不一致的,通过显示值进行匹配后自动转换成人口库的值。其他来源的字段更新。人口基本信息表的死亡标识状态由民政局的死亡信息目录进行更新。需要满足条件的才会进行更新。溯源分析通过可视化图形,展现人口库和公安、民政等部门的溯源关系。治理过程产出通过数据治理工作后,形成的数据治理成果物。平台建设总体设计本项目建设数据智能管理平台适用于分析型系统数据处理的各个过程,负责数据的加工处理以及加工处理过程数据标准、元数据和数据质量的管理。平台可以提供数据输入、数据加工、数据输出和贯穿数据处理各个过程的全流程、全生命周期的数据处理、数据治理和数据管控的一体化建设。整个平台对数据进行治理、管理与应用的过程分为以下三个核心环节:采集/集成环节提供更多渠道、更复杂数据源的采集,包括业务系统数据ETL,外部文件、第三方接口抽取,实时消息采集等。加工/计算环节提供随时变化的数据加工,包括批量数据加工,实时交互计算,机器学习等。决策/探索环节支持用户个性化需求、自主数据探索,提供固定主题的报表、指标,临时报表需求、自助取数,数据探索、数据实验等功能。平台设计理念本项目建设数据智能管理平台的总体设计理念如下:数据模型标准化通过平台将数据模型的要求严格落地,杜绝不满足标准的数据模型出现在系统中。数据治理产品化数据治理的成果和内容,必须通过切实可行的IT手段落实到系统来严格执行数据处理工厂化数据处理工作,必须实现工厂化的建设和管理,以“极速、低成本、高质量”要求来响应业务部门的个性化数据需求。数据运营全员化体现“平台化、开放性”的思想,提高数据开放的可视化,实现人人参与数据治理、数据建设和数据运维数据安全可控化体现安全的重要性、必要性,保障系统数据安全和数据服务开放过程中数据的安全可控。平台架构设计总体架构设计平台采用工厂化的数据处理和管理模式,通过数据生产计划、数据生产执行和数据生产管理三大子模块,保障数据处理全过程透明可控,实现工具化、流程化和自动化的开发、运维、管理,提升数据开发、生产的效率,保持系统健康、持续、稳定的发展。数据生产计划模块:主要功能为:需求设计、设计确认等。数据处理执行模块:负责数据处理计划的执行、数据的生产和数据质量控制等工作。数据处理管理模块:负责软件开发和数据规范的管控。技术架构设计为实现工厂化的数据处理和管理,本项目数据智能管理平台采用基于元数据驱动的开发模式,保障元数据与实际系统情况的一致性,通过元数据准确描述系统,指导系统建设。技术架构图如下:提供数据对象设计功能提供元数据获取和管理功能提供数据质量管理功能提供对象化接口模块提供与各类底层平台对接功能提供可视化的标准IDE环境提供基于元数据血缘图的调度功能平台技术特点MetadataBeforeCoding业务元数据和技术元数据的强制性前向获取机制,杜绝元数据的后期补录,建设保证业务元数据/技术元数据/技术实现这三者一致性的技术机制BusinessDrivenDesign以最大化业务需求吻合度为目标,所有数据对象的设计和实现,都必须以业务需求为驱动,在最大程度上保证数据对象与业务需求的一致性。ObjectOrientedArchitecture将数据、业务元数据、技术元数据、数据加工、数据质量检查等与数据相关的内容统一作为数据对象管理起来,且该数据对象是系统的最小管理单元。TCUPrinciple数据对象必须遵循TCU(TakeCareofYourself)的设计原则,所有与数据有关的工作全部在对应的数据对象内部完成,确保数据对象之间只有数据加工过程的上下游关系。数据治理建设方案数据标准管理数据标准规范了业务术语,元数据,参考数据,基础数据,指标数据的规范定义、获取原则、管理要求等。包括设计基础类和分析类数据标准,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计为前提,调动业务部门、技术部门和系统技术团队共同参与数据标准设计,建立全局数据标准流程,制定总体落地计划,推动数据标准落地执行,增强内部对数据标准的理解,指导信息化建设中对数据标准的参照。数据标准管理规范数据标准管理体系主要包含数据标准管理、落地实施机制、及数据标准管理平台维护三部分。平台通过对数据标准管理、落地实施机制、及数据标准管理平台维护三部分进行数据资源管理,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计。落地实施机制从规范推广、技术平台支撑两方面保障;数据标准平台维护主要包括建设数据标准技术平台,支撑数据标准日常管理工作两方面。数据标准管理机制设计设计基础类和分析类数据标准,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计为前提,调动业务部门、技术部门和系统技术团队共同参与数据标准设计,建立企业级数据标准流程,制定总体落地计划,推动数据标准落地执行,增强对数据标准的理解,指导信息化建设中对数据标准的参照。数据标准分类规范数据标准是对数据的名称、含义、结构、取值等信息的统一定义,达成对数据的业务理解、技术实现的一致性。基于数据模型理论将数据标准延伸至5个分类,涵盖技术、业务多个视角。业务术语:从一致性、通用性等方面统一业务术语定义。数据项标准:用来描述实体的某种属性,包含数据项的名称、编号、别名、简述、数据项的长度、类型、数据项的取值范围。参考数据标准:识别参考数据,并建立参考数据的统一标准样例,使参考数据可在不同系统中被使用而保持统一标准值。主数据标准:主数据编码是应用系统中的重要数据类型之一,通常用来描述业务操作的具体对象及其特征,注重唯一性,特征一致性,稳定性及有效性。唯一性:在一个系统,一个平台甚至整个范围内同一主数据编码要求具有唯一的识别标志(代码,名称,特征描述等),用以明确区分业务对象,业务范围和业务的具体细节特征一致性:主数据在不同系统中,均按统一标准出现稳定性:主数据相对稳定,本身属性不会随交易过程而被修改有效性:贯穿该业务对象的全生命周期过程,只要该业务对象存在,则此数据不会丧失有效性指标数据标准:需要收集指标的管理信息、业务定义、以及维度定义,需要兼顾通用性和个性化,个性化方面支持各使用部门个性化定制数据标准设计规范以分析型应用建设和操作型应用集成为导向,两套方法结合,建立数据标准设计体系分析型应用建设导向:以分析应用指标范围为依据,重点结合业务战略及管理要求,自上而下追溯数据源,聚焦数据标准范围。操作型应用集成导向:自上而下的原则,基于实际业务流程及操作,重点识别跨业务、跨流程的集成点及关键步骤,分析提炼共享数据,完成业务流程和应用共享的数据映射,删除冗余、非重点数据,精简数据标准建设范围。数据元管理数据元管理主要包括数据元新增、数据元导入、数据元发布、数据元修改、数据元删除、数据元停用、数据元检索等功能。同时支持数据元版本管理及版本之间的差异核对功能以及支持基于基础库、主题库的元数据快速创建标准数据元,并建立和相关元数据的关联关系。标准代码配置标准代码配置支持代码的分类、标准代码项的新增、导入、导出功能,提供了标准代码维护的能力;可关联到国标、地标代码字典,为数据的规范性提供了更加详细的描述,为后续的数据质量、数据标准等工作提供支撑。标准数据元具有唯一的编码(标准代码),按照实际的业务领域进行分类之后,可以形成带有业务领域特征的相关编码,比如“FR00001”代表法人相关的数据元标准代码。常用规则配置数据元的值有部分需要满足固定格式的标准,治理过程中需要通过固定的值组成规则来规范数据源值的格式,例如身份证、电话号码、电子邮箱等格式。包括通用规则及各部门根据自身需求实际制定的规则,常用规则配置会针对公共数据的特性内置部分常用的规则,同时提供了规则的配置修改能力。元数据管理按照数据整合的层次结构、主题域划分,需要实现各层的各种对象,如表、存储过程、索引、数据链、函数和包等的管理。清晰的表示各层次结构之间的数据流程、各对象之间的关系,以及向外提供的各类数据服务的信息。元数据管理目标元数据建设以服务项目管控需要为出发点,立足于项目建设实际,通过合理规划和全面分析,以项目中的关键点和问题点作为优先和重点突破方向,实现元数据的逐步演进和完善。元数据管理内容元数据内容涉及到整个大数据资源平台的各个数据环节,包括数据采集、逐层加工稽核,数据服务到最终应用展现的处理,元数据管理贯穿了整个流程,并与各环节实现有效互动。元数据管理分类按照元数据的定义分类,综合价值分析系统元数据管理分为业务元数据、技术元数据、管理元数据三类。其中:(1)业务元数据使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据来源;系统所提供的分析方法及公式、报表信息;对业务元数据来源的管理和差异性对比;(2)技术元数据系统结构的描述(各个主题的定义,星型模式或雪花型模式的描述定义等);整合数据层的机构单位的数据模型描述(以描述关系表及其关联关系为形式);对数据稽核规则的定义、汇总数据层模型描述与装载描述(包括维度、层次、度量以及相应事实表、概要表的抽取规则);(3)管理元数据系统内部用户的数据处理操作规则,包括抽取、转换、加载、汇总等各类操作的用户权限、操作时间窗管理、异常处理规则等;外部访问用户(主要针对该系统对外提供的数据服务)的操作规则和方式,包括所提供的数据服务接口、数据访问方式、操作;各类用户的操作记录日志,包括操作用户、登录方式、操作对象、持续时间、操作类型等相关信息。元数据管理组织为了保障元数据管理目标的顺利达成,需要从组织架构层面建立专业的元数据管控组织予以保障,确保元数据管控要求得以落实、制度得以执行。元数据管理流程元数据维护管理流程是以需求提出作为开始,经历规划设计、开发实施、需求验收等项目阶段的元数据建立和校验,最后实现元数据的发布和运维管理。在这些阶段中,元数据管控组负责元数据信息的全生命周期流程的管理和监控。元数据管理功能元数据管理包括元数据基础数据管理和元数据应用,由元数据自动获取、元数据检索、数据模型管理、元数据管理、血缘关系等功能组成等。元数据管理功能架构元数据自动获取对元数据获取数据源以及这些数据源之间的关系进行集中登记管理,并形成自动获取数据源的全局视图,实现元数据自动获取数据信息。要实现元数据的自动获取,需要在集成的元数据平台中配置自动获取策略和调度时间等,使元数据能够按预设的调度策略触发相应的元数据自动获取过程,满足元数据自动获取的时效性。调度策略包括时间周期触发、事件触发两种方式。例如,在每周星期一凌晨00:00到01:00之间触发数据资源平台元数据的自动获取过程,或者在数据处理程序更新后12小时内触发相应的映射关系元数据自动获取过程。元数据维护包括元数据的定义、变更及版本管理,对主机信息、数据库信息、用户信息、数据对象信息、业务规则信息、加工逻辑等进行维护和管控。元数据扫描支持以手动或定时的方式扫描指定的数据库资源,并提取和解析相关的信息在比较扫描数据和原有数据的差异后自动将差异数据维护到指定的元数据目录。元数据检索在元数据管理首页用户通过输入关键字后,系统采用全文检索的方式迅速查找和关键字匹配的权限范围内的元数据信息,并将信息返回给用户。用户能够通过展示的路径信息快速定位到元数据组织树上的节点。元数据版本版本管理分为元数据对象版本管理与基线版本管理两种类型。元数据对象版本:对元数据的每次提交形成版本(上一版本形成历史版本),提供历史版本间,历史版本与当前版本对比功能;基线版本,对某一阶段产生的元数据对象形成数据集,提供不同阶段产生的数据集的版本比较权限管理及查询统一实现数据库的访问和操作管控,对用户进行角色权限、对象权限、数据权限等方面的管控和查询;元数据的导入/导出在系统层面实现元数据的导入/导出功能,以保证数据模型、数据对象能够灵活的迁移,支持模型间的检查和比对,以便于数据模型的维护和扩展。数据质量管理数据质量管理主要包含对数据完整性、准确性、鲜活性、权威性的分析和管理,并对数据进行跟踪、处理和解决,实现对数据质量的全程管理,提高数据的质量。能够提供规则配置、质量监控、问题处理等功能,及时发现并分析数据质量问题,不断改善数据的使用质量,从而提升数据的可用性,挖掘数据更大的价值。质量模型配置数据质量分析的基本单元,一个质量模型由可以由一套实体表、一套规则以及多套质检方案组成,用户在定义质检方案时,可以根据业务需要选择实体表和规则,方案与方案之间相互独立,互不干扰。通过执行模型下的质检方案,可以得到用户关心的数据质量分析结果,如问题数据明细信息、数据质量分析结果等。质量规则管理数据质量规则是数据质量审核的逻辑校验标准,是数据质量监控管理的基础。系统支持多种规则类型,提供了全方位的视角来为用户解析数据质量。一套规则能在多套方案中复用,在保证多角度准确数据质量分析的前提下,大大减少了用户投入的精力与时间,为用户提供了一种灵活而全面的数据质量分析方式。系统包括以下质量规则:空值检查空值检查用于检查关键字段非空值域检查值域检查用于检查关键字段的取值范围,支持数值型、字符型、日期型字段检查规范检查规范检查用于检查指标值的格式是否规范,支持身份证、手机号码、邮箱、日期等多种数据类型的检测,支持自定义正则表达式逻辑检查逻辑检查用于检查指标之间是否满足一定的逻辑关系重复数据检查重复数据检查用于检查表内是否有重复数据。规则算法:groupby重复依据字段,count(1)>1的算重复及时性检查及时性检查,用于检查数据的及时性,衡量数据抽取或数据上报是否及时。规则算法:算出上报时间字段的值,如果没写上报时间表达式,则最佳上报时间都是以下一期的第一天做为参照依据,再将上报时间与最佳上报时间做为比较,看是否在允许误差最大天数范围内缺失记录检查记录缺失检查用于判断记录是否完整,是否缺少数据行。根据比照表字段检查目标字段是否缺少数据,检查实体表字段与比照字段的数据量、数值是否完全一致。规则算法:对检查表字段和比照字段进行groupby并求count,根据两个字段groupby的结果来outerjoin,count不相等或检查字段值和比照字段值有一个为空时,此行结果都算错引用完整性检查引用完整性检查用于判断实体表中的数据是否完全存在于比照表中。实体表检查字段中的数据必须全部存在于比照表的比照字段中。规则算法:实体表的检查字段关联distinct后的比照表的字段,关联后,如果比照字段为空,则检查字段的值非来源于比照表,则该规则对应结果为false方案配置调度依据质量规则执行的实际治理需求,通过图形化界面配置多种质检规则组成可执行方案,依据执行规则管控平台自动执行质量规则检查。质量规则执行触发方式支持按固定时间周期(如月、周、日)、事件触发等执行方式,并且在控制台可以查看质检方案执行历史,对数据质检全流程进行管控。界面配置通过图形化界面配置多种质检规则组成可执行方案,通过界面进行数据传参。触发方式质量规则执行触发方式支持按固定时间周期(如月、周、日)、事件触发等执行方式。全流程管控固定时间监控业务系统运行的各类数据,及时发现并整改数据异常,完善系统运行机制。质检结果查看基于质检方案执行过程,反馈每次质检产生的异常数据,根据问题数据所配置的规则提供问题详情、比对及整改重检的能力。结合实际可执行和可实现的原则,分析系统存在的数据质量问题:分析与检测着重于在数据的定义基础上,利用数据的逻辑和业务规则度数据质量进行检测和分析。整改与重建着重与在数据的分析和检测基础上,利用起结果对数据,特别是源数据的数据管理提出整改意见,重建数据质量的管理能力。具体系统方案如下:质检分析报告基于质检方案及质检结果,对每次质检的检查数、问题数、整改数等进行统计,形成统计图。支持按日、按月统计及柱状图、折线图。数据集成管理数据集成主要在数据治理平台承担数据管道作用,通过数据集成现实不通业务数据的汇聚、数据中心基础库的清洗等流程,通过在线简单灵活的可视化页面针对不同的数据汇聚、清洗流程进行配置建立,平台直接对接调度底层的数据传输工具进行数据管道的打通;实现了数据集成建模与数据集成汇聚快速、高效流转的全过程。数据建模配置提供数据集成中数据单元集模型配置,数据模型即为数据集成中的数据单元集。集成方案管理根据实际数据集成需求,系统提供了统一的集成方案配置,集成方案可以通过构建的数据模型实现多维度的数据汇聚、清洗等数据处理流程,解决了公共数据中大量的数据梳理处理工作,大大减少了人工对数据对比、校准、映射等繁杂的工作,同时实现数据在前置库、基础库等之间的快速汇聚能力。支持数据汇聚(来源表全表到目标表)、更新(基于目标表主键从不同来源获取所需字段)及全量、增量功能。同时,数据集成过程中,支持不同元数据代码项之间的映射转换功能,基本的数据格式验证以及任务调度配置。数据来源统计用于统计集成模型中所有数据的来源方向,以及各库表、各字段的精确来源,并且提供基于领域的快速筛选数据管理建设方案数据资产管理数据资产管理平台主要负责对数据资产进行统一注册和管理,实现数据资产体系化管控。主要包括数据资产注册管理、数据资产分类管理、数据资产查询、数据地图、数据资产分析、数据资产版本管理、数据资产变更管理、资产运行审计管理、资产统计分析,接口管理、数据质量等功能。数据资产注册管理平台提供数据源管理、数据资产注册管理、数据资产注册审核、生成数据库管理等功能。提供采集器、在线维护、自动注册接口等方式来注册数据资产。数据源管理 平台提供对数据源注册管理的功能,主要是对数据提供者所在数据库、Hadoop库的注册管理。数据库注册管理,主要负责数据库基本信息的注册配置,包含但不限于以下内容:数据库类型数据库版本数据库服务IP数据库服务端口数据库SID数据库表空间……Hadoop库注册管理,主要负责Hive库基本信息、HDFS文件信息的注册配置,包含但不限于以下内容:HIVE数据库服务IPHIVE数据库服务端口HDFS文件系统服务IPHDFS文件系统服务端口……数据资产注册管理 平台提供对数据资产注册管理的功能,主要包括对表、视图、序列、文件、ETL过程、Hadoop等进行注册管理。1)业务系统信息收集与资产注册,包含但不限于以下内容:业务系统名称业务系统描述业务系统服务IP业务系统服务端口2)数据库信息采集与资产注册,包含但不限于以下内容:数据库类型数据库版本数据库服务IP数据库服务端口数据库SID数据库表空间3)表结构信息采集与资产注册,包含但不限于以下内容:表名称表中文名称业务信息描述表结构定义表数据处理逻辑4)视图信息采集与资产注册,包含但不限于以下内容:视图名称视图中文名称业务信息描述视图结构定义5)字段信息采集与资产注册,包含但不限于以下内容:字段名称字段中文名称字段详细描述字段类型定义6)指标信息采集与资产注册,包含但不限于以下内容:指标名称指标中文名称指标业务描述指标统计口径指标统计周期7)报表信息采集与资产注册,包含但不限于以下内容:报表名称报表中文名称报表业务描述报表格式报表统计周期8)hadoop平台信息采集与资产注册,包含但不限于以下内容:Hadoop集群名称Hadoop集群描述Hadoop集群主节点IPHadoop集群从节点IP9)hadoophive库表信息采集与资产注册,包含但不限于以下内容:Hive数据库服务IPHive数据库服务端口Hive表名称Hive表中文名称Hive表业务描述信息Hive表结构定义10)ETL过程信息采集与资产注册,包含但不限于以下内容:ETL作业名称ETL作业业务描述信息ETL过程处理逻辑ETL作业运行周期ETL来源表名称ETL来源文件路径ETL目标表名称ETL目标文件路径11)文件接口信息采集与资产注册,包含但不限于以下内容:接口文件名称接口文件业务描述信息接口文件路径接口文件大小接口内容与表字段映射关系12)OLAP信息采集与资产注册;13)webservice接口信息采集与资产注册,包含但不限于以下内容:webservice接口名称webservice接口描述webservice接口负责人数据资产注册审核 平台提供对数据资产注册的审核功能,通过在平台中定义数据资产的相关命名规范,可实现对数据资产的自动审核,主要包括对表/视图、文件等数据资产进行审核分析。当数据资产命名不符合规范时,平台会提示错误信息,并阻止资产的注册操作,当数据资产命名审核通过后,交由相应的审核人进行审核,保障数据资产的完整和规范性。生成数据库管理 平台可基于数据资产(表),通过在平台中指定生成表的数据库及表空间等信息后自动生成相应数据库的建表脚本并在数据库中生成数据表,如下图所示:数据资产分类管理平台提供对数据资产的分类管理功能,在数据资产注册同时或注册后,可在数据资产上标识不同的属性标签,通过属性标签完成对数据资产的分类整理,为资产查询、资产统计、资产盘点等功能提供支撑。常见的属性标签包括:资产类型:数据表、文件、接口、指标、报表等数据来源:B域、O域、M域等主题域:参与人、服务、资源、事件、市场营销、企业管理、公共。所属层级:接口层、轻度汇总层、中度汇总层、高度汇总层、应用层等存储周期:按年、按季度、按月、按周、按日等数据资产分类体系在数据资产的分类管理中,平台按照数据资产的生命周期对数据资产进行分层,即输入层、加工层和输出层。输入层是指数据从各个数据源抽取到大数据平台,输出层是指大数据平台数据输出到外部渠道或内部渠道,加工层指数据在大数据平台内进行加工处理的过程。数据资产分类查询平台提供数据资产分类查询功能,可通过选取分类标签中具体的属性标签对数据资产进行筛查。数据资产分类统计平台提供数据资产分类统计功能,可对各种标签属性的数据资产进行分类统计,并形成统计报表,供使用人员查询不同属性数据资产的整体统计情况。数据资产目录管理数据资产目录资产目录是对平台元数据的有序组织,是记录数据体系的保障数据类目是目录信息与服务、保障与支撑所组成的一个整体针对资产的合理组织,需要对资产进行对应分类,如部门类目、主题类目、行业类目等,可对该类目下资产数据进行搜索、展现以及权限申请。数据资产查询平台提供数据资产查询功能,主要分为通用查询和高级查询两种方式。通用查询:通过在通用查询搜索框中输入查询关键字,可对数据资产进行模糊查询。高级查询:根据指定数据资产属性信息的具体值对数据资产进行精确查询,包括数据资产名称、资产编码、资产分类标签等属性。数据资产地图管理平台提供数据地图功能,通过可视化的图形界面,对大数据平台各系统、各层次之间的脉络关系进行全面、多层次的展示,并提供从系统、数据库、表间以及字段级的关联关系下钻分析功能,帮助用户从不同粒度了解数据资产之间的关联情况,同时可动态了解数据资产的执行情况。数据资产版本管理平台提供数据资产版本管理功能,主要包括版本发布、版本查看、版本比对、版本恢复等功能。版本发布,通过版本发布功能提供对数据资产信息的版本更新和固化;版本查看,可查看数据资产的版本变更历史;版本比对,通过选择历史版本可与当前发布的数据资产版本进行差异比较;版本恢复功能,支持恢复到以前历史版本的资产信息;数据资产变更管理平台提供数据资产变更管理功能,可对数据资产信息中除定义名称以外的其他信息进行变更,并提供在变更发布前的数据资产信息规范审核。数据资产审计管理平台提供资产运行审计管理功能,主要包括数据资产模型审计、数据资产表数据审计等部分。1)数据资产模型审计:可对表、视图、文件、Hadoop等静态结构进行审计,根据元数据的配置,与数据库内实际的表/视图信息、实际生成的文件信息以及Hadoop中实际的结构信息进行比对,实现数据资产定义在整个应用中的一致性检查。2)数据资产表数据审计:可对数据资产中的表数据进行审计,包括元数据表字段上的空值、字典值等。数据资产统计管理平台提供数据资产统计分析功能,主要包括统计综合查询、数据资产一致性检查、数据资产更变统计、数据资产属性检查、数据资产空值检查、数据资产字典值检查等功能。数据资产统计分析1、统计综合查询,可通过数据资产的各种属性标签,如资产类型、数据源、主题域、所属层次等,以及数据资产的其他资产信息如数据库类型、应用等,对数据资产进行查询。2、数据资产一致性检查,平台提供以报表的形式,将元数据的配置与数据库内实际的表/视图信息、实际生成的文件信息、Hadoop中实际的结构信息等内容进行比对并输出差异分析结果,在分析结果不一致的情况下给出提醒,并将分析结果作为《数据资产规范性检查报告》的组成部分。3、数据资产变更统计,可通过数据资产的各种属性标签,如资产类型、数据源、主题域、所属层次等,以及数据资产的其他资产信息如数据库类型、应用等,对数据资产变更历史进行统计查询。4、数据资产属性检查,平台提供以报表的形式,将元数据的配置与数据库内实际的表/视图的属性信息、与实际生成的文件内的属性信息、与Hadoop中实际的结构信息进行比对并输出差异分析结果,在分析结果不一致的情况下给出提醒,并将分析结果作为《数据资产规范性检查报告》的组成部分。5、数据资产空值检查,平台提供以报表的形式,对元数据表字段上的空值配置进行检查,在检查结果不一致的情况下给出提醒,并输出《数据资产空值检查报告》。6、数据资产字典值检查,平台提供以报表的形式,对元数据表字段上的字典值配置进行检查,在检查结果不一致的情况下给出提醒,并输出《数据资产字典值检查报告》。数据资产报告针对整体平台上的对应数据,提供定周期了解其对应资产情况,对总体资产情况进行分析。数据资产盘点 平台提供数据负资产盘点功能,通过分析系统中孤立未使用的库表,即数据负资产,并以报表形式输出分析结果,为用户清除数据负资产或转存提供帮助。数据异常管理异常对接管理开发可以对接数据交换总线、数据集成总线、数据服务总线系统中异常日志模块的功能。异常问题列表开发展示异常问题信息,按等级进行分类或主动推送,同时对异常问题进行归类整理,并定义规则进行选择性忽略或提醒的功能。人工处理管理开发人工处理管理是记录针对异常信息,人工处理所登记的台账信息,可按照异常分类进行分类授权,实现指定问题的指定人员处理的功能。系统处理管理开发统处理管理是针对异常信息集成的各子平台系统处理结果的收集,该类信息往往不需要人工干预的功能。实时数据质量管理针对实时流数据需要提供数据质量管理功能,即提供对实时流的数据质量规则的设置、维护、调度、优化等规则的管理功能,以及对实时流数据源接口关键数据、数据实体和处理过程的监控告警,辅助数据质量管理人员快速定位问题的原因及处理方案,并定期生成针对实时流数据的数据质量评估报告的功能。数据质量定制化开发通过自定义扩展规则能力,灵活方便的自定义扩展能力,可以灵活定制质量监控的规则、问题数据的检测规则和问题数据的清洗回收的方式。异常数据分析基于集成方案,反馈统计分析集成过程中不符合方案中各字段清洗规则的异常数据结果,同时支持多维度的问题分析以及排查。异常处理统计分析开发按照异常分类、处理情况、时间、等级等维度进行分类统计,以图表的形式展现便于管理人员汇总分析的功能。数据架构管理平台支持定义全企业的数据架构,包括数据的主题、层次,所涉及的部门、所用到的数据库类型。功能包括数据架构节点的增加,删除。业务架构管理从数据架构中选择适合团队的数据架构,并绑定到团队,以约束开发团队在开发过程中选择数据架构。存储架构管理在异构数据库的环境下,不同的数据库有不同的参数设置,为减少开发人员在模型开发过程中的操作,同时也保障模型在落地到物理环境的正确性,通过在存储架构中设置默认的参数配置来保障开发的准备性。数据开发管理流数据处理平台支持对流数据的处理与管理,流数据的处理过程为数据实时采集-->数据实时计算-->数据实时查询服务。实时采集主要应对海量数据进行高性能的实时数据采集处理,以实时、高效、低延迟为核心驱动点,具备毫秒级数据触发能力,实现秒级单位时间窗口的数据统计分析能力。需要支持的数据源类型可以分为以下四类:网络协议数据源,包括Socket、JMS、HTTP、HTTPS等常见类型的网络协议。本/异地文件数据源,包括目录扫描、文本文件,FTP,SDTP等数据。分布式文件系统数据源,包括HDFS,HBase,Hive等数据。关系型数据库数据源,包括DB2,Teradata,vertica等数据。支持物联网网关采集:将物联网数据从物联网网关接入,提供协议适配和标准化处理,以及满足海量物联网数据的入湖。来自多种数据源的实时信息,因为其时效性高,数据的有效期短暂,需要实时提取和分析来自各种分布式系统的信息,并分发到不同的应用中进行处理。同时,系统必须高效、可靠、可管理、可监控并且具有一定的对外开放能力。流数据引擎开发提供数据融合,统计,分析的高速处理能力,对于实时性要求较高的数据计算提供支撑的功能流数据计算模型管理开发提供对已设计完成的数据计算模型进行申请,注册,提交,执行,监控的统一管理的功能流数据计算公共模型开发开发提供对于场景需求较多的数据模型可开发公共模型的功能,公共模型可以供其他用户调用,可重复使用的功能流数据计算结果接口开发开发提供对流数据计算结果接口开发功能和计算结果数据可通过接口形式供可视化调用或其他应用的功能流数据计算模型查询开发提供流数据计算模型查询功能,通过对流数据计算模型发布可以是其他用户查看计算模型逻辑,进行模型再利用,减少其他用户开发工作量的功能。数据开发平台数据开发完成多种环境的全量与增量数据处理能力,简化开发过程。统一数据开发入口,支持可视化开发和原生态开发两种开发模式,实现原生态开发与可视化编排的互相转换,提升开发效率。支持可视化开发支持原生态开发统一调度管理平台支持对数据开发与管理任务的统一调度,包括流程设计与管理、调度策略管控、任务调度控制、标准化控件等功能模块,通过作业/任务管理、作业/任务调度、作业/任务执行实现对采集、转换、加载、调度、监控,从而形成统一的调度与管理。以一个业务量生产过程为例。传统做法是通过接口通信表或时序依赖进行协同生产。在统一调度平台中以数据流作为驱动,通过控制中心进行作业命令下发,状态收集进行控制,达到各个异构系统,多个子系统的协同调度。数据运维管理监控运维监控运维为数据开发者和维护者提供一站式的数据运维管控能力,可自主管理作业的部署、作业优先级、以及生产监控运维平台提供数据监控运维、任务运行情况监控、异常情况告警、日常运维数据统计等功能。运维概览运维概览主要用来展示调度任务的指标数据情况,目前包括任务完成情况、任务运行情况、任务执行时长排行、调度任务数量趋势、若干统计指标,如N天出错排行、任务类型分布、N天基线破线次数排行等。运维任务可视化展示调度任务DAG图,方便数据运维管理。1)提供任务运行状态监控告警2)提供单任务重跑、多任务重跑、kill、置成功、暂停等操作3)提供列表和DAG两种模式4)实现针对周期运行、测试运行、手动运行任务查看任务运行状态5)实现针对任务进行重跑、停止、查看运行日志、查看节点代码、查看节点属性。监控告警监控告警是调度任务的监控保障系统,当任务出现错误时,系统会通过预定义的方式告知任务失败,提供按照

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论