大数据治理管理平台解决方案相关两份资料_第1页
大数据治理管理平台解决方案相关两份资料_第2页
大数据治理管理平台解决方案相关两份资料_第3页
大数据治理管理平台解决方案相关两份资料_第4页
大数据治理管理平台解决方案相关两份资料_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据治理管理平台解决方案目录CONTENTS背景与需求分析功能框架设计平台功能设计010302PARTONE01背景与需求分析背景与需求分析1.发展背景2.架构需求分析3.需求分析背景与需求分析1.发展背景2.架构需求分析3.需求分析

建立自身的统一技术栈:建立中心技术栈准入标准,一方面保障整体技术架构中组件的标准性,避免因为版本不一致和功能特性相近,增加不必要的运维成本,另外一方面,减少因为架构中采用组件的选型调整,增加不必要的集成开发工作。技术栈中的组件会持续补充完善,通过POC测试后,并经过专家委员会集体论证,且符合准入标准,才准许对应技术组件进入到统一技术栈。开放架构平台本身具备模块化开放和集成能力,平台功能所对应的技术组件避免被某一家集成开发厂商捆绑,或者被某个单一组件产品捆绑。架构的先进性技术架构中的技术组件选型,从技术成熟度、性能、稳定性、持续研发升级、使用后业内评价、易维护性、适配性等方面做出考量,为架构选型提供参考,保证整体架构中的组件的先进性。架构的高可用在长时间、多任务场景下的稳定运行。在计算机硬件、操作系统、存储系统及应用系统业务进程出现故障时能迅速响应并进行任务的切换;某一节点出现故障时,其他节点应能够自动分担故障节点的处理任务,保证服务持续可用。010302数据治理管理平台-需求分析1.发展背景2.架构需求分析3.需求分析

数据治理管理平台基于元模型驱动模式,构建一体化的数据资产管控,实现全流程、全生命周期和全景式的“三全”治理,确保每一份数据资产皆可靠、可信、可用。

通过对数据、应用、系统综合管理,构建标准化、流程化、自动化、一体化的数据管理体系。PARTTWO02功能架构设计子平台关系定位1.子平台关系定位2.功能架构功能架构数据平台数据资源管理数据加工处理数据质量管理质量模型方案配置规则管理质检报告数据质检质量统计数据标准管理元数据管理分类管理数据元管理标准代码配置常用规则配置元数据自动获取元数据维护元数据扫描元数据检索元数据版本权限管理及查询元数据导入/导出元数据分析基础标签管理标签关系展现元数据管理数据资产资产目录资产地图资产总览资产报告实时数据管理流数据处理实时采集流数据计算模型管理流数据计算公共模型开发流数据引擎流数据计算结果接口开发流数据计算模型查询支持流媒体采集及转发管理数据集成管理异常数据分析数据建模配置集成方案管理数据来源统计数据架构管理数据架构定义业务架构管理存储架构管理数据异常管理异常对接管理人工处理管理异常处理统计分析异常问题列表实时数据质量管理系统处理管理数据质量定制化开发数据开发管理数据开发管理统一调度管理统一调度管理数据标准管理监控运维运维任务实时分析数据运维定制化开发运维概览监控告警统一流程管理平台运维定制化开发数据分级1.子平台关系定位2.功能架构PARTTWO03平台功能设计数据资源管理1.数据标准管理2.元数据管理3.数据分级分类管理4.数据资产管理通过对数据标准管理、落地实施机制、及数据标准管理平台维护三部分进行数据资源管理,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计。落地实施机制从规范推广、技术平台支撑两方面保障;数据标准平台维护主要包括建设数据标准技术平台,支撑数据标准日常管理工作两方面。支持数据元版本管理及版本之间的差异核对功能以及支持基于基础库、主题库的元数据快速创建标准数据元,并建立和相关元数据的关联关系数据元管理数据元删除数据元检索数据元停用数据元导入数据元修改数据源发布数据元新增支持代码的分类、标准代码项的新增、导入、导出功能,提供了标准代码维护的能力;标准代码配置新增导入导出可关联到国标、地标代码字典通过固定的值组成规则来规范数据源值的格式,例如身份证、电话号码、电子邮箱等格式。常用规则配置通用规则实际制定规则常用规则配置会针对公共数据的特性内置部分常用的规则,同时提供了规则的配置修改能力数据资源管理1.数据标准管理2.元数据管理3.数据分级分类管理4.数据资产管理通过对数据整合的层次结构、主题域划分,实现各层的各种对象,如表、存储过程、索引、数据链、函数和包等的管理。清晰的表示各层次结构之间的数据流程、各对象之间的关系,以及向外提供的各类数据服务的信息。元数据管理元数据管理包括元数据基础数据管理和元数据应用,由元数据自动获取、元数据检索、数据模型管理、元数据管理、血缘关系等功能组成等。元数据自动获取元数据维护元数据扫描元数据检索元数据版本权限管理及查询元数据的导入/导出配置自动获取策略和调度时间等,使元数据能够按预设的调度策略触发相应的元数据自动获取过程,满足元数据自动获取的时效性。包括元数据的定义、变更及版本管理,对主机信息、数据库信息、用户信息、数据对象信息、业务规则信息、加工逻辑等进行维护和管控。支持以手动或定时的方式扫描指定的数据库资源,并提取和解析相关的信息在比较扫描数据和原有数据的差异后自动将差异数据维护到指定的元数据目录。在元数据管理首页用户通过输入关键字后,系统采用全文检索的方式迅速查找和关键字匹配的权限范围内的元数据信息,并将信息返回给用户。用户能够通过展示的路径信息快速定位到元数据组织树上的节点。版本管理分为元数据对象版本管理与基线版本管理两种类型。元数据对象版本:对元数据的每次提交形成版本(上一版本形成历史版本),提供历史版本间,历史版本与当前版本对比功能;基线版本:对某一阶段产生的元数据对象形成数据集,提供不同阶段产生的数据集的版本比较。统一实现数据库的访问和操作管控,对用户进行角色权限、对象权限、数据权限等方面的管控和查询;统一实现数据库的访问和操作管控,对用户进行角色权限、对象权限、数据权限等方面的管控和查询;数据资源管理1.数据标准管理2.元数据管理3.数据分级分类管理4.数据资产管理通过对数据整合的层次结构、主题域划分,实现各层的各种对象,如表、存储过程、索引、数据链、函数和包等的管理。清晰的表示各层次结构之间的数据流程、各对象之间的关系,以及向外提供的各类数据服务的信息。元数据分析元数据分析算法包括以网状模式展示对象等血缘关系和以父子依赖关系展示对象等有向血缘关系。影响性分析重要性分析无关性分析●包括血统分析和影响分析两类,以便于掌握和追溯对象变更时的缘由和影响关系。●元数据对象和对象之间以连线方式表现出血缘分析的结果。●通过分析各元数据对象之间的关联密集度及数据资源平台中各层次的包、表等对象的重要程度,指导数据资源平台开发和维护团队对重点元数据进行重点关注和质量监控。●通过系统的规模不断扩大,业务需求的变化,会产生无关数据、信息和报表,这些无关的内容,结合业务需求分析其产生的根源,从而为用户简化工作负载,降低项目总拥有成本,为用户提供可信赖的数据和分析能力。数据资源管理1.数据标准管理2.元数据管理3.数据分级分类管理4.数据资产管理

在数据资源的分类管理中,平台按照数据资源的生命周期对数据资源进行分层,即输入层、加工层和输出层。输入层是指数据从各个数据源抽取到大数据平台,输出层是指大数据平台数据输出到外部渠道或渠道,加工层指数据在大数据平台内进行加工处理的过程。基础标签管理在设置的基础标签进行呈现列表形式将所有的基础标签一一列出,并可以按照热度进行排序智能推荐形式是指根据最近时间段内的标签的访问频率、搜索频率等,以轮播的形式循环展现热门标签的功能。标签关系管理

通过标签将相关联的数据目录关联在动图中展现给用户,形成丰富数据盛筵的展示效果,做到通过一张图就可以将某一条数据的关联数据、以及数据之间的关系全部展示出来的功能。数据资源管理1.数据标准管理2.元数据管理3.数据分级分类管理4.数据资产管理通过对数据资产的治理,让系统数据更加准确、一致、完整、安全,降低IT成本;针对数据资产应用使得系统数据的使用过程更为人性、便捷、智能,从而提升管理决策水平。关于数据资产运营是支持系统数据资产的分发、开发、交易等数据嫁接的实现。从而促进数据资产的价值实现。数据资产资产管理主要是针对数据资产类目编制的过程梳理、明确职责等内容,同时也可以对数据表的元数据信息进行有效管理资产总览从数据规模、类目分布、热门访问等多个角度,对数据资源平台上的数据资产状况进行全景式展现。资产目录对平台元数据的有序组织,是记录数据体系的保障数据类目是目录信息与服务、保障与支撑所组成的一个整体针对资产的合理组织,需要对资产进行对应分类资产报告针对整体平台上的对应数据,提供定周期了解其对应资产情况,对总体资产情况进行分析。资产地图通过元数据信息收集、数据血缘探查、数据权限申请授权等手段,帮助数据资源平台完成数据信息的收集和管理,解决数据资源平台数据开发者有哪些数据可用、到哪里可以找到数据的难题,并且提升数据资源的利用率。实时数据管理提供针对实时数据的元数据管理功能,包括:元数据采集、元数据存储、元数据运维、数据质量检查、元数据分析、权限管理、数据生命周期管理、元数据服务。数据加工处理1.流数据处理2.数据集成管理3.数据架构管理4.数据异常管理5.数据开发管理6.统一调度管理7.数据运维管理1.实时采集2.流数据引擎3.流数据计算模型管理4.流数据计算公共模型开发流数据的处理过程:数据实时采集;数据实时计算;数据实时查询服务;支持的数据源类型可以分为以下四类:●网络协议数据源,包括Socket、JMS、HTTP、HTTPS等常见类型的网络协议。●本/异地文件数据源,包括目录扫描、文本文件,FTP,SDTP等数据。●分布式文件系统数据源,包括HDFS,HBase,Hive等数据。●关系型数据库数据源,包括DB2,Teradata,vertica等数据。提供数据融合,统计,分析的高速处理能力,对于实时性要求较高的数据计算提供支撑的功能提供对已设计完成的数据计算模型进行申请,注册,提交,执行,监控的统一管理的功能提供对于场景需求较多的数据模型可开发公共模型的功能,公共模型可以供其他用户调用,可重复使用的功能数据加工处理1.流数据处理2.数据集成管理3.数据架构管理4.数据异常管理5.数据开发管理6.统一调度管理7.数据运维管理5.流数据计算结果接口开发6.流数据计算模型查询7.支持流媒体采集及转发管理流数据的处理过程:数据实时采集;数据实时计算;数据实时查询服务;提供对流数据计算结果接口开发功能和计算结果数据可通过接口形式供可视化调用或其他应用的功能提供流数据计算模型查询功能,通过对流数据计算模型发布可以是其他用户查看计算模型逻辑,进行模型再利用,减少其他用户开发工作量的功能针对音频、视频等流媒体提供数据采集功能,同时配套流媒体数据存储和快速检索功能,同时需要采集对应流媒体设备的系统参数、通道参数、网络参数、外设设备参数、以及外设设备的地理位置等。数据加工处理1.流数据处理2.数据集成管理3.数据架构管理4.数据异常管理5.数据开发管理6.统一调度管理7.数据运维管理

主要在数据治理平台承担数据管道作用,通过数据集成现实不通业务数据的汇聚、数据中心基础库的清洗等流程,通过在线简单灵活的可视化页面针对不同的数据汇聚、清洗流程进行配置建立,平台直接对接调度底层的数据传输工具进行数据管道的打通;实现了数据集成建模与数据集成汇聚快速、高效流转的全过程。数据建模配置集成方案管理数据来源统计异常数据分析提供数据集成中数据单元集模型配置,数据模型即为数据集成中的数据单元集;统计集成模型中所有数据的来源方向,以及各库表、各字段的精确来源,并且提供基于领域的快速筛选;通过构建的数据模型实现多维度的数据汇聚、清洗等数据处理流程,解决了公共数据中大量的数据梳理处理工作;基于集成方案,反馈统计分析集成过程中不符合方案中各字段清洗规则的异常数据结果,同时支持多维度的问题分析以及排查;数据加工处理1.流数据处理2.数据集成管理3.数据架构管理4.数据异常管理5.数据开发管理6.统一调度管理7.数据运维管理

定义全企业的数据架构,包括数据的主题、层次,所涉及的部门、所用到的数据库类型。功能包括数据架构节点的增加,删除。业务架构管理存储架构管理从数据架构中选择适合团队的数据架构,并绑定到团队,以约束开发团队在开发过程中选择数据架构。在异构数据库的环境下,不同的数据库有不同的参数设置,为减少开发人员在模型开发过程中的操作,同时也保障模型在落地到物理环境的正确性,通过在存储架构中设置默认的参数配置来保障开发的准备性。绑定团队、约束团队数据加工处理1.流数据处理2.数据集成管理3.数据架构管理4.数据异常管理5.数据开发管理6.统一调度管理7.数据运维管理数据异常管理异常对接管理异常问题列表人工处理管理系统处理管理异常处理统计分析实时数据质量管理数据质量定制化开发异常对接管理开发可以对接数据交换总线、数据集成总线、数据服务总线系统中异常日志模块的功能。异常问题列表展示异常问题推送并归类整理异常问题定义规则忽略提醒人工处理管理指定人员分类授权针对异常问题所登记的台账信息系统处理管理子平台子平台子平台系统处理管理异常信息无需人工干预数据加工处理1.流数据处理2.数据集成管理3.数据架构管理4.数据异常管理5.数据开发管理6.统一调度管理7.数据运维管理数据异常管理异常对接管理异常问题列表人工处理管理系统处理管理异常处理统计分析实时数据质量管理数据质量定制化开发异常处理统计分析按照异常分类、处理情况、时间、等级等维度进行分类统计,以图表的形式展现便于管理人员汇总分析的功能。实时数据质量管理数据质量定制化开发定制质量监控的规则自定义扩展规则能力针对实时流数据需要提供数据质量管理功能,辅助数据质量管理人员快速定位问题的原因及处理方案。设置维护调度实时流管理功能优化…接口监控告警定期生成实时流数据的数据质量评估报告问题数据的检测规则问题数据的清洗回收的方式数据加工处理1.流数据处理2.数据集成管理3.数据架构管理4.数据异常管理5.数据开发管理6.统一调度管理7.数据运维管理

数据开发完成多种环境的全量与增量数据处理能力,简化开发过程。统一数据开发入口,支持可视化开发和原生态开发两种开发模式,实现原生态开发与可视化编排的互相转换,提升开发效率。数据加工处理1.流数据处理2.数据集成管理3.数据架构管理4.数据异常管理5.数据开发管理6.统一调度管理7.数据运维管理

以一个业务量生产过程为例。传统做法是通过接口通信表或时序依赖进行协同生产。在统一调度平台中以数据流作为驱动,通过控制中心进行作业命令下发,状态收集进行控制,达到各个异构系统,多个子系统的协同调度。统一调度管理流程设计与管理调度策略管控任务调度控制标准化控件……作业/任务管理作业/任务调度作业/任务执行采集转换加载调度监控数据加工处理1.流数据处理2.数据集成管理3.数据架构管理4.数据异常管理5.数据开发管理6.统一调度管理7.数据运维管理数据运维管理监控运维运维概览运维任务监控告警实时分析统一流程管理数据运维定制化开发平台运维定制化开发监控运维开发者维护者作业部署作业优先级数据监控运维指标数据情况任务运行情况监控异常情况告警日常运维数据统计运维概览任务完成情况任务运行情况任务执行时长排行调度任务数量趋势……运维任务1)提供任务运行状态监控告警2)提供单任务重跑、多任务重跑、kill、置成功、暂停等操作3)提供列表和DAG两种模式4)实现针对周期运行、测试运行、手动运行任务查看任务运行状态5)实现针对任务进行重跑、停止、查看运行日志、查看节点代码、查看节点属性。监控告警自定义配置告警规则规则一规则二规则三规则……告警:任务失败数据加工处理1.流数据处理2.数据集成管理3.数据架构管理4.数据异常管理5.数据开发管理6.统一调度管理7.数据运维管理数据运维管理监控运维运维概览运维任务监控告警实时分析统一流程管理数据运维定制化开发平台运维定制化开发数据质量管理1.质量模型配置2.质量规则管理3.方案配置调度4.质检结果查看5.质检分析报告

数据质量管理主要包含对数据完整性、准确性、鲜活性、权威性的分析和管理,并对数据进行跟踪、处理和解决,实现对数据质量的全程管理,提高数据的质量。

能够提供规则配置、质量监控、问题处理等功能,及时发现并分析数据质量问题,不断改善数据的使用质量,从而提升数据的可用性,挖掘数据更大的价值。根据业务需要选择实体表和规则,方案与方案之间相互独立,互不干扰。通过执行模型下的质检方案,可以得到用户关心的数据质量分析结果,如问题数据明细信息、数据质量分析结果等。数据质量管理1.质量模型配置2.质量规则管理3.方案配置调度4.质检结果查看5.质检分析报告

系统支持多种规则类型,提供了全方位的视角来为用户解析数据质量。一套规则能在多套方案中复用,在保证多角度准确数据质量分析的前提下,大大减少了用户投入的精力与时间,为用户提供了一种灵活而全面的数据质量分析方式。系统包括以下质量规则:空值检查空值检查用于检查关键字段非空值域检查值域检查用于检查关键字段的取值范围,支持数值型、字符型、日期型字段检查规范检查规范检查用于检查指标值的格式是否规范,支持身份证、手机号码、邮箱、日期等多种数据类型的检测,支持自定义正则表达式逻辑检查逻辑检查用于检查指标之间是否满足一定的逻辑关系重复数据检查●重复数据检查用于检查表内是否有重复数据。●规则算法:groupby重复依据字段,count(1)>1的算重复及时性检查规则算法:算出上报时间字段的值,如果没写上报时间表达式,则最佳上报时间都是以下一期的第一天做为参照依据,再将上报时间与最佳上报时间做为比较,看是否在允许误差最大天数范围内缺失记录检查规则算法:对检查表字段和比照字段进行groupby并求count,根据两个字段groupby的结果来outerjoin,count不相等或检查字段值和比照字段值有一个为空时,此行结果都算错引用完整性检查规则算法:实体表的检查字段关联distinct后的比照表的字段,关联后,如果比照字段为空,则检查字段的值非来源于比照表,则该规则对应结果为false数据质量管理1.质量模型配置2.质量规则管理3.方案配置调度4.质检结果查看5.质检分析报告

通过图形化界面配置多种质检规则组成可执行方案,依据执行规则管控平台自动执行质量规则检查。质量规则执行触发方式支持按固定时间周期(如月、周、日)、事件触发等执行方式,并且在控制台可以查看质检方案执行历史,对数据质检全流程进行管控。界面配置通过图形化界面配置多种质检规则组成可执行方案,通过界面进行数据传参全流程管控固定时间监控业务系统运行的各类数据,及时发现并整改数据异常,完善系统运行机制。触发方式质量规则执行触发方式支持按固定时间周期(如月、周、日)、事件触发等执行方式数据质量管理1.质量模型配置2.质量规则管理3.方案配置调度4.质检结果查看5.质检分析报告

基于质检方案执行过程,反馈每次质检产生的异常数据,根据问题数据所配置的规则提供问题详情、比对及整改重检的能力;结合实际可执行和可实现的原则,分析系统存在的数据质量问题分析与检测:着重于在数据的定义基础上,利用数据的逻辑和业务规则度数据质量进行检测和分析;整改与重建:着重与在数据的分析和检测基础上,利用起结果对数据,特别是源数据的数据管理提出整改意见,重建数据质量的管理能力。数据质量管理1.质量模型配置2.质量规则管理3.方案配置调度4.质检结果查看5.质检分析报告

基于质检方案及质检结果,对每次质检的检查数、问题数、整改数等进行统计,形成统计图。支持按日、按月统计及柱状图、折线图。感谢聆听

大数据治理方案一.背景与数据治理现状所涉及行业:政府、公安、政法、人社、审计、水务、医疗、教育、电力、保险、银行等。没有数据因为业务系统没有对数据加以保存,或者因为行政原因不能开放,即使上了大数据平台,那也只是有了“壳”而并不能发挥大数据的作用和价值。数据采集影响源端业务系统大多数厂商通过各种开源工具从业务系统抽取数据,侵入式的工具不但影响了源端业务系统的正常使用,而且稳定性极差,经常出现各种丢数据的情况。人员消耗大,服务成本高,不仅没有发挥大数据的价值,而且变成一种负担。缺乏数据治理、不准确、周期长缺乏数据治理,对数据中存在的数据缺失、数据散乱、数据不一致,元数据频繁变更,元数据类型多样的问题并没有真正的处理和解决,即使有了大数据平台其分析结果也不准确。导致错误的决策,大数据分析失去可信度。智能应用并不智能通过对大数据与人工智能的营销,声称可以通过机器学习和深度学习的算法等,开发各种类型的智能应用,然而这些智能应用因为数据缺失、数据不准确并不能真正的落地,最后变成一个”噱头”。数据孤岛,信息不一致,数据难以整合由于在不同时期、应用不同技术、与不同厂商合作,建设了不同规模的业务应用系统,导致大量数据孤岛问题,系统间信息不一致且难以整合,希望通过数据治理和大数据的建设对数据加以融合,解决数据中存在的各种问题并让各系统间数据能够互联互通。Demo≠结果,可视化≠大数据分析只关注到数据可视化中数据展示的效果,并以Demo和数据展示的效果来作为依据判断大数据建设的预期效果,忽略了数据采集、数据治理、数据存储和数据计算的重要性。大数据建设现状:周期长(问题、协调……)2018DataGovernance数据缺、散、乱数据不规整,存在数据缺失、散乱的情况数据多源异构业务系统众多,数据往往来自几十个不同品牌的业务系统元数据类型多样元数据类型多样,缺乏标准统一的元数据存储

元数据频繁变更各主题业务系统间数据变更后无法快速进行数据统一缺乏业务词汇标准缺乏贴合行业的专业业务词汇标准数据不一致由于录入或其他问题造成的数据不一致情况数据治理:面临的挑战一.大数据现状二.大数据治理方案三.大数据案例解析目录二.大数据治理方案2.2大数据采集交换平台2.4大数据资产管理平台2.3大数据处理平台2.1大数据整体架构2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台

2.9大数据决策平台

大数据整体架构数据湖是经过治理和整合的数据最佳存放环节数据湖架构,实现数据治理与大数据应用开发的脱藕,可以支持应用的百花齐放数据湖确保数据是用户的数据,不是应用开发商的数据多个不同特色的应用开发,可以分别从数据湖获得各自需要的数据,大大加快应用开发的速度BillInmon(数据仓库之父)2015年:事先对数据归类建模的处理,可能对于大数据的各种离线分析有不足、需要演进,因此数据建模方式也需要演进。或许应该采取措施,把大量的原始数据初步处理后保存下来,为未来不断应用创新提供数据来源,而这个想法就是数据湖,现在廉价的存储和大数据技术也提供了这个可能性。二.大数据治理方案2.2大数据采集集成平台2.4大数据资产管理平台2.3大数据处理平台2.1大数据整体架构2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台

2.9大数据决策平台

Oracle数据库PostgreSQL达梦Dameng浪潮KDBFromother数据库SQLServerDB2MySql国产数据库MPP内存数据库常见数据库消息队列文本格式达梦Dameng浪潮KDBDBoneEMCgreenplumgbase8MSaphanaSQLServerKafkatibcoTXTCSVXMLsql人大金仓Kingbase南大通用GbaseBa神州通用HPVerticaDB2PostgreSQLMySql常见数据库国产数据库InformixsybaseTo大数据ToNoSqlGemfireFromKafkaHW云腾讯云阿里云天翼云Toother数据库ToCloud

云端数据库实时交换OracleSQLServerK-DBDB2MySQLPostgreSQLDMCDB中间库第三方ETL接口文件结构化数据大数据/云源ETL过程目标端用户实时多表关联镜像库精简库数据仓库数据抓取模块实时Loader实时单表转换过滤准实时对源数据库的首次同步和实时增量跟踪技术目标数据库或者云直接装载源数据库-接口文件和ETL-目标库多种通路选择实现实时和准实时转换和共享镜像库精简库数据库实时交换与共享平台功能

功能说明数据实时抽取通过源系统端的Agent进程对数据库Log日志进行实时分析,获取交易指令,将交易指令和交易数据经过格式转化生成数据格式;过滤转化为与生产应用相吻合的指令;再次实时传输到目标端系统数据实时转换复制指定的数据、表、列支持数据集中,即多个相同结构的数据库中将数据整合到一个库中,同类的数据项集合放到一个表中支持数据分发实时存储和增量变化通知Agent将识别到的实时增量数据发送到中间数据库,在此库中维护一张和生产系统对应的数据表;对数据进行整合、过滤和判断后通知订阅方支持ETL实现准实时数据抽取支持增量抽取间隔到每几秒钟、几分钟、10分钟生成一个接口文件支持从镜像库中获取数据QETL支持多表关联同步只复制到多表关联结果集到目标端支持复杂的sql模式支持多种同步维护模式保持分析日志模式而非sql查询模式

从生产数据库中抽取数据,并经过过滤、分析、整合、转换后,将数据加载到大数据平台或云平台中源端数据库的实时增量跟踪技术目标端实时复制转换装载技术中间过程中的接口文件技术中间过程中的中间库技术中间过程中的准实时复杂转换(ETL)技术源数据库RedoLogArchivedLog日志合成日志分析QUEUE目标数据库过滤SenderQUEUEYLoaderTransfor第三方ETLETL接口数据文件Receiver大数据/云功能数据库数据复制与实时技术二.大数据治理方案2.2大数据采集集成平台2.4大数据资产管理平台2.3大数据处理平台2.1大数据整体架构2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台

2.9大数据决策平台

大数据处理平台定位提供统一查询服务,支持多数据源数据关联,支持查询元数据、血缘和数据统计信息、支持数据全文搜索基于spark,提供简单的用户界面实现可视化查询、多表关联和交互式转换集成各种数据存储平台,提供各类型的数据采集,支持数据全量、增量采集,支持数据清洗验证分析234查询探索采集存储数据准备提供丰富的监控界面,支持仪表盘,支持监控流程、服务、作业健康状态,支持告警,支持性能监控5集中监控提供丰富的组件,支持可视化拖拽编排流程、模板,简化数据流程、作业的管理,提高数据ETL效率1流程设计为企业用户提供数据采集、存储、计算、调度、探索、监控、安全等数据治理相关的一整套数据湖治理解决方案,提供数据分析师准备数据的效率6集成方案

大数据处理平台:目标效果目标效果-数据治理前呼叫中心CRM系统订单处理系统HR系统采购系统数据财务报告客户行为分析企业绩效管理数据数据数据数据数据数据客户数据服务商数据合作伙伴数据容易产生的问题:数据孤岛、数据冗余、编码不统一、数据不同步、缺乏一致性、访问繁琐引入若干第三方应用,或者定制开发数据分析业务系统企业企业外部

大数据处理平台:目标效果目标效果-数据治理后呼叫中心CRM系统订单处理系统HR系统采购系统数据财务报告客户行为分析企业绩效管理数据数据数据数据数据数据客户数据服务商数据合作伙伴数据数据治理的价值:

数据共享、编码统一、数据同步、内容丰富、数据干净、访问可控单一平台、标准组件、拖拽可视化操作,支持定制(组件开发接口支持java,scala,python,groovy,shell多种语言)数据分析业务系统企业企业外部数据湖治理平台原始数据清洗后的数据数据质量报告关联数据加工数据共享数据标准数据数据资产

大数据处理平台——数据采集非结构化数据半结构化数据结构化数据网络数据全量、增量、实时全量、增量、实时数据库表CSV、XLSJSON、XML日志文档、图片音频、视频网页、论坛关系型数据库文件系统分布式文件系统网络爬虫、全量、增量NoSQL数据库图数据库GIS数据库全量、增量数据存储界面管理任务进度日志界面监控比对配置功能截图——数据清洗、验证、转换、分析功能截图——数据转换/脱敏功能截图——质量分析功能截图——可视化关联、交互式分析功能截图——集中监控功能截图——全文搜索、访问控制2.2大数据采集集成平台2.4大数据资产管理平台2.3大数据处理平台2.1大数据整体架构2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台

2.9大数据决策平台

二.大数据治理方案数据资产管理系统元数据源OracleMySQLSQLServerPostgreSQL…技术元数据管理元数据业务元数据手工录入批量导入自动采集/更新元数据采集血缘分析数据地图访问安全数据趋势数据回滚E-R图CWM模型标准数据生命周期表结构对比实时性能展示实时会话管理图形化诊断大数据资产管理系统

数据资产管控——资产视图数据资产管理2.2大数据采集集成平台2.4大数据资产管理平台2.3大数据处理平台2.1大数据整体架构2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台

2.9大数据决策平台

二.大数据治理方案

数据共享平台——目标维持现有平台不变现有平台数据访问能平移到中间件。多协议支持,扩展性强,部署灵活!提供基础组件,公共组件,业务组件功能。引入缓存,内存数据库提升性能基础数据,字典数据,业务数据整理筛选业务无缝水平扩展垂直扩展多样的监控管理手段降低开发难度,提高开发效率数据资产访问控制质量报告变动告警数据结构数据内容数据目录数据共享主题库接口管理文档API服务访问统计质量报告变动告警数据结构数据内容数据目录公共库各平台、接口统一的接入中间件平台获取数据、服务,降低平台、接口直接与数据库交互平台、接口解耦统一管理业务剥离、迁移缓存、内存数据库WEB中间件主要业务功能引入缓存和内存数据库,降低与关系型数据库交互次数,数据清理,筛选,提升性能将数据库一些业务实现剥离或迁移至中间件平台,以服务的方式提供出去数据交换.场景1.支持接口发短信支付接口作业调度短信服务组件支付接口组件校验过滤记录日志作业调度框架作业1作业2作业N数据库组件DB统一认证组件邮件组件…WEB中间件数据筛选统计数据存储缓存(访问频率极高,重复性数据)内存数据库(一天的经营性数据、统计性数据)关系型数据库(作为备份、大数据量存储)数据交换.场景2.数据查询查询网吧信息记录日志调用服务校验过滤缓存组件内存数据库组件数据库组件DBRedis服务器12YN345同步缓存同步缓存数据同步(全量、增量)WEB界面缓存动态管理(方法级别)WEB界面数据库管理、监控123第一次访问第二次访问目前直接访问DISKWEB中间件数据筛选统计数据属性经营性数据(营业额数据)活跃性数据(使用频率很高)数据量不大数据统计内存实时统计每次访问记录缓存或内存关系型数据库定时同步。定时后台统计Hadoop第三方组件Storm流式计算数据交换系统.示例.服务器.接口管理服务器管理组件管理数据交换系统.示例.拦截器及监控拦截器管理性能监控2.2大数据采集集成平台2.4大数据资产管理平台

2.3大数据处理平台2.1大数据整体架构2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台

2.9大数据决策平台

二.大数据治理方案分布式架构应用架构由集中式向分布式演进后,整个调用关系变得复杂。跨域垮中心系统一个完整的调用过程可能横跨多个服务及数据中心。系统指标状况无法准确知道整体系统性能及运行情况。系统独立分布式架构由复杂且较大规模集群构成,各个应用之间相当独立,可能由不同团队、不同语言实现。业务复杂复杂的调用导致系统出问题后难以定位问题。接口运维平台:应用系统现状1)根据拓扑可相应计算组件、平台、物理设备的实时吞吐量;2)包括整体调用的响应时间和各个服务的响应时间等;3)错误记录,根据服务返回统计单位时间异常次数;4)告警功能,提供各种阀值警告功能。核心功能接口运维平台接口运维平台AGENT无侵入部署对原服务无影响,资源消耗极低;准确掌握生产一线应用部署情况;提供可追溯的性能数据,量化IT系统服务状态;从调用链全流程性能角度,识别关键调用链,协助系统人员持续性的优化。特点、作用2.2大数据采集集成平台2.4大数据资产管理平台

2.3大数据处理平台2.1大数据整体架构2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台

2.8大数据智能平台

2.9大数据决策平台

二.大数据治理方案自助统计分析企业级、公共级大数据智能分析平台超大数据集上提供亚秒级SQL分析能力、支持互联网级高并发访问的企业级数据仓库产品,是以行业标准的数据仓库和商业智能方法论架构DW(DataWarehouse))onHadoop的解决方案为业务用户、分析师及工程师提供简便、快捷的大数据分析服务;自助式敏捷BI:建模的高性能查询、自助式建模、无需编程、JDBC/ODBC支持、非侵入式部署等突出优点的同时数据湖等方面进行了创新自助统计分析功能数据集模块:该模块可对数据集进行分类管理,并可对其进行修改删除操作;主要根据业务需求构建数据模型,通过选择拖拽方式操作便捷,并可手动修改定制自助统计分析。超高性能支持ANSISQL查询标准和自定义SQL查询内存建立数据模型(数据立方体Cube),建模速度快极低的查询开销,支持大规模并发查询场景基于Cube预计算技术,支持超大数据集上的亚秒级查询响应支持明细数据查询支持数据流式数据增量构建模型超高性能支持ANSISQL查询标准和自定义SQL查询内存建立数据模型(数据立方体Cube),建模速度快极低的查询开销,支持大规模并发查询场景基于Cube预计算技术,支持超大数据集上的亚秒级查询响应支持明细数据查询支持数据流式数据增量构建模型结果导出支持结果图和表之间灵活转换,结果集的旋转(行列转置),支持结果导出(PDF、Excel、图片等)和打印

2.2大数据采集集成平台2.4大数据资产管理平台

2.3大数据处理平台2.1大数据整体架构2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台2.9大数据决策平台

二.大数据治理方案知识图谱.图图是相互连接的事物及其关系的一种结构化表达。信息读取是顺序的过程,要求阅读者在大脑中将信息串联形成理解,而图能够即时传达信息,易于揭示复杂的模式.在社交网络、交通网络、通讯网络、资金网络等展现场景下,都有比较直观的展现效果图存储技术是支持知识图谱应用的关键技术之一。知识图谱(知识引擎)是多种技术的综合应用,包括自然语言识别(NLP)、机器学习及图存储技术等,其大量知识来源于非结构化数据。知识图谱的整体使用过程包括知识获取、知识融合、知识存储、知识推理、知识应用等步骤,典型应用场景包括搜索引擎、问答系统等知识图谱-构建过程.知识推理应用知识抽取知识融合知识加工实体抽取关系抽取属性抽取知识合并实体链接实体消歧共指消解知识推理本体构建质量评估第三方知识库知识图库知识图谱构建过程比如在美国限制向中兴通讯出口的消息发布之后,如果我们有中兴通讯的客户供应商、合作伙伴以及竞争对手的关系图谱,就能在中兴通讯停牌的情况下快速地筛选出受影响的国际国内上市公司从而挖掘投资机会或者进行投资组合风险控制知识图谱-应用PageRank算法——发现重要顶点算法原理1)数量假设:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。2)质量假设:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。PageRank算法刚开始赋予每个网页相同的重要性得分,通过迭代递归计算来更新每个页面节点的Pag场景:在犯罪团伙通讯网络中寻找重点人NO.PageRankValue10.0509140520.0573676330.1442252240.2448744950.0812838460.2438724870.0702747980.0357291690.03572916100.035729知识图谱-应用基于现有的知识图谱信息,推断出当前图谱不存在但实际中存在的真是关系知识图谱技术可以帮助我们快速构建一个法律知识图谱,目前还缺乏法律知识图谱的理论工作。跟其他领域的知识图谱相比,法律知识图谱需要考虑法律的逻辑,下面就是一个法律知识图谱的片段:从上面这个例子可以看出,每一个犯罪行为都有主体、客体、主观要件和客观要件,我们就需要从文本中去抽取这些信息,从而形成一个关于犯罪行为的图谱,而通过对海量判决书的挖掘,可以建立犯罪行为之间的关联,比如说,防卫过当和故意伤害之间有一个关联,即误判为的关系。通过这个图谱,给定一个判决书,可以辅助法官判的一个案件是否有误判,是否需要补充信息。知识图谱-应用2.2大数据采集集成平台2.4大数据资产管理平台

2.3大数据处理平台2.1大数据整体架构2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台

2.9大数据决策平台

二.大数据治理方案决策管理系统.功能支持功能性解耦支持同步与异步任务支持任务生命周期管理支持任务DAG的设计和表达用无码图形设计器建立复杂的工作流程价值:提升人和组织的生产力沉淀标准化,体系化的知识全方位业务流程化管理,过程透明化提升处理时效提升处理数量减少系统间沟通成本让管理变得可预期(端到端的业务流程)数据可追溯,审计无忧大数据决策平台-示例决策系统流程跟踪决策系统流程编辑一.大数据现状与数据治理缘由二.大数据治理方案三.大数据案例解析目录大数据案例解析-深圳龙岗智慧城区XX信息化现状与问题随着XX智慧城区项目建设的推进,已经取得较显著成效,但通过前置机方式从各部门、各系统采集数据时,却遇到以下诸多问题:

(1)数据不能实时从各系统同步到大数据中心,导致不能实时统计与分析;

(2)前置机由所属单位进行管理,出现问题不能及时发现和提醒;

(3)建设智慧城区项目,前置机无法采集非结构化的海量数据(如交通视频、安防视频、物联网数据等),导致无法实现智能图像识别、智能运维能等人工智能服务,城市智慧难以充分体现;

(4)前置机实施需要原厂商较多配合和开发工作,推进、协调、运维都难度较大。在大数据和人工智能时代,迫切需要利用大数据复制技术、实时流技术、大数据采集与集成技术、人工智能技术等建设龙岗智慧城区大数据集成与交换平台,解决传统前置机采集数据方式的上述诸多问题。某区政府数据共享交换平台实现数据采集与交换、数据治理。将现有信息系统与各部门相关的信息资源进行统一采集、清洗、脱敏和标准化。信息资源目录遵循统一的标准规范组织管理所有政务信息资源,釆用元数据对信息资源特征进行描述,形成统一规范的目录内容,通过对目录内容的有效组织和管理,形成目录信息库,为信息资源的汇聚、共享以及对应用的支撑提供信息资源的发现定位服务。公共信息资源共享交换平台门户和与市级共享交换平台的对接。门户实现各类应用的统一入口,统一管理和统一登录。①构建大数据治理体系,成立数据治理组织结构、治理流程、治理制度等方面,遵循平台建设先行,将数据治理作为推进平台建设的重要手段和措施,加快智慧城区数据资产化进程;②基于迪思杰DataXOne+DataLKOne+大数据平台,可以快速定制与开发龙岗智慧城区大数据集成和交换平台、大数据中心;③建设龙岗智慧城区大数据中心,分为区基础库、8+1行业应用库、交换和共享库等,将分散在各个业务系统数据统一集中,便于各部门、各系统进行数据共享和数据交换;嗯嗯XX智慧城区大数据治理1期大数据集成与交换平台方案架构某市卫计委区域医疗健康大数据实现以患者为中心、以时间为轴线,将多源端病历数据聚合、形成统一标准病历,支持分级诊疗与双向转诊等业务,并且大数据还可以挖掘价值,实现人工智能时代的智慧医疗XX市卫计委在项目前期充分调研和学习了国内各地医疗大数据项目。在以下几个方面有了明确的认识专业的数据治理在项目中的重要性卫计委在近两年完成的大数据项目中发现,在项目建设初期普遍关注大数据的上层应用,忽视数据治理的重要性。当项目上线以后才发现因为数据采集工具的选择不当,数据质量不达标等问题导致的上层应用的搁置和新业务无法拓展的问题比比皆是。因此在与XX市卫计委沟通的过程中,卫计委对数据的采集方式,数据质量和大数据平台的存储方面提出了高标准、严要求。

是专业的数据治理公司卫计委了解到市面上做大数据项目的公司在数据采集方面普遍采用不支持ddl,低效的jdbc/odbc技术。而的EnhancedETL在关系型数据采集领域性能优越。并且有完整的数据治理体系,不是简单进行数据加工存储后提供给上层应用就竣工了。的数据治理不仅要保证数据质量,还对数据进行血统分析、生命周期的管理。真正的将数据作为资产进行归置和管理。从架构层面,迪思杰提供了高标准的大数据平台建设的三层架构。DataXone集成了数据库实时复制技术EnhancedETL,也集成了

开发的先进爬虫技术,还有大数据技术中标准的Flume、Sqoop等。对外提供支持非结构化数据实时采集服务,无需开发就能快速完成文件、目录、网络日志数据采集功能,支持二次开发插件满足定制数据采集功能。采用关系型数据库实时复制转换技术(EnhancedETL),在采集数据库数据时拥有实时优势(延迟1-5秒钟)、高性能优势(每小时单个数据库数百GB)、实时数据转换优势、源生产端低干扰优势。方案采用数据湖,就能够支持不同大数据应用开发商从数据湖调取数据,避免为了特定应用四处采集数据的被动局面。数据湖架构达到了高灵活度,低延时,开放的目的。真正将数据治理与上层应用进行剥离,为后期的专业数据治理,专业应用开发提供了可能。案例——某省会城市卫计委医疗大数据方案优势为什么选择?某券商数据集成案例地市1-oracle地市2-oracle地市n-oracle数据仓库-oracle…业务1-oracle业务2-oracle业务n-oracle…EnhancedETLQETL

案例介绍湖北某券商客户使用EnhancedETL将各地市的数据集中复制汇聚集成到数据仓库,然后使用QETL对数据实时导出并进行组合运算,将转换后的数据集实时同步到各业务库。案例功能特点源端为组合视图,目标端直接同步的结果集为表中;目标数据涉及多个用户下的多张表,QETL只关注客户所需数据,最小化同步范围,节省系统资源;只跟踪业务所需字段,避免了敏感字段数据的向下传递;某行业某块业务所需的数据,业务上仅需要通过一条SQL从多张分别拥有百万和几亿条的数据表中提取所需结果,该结果返回仅有几十条数据,传统的推送方式要么达不到实时要求,要么占用较大资源,现通过QETL实时的推送所需的几十条数据的结果集,简化了同步方式、大大提高了同步效率,深受客户好评,并将大量推广应用。某省交警大数据应急指挥平台XX交警大数据应急指挥平台结构化描述行人结构化车辆结构化骑行结构化车辆实时布控无/套牌分析GIS应用(同行分析/频繁过车分析)XX交警大数据应急指挥平台数据集成源端无干扰采集:基于日志解析的数据库实时复制采集多源异构数据支持:支持DB2、Oracle、SQLserver、MySQL、Informix、Dameng、人大金仓等等数据实时清洗:数据过滤、数据剔重、类型转换、编码映射、文件拆分与合并、维度转换等数据实时转换:数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论