数据治理与大数据平台设计相关两份资料_第1页
数据治理与大数据平台设计相关两份资料_第2页
数据治理与大数据平台设计相关两份资料_第3页
数据治理与大数据平台设计相关两份资料_第4页
数据治理与大数据平台设计相关两份资料_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据治理大数据平台设计••••••

议程数据治理的背景和现状数据治理策略元数据管理主数据管理数据质量管理大数据平台设计1

数据治理背景大数据时代凸现数据重要性数据治理是大数据的基础2信息孤岛现象严重数据质量问题严重

345数据应用未得到有效管理6数据安全问题日益严峻数据治理意识到了问题的严重1数据治理现状2

“维持”代替“管理”3

历史“包袱”沉重4

相关方利益交织,协调困难5

方案规划容易,落地困难6

过度依赖技术工具7

对于数据没有明确区分••••••

议程数据治理的背景和现状数据治理策略元数据管理主数据管理数据质量管理大数据平台设计组织Organization流程、活动与机制Process&Activities&Mechanism计划、制度与标准规范Plan&Rule&Standards技术平台与工具Platform&Tools数据治理要素数据治理策略获得支持引入外援找到“痛点”确定“起点”责任到人持之以恒绩效评估实事求是确定方法做好绩效标准先行使用工具奖惩机制经验总结

数据

治理实施建议

*数据质量提升是目标*主数据管理是关键*元数据管理是基础••••••

议程数据治理的背景和现状数据治理策略元数据管理主数据管理数据质量管理大数据平台设计什么是元数据•

元数据的定义–

技术元数据–

业务元数据–

操作元数据为什么要进行元数据管理Why?123456数据的参考框架解决数据模糊性可视化数据流动影响和血缘分析推进标准化建设规范化数据审计

1.2.3.4.5.6.经验分享

标准先行

全局治理

尽快见效

高层支持

业务参与

奖惩机制数据定义标准化数量月销售量月销售量++标准单词对象词素词素词素词素分析原属性名(标准化对象)

标准域数量类型:

数字型长度:

19,0

分类词+

标准用语月度销售数量类型:

数字型长度:

19,0

修饰词标准单词

月度标准单词

销售标准单词

数量标准单词

月度

销售

数量

分类词(域)标准体系数据定义标准体系

标准单词标准域标准用语数据模型标准化结构

实体、属性、关系、主键,范式化等

命名规则、用语词典、标准域等管理

数据管理政策、方针等

配置管理、版本管理等质量

准确性

、完整性、实时性、一致性应用

查询结果的准确性、使用便利性、查询结果的迅速性模型设计

标准实施路线模型优化模型诊断设计规范设计指南按照模型设计规范和指南统一设计企业数据模型元数据管理系统可使用可管理可控制模型要素关系定义规则应用系统注册元数据库脚本同步指导数据库设计审核、评估、发布提交反馈元数据服务标准规范标准化体系(数据定义&模型设计)

制定

完善引用•••••••

元数据管理工具的选择元模型易于扩展界面友好安全和系统管理配置管理发布、查询、报表功能平台开放提前试用••••••

议程数据治理的背景和现状数据治理策略元数据管理主数据管理数据质量管理大数据平台设计什么是主数据•

企业主数据分散存储在企业各系统内,对企业至关重要的核心业务实体的数据,比如客户、合作伙伴、员工等–

关键–

分散–

缓慢–

共享主数据类型

当事人事物地域财务和组织主数据与参考数据•

参考数据可以是主数据,但不一定是主数据为什么要作主数据管理数据冗余难亍应变阻碍业务数据冲突Why?如何做好主数据管理经常遇到的问题如何做好主数据管理识别并管理主数据相关方整理并分析主数据的生命周期识别主数据含义、上下文、类型主数据实施流程运行维护项目实施主数据

识别数据梳理

项目实施要点•选择工具•定制开发•制定标准规范•确定组织架构

申请维护

主数据管理系统注册

准入

审批访问服务查询安全管理匹配查重

CRM

数据校验人事管理流程组织机构统一数据共享

标准规范强化决策支持主数据

管理体系

提升数据质量数据导入

ERP

发……

版本管理财务通知

废弃••••••

议程数据治理的背景和现状数据治理策略元数据管理主数据管理数据质量管理大数据平台设计数据质量问题

数据质量1、数据的值域

3、数据的完整性

5、业务规则

7、数据转换

2、数据的定义

4、数据的有效性6、结构完整性8、数据流

业务部门统计部门(业务部门)负责业务规则的制定,在业务层面统管数据质量和安全。

技术主管部门技术部门负责数据集成、使用等过程中的数据质量,并对数据质量报告进行定期发布。

评审委员会技术部门设置评审委员会,对数据方面的变更进行管控,具备技术方案否决权。

组织架构设计●

业务与技术部门各司其职,共同做好数据质量管理工作应用服务《数据质量管理规范

二级检控数据质量治理流程数据录入/质量检查生产库

后台库一级检控复制数据仓库ETL短信通知短信通知录入修改确认技术主管部门》业务部门管理员策略Description

of

the

contents方法策略和方法

反面影响和

正面的效果

征得了领导

层关注

改进工作分布实施,

循序渐进数据质量报告定期

发布应用系统需求和架构经过严

格评审系统的数据结构变更需要进行严格

评估数据发生变更时,通报所有

相关方Description

of

the

contents技术手段

从源头改起,形

成良性循环24小时监控,及时按照预案处理问题

多环节设置数据

质量监控功能短信及时通知相关业务人员核对问题

BI系统不断整合不断改进工具软件最佳实践从数据剖析(Profiling)开始尽量使用工具进行数据剖析数据剖析工作需要持续开展数据集成过程也需要进行数据剖析数据质量评估和改进需要被动和主动两种方式最佳实践得到高层的支持关键数据先行,渐进开展在数据的“上游”解决质量问题“防患于未然”优于“后期治疗”数据质量报告要大范围发布••••••

议程数据治理的背景和现状数据治理策略元数据管理主数据管理数据质量管理大数据平台设计关于大数据的几个问题•

什么是大数据•

大数据与传统数据仓库是什么关系•

Hadoop与MPP数据库数据采集传统数据仓库

数据存储计算数据展现ERPCRM财务人事数据挖掘报表展现数据集市多维分析EDW抽取转换清洗加载分析人员管理员源数据数据转换数据仓库业务用户数据展示ODS为贯彻落实国家发展改革委等八部委联合印发的《关于加快煤矿智能化发

展的指导意见》(以下简称“指导意见

”)、《我国煤炭行业高质量发展总

体思路、

目标方向、量化标准和重点举

措研究》等国家相关政策,加快我国煤

矿智能化建设,推动煤炭行业高质量发

展,特制定本指南。本指南是促进智能

化煤矿建设、行业技术进步和规范发展

的指导性文件。

智慧

(煤矿)

矿山建设指南2(1

)子系统烟囱式建设

,数据获取难。管理层需要业务数据时

,经常需要软件商配合

,用户无法及时获取并提供数据。二是数据无法按照集团管控要求和时间及时提供。(2

)数据时效性差。目前从业务系统中获取数据到进行精准决策数据分析需要T+N天

,并且数据指标维度不全面。当前最新设备状态参数数据、系统运行数据无法及时获取。(3

)缺乏平台化“数据打通”,各个数据平台烟囱式关系

,没有统一的共享和管控体系

,数据标准不统一

,部门间无法有效共

享使用。(4

)缺乏全集团统一的数据标准。“同名不同义、

同义不同名”。各业务系统数据以自家接口文档形式提供输出

,有的则手动根据多个指标库内抓数据分别提供

,无法做到企业全流程安全把控和规则制定。煤矿智能化(数字矿山/智慧矿山)

是煤矿综合自动化发展的新阶段

,是煤炭工业高质量发展的核心技术支撑。建设智能化煤矿是新时期煤炭企业面临的重要任务

,是煤矿企业数字化转型的基础

已成为不可逆转的发展趋势。企业业务系统多

,系统烟囱式建设

,数据接入困难

,数据标准不统一

,数据孤岛问题严重。

煤矿企业数字化进程中遇到的问题数据时效性差数据无法共享数据获取难数据缺乏标准31

2

3

4

5

n数据应用数据资源数据应用数据中台全域数据资源(OneData)后台•

子系统“烟囱”式建设

,数据不共享

,业务不联动

,管理改进难•不同业务对接同一功能子系统,异构重复建设

,成本高•业务创新需调用多子系统数据

,应用构建难

,开发周期长•新的数据架构下

,打破数据壁垒

,满足未来运营发展需求

煤炭企业大数据平台

(数据中台)

价值数据应用开发:

月/年

数据资源:

不可复用数据应用开发:

天/周数据资源:

可复用1

2…

n4数据资产

,技术

,组织

,业务流程多要素协同

,驱动业务创新和业务升级业务导向建设数据模型强调数据时效性

,提供实时数据分析能

力面向数据价值

,为业务应用提供统一数

据服务主要服务于一线业务人员核心功能为业务流程支撑提供基础的统计、报表和数据分析功

能不同业务系统之间形成数据烟囱数据BI

数据中台2

3强调数据集成

,整合多业务数据面向数据应用、

BI报表、即席查

询、交互探索数据支撑强调数据治理及数据管理组织、制度、流程

煤炭企业大数据平台

(数据中台)

企业数字化转型的基础业务系统1数据价值:高数据价值:低6

煤炭企业业务系统前期调研

(1)7

煤炭企业业务系统前期调研

2)8基本情况:

5个领导中心、

47个业务系统当前煤炭企业业务系统由于没有进行相互集成

,系统之间数据没有交互关系,所以本次调研根据所属中心部门进行划分为:

“生产技术中心”

“机电运输

中心”

“调度指挥中心”

“后勤保障中心”

“安全中心”5个中心领导

部门

,其中梳理底层业务系统47个

计划上线9个

目前正常使用38个。数据情况:

主要以下五种1、

SQL

Server

数据库(安全监测系统、

束管防灭火监测等)2、

OPC协议(清洗泵房、

空压机监控系统)3、Access(电力计量系统、

ZKAcess人员刷卡系统)4、

My

SQL

(汽车装车系统、

双重预防信息系统等)5、接口对接(非数据库类型、

数据获取难)

煤炭企业业务系统前期调研

3)9主要中心主要部门系统名称具体区域当前情况主要功能开发厂家数据库类型对接方式10生产技术中心通防部通风机管理系统未上线方案待定智能通风管控系统未上线方案待定灾害智能融合分析与可

视化分析未上线方案待定瓦检巡检管理系统未上线方案待定安全监测系统已上线粉尘、设备、

甲烷、一氧化碳、风机开停

监控sqlserver

2008数据库对接束管防灭火监测已上线采空区气体情况、识别气燃发火气体sqlserver

2009数据库对接采空区光纤测温系统已上线采空区温度sqlserver

2010数据库对接生产部总采顶板检测系统已上线山东科技大学sql

server数据库对接掘进顶板检测系统已上线山东光安sql

server数据库对接地测部水文系统已上线地下水位观测西安中煤可控集

团西安研究院sqlserver

2008数据库对接龙软GIS已上线矿井地质

,通风参数

,地质信息、录入、

展示及分析北京龙软sqlserver

2016数据库对接智能地质保障系统未上线地质建模

,地质推演

,地址数据可视化

,矿井地质基础信息、关联信息、预测信息等能够用可视化的方式直观的展示出来。方案待定

煤炭企业数据中台业务系统情况主要中心主要部门系统名称具体区域当前情况主要功能开发厂家数据库类型对接方式11机电运输中

心机电部门供排水系统中央泵房已上线流量压力

,水泵负压

,水泵入口

负压,

出口正压

,流量监控、北京富力通winCC西门子OPC协议清洗泵房已上线流量压力

,水泵负压

,水泵入口

负压,

出口正压

,流量监控、天地常州西门子300PLCOPC协议二盘区泵房已上线流量压力

,水泵负压

,水泵入口

负压,

出口正压

,流量监控、淮南万泰西门子1500PLCOPC协议掘进系统已上线目前没有系统

,只有PLC智能设备通过上位机获取PLC数据然后经过OPC协议进行数据传输电力安全监控系统已上线监控及控制变电所高压柜及部分低压柜西瑞sqlserver

2003数据库对接主通风机监控系统已上线监控主通风机运行及相关参数西安宇田一百立方供水已上线生活供水系统

,参数及状态西安重装kepserverOPC协议或kepserver电力计量系统已上线计量各个变电所高压柜用电情况山东山大电力

设备access本身自带系统

,可以提供账号密码

,同时提供传输点空压机监控系统一号压风机已上线监控空压机运行参数西门子PLC315-2DT上位机走OPC协议二号压风机已上线监控空压机运行参数ABPLC1769上位机rsslinx洗选部门设备自动化控制系统已上线洗煤及选煤自动化设备控制北京华宇sqlserver

expressOPC协议火车装车系统已上线火车装料北京华宇sqlserver数据库对接汽车装车系统已上线汽车装料北京华宇mysql5.7数据库对接运输部门主运输系统已上线皮带参数

,运行状况南京北路sqlsever2008数据库对接\接口辅助运输系统已上线车辆运输、运料深圳翌日sql

server数据库对接

接口

煤炭企业数据中台业务系统情况\主要中心主要部门系统名称具体区域当前情况主要功能开发厂家数据库类型对接方式12后勤保障中心后勤部安防视频监控系统已上线矿区井上监控视频神州数码视频文件厂区内一卡通门禁

系统已上线门禁识别系统

,主要针对培训中心

,文体中心

,5号公寓楼建设

,数据不互通

,单独进行授权皮克sqlserver

2005数据库对接南大门-车牌识别系

统已上线南大门车辆进出信息记录

,车辆信息存储,

由部分照片数据西安鼎众设

备科技sql

server数据库对接南大门-ZKAcess人

员刷卡系统已上线南大门人员进出刷卡系统

,存储个人信息

及进出记录西安鼎众设

备科技accesss本身自带系统

,可以

提供数据库账密南大门-人脸识别系

统已上线南大门人脸识别系统

,存储个人信息及照

片信息数据及进出记录西安鼎众设

备科技sql

server数据库对接\接口保安巡逻系统已上线保安巡逻信息记录

,点位信息数据蓝卡软件自带数据库数据库对接\接口停车管理系统已上线针对培训中心

,办公楼

,地下车库三个地

下停车场门禁管理

,数据信息管理蓝卡sql

sever数据库对接消防报警系统已上线主要针对办公楼消防信息数据管理控制,根据反馈数据进行报警西安莱科思OPC协议虹膜管理考勤系统已上线利用虹膜信息进行打卡

,实现员工考勤记

录凯宏电子sqlserver

2008数据库对接一卡人脸收费卡系

统已上线买饭购物刷卡陕西春垚SecurityDBBock软件自带系统

,需要

和软件开发商沟通

煤炭企业数据中台业务系统情况主要中心主要部门系统名称具体区域当前情况主要功能开发厂家数据库类型对接方式13调度指挥中心智能部人员定位系统已上线人员矿井定位深圳翌日sql

server数据库对接调度通讯系统已上线矿井通讯信息数据北方联创sql

server数据库对接应急广播已上线矿井应急广播信息数据南京北路sql

server数据库对接井下视频系统已上线井下录像视频数据海康威视视频数据接口智能工作面25211工作面已上线智能化工作面触电信息数据天玛sql

server建议OPC协议对接44204工作面

和15215已上线智能化工作面触电信息数据玛珂OPC协议OPC协议设备管理系统已上线管理矿区设备情况宇通集团数据难获取非集团建设部署OA办公系统煤炭企业OA办

公系统已上线数据陕煤集团公司OA系统与钉钉已做对接陕煤股份数据难获取非集团建设部署安全中心

·安全部双重预防信息系统已上线人工上传安全隐患信息

,对矿厂安全隐

患事故进行记录处理中国矿大mysql

1.7+数据库对接\接口安全检查系统未上线徒步检测

,定期检查

,发放检查任务,

发放检查通知方案待定智能推送系统未上线需要与隐患系统、双重预防信息系统及消防安全系统进行联调

,推送接受安全隐患信息方案待定智能信息系统未上线针对安全隐患现场进行拍照上传

,与推送系统进行联调

,通知到具体负责人进行改良方案待定智慧园区系统未上线统一管理园区消防设备

,消防报警

,信

息报警

,培训中心

,行政中心

,5号公

寓楼

,救护队

,视频资源数据信息情况方案待定智能应急管理系统未上线管理井下应急事故及计划预案

,同时与

通信呼叫心态

,人员定位系统进行联调,

井上针对救护中队

,医疗室,应急物资进行统一管理

,对接调度中心方案待定

煤炭企业数据中台业务系统情况构建统一、

融合、

智能、

高效的煤矿大脑,

助力用户逐步建设具有主动感知、自动分析、

深度学习、

智能决策、

科学指挥的智慧型矿山。

致力于为煤炭企业

构建“全”、“统”、“通”、

”智”的

(大数据平台/数据中台)

体系,

基于“数字新基

建”时代的数据价值思考,

构建全域数字化矿区共享能力中心,

助力煤炭企业实现数字化转型,

打通底层系统之间数据壁垒,

加强公司整体管理和安全生产

系数,

为运营提供数据统筹模型,

实现重点数据实时监控和数据共享开放服务。全域分析智能决策打通原有业务系统统一煤炭企业统一数据标准数据申请与审核统一数据报表支撑综合管控数据统一治理数据资产管理形成数据字典数据发布直观掌握数据支撑决策分析(约47个)数据血缘提供决策依据支撑创新应用等

煤炭企业大数据平台

(数据中台)

建设目标统一资产统一标准数据管控打通数据14智慧矿山(数字矿山)综合管控平台后勤保障中心一卡通门禁车牌识别系统人脸识别系统保安巡逻系统消防报警系统安全中心双重预防信息安全检查系统智能推送系统智能信息系统智慧园区系统调度指挥中心机电运输中心

煤炭企业大数据平台

(数据中台)

大图数字孪生

领导驾驶舱煤矿数字孪生煤炭企业当前存在系统较多

,调研共计47个

,其中计划上线9个

,当前在使用系统38个。煤炭工业大数据平台(数据中台)煤矿高风险预警工业态势感知不安全行为分析智慧园区管控综合管控中心智能指挥调度3D可视化煤矿一张图煤矿运营指标体系安全生产监测智能掘进开采束管防灭火空压机监控安全监测系统瓦检巡检管理通风机管理掘进系统供排水系统主通风机监控调度通讯系统应急广播设备管理系统人员定位系统数据字典数据挖掘数据集市数据模型算法开发标签中心数据血缘数据清洗数据标准数据开发数据治理智能通风管控电力安全监控智能工作面数据资产数据质量数据采集中台支持

·数据互通中台支持

·数据互通中台支持

·数据支撑中台支持

·数据支撑15煤矿全域数据中心--数据中台/大数据平台大数据应用领导驾驶舱高风险预警工业态势感知应急指挥调度智能开采掘进业务数据数据源数据集成数据开发平台SQLETLShellSpark

appMLAB数据集市数据资产数据标准数据模型数据整合质量监控数据血缘数据安全元数据管理数据服务

化能力共

享统一标准清洗融合建模挖掘大数据计算平台数据仓库ODSSTDDWDDM数据同步数据同步数据治理平台关系型数据库拿拿煤矿全域数据中心--数据中台/大数据平台数据应用数据开发平台大数据计算平台数据仓库数据集成业务数据数据治理平台数据服务总线

+业务能力拿拿数据共享交换平台数据同步拿拿外部数据关系型数据库分析型数据库业务库n业务库1前置库

前置库拿拿ETL

ETL

数据交换网关数据交换网关根据智能化煤矿(井工)分类、分级技术条件与评价标准,切实提升煤矿行业数字化指标,实现智能化煤矿建设。

煤矿企业大数据平台

(数据中台)

实现目标18指标名称计算方法数据服务分项分数=a1+a2+a3a1.矿井地质、工程等资料实现了数字化

,且数据进行了合理的分类与存储

,数据见交互方式合理,得0~40分;a2.文件类数据采用FTP进行交互

,音频数据采用SIP,RIP和RTSP协议实现

,非标准工控类设备数据采用OPC/OPC

UA

标准实现

,对于环境类数据

,井下人员数据、非标准机电设备检测控制类数据采用行业统一的数据交换标准规范

协议,得0~40分;a3.具有合理的数据源分析属性、产生层级及交互层次规范

,得0~20分;

大数据中心的数据服务功能及健全程度评价指标见表7所示。表28数据中心指标评价方法指标名称计算方法数据服务分项分数=a1+a2+a3a1.矿井各类资料均实现了数字化

,且数据进行了合理的分类与存储

,数据间交互方式合理,得0~40分;

a2.采用行业统一的数据交换标准规范协议

,得0~40分;a3.具有全面的数据分类属性、产生层级及交互层次规范

,得0~20分;

大数据中心的数据服务功能及健全程度评价指标见表7所示。表7数据中心指标评价方法根据智能化煤矿(井工)分类、分级技术条件与评价标准,切实提升煤矿行业数字化指标,实现智能化煤矿建设。

煤矿企业大数据平台

(数据中台)

实现目标19

智慧

(数字)

矿山

煤矿企业的发展方向煤矿企业大数据平台/数据中台建设四维度:实现海量数据治理

整合

,对数据进行

清洗比对加工、存

储和交互

,确保大

数据应用分析的准

确性数据采集管理自动

,实现生产数据、

业务数据、管理数

据的全面、实时、多结构自动采集降低数据使用门槛、

提升数据使用效率,

打破数据孤岛

,全

面支持高层决策分

析和创新业务应用四、数据分析/数据

使用智能化统一数据标准

,快

速建立分析模型

挖掘有用价值

,推

动管理升级

,预测

未来发展趋势三、数据标准统一

化/模型开发简单化二、数据治理/数

据整合加工流程化一、数据采集管

理自动化采用统一的数据接入模式

以标准化、

模块化的方式进行多源异构数据资源的接入

,解决应急管理信息资

源在集中汇聚时面临的分散孤立、

源头多样、

跨网传输等问题

,为应急数据资源的汇聚集中、

统一标准化

处理和信息资源池构建提供源数据支撑。新型NoSQL数据库文件系统开源大数据平台一、

全域数据中心建设--数据集成全量抽取实时增量抽取时间戳增量抽取实时日志增量抽取全量覆盖追加Append写入冲突行覆盖忽略冲突行关系型数据库其他类型数据源其他格式数据数据接入系统晶数据仓库对象存储数据库直观易用的B/S用户界面是DataBridge区别于其它同类产品的重要特色。

DataBridge屏蔽了复杂的数据操作过程,无需高级DBA或技术人员提供咨询或编写不透明的定制脚本代码

,通过简单的界面操作

,就可实现大部分数据转

换整合的应用场景。

同时可根据业务需要周期性的对作业进行自动调度

,无需人工干预。完全基于B/S用户界面、

简单易用晶国产数据库支持--数据集成国产化大数据平台与数据库引擎、

消息中间件对接:n

HW:

HDFS、

HBASE、

HIVE、

OBS、

Elasticsearch、

gaussDB100、

gaussDB200、

gaussDB300n

阿里:

MaxCompute(ODPS)、ADS、

RDS、

OTS、

OSS、

Datahub、

DRDS、

HibridDB(PetaData)n

中兴:

HDFS、

HBASE、

HIVEn

南大通用:

GBase8a/8s/8tn

达梦:

DM7n

人大金仓:

KingbaseES

V8n

金碟/中兴/H为消息中间件

:AMQ消息中间件Apusi

c

V9.0、

中兴kafka、

H为kafka、多源异构数据采集转换--数据集成n

支持主流数据库和大数据平台

,如Oracle、

MySQL、

SQLServer、

Db2、

Sybase、

PostgreSQL、TeraData、

Redis、

MongoDB、

REST、

达梦、

南大通用GBase8t、

HDFS、

HBase、

Hive、GreenPlum、

H为Hive、

H为LibrA等;n

阿里云的RDS、

DRDS、

MaxCompute、

AnalyticDB、

DataHub、

OTS、

OSS等组件的数据互通;n

支持文件搬移与文件解析

FileServer协议支持SFTP、

SMB、

FTP、

OBS、

OSS等

文件解析支持诸如xml、

txt、

csv和Excel等格式

支持zip包;n

支持全量高速同步以及增量同步

文件同步;n

支持Oracle

dmp文件导入;

支持数据加密传输

,保证数据传输过程中不泄密。七大组件数据/服务资源目录、

数据交换中

控、数据交换总线、

数据交换网关

、API服务中控、

API服务网关、

据ETL工具。高性能•

单节点120MB/S、

30万条/秒

(工信部下属第三方测试结果)•

支持集群高可靠•

支持自动断点续传•

支持断开网络或系统重启后数据不丢失高安全•

支持数据传输过程加解密•

专利技术实现非侵入式增量数据提取•

基于大数据平台支持安全交换高易用•

目录驱动的交换•

多源异构数据的汇聚、

交换•

库级交换、

汇聚

交换网关API网关

前置库

开放服务

ETL

业务系统

部门2

交换网关API网关

前置库

开放服务

ETL

业务系统

部门N数据资源目录/服务资源目录二、

数据交换共享系统

交换网关API网关前置库

开放服务

ETL

数据交换中控API服务中控数据交换总线中心数据库业务系统部门1。

。或数据标签结构化数据比对非结构化数据比对结构与非结构化融合比对三、

数据治理建设内容数据标识数据探查数据比对数据提取数据清洗表级探查字段级探查非结构化

数据提取视频、

像数据提文本数据

提取音频数据

提取结构化数

据提取数据格转数据校验数据过滤数据去重取26过滤日期值清洗数据清洗即可实现对结构化和半结构化清洗

如对原始库中的数据静态数据清洗

也可以对流数据进行清洗。数据治理数据清洗原始库消息队列资源库消息队列离线数据实时消息流式数据清洗离线数据清洗编码转换去重校验格式转换编码核验字段长度清洗值域清洗时间值清洗多表处理多表合并实时业务表表级处理分区标准化多列合并波动监控表大小波动检测表行数波动检测值监控布尔分析完整性分析字符串处理去除空白字符去除特定字符值清洗数据脱敏同义词替换数据清洗组件唯一性分析数值分布分析外键检查分析日期分析日期范围分析数据分组合并空值填充列均值波动监测列值和波动检测枚举值分析数值分析汉语转拼音字符串截取身份证信息提取日期拆分长度过滤正则过滤标准值域过滤空值过滤转为Unix时间戳日期标准化电话号码清洗JavaScript清洗历史拉链表转换为字符串全角半角转换身份证校验转换列最值波动检测标准值域分析大小写转换SQL清洗拆分列数据标识是利用标签库中已经建设好的规则

,对数据进行比对分析和模型计算

,将符合规则的数据进行标识

为进一步

的数据使用提供支撑

,数据标识支持表标识

,列标识

,数据规则获取规则解析规则执行结果输出1、创建标签类目3、

配置标签打标规则2、标签类目中创建标签4、

配置引用数据数据治理数据标识列标识待标识数据标签库表标识条目标识条目标识。标签引擎两级可视化数据清洗与挖掘任务工作流

清洗任务配置两级可视化数据治理数据管控系统数据管控要实现对数据资源池数据的管理和控制

,功能主要有数据标准(数据元)

管理、

数据字典管理、

数据质量管理、

数据血缘等。创建并维护数据模型中使用的数据字典

,制定并管理平台遵循的统一数据标准

,帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。建立系统数据质量评估标准

,从完整性、一致性、准确性、及时性、唯一性等方面评估数据是否达到预期设定的质量要求。全链的数据血缘分析和展示

,通过数据血缘清晰的查看数据在数据源库、原始库、资源库、主题库和专题库之间的总体流向。对数据标准定义、维度定义、维值代码定义、公共统计规则的管理和维护

,为用户制定后续的标准化和归一化的清洗规则提供强有力的参考依据。数据标准管理数据字典管理数据质量管理数据血缘管理数据治理数据标准建设数据标准:数据拍标准

(勘据元)规范,

是对数据类型

,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。

它是数据资源池数据清洗、标准化、以及数据质量监控的基础依据数据治理建设过程中要对数据元素进行标准制定、对数据字典进行标准制定数据标准体系数据字典标准数据元素标准数据治理建设要求实现对数据血缘的管理

,数据血缘管理了数据从哪里来到哪里去的完整链路

,如下图所示

,通过数据血缘查询可获取主题库“事件事故基本表”从哪些系统融合了数据

又被哪些业务系统所使用数据治理数据血缘管理l

一张图看清每个数据的来龙去脉l

基于血缘图进行数据质量和数据安全问题溯源、

影响分析数据治理

全链路

”数据血缘建立数据质量管理体系

,实现数据治理平台数据质量的

有效管控

,管理维度包括:

完整性:

主要包括属性缺失、

记录缺失、

字段缺失几个方面

合效性:

主要包括格式、

类型、

值域、

和业务规则的有效性

及时性

:指数据刷新、

修改和提取等的及时和快速性

一致性

:数据含义一致性、

数据格式一致性、

数据传输不丢失

,指

统一数据来源、

冗余存储和统一口径的一致性

唯一性

:指主键唯一和候选键唯一两个方面

主键重复数据检核

主外键是否缺失检核

准确性

:指计量误差、

度量单位等方面的精确度数据治理数据质量管理体系数据质

量准确性合规性唯一性及时性完整性一致性序号表名称表中文名称字段名称字段类型字段注释检查类

型有无质量

问题问题分类问题记录

数表总记录

数1t_yj_tfsj_sb_r突发事件表IDvarchar(64)ID(主键)一致性Y一致性:数据不一

致9584217932t_yj_tfsj_sb_r突发事件表TITLEvarchar(64)标题完整性Y123135183t_yj_tfsj_sb_r突发事件表varchar(64)灾害类型完整性Y完整性:空值1366277434t_yj_tfsj_sb_r突发事件表REPORT_MANvarchar(64)报送人完整性Y完整性:空值141970320314025t_yj_tfsj_sb_r突发事件表REPORT_TIMEdatetime报送时间完整性Y完整性:

值658988659004检核的表检核的字段及规则检核的结果说明及问题归类样例:基于数据质量检核表或字段进行概况统计的报表

,展现全局资源池资料状态数据质量统计报告,全局分析数据治理质量情况,了解资源池整体数据质量情况数据治理数据质量报告对开户日期进行完整性检查

,检查数据的

缺失情况统计信贷系统和核心系统证件号一致,客户

号不一致的记录数。对客户名称进行完整性检查

,检查客户名

称是否存在空值。对客户名称进行完整性检查

,检查客户名

称是否存在空值。对开户日期进行完整性检查

,检查数据的

缺失情况样例:基于突发事件表五个字段进行一致性和完整性的质量检查及表级数据质量明细报告selectcount(*)fromCUSVAA

a

join

CUSM

b

ona.cust_no

=b.cust_acct_nowhereb.CUSTOMER_TYPE

in

('02','03')andtrim(a.

NAME)

is

null;selectcount(*)from

MICMajoin

CUSM

b

ona.customer_no

=b.prim_acctwhereb.CUSTOMER_TYPE='01'and

trim(a.NAME_2)

is

null;selectcount(*)from

ind_infoa

join

CUSVDD

b

ona.certid

=trim(substr(b.id1,

1,32))wherea.customerid<>substr(b.cust_no,8,9)selectcount(*)fromCUSMwhereCREATE_DT

is

nullor

CREATE_DT

=0;selectcount(*)from

CUSVCCwhereOPEN_DATE_01

is

nullorOPEN_DATE_01

=0;对公客户及金融机构客户共13518对私证件及姓名记录数627743完整性:空值检查sql检查概述TYPE备注四、

大数据计算平台软件大数据计算平台(以下简称)

,采用内存迭代计算技术

,集SQL、

MR、

Graph、

ML多种计算

能力于一体

可以提供TB/PB级别以上的数据存储和数据分析处理能力。数据仓库

大数据应用数据挖掘和机器学习SQL

、海量数据存储MapReduce

Graph

MLLIBl0编程基础大数据算法开发l算法开发整体效率提升2倍以上l一站式数据开发、测试、生产、运维环境数据开发(Studio)全可视化数据/算法开发算法开发数据开发服务共享中控能力共享平台

能力共享平台

以信息目录的

形式提供数据及能力展示的窗

并提供服务检索能力;

服务共享中控:

提供服务开发、

管理、

运维、

统计的能力;

API服务网关:

提供转发能力

具备服务路由

协议转换

务流控

,插件热加载等机制。开放服务

六、

数据服务总线开发与运维人员服务开发服务调用运维监控权限控制DataMallCSP

Gate

API服务网关DataMallCSP

Gate

API服务网关DataMallCSP

Gate

API服务网关业务用户服务发布

服务申请

服务授权...

...

数据库开放服务开放服务数据库数据库

对服务的全生命周期进行有效管理

管控目标:

服务标准化、

服务松耦合、

服务可重用、

服务透明性及服务可发

通过对服务质量的管控

,进而实现对

开发商(服务提供者和服务消费者)

进行量化管理服务开发、服务发布服务生命周期管理服务订阅、服务调用解决管理难:

服务全生命周期管理服务生命周期管理审计、优化提升运行质量监控以用户服务的安全为首要任务

,提供多种有效防护来保障用户服务的安全:

以RESTful

API的方式对外提供间接的数

据访问服务,

隐藏服务的真实地址,

降低服务开放风险;

提供服务访问身份鉴权机制

,具有防伪造和防重放功能,

防止对服务的非法访问;

提供服务申请审批机制,

防止未经授权的

非法访问;

提供服务调用限速机制

,抵抗对服务的高并发冲击

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论