数据中台标准方案_第1页
数据中台标准方案_第2页
数据中台标准方案_第3页
数据中台标准方案_第4页
数据中台标准方案_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据中台标准方案数据中台标准技术方案2021年1月9日故(中方案目录 TOC o 1-5 h z HYPERLINK l bookmark2 o Current Document 数据中台概述 6 HYPERLINK l bookmark4 o Current Document 数据中介介绍 6 HYPERLINK l bookmark20 o Current Document 数据中台的价值7 HYPERLINK l bookmark6 o Current Document 数据中台设计蟆则 8 HYPERLINK l bookmark8 o Current Document 据的一致性与标

2、准性 8 HYPERLINK l bookmark10 o Current Document 数据的实用性与服务性 8 HYPERLINK l bookmark12 o Current Document 数据的独立性与可扩展性8 HYPERLINK l bookmark14 o Current Document 数据安仝性- 8 HYPERLINK l bookmark16 o Current Document 数据分级管理机制 9 HYPERLINK l bookmark18 o Current Document 数据中台设计方法 9里j面向朦务的架构方法(SOA)9业务系统规划法(BSP)

3、 9 HYPERLINK l bookmark26 o Current Document 系统1.程理论 II HYPERLINK l bookmark22 o Current Document 数据中台核心功能 12 HYPERLINK l bookmark24 o Current Document 技术架构 -12层次架构 13逻辑架构214故中台“器方案 TOC o 1-5 h z 可视化建模技术 90NLP语义分析技术 91知识图谓技术 92数据交换共享技术指标 93应用系统技术指标 93数据加工分析技术指标 932.1.3 数据架构 -15 HYPERLINK l bookmark3

4、2 o Current Document 数据统一采集接入平台 16平台架构 16数据流程17平台功能 17 HYPERLINK l bookmark42 o Current Document 数据集中处理平台 29平台架构 29数据i此程 30平台功能 30 HYPERLINK l bookmark50 o Current Document 数据组织管理平台 48平台架构48数据流程 49平台功能 50数据全域治理平台 56平台架构 56数据流程-57平台功能 57数据质置管理平台 62 3 ft M 93 4(故*(中台杵器方案 TOC o 1-5 h z 数据标准管理 62数据生命周期管

5、理 63据质疑管理 65数据运维管理 65数据共享服务平台 66平台架构 66数据流程 67平台功能 67数据可视化平台 76平台架构 76数据流程77平台功能 773主要关罐技术 85内存级数据交换共享 -85一站式数据集成和数据管理 86数据分析模型 87数据治理技术 87数据挖搦技术891数据中台概述1.1数据中台介绍因为在当今H联M时代,用户才是商业械场的中心.为快递响 应用户的需求,借助平台化的力量可以力半功倍.然而第一之前在传 统企业信息化建设中企业为了满足单业务场景需求而搭建的传统 技术架构,式底忆技术通型大都无法支序现仃大数据应用场景。由此 形成的技术壁修,往往使得企业转型成本

6、激增H至无法实现转型:第 二在企业不断发展的过程中伴随着业务的多元化发展,企业俏息部门 单独建设或巾建全新业务系统,逐渐杉成了 个个相互独立的数据中 心,从而导致大致系统、功健和应用的重夏建地,更埴成计算存储 资源和人力资源的浪费:第三企业由于业务发展带来的组演壁:而形 成的数据孤岛,是数据喂垒址典型的场景.它使田企业数据难以被全 局规划和定义.从而导致数据价位无法被充分挖掘.传统信息化建设 往往以满足业务流程结果做为唯一标准,忽视f过程数据和关联数 据。传统的数据平台和其所谓的三层技术架构:前端原示层、中间逻 机展、后端数据层,已经无法完善的解决上述三个同脖并实现以用户 为中心的业务提升的.

7、当前企业数据的爆炸式增长以及价值的扩大化.数据将对企业未 来的发展产生深远的影响,数据将成为企业的核心资产.数据中台是 指通过数据技术,对海破数据进行采奴、计算、存储、加工,同时统 一标准和口径.数据中台设计原则数据的一致性与标准性除遵循数据库设计的软件行业标准外,还要遵循国家、地方标准 及行业的习惯性犷实标准.此外,数据中台的建设中将充分考虑客户 已建系统的数据,确保,客户现tr数据的一致性和标准性.数据的实用性与服务性数据中台设计充分考虑实际情况和应用特点,遵循“服务性与实 用性并重”的原则.通过数据整合与治理,数据高度可共享、和可根 据实际需求不断灵活组合,为业务应用服务,数据侦玳高,保

8、证数据 的实用性.数据的独立性与可扩展性设计时需要做到数据中台的数据JI行独立性,独W应用程序. 使数据中心的设计及结构的变化不影响程序.反之亦然.另外,数据 辉设计要考虑其扩展性能,使得系统增加新应用或新需求时不至广 引尽整个数据中心结构的大变动.数据安全性通过设计合理和rr效的备份和恢狂策略.确保数据中心遭遇突发 事故时,能在短的时间内恢复.同时,通过做好对数据中船的访问 授权设计,保证数据不被乖法访问.故我中有杵41方案敷据分级管理机制根据用户访问数据中台的角色,将用户分成决策分析用户、系统 竹理用户、运行浏览用户和运行调度用户等几个角色,分别赋f角色 访问数据的权限和使用系统功能的权取

9、,严格控制角色登,七实现数 据的分级管理.数据中台设计方法基于面向服务的架构方法(SOA)基:面向眼务的架构方法(Scrvicc-OnentcdArchiicctuns SOA) 采用屈于面向服务的架构方法,构建智慈城市运营中心的业务流程和 IT架构.SOA (面向服务的体系结构)将政府中各个系统应用程序 的不同功能单元抽象为眼务,地过这些腰务之间定义R好的接口利烬 约联系起来.接口昆采用中立的方式进行定义的.它独迎实现服务 的硬件平台、操作系统和编程语言.这使得构建在各种各样的系统中 的服务能弊通过统一和通用的方式进行交互.SOA架构由服务总税、 服务目录、门户、流程管理等几个核心组件构成的

10、.这些核心组件协 同I:作共同支撑服务的部*、运行与管理监控。业务系统规划法(BSP)业务系统规划法( BusinessSystemPlanning. BSP)的关键思想是 将业务的长期战略H标转化为信息系统的战略目标.通过对业务战略 的分析导出信息系统的规划. 9 JI M 93 4(数据中台把数据统之后,会形成标准数据,再进行存储,形成 大数据资产层,进而为客户提供高效服务.这些服务跟企业的业务“ 依强的关联性是这个企业独自的ti能及用的它是企业业务和数据 的沉淀,共不仅能降低垂攵建设、M少烟囱式协作的成本.也是星兄 化比争优势所在.1.2数据中台的价值中台从公“J战略角度.将返些行为进行

11、现他化,公共的部分文 给公共系统部门去做.中介实际上足通用业务的下沉.企业在一个行业耕阮多年之后, 一殷都会形成一些公用的业务而这些业务是可以像中间件那样进行 下沉共享的.政府企业机构等对内对外有了统一的业务系统、管理平行等等. 就不公再仃各种业务系统孤岛,不公仃数据打通问题,不公有的部门 的数据堵.行了统一的中台,也就行了统一的数据规范.对于大数据相关的霸求,可以从相对用的数据出口进行业务迭 代,不需要为每一个部门进行定制开发.浪费人力.2数据中台核心功能2.1技术架构H阑各政病机构和企业的信息化于台数据技结构类型主要分为 三种,分别是,给构化数据.本练构化数据.半培构化数据二大类, 结构化

12、数据存储在关系型数据库中;养结构化数据上要包括各视频. 图片、文档等,通过分布式文件系统在数据库进行统一管理:半结构 化数据是结构化数据的一种形式,但它并不符合关系型数据库或其他 数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔 语义元素以及对记录和字段进行分层,例如:日志文件.XML文档、JSON文档、Email等.建设数据中台的过程中.这三类数据都会做为数据源出现.因此数据中台嘤能够妥善的处理这三种类型的数据. I2 ft X 9) *散中ft布方案业务系统规划法(BSP)采用的基本方法是“白顶面仁 的识别业务目标、企业过程和数据“自下而上”地分布设计系统,这样可以第决大型系统

13、难以一次性设计完成的困难,也可以避免口 F而匕分散 设计可他出现的数据不一致.业务系统规划法(BSP)的规划步骤;(I)准名 I:作:(2)调研:(3)定义业务过程:(4)业务过程正组:(5)定义数据类:(6)定义信息系统总体结构:(7)确定总体结构中的优先顺序;完成BSP研成报告,提出建议书和开发计划.% 10 ft X 93 ft故K中f?林相案1.4.3系统工程理论系统工程方法将相关问噩及情况分门别类,跳定边界,他重各门 类之间内在联系,确保处理方法的完整性.采用全面和运动的观点、 方法分析在要问题及整个过程.其人行综合性、科学性、实践性的特 点.利用系统工程理论指杼软件开发和维护.I:

14、变使用工程化慨念、 原理、技术及方法开展软件开发、维护的工作.栗用系统匚程方法是 用系统的原理、方法研究系统的对象,立足整体系统,制作出科学的 匚作计划及流程,仃效的完成任务系统工程方法依从系统全局观点,从系统。要素、系统与环境之 间相互联系、相互作用出发研究相关对象,实现最佳处理何超的目标。 其基小内容有:全曲调ft研允有关货料和数据,提取有效信息,系统 了解相关问题信息,进一步确定完成任务所需条件,提出相关方案. 展开定件和定麻的理论分析.进而进行实发研究,客剧评价系统技术 性能、经济指标,注中一社会效果,为最终方案在理论和实践上做铺塔: 经由系统分析与统合,比校和鉴别出最优系统设计方案进

15、行实施:依 据系统设计方案,指定仃放计划,将开发研究出的系统投入使用,并 对系统的性能、L作状态及社会反应做出相关评价和检验.系统L程 方法在计算机软件方制应用广泛,同时起着用要作用.结合系统L程 方法的特点,在计完机软件设计阶段可规范其流程,促使计尊机软件 设计进程加快,同时提高开发人员的工作效率.为软件系统研发速度 的提高打卜基础.% II ft X 93 ft数字中台数据资源多样性的特点和能够高效支持业务的H 标,结合设计规划方法论、原则和规划思路,统一数据资源体系规划 建设大故据采集忠知体系、数据费源融合体系和信息共享服务体系. 将数据安全和数据标漱融入大体系之中通过招能演进不断极开教

16、 据接入、处理、组织、挖掘、治理和服务的能力,不断丰宫和完善数 据中台.数据中台主要包函:数据统一栗更接入平台、数据妪中处理平台、 数据组织管理平台、数据组织管理平台、数据全域治理平台、数据融 合共享平台、故据分析挖掘平台、知识图谛平台、统一管理平台、数 据可视化平台等多个平行系统.层次架梅基于数据资源的需求分析和愿景II标,结合设计规划方法论、原 则和规划思路.统一数据表源体系规划建设人数据采集感知体系、数 据资源瞅合体系和信息共享服务体系,将数据安全和(据标准融入三 大体系之中,通过智能演进不断提升数据接入、处理、组纵、挖掘、 治理和服务的能力不断E富和完善数据中台.收据资源总体架构图 如

17、F所示:数提处理ZEE 1 3T! !I EE 2I , I1亡W1故修中有存器方案分压、分流(狂杂类型)等多种方式,调度箕点能够根据每个执行N 点任务执行情况,自动调配任务负我,能够将新增的传输任务或压力 较大执行节点的传制任务,调而到相对较堂闲的执行节点.调度节点 能弊自动检测执行节点出现的问题并做门动处理,能够感知新增的执 行行点并自动添加到分布式执行打点朱群调度节点要J1备高可用能 力.数据处理中使用到的完整的任务调度引维.篇要支持监控调度引 擎中每个调度任务的运行状态,如:当前是否运行:最近一次运行的 时间、运行结果、是否出现异常等.策略配置管理针对结构化数据、半结构化数据、非结构化

18、数据的不同类型特点. 配况管理中心支持按照提取、淅洗、过渡、比对、关联、标识等数据 处理过程,提供一体化、可融合的数据适配解析器器合数据转换功能, 实现根据数据类型台数据情况的白玷附数据解析和流程化处理.支抒任意种类、任意数据结构.任意H标际的数据提取传输.这 次kafla、wcbscrvice等消息处理机制,支持流式和熟戊处理。支持任意类型的数据融合任务配置,在保证数据安全的基础上. 根据传输策略,进行数据传输和存储.支持过渡、融合规则门定义,主要包括代码映射、NULL俏杵换、 字符中操作、字符印件换、字符串极取、添加字段、数据类型转换、 公式”眸、正则处理、组合字段、身份证操作、获取图片、

19、数据比对、% 41 ft X 93 91支持按年、月、周、日、小时、分钟、秒定时调度,可选指定有 效时间内调度.增收情况卜支持实时调度,数据近秒级同步.提供小件触发调度功能.包括文件就绪触发、变化日志触发、 HTTP等接口或URL谓发事件触发,支持操作系统shell脚本.和数 据库系统的shell命令和SQL版本调度功能.提供调度任务的实时可视化监控,包括交换皆点的操作系统主要 性能指标的图标、曲线,支持监控数据接口开发.提供流程调度组建,包括采样分流组建和任务编揖组件.实现多 任务的并行、串行、混合调度功能.采样分流一是实现数据的采样, 例:IOOW数据,按照10%的比例进行采样:.及实现根

20、据数据的条 件进行列断后对数据进行分流.例如性别为男的到某个座,性别为女 的到另个库,实现数据判断分流。任务编排用实现当A方案执 行完毕后,需要马上启动B方案的执行.此插件配置住A方案的末 尾,用户指定需要调度的方案.控制管理上要面向执行节点合调度节点,执行节点上饕承担数据 传谕任务的部抖运行智能,各鬣制好的数据传埔任务采用数据库方式 存储能第在不同执行节点上按需选用单机、集群或分布式模式执行. 调度节点是执行所有数据传输任务的统入门.录用“双活模式部 署运行,当个调度节点出现被障时,另个调度节点能够自动接管 正在执行的数据传输任务并实现断点续传,保障任务执行杼定性,确 保调度节点可搐运行.数

21、据传输任务调度方式按需选择.支持顺序, 按需(常规类型)、% 40 ft X 9) 91教(中仃杵41方案另外,这类数据的查询并不是直接针对图片和视频本身的查彻,而是 根据图片或视领(如果有)文件的路径进行定位.数据横型建设整个模型I:程的架构主要由算子管理、模型建模、模型管理和模 型引繁四部分加成.用户可以通过多种建模方式创建理昧准的模型,部署到模型运 仃用浜匕刖配寅模型参数,模型达什引维会对怏R达仃的合法性进行 验证,包括是否符合标准,数据资源是否有访问权限,算法参数是否 令法,模型编播是否合理等.模型通过验证之后,公上传到测试平台 上面,通过数据采样、构建测试桀等多种方式检洪模型执行的准

22、确性. 模型测试成功之后,进行模型上线部署.通过申讲计算资源,将模型 实例化成任务运行.传统建模的数据来源和模型的使用殷在同数据库当中.人数 据环境卜因为数据采集类里的乡样性和数据i t %的多样性使得来源 和使用分散在不同的计算存储资源节中一个模型的运行可能需要涉 及到图计算、齿纹计算、B维分析等&种方式的计算,因此模型需要 能在多个存储和计算资源当中自由流转.模型适配行要走解袂r这种需要跨存储、跨计算资源的统一运 行.通过对模型的输入、输出、算子进行识别,格需要设计到的数据 输入、输出资源调度到对应的数据接口服务中,通过统一的数据接口 服务,降低r慢型运行的发杂度.% 44 ft X 93

23、 91故(中行”布方案通过将齐子调度到合适的数据接I服务上面执行,每个算广的运 行都会对应到一个计算框架Eiti,通过解析算子的执行顺序以及依赖 关系,整个模咆的运行过程会形成一幅有向无环图,形成仃向无环图 的过程中也公根据算子之间的依赖关系形成加绥,当某个算产计算错 误的时候,只需要眼据曲缘重新计算相关的操作而不必回滚整个模 型。知火图谱建设将各类数据,汇总融合成为人、小、地、物、绢织等多类实体, 根据其中的属性联系、时空联系、语义联系、特征联系等.建立相互 关系.最终形成一张由人界地物组织构成的关系大网.关系网根据数 据的接入可自动更新,有效解决大数据时代数据分收、割裂以及难以 统一处理的

24、问鹿,为系统提供多维度、可点询、可分析、可研判的数 据系统。根据展示、分析衢要,可以通过鼠形层次料、阀形层次例、关系 河洛图.柱状图.时序图等主流常规的统计分析图形来组织和展示数 据,方便用户更方便、更1*(观、更深入、更全面的获取信息,及时应 用到综合研判作战系统中去,为实际作故提供仃效支撑.大规模知识库的构建与应用衙要多智能信息处理技术的支持.通 过知识抽取技术,可以从一些公开的步结构化、排结构化的数据中提 取出实体、关系、属性等知识要索.通过知识融合.可以消除实体、 关系、属性等画像与界实对象之间的歧义,形成岛版性的知像库.知 45 ft X 93 1I!(K中仃”布方案支持结构化数据和

25、半结构化数据(JSON/BSON. XML形式存 储)由于越来越多的应用在考虑对结构化数据为增删改置操作和半 结构化故据做管询.依靠和分析,对这些数据存储的支持能简化附用 程序的开发上作同时优化使得对这类数据的操作性能更棒文本格式支持可支持Text File、XML和JSON等文本.可将上述的文件写入 到数据库的文件系统中.由于上述文本格式除了会占用更多破世货源 外,对它的睇析开销般会比二进制格式高几卜伟以上,尤其是XML 和JSON,它们的第析开销比TexiFile还要大.可将上述文件格式进 行东缩后入库,大幅M少阻盘空间的占用率.文木数据入座后,可通过饯一的SQL语句时数榭进行行询.数据表

26、压缩对中间数据或最终数据做压缩,姑提高数据吞吐出和性能的一种 手段.对数据做压缩,可以大就成少破fit的存储空间,比如WF文本 的数据文件.压缩比可达5倍以上,同时压缩后的文件在磁fit间传输 和I/O也会大大M少.使用RocksDB时数据进行存储,并支持LZ4 等多种东缩镰法.支持对人按照质缩比例进行及时透明乐缩,数据乐 缩后支拄簧询、修改、插入、删除.此过程中无需就压.分石式云存储系统.在数据存储层构建的分布式文件系统作为图 片、视频等非结构化文件的基础文件系统,对各类媒体流数据,如视 频文件进行存储和管理.一般情况下,非结构化文件如图片、视频 等.这类数据数据m很大,属于非结构化数据,不

27、宜存储在数据席中.识推理则是在己仃的知识昨基础上进步挖掘、扩展知识库.知识图谱逻辑架构:知识图谱在逻辑上可以分为模式层与数据层 两个层次,数据房主要是由一系列的次实组成.而知识将以琳实为单 位进行存储.模式?构建住数捱U之上,主要是通过本体际来规范数 据层的一系列”实表达.本体是结构化知识库的做念模板,通过本体 库而形成的知识库不仅层次结构较强,并II冗余程度较小.知识图谱体系架构:知识图谱的体系架构是指构建模式结构,E 要由门顶向下(topxlown)与自低向上(bottomup)两种构建方式. 白顶向下指的是先为知识图谓定义好本体与数据模式,再将实体加入 到知识库.该构建方式凋要利用一些观

28、守的结构化知识昨作为大框础 知识陈.白底向上指的是从宜些开放宣据中提取出实体.选界其中宣 信度的加入到知识库,再构建顶乂的本体模式。目前,大多数知识图 谓都是果用自底向上的方式进行构建.由于知识图谱中的知识来源广泛,存在知识质量良劳不齐、来门 不同数据源的知识重复、知识间的美联不够明确等问题,所以必须要 进行知识的融合.知识融合是高层次的知识组织,使来自不同的知识 源的知识再同 框关规范下进行异构数据整含、消岐、fx匚、推理胫 证、更新等步旗.达到数黑、俏恩、方法、经验以及人的慰出的融合. 形成而版瓜的知识库.2 人工智能语义分析建设实体语义分析平台是一歙集成统“学习、机界学习、深度学习等% 46 ft X 93 91教*(中心“布方案关键门线语:处理技术,具备属语义模型建设用场景化门然语J处 理流程建设能力的春结构化文本数据语义挖掘1:八.致力广解决机器 学习以法与业务的门动映射,提供业务建模与业务计算能力为企业实 现除结构化文木落地.实现对作结构化文本进行智能处理.输出多维 度业务标卷,格无序的非结构化信息转换为满足业务需求的结构化数 据。可实现实体数据模型构建.高度抽象各项业务库、麦,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论