数字化数据中台技术方案_第1页
数字化数据中台技术方案_第2页
数字化数据中台技术方案_第3页
数字化数据中台技术方案_第4页
数字化数据中台技术方案_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1案第一章数据中台概述1.1.数据中台介绍数字经济时代,用户才是商业战场的中心,为了快速响应用户的需求,借助平台化的力量可以事半功倍。然而第一,之前在传统企业信息化建设中企业为了满足单一业务场景需求而搭建的传统技术大数据应用场景。由此形成的技术壁垒,往往使得企业转型成本激增甚至无法实现转型;其次,在企业不断进展的过程中伴随着业务的多元化进展,企业信息部门单独建设或重据中心,从而导致大量系统、功能和应用的重复建设,更造成了计算存储资源和人力资源的铺张;它使得企业数据难以被全局规划和定义,从而导致数据价值无法被充分挖掘。传统信息化建设往往以满足业务流程结果做为唯一标准,忽视了过程数据和关联数据。传统的数据平台和其所谓的三层技术架构:前端呈现层、中间逻辑层、后端数据层,己经无法完善地解决上述三个问题并实现以用户为中心的业务提升的。当前企业数据的爆炸式增长以及价值的扩大化,数据将对企业将来的进展产生深远的影存储、加工,同时统一标准和口径。2数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为低重复建设、削减烟囱式协作的成本,也是差异化1.2.数据中台价值中台从公司战略角度,将这些行为进行了规范化,公共的部分交给公共系统部门去做。中台实际上是通用业务的下沉,企业在一个行业耕耘多年之后,一般都会形成一些公用的业务,而这些业务是可以像中间件那样进行下沉共享的。平台等等,就不会再有各种业务系统孤岛,不会有数据打通问题,不会有跨部门的数据墙。有了统一的中台,也就有了统一的数据规范。对于大数据相关的需求,可以从相对唯一的数据出口进行业务迭代,不需要为每一个部制开发,铺张人力。1.3.数据中台设计原则1.3.1.数据的全都性和标准性的习惯性事实标中将充分考虑客户已建系统的数据,确保与客户现有数据的全都1.3.2.数据的有用性和服务性3数据中台设计充分考虑实际状况和应用特点,遵循“服务性与实用性并重”的原则,数据质量高,保证数据的有用性。1.3.3.数据的独立性与可扩展性设计时需要做到数据中台的数据具有独立性,独立于应用程序,使数据中心的设计及结构的变化不影响程序,反之亦然。另外,数据库设计要考虑其扩展性能,使得系统增加新应用或新需求时,不至于引起整个数据中心结构的大变动。1.3.4.数据的安全性通过设计合理和有效的备份和恢复策略,确保数据中心患病突发事故时,能在最短的时间内恢复。同时,通过做好对数据中台的访问授权设计,保证数据不被非法访问。1.3.5.数据分级管理机制户和运行调度用户等几个角色,分别赐予角色访问数据的权限和使用系统功能的权限,严格把握角色登录,实现数据的分级管理。1.4.数据中台设计方法1.4.1.基于面对服务的架构方法(SOA)基于面对服务的架构方法(Service-OrientedArchitecture,SOA)接受基于面对服务的架构方法,构建才智城市运营中心的业务流程和IT架构。SOA(面对服务的体系结构)将政府中各个系统应用程序的不同功能单元抽象为服务,通过这些服务之间定义良好的接口4系统和编程语言。这使得构建在各种各样的系统中的服务能够通过统一和通用的方式进行交组件协同工作共同支撑服务的部署、运行与管理监控。1.4.2.业务系统规划法(BSP)业务系统规划法(BusinessSystemPlanning,BSP)的关键思想是将业务的长期战略目标转化为信息系统的战略目标,通过对业务战略的分析导出信息系统的规划。业务系统规划法(BSP)接受的基本方法是“自顶而下”的识别业务目标、企业过程和数据“自下而上”地分布设计系统,这样可以解决大型系统难以一次性设计完成的困难,也可以避开自下而上分散设计可能消灭的数据不全都。业务系统规划法(BSP)的规划步骤:(1)预备工作;(2)调研;(3)定义业务过程;(4)业务过程重组;(5)定义数据类;(6)定义信息系统总体结构;5(7)确定总体结构中的优先挨次;完成BSP研宄报告,提出建议书和开发方案。1.4.3.系统工程理论系统工程方法将相关问题及状况分门别类,确定边界,侧重各门类之间内在联系,确保处理方法的完整性,接受全面和运动的观点、方法分析主要问题及整个过程。其具有综合系统的对象,立足整体系统,制作出科学的工作方案及流程,有效地完成任务。现最佳处理问题的目标。其基本内容有:全面调查研宄有关资料和数技术性能、经济指标,留意社会效果,为最终方案在理论和实践上做铺垫;经由系统分析与综合,比较和鉴别出最优系统设计方案进行实施;依据系统设计方案,指定有效方案,将开发争辩出的系统投入使用,并对系统的性能、法在计算机软件方面应用广泛,同时点,在计算机软件设计阶段可规范其流程,促使计算机软件设计进程加快,同时提高开发人员的工作效率,为软件系统研发速度的提局打下基其次章数据中台核心功能62.1.技术架构目前各政府机构和企业的信息化平台数据按结构类型主要三种,分别是:结构化数据、类;结构化数据存储在关系型数据库中;非结构化数据主要包括音视频、图片、文档等,通过分布式文件系统在数据库进行统一管理;半结构化数据是结构化数据的一种形式,但它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层,例如:日志数据源消灭,因此数据中台要能够妥当地处理这三种类型的数据。数据中台基于数据资源多样性的特点和能够高效支持业务的目标,结合设计规划方法论、原则和规划思路,统一数据资源系统规划建设大数据采集体系、数据资源融合体系、数据分析体系和数据共享服务体系,将数据安全和数据标准融入四大体系之中,通过智能演进。2.1.1.层次架构,统一数7系,将数据安全和数据标准融入四大体系之中,通过智能演进不断提升数据接入、处理、组织、挖掘、治理和服务的力量,不断丰富和完善数据中台。数据资源总体架构图如下所示:2.1.2.规律架构统一数据资源体系的规划建设是数据建设的核心,承载着高效使用底层平台力量进行海、精细化组织、全维度融合、精准可控的共享服务、多手段集成安全等关键责任和重任。为实现上述目标,统一数据资源体系规划了三大体系:大数据感知采集体系、数据资源融合体系以及数据共享服务体系。系统功能设计上,主要包含:数据接入、数据处理、数据组织、数据挖掘和数据治理、数据共享服务。各个模块的功能构成如下:2.1.3.数据架构入、融合及智能数据应用服务等供应稳定、高效的支撑。从数据的接入方式、存储方式、加工方式、使用方式等方面综合考虑,资源库是在原始库的基础上进行数据的规范化治理及基于数据主题资源数据为基础,构件实体关系模型,并在此基础上形成的学问图谱和事理图谱等;业务库是为了支撑不同业务场景所定义的相关数据结构。学问库是专业领域或与专业领域相关的特征学问数据和规章方法集合。此外还包括整合数据索引信息的统一索引库;记录了本平台及与平台相关的数据的属性、位置、数据量、权限等基本信息的数据资源名目;记录了技术元数据、业务元数据、8管理元数据的元数据库;以及为交互分析挖掘规划的数据试验空间和记录平台相关管理配置信息的管理信息库。数据架构图如下:2.2.数据统一采集接入平台2.2.1.平台架构供采集全面、动态可配的数据接入机制,实现数据的猎取分发、策略配置、任务配置、任务调度、数据加密、断点续传等数据接入功能;当接入时,同时维护数据资源名目,以及数据2.2.2.数据流程平台供应一站式的数据迁移接入功能,内部数据通过专用数据通道进入统一接入平台,可在接入过程中做初步的清洗加工,并供应可视化的任务调度运行管理,并向数据智能管理和数据治理供应数据支撑。2.3.数据加工处理平台9支持实时计算和离线计算,支持批量处理操作。数据传输过程支持分布式数据传输方式。在数据处理过程中,引入人工智能技术,实现结构化和非结构化数据的处理,现数据的价值提升。在数据处理过程中,引入模型体系和标度,为数据智能应用实现数据增值、数据准2.3.1.平台架构数据处理遵循相关标准,通过对数据进行提取、清洗、关联、比对、标识、对象化、构建学问图谱等规范化处理流程,实现异构数据的标准化及深度融合。数据处理接受开放式架构,能够以统一、标准、易于扩展的方式进行数据处理流程的动态编排。同时,在各环节引入了自然语言处理、多媒体信息处理和机器学习等技术,实现对数据的智能感知和认知。2.3.2.数据流程2.4.数据组织管理平台2.4.1.平台架构支持数据加工。同时实现了非结构化数据的关键信息的提取、数据分级分类标签等处理。原始库对外供应了查询、比对、推送、订阅等服务。同时为后续的数据血缘追踪供应溯源支持。资源库主题库通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类学问图谱和事理图谱。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对学问库对外支撑学问类数据的查询以及模型工程、标签工程等服务。业务库中的业务专题库实现了业务专题类分析,业务学问库汇聚了单一业务系统的知务资源库是对业务的相关数据支撑。在此基础上,实现了对外的数据统计、分析、推送及碰撞等服务。数据资源名目对外支撑各部门对数据资源名目的查询。2.4.2.数据流程1过程,提高数据质量和数据价值数据源:在接入时,一般直接进入原始库。也可直接分发,进行数据处理,存储到资源库或业务库原始库:数据经过按需提取、清洗、关联、比对、标识(也就是数据标签)等多种数据处理后,进入资源库资源库:资源库中可以进行结构化数据提取和清洗去重,净化数据;资源库数据在通过对象化提取、清洗归并,进行关联和标识(对象标识),输出到主题库主题库:经离线归一化(Idmapping)计算、关联和标识(包括对象标识),计算结果可以输出到主题库或业务库业务库:业务库内部数据也可以按需进行数据处理,供业务系统使用学问库:资源库、主题库和业务库均有可能用到学问库,通过对资源库、主题库和业务库进行挖掘,可反哺和进一步完善学问库2.5.数据综合治理平台2.5.1.平台架构数据标准管理负责管理维护整个数据中台的标准,为其他各类管理活动供应标准化服务理和数据资产管理供应元数据支撑,基于元数据管理建立血缘关环流程和管理功能,为数据质量供应必要的保障;数据运维管理则全面把握数据接入、数营是数据资产管理实现的最终阶段,该阶段包括幵展数据资产价值评估、数据资产运营流通等。2.5.2.数据流程与融合后的效果,规范数据组织形式;同时对数据质量进行管控,通过运维手段确保数据全生命周期的高质量运行,通过数据运营变现数据价值;2.6.数据共享服务平台2.6.1.平台架构服务总线通过API接口方式供应服务,服务构建平台为应用开发供应支撑。通过以上方式,形成数据中台手段丰富、分类服务、按需动态授权的数据服务综合模式。2.6.2.数据流程2.7.数据挖掘分析平台2.7.1.平台架构从下至上分为数据源层、数据集成服务层、工具支撑层、应用服务层、场景层。数据源层:本层是各类数据的来源,包括公安内部的结构化和非结构化的数据,以及可以在业务支持下供应外部如互联网之类的数据等。数据集成服务层包括数据接入管理,通过数据抽取的服务工具来对结构化和非结构化数据的抽取,在抽取的时候可以通过接入配置相关的功能来进行配置及抽取任务的管理,从而达到定时、定量的接入各类数据;数据处理,在系统中对于数据是实时接入的,在接入的同据我们进行了清洗和加工的操作,针对非结构化数据如图片,我们会做标注和特征提取的操作;数据管理,数据在入库以后,会进行统一通过这些方式,对数据进行全方位的掌控。工具支撑层:供应学问图谱生成工具,可视化建模工具和关联关系分析工具,学问图谱是智能研判的核心内容,是构建以人为核心的相关业务,通过一系列的数据操作形成人员主题模型;同时通过模型管理、关系管理、标签管理来对人的相关业务数据进行管理。应用服务层:体现了平台随想即成,随需而变的理念,在功能应用方面我们通过对公安业务的高度总结凝练,形成了信息查询、关系拓展、数据研判、实时监控、猜测预警的功能应用服务体系,再结合各类可视化呈现的相关功能,构建出了高效有用的应用服务模式。场景层:用户的应用场景的无穷尽的,我们通过积累总结,针对用户的各种业务场景,照实时猜测、实时推送数据等。通过应用、API、服务、数据等方式来支撑我们自己产品的同时,也可以对外供应各种支持,如多终端的使用等。2.7.2.数据流程平台数据整体规律针对行业数据管理的痛点,将数据由分散到集中,从无序到有组织,供应数据挖掘分析服务来针对业务场景进行数据价值挖掘,通过数据开放服务来支撑应用。平台支持全生命周期的数据资管理,数据依据衍变过程可分为:基础数据、主题数据、、接口数据。基础数据:将分布在不同的业务系统的结构化和非结构化数据,通过ETL工具、API和MQ进行统一接入,形成基础数据。主题数据:围绕人、物、地、事等基本业务要素,将基础数据进行组织,经过元数据管理、数据标准管理、数据质量管理等数据治理过程,形成主题数据。专题数据:通过数据增值服务,针对不同的应用场景进行数据挖掘,形成支撑场景业务数据,通过学问的关系图数据等。2.8.数据可视化平台2.8.1.平台架构数据可视化平台为整个数据中台供应了大数据可视化呈现力量,它为客户供应了各种可视化组件,客户可以依据自己的需求通过组件间简洁组合进行数据呈现。挂念用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。。可视化技术借助人脑的视觉思维力量,通过挖掘数据之间重要的关联关系将若干关联性的可视化数据进行汇总处理,揭示数据中隐含的规律和进展趋势,从而提高数据的使用效率。在化平台使人们不再局限于使用传统关系数据表来分析数据信息,而是以更直观的方式呈现和推导数据间的规律关系。总而言之,数据可视化是做大数据分析的一个很重要的手段。2.8.2.数据流程丰富的可视化组件可挂念业务精确     的表达数据的价值所在,完善的功能可挂念用户建立有针对性的报表体系。其主要价值可体现在即席查询、数据洞察与大屏呈现、移动报表之上。第三章主要关键技术3.1.内存级数据共享交换1)多元异构、一键迀移非结构化数据的处理,实现对数据仓库、大数据平台以及各业务系统的数据,依据统一的传输交换策略进行高效传输和集中管理。2)数据采集和分发适配多数据源,能够对结构化数据、半结构化数据、非结构化数据的差异化数据源分别实现相应的数据采集力量。同时可实现跨网络的远程数据采集和传输到目标源数据库。3)实时数据交换据交换,提高数据分析4)数据ETL工作流数据质量校验,可实现对加载的数据文件或者数据库数据进行质量校验,包括但不限于数据格式的精确     性,数据表的非空校验,特别数据识别等。并依据安全要求,进行数据传输加密5)分布式内存处理内置分布式缓存集群,集群规模可扩展到100个节点以上。可对流入的数据流进行实时数据清洗和加工,集群规模可依据待处理的数据量增长而扩大集群规模,可满足来自数据源的高并发写入和高吞吐写入,单节点写入数据量可达到500M/S以上。6)多种数据灾备方式支持多种备份和恢复方式供应全量备份、增量备份、日志备份等备份方式,供应依据时间点恢复、自动灾难恢复支持数据库实时同步支持主库与备份库实时同步、和按自定义时间戳或SCN号同步。支持数据库高可用容灾通过平台内置的数据库日志采集模块,可实现将主库中的表数据实时同步到异地灾备中3.2.一站式数据集成及数据管理1)全局规划一一全局设计大数据中心,标准模型设计,统一数据指标口径;2)数据融合一一打通任意数据源,自动重构元数据与主题数据,为应用供应统一数据服务;3)资产管理——对数据资产全局把控和智能管理,对数据高效治理,追踪数据用途和产生的价值;4)智能分析一一对所管理的数据进行机器学习算法分析,使统计分析的BI智能升华到AI智能;5)数据映射一一自动加速数据查询,最高可提速1000倍,完全发挥关系代数的计算力量;6)查询下推一一对任意数据源优化查询语义,如阿里云RDS、亚马逊S3、RDBMS、7)统一查询引擎一一基于成本的查询规划器自动生成查询规划来优化数据映射和下推3.3.数据分析模型完成不同业务数独立出来,以适应不同的业务要求。在具体的实施中,依据大数据处理的目标定义和选择合适的数据处理模型。平台通过管理各种数据分析模型,加载样本数据,创建调度任务,产生中间或最终结的服务接口进行封装,从而能够满足不同的需求。平台通过基于Oozie工作流的方式,可视化的监控到每个分析模型的工作MR的运行状况,并且能够对分析模型进行评价和优化,这也是目前系统的创新点之一。3.4.数据治理技术数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到机构全业务范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个质量问题、元数据管理问题和数据服务问题。(―)数据治理核心驱动力数据标准规范化:规范化管理构成数据平台的业务和技术基础设施,包括数据管把握度与流程规范文档、信息项定义等。数据关系脉络化:实现对数据间流转、依靠关系的影响和血缘分析。数据质量度量化:全方位管理数据平台的数据质量,实现可定义的数据质量检核和维度分析,以及问题跟踪。服务电子化:为数据平台供应面对业务用户的服务沟通渠道。(二)数据治理核心技术统一数据标准:对数据进行分类、口径、模型等规章的标准化统—管理元数据管理:以建立企业级数据模型、指标体系为切入,将业务分类、业务规章、数据立方体纳入元数据管理完整、全都数据生命周期管理:实现数据生命周期的多级管理,将数据使用频度和资源占用合理分配数据安全管控:对数据管理全过程的数据资产、传输、环境、访问把握、人员权限等方面进行全面的安全管控。3.5.数据挖掘技术数据挖掘一般是指从大量的数据中通过算法搜寻隐蔽于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、数据检索、机器学习、专家系统(依靠过去的阅历法则)和模式识别等诸多方法来实现上述目标。从数据本身来考虑,通常数据挖掘需要有数据清理、数据变换、数据挖掘实施过程、模示等8个步骤。信息收集:依据确定的数据分析对象抽象出在数据分析中所需要的特征信息,然后选择集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。组织供应全面的数据共享。数据规约:执行多数的数据挖掘算法即使在少量数据上也需要很长的时间,而做商业运但仍旧接近于保持元数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或数据清理:在数据库中的数据有一些是不完整的(有些感爱好的属性缺少属性值),含噪声的(包含错误的属性值)并且是不全都的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、全都的数据信息存入数据仓库中。不然,挖掘的结果会差强人数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。数据挖掘过程:依据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规章推理、模糊集、甚至神经网络、遗传算法的方法处理信息,得出有用模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。学问库:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的学问存放在学问库中,供其他应用程序使用。数据挖掘过程是一个反复循环的过程,每一个步骤假如没有达到预期目标,都需要回到前面的步骤,重新调整并执行。3.6.可视化建模技术可视化建模(VISUALMODELING)是利用围绕现实想法组织模型的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论