数据中台标准方案_第1页
数据中台标准方案_第2页
数据中台标准方案_第3页
数据中台标准方案_第4页
数据中台标准方案_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据中台标准技术方案202119年月日故■(中方案目录数据中台概述611.1数据中介介绍61.2数据中台的价值71.3数据中台设计蟆则81.3.1据的一致性与标准性81.3.2数据的实用性与服务性81.3.3数据的独立性与可扩展性81.3.4数据安仝性-81.3.5数据分级管理机制91.4数据中台设计方法91.4.1里j•面向朦务的架构方法(SOA)91.4.2业务系统规划法(BSP)91.4.3系统1.程理论II数据中台核心功能1222.1技术架构-122.1.1层次架构132.1.2逻辑架构214故'中台“器方案可视化建模技术90NLP语义分析技术91知识图谓技术92数据交换共享技术指标93应用系统技术指标93数据加工分析技术指标932.1.3数据架构-15数据统一采集接入平台16平台架构16数据流程17平台功能17数据集中处理平台29平台架构29数据i此程30平台功能30数据组织管理平台48平台架构48数据流程49平台功能50数据全域治理平台56平台架构56数据流程-………57平台功能57数据质置管理平台62»3ftM934(故*(中台杵器方案数据标准管理62数据生命周期管理63据质疑管理65数据运维管理65数据共享服务平台66平台架构66数据流程67平台功能67数据可视化平台76平台架构76数据流程77平台功能773主要关罐技术852.3内存级数据交换共享-852.4一站式数据集成和数据管理862.5数据分析模型872.6数据治理技术872.7数据挖搦技术89数据中台概述1数据中台介绍1.1因为在当今H联M时代,用户才是商业械场的中心.为「快递响应用户的需求,借助平台化的力量可以力半功倍.然而第一之前在传统企业信忆技术通型大都无法支序现仃大数据应用场景。由此形成的技术壁修,往往使得企业转型成本激增H至无法实现转型:第二在企业不断发展的过程中伴随着业务的多元化发展,企业俏息部门单独建设或巾建全新业务系统,逐渐杉成了•个个相互独立的数据中心,从而导致大致系统、功业由于业务发展带来的组演壁々:而形成的数据孤岛,是数据喂垒址典型的场景.它使田企业数据难以被全局规划和定义.从而导致数据价位无法被充分挖掘.传统信息化建设往往以满足业务流程结果做为唯一标准,忽视f过程数据和关联数据。传统的数据平台和其所谓的三层技术架构:前端原示层、中间逻机展、后端数据层,已经无法完善的解决上述三个同脖并实现以用户为中心的业务提升的.当前企业数据的爆炸式增长以及价值的扩大化.数据将对企业未来的发展产生深远的影响,数据将成为企业的核心资产.数据中台是指通过数据技术,对海破数据进行采奴、计算、存储、加工,同时统一标准和口径.数据中台设计原则数据的一致性与标准性除遵循数据库设计的软件行业标准外,还要遵循国家、地方标准及统的数据,确保,客户现tr数据的一致性和标准性.数据的实用性与服务性数据中台设计充分考虑实际情况和应用特点,遵循“服务性与实用性并重”的原则.通过数据整合与治理,数据高度可共享、和可根据实际需求不断灵活组合,为业务应用服务,数据侦玳高,保证数据的实用性.数据的独立性与可扩展性设计时需要做到数据中台的数据JI行独立性,独据中心的设计及结构的变化不影响程序.反之亦然.另外,数据辉设计要考虑其扩展性能,使得系统增加新应用或新需求时•不至广引尽整个数据中心结构的大变动.数据安全性通过设计合理和rr效的备份和恢狂策略.确保数据中心遭遇突发事计,保证数据不被乖法访问.故我中有杵41方案敷据分级管理机制f角色访问数据的权限和使用系统功能的权取,严格控制角色登,七实现数据的分级管理.数据中台设计方法基于面向服务的架构方法(SOA)基:面向眼务的架构方法(Scrvicc-OrientcdArchiicctunsSOA)采用屈于面向服务的架构方法,构建智慈城市运营中心的业务流程和IT架构.SOA(面向服务的体系结构)将政府中各个系统应用程序的不同功能单元抽象为眼务,地过这些腰务之间定义R好的接口利烬约联系起来.系统和编程语言.这使得构建在各种各样的系统中的服务能弊通过统一和通用的方式进行交互.SOA架构由服务总税、服务目录、门户、流程管理等几个核心组件构成的.这些核心组件协同运行与管理监控。业务系统规划法(BSP)业务系统规划法(BusinessSystemPlanning.BSP)的关键思想是将业务的长期战略H标转化为信息系统的战略目标.通过对业务战略的分析导出信息系统的规划.»9JIM934(性•是这个企业独自的ti能及用的•它是企业业务和数据的沉淀,共不仅能降低垂攵建设、M少烟囱式协作的成本.也是星兄化比争优势所在.数据中台的价值1.2中台从公“J战略角度.将返些行为进行「现他化,公共的部分文给公共系统部门去做.中介实际上足通用业务的下沉.企业在一•个行业耕阮多年之后,一殷都会形成一些公用的业务•而这些业务是可以像中间件那样进行下沉共享的.公再仃各种业务系统孤岛,不公仃数据打通问题,不公有的部门的数据堵.行了统一的中台,也就行了统一的数据规范.对于大数据相关的霸求,可以从相对用•的数据出口进行业务迭代,不需要为每一个部门进行定制开发.浪费人力.2技术架构2.1H阑各政病机构和企业的信息化于台数据技结构类型主要分为三种,JSON文档、Email等.建设数据中台的过程中.这三类数据都会做为数据源出现.因此数据中台嘤能够妥善的处理这三种类型的数据.»I2ftX9)*散■中ft"布方案业务系统规划法(BSP)采用的基本方法是“白顶面仁的识别业务目标、企业过程和数据“自下而上”地分布设计系统,这样可以业务系统规划法(BSP)的规划步骤;(I)准名I:作:(2)调研:(3)定义业务过程:(4)业务过程正组:(5)定义数据类:定义信息系统总体结构:(7)确定总体结构中的优先顺序;完成BSP研成报告,提出建议书和开发计划.%10ftX93ft故K中f?林相〃案系统工程理论1.4.3系统工程方法将相关问噩及情况分门别类,他重各门类之间内在联系,确保处理方法的完整性.采用全面和运动的观点、方法分析展软件开发、维护的工作.栗用系统匚程方法是用系统的原理、方法研究务系统工程方法依从系统全局观点,从系统。要素、系统与环境之间相互联系、相互作用出发研究相关对象,实现最佳处理何超的目标。其基小内容有:全曲调ft研允有关货料和数据,提取有效信息,系统了解相关的理论分析.进而进行实发研究,客剧评价系统技术性能、经济指标,注中作状态及社会反应做出相关评价和检验.系统L程方法在计算机软件方制应用广泛,同时起着用要作用.结合系统L程方法的特点,在计完机软件设计阶段可规范其流程,促使计尊机软件设计进程加快,同时提高开发人员的工作效率.为软件系统研发速度的提高打卜基础.%IIftX93ft数字中台•数据资源多样性的特点和能够高效支持业务的H标,结合集忠知体系、数据费源融合体系和信息共享服务体系.将数据安全和数据标漱融入♦大体系之中•通过招能演进不断极开教据接入、处理、组织、挖掘、治理和服务的能力,不断丰宫和完善数据中台.据组织管理平台、数据组织管理平台、数据全域治理平•台、数据融合共享平台、故据分析挖掘平台、知识图谛平台、统一管理平台、数据可视化平台等多个平行系统.1.1.1层次架梅基于数据资源的需求分析和愿景II标,结合设计规划方法论、原则和规划思路.统一数据表源体系规划建设人数据采集感知体系、数据资源瞅合体系和信息共享服务体系,将数据安全和《(据标准融入三大体系之中,通过智能演进不断提升数据接入、处理、组纵、挖掘、治理和服务的能力•不断E富和完善数据中台.收据资源总体架构图如F所示:数提处理[W<a»I[iwmMi][]]■■MVJ[■2]I■■,I1亡」I料■的]1.1.2逻辑架构数据共享服务.各个模块的功能构成如下:故■中自持冷方案败抠共♦■身sac1.1.3数据架构数据中台数据架构是针对多源异构的数据场景,在数据纲织层面为数据的接入、融合及狎能数据应用服务等提供稳定、高效的支撑.从数据的接入方式、存储方式、加,方式、使用加式等方血综合号虑.资源库是在鹏用是结构.知识库是专业颍域或9专业领域相关的特征知识数据和规则方法奥合.此外还包括整合数据索引信息的统一索引库:记录了本平台及。平价相关的数据的屈性、位比、数据埴:、权限等批小信息的数据资源目求:记求了技术无数据、业务无数据、管理元数据的元数据库:以及为交互分析挖M规划的数据加脸空间和记录平台相关管理配置信息的管理信息库.数据架构图如下:故■(中有“布方案1.1.4统一采集接入平台平台架构2.2.1»»9Msea—i—rA»xwa出一1采用统一的数据接入模式,以标准化.模块化的方式进行多源异构数据资源的接入:提供采集全面、动态可配的数据接入机制,实现数据的共取分发.策略配龙、任务配况.任务调度.数据加密.断点5R16ftX9)«1欧•(中々”制方案息.平台提供•站式的数据迂移接入功能.内部数据通过弓用数据亚道进入统•接入平台,可在接入过程中做初步的清洗加工,并提供可视化的任务调度运行管理•并向数据智能管理和依据治理提供数据支用平台功能数据接入2.2.3考虑到数据的种类多样性、多源并构性,以及通道的多样发杂性.数据接入系统支持多源接入,支持对数据接入的插件化管理,可以分为关系型数据即、nosql数据库、分布式存储系统、流式处理系统.消息中间件系统.文本文件和文件系统等.»17ftX9)JI数据接入系统支持对数据的DML的抽取,抽取内容包括insert、update、delcicDDL的抽取.抽取内容包括fl不限于数据库表上阿、用户、角色、视图、由数、索引、约束等.对美系型数据陈的全量采集和增仇栗集.McgoDB、Hive.HBasc,XML、JSON等,任可视化旭置界面中通过拖拉建立和异构系统的映射关系.数据接入系统支持分布式存储.碾供分布式文件共学存储、多副本功能,提供对分布式存储中的文件、文件夹进行权限控制,使得各系统只能访问授权的文件、文件夹。提供对分价式存储的可视化操作.包括时文件进行立制、粘贴.删除等.数据接入系统支持流式处理系统,包括CQ,OinkFhrne采集组建,支持消息中间件系统,如kaflea、RabbitMQ.AciiveMQ等•支持实时方式.支持push被动接受和pull主动拉去两种方式.依据数据接入策略、传输策略对接入的结构化数据、半结构化数如、加结构化数据进行冷心.并按接入输出分发策略进行输出存入原始昨成分发给数据处理流程.数据接入系统提供对多种文件格式的解析*包括BCP、二进轨XML.AVROJSON.CSV及自定义格式文件.提供对ETP/SFTP、HTTP/HTTPS.Socket.WebSenice,SNMP等标准协议的数据接收能力.故界中杵方案数据接入系统支持多H.点文件接力传输功能.实现多11点文件传输,文本文档数据类型、但像数据类里、仔烧数据类型、视频数据类型、为媒体数据类R等.援供过期文件数据接入系统中间数据缓存功能,通过redis、hazclcasl致性.接入系统提供多通道数据传输,利用分层隔出原则,果用三种数据传输通道:通用数据自输通道、高优先缀数据传输通道、高谷吐网数据传输通道.提供标准接口.针对特殊数据结构及类型做插件开发,进而支持多样化的数据来源.数据接入策略配构化数据、北结构化数据的不同致据类型特点,妆照抽取、同步、整合等数据处理步例,提供一体化、可腺合的数卷适鬣就析器和数据转换功能,采用插件方式,支持二次开发,实现根据数据源情况的门适应数据解析和流程化处理.H标库的数据抽取传输,常用数据源、H标库类型主要行关系型数据库、列族数据库、并行分布式数据库、内存数据库、全文索引数据库等主湎数据库,支持FTP、XML.CSV、JSON、EXCEL、RCHILE等祐用文件类型,支持kaflca、WcbScrvice等消息处理类。%19AA9391数据接入的策略配置模块支持任意类型的抽取汇聚任务配置.主要包数据库和文件类、服务接口间相互传扬等.策略配置模块实现加于数据源的异构数据白动触析,并能按照任务场景进行白定义配置,实现智能化、可视化、组件式数据汇聚整合任务构建.对于数据接入周期不同需求的数据接入,策略配汽模块支持多样化的数据接入周期配置,根据数据接入实际需求的不同.策略配置模块支持实时数据接入、周期数据接入、批®数据接入、增ht数据接入、全T数据接入.对于实时更新的数据源,接入干行能够对数据源做实时的数据抽取,实现数据的周期性接入.对r•实时性要求较低的数据源,可以通过用户自定义条件.对源数据做批At敷据定出,实现用户自定义希求的批收接入.对于用户指定数据源,通过指定的导出字段或导出条件.对数据做周期性的增研导出,实现数据的增於接入.对斤•体盘较小的数据源.通过用户配置,实现对源数据的全ht数据导出.实现数据的一次性.策略配置模块支持多样化输出配置..数据接入系统包含冬悻化的数据接入除出接口.“r对的输出做多样化尼置这里包括木地存储系统、数榭库、用数据库、分布式文件系统、分布式缓存系统、全文存储系统、实时计第流系统、消息中间件系统.同时支持消息的订阅分发.»20ftX9)«1故■中自存方案点故障切换等功能,对视频图像、在频、文档等大文件数据,提供FTP、HTTP等文件传输方式,实现断点续传、多线程并行等功能,数据接入系统任务调度模块小仃多样化的任务调度机制,支持各类转换程序和交换任务的灭活定制.方便用户却也据抽取汇聚任务的流程控制有效时间内调度.增法情况下殳持实时调度,数据近秒级同步.支持推(push)、拉(pull)的数据使用方式.数据增V捕捉支持按时间数、数据快照、H数据接入系统任务调度模块提供可视化配置调度策略功能,实现数据接入,文件传输等任务通过运行架堆进行调度的功能.提供小件触发调度功能,包括就绪文件触发.变化II上触发.hup、WcbScrvicc等接口触发(含URL调度),坡现对满足条件的文件进行触发调度处理.提供文件分类调度功能,实现对满足条件的文件进行分类调度处理。数据接入系统任务调度模块提供流程调度组建,可视化配置任务的串shell脚木调度功能,实现通过可视化配置任务调用shell的shell命令调用,shellSQL调度功能,通过可视化配比任务实现对统一的标准SQL语句、存储过程、SQL函数的调度功能.提供前后处理调度功能,通过可视化界而配置制后处理两度实现多个任务之间联动运行的功能,被谓用的处»22ftX9)故界中有标巾〃案接入数据断点缘传数据接入系统支持数据传输过程中的断点续传.在数据总线传输过程中,'与遇到网络故障、传输资源短缺、入原始库枳压时,状态总线记录接入数据中断点及数据接入中断状态,控制总线在数据接入所制网络、存储等货源可用收,从持队任务中重用用动断点续传任务.分配数摭总线货源.从数据断点处接入后续数搦.不痛赎从夫开始数据传输.从而行约数接收订阅的数据时,接入系统支持对失败数据做断点垂发.数据接入任务管理数据接入系统支持多样化的任务管理方式.实现了多种场景的任务整合任务,保证大数据中心数据资源的准确性、完整性和一致性.数据接入系统任务调凌模块拉照数据规模、更新频率、内容特征等取汇聚策略.对数据总瓜规模不大、增R行限的一股业务数据,果用传统故据拍取汇聚模式,实现与当附在用数据抽取【:具的集成或开发类似功能.对高总小、高增长质的数据资源.栗用大数据传输汇聚模式,实现任务门动切片分发、断点续传、节点管理、调度节理为任务、二次开发的处理类(统计接入数据行数)。21ftX93ft数据接入系统任务监控模块提供面向EHfl身及所配一数据传确任务的监测器.监控得度节点运行状态及任务国度情况,海控执行S点运行状态及数据接入任务执行情况,及时栗臾各类监控对象的运行状态和用要性现异常情况的门动报警提附.数据接入系统任务监控模块监控所TT异常、运行、等侍、终止、完成等),能婚通过预设的运行异常指标,实头数据接入传输是否正常.数捌增用是否符令常态,及时发现并协调解决相关异常问题.任务监控模块同时监控门身的运行状态,为后期开展匚具问题的H志分析、故障诊断、系统优化提供数据支持.数据接入系统任务监控模块支持实时数据中断监控,实时监控接入数据的接入状态,如果中断时间超过预设阀值,则ALM处理.另外也支持股务器运行状态监控.包括JVM、task、CPU、内存、节点、活跃分区、禹线附M监控服务器的运行情况.如果服务器运行出现异常.则ALM处理。数据接入系统任务监控模块支持数据传输任务执行全过程和数据传输工具门身运行情况的H志实时采集.以及各个功能插件的运行n志的实时记录.数据传输n时长、传输总记录数、错误记录效、数据源、目标厚、数据时象、数据要素类型等内容.当输入源为文件类型时.数据传输日志包含采集文件名称、大小、读取记求:数、处理状态、处理时间等内容.当输入源为入源为时,数据传输n志包含数据来源、操作时间、接入条数、执行时间等内容.接入数据清洗2.Z.3.5数据清洗的任务是过淀那些不符合要求的数据,将过渡的结果能的直观的展示给相应的主管部门,主管部门确认电否过海掉或看件正之后再进行抽取.不符合要求的妆据主要仃以卜几类:缺失的数据:主要是一些数据的信息确实,如物品名称、物品代号、业务系统中数据不能兀配等。在系统中用户可以门动逸过滤规则.把这一类数据过游出来,输出到文本文件或Excel等格式文件提交给业务用户,业务用户在人工对数据修改核对后,阳写入数据仓库,如果修改的规则是固定的,也可以由系统按照规则自动添加、修改数据.锚误的数据:错误的数据生产的原因足业务系统不弊ft!全.或则人为误操作再接F输入后没仃进行判断H数据也要进行分类,不同的分类采取小同的处理方式,包括人匚处理和门动处理.处理之后再更改数据库里的数据.以按照规则将电史数据导出来,让用户确认并回写到数据库M24ftX9391故我中心存器方案数据清洗是一个和业务用户反复沟通的过程,不可能再彼短的时间内完成,只能不断的发现向爆,可能解决问题.对f•是否过灌,是否修正一般要求用户确认,对于过渡掉的数据要写入文本文件、Excel文件、并要用户确认.接入数据统计数据接入系统接入统计模块支持时接入数据、分发数据进行多种维宏观的、全面的掌握。接入统计模块主要从接入数据的数据最、接入数据文件数景、钵个接入数据文件的接入时间、数据接入的总此时、数据来源、数据文件类型、分发数据的数据V、分发数据的文件数摄、每个分发数据文件的分发时间,数据分发的总耗时、数据分发目的地等维度,对数据接入做接入数据的整体统计.数据接入系统接入统计模块支抒接入统计功能插件式开发,可口定义配况数据接入的统计项.接入敷据对账数据对账是数据提供方和敢据接收方在数据传输结束后进行完整性、•致性、正确性检依的过程,处供数据接入效果评估能力.包»25ftX93«1做标巾〃案括以下功能:H志存储和杳询统计.对T更新状态、联通状态、数据砧、校验等情况的统计.对于批依数据接入,殳持提供周期性接入信息代询和统计,支持格式ALM策略设况。数据对账发现异常问题时通过短信、虬件等方式通知管理员及时处理.数据对账支持对账功能的插件式开发,可根据特殊需求对数据对账功能进行扩充.适应数据接入多样化的数据对账功能.接入败据质量数据接入系统的数据质M银块对接入数据位接入维度的数据顺演检测出估据记录H志.数据接入系统对接入数据的数押对账k常记耒在接入数据问鹿报告.接入数据在完成数据对账后生成数据接入质摄报告,对数据接入过程做整体的质质评估粒测.数据接入系统的问题数据记录H志、接入数问题数据.标中,将目断的问题的数据路由到数据表或者数据文件中,支持»26ftX9)*据妣|丸监控上游系统数据顺敬,协助客户建立企业级数据加收管理环境.数据艇品:常理主要包含:ftHft类型、错误级别进行数据版质检表结果的汇总.我关注的检管任务;列IH我关注的检方任务的执行情况.顺砧II上浏览:可以浏览数据顺吊:的望记口花.汇总数据和清谟明细数据。钳误明细下找,用户可以K接用数据管理平台下我数据质量检查结果明细.6)费询主要实现工具是Dalawavc要功能与元数据的加本一致.7)数据脂质管理上要由数据质收管理员来完成,管理的主要功能主要包括:/明砒检代规则的增删改:可以维护质疑检代规则,可以修改检查规则的SQL食任务.将成功、失败倡息反馈记水,若执行多次后交换成功,记泵交换次数。数据接入系统支持对接入系统的运行状态的监控,支持向运维监控系统报送数据接入系统的JVM、lask、CPU、内存、节点、在鹿、活跋分区、离线分区、请求度“t指标等系统状态所标数据另外数据中台对数据颁址管理是平台建设中必不可少的曲要组成部分,良好的数据质疑挂管理【:作可以保证平台数据的正确性、完务性、相关性等侦RM降低平台应用服务质量,以及增加平台的建设和维护成本等后果•软掘顺砒管理的目标包含两方面,•足财源系统后的数框行个较全面的了解,比较具体的反映数据平台涉及的各源业务系统的数据质状:.是防范数据平台内部数据流程过程发生的错误,提高数据平台中的数据所疑.数据痂;止管理并不仅是在生产阶段才实施.在数据中台建设过程中,数据质■检查需要从要数据分析开始,自始至终贯串全过程.在源数据分析阶段,通过数拉:剖析《DataPolling)可以分析源系统数据斫瓜间廖«在开发溶试阶段,通过对数据加收的各个阶段设置冷位.可以验i£上游系统接口的完整性以及模型加工的正确性:在投产后的生产环境,通过设贪代码完整性、总分核对等检置,监控平台内的数据历届.数据中台实施数据颂lit管理的目的在T•,提高数据平台的加工数»27ftX93*为系统内部文件格式•从ETLpull络压力•日前最先进的方式是基FLOG捕获纯增研EXF的文件格式接近数据源的数据结构定义在业务需求清晰明确的前提F.Exiraci过程中可以过法不需要的数据记泉和字段数据转换。数据转换过程中数据我体为文件,这样充分发挥ETL匚具处理文件的强大性能和稳定性,根据数据抽取过程生成的CIF文件,经过数据清洗.结构相同的PLF(Pre-LoadFdrmH)文件。具体包含一下过程:数据内客数值的检奁代码转换.包括转换为依据仓库系统门已用才&据内容数据格式的规范化代理进的生成数据内容Merge在整个数据转换过程中需要记水很多诸如出III志、处理流程监控UH志以及一些统计信息.这尤要由一些公用的程序模块来完成,保证无论数据是否非法那会在我们的ETL处理范惘之内.易卜扩展的方式进行数据处理流程的动态编界.同时,在各环节引»31AX9)»1入「白然语言处理、多媒体信息处理和机器学习等技术,实现对数据的狎能修知和认知.数据流程2.3.2«♦。.。O平台功能2.3.3数据提取数据提取的过程上变是从功能各个业务系统上根据约定的采集周期栗缆全成或增累数据.生成相应的文本文件.在采集过程中可能涉及系统内或跨系统的数据关联荻取。这些文本文件的结构与源数据居本相同(根据n体需求可能要灌掉一些字段信息),我们称这些存放源数据的文本文件为EXF(ExtractFormat).数据抽取需要注意如下事项:•为提局bit农率,数据在进入ETL系统后的KXF文件将我换»30ftA9),侦疑口志的增删改:可以维护数据侦不日志.数据集中处理平台2.3数据处理是实现数据标准化的过程,包括了数据的提取、清洗、关联、比对、尿识、对象化等操作,支持实时计算和卤纹计算,支持批成处律技术,实现数据的价值提升•在数据处理过程中.引入模型体系和标室匚程和知识图谓技术,进一步提升数据价值密度,为数据智能应用实现数据增值、数据准备、数据抽象.平台架构JURMtriM**•««»■RMAIMMIIMSMXIAUWmm•BABMMMM⑥,⑨®♦⑥吟•MM.UM♦⑥♦⑥识、对象化、构建如识图谱等规范化处理流程,实现异构数据的标准化及深度融合.数据处理采用开放式架构,能第以统一、标准、故|(中仃杵布方案非结构化敷据提取II结构化数据的种类和来源比较M杂.对这些数据的提取处理操作也、各类报表、图像、各频文件和视频文件,在集群中提取生物特征败据.提取身份、行为、轨迹、关系、位H等侑息,提取后形成的结构化数据保存在关系型存储中,利卜数据长期存储和时用。原始数据保存在列式存储中。型相应的提取策略和规则,加敦居T•文本语义的分析提取模块、图像检测提取模块、语存识别提取模块、视频转换提取模块等.进行相应类型非结内化故据的提取处理.非结构数据提取方式如采用先进的计停机视觉和旃齐识别等技术。结构化数据提取由于结构化数据已经比牧规整•闪血对它的提取操作相对的电.按照数据坯准,从策略和配置中心获取提取结构化策略和规则,对原数据中的X类数据.通过凡干讲方理素的语义机取技术或特价函数.白动计舞特征值及特征值之间的语义关系.对数螭进行关健自息提取岬可.提取后的信息可应用于对象标注、业务分析、业务关联、业务预测等方面.»32ftX9)JI故1(中行杵布方案动逸过渡规则,把这•类数据过源出来,输出到文本文件或Excel等格式文件提交给业务用户,业务用户在人•再丐入数据仓库,如果修改的规则是向定的.也可以由系统按照规则自动添加、修改数据.•错误的数据:错误的数据生产的震区是业务系统不弊健全,或则人为误操作再接手输入后没行进行判断汽接写入后台数据库造成包括人工处理和门动处理,处理之后再更改数据库里的数据.•电/的数据:呕乂的数据特别是再维我中会常出现这种情况.系统可以按照城则将用攵数据号出来,止用户确认并回。到数据烽.数据清洗是一个和业务用户反发沟通的过程.不可能再很短的时间内求用户确认,而T文件、数据库表。认.非结构化依据清洗.2.1非结构化数据主要为文本、XML、图片和生频数据.对于非结构化数值比对去重、人1智能等技术力.法去弱.胡乂贯K93真故■中有“雅方案对象化提取遵从数据标准,根据肉象提取规则对数据进行主题进行对象化处理。更新、标识等数据对象化规则产生的多维发的对象化数据.对望化提取的数据匕要为主题库数据.井口停一个主题下•可能存在多个对象实体库.对象去响:对对彖化结果数据,通过对象化去也,消除兀余数据。忙需要将标识提取到对效化取据中•具体短则、填写的字段和字段内容,以设计实现为准.数据清洗敏振清洗的仔务是过泄那些不符合要求的数据.将过滤的结果能鲂仃观的展示给相应的主管部门,t管部门确认必行过逑掉或并修正之后再进行抽取.不符合要求的数据主要有一下几类:•缺失的数据:X要是一些数据的信息确实,如物品名称、物品代号、业务系统中数据不能匹配等,在系统中用户可以自»33ftX93JI做标相方案结构化依据清洗遵从数据标准,根据业务规划时冗余数据进斤过滋,根据不同的去用规则和方法对妆据进行去用判定,去除用女冗余数据.通过定义过滤规则,使用流式SQL通过时数据迸行清洗•提高数据的使用价俏.数据湎洗在具体实现上可分为全M清洗、增最清洗,根据实时性需要可以区分为实时清洗、作实时清洗.清洗过程又可以细分为过渡、去虫、检验、格转.数据关联些国收关系进行几配或联接,进一步提高黔据可用性。别对牙份证进行识别,根据两个号份证之间的共现或根据词向依计算词与词之间的相似度来判断网个人是否仃关系.数据对比触网报警等业务需要。从数据类型上分,数据比对分为结构化数据比对、作结构化数据比对.化数据处理过程中.放据的比对独帝作为数据的查垂、箭逸和补故■中自存41万案充,将输入数据。己仃数据进行比对关联,结构化数妪主要通过数据库杳询、关键字索引实现比对,非结构化数据图像、声纹等,数据比对除了在富数据资源库,还可以优化比对用繁,与数据应用形成良好的循环.常见的比对方式如下:SQLft比对作询.A1取发现数据,命中发现的相关信息.H结构化信息的比对.实时发现海M数据和海V全文中的相关信息.按照数据比对的方式,数据比对乂分为如卜.比对:关健词比对:通过对关键词及关健词组合的比对,在海鼠全文数据库中的中发现关健词相关信息。二进制比对:辿过对二进制文件(如文档文件、图片文件、音视频文件等)的比对.在数据中命中发现二进制文件桶关信总.数据标识标识是对数据、数据梁进行某一特征、特征的识别和认定.对数据进行标识化可以增加数据维度,拓展数据的属性,提供建立,数据之上的抽象.标识流程主要是惘绕标以建立一住包括标识的定义、执加3711K93页f模,利用机益学习和数据尼押的方法进行文件去术图片数据可以通过以图找图技术,进行图片去用.根据相似图像推测H标图片特征进行兀闻判断,从而判别出该图像是否为H标图像的拷贝或近似.芍虑到图像编辑的多样化,相似图像检测选择具有良好的尺度和亮度不变性,同时对仿射形变、视角改变和噪声等也力一定的鲁棒性的特征点来进行建军.通过比较询图像与参号图像的特征点相似性,判断出管询图像是否为相似代图像•该技术能的有效的处理更制、编辑等悚件引整的图像内容的变化,只有较好的检测准确率,图片冷测技术摄供图像消断度识别.适用J•各类图库产提升整体图像质通过图像模糊、失焦、噪点、锯齿以及马赛克等维度进行检测.对无价值的图像数据实现去用.针对各频数据•除J'MD5值进行校验去重之外,还可以通过对音频样本进行分析,可以在一个音频臾合中发现与音频样本相同的内容.这里相同的内容是指在不同的汗晚喊文件中.与样本内容片段-致的部分.实现在骊数据的大用.视频文件可以通过美被帧抽取,通过以图找图、语音识别、MD5值校验等技术,实现视颊的去,3»35AX9)«1故*4,会标相方案行标识.数据纠错综上所述,数据的标准化处理过程,按照数据标准.超本实现J'自动是由于数据的多源异构特性,数据的庞大亚杂性,对此类数据的门动化处理将是一个渐进改进的过程.在平台前期运行中,时进入各类资源库、主题库和业务库的数据需要进行准确性认定.针对有误的策略执仃回次操作,针对错误的数据中实现”1正错误数据功能.数据处理任务调度输汇聚模式,实现任务门动切片分发、断点续传、节点管理、调度。点故障切换等功能.对视频图像、背频、义竹等大文件数据.提供FTP/SETP、HTTP等文件传给方式,实现断网续传、笠线程并行、分块传输等功能.件、文件夹、文件夹卜指定文件传输等功能,支势对数据文件的全收、增R交换及加工,实现数据库、文件、JSON、XML及MQ、TLQ等之间的相互交换功能.支持各类转换程序和交换任务的奴活定制.方便用户对数据提取汇聚行、流程管理以及可视化等功能的系统。数据标识支持国线和在线标识.其中兽线标识由底线处理引整完成,采用内线批处理的方式进行规则处理,生成年保存尿冷的•曲线处理明整支抖结构化和作结构化数据的处理模式.在线标识是由实时处理引条实现,引聚结构流数据或消息数据,对数据进行实时规则处理,生成并保存标签侑.实时规则处理模式支持时数据源自身的规则处理,以数据源与数据中介其也数据源进行关联分析的规则处理方式。数据标识依托标识规则和知识库,对输入数据进行比对分析、逻辑计算,输出打上取代级别语方、区域、位置等标识的数据,为上层应用提供支持.数据标识分为通用标识和业务标识,通用标讥是数据门身所缜含的特定含义的显性化,通常由数据的自身定义或由处理关联、比对结果等来确定•业务标识是根据不同的知识库形成具仃明确业务含义的标识,对数据进行业务标识.支推各种资源库、E题库的形成及模型分析.在对各种数据进行标识的过程中,需要预先从策略和配汽中心获取标识部分的策略和规则.通过对用户信息的分析、提炼形成高度精燎的门定义特征标识定义:基f•标识定义并结合资源U水、规则库、模型库、算法库等应用在数据处理过程中同步对数据进行标识.根据地理、业务、安全等级和数据的敏感等级等对数据进行标识.通过人工智能(语有识别、图像识别)和文本识别技术(NLP)对文本、图片和媒体文件进门定义SQL脚本执行、JSON输出等数据转换规则,以及对关键字段空值、,&复、异常等问题数据过灌规则,以及MD5加密规则.实现框于数据元的片构数据门动解析,井能按照业务场景进行门定义配置,实现智能化、可视化、组建式数据汇聚融合任务构建.支持可视化配置管理,根据不同的数据级别,分配不同的配置权限空值.支持策略配置的保存、加班、门动分发同步功能.数据存储结构化和羊结构化数据可存储十分布式并行数据座中.数据存储格式可以为列式存储和行式存储等多种存佛方式:分布式内存系统:管理多个底层文件系统,格不同的文件系统统一在同一个名称空间下.止上层客户端可以自由访问统一空间内的不同路供容错的无数据眼务.针对不同的应用场景支持传统的批处理系统和高并发MPP作为查询场景,时外提供各种数据代询和可视化服务.在代询引繁匕层做统一封装,提供统一的分布式并行数据库服务.•多种数据类型支持»42ftX93>1故修中有存器方案分压、分流(狂杂类型)等多种方式,调度箕点能够根据每个执行N点任节点的传制任务,调而到相对较堂闲的执行节点.调度节点能弊自动检测执行节点出现的问题并做门动处理,能够感知新增的执行行点并自动添加到分布式执行打点朱群•调度节点要J1备高可用能力.数据处理中使用到的完整的任务调度引维.篇要支持监控调度引擎中结果、是否出现异常等.策略配置管理针对结构化数据、半结构化数据、非结构化数据的不同类型特点.配况管理中心支持按照提取、淅洗、过渡、比对、关联、标识等数据处理过程,提供一体化、可融合的数据适配解析器器合数据转换功能,实现根据数据类型台数据情况的白玷附数据解析和流程化处理.支抒任意种类、任意数据结构.任意H标际的数据提取传输.这次kafla、wcbscrvice等消息处理机制,支持流式和熟戊处理。支持任意类型的数据融合任务配置,在保证数据安全的基础上.根据传输策略,进行数据传输和存储.支持过渡、融合规则门定义,主要包括代码映射、NULL俏杵换、字符中操作、字符印件换、字符串极取、添加字段、数据类型转换、公式”眸、正则处理、组合字段、身份证操作、获取图片、数据比对、%41ftX9391支持按年、月、周、日、小时、分钟、秒定时调度,可选指定有效时间内调度.增收情况卜支持实时调度,数据近秒级同步.等接口或URL谓发事件触发,支持操作系统shell脚本.和数据库系统的shell命令和SQL版本调度功能.提供调度任务的实时可视化监控,包括交换皆点的操作系统主要性能指标的图标、曲线,支持监控数据接口开发.提供流程调度组建,包括采样分流组建和任务编揖组件.实现多任务的并行、串行、混合调度功能.采样分流一是实现数据的采样,例:IOOW数据,按照据进行分流.例如性别为男的到某个座,性别为女的到另•个库,实现数据判断分流。任务编排用「•实现当A方案执行完毕后,需要马上启动B方案的执行.此插件配置住A方案的末尾,用户指定需要调度的方案.控制管理上要面向执行节点合调度节点,执行节点上饕承担数据传谕任务的部抖运行智能,各鬣制好的数据传埔任务采用数据库方式存储•能第在不同执行节点上按需选用单机、集群或分布式模式执行.调度节点是执行所有数据传输任务的统•入门.录用“双活度节点出现被障时,另•个调度节点能够自动接管正在执行的数据传输任务并实现断点续传,保障任务执行杼定性,确保调度节点可搐运行.数据传输任务调度方式按需选择.支持顺序,按需(常规类型)、教《(中仃杵方案另外,这类数据的查询并不是直接针对图片和视频本身的查彻,而是根据图片或视领(如果有)文件的路径进行定位.数据横型建设整个模型I:程的架构主要由算子管理、模型建模、模型管理和模型引繁四部分加成.用户可以通过多种建模方式创建理『昧准的模型,部署到模型运仃R达仃的合法性进行验证,包括是否符合标准,数据资源是否有访问权限,算法参数是否令法,模型编播是否合理等.模型通过验证之后,公上传到测试平台上面,通过数据采样、构建测试桀等多种方式检洪模型执行的准确性.模型测试成功之后,进行模型上线部署.通过申讲计算资源,将模型实例化成任务运行.传统建模的数据来源和模型的使用♦殷在同•数据库当中.人数据使环境卜因为数据采集类里的乡样性和数据it%的多样性得来源和使用分散在不同的计算存储资源节中•一个模型的运行可能需要涉及到图计算、齿纹计算、B维分析等&种方式的计算,因此模型需要能在多个存储和计算资源当中自由流转.模型适配行要走解袂r这种需要跨存储、跨计算资源的统一运行.r慢型运行的发杂度.故■(中行”布方案通过将齐子调度到合适的数据接I」服务上面执行,每个算广的运行都会对应到一个计算框架Eiti,通过解析算子的执行顺序以及依赖关系,公根据算子之间的依赖关系形成加绥,当某个算产计算错误的时候,只需要眼据曲缘重新计算相关的操作而不必回滚整个模型。知火图谱建设将各类数据,汇总融合成为人、小、地、物、绢织等多类实体,根据形成一张由人界地物组织构成的关系大网.关系网根据数据的接入可自动更新,有效解决大数据时代数据分收、割裂以及难以统一处理的问鹿,为系统提供多维度、可点询、可分析、可研判的数据系统。根据展示、分析衢要,可以通过鼠形层次料、阀形层次例、关系河洛户更方便、更1*(观、更深入、更全面的获取信息,及时应用到综合研判作战系统中去,为实际作故提供仃效支撑.大规模知识库的构建与应用衙要多智能信息处理技术的支持.通过知与界实对象之间的歧义,形成岛版性的知像库.知»45ftX93«1I!(K中仃”布方案支持结构化数据和半结构化数据(JSON/BSON.XML形式存储)•由于越来越多的应用在考虑对结构化数据为增删改置操作和半结构化故据做管询.依靠和分析,对这些数据存储的支持能简化附用程序的开发上作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论