




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应急管理数据治理系统建设方案TOC\o"1-5"\h\z\u5.系统功能 65.1信息资源规划 65.1.1信息资源 65.1.2信息要素规划 65.1.3信息资源目录编制 65.1.4分类管理 75.1.5综合查询 75.1.6定期更新 75.1.7绩效考核 75.2数据接入 75.2.1数据接入方式 7外部关联部门数据接入方式 7应急管理厅内部业务部门数据接入方式 7互联网公开数据接入方式 7感知数据接入方式 8其她数据 85.2.2系统功能 8数据探查 8数据读取 8数据对账 8断点续传 8任务管理 8数据分发 95.3数据解决 95.3.1数据解决场景 9从前置库到原始库 9从原始库到资源库 9从资源库到主题库 9从主题库到专项库 95.3.2系统功能 10数据探查 10数据提取 10.1半构造化文献内容提取 10.2非构造化文献内容提取 10数据清洗 11数据转换 11数据关联 12数据比对 12数据标记 12数据融合 13数据去重 130数据补全 135.4数据资源池 135.4.1应急管理数据库 13原始库 13资源库 14主题库 14专项库 155.4.2应急管理配备库 16标签规则库 16.1基本标签规则库 16.2业务标签规则库 16.3智能标签库 16知识库 16.1应急基本信息 17.2应急速查手册 17.3应急处置流程 17.4应急案例信息 17.5应急专家信息 17.6应急法规政策 17索引库 17日记库 175.5数据支撑 175.5.1数据集成 18批量数据集成 19实时数据集成 19分布式消息队列 195.5.2数据存储 20分布式文献存储 20分布式列数据库 20数据仓库 21分布式关系型数据仓库 21内存数据库 22全文检索库 225.5.3数据计算 23离线计算能力 23实时流解决能力 24交互查询能力 24实时检索能力 245.5.4数据安全管理 25顾客认证与角色授权 25.1顾客认证 25.2角色授权 25数据加密 26数据传播加密 26.1大数据平台传播加密 26.2共享互换传播加密 26多租户隔离 26安全审计 265.5.5统一调度管理 27资源调度框架 27管理平台 275.6数据服务 285.6.1数据基本访问服务 285.6.2数据索引服务 285.6.3元数据访问服务 285.6.4数据字典服务 285.6.5数据授权服务 285.6.6数据鉴权服务 295.6.7数据接口服务 29数据查询类服务 29数据比对类服务 29数据订阅/推送类服务 29数据分析类服务 29动态数据获取服务 305.6.8数据可视化服务 30可视化组件服务 30数据治理可视化 30.1数据治理概况 30.2数据质量可视化 30.3数据接入可视化 30.4数据解决可视化 31.5数据管控可视化 31.6数据资源可视化 31.7数据应用状况可视化 315.7数据管控 315.7.1数据原则管理 315.7.2元数据管理 32元数据分类 32元数据管理 32元数据分析 335.7.3资源目录管理 345.7.4数据鉴权管理 345.7.5数据质量管理 345.7.6数据运维管理 355.7.7数据血缘管理 365.7.8数据分级分类 365.7.9生产库管理 375.8数据共享互换 375.8.1服务共享管理 37服务目录 37服务注册 37服务申请 38服务发布 38服务订阅 38服务审核 38通用服务接口 385.8.2数据互换管理 38数据互换服务 38共享资源配备 385.9算法模型 395.9.1算法工程 39算法管理 39算法组件 40算法库 405.9.2模型工程 40模型创立 40模型分析 40模型管理 415.10工具引擎 415.10.1通用工具 41可视化工具 41智能查询工具 415.10.2业务流程引擎 42中间件 42基本服务组件 425.10.3工作流引擎 435.10.4搜索引擎 435.10.5表单引擎 435.11标签工程 435.11.1标签体系管理 43标签主体管理 44标签目录管理 44标签管理 445.11.2标签分类管理 45业务分类 45管理分类 46技术分类 465.11.3标签规则管理 47标签元数据管理 47标签规则管理 47标签生命周期管理 48标签计算 48标签画像 495.12知识图谱 505.12.1知识图谱创立 505.12.2知识图谱库构建 505.12.3知识图谱服务 50知识图谱检索服务 51关联分析/图析服务 51多维展示/全息档案服务 51地理展示和时空比对服务 515.13通用应用服务 515.13.1统一机构管理 515.13.2统一顾客管理 515.13.3统一权限管理 525.13.4统一身份认证 525.13.5统一消息服务 525.13.6日记管理 525.13.7安全审计 535.13.8数据治理门户 535.14资源目录 535.14.1元数据资源目录 535.14.2数据资源目录 535.14.3标签资源目录 535.14.4算法资源目录 545.14.5模型资源目录 545.14.6服务接口资源目录 545.15数据服务总线 545.15.1服务注册 545.15.2服务编排 545.15.3服务路由 545.15.4合同适配 555.15.5事务管理 555.15.6服务监控 556.技术指标 555.系统功能5.1信息资源规划地方应急管理部门应在应急管理部编制的信息资源目录的基本上,补充梳理我省应急管理信息资源,并按照有关规范规定进行编目,为应急管理业务系统和政务服务提供数据资源清单,并定期与部级数据治理系统的资源目录实现同步,为数据接入、数据汇聚、数据存储、数据互换、数据应用提供技术约束,保证数据治理工作规范、统一、有据。5.1.1信息资源应急管理数据治理系统建设是一项长期的工作,数据资源池中存储和接入的信息资源类型不断丰富、数据量不断增长数据来源单位范畴逐渐扩大。本期信息资源的采集范畴重要涉及如下单位:应急管理各转录部门以及林业、交通运送、国土资源、地震、城管、消防、民政、气象等单位。采集数据类型重要涉及:1、各单位应急有关基本数据,危险源、防护目的、地理信息等。2、各单位应急资源数据,涉及救援队伍信息、应急专家、应急救援物资装备信息等。3、各单位实时监测监控数据,如气象信息、舆情信息等。4、各单位应急有关业务数据,涉及预案、案例、法律法规信息、安全生产监管的有关信息等。5、各单位专业预测信息,如气象预测信息、地震预测预警信息等。5.1.2信息要素规划根据应急管理业务的数据特性,以有关要素为基本,将应急管理业务中可以进行信息化解决的数据进行分类。5.1.3信息资源目录编制本项目将根据《政务信息资源目录编制指南(试行)》、GB/T21063.1-及GB/T21063.3-等有关指南和原则的规定,结合应急管理部的管理需要,梳理应急管理信息资源,规划应急管理元数据范畴,编制完毕原则《应急管理信息资源资源目录》。基于应急管理信息要素,将应急管理信息资源进行汇总融合,可形成涉及最小的一级分类。基于一级分类,将关联于同一信息要素的不同职能或不同对象进行子类划分,形成信息资源二级分类。对二级分类下的业务流程或业务解决对象进行信息资源再划分,形成信息资源三级分类。5.1.4分类管理按类别管理。5.1.5综合查询综合查询。5.1.6定期更新形成完备的更新机制。5.1.7绩效考核根据资源规划状况进行考核。5.2数据接入数据接入重要提供统一的数据汇聚功能,将纷繁复杂、格式各样的外部关联部门业务系统、应急管理内部业务系统、互联网业务系统的数据接入到数据治理平台中,以便和外部系统进行数据互换,为上层大数据应用支撑平台的业务分析工作提供数据源。5.2.1数据接入方式从数据来源分布来看,本次项目建设接入数据涉及外部关联部门数据、应急管理厅内部业务部门数据、互联网公开数据、感知数据等。针对不同来源数据采用不同的数据接入方式。外部关联部门数据接入方式对于林业、交通运送、国土资源、地震、城管、消防、民政、气象等外部有关部门业务系统数据可通过数据互换平台获取,引接方式遵从平台规定方式进行,目前重要提供库表互换、服务接口调用、文献上传方式。应急管理厅内部业务部门数据接入方式对于黑龙江应急管理厅等应急管理厅内部业务部门的数据,可通过前置系统采用数据抽取、接口调用、消息服务的方式进行数据接入。互联网公开数据接入方式对于来自互联网以及社会公司的舆情数据可通过互联网单向传播设备接入到数据资源池。感知数据接入方式对于来源于GPS与北斗定位及速度、方向等实时定位设备、各单位实时监测监控数据,可通过接口实时接入或定点接受的方式实现数据接入。其她数据对于没有IT系统支撑的业务数据,还可采用人工填报,XLS表格导入的方式实现数据接入。5.2.2系统功能数据接入子系统提供数据探查、数据读取、数据对账等功能模块。数据探查数据探查是指通过对来源数据存储位置、提供方式、总量和更新状况、业务含义、字段格式语义和取值分布、数据构造、数据质量等进行多维度探查,以达到结识数据的目的,为数据定义提供根据。数据读取数据读取是指从源系统抽取数据或从指定位置读取数据,检查数据与否与数据定义一致:不一致的停止接入,并重新进行数据的探查和定义;一致的执行进一步接入,对数据进行必要的解密、解压操作,生成作用于数据全生命周期的记录ID,并对数据进行字符集转换等,将其转成符合数据解决规定的格式。数据对账数据对账是针对数据接入环节,对数据提供方和数据接入方在某一对账节点的完整性、一致性、对的性进行核对和检查的过程。如果在某一对账时间点数据提供方和数据接入方分别相应的数据条数不一致,阐明对账浮现异常,记录异常,在必要时需告警。断点续传系统应当提供基于消息的数据传播服务,从一种应用系统传播数据实体和数据格式到另一种应用系统,每个传播服务可以运营多种传播实体。此外系统也提供断点解决功能,顾客可以通过流程诊断工具查看流程发生错误的断点,顾客可以只修改发生错误的断点处的消息,然后把该消息重新发送,而不是回退和重新发送整个流程。任务管理重要实现对数据接入任务的管理,支持数据接入任务的创立、查询、删除等功能,并可指定接入任务所使用的抽取措施、转换规则和加载方式,并根据指定类型进行任务的调度执行。数据分发将预解决后的数据按需分发到资源库、主题库、业务库,更新维护原始库,以及向祈求方反馈数据。5.3数据解决数据解决重要是针对数据接入系统汇聚的构造化数据记录、半构造化文本等具体数据内容建立原则化的数据解决模式,通过解决后的数据存储在应急管理数据资源池中。数据解决子系统提供数据探查、提取、清洗、转换、关联、比对、标记、融合等功能模块。5.3.1数据解决场景从前置库到原始库数据解决系统通过数据接入系统接入到前置库中的数据,这些数据涉及各业务系统中的构造化数据和非构造化数据,通过数据探查和数据提取等手段,对前置库的数据进行探查分析,提取出数据源信息,并将非构造化数据的核心文字信息如森林草原林火视频监控数据中的时间等提取出来,整个数据解决过程解决后的数据会落入原始库中。从原始库到资源库原始库的数据通过数据比对、数据提取、数据关联、数据转换、数据清洗等解决过程,将数据加工成符合原则规范的数据。例如人员伤亡表的数据解决工作,通过比对人员伤亡表中的各个字段和原则数据元的差别,将原则数据元与原始表进行关联,如身份证号,然后进行转换和清洗。从资源库到主题库资源库的数据通过数据比对、数据关联、数据融合、数据标记的解决过程,将资源库的数据映射到灾害事故、管理对象、应急环境、救援资源、动态感知五大信息分类中,并具体相应到各信息分类中与森林防火有关的二级、三级主题库中。例如“地”主题中的核心基本设施主题,需要比对核心基本设施表与资源库中表的数据构造差别,选择有效的字段关联、融合数据到核心基本设施主题中。从主题库到专项库主题库的数据通过数据比对、数据关联、数据融合、数据表达的解决过程,将灾害事故、管理对象、应急环境、救援资源、动态感知五大信息分类中的数据提取出来,按照森林防火专项库所需要的方式进行组织。5.3.2系统功能数据探查数据探查功能组件重要对业务缓冲库和原始库中的数据进行探查分析,以便看待汇聚整合的数据有一种清晰的理解,进而提取出数据源头的元数据信息,为后续的数据解决过程提供管理、业务、技术等方面的支撑。业务探查:对来源表的业务含义进行探查,以便能精确地理解和描述数据。接入方式探查:对来源表的存储位置、提供方式进行探查,为数据接入规则定义和数据解决、组织提供根据。字段探查:对具体字段的数据内容进行探查,辨认其代表的含义和记录分布状况。空值率探查:记录字段空值占比状况,一方面可重点关注空值率高的重要字段,另一方面可通过与历史状况比较及时发现数据质量的动态变化。值域及分布探查:对字段的值域范畴以及分布状况进行探查。命名实体探查:根据数据内容辨认人名、地名、机构名、手机号等命名实体,协助理解字段语义。数据元探查:根据字段名字及内容,探查字段的确切语义,并与数据元原则进行映射。类型及格式探查:探查字段的类型及格式与否符合规范。数据集探查:对来源数据集表名、引用数据元等进行探查,拟定数据集与否是原则数据集。探查数据总量、增量及更新状况,为数据接入、解决和组织提供根据。问题数据探查:探查字段中不符合规范的数据,为后续数据清洗规则的制定提供根据。数据推送:把数据探查的成果信息推送到数据清洗组件、数据转换组件以及元数据库中,为有关组件的规则制定,流程分发等提供必要的信息。数据提取数据提取是原始数据进行规范化解决的过程,重要针对半构造化数据,通过数据提取过程,从这些半构造化数据中提取出人员、机构、应急物资、事件等有关信息,并将提取的信息以构造化形式进行存储。.1半构造化文献内容提取重要针对存在于原始库中的半构造化数据,根据文献中的内容,提取出业务需要的数据内容。常用的半构造化数据类型涉及:XML、CSV、TXT、Word、Excel等文献。数据缓存:对XML、CSV、TXT、Word、Excel文献解析出来的构造化信息缓存的功能。数据封装:对解析出来的数据进行数据封装,形成原则化的数据构造。数据推送:推送封装好的构造化数据到资源库、主题库。源数据索引:需实现对原始半构造化数据的索引能力,便于对提取后的成果进行溯源追踪。.2非构造化文献内容提取多媒体信息提取:从图片、语音、视频等多媒体数据中提取文字、图片等信息。如从有关图片中提取文本信息,从视频信息中提取核心帧信息,对图片中浮现的二维码进行解析辨认,提取涉及的文字信息、链接信息等。生物特性提取:从海量图像、视频、音频信息中提取人脸、人声等信息,为应急救援提供数据支撑。如从人事管理系统中的人员照片信息提取人脸特性信息、从各类视频信息中提取人脸信息,辨认出波及的领导人员信息等。全文信息提取:重要是从海量文本数据中提取姓名、身份证号、电话号码、车牌号码、社会统一信用代码、公司名称、地址、时间等信息。如从安全生产诚信管理系统的黑白红名单中提取公司名称、社会统一信用代码等公司组织要素信息,从评估报告信息中提取灾害事故的发生时间、地点、伤亡状况等构造化要素信息。如从业务信息系统中对接的Word格式的文献文献内容中提取单位名称、姓名等要素信息。数据清洗数据清洗是对业务数据中不符合原则规范或者无效的数据进行有关操作。在进行数据整合之前先定义数据的清洗规则,并对符合清洗规则的数据设立数据的错误级别。当进行数据整合过程中遇到符合清洗规则的数据时,系统将把这些业务数据置为问题数据,并根据错误的严重限度进行归类。对浮现的问题数据进行标记后存入问题数据库中,经确认后再决定是通过清洗转换后入库,还是直接放弃,抑或其她方式解决。对于清洗前后的数据还需进行一致性检查,以保证清洗成果集的质量。数据转换本次数据治理项目波及多种部门、多种业务系统中的数据。不同系统有不同的数据构造定义,数据汇聚在一起后就会产生数据格式不规范统一、数据命名不规范统一、数据编码不规范统一、数据标记不规范统一。这样的数据是无法支撑业务应用需要的,因此需要对汇集的数据进行数据格式规范统一、数据命名规范统一、数据编码规范统一、数据标记不规范统一等数据转换解决。具体数据转换组件涉及如下功能:数据命名转换:通过比对原则数据元和实际数据表中的数据项,如果比对成果一致,则不需要转换解决,如果比对成果不一致,要按照原则数据元中规定的命名进行转换。数据类型转换:通过比对原则数据元和实际数据表中的数据项,如果比对成果一致,则不需要转换解决,如果比对成果不一致,要按照原则数据元中规定的数据类型进行转换。按照原则规范将不同来源、不同格式的数据转换成统一的原则化数据格式。平台将建立一系列的数据原则,进入平台的数据都必须遵循这些原则,只有这样才干保证平台上层应用的调用数据的通用性和应用之间充足的信息共享。需要做的格式统一有如下几种:全角转半角、电话号码转换、URL形式转换、身份证件号码转换、社会统一信用代码转换、时间格式转换、经纬度等数据原则化类型。身份证号码和社会统一信用代码原则化是将身份证位数统一为18位半角字符,字母字符转为大写字符,电话号码原则化重要是保存源数据的数字字符部分,清除加减号、空格等特殊字符,仅保存有效的数字字符内容。特定字段全角转半角(URL、账号等信息)。时间原则化即将“yyyy-MM-ddHH:mm:ss”、“yyyyMMddHHmmss”等多种时间格式值,这些格式也统一转成平台定义的原则时间格式。经纬度原则化重要将多种经纬度坐标系统一转换为国家大地坐标系,经纬度数值统一为十进制数值格式。所有数据格式原则化后的字段单独存储,原字段予以保存。数据编码转换:比对原则数据元和实际数据表中的数据项,如果比对成果一致,则不需要转换解决,如果比对成果不一致,需要按照原则数据元中规定的原则编码进行转换。将来源于不同系统的不同数据字典转化为原则数据字典。视频转码:由于应急管理数据治理工程中的视频信息来源于不同终端设备,且多经由异构通信网络进行传播,因此需要进行视频转码,将已经压缩编码的视频码流转换成另一种视频码流,以适应不同的网络带宽、不同的终端解决能力和不同的顾客需求,并保证服务质量。数据标记转换:通过数据元和数据表字段的关联,根据关联关系自动生成可执行的转换规则,进行数据标记的转换。原则地址转换:对地址要素不完整、文字体现不一致的地址信息进行原则化解决。依托民政的原则化地址库及互联网公开的POI地址信息库,形成应急有关的地址原则基本库,相应急采集的地址信息进行原则化解决。为保障数据转换解决过程不会导致数据丢失,数据转换模块需要支持断点功能。数据关联数据关联组件需要完毕在不同数据集之间的关联,实目前不同数据集的联动,为数据治理、业务应用的需求提供支撑。根据数据解决流程设计的规定,数据关联组件的功能涉及:原则关联、字典关联、半构造化关联、关联回填。原则关联:在资源库中设计了原则的数据元体系,作为数据资源中心的数据规范基本。数据元是最小的数据单位。在数据关联系统中,需要通过手工或更智能的方式实现多种不同编码的原始数据和原则数据元的关联。数据字典、属性及有关含义的关联:如灾害级别与灾害类别关联、自然灾害和灾害地点关联、单位代码和单位名称关联、救援物资与物资类别关联等。半构造化与构造化的关联:对半构造化数据进行提取构造化信息后,按照核心字(如灾害地点相似、灾害时间相似、灾害诱因相似)等进行关联,构建数据关联关系。如从业务信息系统中对接的Word格式的文献文献,通过提取出的文献内容,通过事件的时间、地点查询相应火灾灾情库中的灾情信息进行关联。关联回填:两个或两个以上数据集之间通过某种信息建立关联关系之后,根据实际业务的需要,可以对这两个数据集中的数据进行互相补充。数据比对通过数据比对功能实现对两个数据集中的数据内容、数据格式的比较核查,找出相似的数据或不同的数据。在业务应用场景上重要实现如下数据比对功能。数据项与原则数据元比对:实现原始数据表中的数据与原则数据元数据的比对,比对的内容涉及数据命名、数据标记、数据格式、数据值域、数据编码、数据类型等数据的比对,数据比对的成果为一致或不一致。不同数据项集比对:实现两个数据项集的交集、补集,以满足数据检索的需求。数据标记数据标记模块依托标签引擎结合应急业务知识库、标签规则库对数据进行标记。标签规则库提供标签的定义、内容、版本、关联等,通过读取标签规则库的内容,对数据进行映射,通过人工或智能的方式实现对数据打标,以便提高数据的价值密度,并为上层应用提供支撑。根据标签规则库提供的规则接口,数据标记过程分为如下三类:基本标签标记:根据基本标签定义的规则,对数据进行规则筛选,符合规则的数据增添一列基本标签。业务标签标记:按照业务数据模型管理数据,根据标签规则库提供的标签元数据信息,在资源库中找到标签所需的有关联的数据,根据规则进行合并、汇总等工作,得到的数据按照标签定义增长一列内容到目的数据中。智能标签标记:据标签规则库提供的模型接口,将相应的数据输入模型进行计算,将计算后的成果按照标签规则库定义的标签内容增长一列业务标签到目的数据中。数据融合原则化去噪后的数据需要采用必要的数据融合手段,按照应急管理的主题库、专项库以及数据应用需要的方式组织,以支撑应急管理单位的数据需求。在数据融合的过程中,应当以合理的方式设计数据构造,保障数据应用对数据高效分析查询的同步,尽量的减少冗余。数据融合解决过程贯穿主题库、专项库和数据应用的建设过程,具体如下:数据融合的核心功能模块涉及模型加工和汇总加工。各功能模块的具体描述如下:模型加工:重要涉及数据合并、数据覆盖、数据切分功能,其中数据合并需要通过函数、分组或转列的方式完毕数据的表合并和列合并。数据覆盖功能需要依赖数据比对的成果,将新增和修改的记录覆盖到目的表中。数据切分需要通过行筛选、列提取或表提取等方式将相似数据对象的成果表进行切分合并。汇总加工:按照公共汇总的原则,明确哪些数据需要汇总合后,采用聚合函数或窗口函数等方式,完毕对跨数据域且需要被频繁公用的数据的汇总。数据去重对反复数据合并解决。0数据补全对一条数据各个字段的缺失,通过技术手段进行补全,例如:黑龙江省,需要补充机构代码23。5.4数据资源池按照数据使用目的分级分类建库的规定,统一规划资源,通过对数据资源进行原则统一、流程规范的组织与挖掘,形成涉及原始库、资源库、主题库、专项库等的应急管理数据资源池,以满足应急管理内部各单位业务专项数据落地建库需求,为综合展示、数据服务、领导决策提供数据支持。5.4.1应急管理数据库原始库大数据资源中心的原始库应当涉及应急管理单位内部、外部所有需要组织的数据。在数据来源上,涉及外部委数据(如公共安全数据、交通运送数据等),应急管理单位内部数据(如省市重大安全风险监测预警数据、部级安全生产行政执法数据等),社会及互联网数据(如微信、微博及其她舆情数据等)。在数据类型上,涉及构造化数据、半构造化数据和非构造化数据。原始库的合理设计可以在业务系统和数据资源中心之间形成一种良好的过渡,既保障了数据资源中心数据的稳定性,不会受源业务系统数据频繁变化的影响,又可减轻前置系统被反复抽取的压力,数据资源中心的数据需求统一由原始库为基本来抽取和分发。由于数据来源多、种类丰富,原始库的数据应当采用清晰、合理的方式去组织。对于不同来源的数据,应当按照其数据来源进行清晰的标记,涉及表名标记、表元数据标记等。对于不同种类的数据,应当采用不同的存储机制进行存取。存储域分为构造化域、半构造化域和非构造化域,其中半构造化域和非构造化域的数据应当采用相应的数据提取手段提取核心信息保存至构造化域,便于数据的溯源和使用。原始库的数据构造设计原则上和业务生产库的表构造一致,并在业务生产库基本上增添数据接入过程中的操作字段,表达数据的更新和删除等状态。以此向大数据资源中心提供原始、精确的数据,便于后续的分析和使用。原始库中的数据是大数据资源中心最基本的数据,需要对数据设立不同的生命周期和质量监控原则,从而保障数据的鲜活性和精确性。原始库的构造按数据的类别分为构造化数据域、半构造化数据域和非构造化数据域三个逻辑的数据域。(1)构造化数据域用于保存由各业务系统抽取的关系型数据,如火灾档案表等,这部分数据需基于云计算平台所提供的关系型数据库组件来组织。(2)半构造化数据域用于保存从各业务系统或各部门抽取的半构造化数据,如互联网舆情数据等XML格式、XLS格式数据或文献,该类型数据需基于云计算平台所提供的NoSQL数据库组件来组织。(3)非构造化数据域用于保存从各业务系统或各部门抽取的非构造化数据,涉及图片、音视频、文本等类型数据,如卫星遥感数据、火灾图传录像、救援总结报告等,该类型数据需基于云计算平台所提供的分布式文献系统进行存储。非构造化数据和半构造化数据需在原始库中建立索引表来记录该数据的来源和存储途径等。索引表重要以关系型数据形式存储在构造化数据域中。资源库资源库的数据是由原始库的数据通过清洗、转换、关联、比对等数据解决过程后形成的原则数据。资源库的设计涉及数据构造设计、数据表构造设计和加工过程设计。在资源库的数据构造设计上,以原始库数据构造为基本,补充必要的数据字段。在数据表设计上,将相似表构造的数据表进行合适的合并,并保存原始库的表名以以便进行溯源。数据加工过程设计是资源库设计中最核心的部分,这部分要进行数据原则、数据元的设计,以及原始数据和原则数据元的关联设计,从而将资源库的数据解决成符合原则的数据。主题库主题库是按照应急管理信息要素将应急数据按灾害事故、救援物资与装备、组织机构、危险源等进行分类,为数据应用和产品提供公共数据服务,减少顾客理解和获取数据的难度,减少数据加工的深度和复杂度,提高数据应用和产品获取数据的效率,保持系统内各个软件模块和应用服务间数据的一致性。主题库的设计需遵循下述规则:1、提供统一的数据出口主题库中涉及了主题有关的实体表和实体间的关联表,以及实体表的来源表信息。通过关联表以及来源表信息,顾客能迅速清晰地理解实体的数据来源,减少了去数据库中寻找实体有关表的时间,并且由于各个顾客统一从主题库获取数据,数据口径的一致性得到了有效保障。2、保证明体的一致性主题库涉及灾害事故、救援物资与装备、组织机构、危险源等实体,每个实体都会在主题库中有唯一的ID,通过这个唯一的ID,可以获取实体在主题库中的所有信息,从而保证了实体的一致性。3、提供汇总的业务数据,满足查询、记录、分析等多类应用产品的数据需求主题库会根据业务类别,将数据从各个业务表中汇聚起来变成汇总后的实体表和关联表,并且在实体表和关联表中还会涉及常用的业务字段,使得顾客可以以便得从较少的表中获取所需数据,减少了数据获取成本。主题库在数据治理体系中位于DWD明细数据层(资源库)和DM专项层(专项库)中间,对上游的明细数据打散重构形成主题表,对下游的专项层提供了原则化、一致性的数据。上游的明细数据里面涉及了不同系统、不同部门的数据,数据之间存在关联,但是由于没有进行一致性解决,无法达到数据精确的互通,因此主题库将不同系统间的数据通过信息要素等实体进行有效的关联,打通了不同系统间的数据。主题层完毕后,专项层就能根据特定应用需求,迅速选用有效数据形成专项数据。主题库逻辑模型的设计应采用自顶而下的措施,一方面将需求波及范畴内的业务对象从高度概括的信息要素概念层次归类,即划分主题域,再针对各个主题设计实体关系图。专项库专项库是主题库的数据按照专项应用的需要重新整合形成的数据库。专项库的建库按照专项应用业务模型,通过二次抽取装载的措施重新组织数据,建立形成满足应急管理专项业务应用需要的数据库。根据应急管理业务需求,专项库涉及涉及预案、案例、应急资源、专家等数据的收集、整顿、清洗、入库。预案重要涉及突发事件总体应急预案、专项预案、部门预案、下级政府应急预案、大型活动应急预案和企事业单位应急预案等。应急预案按内容和形式分为两种:文本预案和数字预案。文本预案重要以文本方式组织存储各级政府或机构编制好的应急预案。数字预案是对文本预案中的救援组织、救援队伍、程序环节、措施、职责、协调等内容进行构造化解决后形成的可程序化执行的预案,涉及预案手册中所记录的所有信息。案例库重要存储处置突发事件的历史案例数据、各部门收集的与其专业领域有关的专业案例数据及国内外突发事件典型案例等有关信息。涉及案例基本信息和案例要素。案例涉及自然灾害、事故劫难、公共卫生、社会安全四大类。应急资源库重要存储应急救援物资储藏场合、数量、内容及应急救援物资生产公司,以及救援队伍数据等数据。应急资源数据实体涉及应急物资储藏库、应急物资、应急装备、应急物资生产公司、救援队伍等。应急物资储藏库数据描述应急物资储藏库的基本状况,涉及名称、类型、级别、地址、负责人、联系人、周边交通状况、储藏物资等信息。应急物资数据描述应急物资的基本状况,涉及名称、类型、级别、寄存地点、数量、保质期等信息。应急装备涉及个人防护装备、通信设备、探测设备、洗消设备、医疗设备、能源设备、应急运送工具等。应急装备数据描述各类应急装备的基本状况,涉及名称、类型、级别、负责人、联系人、装备数量、运送方式等。应急物资生产公司数据描述应急物资生产公司的基本状况,涉及名称、类型、级别、地址、负责人、联系人、生产物资、生产能力等信息。救援队伍数据库存储全市综合性、专业性应急救援机构、队伍信息,重要涉及:我市区县级以上人民政府建立或拟定的综合性应急救援队伍信息。各市级部门、各专业领域建立的专业应急救援队伍信息。应急志愿者队伍信息。专家库存储市政府和市有关单位、区县、公司的各类应急管理专家信息。涉及自然灾害专家、公共卫生专家、事故劫难专家、社会安全专家、综合类专家。专家组数据描述专家组(库)的基本状况,涉及专家组名称、类型、负责人、联系人、组建单位、人数、专家组简介等。专家数据描述专家的基本状况,涉及姓名、专家类型、性别、出生日期、工作单位、专业特长、应急工作经历等信息。5.4.2应急管理配备库标签规则库标签规则库是按照标签目录进行组织的标签规则集合,每一种标签规则由标签名称、标签加工源数据信息、转换规则信息、记录周期等信息构成。根据规则的定义方式,标签规则库可分为基本规则库、业务规则库、智能标签规则库。.1基本标签规则库基本标签规则是对数据的某一属性字段信息进行计算的解决规则,重要用于生成刻画灾害事故、管理对象、应急环境、救援资源等应急管理要素的基本特性的标签。.2业务标签规则库业务标签规则是基于应急管理人员的业务经验,对基本标签规则进行模型关联和逻辑计算,形成的固化知识标签生成规则。.3智能标签库智能标签规则库是基于特性工程、机器学习算法,建立的智能标签模型集合。智能标签模型可用于从互联网信息、文档等大量信息中提取可直观呈现对业务主观结识的标签。知识库知识库是构造化、易操作、易运用、全面的、有组织的、互相联系的知识集合,是有关部门在应急管理过程中与该领域有关的基本概念、理论知识、事实数据,以及所获得的规律、常识性结识、启发式规则和经验教训的集合。本项目针对常用森林火灾、地震、危险化学品泄漏、台风暴雨等事故灾害现场救援必须掌握的知识,整合森林消防、减灾中心等部门的应急管理知识,构建应急管理知识库,为应急指挥中的前期处置、物资调用提供支撑。知识库建设内容涉及应急基本信息、应急速查手册、应急处置流程、应急案例信息、应急专家信息与应急法规政策信息。.1应急基本信息应急基本信息涉及应急资源、场景、状况定义和具体描述,不同要素的分类,级别和原则。.2应急速查手册应急速查手册涉及灾害事故的名称及具体描述、应急救援过程中应急指挥和处置人员应特别注意的问题、危险性类别、作业人应采用的防护措施以及应采用的紧急措施等。.3应急处置流程应急处置流程信息涉及处置的基本原则、应急处置流程图、处置的基本流程及具体描述和各类事故处置的具体流程。.4应急案例信息应急案例信息重要涉及处置突发事件的历史案例数据、各部门收集的与应急专业领域有关的专业案例数据及国内外突发事件典型案例等有关信息。涉及案例基本信息和案例要素。.5应急专家信息应急专家信息应急管理单位以及有关单位、区县、公司的各类事件响应处置专家信息,涉及自然灾害专家、事故劫难专家、综合类专家。专家信息又分为专家组与专家个人数据。其中,专家组数据描述专家组(库)的基本状况,涉及专家组名称、类型、负责人、联系人、组建单位、人数、专家组简介等。专家数据描述专家的基本状况,涉及姓名、专家类型、性别、出生日期、工作单位、专业特长、都市联动指挥工作经历等信息。.6应急法规政策汇集国内外应对突发事件制定的法规、政策、应对措施等规范性文献。可以全方位的理解世界上各个国家、地区,国内各级政府为应对突发事件所采用的措施。索引库为应用查询、业务搭建提供数据索引。日记库软件全流程、全方位日记记录。5.5数据支撑基于Hadoop架构采用分布式数据解决技术,对外提供海量数据的存储、分析查询和实时流式数据解决分析能力。提供数据集成、数据存储、数据计算、数据安全管理以及统一资源调度能力,用于承载数据资源池建设,涉及原始库、资源库、主题库、专项库、配备库、共享库等。架构安全:大数据支撑平台基于开源组件实现功能增强,保持100%的开放性,不使用私有架构和组件。认证安全:基于顾客和角色的认证统一体系,遵从帐户/角色RBAC(Role-BasedAccessControl)模型,实现通过角色进行权限管理,对顾客进行批量授权管理。提供单点登录,统一了Manager系统顾客和组件顾客的管理及认证。对登录管理平台的顾客进行审计。文献系统层加密:Hive、HBase可以对表、字段加密,集群内部顾客信息严禁明文存储。加密灵活:加密算法插件化,可进行扩大,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。业务透明:上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。可靠:NameNode、HiveServer、HMaster、ResourcesManager等所有管理节点组件均实现HA(HighAvailability)部署,保证数据的可靠性、一致性。数据备份恢复支持表级别全量备份、增量备份,数据恢复(对本地存储的业务数据进行完整性校验,在发现数据遭破坏或丢失时进行自恢复)。易用:统一运维管理,提供界面化的统一安装、告警、监控和集群管理。易集成:提供北向接口,实现与公司既有网管系统集成;目前支持Syslog接口,接口消息可通过配备适配既有系统;整个集群采用统一的集中管理,将来北向接口可根据需求灵活扩展。易开发,提供自动化的二次开发助手和开发样例,协助软件开发人员迅速上手。5.5.1数据集成数据集成服务是一种以设计、调度、监控和管理ETL过程为核心功能的服务。提供同构/异构数据源之间批量数据迁移服务,协助客户实现数据自由流动。支持客户多种类型数据源之间的数据迁移,支持的类型涉及:文献系统,关系数据库,数据仓库,NoSQL,大数据服务等数据源。平台提供批量的构造化和非构造化数据、流式数据的集成能力,具有接入和迁移多种类型海量数据的能力。数据接入来源多样,既有内部数据也有其她部门数据,尚有互联网数据,各数据来源的数据格式也不一致,在收集的过程中需对数据进行规范化解决,以便于管理使用。大数据基本平台软件要完毕从老式数据库到大数据平台的数据采集,涉及批量采集和基于流解决的实时采集,重要提供如下组件能力:支持从老式数据库到大数据平台的双向数据传播,可以将一种关系型数据库(例如:MySQL,Oracle,SQLServer等)中的数据导入到大数据分布式文献系统中,也可以将分布式文献系统的数据导进到关系型数据库中。提供高可用的,高可靠的,分布式的海量日记采集、聚合和传播的系统。提供实时的、分布式以及具有高容错的流解决系统,可以与实时消息系统交互,完毕实时数据的采集。提供高吞吐量的分布式发布订阅消息系统,通过消息的封装完毕实时数据的传递。批量数据集成实现大数据平台与关系型数据库、文献系统之间互换“数据”、“文献”,既可以将数据从关系型数据库或者文献服务器导入到HDFS/HBase中,同步也支持反过来从HDFS/HBase导出到关系型数据库或者文献服务器中。Loader是在开源Sqoop组件的基本上进行了某些扩展,实现大数据平台与关系型数据库、文献系统之间互换“数据”、“文献”,既可以将数据从关系型数据库或者文献服务器导入到HDFS/HBase中,同步也支持反过来从HDFS/HBase导出到关系型数据库或者文献服务器中。Loader功能涉及:1.通过MapReduce实现并行执行和容错Loader通过MapReduce作业实现并行的导入或者导出作业任务,不同类型的导入导出作业也许只涉及Map阶段或者同步Map和Reduce阶段。Loader同步运用MapReduce实现容错,在作业任务执行失败时,可以重新调度。2.数据导入到HBase在MapReduce作业的Map阶段中从外部数据源抽取数据。在Reduce阶段中,按Region的个数启动同样个数的ReduceTask,ReduceTask从Map接受数据,然后按Region生成HFile,寄存在HDFS临时目录中。在MapReduce作业的提交阶段,将HFile从临时目录迁移到HBase目录中。3.数据导入HDFS在MapReduce作业的Map阶段中从外部数据源抽取数据,并将数据输出到HDFS临时目录下。在MapReduce作业的提交阶段,将文献从临时目录迁移到输出目录中。4.数据导出到关系型数据库在MapReduce作业的Map阶段,从HDFS或者HBase中抽取数据,然后将数据通过JDBC接口插入到临时表(StagingTable)中。在MapReduce作业的提交阶段,将数据从临时表迁移到正式表中。5.数据导出到文献系统在MapReduce作业的Map阶段,从HDFS或者HBase中抽取数据,然后将数据写入到文献服务器临时目录中。在MapReduce作业的提交阶段,将文献从临时目录迁移到正式目录中。实时数据集成ApacheFlume是一种广泛使用的大规模分布式数据收集工具,它可以监听特定的端口(UDP、RPC端口),从而获得流过端口的数据,并且支持多样化的插件体系,在收集端对数据进行过滤等解决,在汇聚端则容许将数据直接输入到大数据分布式存储HDFS。Flume作为一种高可用的,高可靠的,分布式的海量日记采集、聚合和传播的系统,Flume支持在日记系统中定制各类数据发送方,用于收集数据;同步,Flume提供对数据进行简朴解决,并写到多种数据接受方(可定制)的能力。其中Flume-NG是Flume的一种分支,其目的是要明显简朴,体积更小,更容易部署。分布式消息队列Kafka是一种分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,合用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合记录系统运营数据(监控数据)、日记收集等大量数据的互联网服务的数据收集场景。5.5.2数据存储应急管理接入的数据类型涉及数据库表等构造化数据、视频图片等非构造化数据,规定大数据基本平台采用分布式文献系统实现对汇聚的多类型海量数据的存储,规定提供如下组件及能力:提供高度容错性的分布式文献系统,适合部署在便宜的机器上。它能提供高吞吐量的数据访问,适合大规模数据集上的应用。提供高可靠性、高性能、面向列、可伸缩的分布式存储系统,以键值对的形式承载海量构造化、半构造化以及非构造化数据。支持大数据计算与存储分离技术,解决应急数据治理系统中存储架构适配性,提供大数据多集群的统一数据存储底座,解决计算、存储非等比扩容需求,提高大数据存储资源运用率。CPU资源局限性时,扩容计算型服务节点,存储资源局限性时,扩容存储型服务节点。分布式文献存储HDFS是Hadoop的分布式文献系统,实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特性,而数据“写”操作是顺序写,也就是在文献创立时的写入或者在既有文献之后的添加操作。HDFS保证一种文献在一种时刻只被一种调用者执行写操作,而可以被多种调用者执行读操作。HDFS分布式文献存储采用可扩展的系统构造,提供了海量数据的分布式存储。对于以文献方式存储的数据,比较适合该类存储方式。但采集的数据存在着不同大小文献并存的状况,按大小可大体划分为小文献(1MB如下)、中文献(1MB到500MB)、大文献(500MB以上),且文献数量非常多,为保证存储这些文献的同步可以提供迅速读取的能力,分布式存储要可以满足该目的而提供相应小文献、中文献和大文献的存储检索方案,对外能提供统一接口进行访问,客户端在访问分布式存储时不需理解底层存储方式,由分布式存储统一调配相应优化方式实现文献迅速存储和检索。分布式文献系统要支持6亿以上文献存储能力。HDFS支持数据分级存储,把不同热度的数据存储于不同的介质(SSD/SAS/SATA)。同步针对冷数据,可采用HDFS-EC通过ErasuredCode机制来减少副本数量的同步保证HDFS数据的可用性没有下降。分布式文献存储可以提供FTP/SFTP接口,以便老式应用可以不修改代码访问HDFS。分布式列数据库HBase是一种高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase适合于存储大表数据(表的规模可以达到数十亿行以及数百万列),并且对大表数据的读、写访问可以达到实时级别。运用HadoopHDFS作为其文献存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。为Spark和HadoopMapReduce提供海量数据实时解决能力。以HBase为代表的NoSQL数据库适合于存储较简朴的数据模型,并且可以不受模式的约束。因而其可存储管理的数据类型更丰富;大数据技术同步适合进行一致性与事务性规定不高的计算(重要是指NoSQL的查询操作),以及对超大规模海量数据的、批量的分布式并行计算。需要注意的是,NoSQL数据库由于挣脱了繁琐的SQL体系约束,其查询与插入的效率比老式关系型数据库要更高。NoSQL数据存储一般采用面向列的存储方式,其存储构造保证了数据表的列可扩展性和读写I/O的高吞吐性。Key-Value方式存储,Rowkey顾客自由定制,顾客可根据应用的具体需要将有关的某些查询逻辑封装在Rowkey生成规则中,从而提高系统查询效率。在大数据应用中,常常遇到构造化数据和非构造化数据共同构成一种完整的数据,并且两个数据加起来都不大的状况。例如银行办理业务时产生的交易数据和高拍仪拍摄的图像数据,交警卡口产生的过车辨认构造化数据和车有关的视频核心帧数据等。随着构造化数据的是某些大小为几百K字节、几兆字节大小的非构造化文献,也有少部分几十兆或者更大的文献。HBase具有可以存储海量构造化数据的优势,HDFS具有存储海量大小的超大文献的优势,本次大数据中心建设将结合两者合,基于两个部件的接口封装,提供超混合存储HFS(HBaseFileStream),封装后的接口容许应用可以自由的进行大小文献的读写,HFS将会自动的把构造化数据信息存储到HBase,将与之相应的非构造化文献进行打包,保证HDFS文献系统看到的是远不小于单个块(Block)大小的大文献,减少对NameNodede元数据容量冲击。数据仓库Hive是建立在Hadoop上的数据仓库框架,提供大数据平台批解决计算能力,可以对构造化/半构造化数据进行批量分析汇总完毕数据计算。提供类似SQL的HiveQueryLanguage语言操作构造化数据,其基本原理是将HQL语言自动转换成MapReduce任务,从而完毕对Hadoop集群中存储的海量数据进行查询和分析。Hive支持对表的某一列或者多列进行加密。在创立Hive表时,可以指定要加密的列和加密算法。当使用insert语句向表中插入数据时,即可将相应的列进行加密。由于底层存储系统的因素,Hive并不能支持对单条表数据进行删除操作,但在HiveonHBase功能中,提供了对HBase表的单条数据的删除功能,通过特定的语法,Hive可以将自己的HBase表中符合条件的一条或者多条数据清除。分布式关系型数据仓库适合于存储关系复杂的数据模型,并且需要限制为基于二维表的关系模型;同步适合进行一致性与事务性规定高的计算,因此元数据、记录值等构造化数据存储在分布式关系数据库中。在查询时调度多节点并发执行提高响应性能,采用基于代价模型的查询优化能力,结合数据分布状况选择最优的查询和解决方案,支持复杂多维分析查询。同步,在数据库组织构造、访问接口(JDBC等)、SQL语法、存储过程、权限管理等多方面高度兼容关系型数据库。支持通过开放原则SQL接口实现复杂查询。通过度布列散列算法和分区路由算法避免数据偏斜导致单节点计算或存储性能瓶颈,提供整集群近似线性扩展能力。支持原则的SQL92/SQL规范,支持GBK和UTF-8字符集,支持SQL原则函数与分析函数,支持存储过程。支持表空间,支持在线扩容功能。提供组件管理和数据节点HA。支持数据库事务ACID特性(即原子性Atomicity、一致性Consistency、隔离性Isolation和持久性Durability),支持单节点故障恢复,支持负载均衡等。支持原则JDBC4.0的特性和ODBC3.5特性。支持SSL安全网络连接、顾客权限管理、密码管理、安全审计等功能,保证数据库在管理层、应用层、系统层和网络层的安全性。基于海量数据查询记录分析能力与事务解决能力,行列混存技术同步满足联机事务解决OLTP(On-LineTransactionProcessing)与联机分析解决OLAP(OnlineAnalyticalProcessing)混合负载场景。支持分布式x86架构、与ARM架构,客户硬件投资成本低。支持原则的SQL92/SQL规范,支持客户应用系统平滑迁移。支持集群最大可扩展至1000个节点,满足PB级大数据分析能力。内存数据库Redis是一种开源的,基于网络的,高性能的key-value数据库,弥补了memcached此类key-value存储的局限性,在部分场合可以对关系数据库起到较好的补充作用,满足实时的高并发需求。Redis跟memcached类似,但是数据可以持久化,并且支持的数据类型很丰富。支持在服务器端计算集合的并、交和补集(difference)等,还支持多种排序功能。支持一主一从模式的Redis集群,系统自动计算节点上可安装的Redis实例个数并分派主从关系。当集群需要提供大规模的解决能力时,可以一键式扩容一对或多对主从实例。在此过程中,系统会自动完毕数据迁移和数据平衡,顾客无需关注。浮现扩容异常、部分实例掉线等异常场景时,Redis集群中的数据也许会分布不均匀,此时可以通过管理界面上提供的Balance功能,让系统自动对集群数据进行平衡,保证集群的健康运营。系统提供Redis集群的性能监控功能,可以通过直观的曲线图方式,理解目前Redis集群、实例的TPS吞吐量状况。系统为Redis集群提供了多种告警,例如集群下线告警、持久化失败告警、槽位分布不均告警、主备倒换事件、集群高可靠性受损告警等,甚至主从实例内存大小不一致都可以自动上报告警。丰富的告警协助顾客更加轻松的进行Redis集群的监控和管理。全文检索库ElasticSearch是一种基于Lucene的搜索服务器。它提供了一种分布式多顾客能力的全文搜索引擎,基于RESTfulweb接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是目前流行的公司级搜索引擎。Elasticsearch通过API提供丰富访问接口,使用集群发现机制,支持脚本语言,支持丰富的插件。底层基于Lucene,保持Lucene绝对的独立性,通过本地文献、共享文献、HDFS完毕索引存储。实现Elasticsearch实例的内存、CPU和磁盘IO的监控,以及index、shard状态监控和告警。提供基于顾客/角色划分的index权限控制功能。提供Kerberos认证,保障了索引数据的安全性。Solr是一种高性能,基于Lucene的全文检索服务器。Solr对Lucene进行了扩展,提供了比Lucene更为丰富的查询语言,同步实现了可配备、可扩展,并对查询性能进行了优化,并且提供了一种完善的功能管理界面,是一款非常优秀的全文检索引擎。SolrCloud是从Solr4.0版本开始开发出的具有开创意义的分布式索引和搜索方案,基于Solr和Zookeeper进行开发的;Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式,但这些方式部署的Solr不具有SolrCloud的特色功能:运用ZooKeeper作为协同服务,启动时可以指定把Solr的有关配备文献上传Zookeeper,多机器共用。这些Zookeeper中的配备不会再拿到本地缓存,Solr直接读取Zookeeper中的配备信息。配备文献的变动,所有机器都可以感知到。自动容错,SolrCloud对索引(collection)进行分片(shard),并对每个分片创立多种Replica。每个Replica都可以独立对外提供服务。一种Replica挂掉不会影响整个索引搜索服务;更强大的是,它还能自动的在其他机器上把失败机器上的索引Replica重建并投入使用。索引和查询时的自动负载均衡,SolrCloud索引(collection)的多种Replica可以分布在多台机器上,均衡索引和查询压力。如果索引和查询压力大,可以通过扩展机器,增长Replica来减缓压力。因此,下面的简介重要是环绕SolrCloud展开描述的。Solr索引数据寄存到本地磁盘,提供了更加迅速的索引和查询速度;SolrCloud可以多实例部署,可以实现并发写与读,提高索引与查询性能。5.5.3数据计算大数据基本平台软件提供对海量数据汇总后的多种数据并行解决框架,大数据分析的解决速度、精确度对实战的及时性、高效性均有至关重要的影响。大数据资源池提供分布式计算、流式计算、内存计算多种数据计算引擎,可以针对不同的场景采用不同的计算模型,对数据进行大规模批量解决或者实时解决,大大提高大数据管理中心的实战能力。同步面向领域的分析语言(DSL),涉及面向数仓的Hive,面向数据挖掘的SpakrSQL和面向流解决的CQL(ContinuousQueryLanguage),具有对构造化、半构造化和非构造化数据的进行多层次解决的能力,具有离线计算、流式计算、实时分析、机器学习等能力。计算框架自身,也是在迅速的发展中,几年前MarpReduce是唯一,目前已经迅速浮现并开始广泛流行的是Spark/Storm,同步涉及Tez、Flink等计算框架也在借助自己的优势在推动中。不同计算框架具有各自独特的优势,选择时的考虑点如下:MapReduce具有超大数据量解决非常稳定的优势,其追求在稳定,Tez在性能方面有很大提高,同步借助支持Hive,构成了基于Hive运算的铁三角,对于大容量表的碰撞,可以考虑使用Hive(基于MapReduce或者Tez)的技术。Spark由于专门针对大内容和迭代计算进行了优化,在进行机器学习等算法运营的时候具有优势,某些最新的机器学习库(SparkMLlib等)也构筑在Spark之上,因此进行机器学习时Spark是首选。同步目前行业中也在进行将Hive迁移到Spark的实践,但愿在具有相应用接口不变(为Hive)的同步,获取到Spark的高性能优势,目前这块还在发展中,对于大容量数据集的计算(例如多种超大表的碰撞)有时还不够稳定。Flink是一种批解决和流解决结合的统一计算框架,其核心是一种提供了数据分发以及并行化计算的流数据解决引擎。它的最大亮点是流解决,是业界最顶级的开源流解决引擎。Flink最适合的应用场景是低时延的数据解决(DataProcessing)场景:高并发pipeline解决数据,时延毫秒级,且兼具可靠性。综合以上讨论,建议计算引擎的选择考虑如下几种基本准则:1.需要进行超大容量的多表碰撞的,选择Hive2.需要进行机器学习等迭代计算为重要特性的,选择Spark3.需要与老式的数据分析、展示系统对接,数据为构造化,规定高性能的数据,采用SQL引擎作为计算引擎(MPPDB)4.实时流解决采用Flink离线计算能力离线解决,一般是指对海量数据进分析和解决,形成成果数据,供下一步数据应用使用的场景。离线解决对解决时间规定不高,但是所解决数据量较大,占用计算存储资源较多,一般通过MR或者Spark作业或者SQL作业实现。离线解决场景的典型特点和核心能力是:1.集群规模最大能力——数据量大,顾客数据量最大超过5PB,不小于1000节点2.数据权限和资源隔离(多租户)——多种离线解决作业同步运营,需要不同的数据权限和资源调度,避免越权访问和抢占资源3.接口与开源兼容——客户一般存在存量离线解决应用,需要迁移到数据治理系统4.支持多数据源,多种数据加载方式——数据源寄存在多种类型来源,存在多种类型数据,存在多种数据格式5.滚动升级——离线解决是客户大数据系统的基本,停机升级无法忍受6.支持作业调度管理——多种离线作业存在不同的优先级,不同的运营时间,需要多种调度方略管理,对异常、失败作业进行监控7.支持异构设备——支持异构设备,客户扩容时支持配备升级的设备,并且支持新旧设备辨别使用8.支持冷热数据分级存储——顾客数据热度不同,但愿有分级存储方略,达到性能和成本的平衡9.支持与第三方软件对接(可视化、分析挖掘、报表、元数据等)——对接多种第三方工具,以便进行数据进一步的分析和管理实时流解决能力实时流解决,一般是指对实时数据源进行迅速分析,迅速触发下一步动作的场景。实时数据对分析解决速度规定极高,数据解决规模巨大,对CPU和内存规定很高,但是一般数据不落地,对存储量规定不高。实时解决,一般通过SparkStreaming或者Flink任务实现。实时流解决场景的典型特点和核心能力是:1.解决速度快:端到端解决需要达到秒级,流解决平台负责的数据采集和数据解决要在1秒内完毕。如风控项目规定单条数据解决时间达到秒级,单节点TPS不小于。2.吞吐量高:需在短时内接受并解决大量数据记录,吞吐量需要达到数十兆/秒/节点。3.抗震性强:为应对数据源端业务数据产生速度会忽然浮现峰值的情形,需提供数据缓存机制。4.可靠性高:网络、软件等故障发生时,需保证每条数据不丢失,数据解决不漏掉、不反复。5.水平扩展:当系统解决能力浮现瓶颈后,可通过节点的水平扩展提高解决性能。6.多数据源支持:支持网络流、文献、数据库表、IOT等格式的数据源。对于文献数据源,可以解决增量数据的加载。7.数据权限和资源隔离:消息解决、流解决需要有数据权限控制,不同的作业、顾客可以访问、解决不同的消息和数据。多种流解决应用之间要进行资源控制和隔离,避免发生资源争抢。8.第三方工具对接:支持与第三方规则引擎、决策系统、实时推荐系统等对接。交互查询能力交互查询平台重要承载对数据进行交互式的分析和查询,查询响应规定较高,可以实现人机之间交互,查询一般比较复杂。专项库的数据一般已经被预解决过,按照适合交互查询的数据模型进行组织。专项库数据量巨大,对CPU和内存规定很高,对于存储规定也很高。交互查询方式,以复杂SQL查询最为常用,也有简朴的快读检索,多维Cube分析也比较常用。实时检索能力实时检索,一般是指数据实时写入,对海量数据基于索引主键实时查询,查询响应规定较高,查询条件相对比较简朴。查询条件复杂的可以根据核心词在全域数据中通过索引搜索主键后,通过主键查询。全域数据既涉及了构造化数据又涉及了文本等非构造化数据。实时检索解决场景的典型特点和核心能力是:1.查询速度快:查询响应时间规定较高,一般规定在1秒内返回成果2.高并发能力:需要同步支持多顾客查询,如1秒千级并发查询3.数据量大:解决数据量巨大,一般在PB级别4.可以同步解决构造化和非构造化的数据5.支持全文检索功能5.5.4数据安全管理应急数据涉采集面广,波及政府单位涉密信息、企事业单位商业机密等,数据安全风险高。整体架构应遵循“零信任”的设计理念,建设数据安全防护系统,从数据的采集、互换、存储、使用、分享等几种方面进行防护,保证数据在整个生命周期中的安全性和保密性。顾客认证与角色授权.1顾客认证大数据平台提供对外访问时,顾客需通过安全认证,提供:pki身份认证、WebUI身份认证、CLI命令行身份认证、API身份认证等三种方式。.1.1单点登录功能顾客在任意Web界页面登录后,组件客户端登录,访问其她各组件Web页面,无需再次输入顾客口令进行认证。大数据平台需提供基于Kerberos的统一认证,客户端访问组件服务时,需要通过Kerberos机制认证,认证通过后才干访问组件服务。.1.2应用组件API认证大数据平台的应用组件提供对外的API,顾客在使用这些API时,必须先进行Kerberos认证,认证通过后才干使用相应的API。.1.3命令行方式访问大数据平台的应用组件支持命令行操作,当顾客登录到应用组件的节点上使用应用组件的命令之前,需要先进行Kerberos认证,认证通过后,才干使用应用组件提供的命令。.2角色授权大数据资源池提供可视化的多组件统一的集中顾客权限管理,简朴易用。同步提供基于角色的访问控制(RBAC),预定义权限集(角色)可反复使用,灵活。大数据资源池提供统一的顾客管理界面。通过这个界面,管理员可以进行常规的添加、删除顾客,以及重置密码等操作,并可以对顾客访问权限进行设立。支持对顾客进行划分,为不同的顾客赋予不同的访问权限。对每个顾客群设定最大的访问权限,再对顾客群中具体顾客进行权限设立,实现细粒度划分,不容许任何顾客超过为其设定的最大权限。根据数据敏感性规则,对数据查询、数据管理、决策系统等功能功能设立不同的顾客角色,如数据查询、数据访问、数据调用、数据管理等。并根据部门提供的顾客清单设立不同的角色,分派不同的顾客权限。数据加密应急数据基于HBase、Hive、MPP等组件进行存储,为了保证数据存储的安全,数据应以密文的形式存储在硬盘上,不会由于硬盘泄露、或底层OS被攻破导致数据泄露。大数据平台的HBase、Hive,以及MPPDB等组件均需支持透明加密。实现上层业务只需指定敏感数据,加解密过程业务完全不感知。同步大数据平台各组件支持本地数据目录访问权限设立,无权限顾客严禁访问数据,同步所有集群内部顾客信息严禁明文存储。加密算法支持AES128、SM4。密钥管理:密钥由独立部署、安全隔离的加密机生成,可通过角色和权限配备由专人管理,其她顾客仅可使用;每种加密算法均有各自的密钥,所有密钥在数据库中均加密存储,读取的时候需要提供目前顾客的登录密码;应支持密钥生命周期管理,且若密钥已被引用,则不容许修改、删除;数据传播加密.1大数据平台传播加密大数据平台中的各个组件,如HDFS、Hive在进行数据传播的时候,应通过多种加密手段对通信合同进行保护。HTTP:HDFS支持配备SSL,启用HTTPS加密通道。RPC:组件间的RPC交互使用SASL(JavaSimpleAuthenticationandSecurityLayer)来完毕,SASL可配备对称密钥加密的方式来传播。DTP:HDFSClient和DataNode之间的数据传播是通过Hadoop的DTP(DataTransfer)来进行的。DTP支持3DES和RC4两种加密方式。.2共享互换传播加密共享互换平台负责从各参建部门采集信息(库表、文献、接口),一般采用发布订阅、点对点、路由转发等几种数据互换机制。通过在前置节点之间的通信应采用128位的SSL技术,或者在各部门之间建设VPN通道,在共享单位间进行可靠传播,保证连接的合法性、私有数据的保密性。多租户隔离大数据平台需提供可视化的多级租户管理,与单位组织构造和业务模式相匹配,简化系统资源分派与管理:与单位组织构造相匹配的多级的租户模型,不同部门相应不同的租户,按需动态增删租户;一站式管理租户资源管理:计算资源(CPU/内存/IO)、存储资源(HDFS)、服务资源(HBase…);基于linuxcgroup容器机制的租户资源隔离,为租户SLA保驾护航;租户资源使用状况实时监控。安全审计大数据平台支持记录审计日记,审计日记可用于安全事件中定位问题因素及划分事故责任,大数据资源池审计日记中记录了顾客操作信息,可以迅速定位系统与否遭受歹意的操作和袭击。通过大数据审计系统,实现对大数据访问的日记记录与审计。日记采集:在大数据资源池和数据库主机上安装代理,收集系统管理和数据访问、计算等环节的日记信息;过滤、聚合和原则化为原则格式。日记管理:集中收集大数据平台各组件安全日记并高效长期储存,支持搜索、检索和报告;实现合规和监管规定。事件关联与分析:自动分析安全日记以辨认安全事件,威胁,违规行为和安全趋势。报告与告警:提供安全报告,SQL行为、风险行为,政策性(级别保护)报表;全面审计:通过主机流量探针来捕获数据访问全流量;业务关联:通过将数据访问行为和业务访问祈求关联,将数据库访问行为定位到顾客;合规报表:数据访问行为、风险行为,政策性(级别保护)报表;安全事件追责:应用层访问审计、大数据平台操作审计、业务关联匹配、事后分析追责;大数据平台问题诊断:性能监控、资源监控、问题诊断;5.5.5统一调度管理资源调度框架分布式资源管理Yarn是离线计算能力、实时流解决能力提供支撑,特别为计算能力提供计算资源并协调多种计算框架运营在一种物理集群中。Yarn的重要功能是对集群中各类资源进行抽象,并
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设计教育与设计师
- 全肺灌洗术的护理
- 胫骨截骨术的护理
- 山东省潍坊市寿光市达标名校2025届初三3月月考化学试题理试卷含解析
- 甘肃省临夏地区夏河中学2024-2025学年高中新课程高三下学期期末考试英语试题含解析
- 福建省厦门市2025年四年级数学第二学期期末考试模拟试题含解析
- 朔州陶瓷职业技术学院《AutoCAD技术》2023-2024学年第二学期期末试卷
- 武汉纺织大学外经贸学院《临床检验仪器》2023-2024学年第一学期期末试卷
- 天津城市建设管理职业技术学院《高级法语1》2023-2024学年第一学期期末试卷
- 内蒙古自治区呼伦贝尔市、兴安盟达标名校2025届全国中考招生统一考试中考化学试题模拟试题(2)含解析
- 石英砂采购合同(2024版)
- DL∕T 618-2022 气体绝缘金属封闭开关设备现场交接试验规程
- 常微分方程教案
- 2024年中国防晒衣行业标准白皮书
- 厨房安全检查表
- 四川省2022年10月自考01759《药物化学(二)》试题
- 供水企业安全生产培训课件
- 星巴克新员工培训手册
- 教师的继续教育与职业发展
- GeomagicDesignX教程教学课件
- 河南省文物保护单位名录
评论
0/150
提交评论