应急管理综合应用平台数据治理系统解决方案_第1页
应急管理综合应用平台数据治理系统解决方案_第2页
应急管理综合应用平台数据治理系统解决方案_第3页
应急管理综合应用平台数据治理系统解决方案_第4页
应急管理综合应用平台数据治理系统解决方案_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应急管理数据治理系统建设方案TOC\o"1-5"\h\z\u5.系统功效 65.1信息资源规划 65.1.1信息资源 65.1.2信息要素规划 65.1.3信息资源目录编制 65.1.4分类管理 75.1.5综合查询 75.1.6定时更新 75.1.7绩效考评 75.2数据接入 75.2.1数据接入方式 7外部关联部门数据接入方式 7应急管理厅内部业务部门数据接入方式 7互联网公开数据接入方式 7感知数据接入方式 8其余数据 85.2.2系统功效 8数据探查 8数据读取 8数据对账 8断点续传 8任务管理 8数据分发 95.3数据处理 95.3.1数据处理场景 9从前置库到原始库 9从原始库到资源库 9从资源库到主题库 9从主题库到专题库 95.3.2系统功效 10数据探查 10数据提取 10.1半结构化文件内容提取 10.2非结构化文件内容提取 10数据清洗 11数据转换 11数据关联 12数据比对 12数据标识 12数据融合 13数据去重 130数据补全 135.4数据资源池 135.4.1应急管理数据库 13原始库 13资源库 14主题库 14专题库 155.4.2应急管理配置库 16标签规则库 16.1基础标签规则库 16.2业务标签规则库 16.3智能标签库 16知识库 16.1应急基本信息 17.2应急速查手册 17.3应急处置流程 17.4应急案例信息 17.5应急教授信息 17.6应急法规政策 17索引库 17日志库 175.5数据支撑 175.5.1数据集成 18批量数据集成 19实时数据集成 19分布式消息队列 195.5.2数据存放 20分布式文件存放 20分布式列数据库 20数据仓库 21分布式关系型数据仓库 21内存数据库 22全文检索库 225.5.3数据计算 23离线计算能力 23实时流处理能力 24交互查询能力 24实时检索能力 245.5.4数据安全管理 25用户认证与角色授权 25.1用户认证 25.2角色授权 25数据加密 26数据传输加密 26.1大数据平台传输加密 26.2共享交换传输加密 26多租户隔离 26安全审计 265.5.5统一调度管理 27资源调度框架 27管理平台 275.6数据服务 285.6.1数据基础访问服务 285.6.2数据索引服务 285.6.3元数据访问服务 285.6.4数据字典服务 285.6.5数据授权服务 285.6.6数据鉴权服务 295.6.7数据接口服务 29数据查询类服务 29数据比对类服务 29数据订阅/推送类服务 29数据分析类服务 29动态数据获取服务 305.6.8数据可视化服务 30可视化组件服务 30数据治理可视化 30.1数据治理概况 30.2数据质量可视化 30.3数据接入可视化 30.4数据处理可视化 31.5数据管控可视化 31.6数据资源可视化 31.7数据应用情况可视化 315.7数据管控 315.7.1数据标准管理 315.7.2元数据管理 32元数据分类 32元数据管理 32元数据分析 335.7.3资源目录管理 345.7.4数据鉴权管理 345.7.5数据质量管理 345.7.6数据运维管理 355.7.7数据血缘管理 365.7.8数据分级分类 365.7.9生产库管理 375.8数据共享交换 375.8.1服务共享管理 37服务目录 37服务注册 37服务申请 38服务公布 38服务订阅 38服务审核 38通用服务接口 385.8.2数据交换管理 38数据交换服务 38共享资源配置 385.9算法模型 395.9.1算法工程 39算法管理 39算法组件 40算法库 405.9.2模型工程 40模型创建 40模型分析 40模型管理 415.10工具引擎 415.10.1通用工具 41可视化工具 41智能查询工具 415.10.2业务流程引擎 42中间件 42基础服务组件 425.10.3工作流引擎 435.10.4搜索引擎 435.10.5表单引擎 435.11标签工程 435.11.1标签体系管理 43标签主体管理 44标签目录管理 44标签管理 445.11.2标签分类管理 45业务分类 45管理分类 46技术分类 465.11.3标签规则管理 47标签元数据管理 47标签规则管理 47标签生命周期管理 48标签计算 48标签画像 495.12知识图谱 505.12.1知识图谱创建 505.12.2知识图谱库构建 505.12.3知识图谱服务 50知识图谱检索服务 51关联分析/图析服务 51多维展示/全息档案服务 51地理展示和时空比对服务 515.13通用应用服务 515.13.1统一机构管理 515.13.2统一用户管理 515.13.3统一权限管理 525.13.4统一身份认证 525.13.5统一消息服务 525.13.6日志管理 525.13.7安全审计 535.13.8数据治理门户 535.14资源目录 535.14.1元数据资源目录 535.14.2数据资源目录 535.14.3标签资源目录 535.14.4算法资源目录 545.14.5模型资源目录 545.14.6服务接口资源目录 545.15数据服务总线 545.15.1服务注册 545.15.2服务编排 545.15.3服务路由 545.15.4协议适配 555.15.5事务管理 555.15.6服务监控 556.技术指标 555.系统功效5.1信息资源规划地方应急管理部门应在应急管理部编制信息资源目录基础上,补充梳理本省应急管理信息资源,并按摄影关规范要求进行编目,为应急管理业务系统和政务服务提供数据资源清单,并定时与部级数据治理系统资源目录实现同时,为数据接入、数据汇聚、数据存放、数据交换、数据应用提供技术约束,确保数据治理工作规范、统一、有据。5.1.1信息资源应急管理数据治理系统建设是一项长久工作,数据资源池中存放和接入信息资源类型不停丰富、数据量不停增加数据起源单位范围逐步扩大。本期信息资源采集范围主要包含以下单位:应急管理各转录部门以及林业、交通运输、国土资源、地震、城管、消防、民政、气象等单位。采集数据类型主要包含:1、各单位应急相关基础数据,危险源、防护目标、地理信息等。2、各单位应急资源数据,包含救援队伍信息、应急教授、应抢救援物资装备信息等。3、各单位实时监测监控数据,如气象信息、舆情信息等。4、各单位应急相关业务数据,包含预案、案例、法律法规信息、安全生产监管相关信息等。5、各单位专业预测信息,如气象预测信息、地震预测预警信息等。5.1.2信息要素规划依照应急管理业务数据特征,以相关要素为基础,将应急管理业务中能够进行信息化处理数据进行分类。5.1.3信息资源目录编制本项目将依照《政务信息资源目录编制指南(试行)》、GB/T21063.1-及GB/T21063.3-等相关指南和标准要求,结合应急管理部管理需要,梳理应急管理信息资源,规划应急管理元数据范围,编制完成标准《应急管理信息资源资源目录》。基于应急管理信息要素,将应急管理信息资源进行汇总融合,可形成包含最小一级分类。基于一级分类,将关联于同一信息要素不一样职能或不一样对象进行子类划分,形成信息资源二级分类。对二级分类下业务流程或业务处理对象进行信息资源再划分,形成信息资源三级分类。5.1.4分类管理按类别管理。5.1.5综合查询综合查询。5.1.6定时更新形成完备更新机制。5.1.7绩效考评依照资源规划情况进行考评。5.2数据接入数据接入主要提供统一数据汇聚功效,将纷繁复杂、格式各样外部关联部门业务系统、应急管理内部业务系统、互联网业务系统数据接入到数据治理平台中,方便和外部系统进行数据交换,为上层大数据应用支撑平台业务分析工作提供数据源。5.2.1数据接入方式从数据起源分布来看,此次项目建设接入数据包含外部关联部门数据、应急管理厅内部业务部门数据、互联网公开数据、感知数据等。针对不一样起源数据采取不一样数据接入方式。外部关联部门数据接入方式对于林业、交通运输、国土资源、地震、城管、消防、民政、气象等外部相关部门业务系统数据可经过数据交换平台获取,引接方式遵从平台要求方式进行,现在主要提供库表交换、服务接口调用、文件上传方式。应急管理厅内部业务部门数据接入方式对于黑龙江应急管理厅等应急管理厅内部业务部门数据,可经过前置系统采取数据抽取、接口调用、消息服务方式进行数据接入。互联网公开数据接入方式对于来自互联网以及社会企业舆情数据可经过互联网单向传输设备接入到数据资源池。感知数据接入方式对于起源于GPS与北斗定位及速度、方向等实时定位设备、各单位实时监测监控数据,可经过接口实时接入或定点接收方式实现数据接入。其余数据对于没有IT系统支撑业务数据,还可采取人工填报,XLS表格导入方式实现数据接入。5.2.2系统功效数据接入子系统提供数据探查、数据读取、数据对账等功效模块。数据探查数据探查是指经过对起源数据存放位置、提供方式、总量和更新情况、业务含义、字段格式语义和取值分布、数据结构、数据质量等进行多维度探查,以达成认识数据目标,为数据定义提供依据。数据读取数据读取是指从源系统抽取数据或从指定位置读取数据,检验数据是否与数据定义一致:不一致停顿接入,并重新进行数据探查和定义;一致执行深入接入,对数据进行必要解密、解压操作,生成作用于数据全生命周期统计ID,并对数据进行字符集转换等,将其转成符合数据处理要求格式。数据对账数据对账是针对数据接入步骤,对数据提供方和数据接入方在某一对账节点完整性、一致性、正确性进行查对和检验过程。假如在某一对账时间点数据提供方和数据接入方分别对应数据条数不一致,说明对账出现异常,统计异常,在必要时需告警。断点续传系统应该提供基于消息数据传输服务,从一个应用系统传输数据实体和数据格式到另一个应用系统,每个传输服务能够运行多个传输实体。另外系统也提供断点处理功效,用户能够经过流程诊疗工具查看流程发生错误断点,用户能够只修改发生错误断点处消息,然后把该消息重新发送,而不是回退和重新发送整个流程。任务管理主要实现对数据接入任务管理,支持数据接入任务创建、查询、删除等功效,并可指定接入任务所使用抽取方法、转换规则和加载方式,并依照指定类型进行任务调度执行。数据分发将预处理后数据按需分发到资源库、主题库、业务库,更新维护原始库,以及向请求方反馈数据。5.3数据处理数据处理主要是针对数据接入系统汇聚结构化数据统计、半结构化文本等详细数据内容建立标准化数据处理模式,经过处理后数据存放在应急管理数据资源池中。数据处理子系统提供数据探查、提取、清洗、转换、关联、比对、标识、融合等功效模块。5.3.1数据处理场景从前置库到原始库数据处理系统经过数据接入系统接入到前置库中数据,这些数据包含各业务系统中结构化数据和非结构化数据,经过数据探查和数据提取等伎俩,对前置库数据进行探查分析,提取出数据源信息,并将非结构化数据关键文字信息如森林草原林火视频监控数据中时间等提取出来,整个数据处理过程处理后数据会落入原始库中。从原始库到资源库原始库数据经过数据比对、数据提取、数据关联、数据转换、数据清洗等处理过程,将数据加工成符合标准规范数据。比如人员伤亡表数据处理工作,经过比对人员伤亡表中各个字段和标准数据元差异,将标准数据元与原始表进行关联,如身份证号,然后进行转换和清洗。从资源库到主题库资源库数据经过数据比对、数据关联、数据融合、数据标识处理过程,将资源库数据映射到灾害事故、管理对象、应急环境、救援资源、动态感知五大信息分类中,并详细对应到各信息分类中与森林防火相关二级、三级主题库中。比如“地”主题中关键基础设施主题,需要比对关键基础设施表与资源库中表数据结构差异,选择有效字段关联、融合数据到关键基础设施主题中。从主题库到专题库主题库数据经过数据比对、数据关联、数据融合、数据表示处理过程,将灾害事故、管理对象、应急环境、救援资源、动态感知五大信息分类中数据提取出来,按照森林防火专题库所需要方式进行组织。5.3.2系统功效数据探查数据探查功效组件主要对业务缓冲库和原始库中数据进行探查分析,方便对待汇聚整合数据有一个清楚了解,进而提取出数据源头元数据信息,为后续数据处理过程提供管理、业务、技术等方面支撑。业务探查:对起源表业务含义进行探查,方便能准确地了解和描述数据。接入方式探查:对起源表存放位置、提供方式进行探查,为数据接入规则定义和数据处理、组织提供依据。字段探查:对详细字段数据内容进行探查,识别其代表含义和统计分布情况。空值率探查:统计字段空值占比情况,首先可重点关注空值率高主要字段,另首先可经过与历史情况比较及时发觉数据质量动态改变。值域及分布探查:对字段值域范围以及分布情况进行探查。命名实体探查:依照数据内容识他人名、地名、机构名、手机号等命名实体,帮助了解字段语义。数据元探查:依照字段名字及内容,探查字段确实切语义,并与数据元标准进行映射。类型及格式探查:探查字段类型及格式是否符合规范。数据集探查:对起源数据集表名、引用数据元等进行探查,确定数据集是否是标准数据集。探查数据总量、增量及更新情况,为数据接入、处理和组织提供依据。问题数据探查:探查字段中不符合规范数据,为后续数据清洗规则制订提供依据。数据推送:把数据探查结果信息推送到数据清洗组件、数据转换组件以及元数据库中,为相关组件规则制订,流程分发等提供必要信息。数据提取数据提取是原始数据进行规范化处理过程,主要针对半结构化数据,经过数据提取过程,从这些半结构化数据中提取出人员、机构、应急物资、事件等相关信息,并将提取信息以结构化形式进行存放。.1半结构化文件内容提取主要针对存在于原始库中半结构化数据,依照文件中内容,提取出业务需要数据内容。常见半结构化数据类型包含:XML、CSV、TXT、Word、Excel等文件。数据缓存:对XML、CSV、TXT、Word、Excel文件解析出来结构化信息缓存功效。数据封装:对解析出来数据进行数据封装,形成标准化数据结构。数据推送:推送封装好结构化数据到资源库、主题库。源数据索引:需实现对原始半结构化数据索引能力,便于对提取后结果进行溯源追踪。.2非结构化文件内容提取多媒体信息提取:从图片、语音、视频等多媒体数据中提取文字、图片等信息。如从相关图片中提取文本信息,从视频信息中提取关键帧信息,对图片中出现二维码进行解析识别,提取包含文字信息、链接信息等。生物特征提取:从海量图像、视频、音频信息中提取人脸、人声等信息,为应抢救援提供数据支撑。如从人事管理系统中人员照片信息提取人脸特征信息、从各类视频信息中提取人脸信息,识别出包括领导人员信息等。全文信息提取:主要是从海量文本数据中提取姓名、身份证号、电话号码、车牌号码、社会统一信用代码、企业名称、地址、时间等信息。如从安全生产诚信管理系统黑白红名单中提取企业名称、社会统一信用代码等企业组织要素信息,从评定汇报信息中提取灾害事故发生时间、地点、伤亡情况等结构化要素信息。如从业务信息系统中对接Word格式文件文件内容中提取单位名称、姓名等要素信息。数据清洗数据清洗是对业务数据中不符合标准规范或者无效数据进行相关操作。在进行数据整合之前先定义数据清洗规则,并对符合清洗规则数据设置数据错误级别。当进行数据整合过程中碰到符合清洗规则数据时,系统将把这些业务数据置为问题数据,并依照错误严重程度进行归类。对出现问题数据进行标识后存入问题数据库中,经确认后再决定是经过清洗转换后入库,还是直接放弃,抑或其余方式处理。对于清洗前后数据还需进行一致性检验,以确保清洗结果集质量。数据转换此次数据治理项目包括多个部门、多个业务系统中数据。不一样系统有不一样数据结构定义,数据汇聚在一起后就会产生数据格式不规范统一、数据命名不规范统一、数据编码不规范统一、数据标识不规范统一。这么数据是无法支撑业务应用需要,所以需要对聚集数据进行数据格式规范统一、数据命名规范统一、数据编码规范统一、数据标识不规范统一等数据转换处理。详细数据转换组件包含以下功效:数据命名转换:经过比对标准数据元和实际数据表中数据项,假如比对结果一致,则不需要转换处理,假如比对结果不一致,要按照标准数据元中要求命名进行转换。数据类型转换:经过比对标准数据元和实际数据表中数据项,假如比对结果一致,则不需要转换处理,假如比对结果不一致,要按照标准数据元中要求数据类型进行转换。按照标准规范将不一样起源、不一样格式数据转换成统一标准化数据格式。平台将建立一系列数据标准,进入平台数据都必须遵照这些标准,只有这么才能确保平台上层应用调用数据通用性和应用之间充分信息共享。需要做格式统一有以下几个:全角转半角、电话号码转换、URL形式转换、身份证件号码转换、社会统一信用代码转换、时间格式转换、经纬度等数据标准化类型。身份证号码和社会统一信用代码标准化是将身份证位数统一为18位半角字符,字母字符转为大写字符,电话号码标准化主要是保留源数据数字字符部分,去除加减号、空格等特殊字符,仅保留有效数字字符内容。特定字段全角转半角(URL、账号等信息)。时间标准化即将“yyyy-MM-ddHH:mm:ss”、“yyyyMMddHHmmss”等各种时间格式值,这些格式也统一转成平台定义标按时间格式。经纬度标准化主要将各种经纬度坐标系统一转换为国家大地坐标系,经纬度数值统一为十进制数值格式。全部数据格式标准化后字段单独存放,原字段给予保留。数据编码转换:比对标准数据元和实际数据表中数据项,假如比对结果一致,则不需要转换处理,假如比对结果不一致,需要按照标准数据元中要求标准编码进行转换。未起源于不一样系统不一样数据字典转化为标准数据字典。视频转码:因为应急管理数据治理工程中视频信息起源于不一样终端设备,且多经由异构通信网络进行传输,所以需要进行视频转码,将已经压缩编码视频码流转换成另一个视频码流,以适应不一样网络带宽、不一样终端处理能力和不一样用户需求,并确保服务质量。数据标识转换:经过数据元和数据表字段关联,依照关联关系自动生成可执行转换规则,进行数据标识转换。标准地址转换:对地址要素不完整、文字表示不一致地址信息进行标准化处理。依靠民政标准化地址库及互联网公开POI地址信息库,形成应急相关地址标准基础库,对应急采集地址信息进行标准化处理。为保障数据转换处理过程不会造成数据丢失,数据转换模块需要支持断点功效。数据关联数据关联组件需要完成在不一样数据集之间关联,实现在不一样数据集联动,为数据治理、业务应用需求提供支撑。依照数据处理流程设计要求,数据关联组件功效包含:标准关联、字典关联、半结构化关联、关联回填。标准关联:在资源库中设计了标准数据元体系,作为数据资源中心数据规范基础。数据元是最小数据单位。在数据关联络统中,需要经过手工或更智能方式实现各种不一样编码原始数据和标准数据元关联。数据字典、属性及相关含义关联:如灾害等级与灾害类别关联、自然灾害和灾害地点关联、单位代码和单位名称关联、救援物资与物资类别关联等。半结构化与结构化关联:对半结构化数据进行提取结构化信息后,按照关键字(如灾害地点相同、灾害时间相同、灾害诱因相同)等进行关联,构建数据关联关系。如从业务信息系统中对接Word格式文件文件,经过提取出文件内容,经过事件时间、地点查询对应火灾灾情库中灾情信息进行关联。关联回填:两个或两个以上数据集之间经过某种信息建立关联关系之后,依照实际业务需要,能够对这两个数据集中数据进行相互补充。数据比对经过数据比对功效实现对两个数据集中数据内容、数据格式比较核查,找出相同数据或不一样数据。在业务应用场景上主要实现以下数据比对功效。数据项与标准数据元比对:实现原始数据表中数据与标准数据元数据比对,比正确内容包含数据命名、数据标识、数据格式、数据值域、数据编码、数据类型等数据比对,数据比正确结果为一致或不一致。不一样数据项集比对:实现两个数据项集交集、补集,以满足数据检索需求。数据标识数据标识模块依靠标签引擎结合应急业务知识库、标签规则库对数据进行标识。标签规则库提供标签定义、内容、版本、关联等,经过读取标签规则库内容,对数据进行映射,经过人工或智能方式实现对数据打标,方便提升数据价值密度,并为上层应用提供支撑。依照标签规则库提供规则接口,数据标识过程分为以下三类:基础标签标识:依照基础标签定义规则,对数据进行规则筛选,符合规则数据增添一列基础标签。业务标签标识:按照业务数据模型管理数据,依照标签规则库提供标签元数据信息,在资源库中找到标签所需相关联数据,依照规则进行合并、汇总等工作,得到数据按照标签定义增加一列内容到目标数据中。智能标签标识:据标签规则库提供模型接口,将对应数据输入模型进行计算,将计算后结果按照标签规则库定义标签内容增加一列业务标签到目标数据中。数据融合标准化去噪后数据需要采取必要数据融合伎俩,按照应急管理主题库、专题库以及数据应用需要方式组织,以支撑应急管理单位数据需求。在数据融合过程中,应该以合理方式设计数据结构,保障数据应用对数据高效分析查询同时,尽可能降低冗余。数据融合处理过程贯通主题库、专题库和数据应用建设过程,详细以下:数据融合关键功效模块包含模型加工和汇总加工。各功效模块详细描述以下:模型加工:主要包含数据合并、数据覆盖、数据切分功效,其中数据合并需要经过函数、分组或转列方式完成数据表合并和列合并。数据覆盖功效需要依赖数据比正确结果,将新增和修改统计覆盖到目标表中。数据切分需要经过行筛选、列提取或表提取等方式将相同数据对象结果表进行切分合并。汇总加工:按照公共汇总标准,明确哪些数据需要汇总合后,采取聚合函数或窗口函数等方式,完成对跨数据域且需要被频繁公用数据汇总。数据去重对重复数据合并处理。0数据补全对一条数据各个字段缺失,经过技术伎俩进行补全,比如:黑龙江省,需要补充机构代码23。5.4数据资源池按照数据使用目标分级分类建库要求,统一规划资源,经过对数据资源进行标准统一、流程规范组织与挖掘,形成包含原始库、资源库、主题库、专题库等应急管理数据资源池,以满足应急管理内部各单位业务专题数据落地建库需求,为综合展示、数据服务、领导决议提供数据支持。5.4.1应急管理数据库原始库大数据资源中心原始库应该包含应急管理单位内部、外部全部需要组织数据。在数据起源上,包含外部委数据(如公共安全数据、交通运输数据等),应急管理单位内部数据(如省市重大安全风险监测预警数据、部级安全生产行政执法数据等),社会及互联网数据(如微信、微博及其余舆情数据等)。在数据类型上,包含结构化数据、半结构化数据和非结构化数据。原始库合理设计能够在业务系统和数据资源中心之间形成一个良好过渡,既保障了数据资源中心数据稳定性,不会受源业务系统数据频繁改变影响,又可减轻前置系统被重复抽取压力,数据资源中心数据需求统一由原始库为基础来抽取和分发。因为数据起源多、种类丰富,原始库数据应该采取清楚、合理方式去组织。对于不一样起源数据,应该按照其数据起源进行清楚标识,包含表名标识、表元数据标识等。对于不一样种类数据,应该采取不一样存放机制进行存取。存放域分为结构化域、半结构化域和非结构化域,其中半结构化域和非结构化域数据应该采取对应数据提取伎俩提取关键信息保留至结构化域,便于数据溯源和使用。原始库数据结构设计标准上和业务生产库表结构一致,并在业务生产库基础上增添数据接入过程中操作字段,表示数据更新和删除等状态。以此向大数据资源中心提供原始、准确数据,便于后续分析和使用。原始库中数据是大数据资源中心最基础数据,需要对数据设置不一样生命周期和质量监控标准,从而保障数据鲜活性和准确性。原始库结构按数据类别分为结构化数据域、半结构化数据域和非结构化数据域三个逻辑数据域。(1)结构化数据域用于保留由各业务系统抽取关系型数据,如火灾档案表等,这部分数据需基于云计算平台所提供关系型数据库组件来组织。(2)半结构化数据域用于保留从各业务系统或各部门抽取半结构化数据,如互联网舆情数据等XML格式、XLS格式数据或文件,该类型数据需基于云计算平台所提供NoSQL数据库组件来组织。(3)非结构化数据域用于保留从各业务系统或各部门抽取非结构化数据,包含图片、音视频、文本等类型数据,如卫星遥感数据、火灾图传录像、救援总结汇报等,该类型数据需基于云计算平台所提供分布式文件系统进行存放。非结构化数据和半结构化数据需在原始库中建立索引表来统计该数据起源和存放路径等。索引表主要以关系型数据形式存放在结构化数据域中。资源库资源库数据是由原始库数据经过清洗、转换、关联、比对等数据处理过程后形成标准数据。资源库设计包含数据结构设计、数据表结构设计和加工过程设计。在资源库数据结构设计上,以原始库数据结构为基础,补充必要数据字段。在数据表设计上,将相同表结构数据表进行适当合并,并保留原始库表名以方便进行溯源。数据加工过程设计是资源库设计中最关键部分,这部分要进行数据标准、数据元设计,以及原始数据和标准数据元关联设计,从而将资源库数据处理成符合标准数据。主题库主题库是按照应急管理信息要素将应急数据按灾害事故、救援物资与装备、组织机构、危险源等进行分类,为数据应用和产品提供公共数据服务,降低用户了解和获取数据难度,降低数据加工深度和复杂度,提升数据应用和产品获取数据效率,保持系统内各个软件模块和应用服务间数据一致性。主题库设计需遵照下述规则:1、提供统一数据出口主题库中包含了主题相关实体表和实体间关联表,以及实体表起源表信息。经过关联表以及起源表信息,用户能快速清楚地了解实体数据起源,降低了去数据库中寻找实体相关表时间,而且因为各个用户统一从主题库获取数据,数据口径一致性得到了有效保障。2、确保实体一致性主题库包含灾害事故、救援物资与装备、组织机构、危险源等实体,每个实体都会在主题库中有唯一ID,经过这个唯一ID,能够获取实体在主题库中全部信息,从而确保了实体一致性。3、提供汇总业务数据,满足查询、统计、分析等多类应用产品数据需求主题库会依照业务类别,将数据从各个业务表中汇聚起来变成汇总后实体表和关联表,而且在实体表和关联表中还会包含惯用业务字段,使得用户能够方便得从较少表中获取所需数据,降低了数据获取成本。主题库在数据治理体系中位于DWD明细数据层(资源库)和DM专题层(专题库)中间,对上游明细数据打散重构形成主题表,对下游专题层提供了标准化、一致性数据。上游明细数据里面包含了不一样系统、不一样部门数据,数据之间存在关联,不过因为没有进行一致性处理,无法达成数据准确互通,所以主题库将不一样系统间数据经过信息要素等实体进行有效关联,打通了不一样系统间数据。主题层完成后,专题层就能依照特定应用需求,快速选取有效数据形成专题数据。主题库逻辑模型设计应采取自顶而下方法,首先将需求包括范围内业务对象从高度概括信息要素概念层次归类,即划分主题域,再针对各个主题设计实体关系图。专题库专题库是主题库数据按照专题应用需要重新整合形成数据库。专题库建库按照专题应用业务模型,经过二次抽取装载方法重新组织数据,建立形成满足应急管理专题业务应用需要数据库。依照应急管理业务需求,专题库包含包含预案、案例、应急资源、教授等数据搜集、整理、清洗、入库。预案主要包含突发事件总体应急预案、专题预案、部门预案、下级政府应急预案、大型活动应急预案和企事业单位应急预案等。应急预案按内容和形式分为两种:文本预案和数字预案。文本预案主要以文本方式组织存放各级政府或机构编制好应急预案。数字预案是对文本预案中救援组织、救援队伍、程序步骤、方法、职责、协调等内容进行结构化处理后形成可程序化执行预案,包含预案手册中所统计全部信息。案例库主要存放处置突发事件历史案例数据、各部门搜集与其专业领域相关专业案例数据及国内外突发事件经典案例等相关信息。包含案例基本信息和案例要素。案例包含自然灾害、事故灾难、公共卫生、社会安全四大类。应急资源库主要存放应抢救援物资贮备场所、数量、内容及应抢救援物资生产企业,以及救援队伍数据等数据。应急资源数据实体包含应急物资贮备库、应急物资、应急装备、应急物资生产企业、救援队伍等。应急物资贮备库数据描述应急物资贮备库基本情况,包含名称、类型、级别、地址、责任人、联络人、周围交通情况、贮备物资等信息。应急物资数据描述应急物资基本情况,包含名称、类型、级别、存放地点、数量、保质期等信息。应急装备包含个人防护装备、通信设备、探测设备、洗消设备、医疗设备、能源设备、应急运输工具等。应急装备数据描述各类应急装备基本情况,包含名称、类型、级别、责任人、联络人、装备数量、运输方式等。应急物资生产企业数据描述应急物资生产企业基本情况,包含名称、类型、级别、地址、责任人、联络人、生产物资、生产能力等信息。救援队伍数据库存放全市综合性、专业性应抢救援机构、队伍信息,主要包含:本市区县级以上人民政府建立或确定综合性应抢救援队伍信息。各市级部门、各专业领域建立专业应抢救援队伍信息。应急志愿者队伍信息。教授库存放市政府和市关于单位、区县、企业各类应急管理教授信息。包含自然灾害教授、公共卫生教授、事故灾难教授、社会安全教授、综合类教授。教授组数据描述教授组(库)基本情况,包含教授组名称、类型、责任人、联络人、组建单位、人数、教授组介绍等。教授数据描述教授基本情况,包含姓名、教授类型、性别、出生日期、工作单位、专业专长、应急工作经历等信息。5.4.2应急管理配置库标签规则库标签规则库是按照标签目录进行组织标签规则集合,每一个标签规则由标署名称、标签加工源数据信息、转换规则信息、统计周期等信息组成。依照规则定义方式,标签规则库可分为基础规则库、业务规则库、智能标签规则库。.1基础标签规则库基础标签规则是对数据某一属性字段信息进行计算处理规则,主要用于生成刻画灾害事故、管理对象、应急环境、救援资源等应急管理要素基础特征标签。.2业务标签规则库业务标签规则是基于应急管理人员业务经验,对基础标签规则进行模型关联和逻辑计算,形成固化知识标签生成规则。.3智能标签库智能标签规则库是基于特征工程、机器学习算法,建立智能标签模型集合。智能标签模型可用于从互联网信息、文档等大量信息中提取可直观展现对业务主观认识标签。知识库知识库是结构化、易操作、易利用、全方面、有组织、相互联络知识集合,是相关部门在应急管理过程中与该领域相关基本概念、理论知识、事实数据,以及所取得规律、常识性认识、启发式规则和经验教训集合。本项目针对惯用森林火灾、地震、危险化学品泄漏、台风暴雨等事故灾害现场救援必须掌握知识,整合森林消防、减灾中心等部门应急管理知识,构建应急管理知识库,为应急指挥中前期处置、物资调用提供支撑。知识库建设内容包含应急基本信息、应急速查手册、应急处置流程、应急案例信息、应急教授信息与应急法规政策信息。.1应急基本信息应急基本信息包含应急资源、场景、情况定义和详细描述,不一样要素分类,等级和标准。.2应急速查手册应急速查手册包含灾害事故名称及详细描述、应抢救援过程中应急指挥和处置人员应尤其注意问题、危险性类别、作业人应采取防护方法以及应采取紧急方法等。.3应急处置流程应急处置流程信息包含处置基本标准、应急处置流程图、处置基本流程及详细描述和各类事故处置详细流程。.4应急案例信息应急案例信息主要包含处置突发事件历史案例数据、各部门搜集与应急专业领域相关专业案例数据及国内外突发事件经典案例等相关信息。包含案例基本信息和案例要素。.5应急教授信息应急教授信息应急管理单位以及关于单位、区县、企业各类事件响应处置教授信息,包含自然灾害教授、事故灾难教授、综合类教授。教授信息又分为教授组与教授个人数据。其中,教授组数据描述教授组(库)基本情况,包含教授组名称、类型、责任人、联络人、组建单位、人数、教授组介绍等。教授数据描述教授基本情况,包含姓名、教授类型、性别、出生日期、工作单位、专业专长、城市联动指挥工作经历等信息。.6应急法规政策聚集国内外应对突发事件制订法规、政策、应对方法等规范性文件。能够全方位了解世界上各个国家、地域,国内各级政府为应对突发事件所采取方法。索引库为应用查询、业务搭建提供数据索引。日志库软件全流程、全方位日志统计。5.5数据支撑基于Hadoop架构采取分布式数据处理技术,对外提供海量数据存放、分析查询和实时流式数据处理分析能力。提供数据集成、数据存放、数据计算、数据安全管理以及统一资源调度能力,用于承载数据资源池建设,包含原始库、资源库、主题库、专题库、配置库、共享库等。架构安全:大数据支撑平台基于开源组件实现功效增强,保持100%开放性,不使用私有架构和组件。认证安全:基于用户和角色认证统一体系,遵从帐户/角色RBAC(Role-BasedAccessControl)模型,实现经过角色进行权限管理,对用户进行批量授权管理。提供单点登录,统一了Manager系统用户和组件用户管理及认证。对登录管理平台用户进行审计。文件系统层加密:Hive、HBase能够对表、字段加密,集群内部用户信息禁止明文存放。加密灵活:加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。业务透明:上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。可靠:NameNode、HiveServer、HMaster、ResourcesManager等全部管理节点组件均实现HA(HighAvailability)布署,确保数据可靠性、一致性。数据备份恢复支持表级别全量备份、增量备份,数据恢复(对当地存放业务数据进行完整性校验,在发觉数据遭破坏或丢失时进行自恢复)。易用:统一运维管理,提供界面化统一安装、告警、监控和集群管理。易集成:提供北向接口,实现与企业现有网管系统集成;当前支持Syslog接口,接口消息可经过配置适配现有系统;整个集群采取统一集中管理,未来北向接口可依照需求灵活扩展。易开发,提供自动化二次开发助手和开发样例,帮助软件开发人员快速上手。5.5.1数据集成数据集成服务是一个以设计、调度、监控和管理ETL过程为关键功效服务。提供同构/异构数据源之间批量数据迁移服务,帮助客户实现数据自由流动。支持客户各种类型数据源之间数据迁移,支持类型包含:文件系统,关系数据库,数据仓库,NoSQL,大数据服务等数据源。平台提供批量结构化和非结构化数据、流式数据集成能力,具备接入和迁移各种类型海量数据能力。数据接入起源多样,现有内部数据也有其余部门数据,还有互联网数据,各数据起源数据格式也不一致,在搜集过程中需对数据进行规范化处理,方便于管理使用。大数据基础平台软件要完成从传统数据库到大数据平台数据采集,包含批量采集和基于流处理实时采集,主要提供以下组件能力:支持从传统数据库到大数据平台双向数据传输,能够将一个关系型数据库(比如:MySQL,Oracle,SQLServer等)中数据导入到大数据分布式文件系统中,也能够将分布式文件系统数据导进到关系型数据库中。提供高可用,高可靠,分布式海量日志采集、聚合和传输系统。提供实时、分布式以及具备高容错流处理系统,能够与实时消息系统交互,完成实时数据采集。提供高吞吐量分布式公布订阅消息系统,经过消息封装完成实时数据传递。批量数据集成实现大数据平台与关系型数据库、文件系统之间交换“数据”、“文件”,既能够将数据从关系型数据库或者文件服务器导入到HDFS/HBase中,同时也支持反过来从HDFS/HBase导出到关系型数据库或者文件服务器中。Loader是在开源Sqoop组件基础上进行了一些扩展,实现大数据平台与关系型数据库、文件系统之间交换“数据”、“文件”,既能够将数据从关系型数据库或者文件服务器导入到HDFS/HBase中,同时也支持反过来从HDFS/HBase导出到关系型数据库或者文件服务器中。Loader功效包含:1.经过MapReduce实现并行执行和容错Loader经过MapReduce作业实现并行导入或者导出作业任务,不一样类型导入导出作业可能只包含Map阶段或者同时Map和Reduce阶段。Loader同时利用MapReduce实现容错,在作业任务执行失败时,能够重新调度。2.数据导入到HBase在MapReduce作业Map阶段中从外部数据源抽取数据。在Reduce阶段中,按Region个数开启一样个数ReduceTask,ReduceTask从Map接收数据,然后按Region生成HFile,存放在HDFS暂时目录中。在MapReduce作业提交阶段,将HFile从暂时目录迁移到HBase目录中。3.数据导入HDFS在MapReduce作业Map阶段中从外部数据源抽取数据,并将数据输出到HDFS暂时目录下。在MapReduce作业提交阶段,将文件从暂时目录迁移到输出目录中。4.数据导出到关系型数据库在MapReduce作业Map阶段,从HDFS或者HBase中抽取数据,然后将数据经过JDBC接口插入到暂时表(StagingTable)中。在MapReduce作业提交阶段,将数据从暂时表迁移到正式表中。5.数据导出到文件系统在MapReduce作业Map阶段,从HDFS或者HBase中抽取数据,然后将数据写入到文件服务器暂时目录中。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论