版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应急管理数据治理系统建设方案TOC\o"1-5"\h\z5.系统功能 10\o"CurrentDocument"信息资源规划 10\o"CurrentDocument"信息资源 11\o"CurrentDocument"信息要素规划 11\o"CurrentDocument"信息资源目录编制 11\o"CurrentDocument"分类管理 11\o"CurrentDocument"综合查询 11\o"CurrentDocument"定期更新 11\o"CurrentDocument"绩效考核 12\o"CurrentDocument"数据接入 12\o"CurrentDocument"数据接入方式 12外部关联部门数据接入方式 12应急管理厅内部业务部门数据接入方式 12互联网公开数据接入方式 12感知数据接入方式 12其他数据 12\o"CurrentDocument"系统功能 13数据探查 13数据读取 13数据对账 13断点续传 13任务管理 13数据分发 13\o"CurrentDocument"数据处理 13\o"CurrentDocument"数据处理场景 14从前置库到原始库 14从原始库到资源库 14从资源库到主题库 14从主题库到专题库 14\o"CurrentDocument"系统功能 14数据探查 14数据提取 15半结构化文件内容提取 15非结构化文件内容提取 15数据清洗 16数据转换 16数据关联 17数据比对 17数据标识 17数据融合 17数据去重 18数据补全 18\o"CurrentDocument"数据资源池 18\o"CurrentDocument"应急管理数据库 18原始库 18资源库 19主题库 19专题库 20\o"CurrentDocument"应急管理配置库 21标签规则库 21基础标签规则库 21业务标签规则库 21智能标签库 21知识库 21应急基本信息 21应急速查手册 21应急处置流程 22应急案例信息 22应急专家信息 22应急法规政策 22索引库 22日志库 22\o"CurrentDocument"数据支撑 22\o"CurrentDocument"数据集成 23批量数据集成 23实时数据集成 24分布式消息队列 24\o"CurrentDocument"数据存储 24分布式文件存储 25分布式列数据库 25\o"CurrentDocument"数据仓库 26分布式关系型数据仓库 26内存数据库 26全文检索库 27数据计算 27离线计算能力 28实时流处理能力 29交互查询能力 29实时检索能力 29\o"CurrentDocument"数据安全管理 29用户认证与角色授权 30用户认证 30角色授权 30数据加密 30数据传输加密 31大数据平台传输加密 31共享交换传输加密 31多租户隔离 31安全审计 31\o"CurrentDocument"统一调度管理 32资源调度框架 32管理平台 32\o"CurrentDocument"数据服务 32\o"CurrentDocument"数据基础访问服务 33\o"CurrentDocument"数据索引服务 33\o"CurrentDocument"元数据访问服务 33\o"CurrentDocument"数据字典服务 33\o"CurrentDocument"数据授权服务 33\o"CurrentDocument"数据鉴权服务 33\o"CurrentDocument"数据接口服务 34数据查询类服务 34数据比对类服务 34数据订阅/推送类服务 34数据分析类服务 34动态数据获取服务 34\o"CurrentDocument"可视化组件服务 35数据治理可视化 35数据治理概况 35数据质量可视化 35数据接入可视化 35数据处理可视化 35数据管控可视化 36数据资源可视化 36数据应用情况可视化 36\o"CurrentDocument"数据管控 36\o"CurrentDocument"数据标准管理 36\o"CurrentDocument"元数据管理 37元数据分类 37元数据管理 37元数据分析 38\o"CurrentDocument"资源目录管理 38\o"CurrentDocument"数据鉴权管理 39\o"CurrentDocument"数据质量管理 39\o"CurrentDocument"数据运维管理 40\o"CurrentDocument"数据血缘管理 41\o"CurrentDocument"生产库管理 42\o"CurrentDocument"5.8数据共享交换 42\o"CurrentDocument"服务共享管理 42服务目录 42服务注册 42服务申请 42服务发布 43服务订阅 43服务审核 43通用服务接口 43\o"CurrentDocument"数据交换管理 43数据交换服务 43共享资源配置 43\o"CurrentDocument"算法模型 44\o"CurrentDocument"算法工程 44算法管理 44算法组件 44算法库 45\o"CurrentDocument"模型工程 45模型创建 45模型分析 45模型管理 46\o"CurrentDocument"工具引擎 46\o"CurrentDocument"通用工具 46可视化工具 46智能查询工具 46\o"CurrentDocument"业务流程引擎 47中间件 47基础服务组件 47\o"CurrentDocument"工作流引擎 48\o"CurrentDocument"搜索引擎 48\o"CurrentDocument"表单引擎 48\o"CurrentDocument"标签工程 48\o"CurrentDocument"标签体系管理 48标签主体管理 49\o"CurrentDocument"标签目录管理 49标签管理 49标签分类管理 50业务分类 50管理分类 51技术分类 51标签规则管理 52标签元数据管理 52标签规则管理 52标签生命周期管理 53标签计算 53标签画像 54知识图谱 55知识图谱创建 55知识图谱库构建 55知识图谱服务 55知识图谱检索服务 56关联分析/图析服务 56多维展示/全息档案服务 56地理展示和时空比对服务 56通用应用服务 56统一机构管理 56统一用户管理 56统一权限管理 57统一身份认证 57统一消息服务 57日志管理 57安全审计 58数据治理门户 58资源目录 58元数据资源目录 58数据资源目录 58标签资源目录 58算法资源目录 59模型资源目录 59服务接口资源目录 59数据服务总线 59服务注册 59服务编排 59服务路由 59协议适配 60事务管理 60服务监控 606.技术指标 605.系统功能信息资源规划地方应急管理部门应在应急管理部编制的信息资源目录的基础上,补充梳理本省应急管理信息资源,并按照相关规范要求进行编目,为应急管理业务系统和政务服务提供数据资源清单,并定期与部级数据治理系统的资源目录实现同步,为数据接入、数据汇聚、数据存储、数据交换、数据应用提供技术约束,确保数据治理工作规范、统一、有据。信息资源应急管理数据治理系统建设是一项长期的工作,数据资源池中存储和接入的信息资源类型不断丰富、数据量不断增长数据来源单位范围逐步扩大。本期信息资源的采集范围主要包括以下单位:应急管理各转录部门以及林业、交通运输、国土资源、地震、城管、消防、民政、气象等单位。采集数据类型主要包括:1、各单位应急相关基础数据,危险源、防护目标、地理信息等。2、各单位应急资源数据,包括救援队伍信息、应急专家、应急救援物资装备信息等。3、各单位实时监测监控数据,如气象信息、舆情信息等。4、各单位应急相关业务数据,包括预案、案例、法律法规信息、安全生产监管的相关信息等。5、各单位专业预测信息,如气象预测信息、地震预测预警信息等。信息要素规划根据应急管理业务的数据特征,以相关要素为基础,将应急管理业务中可以进行信息化处理的数据进行分类。信息资源目录编制本项目将依照《政务信息资源目录编制指南(试行)》、GB/T21063.1-2007及GB/T21063.3-2007等相关指南和标准的要求,结合应急管理部的管理需要,梳理应急管理信息资源,规划应急管理元数据范围,编制完成标准《应急管理信息资源资源目录》。基于应急管理信息要素,将应急管理信息资源进行汇总融合,可形成包括最小的一级分类。基于一级分类,将关联于同一信息要素的不同职能或不同对象进行子类划分,形成信息资源二级分类。对二级分类下的业务流程或业务处理对象进行信息资源再划分, 形成信息资源三级分类。分类管理按类别管理。综合查询综合查询。定期更新形成完备的更新机制。绩效考核根据资源规划情况进行考核。数据接入数据接入主要提供统一的数据汇聚功能,将纷繁复杂、格式各样的外部关联部门业务系统、应急管理内部业务系统、互联网业务系统的数据接入到数据治理平台中,方便和外部系统进行数据交换,为上层大数据应用支撑平台的业务分析工作提供数据源。数据接入方式从数据来源分布来看,本次项目建设接入数据包括外部关联部门数据、应急管理厅内部业务部门数据、互联网公开数据、感知数据等。针对不同来源数据采用不同的数据接入方式。外部关联部门数据接入方式对于林业、交通运输、国土资源、地震、城管、消防、民政、气象等外部相关部门业务系统数据可通过数据交换平台获取,引接方式遵从平台规定方式进行,目前主要提供库表交换、服务接口调用、文件上传方式。应急管理厅内部业务部门数据接入方式对于黑龙江应急管理厅等应急管理厅内部业务部门的数据,可通过前置系统采用数据抽取、接口调用、消息服务的方式进行数据接入。互联网公开数据接入方式对于来自互联网以及社会企业的舆情数据可通过互联网单向传输设备接入到数据资源池。感知数据接入方式对于来源于GPS与北斗定位及速度、方向等实时定位设备、各单位实时监测监控数据,可通过接口实时接入或定点接收的方式实现数据接入。其他数据对于没有IT系统支撑的业务数据,还可采用人工填报,XLS表格导入的方式实现数据接入。系统功能数据接入子系统提供数据探查、数据读取、数据对账等功能模块。数据探查数据探查是指通过对来源数据存储位置、提供方式、总量和更新情况、业务含义、字段格式语义和取值分布、数据结构、数据质量等进行多维度探查,以达到认识数据的目的,为数据定义提供依据。数据读取数据读取是指从源系统抽取数据或从指定位置读取数据,检查数据是否与数据定义一致:不一致的停止接入,并重新进行数据的探查和定义;一致的执行进一步接入,对数据进行必要的解密、解压操作,生成作用于数据全生命周期的记录 ID,并对数据进行字符集转换等,将其转成符合数据处理要求的格式。数据对账数据对账是针对数据接入环节,对数据提供方和数据接入方在某一对账节点的完整性、一致性、正确性进行核对和检验的过程。如果在某一对账时间点数据提供方和数据接入方分别对应的数据条数不一致,说明对账出现异常,记录异常,在必要时需告警。断点续传系统应该提供基于消息的数据传输服务,从一个应用系统传输数据实体和数据格式到另一个应用系统,每个传输服务可以运行多个传输实体。另外系统也提供断点处理功能,用户可以通过流程诊断工具查看流程发生错误的断点,用户可以只修改发生错误的断点处的消息,然后把该消息重新发送,而不是回退和重新发送整个流程。任务管理主要实现对数据接入任务的管理,支持数据接入任务的创建、查询、删除等功能,并可指定接入任务所使用的抽取方法、转换规则和加载方式,并根据指定类型进行任务的调度执行。数据分发将预处理后的数据按需分发到资源库、主题库、业务库,更新维护原始库,以及向请求方反馈数据。数据处理半结构化文本等具体数据内数据处理主要是针对数据接入系统汇聚的结构化数据记录、容建立标准化的数据处理模式,经过处理后的数据存储在应急管理数据资源池中。数据处理子系统提供数据探查、提取、清洗、转换、关联、比对、标识、融合等功能模块。半结构化文本等具体数据内数据处理场景从前置库到原始库数据处理系统通过数据接入系统接入到前置库中的数据,这些数据包括各业务系统中的结构化数据和非结构化数据,通过数据探查和数据提取等手段,对前置库的数据进行探查分析,提取出数据源信息,并将非结构化数据的关键文字信息如森林草原林火视频监控数据中的时间等提取出来,整个数据处理过程处理后的数据会落入原始库中。从原始库到资源库原始库的数据经过数据比对、数据提取、数据关联、数据转换、数据清洗等处理过程,将数据加工成符合标准规范的数据。例如人员伤亡表的数据处理工作,经过比对人员伤亡表中的各个字段和标准数据元的差异,将标准数据元与原始表进行关联,如身份证号,然后进行转换和清洗。从资源库到主题库资源库的数据经过数据比对、数据关联、数据融合、数据标识的处理过程,将资源库的数据映射到灾害事故、管理对象、应急环境、救援资源、动态感知五大信息分类中,并详细对应到各信息分类中与森林防火相关的二级、三级主题库中。例如“地”主题中的关键基础设施主题,需要比对关键基础设施表与资源库中表的数据结构差异,选择有效的字段关联、融合数据到关键基础设施主题中。从主题库到专题库主题库的数据经过数据比对、数据关联、数据融合、数据表示的处理过程,将灾害事故、管理对象、应急环境、救援资源、动态感知五大信息分类中的数据提取出来,按照森林防火专题库所需要的方式进行组织。系统功能数据探查数据探查功能组件主要对业务缓冲库和原始库中的数据进行探查分析,以便对待汇聚整合的数据有一个清晰的了解,进而提取出数据源头的元数据信息,为后续的数据处理过程提供管理、业务、技术等方面的支撑。业务探查:对来源表的业务含义进行探查,以便能准确地理解和描述数据。接入方式探查:对来源表的存储位置、提供方式进行探查,为数据接入规则定义和数据处理、组织提供依据。字段探查:对具体字段的数据内容进行探查,识别其代表的含义和统计分布情况。空值率探查:统计字段空值占比情况,一方面可重点关注空值率高的重要字段,另一方面可通过与历史情况比较及时发现数据质量的动态变化。值域及分布探查:对字段的值域范围以及分布情况进行探查。命名实体探查:根据数据内容识别人名、地名、机构名、手机号等命名实体,帮助理解字段语义。数据元探查:根据字段名字及内容,探查字段的确切语义,并与数据元标准进行映射。类型及格式探查:探查字段的类型及格式是否符合规范。数据集探查:对来源数据集表名、引用数据元等进行探查,确定数据集是否是标准数据集。探查数据总量、增量及更新情况,为数据接入、处理和组织提供依据。问题数据探查:探查字段中不符合规范的数据,为后续数据清洗规则的制定提供依据。数据推送:把数据探查的结果信息推送到数据清洗组件、数据转换组件以及元数据库中,为相关组件的规则制定,流程分发等提供必要的信息。数据提取数据提取是原始数据进行规范化处理的过程,主要针对半结构化数据,通过数据提取过程,从这些半结构化数据中提取出人员、机构、应急物资、事件等相关信息,并将提取的信息以结构化形式进行存储。半结构化文件内容提取主要针对存在于原始库中的半结构化数据,根据文件中的内容,提取出业务需要的数据内容。常见的半结构化数据类型包括: XML、CSV、TXT、Word、Excel等文件。数据缓存:对XML、CSV、TXT、Word、Excel文件解析出来的结构化信息缓存的功能。数据封装:对解析出来的数据进行数据封装,形成标准化的数据结构。数据推送:推送封装好的结构化数据到资源库、主题库。源数据索引:需实现对原始半结构化数据的索引能力,便于对提取后的结果进行溯源追非结构化文件内容提取多媒体信息提取:从图片、语音、视频等多媒体数据中提取文字、图片等信息。如从相关图片中提取文本信息,从视频信息中提取关键帧信息,对图片中出现的二维码进行解析识别,提取包含的文字信息、链接信息等。生物特征提取:从海量图像、视频、音频信息中提取人脸、人声等信息,为应急救援提供数据支撑。如从人事管理系统中的人员照片信息提取人脸特征信息、从各类视频信息中提取人脸信息,识别出涉及的领导人员信息等。全文信息提取:主要是从海量文本数据中提取姓名、身份证号、电话号码、车牌号码、社会统一信用代码、企业名称、地址、时间等信息。如从安全生产诚信管理系统的黑白红名单中提取企业名称、社会统一信用代码等企业组织要素信息,从评估报告信息中提取灾害事故的发生时间、地点、伤亡情况等结构化要素信息。如从业务信息系统中对接的 Word格式的文献文件内容中提取单位名称、姓名等要素信息。数据清洗数据清洗是对业务数据中不符合标准规范或者无效的数据进行相关操作。在进行数据整合之前先定义数据的清洗规则,并对符合清洗规则的数据设置数据的错误级别。当进行数据整合过程中遇到符合清洗规则的数据时,系统将把这些业务数据置为问题数据,并根据错误的严重程度进行归类。对出现的问题数据进行标记后存入问题数据库中,经确认后再决定是通过清洗转换后入库,还是直接放弃,抑或其他方式处理。对于清洗前后的数据还需进行一致性检查,以保证清洗结果集的质量。数据转换本次数据治理项目涉及多个部门、多个业务系统中的数据。不同系统有不同的数据结构定义,数据汇聚在一起后就会产生数据格式不规范统一、数据命名不规范统一、数据编码不规范统一、数据标识不规范统一。这样的数据是无法支撑业务应用需要的,因此需要对汇集的数据进行数据格式规范统一、数据命名规范统一、数据编码规范统一、数据标识不规范统一等数据转换处理。具体数据转换组件包括以下功能:数据命名转换:通过比对标准数据元和实际数据表中的数据项,如果比对结果一致,则不需要转换处理,如果比对结果不一致,要按照标准数据元中规定的命名进行转换。数据类型转换:通过比对标准数据元和实际数据表中的数据项,如果比对结果一致,则不需要转换处理,如果比对结果不一致,要按照标准数据元中规定的数据类型进行转换。按照标准规范将不同来源、不同格式的数据转换成统一的标准化数据格式。平台将建立一系列的数据标准,进入平台的数据都必须遵循这些标准,只有这样才能保证平台上层应用的调用数据的通用性和应用之间充分的信息共享。需要做的格式统一有以下几种:全角转半角、电话号码转换、URL形式转换、身份证件号码转换、社会统一信用代码转换、时间格式转换、经纬度等数据标准化类型。身份证号码和社会统一信用代码标准化是将身份证位数统一为18位半角字符,字母字符转为大写字符,电话号码标准化主要是保留源数据的数字字符部分,去除加减号、空格等特殊字符,仅保留有效的数字字符内容。特定字段全角转半角(URL、账号等信息)。时间标准化即将“yyyy-MM-ddHH:mm:ss”、“yyyyMMddHHmm”ss等各种时间格式值,这些格式也统一转成平台定义的标准时间格式。经纬度标准化主要将各种经纬度坐标系统一转换为2000国家大地坐标系,经纬度数值统一为十进制数值格式。所有数据格式标准化后的字段单独存储,原字段予以保留。数据编码转换:比对标准数据元和实际数据表中的数据项,如果比对结果一致,则不需要转换处理,如果比对结果不一致,需要按照标准数据元中规定的标准编码进行转换。将来源于不同系统的不同数据字典转化为标准数据字典。视频转码:由于应急管理数据治理工程中的视频信息来源于不同终端设备,且多经由异构通信网络进行传输,因此需要进行视频转码,将已经压缩编码的视频码流转换成另一个视频码流,以适应不同的网络带宽、不同的终端处理能力和不同的用户需求,并保证服务质量。数据标识转换:通过数据元和数据表字段的关联,根据关联关系自动生成可执行的转换规则,进行数据标识的转换。标准地址转换:对地址要素不完整、文字表达不一致的地址信息进行标准化处理。依托民政的标准化地址库及互联网公开的POI地址信息库,形成应急相关的地址标准基础库,对应急采集的地址信息进行标准化处理。为保障数据转换处理过程不会造成数据丢失,数据转换模块需要支持断点功能。数据关联数据关联组件需要完成在不同数据集之间的关联,实现在不同数据集的联动,为数据治理、业务应用的需求提供支撑。根据数据处理流程设计的要求,数据关联组件的功能包括:标准关联、字典关联、半结构化关联、关联回填。标准关联:在资源库中设计了标准的数据元体系,作为数据资源中心的数据规范基础。数据元是最小的数据单位。在数据关联系统中,需要通过手工或更智能的方式实现各种不同编码的原始数据和标准数据元的关联。数据字典、属性及相关含义的关联:如灾害等级与灾害类别关联、自然灾害和灾害地点关联、单位代码和单位名称关联、救援物资与物资类别关联等。半结构化与结构化的关联:对半结构化数据进行提取结构化信息后,按照关键字(如灾害地点相同、灾害时间相同、灾害诱因相同)等进行关联,构建数据关联关系。如从业务信息系统中对接的Word格式的文献文件,通过提取出的文献内容,通过事件的时间、地点查询相应火灾灾情库中的灾情信息进行关联。关联回填:两个或两个以上数据集之间通过某种信息建立关联关系之后,根据实际业务的需要,可以对这两个数据集中的数据进行相互补充。数据比对通过数据比对功能实现对两个数据集中的数据内容、数据格式的比较核查,找出相同的数据或不同的数据。在业务应用场景上主要实现以下数据比对功能。数据项与标准数据元比对:实现原始数据表中的数据与标准数据元数据的比对,比对的内容包括数据命名、数据标识、数据格式、数据值域、数据编码、数据类型等数据的比对,数据比对的结果为一致或不一致。不同数据项集比对:实现两个数据项集的交集、补集,以满足数据检索的需求。数据标识数据标识模块依托标签引擎结合应急业务知识库、标签规则库对数据进行标识。标签规则库提供标签的定义、内容、版本、关联等,通过读取标签规则库的内容,对数据进行映射,通过人工或智能的方式实现对数据打标,以便提升数据的价值密度,并为上层应用提供支撑。根据标签规则库提供的规则接口,数据标识过程分为以下三类:基础标签标识:根据基础标签定义的规则,对数据进行规则筛选,符合规则的数据增添一列基础标签。业务标签标识:按照业务数据模型管理数据,根据标签规则库提供的标签元数据信息,在资源库中找到标签所需的相关联的数据,根据规则进行合并、汇总等工作,得到的数据按照标签定义增加一列内容到目标数据中。智能标签标识:据标签规则库提供的模型接口,将相应的数据输入模型进行计算,将计算后的结果按照标签规则库定义的标签内容增加一列业务标签到目标数据中。数据融合标准化去噪后的数据需要采取必要的数据融合手段,按照应急管理的主题库、专题库以及数据应用需要的方式组织,以支撑应急管理单位的数据需求。在数据融合的过程中,应该以合理的方式设计数据结构,保障数据应用对数据高效分析查询的同时,尽可能的减少冗余。
数据融合处理过程贯穿主题库、专题库和数据应用的建设过程,详细如下:数据融合的关键功能模块包括模型加工和汇总加工。各功能模块的详细描述如下:模型加工:主要包含数据合并、数据覆盖、数据切分功能,其中数据合并需要通过函数、分组或转列的方式完成数据的表合并和列合并。数据覆盖功能需要依赖数据比对的结果,将新增和修改的记录覆盖到目标表中。数据切分需要通过行筛选、列提取或表提取等方式将相同数据对象的结果表进行切分合并。汇总加工:按照公共汇总的原则,明确哪些数据需要汇总合后,采用聚合函数或窗口函数等方式,完成对跨数据域且需要被频繁公用的数据的汇总。数据去重对重复数据合并处理。数据补全对一条数据各个字段的缺失,通过技术手段进行补全,例如:黑龙江省,需要补充机构代码23。数据资源池按照数据使用目的分级分类建库的要求,统一规划资源,通过对数据资源进行标准统按照数据使用目的分级分类建库的要求,统一规划资源,通过对数据资源进行标准统专题库等的应急管理数据资源为综合展示、数据服务、领导专题库等的应急管理数据资源为综合展示、数据服务、领导应急管理数据库原始库大数据资源中心的原始库应该包含应急管理单位内部、外部所有需要组织的数据。在数据来源上,包括外部委数据(如公共安全数据、交通运输数据等),应急管理单位内部数据(如省市重大安全风险监测预警数据、部级安全生产行政执法数据等),社会及互联网数据(如微信、微博及其他舆情数据等)。在数据类型上,包括结构化数据、半结构化数据和非结构化数据。原始库的合理设计可以在业务系统和数据资源中心之间形成一个良好的过渡,既保障了数据资源中心数据的稳定性,不会受源业务系统数据频繁变化的影响,又可减轻前置系统被反复抽取的压力,数据资源中心的数据需求统一由原始库为基础来抽取和分发。由于数据来源多、种类丰富,原始库的数据应该采取清晰、合理的方式去组织。对于不同来源的数据,应该按照其数据来源进行清晰的标识,包括表名标识、表元数据标识等。对于不同种类的数据,应该采取不同的存储机制进行存取。存储域分为结构化域、半结构化域和非结构化域,其中半结构化域和非结构化域的数据应该采用相应的数据提取手段提取关键信息保存至结构化域,便于数据的溯源和使用。原始库的数据结构设计原则上和业务生产库的表结构一致,并在业务生产库基础上增添数据接入过程中的操作字段,表示数据的更新和删除等状态。以此向大数据资源中心提供原始、准确的数据,便于后续的分析和使用。原始库中的数据是大数据资源中心最基础的数据,需要对数据设置不同的生命周期和质量监控标准,从而保障数据的鲜活性和准确性。原始库的结构按数据的类别分为结构化数据域、半结构化数据域和非结构化数据域三个逻辑的数据域。(1)结构化数据域用于保存由各业务系统抽取的关系型数据,如火灾档案表等,这部分数据需基于云计算平台所提供的关系型数据库组件来组织。(2)半结构化数据域用于保存从各业务系统或各部门抽取的半结构化数据,如互联网舆情数据等XML格式、XLS格式数据或文件,该类型数据需基于云计算平台所提供的 NoSQL数据库组件来组织。(3)非结构化数据域用于保存从各业务系统或各部门抽取的非结构化数据, 包括图片、音视频、文本等类型数据,如卫星遥感数据、火灾图传录像、救援总结报告等,该类型数据需基于云计算平台所提供的分布式文件系统进行存储。非结构化数据和半结构化数据需在原始库中建立索引表来记录该数据的来源和存储路径等。索引表主要以关系型数据形式存储在结构化数据域中。资源库资源库的数据是由原始库的数据经过清洗、转换、 关联、比对等数据处理过程后形成的标准数据。资源库的设计包括数据结构设计、数据表结构设计和加工过程设计。在资源库的数据结构设计上,以原始库数据结构为基础,补充必要的数据字段。在数据表设计上,将相同表结构的数据表进行适当的合并,并保留原始库的表名以方便进行溯源。数据加工过程设计是资源库设计中最核心的部分,这部分要进行数据标准、数据元的设计,以及原始数据和标准数据元的关联设计,从而将资源库的数据处理成符合标准的数据。主题库主题库是按照应急管理信息要素将应急数据按灾害事故、救援物资与装备、组织机构、危险源等进行分类,为数据应用和产品提供公共数据服务,降低用户理解和获取数据的难度,降低数据加工的深度和复杂度,提升数据应用和产品获取数据的效率,保持系统内各个软件模块和应用服务间数据的一致性。主题库的设计需遵循下述规则:1、提供统一的数据出口主题库中包含了主题相关的实体表和实体间的关联表,以及实体表的来源表信息。通过关联表以及来源表信息,用户能快速清晰地了解实体的数据来源,减少了去数据库中寻找实体相关表的时间,并且由于各个用户统一从主题库获取数据,数据口径的一致性得到了有效保障。2、保证实体的一致性主题库包含灾害事故、救援物资与装备、组织机构、危险源等实体,每个实体都会在主题库中有唯一的ID,通过这个唯一的ID,可以获取实体在主题库中的所有信息,从而保证了实体的一致性。3、提供汇总的业务数据,满足查询、统计、分析等多类应用产品的数据需求主题库会根据业务类别,将数据从各个业务表中汇聚起来变成汇总后的实体表和关联表,并且在实体表和关联表中还会包含常用的业务字段,使得用户可以方便得从较少的表中
获取所需数据,降低了数据获取成本。主题库在数据治理体系中位于DWD明细数据层(资源库)和DM专题层(专题库)中间,对上游的明细数据打散重构形成主题表,对下游的专题层提供了标准化、一致性的数据。上游的明细数据里面包含了不同系统、不同部门的数据,数据之间存在关联,但是由于没有进行一致性处理,无法达到数据准确的互通,因此主题库将不同系统间的数据通过信息要素等实体进行有效的关联,打通了不同系统间的数据。主题层完成后,专题层就能根据特定应用需求,快速选取有效数据形成专题数据。主题库逻辑模型的设计应采用自顶而下的方法,首先将需求涉及范围内的业务对象从高度概括的信息要素概念层次归类,即划分主题域,再针对各个主题设计实体关系图。专题库专题库是主题库的数据按照专题应用的需要重新整合形成的数据库。专题库的建库按照专题应用业务模型,通过二次抽取装载的方法重新组织数据,建立形成满足应急管理专题业务应用需要的数据库。根据应急管理业务需求,专题库包括包括预案、案例、应急资源、专家等数据的收集、整理、清洗、入库。预案主要包括突发事件总体应急预案、专项预案、部门预案、下级政府应急预案、大型活动应急预案和企事业单位应急预案等。应急预案按内容和形式分为两种:文本预案和数字预案。文本预案主要以文本方式组织存储各级政府或机构编制好的应急预案。数字预案是对文本预案中的救援组织、救援队伍、程序步骤、措施、职责、协调等内容进行结构化处理后形成的可程序化执行的预案,包括预案手册中所记录的所有信息。各部门收集的与其专业领域相关的专业包括案例基本信息和案例要素。案例包括数量、内容及应急救援物资生产企业,以各部门收集的与其专业领域相关的专业包括案例基本信息和案例要素。案例包括数量、内容及应急救援物资生产企业,以案例数据及国内外突发事件典型案例等相关信息。自然灾害、事故灾难、公共卫生、社会安全四大类。应急资源库主要存储应急救援物资储备场所、及救援队伍数据等数据。应急资源数据实体包括应急物资储备库、应急物资、应急装备、应急物资生产企业、救援队伍等。应急物资储备库数据描述应急物资储备库的基本情况,包括名称、类型、级别、地址、负责人、联系人、周边交通状况、储备物资等信息。应急物资数据描述应急物资的基本情况,包括名称、类型、级别、存放地点、数量、保质期等信息。应急装备包括个人防护装备、通信设备、探测设备、洗消设备、医疗设备、能源设备、应急运输工具等。应急装备数据描述各类应急装备的基本情况,包括名称、类型、级别、负责人、联系人、装备数量、运输方式等。应急物资生产企业数据描述应急物资生产企业的基本情况,包括名称、类型、级别、地址、负责人、联系人、生产物资、生产能力等信息。救援队伍数据库存储全市综合性、专业性应急救援机构、府建立或确定的综合性应急救援队伍信息。伍信息。应急志愿者队伍信息。据库存储全市综合性、专业性应急救援机构、府建立或确定的综合性应急救援队伍信息。伍信息。应急志愿者队伍信息。专家库存储市政府和市有关单位、区县、队伍信息,主要包括:本市区县级以上人民政各市级部门、各专业领域建立的专业应急救援队企业的各类应急管理专家信息。包括自然灾害专家、公共卫生专家、事故灾难专家、社会安全专家、综合类专家。专家组数据描述专家组(库)的基本情况,包括专家组名称、类型、负责人、联系人、组建单位、人数、专家组介绍等。专家数据描述专家的基本情况,包括姓名、专家类型、性别、出生日期、工作单位、专业特长、应急工作经历等信息。应急管理配置库标签规则库标签规则库是按照标签目录进行组织的标签规则集合,每一个标签规则由标签名称、标签加工源数据信息、转换规则信息、统计周期等信息组成。根据规则的定义方式,标签规则库可分为基础规则库、业务规则库、智能标签规则库。基础标签规则库基础标签规则是对数据的某一属性字段信息进行计算的处理规则,主要用于生成刻画灾害事故、管理对象、应急环境、救援资源等应急管理要素的基础特征的标签。业务标签规则库业务标签规则是基于应急管理人员的业务经验,对基础标签规则进行模型关联和逻辑计算,形成的固化知识标签生成规则。智能标签库智能标签规则库是基于特征工程、机器学习算法,建立的智能标签模型集合。智能标签模型可用于从互联网信息、文档等大量信息中提取可直观展现对业务主观认识的标签。知识库知识库是结构化、易操作、易利用、全面的、有组织的、互相联系的知识集合,是相关部门在应急管理过程中与该领域相关的基本概念、理论知识、事实数据,以及所获得的规律、常识性认识、启发式规则和经验教训的集合。本项目针对常用森林火灾、地震、危险化学品泄漏、台风暴雨等事故灾害现场救援必须掌握的知识,整合森林消防、减灾中心等部门的应急管理知识,构建应急管理知识库,为应急指挥中的前期处置、物资调用提供支撑。知识库建设内容包括应急基本信息、应急速查手册、应急处置流程、应急案例信息、应急专家信息与应急法规政策信息。应急基本信息应急基本信息包括应急资源、场景、情况定义和详细描述,不同要素的分类,等级和标准。应急速查手册应急速查手册包括灾害事故的名称及详细描述、应急救援过程中应急指挥和处置人员应特别注意的问题、危险性类别、作业人应采取的防护措施以及应采取的紧急措施等。应急处置流程应急处置流程信息包括处置的基本原则、应急处置流程图、处置的基本流程及详细描述和各类事故处置的详细流程。应急案例信息应急案例信息主要包括处置突发事件的历史案例数据、各部门收集的与应急专业领域相关的专业案例数据及国内外突发事件典型案例等相关信息。包括案例基本信息和案例要素。应急专家信息应急专家信息应急管理单位以及有关单位、区县、企业的各类事件响应处置专家信息,包括自然灾害专家、事故灾难专家、综合类专家。专家信息又分为专家组与专家个人数据。其中,专家组数据描述专家组(库)的基本情况,包括专家组名称、类型、负责人、联系人、组建单位、人数、专家组介绍等。专家数据描述专家的基本情况,包括姓名、专家类型、性别、出生日期、工作单位、专业特长、城市联动指挥工作经历等信息。应急法规政策汇集国内外应对突发事件制定的法规、政策、应对措施等规范性文件。可以全方位的了解世界上各个国家、地区,国内各级政府为应对突发事件所采取的措施。索引库为应用查询、业务搭建提供数据索引。日志库软件全流程、全方位日志记录。数据支撑基于Hadoop架构采用分布式数据处理技术,对外提供海量数据的存储、分析查询和实时流式数据处理分析能力。提供数据集成、数据存储、数据计算、数据安全管理以及统一资源调度能力,用于承载数据资源池建设,包括原始库、资源库、主题库、专题库、配置库、共享库等。架构安全:大数据支撑平台基于开源组件实现功能增强,保持 100%的开放性,不使用私有架构和组件。认证安全:基于用户和角色的认证统一体系,遵从帐户/角色RBAC(Role-BasedAccessControl)模型,实现通过角色进行权限管理,对用户进行批量授权管理。提供单点登录,统一了Manager系统用户和组件用户的管理及认证。对登录管理平台的用户进行审计。文件系统层加密:Hive、HBase可以对表、字段加密,集群内部用户信息禁止明文存储。加密灵活:加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。业务透明:上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。可靠:NameNode、HiveServer、HMaster、ResourcesManager等所有管理节点组件均实现HA(HighAvailability )部署,确保数据的可靠性、一致性。数据备份恢复支持表级别全量备份、增量备份,数据恢复(对本地存储的业务数据进行完整性校验,在发现数据遭破坏或丢失时进行自恢复)。易用:统一运维管理,提供界面化的统一安装、告警、监控和集群管理。易集成:提供北向接口,实现与企业现有网管系统集成;当前支持Syslog接口,接口消息可通过配置适配现有系统;整个集群采用统一的集中管理,未来北向接口可根据需求灵活扩展。易开发,提供自动化的二次开发助手和开发样例,帮助软件开发人员快速上手。数据集成数据集成服务是一个以设计、调度、监控和管理ETL过程为核心功能的服务。提供同构/异构数据源之间批量数据迁移服务,帮助客户实现数据自由流动。支持客户各种类型数据源之间的数据迁移,支持的类型包括:文件系统,关系数据库,数据仓库, NoSQL,大数据服务等数据源。平台提供批量的结构化和非结构化数据、流式数据的集成能力,具备接入和迁移各种类型海量数据的能力。数据接入来源多样,既有内部数据也有其他部门数据,还有互联网数据,各数据来源的数据格式也不一致,在收集的过程中需对数据进行规范化处理,以便于管理使用。大数据基础平台软件要完成从传统数据库到大数据平台的数据采集,包含批量采集和基于流处理的实时采集,主要提供如下组件能力:支持从传统数据库到大数据平台的双向数据传输,可以将一个关系型数据库(例如:MySQL,Oracle,SQLServer等)中的数据导入到大数据分布式文件系统中,也可以将分布式文件系统的数据导进到关系型数据库中。提供高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。提供实时的、分布式以及具备高容错的流处理系统,能够与实时消息系统交互,完成实时数据的采集。提供高吞吐量的分布式发布订阅消息系统,通过消息的封装完成实时数据的传递。批量数据集成实现大数据平台与关系型数据库、文件系统之间交换“数据”、“文件”,既可以将数据从关系型数据库或者文件服务器导入到 HDFS/HBase中,同时也支持反过来从HDFS/HBase导出到关系型数据库或者文件服务器中。Loader是在开源Sqoop组件的基础上进行了一些扩展,实现大数据平台与关系型数据库、文件系统之间交换“数据”、“文件”,既可以将数据从关系型数据库或者文件服务器导入到 HDFS/HBase中,同时也支持反过来从HDFS/HBase导出到关系型数据库或者文件服务器中。Loader功能包括:通过MapReduce实现并行执行和容错Loader通过MapReduce作业实现并行的导入或者导出作业任务,不同类型的导入导出作业可能只包含 Map阶段或者同时Map和Reduce阶段。Loader同时利用MapReduce实现容错,在作业任务执行失败时,可以重新调度。数据导入到HBase在MapReduce作业的Map阶段中从外部数据源抽取数据。在Reduce阶段中,按Region的个数启动同样个数的ReduceTask,ReduceTask从Map接收数据,然后按Region生成HFile,存放在HDFS临时目录中。在MapReduce作业的提交阶段,将HFile从临时目录迁移到HBase目录中。数据导入HDFS在MapReduce作业的Map阶段中从外部数据源抽取数据,并将数据输出到HDFS临时目录下。在MapReduce作业的提交阶段,将文件从临时目录迁移到输出目录中。数据导出到关系型数据库在MapReduce作业的Map阶段,从HDFS或者HBase中抽取数据,然后将数据通过JDBC接口插入到临时表(StagingTable)中。在MapReduce作业的提交阶段,将数据从临时表迁移到正式表中。数据导出到文件系统在MapReduce作业的Map阶段,从HDFS或者HBase中抽取数据,然后将数据写入到文件服务器临时目录中。在MapReduce作业的提交阶段,将文件从临时目录迁移到正式目录中。实时数据集成ApacheFlume是一个广泛使用的大规模分布式数据收集工具,它可以监听特定的端口(UDP、RPC端口),从而获得流过端口的数据,并且支持多样化的插件体系,在收集端对数据进行过滤等处理,在汇聚端则允许将数据直接输入到大数据分布式存储 HDFS。Flume作为一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。其中Flume-NG是Flume的一个分支,其目的是要明显简单,体积更小,更容易部署。分布式消息队列Kafka是一个分布式的、分区的、多副本的消息发布 -订阅系统,它提供了类似于 JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。数据存储应急管理接入的数据类型包含数据库表等结构化数据、视频图片等非结构化数据,要求大数据基础平台采用分布式文件系统实现对汇聚的多类型海量数据的存储,要求提供如下组件及能力:提供高度容错性的分布式文件系统,适合部署在廉价的机器上。它能提供高吞吐量的数据访问,适合大规模数据集上的应用。提供高可靠性、高性能、面向列、可伸缩的分布式存储系统,以键值对的形式承载海量结构化、半结构化以及非结构化数据。支持大数据计算与存储分离技术,解决应急数据治理系统中存储架构适配性,提供大数据多集群的统一数据存储底座,解决计算、存储非等比扩容需求,提高大数据存储资源利用率。CPU资源不足时,扩容计算型服务节点,存储资源不足时,扩容存储型服务节点。分布式文件存储HDFS是Hadoop的分布式文件系统,实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。HDFS分布式文件存储采用可扩展的系统结构,提供了海量数据的分布式存储。对于以文件方式存储的数据,比较适合该类存储方式。但采集的数据存在着不同大小文件并存的情况,按大小可大致划分为小文件(1MB以下)、中文件(1MB到500MB)、大文件(500MB以上),且文件数量非常多,为保证存储这些文件的同时能够提供快速读取的能力,分布式存储要能够满足该目标而提供相应小文件、中文件和大文件的存储检索方案,对外能提供统一接口进行访问,客户端在访问分布式存储时不需了解底层存储方式, 由分布式存储统一调配相应优化方式实现文件快速存储和检索。分布式文件系统要支持6亿以上文件存储能力。HDFS支持数据分级存储,把不同热度的数据存储于不同的介质(SSD/SAS/SATA)。同时针对冷数据,可采用HDFS-EC通过ErasuredCode机制来降低副本数量的同时确保 HDFS数据的可用性没有下降。分布式文件存储能够提供FTP/SFTP接口,以便传统应用可以不修改代码访问 HDFS。分布式列数据库HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase适合于存储大表数据(表的规模可以达到数十亿行以及数百万列),并且对大表数据的读、写访问可以达到实时级别。利用HadoopHDFS作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。为Spark和HadoopMapReduce提供海量数据实时处理能力。以HBase为代表的NoSQL数据库适合于存储较简单的数据模型,并且可以不受模式的约束。因而其可存储管理的数据类型更丰富;大数据技术同时适合进行一致性与事务性要求不高的计算(主要是指NoSQL的查询操作),以及对超大规模海量数据的、批量的分布式并行计算。需要注意的是,NoSQL数据库由于摆脱了繁琐的SQL体系约束,其查询与插入的效率比传统关系型数据库要更高。NoSQL数据存储一般采用面向列的存储方式,其存储结构保证了数据表的列可扩展性和读写I/O的高吞吐性。Key-Value方式存储,Rowkey用户自由定制,用户可根据应用的具体需要将相关的一些查询逻辑封装在Rowkey生成规则中,从而提高系统查询效率。在大数据应用中,经常遇到结构化数据和非结构化数据共同组成一个完整的数据,并且两个数据加起来都不大的情况。比如银行办理业务时产生的交易数据和高拍仪拍摄的图像数据,交警卡口产生的过车识别结构化数据和车相关的视频关键帧数据等。伴随结构化数据的是一些大小为几百K字节、几兆字节大小的非结构化文件,也有少部分几十兆或者更大的文件。HBase具有能够存储海量结构化数据的优势, HDFS具有存储海量大小的超大文件的优势,本次大数据中心建设将结合二者合,基于两个部件的接口封装,提供超混合存储HFS(HBaseFileStream),封装后的接口允许应用能够自由的进行大小文件的读写, HFS将会自动的把结构化数据信息存储到HBase,将与之对应的非结构化文件进行打包,确保 HDFS文件系统看到的是远大于单个块(Block)大小的大文件,降低对NameNodede元数据容量冲击。数据仓库Hive是建立在Hadoop上的数据仓库框架,提供大数据平台批处理计算能力,能够对结构化/半结构化数据进行批量分析汇总完成数据计算。 提供类似SQL的HiveQueryLanguage语言操作结构化数据,其基本原理是将 HQL语言自动转换成MapReduce任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。Hive支持对表的某一列或者多列进行加密。在创建Hive表时,可以指定要加密的列和加密算法。当使用insert语句向表中插入数据时,即可将对应的列进行加密。由于底层存储系统的原因,Hive并不能支持对单条表数据进行删除操作,但在HiveonHBase功能中,提供了对HBase表的单条数据的删除功能,通过特定的语法,Hive可以将自己的HBase表中符合条件的一条或者多条数据清除。分布式关系型数据仓库适合于存储关系复杂的数据模型,并且需要限制为基于二维表的关系模型;同时适合进行一致性与事务性要求高的计算,因此元数据、统计值等结构化数据存储在分布式关系数据库中。在查询时调度多节点并发执行提升响应性能,采用基于代价模型的查询优化能力,结合数据分布情况选择最优的查询和处理方案,支持复杂多维分析查询。同时,在数据库组织结构、访问接口(JDBC等)、SQL语法、存储过程、权限管理等多方面高度兼容关系型数据库。支持通过开放标准SQL接口实现复杂查询。通过分布列散列算法和分区路由算法避免数据偏斜导致单节点计算或存储性能瓶颈,提供整集群近似线性扩展能力。支持标准的SQL92/SQL2003规范,支持GBK和UTF-8字符集,支持SQL标准函数与分析函数,支持存储过程。支持表空间,支持在线扩容功能。提供组件管理和数据节点 HA。支持数据库事务ACID特性(即原子性Atomicity、一致性Consistency、隔离性Isolation和持久性Durability),支持单节点故障恢复,支持负载均衡等。支持标准JDBC4.0的特性和ODBC3.5特性。支持SSL安全网络连接、用户权限管理、密码管理、安全审计等功能,保证数据库在管理层、应用层、系统层和网络层的安全性。基于海量数据查询统计分析能力与事务处理能力,行列混存技术同时满足联机事务处理OLTP(On-LineTransactionProcessing )与联机分析处理 OLAP(OnlineAnalyticalProcessing)混合负载场景。支持分布式x86架构、与ARM架构,客户硬件投资成本低。支持标准的SQL92/SQL2003规范,支持客户应用系统平滑迁移。支持集群最大可扩展至1000个节点,满足PB级大数据分析能力。内存数据库Redis是一个开源的,基于网络的,高性能的key-value数据库,弥补了memcached这类key-value存储的不足,在部分场合可以对关系数据库起到很好的补充作用,满足实时的高并发需求。Redis跟memcached类似,不过数据可以持久化,而且支持的数据类型很丰富。支持在服务器端计算集合的并、交和补集(difference)等,还支持多种排序功能。支持一主一从模式的Redis集群,系统自动计算节点上可安装的Redis实例个数并分配主从关系。当集群需要提供大规模的处理能力时,可以一键式扩容一对或多对主从实例。在此过程中,系统会自动完成数据迁移和数据平衡,用户无需关注。出现扩容异常、部分实例掉线等异常场景时,Redis集群中的数据可能会分布不均匀,此时可以通过管理界面上提供的Balance功能,让系统自动对集群数据进行平衡,保证集群的健康运行。系统提供Redis集群的性能监控功能,可以通过直观的曲线图方式,了解当前Redis集群、实例的TPS吞吐量情况。系统为Redis集群提供了多种告警,例如集群下线告警、持久化失败告警、槽位分布不均告警、主备倒换事件、集群高可靠性受损告警等,甚至主从实例内存大小不一致都可以自动上报告警。丰富的告警帮助用户更加轻松的进行Redis集群的监控和管理。全文检索库ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。Elasticsearch通过API提供丰富访问接口,使用集群发现机制,支持脚本语言,支持丰富的插件。底层基于 Lucene,保持Lucene绝对的独立性,通过本地文件、共享文件、 HDFS完成索引存储。实现Elasticsearch实例的内存、CPU和磁盘IO的监控,以及index、shard状态监控和告警。提供基于用户/角色划分的index权限控制功能。提供Kerberos认证,保障了索引数据的安全性。Solr是一个高性能,基于Lucene的全文检索服务器。Solr对Lucene进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文检索引擎。SolrCloud是从Solr4.0版本开始开发出的具有开创意义的分布式索引和搜索方案,基于Solr和Zookeeper进行开发的;Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式,但这些方式部署的Solr不具有SolrCloud的特色功能:利用ZooKeeper作为协同服务,启动时可以指定把Solr的相关配置文件上传Zookeeper,多机器共用。这些Zookeeper中的配置不会再拿到本地缓存,Solr直接读取Zookeeper中的配置信息。配置文件的变动,所有机器都可以感知到。自动容错,SolrCloud对索引(collection)进行分片(shard),并对每个分片创建多个Replica。每个Replica都可以独立对外提供服务。一个Replica挂掉不会影响整个索引搜索服务;更强大的是,它还能自动的在其它机器上把失败机器上的索引Replica重建并投入使用。索引和查询时的自动负载均衡,SolrCloud索引(collection)的多个Replica可以分布在多台机器上,均衡索引和查询压力。如果索引和查询压力大,可以通过扩展机器,增加Replica来减缓压力。因此,下面的介绍主要是围绕SolrCloud展开描述的。Solr索引数据存放到本地磁盘,提供了更加快速的索引和查询速度;SolrCloud可以多实例部署,可以实现并发写与读,提高索引与查询性数据计算大数据基础平台软件提供对海量数据汇总后的多种数据并行处理框架,大数据分析的处理速度、准确度对实战的及时性、高效性都有至关重要的影响。大数据资源池提供分布式计算、流式计算、内存计算多种数据计算引擎,能够针对不同的场景采用不同的计算模型,对数据进行大规模批量处理或者实时处理,大大提升大数据管理中心的实战能力。同时面向领域的分析语言(DSL),包括面向数仓的Hive,面向数据挖掘的SpakrSQL和面向流处理的次处理的能力,具备离线计算、流式计算、实时分析、机器学习等能力。计算框架本身,也是在快速的发展中,几年前MarpReduce是唯一,目前已经快速出现并开始广泛流行的是Spark/Storm,同时包括Tez、Flink等计算框架也在借助自己的优势在推动中。不同计算框架具有各自独特的优势,选择时的考虑点如下:MapReduce具有超大数据量处理非常稳定的优势,其追求在稳定,Tez在性能方面有很大提升,同时借助支持 Hive,构成了基于Hive运算的铁三角,对于大容量表的碰撞,可以考虑使用Hive(基于MapReduce或者Tez)的技术。Spark由于专门针对大内容和迭代计算进行了优化,在进行机器学习等算法运行的时候具有优势,一些最新的机器学习库(SparkMLlib等)也构筑在Spark之上,所以进行机器学习时Spark是首选。同时目前行业中也在进行将Hive迁移到Spark的实践,希望在具有对应用接口不变(为 Hive)的同时,获取到Spark的高性能优势,目前这块还在发展中,对于大容量数据集的计算(比如多个超大表的碰撞)有时还不够稳定。Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理(DataProcessing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。综合以上讨论,建议计算引擎的选择考虑以下几个基本准则:需要进行超大容量的多表碰撞的,选择Hive需要进行机器学习等迭代计算为主要特征的,选择Spark需要与传统的数据分析、展示系统对接,数据为结构化,要求高性能的数据,采用SQL引擎作为计算引擎(MPPD)B实时流处理采用Flink离线计算能力离线处理,通常是指对海量数据进分析和处理,形成结果数据,供下一步数据应用使用的场景。离线处理对处理时间要求不高,但是所处理数据量较大,占用计算存储资源较多,通常通过MR或者Spark作业或者SQL作业实现。离线处理场景的典型特点和核心能力是:集群规模最大能力——数据量大,用户数据量最大超过 5PB,大于1000节点数据权限和资源隔离(多租户)——多种离线处理作业同时运行,需要不同的数据权限和资源调度,避免越权访问和抢占资源接口与开源兼容——客户通常存在存量离线处理应用,需要迁移到数据治理系统支持多数据源,多种数据加载方式——数据源存放在多种类型来源,存在多种类型数据,存在多种数据格式滚动升级——离线处理是客户大数据系统的基础,停机升级无法忍受支持作业调度管理——多种离线作业存在不同的优先级,不同的运行时间,需要多种调度策略管理,对异常、失败作业进行监控支持异构设备——支持异构设备,客户扩容时支持配置升级的设备,并且支持新旧设备区分使用支持冷热数据分级存储——用户数据热度不同,希望有分级存储策略,达到性能和成本的平衡支持与第三方软件对接(可视化、分析挖掘、报表、元数据等)——对接多种第三方工具,方便进行数据进一步的分析和管理实时流处理能力实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过 SparkStreaming或者Flink任务实现。实时流处理场景的典型特点和核心能力是:处理速度快:端到端处理需要达到秒级,流处理平台负责的数据采集和数据处理要在1秒内完成。如风控项目要求单条数据处理时间达到秒级,单节点 TPS大于2000。吞吐量高:需在短时内接收并处理大量数据记录,吞吐量需要达到数十兆/秒/节点。抗震性强:为应对数据源端业务数据产生速度会突然出现峰值的情形,需提供数据缓存机制。可靠性高:网络、软件等故障发生时,需保证每条数据不丢失,数据处理不遗漏、不重复。水平扩展:当系统处理能力出现瓶颈后,可通过节点的水平扩展提升处理性能。多数据源支持:支持网络流、文件、数据库表、IOT等格式的数据源。对于文件数据源,可以处理增量数据的加载。数据权限和资源隔离:消息处理、流处理需要有数据权限控制,不同的作业、用户可以访问、处理不同的消息和数据。多种流处理应用之间要进行资源控制和隔离,防止发生资源争抢。第三方工具对接:支持与第三方规则引擎、决策系统、实时推荐系统等对接。交互查询能力交互查询平台主要承载对数据进行交互式的分析和查询,查询响应要求较高,能够实现人机之间交互,查询通常比较复杂。专题库的数据通常已经被预处理过,按照适合交互查询的数据模型进行组织。专题库数据量巨大,对 CPU和内存要求很高,对于存储要求也很高。交互查询方式,以复杂SQL查询最为常见,也有简单的快读检索,多维 Cube分析也比较常见。实时检索能力实时检索,通常是指数据实时写入,对海量数据基于索引主键实时查询,查询响应要求较高,查询条件相对比较简单。查询条件复杂的可以根据关键词在全域数据中通过索引搜索主键后,通过主键查询。全域数据既包含了结构化数据又包含了文本等非结构化数据。实时检索处理场景的典型特点和核心能力是:查询速度快:查询响应时间要求较高,通常要求在1秒内返回结果高并发能力:需要同时支持多用户查询,如 1秒千级并发查询数据量大:处理数据量巨大,通常在 PB级别能够同时处理结构化和非结构化的数据支持全文检索功能数据安全管理应急数据涉采集面广,涉及政府单位涉密信息、企事业单位商业机密等,数据安全风险高。整体架构应遵循“零信任”的设计理念,建设数据安全防护系统,从数据的采集、交换、存储、使用、分享等几个方面进行防护,确保数据在整个生命周期中的安全性和保密性。用户认证与角色授权用户认证大数据平台提供对外访问时,用户需通过安全认证,提供:pki身份认证、WebUI身份认证、CLI命令行身份认证、API身份认证等三种方式。单点登录功能用户在任意Web界页面登录后,组件客户端登录,访问其他各组件Web页面,无需再次输入用户口令进行认证。大数据平台需提供基于Kerberos的统一认证,客户端访问组件服务时,需要经过Kerberos机制认证,认证通过后才能访问组件服务。应用组件API认证大数据平台的应用组件提供对外的API,用户在使用这些API时,必须先进行Kerberos认证,认证通过后才能使用对应的 API。命令行方式访问大数据平台的应用组件支持命令行操作,当用户登录到应用组件的节点上使用应用组件的命令之前,需要先进行Kerberos认证,认证通过后,才能使用应用组件提供的命令。.2角色授权大数据资源池提供可视化的多组件统一的集中用户权限管理,简单易用。同时提供基于角色的访问控制(RBAC),预定义权限集(角色)可重复使用,灵活。大数据资源池提供统一的用户管理界面。通过这个界面,管理员可以进行常规的添加、删除用户,以及重置密码等操作,并可以对用户访问权限进行设置。支持对用户进行划分,为不同的用户赋予不同的访问权限。对每个用户群设定最大的访问权限,再对用户群中具体用户进行权限设置,实现细粒度划分,不允许任何用户超过为其设定的最大权限。依据数据敏感性规则,对数据查询、数据管理、决策系统等功能功能设置不同的用户角色,如数据查询、数据访问、数据调用、数据管理等。并根据部门提供的用户清单设置不同的角色,分配不同的用户权限。数据加密应急数据基于HBase、Hive、MPP等组件进行存储,为了保证数据存储的安全,数据应以密文的形式存储在硬盘上,不会因为硬盘泄露、或底层 OS被攻破导致数据泄露。大数据平台的HBase、Hive,以及MPPDB等组件均需支持透明加密。实现上层业务只需指定敏感数据,加解密过程业务完全不感知。同时大数据平台各组件支持本地数据目录访问权限设置,无权限用户禁止访问数据,同时所有集群内部用户信息禁止明文存储。加密算法支持AES128、SM4。密钥管理:密钥由独立部署、安全隔离的加密机生成,可通过角色和权限配置由专人管理,其他用户仅可使用;每种加密算法均有各自的密钥,所有密钥在数据库中均加密存储,读
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年超市用货架项目可行性研究报告
- 2024年精肉火腿项目可行性研究报告
- 2024年盐水系统项目可行性研究报告
- 船舶机械设备施工方案
- 2024年叉车仪表项目可行性研究报告
- 2024年乳胶发泡机项目可行性研究报告
- 仰斜式挡土墙与施工方案
- 2024年皮革化学品:浸水助剂项目成效分析报告
- 2023年分子诊断试剂项目成效分析报告
- 2024年照相及电影洗印设备项目成效分析报告
- 第二章 地图(考点串讲课件)七年级地理上学期期中考点大串讲(人教版2024)
- 2024年健身房管理制度(六篇)
- 期中测试卷(1-4单元)(试题)-2024-2025学年人教版数学六年级上册
- 车辆绿本抵押借款合同
- 意识形态分析研判制度
- GB/T 18029.6-2024轮椅车第6 部分:电动轮椅车最大速度的测定
- 2024至2030年中国学前教育(幼儿园)行业研究报告
- 统编版(2024新版)七年级上册《道德与法治》第1-13课全册教材“活动课”参考答案
- 2024年北京海淀区初三九年级上学期期末数学试题
- 结构力学仿真软件:OpenSees:OpenSees在桥梁工程中的应用
- 《西方经济学》复习题库及参考答案
评论
0/150
提交评论