海陆一体化数据管理建设需求_第1页
海陆一体化数据管理建设需求_第2页
海陆一体化数据管理建设需求_第3页
海陆一体化数据管理建设需求_第4页
海陆一体化数据管理建设需求_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

海陆一体化数据管理建设需求海陆一体化数据管理数据抽取集成对海陆一体化空间地理信息相关的数据源,包括但不限于地形图、遥感影像、三维模型、空间专题等数据进行归集、转换、抽取和集成,以便统一汇入国土空间基础信息平台数据湖实现标准化管理,为开展空间分析、地图绘制、地理信息可视化以及其他业务应用奠定数据基础。空间数据库连接管理为便于集成各类异构空间数据库,实现多源异构数据共享,需提供基于中间件连接的方式实现对异构数据的浏览、更新等应用。提供空间数据库引擎SDE管理空间数据,支持达梦、人大金仓、Oracle、PostgreSQL等主流关系数据库引擎与HBase、Elasticsearch、MongoDB等分布式数据库引擎,以及本项目采购的国产GIS平台软件、ArcSDE、ArcGISFileGDB等异构GIS中间件。文件型空间数据连接管理针对各类文件型空间数据,平台支持通过数据源连接或附加的形式实现数据的连接和使用。支持连接包括本项目采购的国产GIS平台软件的矢量数据源,及ArcGISPersonalGDB、FileGDB等,以及msi/tif栅格、img、jpg、png等格式的栅格数据源。空间元数据管理地理空间数据中元数据可以描述数据的内容、质量、条件、源和其他特征信息。对于传统的纸质地图,它的元数据主要表现为地图的类型、图例,包括地图名称、空间参照系、比例尺、图廓坐标、地图内容说明、精度、编制出版单位、日期等信息。空间元数据的使用,有利于空间数据的共享管理,有利于实现一些特定的功能。需提供空间元数据的存储、导入、导出、编辑,并通过“同步元数据”功能,将空间数据和元数据关联起来,实现元数据的共享。包括元数据编辑功能、元数据导入\导出、元数据同步、元数据验证、动态元数据管理等功能。数据集管理数据集管理功能需包括矢量数据集管理、栅格数据集管理。抽取过来的空间矢量数据类型以数据集的形式统一集中呈现,支持矢量要素数据集的创建,并在要素数据集节点下,进行创建(要素类、对象类等)、导入导出数据、删除、查看属性操作。抽取过来的空间矢量数据类型以数据集的形式统一集中呈现,并支持栅格数据集创建,基于创建好的栅格数据集,支持栅格数据的删除、导入导出、查看/编辑空间参照系、复制等操作。数据离线抽取针对海陆一体化的离线空间数据抽取,需提供空间数据输入输出、数据抽取对比检查、空间数据安全脱敏、数据安全加密解密、数据接口解析、生成接口数据等功能。提供空间矢量转换插件与空间栅格数据转换插件,实现各类空间数据的便捷化输入与输出。(1)空间矢量数据转换插件支持文本文件(*.txt),MapGIS文件(*.mapx)、SuperMap文件(.smw、.sxw)、我国标准矢量交换格式vct(*.vct)、Excel数据(.xls或.xlsx)、CSV数据(.csv)、ArcInfo文件(*.e00)、ArcViewShape文件(*.shp)、AutoCADDXF(*.dxf、*.dwg)、OpenGISGML(*.gml)、OpenGISKML(*.kml)等常用的GIS格式数据的输入与输出。(2)空间栅格数据转换能够支持msi、tif、img、jpg、gif、bmp、jp2、png等20多种栅格数据格式,以及bil,Arc/Info明码Grid、SurferGrid等多种Dem数据格式的输入与输出。(3)数据抽取对比检查内容包括:入库数据元数据检查、数据数量检查、坐标序列检查、坐标参照系检查、栅格影像色差检查。(4)数据涉密管理需要提供空间数据安全脱敏相关功能,包括:涉密要素属性删除、涉密要素空置删除、空间位置精度降低、空间位置转换、图层裁切等。(5)提供数据安全加密解密服务,为保障空间数据的共享、传输和应用安全,提供多种数据加密解密技术,包括哈希处理、MD4/MD5处理、算法加密、公开密钥加密及相应的解密。(6)数据接口解析需提供各类异构数据源的数据接口解析功能,包括WebService接口解析、HTTP接口解析、XML解析、Json解析等内容,以增强不同来源和格式的空间数据的互操作能力,促进数据资源的整合与利用。数据实时抽取提供空间数据实时抽取功能,需包括空间数据库表实时抽取、文件数据实时抽取、日志数据实时抽取以及空间数据库增量同步、实时同步数据对比检查等内容。(1)提供空间数据表的流式输入与输出功能,即在不将数据数据加载到内存的情况下处理相关空间数据,在节省内存资源的同时提高处理大规模数据集的效率。(2)针对文件数据提供实时抽取与监控功能,包括普通文件数据和矢量文件数据。(3)基于CDC变化数据捕获技术,实现日志数据的实时抽取与日志解析。(4)针对空间数据库增量同步需求,支持以同步任务管理的形式增量数据的获取。具体提供空间数据同步规则配置以及同步任务创建、调度、监控、同步日志管理、同步流程各节点配置管理相关功能。(5)针对空间数据库实时同步需求,要求数据同步的时延在1分钟之内。(6)实时同步数据对比检查内容包括空间数据元数据检查、数据数量检查、坐标序列检查、坐标参照系检查、栅格影像色差检查。数据质量监测为保障空间数据抽取集成的质量,提供全面的空间数据质检功能,包括数据质检算子管理、质检规则配置、完整性质检及质检过程监控、质量分析等内容。(1)针对各类点、线、面状空间数据要素,提供全面的数据质量检查算子,提供灵活、易扩展的质检规则配置功能,提供属性完整性与属性结构完整性提供检查功能。(2)数据质量检查算子至少包括重叠点、多线、微短线、重叠线、相交线、悬挂线、多面、面缝隙、重叠面、碎小面检查等。(3)针对空间数据的质检过程监控功能包括质检方案设计与质检结果监控。针对不同专题数据的质检要求,提供质检方案设计功能,支持用户利用可视化界面自行配置各类检查的项目。(4)结合空间数据质检结果开展数据质量分析,提供数据质量检查报告、趋势分析与可视化看板功能。数据融合处理数据融合清洗是指将不同来源的数据开展合并、清洗以及规范化等处理,以提高海陆一体化空间数据质量,为后续的数据分析、数据挖掘等提供可靠的数据基础。需包括空间数据清洗、数据脚本、空间数据标准管理、矢量数据处理和栅格数据处理功能。(1)空间数据清洗功能包括空间基准转换和空间数据缺失值清洗、异常值清洗、重复数据处理、噪音数据清洗等内容。(2)提供一系列执行脚本处理组件,以辅助实现各类数据清洗操作,包括数据映射、数据丰富、数据计算、数据验证、数据排序、数据合并、数据拆分、数据生成、数据去重、数据分组、行列转换等复杂处理场景,实现用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。(3)针对海陆一体化空间数据提供数据标准管理功能,包括空间数据标准文件管理、空间基准标准管理、时间基准标准管理、矢量数据格式标准管理、栅格数据格式标准管理等内容。(4)针对各类点、线、面状空间矢量及栅格数据提供丰富多样的投影变换、量算、空间分析和拓扑处理等功能。API管理管理地图通用功能API和定制的地图功能API,基于API管理系统提供API管理的相关接口,进行地图功能API的发布、授权、下线和运行操作。地图功能API管理针对服务访问的安全应用,需提供基于Token(盾牌)的服务安全认证策略和Token账户管理功能。并提供地图功能API发布和下线功能。提供统一的数据服务发布管理,根据数据服务类型将发布任务转发到不同的发布平台,并将发布好的数据服务在局数据编目系统进行服务登记。通用地图功能API开发通用地图功能API开发模块需为地图应用提供一套全面的开发工具,使得开发者能够构建功能丰富、交互性强的地图应用。包括图层目录服务API、文档目录服务API、瓦片目录API、地图数据服务API、专题图服务、几何分析服务和要素服务等。定制地图功能API开发通过流程搭建的模式,为用户提供自定义的地图功能API来进行特定的地图功能开发,满足客户的特定需求,比如定制化的地图展示、路线规划、地点搜索、地理围栏等。需包括流程式定制开发构造器、定制API流程模板管理、定制地图功能API分类管理和定制地图功能API参数设置功能。API调用统计分析API调用统计分析模块需提供一种有效的方式来监控API的使用情况,帮助开发者和系统管理员了解API的使用模式和趋势,从而可以对API服务进行优化和改进。同时,这些统计信息也可以帮助识别潜在的性能瓶颈或需求高峰,进而做出相应的调整和资源分配。API发布集成定制API管理定制API全生命周期管理(管理门户)需对API的需求、设计、开发、测试、发布、调用和维护等整个过程中,对各个阶段进行管理和控制。API服务生命周期管理主要通过平台中内置的质量规则进行约束,通过静态和动态质量分析来给API进行评估并不断提升API服务的质量。服务接入规范约束主要是制定相关的API接入和发布规范,用来约束API服务发布者和API服务消费者按照规范约定进行API服务的共享,方便在数据对接时能按照标准规范进行对接从而降低数据对接的成本提升效率。项目管理定制项目管理展示了API的总览、团队动态、项目动态、开发者资源、统计分析等相关信息,以满足企事业单位内部开发部门和生态合作企业在API接入和使用过程中的需求。需包括项目管理、应用管理、请求历史、项目文档、模拟数据、环境管理、项目设置等功能。能力管理定制需对所有的能力接口进行监控操作,需对能力产品、能力目录、能力地图、业务应用进行管理。提供能力接入审批、能力沉淀统计、能力调用统计、能力复用统计的功能。并为用户提供一个API和其他技术能力的集中平台。通过能力开放门户,组织可以将自身的核心能力以API形式对外暴露,并允许开发者和合作伙伴利用这些能力构建新的应用、服务和解决方案。服务规范治理治理服务包含并不局限于管理标准和技术标准。管理标准应包括:标准体系总体要求、服务设计管理规范、服务实施管理规范、服务上线发布管理规范、服务下线发布管理规范、运维管理规范。技术标准应包括:平台总体技术规范、服务能力技术规范。服务能力治理API服务能力分析是一种对API服务的性能、可靠性、可扩展性和安全性等方面进行评估和分析的过程。通过API服务能力分析,企业和开发团队可以及时发现和解决API服务中存在的性能、可靠性、可扩展性和安全性等方面的问题,提升API服务的整体能力和质量,为用户提供更好的服务体验。API服务能力涉及以下几个方面的评估治理:规范性、安全性分析、性能分析、稳定性、共享性、可理解性。服务能力监测服务能力监测主要针对本平台运行的所有API服务进行监控操作,包括API实时请求的流量监控、API实时运行数据记录、API实时链接数记录、API执行异常监控等功能。并提供自动化运营报表、API质量是评估、API服务能力运营、API质量分析、静态质量分析、动态质量分析、调用安全分析和运营管理规范的功能。数据管理能力集成做为海陆一体化数据管理能力中心,需要从海洋各业务系统抽取数据进行汇集,数据治理后形成的成果数据以数据API和功能API的形式发布,实现海洋数据在局内外以及市内外形成数据交换共享的目的。与已有系统及平台集成与市局电子业务平台集成,按照统一身份认证技术要求对接,实现组织权限和代办通知等。与市局微服务管理平台集,按照微服务管理平技术要求对接,实现服务注册及服务订阅。根据数据使用或业务管理需要,还需与市海洋物联网数据管理平台、局流程调度引擎、局对象存储管理系统、局PLOSERVICE后台管理系统、局SDE组件、市海洋观测预报系统、市陆源监测系统、市海洋经济直报系统、市海域动态管理系统、局地图融合发布系统、市海洋数据资产管理系统、数据资源目录系统、数据抽取管理系统成品软件、API管理系统成品软件进行对接。定制开发能力要求定制开发需与API管理软件同一品牌厂商,与管理软件需无缝融合。指标模型管理指标模型管理旨在提供以指标定义、指标版本管理以及指标统计报表的指标管理系统和从算子库管理到模型管理、模型构建、任务管理、服务发布、运维看板、以及系统管理的全流程支持的模型管理系统。指标定义创建指标,统一标准定义指标。指标定义支持修改,修改痕迹会被记录。指标信息包括基本信息(名称、描述、编码等)数据源信息、空间定义信息、指标关系定义、标签定义、指标标签管理、权限定义、指标定义扩展、指标体系定义和指标目录管理,以及指标填报、指标纠错。支持指标的上架申请、申请审核、发布(并可设定共享范围)、共享,以及指标的查询、指标详情、使用申请、申请审核、应用监测等能力构成的“指标超市”,并支持按照维度建模的方法进行指标定义,支持指标之间的血缘分析,和甲方已经建设的数据可视化工具打通。指标版本管理包括指标定义版本与指标数值版本两个模块功能,通过该功能,用户可以创建、存储和比较不同版本的指标定义与数值,并记录每次修改的详细信息,包括修改时间、修改人员和修改内容,以确保指标变更的追踪和可溯源性。对每次修改的记录进行监控,监控指标的值更新是否异常。此外,指标版本管理功能还支持权限控制,可以根据用户角色设定不同的修改权限,从而确保指标定义的安全性和合规性。指标统计报表该功能模块需涵盖自定义报表和自动汇聚报表中不同指标数据的功能。用户首先可根据需求自定义报表,选择报表模板和布局,以确保报表结构符合业务需求,用户能够灵活设置报表中包含的具体指标,不论是手动选择还是通过预设规则自动生成相关指标数据。系统支持定时任务和实时数据更新,以确保指标数据的及时性和准确性。在所有数据准备完毕后,系统将按照预先设定的要求将各类指标数据进行汇总处理,并支持导出为多种格式的报表,以便于分享和存档。按照设置的报表定义规则,系统自动生成报表,汇交到领导确认。可通过系统内定义的计算规则进行指标计算,也可通过调用外部接口、模型、SQL注入计算规则等方式实现系统外指标计算。算子库管理集中存储、注册、配置和管理各种算子。这些算子包括用于数据处理、转换、分析的基础算子,以及针对特定领域(如空间处理)的专用算子。支持自定义算法文件的上传,用户可以上传Python脚本、Java类文件等,并可配置算法的输入输出接口,包括参数类型、默认值等。模型创建模型创建功能为用户提供了一个直观且灵活的环境,用于从数据输入到结果输出的整个模型搭建过程。包括模型数据输入配置、节点数据流转配置、模型可视化流程搭建、模型结果保存和模型结果可视化的功能。模型管理模型管理功能用于全方位地管理和维护数据处理和分析模型。该功能旨在满足用户对模型生命周期的完整控制,从模型的编辑、分类,再到最终的删除,都能得到高效地处理。支持模型的上架申请、申请审核、发布(并可设定共享范围)、共享,以及模型的查询、模型详情、使用申请、申请审核、应用监测等能力构成的“模型超市”,支持模型打标签,和甲方已经建设的数据可视化工具打通。模型服务发布根据模型参数信息、名称等相关信息,将模型在中心微服务平台上提交注册发布为可供外部调用的服务,外部系统或应用程序可以通过HTTP或其他协议的URL来调用模型服务。模型任务管理方便用户管理和调度模型的执行,实时监控模型的运行状态和执行结果,从而确保模型能够按照预期运行并产生准确的结果。包括模型调度配置、模型调度任务管理、模型日志查看功能。模型运维看板提供集成模型热度、状态监控、总体概览和新增情况分析等功能的可视化看板。系统管理系统管理模块的主要功能包括日志审计和模型权限控制。记录了系统中用户或系统本身执行的所有操作或活动的详细信息,为系统管理员提供了丰富的数据来分析和审计系统行为。基于统一认证体系的权限接口,对用户访问和操作模型的权限进行精确控制。海洋数据基础应用能力建设(即海洋灾害数据资产管理系统)海洋数据应用海洋数据应用由海洋数据管理门户、海洋数据综合展示、海洋数据资源服务、海洋数据地图服务、海洋数据产品服务、海洋数据应用评价等六个模块组成。为便于海陆一体化数据管理,海洋数据应该同时包含陆地地形数据,成果数据统一纳入海陆一体化的全空间数字底板,实现陆海统筹、海陆一体化的全空间集成展示。海洋数据管理门户海洋数据管理门户模块提供门户数据资源中心、数据产品、个人中心、通知公告等子模块。海洋数据综合展示模块围绕海洋数据服务,提供海洋数据综合展示,实现海洋灾害防御工程,助力海洋资源高水平保护、高效率利用提供辅助决策。需提供海洋灾害防治一张图、海洋三维展示、海陆地形图符号化和可视化配置管理功能。其中海陆地形图符号化应参照国家基本比例尺地形图图示制定符号,可视化配置管理需支持图表组件、web交互类组件、图片类组件、文本组件、功能样式组件、二维地图组件、三维地图组件。并可以对组件属性样式批量设置、组件组合编排。海洋数据资源服务模块为满足海洋灾害数据共享需求,有必要对各类海洋数据资源进行有序组织,建设规范化的数据资源目录体系。海洋数据资源服务面向业务人员需提供资源目录、资源注册、资源检索、资源浏览、资源审批等子模块。支持数据资源登记页面个性化布局。支持国产空间数据库、云盘文件数据、数据标准等管理。支持数据目录自定义分类管理。支持批量或者单个数据服务注册登记、自动关联原始图层及其元数据信息、即时预览。支持自动同步到微服务平台供订阅,并可查看单个服务的订阅使用状况、运行状态。支持地形图、遥感影像、三维模型等数据的自动发布注册登记。提供目录发布校核规则库,在目录发布时按照校核规则库对目录元数据及其关联文件进行校核。提供目录与关联数据、服务与微服务平台联动异常监控与告警展示管理。开展存量海洋编目数据整合迁移。海洋数据地图服务模块海洋数据地图服务模块面向业务人员需提供通用地图服务、地图浏览、数据查询、通用制图、空间分析、辅助工具等子模块。海洋数据产品服务模块海洋数据产品服务模块配置并发布海洋灾害防御业务过程中生成的数据产品。提供海洋数据产品配置、信息查询、生态海岸带评价产品管理模块,提供数据产品的编目、注册、查询、预览、申请、审核、运行监测等功能。海洋数据应用评价模块海洋数据应用评价模块对海洋数据汇集情况、分发情况、使用情况、支撑情况和数据应用情况进行统计,需提供数据汇集情况信息、数据分发情况信息、数据使用情况信息、数据支撑情况信息、数据应用情况信息等子模块。海洋数据管理基于国土空间基础信息平台扩展的海洋大数据管理模块,提供海洋数据采集、海洋数据初步质控、海洋数据监控、海洋预警预报产品准确度检验、系统管理等功能,还应包括海陆地形图数据的入库检查、更新入库、按需导出、数据库版本管理等功能,实现多源、异构海洋时空大数据的汇聚、存储和一体化统一管理,支持构建海洋大数据时空底座。海洋数据采集模块充分利用国土空间基础信息平台的空间数据和非空间数据抽取功能接口提供的能力,实现海洋原始文件采集、海洋数据解析管理以及入库预处理等子模块的管理需要,满足海洋数据快速、稳定采集。(1)海洋原始文件采集,需基于国土空间基础信息平台的空间数据和非空间数据抽取功能接口,提供海洋数据采集工具,实现海洋原始文件的数据采集方案管理。(2)海洋数据解析管理,需基于数据抽取管理系统的任务管理功能,创建数据解析任务,配制解析规则,对海洋观测数据、海洋生态监测数据进行解析并入库。(3)海洋数据入库预处理,采集的数据中如果包括文档、图片数据,需要进行信息的提取,并建立索引,以数据方式存储在数据库中,以支持全文检索的功能。海洋数据国家标准化参照国家标准《GB/T14914.2-2019海洋观测规范第2部分:海滨观测》将文件进行分类并标准化处理实时和历史数据,输出标准化文件,包括文件的命名、文件内容的格式等。海洋数据监控数据解析、处理、回传、入库等环节进行监控埋点,监控海洋数据各个处理环节的过程是否出现问题。包括事件追踪埋点、数据监控信息统计。海洋预警预报产品准确度检验按照《海洋预报结果准确性检验评估方法》中的相关要求,对常规预报、数值预报、风暴潮、海浪警报的各类指标进行质量评估的年月评估统计。数值预报评估包括相对误差、平均相对误差。对警报级别的正确率、高报率、低报率进行评估。系统管理针对海洋数据安全运营,基于国土空间基础信息平台统一权限功能,提供权限管理和日志管理的功能,有效地保证系统各类服务资源的安全性。海陆地形图数据库增加版本管理功能,可以随时查看历史节点的地形图数据库,可与现势地形图数据库进行对比分析,可以将现势数据库还原到对应的历史节点数据库。空间数据抽取集成运营服务为确保空间数据抽取集成能力正确运行,并适配海洋数据的空间位置要求,投标方需提供相应技术支持服务,围绕空间数据采集、检查、汇聚、清洗、治理、分析、共享、利用等数据全生命周期,提供涉及全市持续的海洋空间数据运营服务,以保障平台持续进行有效的业务服务运营。同时服务商应协助业主开展数据供需关系的梳理工作,通过数据开放、测试、质量稽查的工作,保证数据需求产品准确、安全、可信,推动数据跨部门共享利用。空间数据需求调研分析围绕海洋防灾减灾业务,对市局现有的空间数据类型、存储数据库类型、在线运行系统,以及国土和海洋部门数据治理质量标准的需求调研。对建设内容、工作范围、建设方法进行分析,并输出《海洋空间数据现状调研报告》、《海洋防灾减灾数据需求分析报告》。地图功能API调研分析围绕海洋防灾减灾业务,对市局现有的地图功能API的现状及需求调研。对建设内容、工作范围、建设方法进行分析,并输出《海洋地图功能API现状调研报告》和《海洋地图功能API需求分析报告》。离线数据整理对接收集海洋离线空间文件数据,摸清其真实的数据结构,并进行分类整理和分析,根据调研需求,设计数据源接入方式和元数据模型。对建设内容、工作范围、建设方法进行分析,并输出《离线空间数据详细接入清单》。在线数据对接对接与市海洋物联网管理平台、局资源目录编目系统、市海洋观测预报系统、市陆源监测系统、市海洋经济直报系统、市海域动态管理系统,配置所有需要取数对接的系统数据库访问地址和接口地址,为数据抽取做准备。对建设内容、工作范围、建设方法进行分析,并输出《在线数据和在线系统接入清单》。基础平台系统集成配置开发对接市局统一身份认证系统,获取其用户和组织架构体系,统一用户信息和登录认证信息。按业务需求配置各类审批工作流并将结果同步市局流程调度引擎。对接局微服务管理平台,调用其服务注册接口,按照UUDI的要求,将每个本系统的API以统一WSDL的形式注册到微服务管理平台,服务需求方通过局微服务平台来发现和调用本系统发布的API服务。对建设内容、工作范围、建设方法进行分析,并输出《用户权限矩阵》、《系统集成开发设计说明书》。空间数据抽取任务设计配置数据抽取任务,包括离线同步数据和实时同步数据,实现陆地、海洋数据统一存放管理,完善国土空间数据库与海洋空间数据库的融合。对建设内容、工作范围、建设方法进行分析,并输出《ETL任务清单》。空间数据质检配置配置数据质检规则,执行自动化数据质量检测,保证数据准确可靠。输出《空间数据质检规则》、《空间数据质量报告》。空间数据治理清洗配置数据清洗规则,包括矢量和栅格数据的清洗规则。输出《海洋数据常见数据问题及处理办法》。地图API定制配置根据地图功能API的定制需求,通过流程搭建的模式,为用户提供自定义的地图功能API来进行特定的地图功能配置,满足客户的特定需求。输出《地图API定制清单及API说明》。地图API运行监测实时监控API运行状态、调用频次、执行时间、服务器运行状态等,并定期形成运维报告,以文本报告的形式发布出来。了解API的使用模式和趋势,识别潜在的性能瓶颈或需求高峰,进而做出相应的调整和资源分配。输出《地图功能API的运行监测报告》。试运行期系统运维及优化日常维护平台开发配置的内容,保证系统可持续的稳定运营。对系统、网络、数据库等关键资源的实时监控,及时发现并定位潜在的故障,通过预警功能提前通知运维人员,以便在故障发生前采取相应措施。通过调整系统设置、优化资源配置、改进软件代码等方式,提升系统的性能和稳定性。非空间业务服务运营日常维护平台开发配置的内容,保证系统可持续稳定运营。对系统、网络、数据库等关键资源的实时监控,及时发现并定位潜在的故障,通过预警功能提前通知运维人员,以便在故障发生前采取相应措施。通过调整系统设置、优化资源配置、改进软件代码等方式,提升系统的性能和稳定性。记录并输出《运维工作报告》。非空间数据抽取集成运营服务为确保本期建设项目平台有效使用和项目实施成果,需要投标方提供相应的技术支持服务,围绕数据采集、汇聚、清洗、治理、分析、共享、利用等数据全生命周期,提供涉及全市持续的数据运营服务,以保障平台持续进行有效的业务服务运营。同时投标方应协助采购人开展数据供需关系的梳理工作,通过数据开放、测试、质量稽查的工作,保证数据需求产品准确、安全、可信,推动数据跨部门共享利用。本次项目按照需求重要程度,针对做好分级分类,科学制定实施计划,坚持做到一次规划、分步实施、重点先行。数据需求调研分析围绕海洋防灾减灾业务,对市局现有系统基础环境调研,市局业务部门使用需求调研,相关数据对接需求调研,协助客户开展数据供需关系的梳理工作,通过数据开放、测试、质量稽查的工作,保证数据需求产品准确、安全、可信,推动数据跨部门共享利用。对建设内容、工作范围、建设方法进行分析,并输出《海洋数据现状调研报告》,《海洋防灾减灾数据需求分析报告》。系统初始化和集成对接配置开发对接市局统一身份认证系统,同步市局统一的用户账号,设计符合需要的权限矩阵,按业务需求配置各类审批工作流并将结果同步市局流程调度引擎。配置所有需要取数对接的系统数据库访问地址和接口地址,制定数据接入管理规范,并按照规范要求接入各类数据,实现数据源、数据接口统一管理。对建设内容、工作范围、建设方法进行分析,《用户权限矩阵》、《系统集成开发设计说明书》、《非空间数据连接清单》。数据抽取任务设计通过配置数据抽取任务,包括离线同步数据和实时同步数据,实现海洋数据统一存放管理,完善国土空间数据库海洋业务数据。对建设内容、工作范围、建设方法进行分析,输出《ETL任务清单》。数据质检配置制定数据质量管理机制、流程、办法来规范数据质量管理实施服务,配置数据质检规则,执行自动化数据质量检测,定期形成数据质量专项报告,保障海陆一体数据中心数据质量稳步提升。对建设内容、工作范围、建设方法进行分析,输出《数据质检规则》、《数据质量报告》。数据治理清洗数据清洗能够补充数据缺失的部分、纠正或删除数据不正确的部分、筛选并清除数据重复多余的部分,最后将数据整理成便于被分析和使用的“高质量数据”。数据运营过程中,需根据实际情况选择不同数据清洗模式,并根据数据的不同类型选择有针对性的清洗方法。最后制定清洗规则,以支持实际清洗工作的顺畅有序进行。对建设内容、工作范围、建设方法进行分析,输出《海洋数据常见数据问题及处理办法》。平台运营指标1、高可靠性和可用性系统能够长时间稳定运行,要求平台在标准硬件资源上,以年度为单位:运行时效达到:99.99%。2、可扩展性系统应具有很好的可扩充性、可扩展性、适应性和可伸缩性,可以根据不同的配置方案,支持较大规模的用户数,至少满足2000以上用户数,不低于200个并发用户的稳定使用。3、离线数据传输采用主动方式和被动方式采集数据。具有数据快速采集能力,通用DDL语句(insert/delete/update/select)50字段以内满足50条/S数据入库,多表联合语句50字段以内满足20条/S多表数据更新。文件导入(excel为例):20000行数据(50个字段)入库<3Min。单户数据离线迁移场景支持百万数据秒级迁移,亿级数据2小时内完成迁移。采集数据时支持同步容错机制和异步采集数据的性能高可用性,数据传输安全保证。4、CDC实时传输CDC实时数据单条延时(目标库写入时间-源库读取时间)不超过10s,10万级单表数据增量同步<1Min延迟。5、Kafka性能要求接收数据从Kafka(数据量100万,50字段为例):配置通用校验规则接入不超过1h,不配置任何规则接入不超过20Min。分发数据往Kafka(数据量100万,50字段为例)用时不超过20Min。6、数据质量校验性能要求以业务数据(数据量亿级,阈值范围及正则规则校验为例),数据校验及质量报告生成时效<60Min。试运行期系统运维通过驻场及多级服务机制,主动、及时的发现、分析系统缺陷,解决平台运行过程中的各类问题,提升应用系统的可用性,确保系统的稳定、高效运行,同时应设立安全事件处置及应急预案机制保障平台运行。对建设内容、工作范围、建设方法进行分析,记录并输出《运维工作清单》。运营服务人员要求运营服务的时长由投标人结合自身服务能力与实际项目需求并充分考虑实际情况后综合评估给出,要求不少于20人月,并体现在报价中。运营服务应积极响应项目组需求,协助项目组完成方案中相应工作并给出合理性建议。运营服务人员必须按照投标文件中提供的人员名单投入项目的实施。考虑到项目范围较大,投标方可提供不同领域的运营服务人员清单,在不同的项目阶段及不同建设内容方面灵活调整,由擅长该领域的技术服务人员参与支持。运营服务以人月形式提供,如人月消耗完毕,采购人可以按照单价继续增补采购运营服务。投标方应及时响应增补采购的运营服务,不得以有其它安排为由更换服务人员。数据处理相关正版软件采购三维时空数据统一管理软件需求1.多源数据汇集从多个不同的数据源获取、处理并整合三维数据,以构建完整、准确且高分辨率的三维数据模型。支持包括DEM、DBM、DSM、Mesh模型、LiDAR、BIM等多源三维数据汇集。2.数据格式兼容兼容各种数据格式,如NetCDF、HDF5、CSV、GeoTIFF、OSGB、OBJ等,确保数据可以无缝接入。3.数据标准化转换对不同来源的数据进行标准化转换,确保数据的一致性和可用性。支持数据格式和单位的转换。将不同来源的数据转换为统一的格式,以便于后续的数据处理和融合。进行坐标系转换,确保所有数据在同一坐标系统下,保证数据的空间一致性。4.元数据管理通过记录数据的来源、采集时间、分辨率、格式等基本属性,按类型和主题进行分类,提供版本控制和权限管理,确保数据的可追溯性和安全性,同时记录数据质量评估结果。5.大数据存储架构设计高效的分布式数据存储架构,支持海量数据的存储和管理。通常采用分布式存储和计算技术,其核心包括数据存储层、计算层和管理层。数据存储层负责存储数据,常采用分布式文件系统或NoSQL数据库。计算层进行数据处理和分析,通常使用分布式计算框架如Hadoop、Spark等。管理层负责资源调度、任务调度和监控管理。实现数据的高可靠性、高性能和可扩展性,适用于处理各种类型和规模的大数据应用场景。6.数据压缩与分幅通过使用各种压缩算法对数据进行压缩,减少存储空间占用和传输带宽消耗,同时提高数据的传输效率。将大数据集按照一定的规则划分为多个小块,以便于并行处理和分布式计算,同时降低单个任务的复杂度和计算负载,提高处理效率和系统的扩展性。7.数据分类管理将海量数据按照一定的规则和标准进行分类和组织,以便更有效地管理和利用数据资源。通过数据分类,可以将数据按照不同的属性、主题或用途进行划分,形成清晰的数据结构和组织体系,使用户能够快速定位和获取所需的数据,提高数据的可用性和可发现性。8.多层存储策略根据数据的访问频率和重要性,采用多层存储策略,如数据分离存储。通常分为热数据层、温数据层和冷数据层,热数据层存储访问频率高且对性能要求较高的数据,如实时数据和经常访问的数据。温数据层存储中等访问频率的数据,如历史数据和周期性访问的数据。冷数据层存储访问频率低且对性能要求较低的数据,如归档数据和备份数据。这种策略能够优化存储资源的利用,提高存储效率和成本效益。9.数据备份机制数据备份机制是确保数据安全和可恢复性的关键措施,通过定期备份数据,防止数据丢失或损坏。备份策略应考虑数据重要性和变化频率,采用完整备份、增量备份或差异备份等方式,并确保备份数据的存储安全性和完整性。10.数据恢复功能数据恢复功能是数据管理系统中的重要组成部分,用于在数据丢失、损坏或意外删除时,通过备份或其他手段将数据恢复至先前状态。包括定期备份数据、快速恢复数据的能力以及灾难恢复计划的制定。通过数据恢复功能,系统可以最大限度地减少数据丢失对业务造成的影响,并保障数据的完整性和可用性。11.数据共享机制在安全、高效、透明的基础上,设计数据共享机制,支持数据的跨部门、跨机构共享与协作,使不同组织或个人之间能够共享数据的一套规范和流程。包括数据提供方确定数据可用性和访问权限,确保数据的隐私和安全。数据接收方遵循规定的访问方式和权限,保证数据的合法使用。同时,利用技术手段如API接口、数据交换协议等,实现数据的传输和整合。12.数据权限管理通过灵活的数据权限管理机制,对数据访问和操作权限进行有效控制和管理,确保数据共享的安全性和可控性。只有经过授权的用户能够访问和操作特定数据,以保护数据的安全性和隐私性。这包括对用户、用户组或角色进行身份验证和授权,设置不同级别的访问权限,如读取、写入、修改和删除等,以及对数据访问记录进行监控。13.API接口提供丰富的数据服务API接口,用于与数据交互,支持第三方系统的集成与调用。通过API接口,可以请求特定数据或执行特定操作,并获取相应的结果。数据API接口通常提供标准化的请求和响应格式,如JSON或XML,以便于不同系统和应用程序之间的数据交换和集成。通过数据API接口,用户可以轻松地访问、查询和操作数据,实现数据的共享、分析和应用。14.数据订阅服务提供实时数据更新和推送的订阅服务,用户可以根据需求订阅所需的数据,并在数据更新时接收到通知或数据推送。包括数据发布平台、订阅管理和数据推送等功能,选择订阅数据的类型、频率和格式,实时获取最新的数据,以支持各种实时数据分析、监控和应用场景。多源三维数据处理及加工软件需求1.数据清洗提供数据清洗工具,去除数据中的冗余、错误和噪音,确保数据质量。包括对原始数据进行噪声去除和异常值处理,提高数据的质量和准确性。对数据进行几何校正、辐射校正等处理,确保数据的空间位置和辐射值的准确性。2.数据转换支持多源异构空间数据一键轻量化,支持数据处理:将各种来源、各种格式的输入数据,处理为三维GIS上能够渐进加载的切片文件格式。支持分发服务:本地数据分发为HTTP服务,可以在CesiumJS/CesiumForUE/CesiumForUnity平台上直接调用。支持三维可视:预览各种切片成果数据服务,场景整合,开发调试等功能。3.三维建模将航天摄影、航空摄影、地面采集的数据进行三维建模软件,根据外业采集的多角度航空摄影数据、激光点云数据,可以快速生成三维Mesh模型、DOM等产品。支持存量多源数据自动化提取体块模型,实现集建筑轮廓图元自动提取与人工采集相结合、体块模型自动构建、属性编辑、智能纹理贴图一体化的作业流程。4.数据标注提供数据标注功能,对数据进行人工或自动化的标记、注释或分类,便于数据的管理和分析。通过数据标注,可以为数据添加语义信息、标签或标记,例如对图像进行对象检测、分割和分类。5.更新融合针对实景三维数据的汇交、局部更新、区块合并等场景中,为空间参考、原点、瓦块大小不统一、重叠区域处理等问题提供的工具集。将空间数据与属性数据(如环境参数、物理特性等)进行结合,提供更丰富的数据表达。6.模型修复与编辑针对实景三维数据后处理的智能化处理软件,具备实景三维模型修饰、手工单体化等两大模块。模型修饰模块可实现碎片剔除、补水、补路牌、道路抹平、纹理修复、边界裁切等功能,手工单体化可实现手工建模、全自动纹理映射、合并或单体导出等功能。7.点云处理激光点云后处理及应用软件,实现多源(点云、影像、栅格、矢量、模型)数据的精密融合、拼接,支持各类主流的数据类型,支持检校纠偏,支持去噪&噪声滤波、重采样、平滑等预处理,支持测量、裁剪、分幅等功能。8.时间序列分析支持对时间序列数据的分析,如趋势分析、季节性、周期分析等,揭示数据的内在规律和特征,帮助理解数据的时序变化。9.空间分析对数据在空间上的分布、关联和趋势进行分析,提供空间数据分析工具,如叠加分析、空间聚类等,支持空间数据的深度挖掘。可用于城市规划、资源管理、环境监测等领域,帮助决策者深入理解空间数据的特征和变化趋势。10.统计分析通过收集、整理和分析大量数据,揭示数据之间的关系和规律,以支持决策制定和问题解决的过程。它涵盖数据清洗、数据可视化、描述性统计、推断性统计等多个方面,利用统计方法和工具对数据进行深入挖掘和解释,从而发现数据中的潜在信息和趋势,为业务发展提供有力支持。11.智能分析利用数据挖掘、机器学习、人工智能等技术对数据进行深度分析,提供智能化的数据分析和预测功能,如异常检测、模式识别、预测模型等。12.图表展示通过可视化手段将数据转化为图表形式展示,支持多种图表形式,如折线图、柱状图、饼图、散点图等,帮助用户直观地展示和分析数据。每种图表类型适用于不同类型的数据分析和展示需求,可以快速发现数据中的模式和异常,支持数据驱动决策和业务分析。13.地图展示通过地理信息系统(GIS)技术将数据可视化展示在地图上,将数据与地理空间信息相结合,以图形化的方式呈现数据分布、关联和趋势,快速了解数据的地理位置、空间关系和分布情况,从而进行地理信息分析、决策和规划。14.3D模型展示支持3D数据展示,提供三维海洋环境和地形的展示功能,帮助用户更直观地理解数据。15.交互操作提供丰富的交互操作功能,如数据筛选、缩放、平移等,帮助用户灵活地操作和分析数据。16.可视化配置提供可视化配置工具,允许用户根据需求自定义数据的展示形式。数字水印加密1.数据传输加密使用安全的传输协议(如HTTPS)对数据进行加密传输,防止数据在传输过程中被窃取。2.数据存储加密针对DLG、DRG、DEM、DOM、三维模型等数据采用混合密钥以SM4算法对地理信息数据内容进行加密处理,实现单位内部数据使用过程中自动加密处理,加密数据在安全环境下正常流转、交互,加密数据私自拷贝到外部环境无法打开。数据安全环境实现数据透明保护,不影响日常的工作习惯及应用程序的任何功能。有效防止人员流动、恶意拷贝导致的数据泄露。3.不可见数字水印嵌入在数字高程模型、三维模型和文档等多种数据类型和格式地理信息数据中嵌入不可见的数字水印,包括数据版权、用户、发单编号、人员、备注和时间等信息,一旦出现安全问题,系统能够从数据中检测出嵌入的水印信息,从而发现数据违法和泄密源头,有效解决数据版权溯源难问题。4.可见文字水印嵌入将版权信息通过可见文字的方式的嵌入,可实现数据版权快速、准确的核定和追溯,保护数据版权。并通过嵌入不同的用户单位信息,可以区分不同用户,明确泄密数据的来源,追溯违法源头,明确泄密责任,并警示和处罚泄密、侵权等非法行为,达到防微杜渐的效果。5.可见图片水印嵌入将版权信息通过可见图片的形式嵌入,实现数据版权快速、准确的核定和追溯,保护数据版权。并通过嵌入不同的用户单位信息,可以区分不同用户,明确泄密数据的来源,追溯违法源头,明确泄密责任,并警示和处罚泄密、侵权等非法行为,达到防微杜渐的效果。6.数据服务管控可应用于数据对外分发、外包生产和外业作业等场景。系统支持BS和CS两种架构,并支持分布式运行。同时兼容Windows和国产操作系统。数据抽取集成标准产品1.总体需求数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。通过数据集成抽取中台系统建设,实现海洋资源和陆地资源数据归集应用,打破部门“壁垒”和数据“鸿沟”,对敏感信息建立健全脱密脱敏应用技术规范和数据安全管理举措,确保在安全前提下最大程度共享应用数据资源。对问题数据及时质检,完成“脏”数据清洗治理,让海洋减灾防灾工作能基于及时、准确、有效的数据做决策支撑。2.具体需求需提供数据的ETL处理功能,支持通过配置从业务系统抽取数据信息,或直接访问JDBC数据源、XML数据源、Excel表格、文本文件等导入数据信息。能够提供多种数据处理组件用于完成数据传输、清洗、转换、加载。要求提供支持易用的可视化界面进行作业流设计,即全拖拽式流程设计器,用户只需简单拖拽的方式就能够完成创建ETL过程,实现“零”编码,易操作、易阅读、易维护。需支持以图形化的带方向的连线方式配置作业的前驱后继关系,支持缩略图显示,支持根据ETL作业的名称进行图形的搜索。在序列选中的每一个ETL过程都能自定义相关的计划任务、失败重做次数和优先级。需支持通过事件、文件到达及手工触发等多种方式进行实时增量抽取。支持基于触发器、时间戳、日志、全文比对等增量数据抽取策略。支持开放接口,可够使用其他平台、技术语言的系统进行调用。同时数据ETL处理支持对导入的原始数据进行抽取、清洗与整合后构建不同主题模型的数据信息库,通过人工干预与确认,完成数据初始化工作。数据ETL处理过程中,需对数据生命周期的每个阶段(包括数据的获取、存储、共享、维护、应用和消亡)中可能出现的各类问题进行识别、度量、监控和预警等一系列管理活动。此外,数据质量管理还涉及到数据质量的评估、改进和提高,确保数据满足业务运行、管理与决策的需求,从而保证数据应用的效果。有效实施数据质量管理对于任何需要进行一致数据分析的领域都是必不可少的,因为数据的质量对于获得准确和可操作的见解至关重要。具备数据清理功能,功能采用系统自动扫描清洗与人工干预相结合的模式进行数据清洗,自定义清洗规则,具备满足不同场景下的数据清洗方案和工具,数据清理过程中支持映射策略定义,界面操作友好。调度功能支持到秒级,支持同时调度上百个作业的能力。调度管理支持对所有数据处理任务、调度任务进行分级、分类别进行管理,并提供基于浏览器的管理界面。支持节点作业流量监控、节点作业日志查询、统计分析,并具备数据处理操作的日志记录功能,并且对日志具备分级、分模块输出的能力。3.授权及服务需求提供3年的软件升级和技术咨询服务,三年的免费运维服务。具体需求描述如下:平台技术需求产品设计应采用市场领先和成熟的技术,使系统具备较高程度的技术和思想领先性。系统具有较高的可管理性、可维护性和可配置性,集成于系统的管理平台,系统的设计中必须要考虑系统从安装到系统的配置以及日常维护都应提供友好的基于图形(GUI)的管理界面。同时为了提供良好的系统性能,系统需支持硬件资源水平扩展,水平扩展不是简单的累加服务器,系统性能就可以直接线必增加,需要在技术架构各层进行可水平扩展的设计,例如基于微服务架构和Docker云原生技术的架构。平台支持运行在主流的Windows、linux操作系统上稳定运行,包含且不限于redhat7.X,采用java生态相关技术组件,业务数据库支持oracle等主流数据库类型,JDK支持64位1.8.0_271及以上版本。平台支持在国产化软、硬件环境中运行,支持在飞腾CPU服务器上的银河麒麟操作系统2.14.2及以上版本、达梦数据库8.2及以上版本、东方通中间件6.1.5及以上版本、浏览器支持360极速浏览器(内核v78及以上版本)和客户端操作系统银河麒麟2.14.2及以上版本环境上稳定运行。平台支持通过浏览器访问报表平台,兼容IE9及以上浏览器,如chrome、safari、火狐等,系统需保证没有采用未签名的ActiveX或者其他类型控件。数据基础配置1、数据库连接管理支持多种数据库类型接入,包括但不限于,关系型数据库:PostgreSQL、oracle、阿里云RDSMysql版、SQLServer、SAPHana。国产数据库:达梦数据库、GaussDBDWS、openGauss、南大通用、KingbaseES、华宇ArteryBase、优炫。MPP数据库:Greenplum、Clickhouse。同时需支持管理与数据集成平台进行交互的的大数据,支持的大数据包括但不限于:Impala、Maxcompute、华为河图、Hive、Hbase、Petabase、星环Transwarp、HDFS、Kafka。2、其他类型数据连接管理支持导入以文件形式存储的数据,方便入库数据进行分析,可以创建文件数据源,管理非结构化文件,支持文件源类型包括但不限于:excel、txt、csv、db等。需支持获取业务系统提供的标准接口数据,将数据转化成规整的格式。支持添加各种API接口,将从接口中传递过来的数据存库,实现与其他业务系统的通过接口方式传输数据传输,支持标准API接口等。支持创建FTP、SFTP数据源,满足非结构化数据的查看和获取需求,以便后续数据共享提供更丰富的数据类型。3、数据源页面查询管理提供页面化数据源管理工具,可通过统一界面访问数据库连接中配置的所有数据源,并在页面上执行SQL查询等数据库操作,方便数据管理员快速操作查看各类数据。4、数据集管理支持在数据集中进行主题表定义、维表定义等数据建模工作。支持根据数据库表创建主题表、根据数据库标准创建主题表。维表支持单级维、代码层级维、通用维和螺旋维。支持定时更新维表数据。数据离线抽取数据交换应包括数据库表、文件、接口等多种方式,并且在抽取过程中可支持对数据的安全脱敏及加解密功能。同时离线抽取需支持大数据量的迁移、多张库表/文件的批量迁移,以提高抽取的工作效率。需要质检的数据,还应支持调用已配置的质检方案。1、数据输入输出表交换输入用于选择指定系统,可从系统数据库连接池中选择源表进行数据的抽取,从不同系统选择数据源以达到数据交换的目的,作为后续数据融合加工的数据来源。表交换输出用于将前置工作获取到的结果集,加载到目的系统的连接池的数据库表中。如果勾选临时表,交换任务执行结束后,应当删除掉临时表。同时需支持批量交换表,可选择一个或者多个连接池下的表,将其批量设置表名后交换到另外一个数据库中,或者批量交换到文件,选择一个或者多个连接池下的表,将其批量以TXT、EXCEL的文件格式输出。因Excel文件属于半结构数据,其的输入输出需增加更多可操作方式,如可对EXCEL的拆分格式进行设置,包括sheet页字,起始行和起始列,设置首行为字段行,明确EXCEL拆分的分割方式。中文字段转拼音首字母,在读取Excel文件时,字段名为中文,将自动转为拼音首字母。可对模板进行检查,模板检查会根据字段列表设置中的字段详情来对EXCEL文件进行检查,如果按照格式设置中的起始行,起始列读取到的字段个数与字段列表中的字段个数不一致,则检查不通过。也可选择字段,字段过滤可根据字段列表设置中的字段详情来对EXCEL文件中的字段进行过滤,如果按照格式设置中的起始行、起始列读取到的字段名称不与字段列表中的任何一个字段的字段名称(或字段标题)相同,则忽略该字段,如果所有字段都不相同,则忽略该文件。2、文件传输文件交换表输出是将数据源中对接到的文件目录下的文件交换到目标数据库中,可以读取服务器上的TXT/CSV等文本文件作为数据源,进行数据抽。现在越来越多的单位都会建立自己的大数据平台,大部分都会采用Hadoop生态组件进行架设,同时大数据平台要求能与其他业务系统数据、外部数据等进行数据之间交,所以HDFS数据的交换也需要支持。3、数据安全脱敏为有效规避敏感数据泄露,更好地管理数据,支持对指定数据字段进行安全脱敏处理,脱敏方式支持固定值替换、前后缀增补、数据模糊化、数据裁切、MD5处理、哈希处理、随机填充、偏移值加密等方式。4、数据安全加解密为保证数据传输的安全性,支持对选择的字段进行加密或解密,根据输出设置将字段进行输出。加解密算法支持国标要求的SM2、SM4。5、数据解析可通过页面配置,生成一个JSON串。配置对象至少包括对象,数组,字段和常量四种,可以将读取的JSON数据,推送到接收的http接口。支持通过选择接口数据源下的WSDL格式接口,读取接口返回结果,将结果保存到临时表的一个字段中,供后置数据加工使用。6、生成接口数据支持根据输入设置XML结构的数据。支持根据设置输出一个JSON串。7、大数据迁移支持对Hadoop、HDFS文件进行输入、输出、迁移。Hadoop文件输入组件可将本地文本文件输出到Hadoop目标表,如cdh、impala、petabase等。hadoop迁移组件可将关系型数据库(例如oralce,sqlserver)中的数据导入到Hadoop目标表,如:cdh、impala、petabase等。Hadoop输出组件可将经过处理后的数据写入Hadoop目标表,如:cdh、impala、petabase等。HDFS文件输入组件支持从文本文件中读取数据到任务中,与表输入组件一样作为输入端。HDFS文件输出组件支持将数据写入到文本文件中,与表输出组件一样作为输出端。8、批量数据交换支持多种组件进行批量数据交换。批量交换到表组件,选择一个或者多个连接池下的表,将其批量设置表名后交换到另外一个数据库中。批量交换到文件组件,选择一个或者多个连接池下的表,将其批量以TXT、EXCEL文件格式输出。9、数据质检方案调用支持数据处理与质量检查之间的联动管理,可调用并执行指定的质检方案,支持传递质检参数。支持输出所有质检结果表到后置组件。数据实时抽取1、数据库表实时抽取表流式输入作为实时表输入组件,将数据库数据实时向后输出。表流式输出组件作为输出源实现数据的输出,通过选取数据库连接池和库表来设置数据输出目标。2、Kafka实时抽取Kafka是一种高吞吐量的分布式发布订阅消息系统,以生产消费模式来生产和消费数据,Kafka发布环节由生产者进行消息采集和发布,Kafka本身提供消费者脚本来消费数据。在数据源中配置Kafka服务器,然后通过生产者组件可以实现将消息写入Kafka集群中,实现消息的生产。通过a消费组件从kafka服务器中获取数据,并将数据向后置组件输出。3、文件数据实时抽取利用实时文件输入组件实现文件信息实时的传输到数据库表中。通过实时文件输入组件,从文本文件中读取数据到任务中,和表输入组件一样作为输入端。支持利用实时文件输出组件对处理后的数据以文件形式保存在HDFS。4、脚本实时抽取目前在大数据处理这块,开源Hadoop很多组件提供了各种语言进行数据处理程序开发,一些大数据组件如SparkSQL也提供了基于SQL的方式进行数据查询处理方法,不同技术人员会使用不同的方式进行大数据处理。支持通过设置SQL语句,使用SQL语句进行数据的抽取。通过Groovy脚本组件可以直接支持写Java代码进行数据处理。5、日志数据实时抽取支持实时CDC日志单表同步组件,实时获取数据库日志里单个表的全量及增量变更数据。CDC实时抽取必须支持达梦、SqlServer、Oracle、PostGreSQL等主流数据库。支持通过实时CDC日志批量同步组件,实时获取单个数据库日志里多个表的全量及增量变更数据,同步到目标数据库。6、实时数据转换支持通过实时表达式组件,通过spark内置函数对实时数据进行一些简单处理。提供实时数据聚合,完成分组聚合功能,可通过指定分组字段,利用分组函数对数据进行处理,即可快速对数据进行聚合,并将聚合后的数据返给下游使用。7、实时数据清洗利用实时清洗组件进行数据采集落地前实时快速的清洗。对记录或字段进行清洗转换,由一堆可配置的清洗规则来完成对数据的清洗转换,完成实时数据过滤、字段内容清洗。8、实时数据预览支持实时数据预览,查看实时数据经过处理的数据变化。支持流程里面选择多组件、单组件输入输出的数据变化比对。支持任务里面含多个ETL流程的数据预览。可设置预览条数和超时时间。数据质量监测数据质量管理是指对数据生命周期的每个阶段(包括数据的获取、存储、共享、维护、应用和消亡)中可能出现的各类问题进行识别、度量、监控和预警等一系列管理活动。1、数据质量模型管理质量模型是用户进行数据质量分析的基本单元,支持通过可视化界面定义数据质量模型。支持在质量模型中添加质检规则,创建和执行质检方案,查看质检结果,对错误数据添加例外和智能修复。无法智能修复的数据,可发起数据整改,相关人员收到整改任务后,进行整改直至数据质量达到要求。2、数据质检规则配置支持界面化定义规则、流程管理等,无需技术人员编写SQL或程序代码,能够有效解决技术人员和业务人员理解不一致而产生的数据质量风险。定义的规则校验组件涵盖数据格式校验、数据范围校验、正则表达式、值域校验、字段值缺失、唯一性校验、记录数缺失、字段值比对等。3、数据质检过程监控支持一个质量模型下可创建多个质检方案,方案能够自动执行,并得出结果。支持按不同数据期、数据级次、主题表查看质量监控。支持查看质检结果表及对应库表。支持问题数据闭环流程处理,可基于工作流管理标准设计,用户能够通过图形化编辑器定义整改流程,实现将质量问题分发给数据责任人。整改后能够推动流程到审批环节,经审批通过后结束流程。4、数据质量分析支持实时监控企业数据质量现状,并进行图表化分析。并可在业务系统建设、数据仓库建设各重要阶段设置数据检查监控点,并能实现跨监控点、数据源的比较分析。支持数据生成后的质量监控、分析,可以人工线上处理。支持检查结果多种方式告警,包括站内信、Email、短信等,保证用户能够及时了解检查结果,避免重大问题的延误。需能够支持自动生成图文并茂的数据质量报告形式,将数据质量问题进行周期性说明,管理角色能够查看及对外发布。提供多种数据质量报告模板,根据质量监控情况定期自动生成质量报告,并可自定义分析报告。质量报告支持在线打印及导出为word、pdf、excel等。数据融合处理1、数据转换功能在数据融合的过程中,每一个软件对其后面的数据库的构架与数据的存储形式都是不相同的,这样就需要数据的转换了,转换功能应能支持多种方式。2、表达式转换通过函数表达式对前置组件各字段的数据进行转换处理,得到新的结果集数据。可支持在表达式组件中新增字段、删除或批量删除字段、调整字段位置、将所有字段属性中的匹配字符串批量替换成指定字符串,并支持丰富多样的数据转换函数。3、数据聚合数据聚合主要完成的是分组聚合功能,将输入的数据进行分组,利用分组函数对数据进行处理,最后将数据写入目标,类似于数据库的GROUP

BY操作。4、数据集合数据集合可以对2个或者多个表结构相同的源数据进行集合运算,支持并集(union&unionall)、交集(intersect)、差集(minus)的运算方式。5、数据连接用于实现将多个表进行连接,将连接后的结果输出。连接方式主要有以下几种:内连接、左连接、右连接、全连接,与数据库里表连接的方式类似,通过确定关联字段和关联条件,最后得到匹配连接后的结果集。连接的输入是两个以上,输出只有一个。6、数据过滤数据过滤功能是指在输入数据中进行筛选出需要的结果集合,最后装载到目标中去,类似于数据库的where操作。在确定完源和目标映射字段后,在过滤功能中可设置公式编辑区域可以编辑过滤表达式,完成对输入结果的过滤,满足条件的结果进行输出,对于满足不同条件的结果可以选择输出到不同的结果集中。过滤需分为简单过滤和自定义过滤两种。7、数据排序数据加工后的结果集,需支持按字段值升序或降序排列。8、数据行更新行更新用于处理行间数据,将某一行的前后几行数据来计算填充某列数据。该组件常用于计算累计行数据。9、计算字段根据条件字段和取值字段设置计算某条记录或某个字段是否输出。10、数据标识功能支持对输入数据新增列唯一标识字段,生成GUID,作为唯一标识,字段名称可编辑,字段类型为字符型。同时支持在输入数据新添加一个序号字段。序号支持设置起始值,依次递增。可设置字段类型与长度,类型包括字符串类型和数值类型。如果为字符型,将根据用户所选的长度,在序号前用0进行补齐,来保证排序。11、数据清洗功能数据清洗的方法应包括对字段级清洗和对数据记录级的清洗。在数据融合加工转换过程中,因多方原因需要对收集到的数据进行重新审查和校验,目的是提高数据质量,降低数据统计过程中发生错误的概率。数据清洗包括一系列的操作,如处理缺失值、删除重复项、数据归一化等,以确保数据的准确性和有效性。字段级清洗:主要是针对某个字段里面的内容进行相应的处理。例如对字段进行按分隔符拆分列、按前后分割符提取列、多个字段的合并,删除字段,智能匹配等。对字段的内容也可进行清洗,包括字符串填充、替换字符串、在指定位置添加字符、在字符串前后添加字符,删除字符串前后字符、删除指定数据的字符,删除字符/空格,数据舍位、空值替换等。同时需要对中文、数字、日期能做特殊处理,如身份证位数转换、阿拉伯中文数字转换、全角半角转换、日期时间字符串格式转换,时间戳转换为字符串等。记录级清洗:主要是进行数据过滤,例如按字段内容长度大小来对记录进行筛选、按字段内容大小(比较时按字典序)对记录进行筛选、根据字段字节长度对记录进行筛选。对记录去重,用于按制定关键字进行记录的重复性过滤,重复记录,默认保留第一条。对记录的随机抽取指定记录数。分组抽样是按指定字段分组,且组内按指定字段排序,每个分组都选取排在前面的指定条数的记录。12、采样统计功能数据采样需支持拆分采样、随机采样、基础采样、过采样、指定行采样。同时支持根据选择的字段分类统计,统计方法包括:空值、唯一值、最大值、最小值等。根据字段类型选择不同的统计方法,针对同一个字段也可以选择多个统计方式。可以批量勾选添加字段,可对每一个字段选择不同的统计方法。13、分析处理功能支持多种分析组件,例如哑变量:将不能定量分析的字符串类型数据,根据它的取值范围,转化为多列的0、

1数值矩阵,方便数据进行下一步的定量。选择的量化字段只能是字符型,其它的类型没有意义。归一化:可以简化计算,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量,便于不同单位或量级的指标能够进行比较和加权,解决数据指标之间的可比性问题。用于对数值型字段进行处理,处理方式为:新数据=(原数据-最小值)/(最大值-最小值)。标准化:将数据z-score标准化,经过处理后的数据均值为0,标准差为1,常用于机器学习中,如像素数据的处理。对数值型字段进行处理,处理方式为:新数据=(原数据-均值)/标准差。主成分:根据数据库表中选取指定字段来进行PCA计算,所选字段可以是数值型和字符型,当为数值型时,进行的是降维计算。但是当是字符型时,处理方法为把每一条数据当做一个维度来计算。14、行列转换功能行转列:可以进行添加修改分组字段,相同字段不能被重复添加。选择转换字段,会自动出现转换字段的值,并可通过“新增”“删除”对字段进行编辑。选择取值字段,会自动根据取值字段_转换值进行命名,可以人工修改。可点击预览可以查看效果。列转行:手动设置转换字段的名称和取值字段的名称,并选择转换字段后,会出现转换字段,需要手动设置转换值。点击预览,可以查看设置的效果。列转多行:可以将源表中的行记录的某列值,按分隔符的转换多行记录。15、数据仓库特色功能维度转换:可以将服务器中的层级维转化为通用维,生成一个新的维表。一致性维度:可以对源数据中的维字段进行统一编码,保证维度的一致性。周期快照:以具有规律性的、可预见的时间间隔来记录事实,是发现数据变化规律的重要方式。周期快照是将有缓慢变化的历史表转换成一定间隔周期的表,可对周期表结果进行分组查看中间缺失周期进行填充。拉链表:将前置输入的周期表转成拉链表,并根据当前设置的更新策略插入到选择的数据库表中。至少满足两种更新策略,一种是数据覆盖,会清空目标表,一种是插入更新,有对应的数据则更新,没有则添加。16、数据脚本功能SQL脚本:可以用来在数据交换过程中执行SQL语句,当需要做的数据处理不能使用已有组件完成时,可以选用此办法。存储过程脚本:可以用来在数据交换过程中调用存储过程做数据处理。Shell脚本:可以用来在数据交换过程中调用执行Shell命令。在脚本输入框中输入Shell命令。Gorrvy脚本:用于执行自定义的Java脚本。17、数据流程功能数据路由:可以完成对数据的分流,将符合分支条件的多个结果集,输出到多个目标表中,可定义默认分支,默认分支是指,前面的条件都走完了,剩下的会进到默认分支。数据分支:可以根据分支条件是否为真,来执行后需的数据交换过程组件,如果结果为true则执行,为false则不执行。数据校验:通过比较记录行数或使用自定义表达式来验证数据交换中的数据或流程,可以添加校验条件。数据运行监测1、任务流管理支持流程调试,如顺序执行、执行到功能,可以查看每步的执行状态、执行时长和执行结果集,同时面向开发人员设置了预装载机制和数据抽样加载,方便开发人员快速验证流程和脚本调试。支持基于时间或事件的调试机制,如:任意时间周期、文件到达、脚本事件等。调试设置支持cron表达式,调度设置能指定到月份、日期、小时、分钟的粒度,也支持按照星期的方式来进行计划任务的执行。同时设置调试的时间窗口,重调时间间隔等。2、实时调度管理常规实时调度主要是管理指对实时数据处理流程进行调度管理与监控,可监控任务的执行状态,对于异常中断的任务点击启动后可再次执行任务。事件管理分为库表监听和文件监听,在调度中用于触发调度的执行。库表监听以数据库表为监控对象,检测指定库表中的时间戳字段是否发生变化,发生变化则认定事件被触发,事件绑定的所有调度任务流将自动执行,文件监听是监听到文件存在时触发,在设置调度的时候选取事件驱动,用于控制调度的执行。在数据交换或者批处理过程中,往往很多时候输入输出端结构发生了变化,而在平台不能得到及时通知和告警,导致下次任务出现异常或者直接失败。需实现对输入输出源的某个表结构做了修改,新增和删除了一些字段,平台自动检测出来表结构变更信息,并发送消息给平台管理员进行处理。检测范围包括表结构或视图(字段类型、字段长度、新增字段、修改字段、删除字段)、FTP文件服务器(路径)、接口(返回格式、参数)。3、运行监控主要是为了方便管理、运行相关的数据脚本。通过图形化界面,更好的观察数据走向与脚本执行的步骤。任务调度配置可以按需设定需执行的任务是否启用、名称、执行周期、是否重试及重试的次数和时间间隔、执行集群节点等。同时可设置调度任务的通知消息,当选择通知消息为“异常时发送”或“运行时发送”时,可选择通知方式“邮件”或者“短信”。在实际项目的任务调度过程中,往往涉及到几十上百个抽取任务,这些任务在调度时会按照一定的顺序进行执行,当在执行其中一个中间任务出错时,后续任务会停止,此时需要进行调度任务重跑,一般的重跑机制会将整个调度任务从头开始跑,比较耗时,对于执行过的成功任务完全没有必要重跑,所以需要支持从任务报错的地方接着执行。4、监控中心支持对数据源、数据整合以及调度平台下的资源进行监控,可全局掌握资源运行状态。监控范围包括:数据源系统下各类型数据源的连通性。任务流调度、实施调度的启用/禁用个数统计。任务流调度、实时调度的执行、耗时、调度时间统计监控。任务流调度、交换任务、实时调度的异常情况统计监控。调度耗时预警监控。5、调度统计可针对定时调度、实时调度的执行运行情况按周期进行统计,包括执行过的调度总数、执行过的交换任务数、执行过的批处理任务数、异常任务数、成功任务数、执行中任务数、等待任务数。支持统计周期范围内调度运行执行的分布情况。支持针对定调度中包含交特定换任务组件的调度进行交换情况统计。可按交换任务的来源系统和目标系统进行统计,统计指定来源或目标系统节点下的库表、文件交换情况。支持对实时调度任务运行时的记录吞吐量和批吞吐量进行统计,包括记录吞吐量、批吞吐量。支持统计定时调度、实时调度执行异常的记录及次数排名。支持针对定调度中包含交特定换任务组件的调度进行交换异常情况统计。数据治理模块软件总体需求数据治理(DataGovernance)是组织中涉及数据使用的一整套管理行为。由于数据治理管理工作涉及数据从诞生到抽取到存储到应用的全生命周期,涉及数据相关的各业务部门,海洋减灾防灾工作要在互联网时代、大数据时代争得发展先机,必然要将提升数据治理作为管理工作的重点内容。由于信息系统建设的历程、路径各不相同,数据标准化程度也存在较大差异,制度建设和管理体制千差万别等条件的约束,提升数据质量必然是一个长期的过程。全社会数据可信流通需求带来的理论问题、技术问题、管理问题与评价问题,需要建立标准化、共识化、便捷化、持续化的平台化数据治理新体系。全社会数字化转型提升带来的理论问题、技术问题、管理问题与评价问题,需要建立前瞻性、落地性、实效性、敏捷性的创新型数据治理新实践,需要一套完整的数据治理软件,可以辅助全流程治理工作的开展。具体需求:想要释放数据的强大力量,必须提供准确、可靠、及时的数据。数据治理工具应能帮助进行有效管理数据,以避免因数据价值得不到很好体现而对造成负面影响,为提供更优质、更及时、更完整的数据,让其在业务管理和为民服务中脱颖而出,具体需求包括:采集各类系统库、抽取工具、分析产品等元数据信息,分析数据全生命周期血缘关系,全面掌控数据来龙去脉。通过软件平台可建设数据标准,制定统一标准。通过标准既能落标分析已建设系统的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论