版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、城市运行中心数据中台建设1.建设背景城市管理和服务是城市发展与变革的永恒主题。随着经济社会的 不断发展,传统的城市运营管理模式发现问题被动、信息传递缓慢、 管理手段粗放、管理效率低下等弊端突出显现,城市管理水平与城市 发展速度的不协调,严重制约了城市的发展步伐。为积极应对新形势和新挑战,党和政府采取了一系列重大举措, 全力推进现代信息技术的发展、融合和应用。习近平总书记在中央城 市工作会议上强调我国城市工作的核心指导思想是转变城市发展方 式,完善城市治理体系,提高城市治理能力,着力解决城市病等突出 问题,不断提升城市环境质量、人民生活质量、城市竞争力。党的十 九大报告明确提出形成“共建、共治、
2、共享”的现代社会治理格局, 提出要提高社会治理“社会化、法治化、智能化、专业化”水平。按照“平战结合、条块联动、资源整合、科技支撑”的城市运 营管理一体化新模式,通过对城市信息资源统一汇聚、挖掘分析,优 化城市公共资源,修正城市运行缺陷,实现城市治理模式突破、城市 服务模式突破、城市产业发展突破,形成城市运营管理体系。最终构 建经济社会发展成果和智能应用场景集中可视化展示,城市管理资源 高度整合、信息系统高度集成、部门联勤联动高度协同、上下贯通指 挥高度统一的城市运营管理平台,为城市管理者提供辅助决策,使现 代数字城市的运营管理更加科学化、精细化、智慧化。实现政府决策 科学化、社会治理精准化、
3、公共服务高效化的总体建设目标。数据中台是对数据治理与运营的共性能力沉淀,让数据用起来, 快速满足数据类应用的实现。它依托底层大数据存储和计算平台,服 务上层数据应用体系,快速实现数据资产化、资产服务化,缩短数据 与应用之间的距离,响应应用创新需求。满足数据开发与管理人员数 据集成、标准、建模、开发、标签、资产、服务各层次应用需求,提 高其生产力,缩短数据价值的萃取过程,提升数据价值提炼的能力。为各委办局后续在业务系统建设进行赋能,无需再建设数据中台,使 用本次项目建设的数据中台进行租户空间资源申请即可,实现一个中 台服务全市各领域、各部门。2.建设内容(-)大数据计算存储平台大数据计算存储平台
4、实现对资源的弹性化服务,计算资源弹性伸 缩、按需分配。通过建设基于大数据架构的计算存储平台实现全面扩 展数据采集、存储、计算和应用服务能力,满足未来城市级大数据中 心建设需求。大数据计算存储平台支持多租户、项目空间的管理模式,能够实 现数据物理集中逻辑隔离,为各部门开辟单独的逻辑数据隔离区,满 足未来市级各部门的数据计算开发、数据分析探索的需求。大数据计算存储平台要求融合分布式存储与计算、分布式数据仓 库以及互联网云计算服务等技术,以分布式计算服务的形式实现海量 数据的存储与处理。大数据存储计算需提供运维管理平台,能够更快 速的解决海量数据计算问题,支持多租户架构,具备多应用多实例并 发同时计
5、算并隔离应用数据和程序的能力,可以让多个用户在一套平 台上协同工作。大数据存储计算引擎需采用分布式架构,存储能力和计算能力支 持横向扩展,数据存储应采用分布式文件系统,支持多种存储格式, 提供高可靠性和高性能,要求支持列式存储,同时具备高压缩比能力。 大数据存储计算引擎要求支持与常见数据源如传统数据库、Hadoop、 HDFS和文件进行数据导入导出,以及流式数据导入。大数据存储计 算引擎要求基于统一的内存迭代计算架构,提供SQL、Giaph计算、 MapReduce,机器学习等多种数据处理接口和框架,需具有高吞吐高 性能的数据处理能力,要求提供SQL查询界面内置丰富的函数库。 建设内容主要包括
6、:多租户功能、运维管理、集群管理、服务中心、 数据处理能力、数据可用不可见等。1、分布式架构大数据存储计算引擎需提供基于大数据架构的分布式数据仓库, 全面整合各类数据,按照主题组织信息,构建智能数据核心,提供对 查询速度、并发度、扩展性的保障。2、多租户管理大数据存储计算引擎需支持多租户功能。实现面向不同业务单位 分配逻辑隔离、物理统一的计算资源与存储资源,供各业务部门开展 独立的大数据建设。让多个租户共用一个应用程序或运算环境。支持 采用租户一项目用户三级管理,实现平台为各委办局、各种专项事件 和工作提供租户空间供其使用。平台在单个租户内又可以根据不同的 业务部门创建不同的项目。每个租户中可
7、以有多个用户,同一个用户 可以到不同的项目中;同时租户内的用户可以分配不同的角色,不同 角色具有不同的操作权限。3、运维管理大数据存储计算引擎要求提供运维管理功能,运维管理应支持展 示当前的使用状况,显示系统的重要信息,包括且不限于集群服务器 数量、集群整体磁盘使用率、集群整体CPU使用率、主机概览、服 务概览、自定义监控项等内容。4、集群管理大数据存储计算引擎要求提供集群管理功能,集群管理要求支持 显示各个物理主机或虚拟主机的CPU使用率、磁盘使用率、内存使 用率、负载情况,包括实时图和趋势图;同时也要支持显示各个主机 的主机名、IP地址、操作系统、CPU核数、磁盘总量、已使用磁盘 量、内存
8、总量、平均负载、版本、组件等信息,支持实现开启、关闭、 重启组件以及主机删除功能。5、服务中心大数据存储计算引擎要求提供服务中心,服务中心应支持服务信 息概览、修改服务配置、服务日志查看、服务的启动和关闭等功能, 应支持系统的健康检测和冒烟测试等功能,便于运维时检测故障原因, 同时还应支持数据审计日志、操作审计日志、内部服务日志等功能, 便于事后回溯,服务中心还应支持硬件告警和服务告警等功能,告警 可以通过邮件的方式通知管理员。6、数据处理能力大数据存储计算引擎要求支持SQL、MapReduce、Giaph和机器 学习的数据处理能力。SQL数据处理应基于DAG (有向无环图)执 行模式和内存迭
9、代计算架构;MapReduce数据处理应提供基于开发语 言的编程接口; Giaph数据处理应提供类似Ptegel的APL并要求基 于RDD数据模型进行迭代;机器学习数据处理应提供常用的机器学 习算法库。7、数据可用不可见大数据存储计算引擎要求系统安全应具有用户访问认证,用户操 作鉴权以及所有操作记录审计日志的能力。在多租户的使用场景时, 应满足多用户协同、数据共享、数据保密和安全的需要,各部门的数 据要求存储在各租户资源之内,租户间资源隔离,默认情况下无法直 接跨部门访问数据,针对部署大数据平台下多租户间的数据交换时, 交换数据应不发生物理上的搬移,数据不搬家,让租户在分配的租户 空间内进行数
10、据的交换,以实现“数据可用不可见:(二)数据资源支撑平台数据资源支撑平台负责归集全市的数据资源,围绕人口综合库、 法人综合库建设基础库,并与现有地理信息库、信用库和电子证照库 打造城市基础数据库能力,在城市基础数据库之上构建专题库和专题 库。本次项目主要围绕城市态势感知、产业经济、公共安全建设专题 库以及城市运营所需的主题库/专题库。1、人口/法人综合库建设人口/法人综合库,以先前建设的人口/法人基础库为基础, 结合国家和省市要求和最新行业标准,持续归集各方数据,形成我市 新的人口/法人综合库。进一步完善人口、法人全生命周期管理模型, 实现人口、法人生命周期管理,并提供对人口、法人生命周期查询
11、等 服务。主要建设要求包括:(1)对人口、法人库进行升级,新增标签画像功能。支持人口、 法人标签全生命周期管理,提供基于标签的全景人口、法人查询服务, 构建面向人口、法人全生命周期的数据标签体系。(2)在对人口、法人标签管理方面,以监管和服务为目标,参 考各个部门的三定方案,当地的热点事件,当地的地理特点进行建模。 支撑标签的多维统计、标签动态展示。(3)以标签体系为基础构建人口、法人画像,通过可视化形象 展示人口、法人标签信息,支持对画像的查询、概览、详情等功能。(4)需支持人口、法人敏感数据的安全分级、分类管理,实现 数据的动态脱敏、加密的数据服务支撑。按照一定的分级原则对分类 后的政府数
12、据进行定级,从而为政府数据的开放和共享安全策略制定 提供支撑的过程。(5)提供人口、法人族谱管理功能,主要实现对人口、法人族 谱的创建、维护、展示、查询等功能。(6)人口、法人多维分析统计,需提供基于地域、时间等维度, 构建人口、法人的多维分析模型,提供结构分析、分布分析、趋势分 析等。人口综合库的应用而场景面向统计分析场景,提供指标计算模型包含:常住人口、流动人 口、迁入人口、迁出人口、出生人口、城镇人口、农村人口、男性人 口、女性人口、死亡人口、人口密度,每年净增人口。对实有人口数据进行挖掘分析,形成动态趋势分析图表,提供给 管理者决策分析支持。主要包括:人口规模分析模型、人口构成分析 模
13、型、人口年龄结构分析模型、年龄结构分析模型、人口性别分析模 型、人口出生分析模型、出生婴儿性别分析模型、人口死亡分析模型, 以及入学、就业、住房、婚育、养老等各层次的人口数据分析,同时 而向自然人亲缘关系,构建自然人家庭关系模型。法人综合库的应用面场景法人综合库需按照统一的数据标准规范,归集各单位各部门法人 相关数据,经过统一的清洗、处理、关联整合后,形成完整的、准确 的、标准的法人综合库。数据来源主要包括行政审批、质监、税务、 民政、人社、金融、供电等部门法人信息,形成法人基本信息、资本 资产信息、许可与荣誉、生产经营等主题分类。建设以统一社会信用 代码为唯一标识的完整、准确、鲜活的法人综合
14、数据库。提供法人统计分析:实现将法人单位基础信息的信息内容和服务 方式登记注册到相关政务信息资源共享平台的信息资源目录体系中, 各政务部门用户查询目录体系,获得法人单位基础信息的服务内容和 方式,通过相应的方式利用法人信息,社会公众通过网络访问方式利 用法人信息。包含:法人基础信息统计,行业分布统计,地区分布统 计,经济性质统计,经济类型统计,从业人员统计等。法人监管与服务:以服务全市经济社会发展大局、提升政务服务 水平、增强企业市场主体作用为导向,更好实现对企业的精准服务和 精准监管、推动营商环境持续优化。区别于传统人口库,本期建设的人口/法人综合库应具备以下新 特性要求:/整合政务全域人口
15、/法人数据/全系人口/法人标准体系/数据完整、准确、及时/完善的数据分层管理机制,快速实现业务模型加工/跨部门数据整合,支撑“数据多跑路,群众少跑路”的业务 创新/长效可运营的方式,按照实际需求构建人口/法人多层次数据分析模型人口/法人综合库构建需以数据为引擎、管理为手段、服务为载体 的生态化的数据模型体系。在数据模型在构建过程中,必须紧密结合 自然人核心数据特色建设,同时兼顾大数据整体的一致性和完整性的 考虑。2、电子证照库/信用库电子证照库/信用库己经有阶段性成果,将原有电子证照库/信用 库原有数据归集到城市运营管理平台,统一进行数据治理,提升数据 质量,做好数据分析展示和提供对外服务。3
16、、地理信息库己建设地理信息库,将现有的基础地理数据格式转换与入库,包 括二维、三维基础数据格式转换与入库,支撑各类数据展示。并根据 要求把人口、法人等数据上图分析,包括但不限于户籍人口、流动人 口、少数民族、国有企业、内资企业、外资企业、私营企业等内容。4、主题库/专题库基于基础库的建设成果,配合运管平台专题展示,围绕城市运行 所关注的维度,建设多个主题库/专题库,作为城市运营管理平台的数 据支撑。综合态势感知主题库主要包括:区域分布、城市经济、人口分布、 道路交通、生态环境、教育资源、产业资源。产业经济主题库主要包括:企业总量、从业人数规模、税收及增 加值贡献、人均产出及利润率效益产出等。公
17、共安全主题库本次主要重点建设生产安全、消防安全、交通安 全和治安安全。在现有的城市基础数据库基础上,本次项目需要构建民生服务、 环保、安全生产、交通、教育、旅游等主题库,并能够按照实际需求, 快速构建其他主题/专题库。(=)数据归集平台数据归集主要实现基础数据的采集和存储,先把数据存起来,成 为真正的数据或大量数据集中的数据资源中心。数据归集系统应提供 简单、易用的从数据归集逻辑的设计、开发、调试、部署,到运行、 管理、监控各个生命周期不同阶段的集成开发工具。通过数据归集系 统可实现对数据归集流程的开发和部署;要求支持通过监控和日志功 能,可实现对数据归集的运行过程进行实时监视。数据归集系统应
18、提供强健、高效的数据处理引擎,要求支持各种 复杂的数据转换流程、任务调度流程的高效运行。引擎应采取异步并 行处理的技术,以实现流程中的每个组件多线程并行高效处理;数据 归集系统应支持集群部署方式,允许将转换或转换中的比较耗时的数 据处理组件部署在多台服务器上并发执行,将转换的工作分摊到多台 服务器上,从而提高数据归集系统的数据处理效率。数据归集系统应提供Web形式的统一管理平台,可将分布式网 络环境中部署的数据归集系统服务器运行实例、运行在数据归集系统 服务内的任务流程集中统一管理监控。同时管理平台应提供丰富的管 理Rest API接口、方便的管理扩展机制,并支持对统一管理平台进行 集成并扩展
19、自定义插件。1、多数据源管理数据归集系统要求基于Java技术和标准数据库接口,要求支持 部署在多种主流操作系统和国产操作系统上,要求支持与各种主流数 据库、开源数据库、国产数据库的接入,比如:Oracle. MySQL. DB2. Teradata SQLServer、PostgreSQL、Sybase 等,并支持对各种结构化 /非结构化格式文件的读写,以及通过多种协议与其他应用系统的交 互,系统应支持与Hadoop平台的HDFS、Hive等组件的数据对接, 以全量或者增量的形式将业务平台的数据和大数据平台的数据进行 交换。并支持对各种结构化/非结构化格式文件的读写,以及通过多种 协议与其他应
20、用系统的交互。2、转换管理数据归集系统应提供大量的任务组件和转换组件,如多源的数据 合并、数据的路由、数据行列转换、数据库表查询、数据校验、循环 调度、流程告警、值映射、合并记录、数据计算、随机数、数据拆分、 数据生成、数据去重、数据分组、数据去重等复杂处理,要求支持通 过拖拽方式快速完成各种复杂的数据归集需求和集成的调度控制,无 需人工编码,快速构建数据归集应用。3、作业管理数据归集系统应支持作业管理功能,作业管理可在转换管理的基 础上,提供定时执行的服务。定时调度方式应至少包含:手动,按秒、 按分钟,按天,按周,按月,按年和实时。4、运维监控数据归集系统应支持运维监控功能,运维监控应支持实
21、时查看数 据归集系统上的每个节点的系统运行状况,从而在系统出现状况时能 快速的定位问题,例如:节点掉线、CPU运行过高、内存占用过高等 问题;通过数据统计和数据对账,可以查看各个转换、作业的数据数 统计等信息。5、系统管理数据归集系统应支持系统管理功能,系统管理应支持对数据源、 转换、作业等配置信息进行导入导出,支持下载或者查看日志,便于 分析和定位问题等,并可支持查看和导出相关日志,应支持管理配置 允许访问系统的IP列表。推送配置应支持对全局短息网关配置。6、权限管理数据归集系统应支持权限管理功能,权限管理应支持创建自定义 角色,通过自定义角色可给不同用户分配不同权限,实现权限的细化 管理。
22、处于安全考虑,不同用户之间的数据隔离。7、租户管理数据归集系统应支持租户管理功能,通过租户管理,应支持创建 不同租户和创建租户的数据源、转换、作业等资源,租户空间下的资 源对租户内的所有成员用户可见,不同租户的资源要求必须隔离。租 户内的用户应支持创建自己的数据源、转换、作业等私有资源,私有 资源对于租户的成员是不可见的。8、工具管理数据归集系统应支持工具管理功能,应支持批量作业、文件导入 等功能,批量作业应支持批量创建多表同步任务的场景,减少创建转 换和作业的工作量,实现快速同步任务的创建。数据采集主要内容包括:/市直单位、区县部门现有业务系统;/市直单位、区县部门未来新建业务系统;/现有已
23、建成的基础资源库,如人口库、法人、地理信息等;/现有已建成的主题资源库;同时要求在部门内部先对数据进行如下处理:整合规则配置:提供数据剔重、映射、转换、比对等数据整合规 则的动态配置功能。提供数据的关联和聚合处理功能,并能形成完整 的数据视图。数据转换:提供对数据格式、语义等不一致数据的数据转换功能, 为公共信息服务平台提供统一的、可识别、可处理的数据。提供主流的数据转换方法,包括字符串转换、字段赋值、数据比 对、数学运算、身份证格式转换等。提供数据比对可视化配置。数据稽核:提供数据比对、核对等数据稽核功能,确保入库的数 据准确性、完整性和一致性。查询统计:能够提供整合结果信息的查询统计功能。
24、与现有平台整合要求:已建政务信息资源共享开放平台,目前汇聚67个部门2400多个 数据目录、79亿余条结构化数据、200多个API服务,是政数据共享 开放的核心系统。此次建设的数据中台将汇聚全市各个委办局的各业务领域数据。 数据在数据中台重新进行数据汇集、治理、存储、开发建模、数据共 享等一系列数据治理过程。1、面临问题(1)数据的所属权共享开放平台上的数据是各个业务的原始数据,数据的所属权归 各业务单位。数据如果出现质量问题,需要原单位对数据进行修正。 数据中台上的数据是大数据局治理形成的数据,需要大数据局进行数 据的溯源,找到原因进行数据修正。(2)数据的原始属性共享开放平台上的数据属于原
25、始数据,数据中台上的贴源层的数 据也属于原始数据,到了主题层、专题层是加工过的数据。2、共享开放平台和数据中台的关系(1)共享开放平台是数据中台的一个核心数据源。作为政务业务数据共享交换的核心系统,市共享开放平台会长期 存在,不仅仅为其它各业务部门提供数据的共享交换,同时也为大数 据局提供共享交换,可以作为数据中台的数据来源的一个重要归集单 yc o(2)共享开放平台为数据中台提供数据开放服务。共享开放平台作为政务数据对外开放的核心系统,数据中台同样 会将一些治理后的数据通过共享开放平台对外开放。两者之间相互协 作,形成互相补充模式。数据治理是建设过程中至关重要的部分,面向大数据应用提供高 价
26、值数据支撑,确保大数据应用分析的准确性。数据治理面向用户提 供数据治理工具和数据管理工具,用户可通过该工具将汇聚到大数据 中心的“数据”转化为“价值信息”,让用户清晰地了解数据资产, 能像管理交换机、服务器一样管理数据资源,从而向大数据应用提供 正确的、高价值的数据保障大数据应用运行。数据治理系统通过对数据全生命周期、端到端的全链路透明化管 控,实现“数据模型标准化、数据关系脉络化、数据加工可视化、数 据质量度量化”,实现数据资产的统一管理及全业务流程的实时监控。大数据中心基本的数据治理包含对部门数据、基础库、主题库、 专题库的数据资源治理,支持依据具体业务场景驱动,开展数据治理 工作。通过数
27、据治理系统的建设和数据治理的实施,实现综合人口库、 综合法人库、电子证照库、信用库的数据规范性达标率99%,数据完 整性99%、数据准确性99%、数据一致性99%、数据时效性99%、 数据可访问性99%0数据治理包含数据数据标准管理、元数据管理、数据地图、数据 清洗、数据质量、系统管理等,在数据治理过程中提供一套成熟、稳 定的平台。1、功能特性(1)数据资产业务化管理:通过统一的术语表管理实现从业务 的视角对平台各类型数据实体进行分类管理,并支持各类无数据的全 文搜索,给用户提供平台活动和业务数据的全景视图,形成数据的业 务上下文,让数据的业务关系脉络变得更加清晰和容易理解;并且支 持将数据在
28、权限范围内以API、原始数据导出等不同方式交付。(2)数据分布和动态变化的实时跟踪:通过丰富直观的图形展 示数据的数量、分布、构成、来源、去向等关键信息,帮助用户从总 体角度把握数据分布情况和动态变化的趋势,了解数据的流向以及数 据之间的相互关系,供用户进行业务问题的溯源分析和影响分析。(3)按模型驱动进行数据整合:按主题类目对统一模型进行管 理和变化跟踪,实现流程化的模型驱动的多源数据的整合,保障按照 统一的模型来生成核心业务数据,并帮助用户从业务角度来管理、使 用数据,促进用户对数据业务含义的理解。(4)保障数据治理的标准规范性:通过对数据对象、代码、术 语、指标等定义和使用的标准化管理,
29、保障数据在处理环节的互通性, 加速实现数据的整合,促进数据质量的改进;并形成规范统一的业务 口径,提升业务规范性,消除歧义,使业务沟通更顺畅,并提升信息 共享度。(5)流程化的数据质量体系:从组织管理、流程、技术、日常 运维等角度,提供图形化的数据质量监控和清洗工具,帮助用户进行 全流程的数据质量监控和提升,建立全面的质量评分体系,实现流程 化的质量评估和绩效考核机制.(6)实现高效的数据集中:通过形成对大量数据源系统的集中 视图、开放灵活的源接口管理、高性能和高可靠的集成任务,安全保 障和来源可溯的目标数据的综合管理,帮助用户进行快速高效的数据 大集中。2、主要建设内容(1)数据标准管理数据
30、标准是一套符合市大数据项目实际建设要求,涵盖定义、操 作、应用多层次数据的标准化体系。数据标准的建立必须遵循一个统 一的标准进行组织,才能构成一个可流通、可共享的信息平台。数据标准管理涉及数据元、数据代码、常用规则的管理维护,主要建设要 求包括:/需提供数据元全生命周期管理配置功能。/需提供数据元版本差异核对功能。/需提供无数据关联关系建立功能。/需提供标准代码项对的导入导出功能。/需提供按照实际业务领域分类后,生成带有相关业务领域特 征的相关编码功能。/需提供对固定格式标准进行组合形成数据治理规则的功能。/需提供一套预置的常用数据治理规则。数据治理对标准的需求可以划分为两类,即基础性标准和应
31、用性 标准。基础性标准主要用于在不同系统间,形成信息的一致理解和统 一的坐标参照系统,是信息汇集、交换以及应用的基础,包括数据分 类与编码、数据字典、数字地图标准;应用性标准是为平台功能发挥 所涉及的各个环节,提供一定的标准规范,以保证信息的高效汇集和 交换,包括元数据标准、数据交换技术规范、数据传输协议、数据质 量标准等。数据分类与编码该类标准规定平台汇集、交换相关信息统一的分类系统和排列顺 序以及编码规则,目的是在不同系统和用户之间建立交通数据的一致 参照,对提高数据采集、处理和数据交换效率具有重要作用。数据分 类与编码标准的制定将有力推进平台标准化及交通信息化建设标准化的进程。数据字典针
32、对实际需求,定义数据集,建立各个领域的数据字典,规范数 据概念和数据定义。在此基础上,形成完备的数据集和数据字典。(2)元数据管理元数据是进行数据治理和运营的基础,通过集中的元数据服务, 采集各个组成模块的元数据进行集中管理,根据元数据的信息进行数 据的生命周期管理,获得数据的血缘信息及数据地图展现,基于无数 据还可以通过统一的门户方便各种角色的用户进行数据的管理和控 制。元数据是对数据中心所有维护数据的一个结构化的业务定义,主 要是对中心所有的库表的数据进行统一管理和监控,为数据的标准化 运维以及数据的质量检查等工作提供相关基础,主要建设要求如下:/需提供多种结构化数据源配置管理的能力。/需
33、提供对国内外主流的关系型数据库如Oiacle、MySQL、SQLServer 达梦、金仓等,以及 HBase、MongoDB 和 HIVE 等的支持。/需提供元数据的新增、结构管理、变更对比功能。/需提供对新增或采集的元数据进行自动化分析收录的功能。/需提供针对修改更新后的元数据结构进行数据库同步物化的 功能。/需提供全方位的元数据监控能力,包括无数据连接状态、数据结构、表、视图、索引等内容。元数据管理为数据集成、数据质量管理、数据加工整合、日常运 行维护、数据安全管理和业务应用提供基础能力支持。元数据管理覆 盖元数据采集、元数据存储、元数据浏览、元数据查询、元数据导入 导出等。(3)拖拽式数
34、据清洗转换能力提供可视化的数据清洗转换,托拉拽操作实现清洗转换功能。规 则组件包括去除空白字符、去除特定字符、大小写转换、数据脱敏、 汉语转拼音、同义词替换、身份证校验转换、身份证信息提取、日期 拆分、字符串截取、转换为字符串、转为Unix时间戳、全角半角转 换、多表合并、多列合并、拆分列、数据分组合并、空值填充、日期 标准化、电话号码清洗、分区标准化、历史拉链表、实时业务表和SQL 清洗等。数据治理人员在工作画板区域内拖拽各种清洗组件,形成数据清 洗工作流,从而方便快捷的完成数据清洗治理工作,并且对业务节点 进行试运行操作,避免因错误配置产生的大量系统负担。(4)数据地图数据地图面向数据开发
35、者,汇聚用户所有数据信息,通过无数据 信息收集、数据血缘探查、数据权限申请授权等手段,帮助完成数据 信息的收集和管理,解决数据开发者”有哪些数据可用“、到哪里可以 找到数据”的难题,并且提升数据资源的利用率,数据地图包含以下 功能:数据概览展示而向开发者和管理者的数据资产情况,展示当前总项目数、 总表数、占用存储量、消耗存储量,占用存储TOP排行等;数据表详情展示数据表的详细信息,如表字段信息、分区信息、数据产出信 息、变更历史、血缘信息。字段信息通过字段信息可以了解表的结构,甚至可以通过这些基础信息直 接获得表的DDL语句,以完成类似数据表结构的建设;分区信息当该数据表存在分区,即可了解通过
36、分区信息可以看到表的分区 情况,每个分区大小、数据量的波动情况,了解产出数据在数据量上 的稳定性。产出信息通过产出信息可以推断表产出时间的波动情况,在依赖该表时可 以推算下游表的产出时间及是否可以稳定产出。历史变更可以了解表级别、字段级别、分区级别的修改情况,从而推断表 结构稳定性、变化频率等特征。数据信息编辑对应数据表管理者可在数据表中,对不完整的数据资源信息进行 修改说明,完善业务信息上下文,让管理者和使用者能更清晰了解其 业务含义。(5) 数据血缘管理数据从源到目的地,经过大量的功能模块的处理和传递,呈现在 业务用户面前,很多时候需要对数据的来龙去脉进行分析。数据管理 平台通过无数据模块
37、以历史事实的方式记录每项数据的来源、处理过 程、应用对接情况等,记录了数据表在治理过程中的全链血缘关系, 基于这些血缘关系信息,可以轻松的进行影响分析,以数据流向为主 线的血缘追溯等功能,从而提升报表信息的可信度,为政务部门数据 的合规性提供验证手段,帮助业务部门实现信息共享、提升协调工作 效率。数据血缘分析在任务调度过程中非常重要,能够完整、清晰的展 现任务执行情况,当某个任务执行失败,立刻告警,并能够看到由于 该任务失败影响的范围,同时,向前追溯可能导致该任务失败的前置 任务,快速有效的帮助运维人员及时发现问题、处理问题、解决问题。用户可以根据数据库血缘清晰的查看数据的总体流向,支持库级、
38、 表级、字段级血缘分析。当选择了某个特定的数据表之后,就可以展 示与该表关联的所有表,而且还可以根据层级进行筛选,并且辅以展 示相关的统计信息。数据血缘需支持数据表之间的血缘、数据库之间的数据流向血缘、 数据处理任务血缘、工作流血缘等明细信息的展示。在展示数据血缘 信息时,还可以进一步查看数据表血缘明细信息,例如数据表之间是 通过什么处理生成的关系,包括处理的时间、类型、日志等相关信息。(6)多租户的数据治理数据治理支持多租户管理,各租户可独立完成数据的清洗治理, 租户之间的数据完全隔离。租户是用户进行数据治理的基本单位,通过多租户逻辑隔离的软 硬件资源共享机制,实现租户内的不同部门和用户的数
39、据安全管控体 系。(7)管理中心主要建设要求如下:,支持统计数据治理各模块实时数据、方案量,以及全流程业 务监控。/支持图形化统计数据接入量变化,数据清洗量,融合数据量 等。/支持从规范性、完整性、唯一性、时效性、一致性、安全性等 方面对当前质量情况进行评估,形成评估等级。,支持对系统中进行的治理内容进行全局图表化统计,形成报 告,可导出pdf 0,支持对历史的质量评估结果进行查看比对。(8)数据模型管理数据建模管理是面向数据仓库的模型建设,构建一款可视化的模 型设计、模型管理和模型监控的建模工具。主要建设要求包括:,支持对数据模型的分类进行管理和维护,支持模型分类的审 核管理。/需提供可视化
40、数据建模方式。,支持提供逻辑模型和物理库检测。,支持将通过检测的数据模型进行发布。/支持查看已发布数据模型的历史版本信息。,支持对数据模型根据实际业务需求进行开启和停止操作。/支持将模型数据物化到指定物理库中并采集相应无数据。,支持对于己发布版本的模型,可进行共享,供其他部门订阅 使用。(9)数据集成管理数据集成主要在数据治理平台承担数据管道作用,通过数据集成 实现不同业务数据的汇聚、数据中心基础库的清洗等流程,通过在线 简单灵活的可视化页面针对不同的数据汇聚、清洗流程进行配置建立, 平台直接对接调度底层的数据传输工具进行数据管道的打通;实现数 据集成建模与数据集成汇聚快速、高效流转的全过程。
41、主要建设要求 如下:提供数据集成中数据单元集模型配置,数据模型即为数据 集成中的数据单元集。提供数据集成过程中,不同元数据代码项之间的映射转换 功能,基本的数据格式验证以及任务调度配置。提供统计分析和多维度问题分析及排查功能,展现集成过 程中不符合方案中各字段清洗规则的异常数据结果。提供来源统计功能,包含各库表、字段的精确来源以及领 域快速筛选能力。(10)数据资产管理对数据整体分业务、分层分域、分类型等多角度对数据资产进行 盘点,注重基础库建模分析、元数据分类查询、数据标准规则查询、 数据集成流向分析,直观展示数据资产的统计分布情况,形成全方位 数据资产规模视图。供应商需提供:数据资产盘点、
42、数据血缘分析、 数据地图等功能。(11)数据采集管理提供数据从ODS层采集到归集库的业务功能,通过简单的操作, 可以完成数据的快速采集,并形成全量、增量的采集任务。需支持高 频数据的切片化采集方式,提高数据的处理效率。(12)数据清洗管理需提供将数据从归集库集成到标准层的集成配置和清洗规则配 置。(13)质检工单管理需提供质量工单管理功能。针对质检结果,如果有异常数据,通 过质检工单的方式向责任部门发送数据修正任务,数据责任部门接收 到工单后,根据数据工单的异常数据情况,重新归集数据后,完成质 检工单。3、数据模型管理数据建模管理是面向数据仓库的模型建设,构建一款可视化的模 型设计、模型管理和
43、模型监控的建模工具。主要建设要求包括:支持对数据模型的分类进行管理和维护,支持模型分类的审核管理。提供可视化数据建模方式。支持提供逻辑模型和物理库检测。支持将通过检测的数据模型进行发布。支持查看已发布数据模型的历史版本信息。支持对数据模型根据实际业务需求进行开启和停止操作。 支持将模型数据物化到指定物理库中并采集相应无数据。支持对于己发布版本的模型,可进行共享,供其他部门订 阅使用。4、数据质量管理高质量的数据也就是精确的、一致的和及时可用的数据,是大数 据平台不可缺少的一个因素。建立数据中台后需要识别与其决策制定 相关的数据,以便制定确保数据准确性和完全性,为其它应用和服务 的数据共享提供方
44、便。对数据流程设立信息采集点,包括建立模式化 的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过 程。数据资产质量评估是非实时性的定期或不定期对源或系统进行 的数据质量评价,由数据质量管理人员根据需要发起,根据评估指标 和评估方法,对数据质量进行评价,得到评估结果以作为数据质量改 进的参考和依据。经过数据质量的监控和评估,可以发现哪些数据是缺失的,哪些 数据是不准确的,哪些数据是不符合标准的,从而制定数据质量的改 进方案,制定数据清洗的规则,然后实施数据质量改进。数据质量监控是根据稽查规则进行数据稽查和规则校验,并依据 稽核和检查过程中发现的数据资产质量异常情况进行告警。为了保证 应
45、用采用数据的有效性,必须保证数据的正确性、真实性、完整性、 唯一性、一致性等特性,需要一套智能化、自动化的系统保证数据的 质量。监控规则数据质量监控支持灵活的规则配置,提供基础规则模板,拥有完 备的数据质量度量标准。模板提供如波动阈值比较、固定值比较等度 量方式,覆盖字段级、表级规则,包含空值、唯一值、离散值、最大 值、最小值、平均值、汇总值等规则。自定义规则支持自定义编写规则表达式,支持标准SQL形式的自定义规则 及UDF规则。并发可用型规则采集引擎支持可配的资源池,且支持水平扩展。此外,数据 质量提供可靠的容错机制,保障采集作业状态的一致性和正确性。智能优先级保障规则采集引擎执行层而,提供
46、优先级错峰保障机制,在资源有限 情况下,保障强规则的任务能够得到第一时间的执行,在资源空闲时, 弱规则的任务能够得到有效的执行。质量报警当出现质量问题触发规则时,对应负责人会收到相应的报警提示, 及时对数据质量进行处理优化。质量总览为数据质量管理人员提供监控总览情况,用户可展现目前数据质 量总体/个人所监控的表的总数、配置的规则总数和今日运行任务情 况的统计信息。对被监控对象进行相关维度的波动分析功能,实现对表波动检查 和字段波动检查。采用同比和环比等方式校验数据波动性,确认所传 数据从记录数目和数据量两个维度的总量和增量是否正确。如果在波 动检查过程中,发现和配置的检查规则不一致的情况时,提
47、交相应的 告警信息。提供对数据表字段空值率、合法率检查功能,能够统计生成数据 质量完整性和合法性评估报告,并支持下载。完整性评估:不完整比 率即空值字段占比,是指每张表的不完整列的比率,即不完整字段数 /字段总数。值域合法率:合法值数/有值总数。预置多种监控分析规则根据预定义规则对数据进行质量监控功能,从而保证系统所提供 数据的可用性与正确性。质量监控规则包括布尔分析、完整性分析、 标准值域分析、枚举值分析、数值分析、唯一性分析、数值分布、唯 一性分析、数值分布分析、外键检查分析、日期分析、日期范围分析。 针对数据库表可以调用上述质量监控规则进行数据质量监测。(五)数据开发平台数据开发平台主要
48、面向大数据业务分析人员、设计测试人员、业 务管理维护人员、数据集成商,为大数据平台集成和应用业务开发 部门提供一个快速、可靠、准确、可复用的业务开发生成环境,实现 大数据与行业领域知识高效融合,形成快速市场应用业务生成能力。 最终,建立支撑大数据应用业务的生态体系。通过数据分析模型化 的过程,具备3大统一、1大自动化理念。三大统一:大数据分析语言和分析工具的统一:集成了各类大数据分 析语言与分析工具,用不同类型的模型代替不同的语言和工具,形成 了多样化分析模型的统一大数据分析架构与平台。业务分析与实施过程的统一:形成了大数据分析过程的统 一流程化过程,将大数据分析工作的任务与从事人员通过统一的
49、流成 实现了大数据分析技术与行业领域知识高效融合和流程化管理模式。业务开发与管理维护的统一:通过统一的平台将大数据应 用业务的开发与业务管理进行了统一,便捷了业务的共享、管理与运 维。一大自动化:实现了分析逻辑,分析实现,测试验证,调度运行 运行结果数 据展示的自动化流程和模型的自动化解释、部署、环节准备与调度 运行关键环节,屏蔽了底层系统配置等对分析人员的可见性。1、数据开发主要功能数据开发平台需包含模型管理、模型可视化设计、基础模型管理 等开发模块,以及数据发现准备,元数据管理等管理模块。2、可据视化模型开发(模型设计)(1)提供多种大数据分析模型开发环境的支持支持单独的Mapreduce
50、大数据分析模型开发环境、Spark大数 据分析模型开发环境、Hive大数据分析开发环境、Sqoop大数据开 发环境、Elasticsaeich,等各类大数据组件的混合开发环境。也提供 可扩展的Java、Scala. Python程序程序块执行环境。因而支撑多 样化的分析业务与模型的混合开发。(2)平台支撑批处理Mapreduce和流式处理Spark双引擎。(3)可视化业务便捷开发提供Web化的可视化快速业务开发方式,支持多种大数据分析 模型开发环境,具备可视化的业务模型设计能力、可视化的数据查询 与运行结果数据查看能力。开发的大数据业务模型任务可以直接部署 到大数据基础运行环境上进行运行。开发
51、人员通过数据流模式的程 序设计功能建立一连串的数据流程图。完整的图形接口允许开发人员 使用GUI拖放功能来描绘出内部的数据流。多样性的功能模型、处 理语言模型、强大的调试排错功能以及允许使用扩展的外部java程 序代码和Scala PythonHive sqoop脚本的开放式基础扩展模 型都可让开发人员在设计时更得心应手。3、预设基础模型库数据开发平台须提供业界最为广泛流行的数据整合与分析模型AI的基础模型库,提供了大量内建模型与程序,至少包含单不限于 统计模型、数据转换模型、数据输入模型、数据输出模型、表分析模 型、分类模型、表查询模型、聚类模型、关联分析模型、时序分析模 型、推荐模型、回归
52、模型、机器学习模型、因子分析模型、采样算法、 决策方法、判别分析等类别模型,供开发人员选取使用。4、模型提交运行与日志跟踪提供模型提交预览与自动化模型解释、准备与运行功能,所设计 的模型可以直接提交给大数据运行环境进行运行。AI提供本地日志 查看功能,设计人员可以使用内建的日志功能来监视业务模型的工 作过程。您也可以将日志通过其接口输出到远端数据库,并直接使 用各种日程管理工具来监控数据处理任务。5、运行结果数据查看提供对模型运行结果直接查看的功能,方便业务开发人员对业务 模型进行验证、调优。6、模型管理与调度/资源管理(1)模型管理主要提供模型检索;模型信息查阅,模型元数据查看,运行日志 即
53、情况查看;对其他用户发布的模型进行使用模型申请;对其他用户 申请的模型使用进行审批;模型发布;模型类别配属等功能。(2)资源管理(我的资源库)对数据建模分析过程中需要用到的JDBC驱动程序,第三方Lib, ja包,流接口,私有模型插件进行管理。(3)调度规划提供了丰富灵活的模型运行调度规划策略,用户可以发起及时调 度、多种方案的定时调度和多种方案的周期任务调度规划。(4)调度监控系统提供了三级日志跟踪与查阅功能,可以对调度任务日志进行 详细跟踪与查看。同时提供了任务执行流程示意图,根据该示意图, 用户可以清晰的判断业务模型的执行情况,诊断执行问题,快速定位 模型问题并加以修正。(5)系统运维管
54、理提供界面化得系统运维管理。(6)自动化模型解释对不同类型的数据流程模型自动化的解释为大数据系统能 够识别的Mapreduce sqoop、hive R程序单元。(7)自动化模型运行环境准备自动化的完成模型运行环境准备、采用权限认证服务对模型运行 权限进行自动化认证,提交可运行任务调度请求。(8)第三方模型插件功能扩展系统是强大的开放式环境,基于插件架构,支撑大量的用户自 定义模型插件,用户自定义插件可以通过系统的基础模型管理功能对 自定义模型进行增添删除管理。(六)数据服务平台基于完善的安全控制机制和数据使用管理机制,整合全市各级各 应用系统和公共平台的数据及服务共享接口,将数据来源、数据分
55、析、 数据使用有机的串联起来进行统一的管理,提高数据管理能力,提升 管理质量,构建全市统一的数据服务平台。为了更有效的对数据进行控制,市政务服务体系是以服务接口方 式对各业务系统实现数据共享的。各政府部门可通过数据开放平台获 取数据资源服务,也可通过数据服务平台将服务接口应用提供给其他 业务系统进行调用。数据服务平台作为该流程的支撑平台,支持多种 类型的接口服务、支持第三方接口的转换、接口的生命周期管理及运 行情况监控等必要功能。1、系统主要功能(1)服务注册服务资源注册用于对外发布的服务接口首先需要进行注册管理。 系统提供API资源发布功能,部门用户可将可将本地数据资源包装 成API接口后自
56、行发布,也可将第三方数据接口重新包装后发布,服 务注册时需要登记该接口服务发布的服务接口标识、服务接口名称、 服务类别、服务分类信息、服务规范版本、输入参数信息、输出参数 信息、接口类型、共享等级、资源有效期、服务接口描述、服务接口 地址、允许请求范围等注册并编目后的服务接口可以在检索的界面中 按照类目分别展示,方便使用人员查找需要使用的服务。大数据中心 负责服务注册的审核工作。自助服务注册主要包括服务请求方注册和 服务接口的注册。服务请求方注册:在线登记注册服务请求方的相关描述信息:包括服务请求方标识、服务请求方名称、服务请求方简述、所属业务条 线、所属行政层级、所属应用系统类别、所属应用系
57、统名称、管理单 位名称、管理单位机构代码。服务接口注册:在线登记共享服务所遵循的服务规约相关描述信 息,包括:查询方法、输入参数、输出参数、约束参数等。在线登记 注册服务接口的相关描述信息:包括服务接口标识、服务接口名称、 服务类别、服务分类信息、服务规范版本、服务接口描述服务接口地 址、允许请求范围等。协议转换支持协议转换功能,支持将RESTfiil API、Soap、Dubbo等当 前主流协议转换为RESTfhL转换过程对用户透明,用户仅需要录入 真实服务信息,录入后由平台自动完成转换,并生成相应的API文 档。(3)服务审核系统提供审核功能可对服务请求方的请求信息进行审核,只有审 核确认
58、的用户,才可查看服务资源。系统提供服务资源审核功能,服务注册发布后,系统对服务接口 信息进行核查、审批,批准之后,服务才可发布,审核不通过的服务 退回重新修改。(4)服务授权系统对服务请求方、用户、资源进行了分级管理,支持服务以及 目录权限控制,通过服务权限控制实现服务授权。每个请求方预先设 定了等级,结合数据项等级,控制用户可访问和订阅的范围,可基于 行政层级、岗位、地域等进行授权。(5)服务发布系统发布的服务会选择发布的目录,通过发布目录来确认发布范 围,同时设置共享等级,根据共享等级来保证哪些申请方可以浏览订 阅该资源。通过对共享数据访问方式的控制以及数据颗粒度控制,服 务方实现对自身共
59、享数据的管理,即数据服务方在开放自己的数据服 务接口的同时,设定对资源的访问授权。同时为了实现对数据服务过 程的全记录,系统监控服务方每笔数据服务过程(6)服务目录通过目录管理系统对发布的服务接口进行编目管理,服务目录可 自动更新,并根据当前申请方和用户的授权范围查看可访问的服务资 源。服务会按照主题分类、发布单位等进行分类检索,并提供服务资 源名称、分类、服务资源描述、好评度、热度等信息。(7)服务订阅使用方通过平台找到感兴趣的资源后,发起订阅申请,经供应方 授权同意后,才有访问服务的权限。(8)认证机制提供免认证、Basic认证、Digest认证、Token认证四种认证机制 来阻止非法调用
60、,用户可根据业务需求自行选择认证方式。(9)服务限速支持从服务和应用两个维度进行限速,同时支持达到限速阈值后 邮件告警,以防止突发流量对用户真实服务造成冲击。(10)多维分析提供多维分析功能,用户可以从多个维度来查看服务的调用情况, 支持从服务维度、应用维度、管理者等维度来进行统计分析。(11)运维监控提供丰富的运维功能,支持查看集群状态、系统资源占用情况、 操作记录、系统日志、监控告警等信息,以便运维人员快速掌握平台 运行情况。2、数据表转服务的在线封装支持数据表转服务能力,支持根据主流关系型数据库的数据元信 息自动生成RESTfiilAPI功能,包括但不限于MySQL、Oracle和 Po
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024高考历史一轮复习第10讲近代西方民主政治的确立与发展学案含解析人民版
- 2024高考地理一轮复习第二章自然环境中的物质运动和能量交换第10讲气候类型教案湘教版
- 小学2024-2025学年度第二学期美育学科教研计划
- 2024年初中学校安全演练计划
- 看月亮科学教案5篇
- 市政管道施工质量控制措施
- 二零二五年航空航天零部件生产合作合同2篇
- 北京市丰台区2023-2024学年八年级上学期期末语文试题(原卷版)
- 广东省梅州市兴宁一中人教版2024-2025学年八年级上学期第一次月考英语试题
- 八上地理期中试卷分析
- 食品进驻超市的谈判计划书
- 物资到货验收流程与规范培训课件
- dcm法加固水下软基施工过程监控与质量控制
- 2024届河北省石家庄二中数学高一第二学期期末学业水平测试试题含解析
- 办公区域巡检与安全检查规定
- 宫颈癌筛查及预防讲课课件
- 履行法定义务纠正违法行为的模板
- 《跟单信用证统一惯例》UCP600中英文对照版
- 谈美谈美书简
- 2023年数学竞赛AMC8试卷(含答案)
- SMA分子检测进展
评论
0/150
提交评论