版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章项目概况 51.1项目名称 51.2项目单位 51.3项目建设依据 51.4项目建设内容和目标 6 61.5项目投资估算及建设周期 81.5.1项目投资估算 81.5.2服务周期 8第二章现状 92.1项目单位概况 92.1.1单位职责、内设及下属机构、 9 92.2信息化现状 92.2.1本单位或本领域信息化建设的整体框架规划或设想 2.2.2现有应用系统的情况 第三章项目的需求分析 3.1项目建设的背景 3.2项目建设的依据 3.2.1《XX公共数据和一网通办管理办法》(X府令9号) 3.2.2《XX加快推进数据治理促进公共数据应用实施方案》(X委办8号) 3.2.3《XX公共数据质量管理暂行办法(征求意见稿)》(X数函〔2019〕14号) 3.3项目建设的必要性 203.3.1业务现状、存在的具体问题和业务目标 3.4用户和业务流程分析 273.4.1用户分析 27 3.5平台性能需求分析 27 27 27 3.6业务量需求分析 3.6.1业务量分析 3.6.3数据存储部署资源分析 293.7硬件设备需求分析 303.8功能需求分析 303.8.1大数据底座 303.8.2数据采集子系统 313.8.3数据治理子系统 313.8.4数据资源中心 32 333.8.6门户子系统 343.8.7统一运维子系统 3.8.8数据安全管理子系统 3.9数据分析 353.9.2数据量分析 3.9.3信创适配分析 353.10满足应用的需要 35第四章项目建设方案 364.1建设目标 364.2总体架构 374.2.1总架构图 374.2.2平台架构关系 384.3建设内容 394.3.1大数据底座 404.3.2数据采集子系统 43 434.3.7统一运维子系统 44 444.4应用系统 444.4.1大数据底座 44 56 4.4.6门户子系统 4.4.7统一运维子系统 4.5配套实施工作(三清单一目录) 218 2184.5.2工作范围 218 2194.5.4梳理工作开展 2214.5.5梳理工作要求 4.6网络系统 4.7服务器和存储系统 2284.8系统软件 4.9信息安全保障方案 4.9.2各层级的安全策略设计 2304.9.3安全管理要求 2314.9.4应急保障预案 2324.10数据管理方案 4.10.1数据来源 2364.10.2数据更新机制 237 238 238 238 2395.3.1项目领导机构 241 242 246 第一章项目概况5.《XX公共数据资源开放2020年度工作计划(征求意见稿)》(20206.《<XX新型基础设施建设2020年重点工作计划>和<XX新型基础设本项目共投资1200万,计划2021年10月底前完成大数据资源平台(一期)的建设工作。项目投资金额共1200万元人民币,资金来源主要为区财政投入,全部申要求10个月内完成所有整体平台的需求调研及建设实施工作,保障2021 第二章现状 “大系统”“大系统”市公共赋能平台、市数据资源平台标准规范体系业务流程体系部门数据中台酸 根据现有应用系统情况的分析,本次拟建的大数据资源平台(一期)项目主据,也未有相关落地工作。本次的大数据资源平台(一期)以数据平台工具的角 2.2.4现有网络、设备以及其它信息资源情况根据调研情况了解,XX市大数据中心目前主要建有区级政务云,政务云有一个电信机房,网络拓扑图如下:S政务外网互联网前置机区城e前期数据总线部分所使用到的资源情况如下: 12348586置487器44.5、MVC4.08器494 第三章项目的需求分析 据资源平台(一期)的建设和运行管理。第十三条(大数据资源平台建设要求)区大数据资源平台(一期)应当与市第二十三条(数据整合)区主管部门应当依托大数据资源平台(一期),承 (X委办8号) 配合任务:1)建设统一的大数据资源平台(一期),形成公共数据交换、共 资源平台(一期),落实数据质量工作。公共管理和服务机构市本单位数据质量数据整合方面,区主管部门应当依托区大数据资源平台(一期),开展本区 平台,市、区、街镇开发相关应用,网格和社区(单位、楼宇 由主要领导牵头、信息化部门负责、业务部门参与的数据治理工作机制;开展各理相关工作;建立相应的考核、督查和评估机制,确保公推进。12号文中要求实现公共数据“应归尽归”,建立完善全市公共数据分层采集体系,各区开展基层业务数据、视频数据和物联数据的统一理,按需归集至市大数据资源平台中.平台。XX市大数据资源平台作为市区级联落地的重要支撑,为进一步满足XX大数据中心对区级大数据中心的考核工作及共享落地等工作。需形成XX市自己实现公共数据的管理不仅仅是通过平台工具的建设来完成,还需配套进行数据的相关运营服务,才可真正意义上实现对全区公共数据的全面管治任务。根据市里下发的各类数据运营相关报告可知,对于数据运营需覆盖数据治理、数据共享、数据开放、公共数据治理和大数据平台建设的任务,同时根据业务需要加强对综合库主题库等重点工作建设,根据该类任务的推进,各区级管理部门有必要建立对区内公共数据共享交换管理体系,以确保在市区级联工作中能够完成市里下发的各项考核要求。纵向的市区两级交换体系落实到了本区,而区内横向的数据服务(含管理、交换)需求则需要适应区内的政务资源情况与技术路线。因此,需要借助区政务云的基础设施资源、参考市级数据交换的体系,继续提升区内横向的数据共享交换能力,用以配合XX2015年10月,党的十八届五中全会正式提出“实施国家大数据战略,推进数据资源开放共享”.这表明中国已将大数据视作战略资源并上升为国家战略,2018年5月,习近平在向中国国际大数据产业博览会的致辞中指出,我们 本次项目旨在通过建设大数据资源平台(一期),搭建可承载市级大数据资标要求,对于区级大数据资源平台(一期)的建设需要在 中心的数据管理用户以及配合大数据资源平台(一期)建设的单位,具体包含75 登录系统时长<1s页面加载时长<3s页面响应最大时间<5s报表平均加载时间<5s 大数据存储机制都是3副本3*47T为141T。磁盘预留百分比(90%)=141T/0.9估算依据:根据第一轮线上问卷反馈的量19个部门,填写数据情况和是15T左右的数据量。杨浦现在有75个委办+12个街道,按照这个估算杨浦数据区级数据湖通过大数据资源平台(一期),与区内各部门业务应用系统、区 基础库、公共主题库、扩展主题库等),并为业务应用和终通过大数据资源平台(一期)提供的数据集成总线,对数据湖数据进行批量估算依据:杨浦当前数据总线的数据量7T,层为贴源层、清洗层、应用层预估总量37T,预估增量10T,预估硬故申请13台服务器,每个12T,供156T.节点分配,大数据管理节点2台,流处理3台,批处理8台。估算依据:根据第一轮线上问卷反馈的量19个部门,填写数据情况和是15T左右的数据量.杨浦现在有75个委办+12个街道,按照这个估算杨浦数据量60T左右。大数据存储机制都是3副本3*60T为180T。磁盘预留百分比(90%)故需新增申请17台服务器,每个12T,共204T。节点分配,新增大数据管理节点2台,新增流处理4台,新增批处理11台.>建设资源服务目录,实现Hadoop组件HDFS、Hive、HBase、Yarn及 当委办向大数据中心提出查询要求,需要通过申请审批完成数据资源分享,同意后,方可对委办开放查询服务,以满足委办对于某项或某类数据的需要。大数据中心对接委办的管理流程,委办提出需求需要查询某数据项,将在该理指标和数据,对云资源、应用和业务对象的性能数据警管理等,及时发现异常和潜在问题,对云管理运行过况等运维数据进行深入分析,保障大数据资源平台稳定、全、合理的分配。构建一站式数据资产可视化管理,实现对大数据资源平台应有完整的安全策略控制体系,通过流量监控、防火墙、内安全、高效和事件行为的可回溯性。大数据资源平台的安全能力,并通过对标准化解决方案进行定制化开发并与各组件集成实能力的全局赋能,包括统一的身份和权限管密和秘钥管理、统一的数据脱敏、统一的用户行为分析和数据安全态势感知。通据安全能力成熟度模型》和《政务信息共享数据安全技术要求》(送审稿)等数所有区级委办单位将直接作为数据源,汇聚至本次建设的区级平台中,各单>数据汇聚接入、数据交换用户 目前,数据汇聚接入、数据共享交换的服务对象,全区75个委办及12个大数据中心20个用户,厂商运维人员50,用户数预计400,根据目前业务发展情况预测,3年内用户规模预期达到600 第四章项目建设方案本次项目旨在通过建设大数据资源平台(一期),搭建可承载市级大数据资 群辩教属故安主群辩教属故安主中心平古数指定前化并发运证藏宽杨浦大数据资源平台基于基础设施(网络&技术&存储)、技术标准体系规范及信息安全保障体系建设数据支撑底座、数据交换、数据资源中心(基础及融合数据库)、数据整理治理、数据服务、数据分析、数据共享应用及数据资源门户模块,并实现与XX大数据资源平台的共享与交换。本次项目建设的总体架构如下图:市领导门户子数据共享子系统资源中心换换置录统一运统一运维子系统数据治理数据采集子系统数据源 技术标准体系规范信息安全保障体系统一运维平台数据安全管理平台-数地酒大發嘱底雕公者碧应用疆力疆整体格局: 数据使用单位数据使用单位数据管理与开发人员融合加工 >建设资源服务目录,实现Hadoop组件HDFS、Hive、HBase、Yarn及 面向特定领域专题应用的数据服务。一般由各自委办局自行开发建设,也可以根据实际情况由委办局委托大数据中心代建代运营。作为领域的专题数据,一般不作为支撑大型跨领域、跨行业的超级综合应用并向外部门提供数据服务,更安全管理和成功案例的快速复制,最大程度吸引外部服务基础平台,提供数据交换管理、自助数据探索、个性化推市场监管、城市管理、社会治理等领域探索开展公包含数据交换和服务管理,支持结构化库表在XX市大数据资源平台项目的基础上扩展功能。主要包括消息推送、数据建立数据开放门户:主要实现数据目录、数据接口、数据应用、数据图谱、将数据共享情况、数据归集情况进行统计分析后展示。可对填报、统计分析数据设置审批岗,对数据进行双重把关,对统计结果进行推送。KPI指标监控、监控指标预警信息及时推送、数据钻取,实现由粗-细,切换维度的数据分析、可当委办向大数据中心提出查询要求,需要通过申请审批完成数据资源分享, 大数据基础平台(DP),实现统一的资源分配,应用管理及为数据治理提供了标准化的产品和服务。障大数据集群的合理部署和不断优化,达到充分利用资源的目的。集群管控运营(CM)以多租户管理核心,面向企业实现大数据集群资源管控,实现大数据平台的租户能力开放管理能力。流处理引擎(SP)实现统一的实时数据接人、分析处理、分发订阅,全面保障实时的业务场景开发。关联检索引擎(SP)建立丰富的索引,多样化的查询接口,支持各种结构化业务数据解析,能够为更多的用户,丰富的数据类型,为多样化的业务提供通用数据检素服务能力开放接口来建数据检素服务多集群管理服务/工具管理能力开放平台内核平台管理大数据组件容器化洞察能力洞察内核 大数据基础平台列式数据库运维管理由NameNode(管理者)和多个DataNode(工作者)组成。NameN是说,他们之间相互独立且不需要互相协调,各自分工,管理自己的区域。增加多备用集群管理风险。引入了纠删码技术(ErasureCoding),与三副本策略相比,提高50%以上 4.4.1.1.2资源管理在hadoop中每个应用程序被表示成一个作业,每个作业又被分成多个任务。态监控和任务调度等.TaskTracker是JobTracker和Task之间的桥梁:一方面,从 (ResourceManager)和每个应用程序的应用程序管理器(ApplicationMaster).4.4.1.1.3批量处理 单个用户或用户组进行设置,然后在Hadoop中执行。安全管理员也可以使用Apache 集群日志YARN平台审计 构建树形多租户模型,逐级管理适配不同的管理模式。支持租户的生命周期管理,实户需求后,租户提供访问能力。实现租户成员功能,实现RBAC(RoleBasedAccessControl,基于角色的访问控制)的方式来实现用户的权限管控。当一个用户登录后,通过给用户在制定租户上分配一个角色,可以实现用户在租户上的授权操作。服务管理功能为集群管控的核心功能,实现大数据平台的资源分配及线上申请两种模式。租户管理员可以可根据子租户租户需求分配资源。子租户也可根据自身的需求提出申要该服务时,可以删除该服务。在租户资源分配后,租户管理员可根据需求创建服务实例,服务实例的资源配额不能超过该租户的资源额度。租户管理员可以直接创建该租户的服务实例,租户成员创建实例需要首先提出申请。服务实例创建后,根据需求需要变更实例。租户成员需要提出申请,租户管理员审批通过后,实例变更生效。租户管理员或者成员均可删除该实例。删除实例时要做风险提示,删除后该实例物理删除,需要慎重操作. 支持数据库的细粒度权限管理,实现表、列队列支持对Kafka实例主题的权限管理,实现支持对Hbase的命名空间的细粒度权限管理,支持表、列簇、队列实时开发管理实时开发管理实时分析处理实时数据交换实时数据服务 4.4.1.4.2实时流数据分析处理4.4.1.4.4实时任务监控及告警4.4.1.5关联检索引擎 系统管理能力开放接口创建 4.4.1.5.3高效且多维的数据查询4.4.1.6对接工作数据治理子平台数据共享交换子平台配合网络监控、操作系统监控、平台监控、 库到库是指各委办局开放前置节点的数据库,通过在大首次数据抽取将采用全量抽取方式,之后采用定时类似于数据迁移或数据复制,它将数据源中的表数据原封不源表对增量表数据进行标记的方式,来捕获数据的增删改操作 布,支持Hive类型. 长度探查。深度探查有:标准规则(数据标准)、业务规则(udf函数规则)、正
制定质量监控的详细规则,包括数据量的一致性、数据提供整体数据表处理情况的预览,包括整体数据质量情提供默认的规则模板,用户也可以自主编写规则表达式。数 各类规则发现问题数和规则问题率排名(此规则为规则配置中配置的规则).各表问题数排名和各表问题率排名(按表查看检查后的数据)■支持指标看板,实时呈现在线业务关键指标,掌握全平业务链路,主要展示所有已开启监控的数据业务链路的运行情 结构与源系统保持一致的增量数据。汇聚业务系统源头数据。也是ETL加工操作型数据,指结构与源系统保持一致的全量数据。采用双表设计存储,标准表做了标准化数据清洗,如证件类型代码标准化。原始表满足溯源及源系统数据DataWarehouseDetail,数据仓库明细层数据(对应人口库、法人库、空间地理库).对数据按人口、法人、空间地理三大基础数据域进行分类,整合,清洗,DataWarehouseSubject,数据仓库主题数据层(对应本项目主题及专题库).按分析对象对实体进行数据整合,轻度汇总,算法标签。面向应用提供智能数据服是浮点数则使用double,默认使用bigint。DWD层引用ODS层数据,默认使用O分区命名规范所有层次数据表的时间分区字段均命名为dt.小时:yyyymmddhh日: 政区划)。分区标识不分区日增量日全量◆时间修饰规范_3d最近180天 日__日日日ODS层每张表设计dw_status:数据状态,I,D,U分别对应增加、删除和修改ETL加工阶段,针对字段后出现空字符‘’统一转换为NETL加工阶段,针对字段后出现“NULL”字符串根据业务处理需要把数据生产在中间临时中,然后在生成结果数据。因此临时 字段名与ODPS关键字冲突时处理规则:加一个”_col”后缀,即:源字段名 对于属性及数据量不大的事务数据,设置有原始格式及标准化格式的全量表。原始格式全量数据表生成:按业务主键对STG表数据与前一天ODS未清洗标准化格式数据表生成:需要基于原始格式数据表或增量STG表,做以下处段及标准代码字段均保留,不能转换成标准代码的代码值在标时间标准化,扩充按datetime类 DWD层规范 0中华人民共和国居民身份证12护照34567临时身份证89回乡证驾驶证数据元名称数据元名称0未知的性别2女 130天230天3456临时表1天7临时文件1天拟定接入市大数据中心数据,共涉及10个委办,20个场景,100多张表。 数据治理将分散、多样化的数据通过汇集、标量进行全面的提升和监控,形成城市大数据的管理据治理体系,持续不断的挖掘和提升数据的应用价全生命周期、端到端的全链路透明化管控,实现“络化、数据加工可视化、数据质量度量化”,实现数据资产的统一管理及全业务数据治理就是将数据转化为资产的手段和方法,采用具,以分布式存储和运算为基础,通过人工智能和机器学习技术,辅之以适量的市大数据资源平台的应用建设目标,包含数据地图保护伞以及安全卫士,提供全面的数据治理能力,提供数据据标准化、数据转换、数据关联、数据比对等方面服务。在数据打通过程中,同 大数据治理方法论大数据治理方法论提炼抽象形成识方法手段汇聚融合服务业务档第一阶段:数据汇聚,融合管理从政务办公网、感知网、社会协同单位收集各类数据,形成大数据中心的数据基础,并对汇集的原始数据开展基于数据管理和业务视角的治理及应用工作。基于数据管理视角,对业务元数据、技术元数据进行集中采集和管理,从站位全局服务XX市大数据创新应用的角度梳理大数据资产,构建数据资源目录和数据资产管理应用,达到数据资源的规范化和可视化;汇聚后的原始数据仍处于零散、不可直接使用的状态,为数据使用者提供一站式的集成开发环境,从而满足数据资源平台下,数据开发者进行ETL开发、数据挖掘算法开发、数据主题库建设等需求;对数据融合处理的全过程通过质量管理工具进行管理监测,保障数据质量;因政府数据的机密性、高敏感性等特点,需对数据资源层中各数据项进行安全上的分类分级,确保数据使用合理、安全可控。基于业务应用视角,对汇聚的基础数据开展模型治理,通过数据清洗加工、基于业务背景及要求的处理加工、以及面向应用专题场景的开发,依次构建整合数据资源层、主题数据资源层、应用数据资源层,形成指标口径一致、统存统用的大数据资源层。第二阶段:基于数据,提炼抽象信息,形成知识因政务大数据涉及的来源广泛、数据采集背景及方法多样甚至特殊、复杂,导致因不同的汇集场景等因素,各个实体对象往往存在多个ID,需要对ID间关系做计算,通过IDMapping,建立ID和实体人/物间的关系,从而串联起实体人/物的属性/行为信息。 基于业务需求引导和对数据资源信息的价值梳理,对数据进行进一步提炼加工和算法计算,将数据标签化,构建基础库,支撑专题应用库建设,并通过标签中心产品对用户及开发者开放。第三阶段:构建应用,服务业务按照业务场景需求,将基础库、主题库和专题库等进一步组合利用,可构建起各类业务创新应用,如监控大屏、全息画像、预警中心等应用。通过数据服务平台,可以把数据和标签在线服务化提供给开发者和用户.中心管理员(实施人员)准
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年版协议责任免除规范格式一
- 2024年施工安全管理同盟协议2篇
- 2024年桶装水销售与社区团购合作协议范本3篇
- 2024年服务行业费用分配合作协议范本版B版
- 2024版健康医疗服务机构合作协议范本3篇
- 2024年度旅游地产转让合同补充协议及执行细则3篇
- 2024年橱柜行业绿色供应链管理合同范本2篇
- 排水防涝设施改造提升项目初步设计
- 促进医养结合服务高质量发展的探索与路径方案
- 内蒙古经贸外语职业学院《护理理论》2023-2024学年第一学期期末试卷
- 中国饮食文化智慧树知到期末考试答案2024年
- 音乐技能综合实训智慧树知到期末考试答案2024年
- MOOC 饲料毒物学-华中农业大学 中国大学慕课答案
- 第五单元《京腔昆韵》-欣赏 ☆姹紫嫣红 课件- 2023-2024学年人音版初中音乐八年级下册
- 中小学校园交通安全常识宣传
- 商业摄影智慧树知到期末考试答案2024年
- 国家粮食和物资储备局招聘考试试题及答案
- JTG F90-2015 公路工程施工安全技术规范
- 松果体区肿瘤护理
- 《施工现场安全防护标准化防高坠篇》测试附有答案
- 血管瘤护理措施
评论
0/150
提交评论