大数据平台建设项目可行性方案_第1页
大数据平台建设项目可行性方案_第2页
大数据平台建设项目可行性方案_第3页
大数据平台建设项目可行性方案_第4页
大数据平台建设项目可行性方案_第5页
已阅读5页,还剩465页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据平台建设项目可行性方案大数据平台建设方案第一章项目概况8 8 9 9 11 12 12 13 16 17 19 20 21 22 28 28 28 29 29 29 30 31 33 35 36 36 36 38 39 41 41 43 45 46 46 47 56 58 61 65 73 73 79 81 85 90 93 98 105 109 116 116 122 140 141 150 156 158 164 166 172 174 200 200 201 202 203 204 205 206 209 220 228 237 238 248 248 250 251 253 253 254 255 256 257 258 大数据平台建设方案1.3项目建设依据大数据平台建设方案1.4项目建设内容和目标1.4.1建设内容对于本次公共大数据资源平台的建设,将按照“总续依托基础平台的建设成果,逐步完善丰富公共本次公共大数据资源平台建设项目将围绕和遵循Y区智慧城市建设总体统筹规划思想的指导下,按照H市大数据中心对市区两级大数据资源平台建设统一标准规范的要求下,以实际需求为导向,搭建Y区大数据资源平台,加快推按需实现共享交换,逐步构建形成Y区公共数据汇聚、整合、共享、应用、展示、评价为“六位一体”的大数据资源体系,并通过构建Y区数据基础库、专题库和主题库为核心的数据资产,充分挖掘与发挥数据应用价值,构建数据集成、数据共享、数据管理、数据决策的综合管理服务体系,确保大数据平台全面支撑Y区公共数据协同服务、城区管理协同服务、惠民数据协同服务和兴业数据协同服务,实现全区的业务数据闭环,为全区经济建设、规划布局,城市1)聚:推进与市级人口、法人、空间地理库的数据集成,促进对接利用;逐步推进视频数据、物联数据以及基层业务数据等采集汇聚;逐步2)管:构建一站式数据资产管理平台,通过与市级数据平台级联实现区内上报数据的落地,结合区内情况进行本地数据资产目录的管理,形成对数据的3)通:实现基于应用场景的数据资源授权管理机制,推动公共数据按需充4)用:开展主题数据库建设,推动数据资源整合及数据分析应用。开展数据应用模型及算法研究,探索数据服务模式创新;推进区级跨部门数据智能应大数据平台建设方案5)安:打造整体安全管控体系,保证平台上政务数据在数据汇聚、数据管1.4.2建设目标管理平台并实现基础功能架构,出台相关管理办法,支据共享需求;建立大数据资源中心,完成标准化数据仓及融合数据库,为全区的政务处理、经济发展、社会民l建设统一的大数据资源管理与应用平台:建设包含数据支撑底座、数据采集子系统、数据治理子系统、数据资源中心、数据共享子系统、统一运维子系统、数据安全管理子系统以及门户子系统为核心功能的l启动Y区大数据资源中心建设:完成标准化数据仓库的设计与规划建设,并完成与区各委办业务与管理系统,汇聚各类业务数据,构建Yl在Y区资源中心数据湖基础上,建设基础数据库,包括人口综合库、法人综合库、电子证照库以及地理空间库,为全区各政务部门提供人l在Y区资源中心数据湖以及基础库的基础上,持续深入大数据资源的l建立统一的ZF数据信息资源目录,建立动态更新机制,明确全区各部门可向其他ZF机构共享的公共数据,建立全区统一的数据交换共享平台及数据中心,对上对下实现垂直共享,横向打通各部门间的数据交1.5项目投资估算及建设周期本项目共投资XXX万,计划2022年10月底前完成公共大数据资源平台的1.5.1项目投资估算项目投资金额共XXX万元人民币,资金来源主要为区财政投入,全部申请1.5.2服务周期要求10个月内完成所有整体平台的需求调研及建设实施工作,保障2022大数据平台建设方案2.1项目单位概况2.1.1单位职责、内设及下属机构、人员编制和业务情况2.1.2拟建项目与项目单位职责、业务的关系2.2信息化现状Y区大数据中心在前期政务云相关各项目建设过程中,已基本完成全区政务外网系统的100%迁移上云,各上云单位的业务系统数据已根据各自条线管理上级单位要求进行上报,区级层面的三清单和数据资源目录梳理工作并未持续稳定的开展。根据市级大数据中心的建设规划及近年下发的各类政策文件要求,已逐步提出对区级数据管理部门的工作考核任务要求,其中提出市区级联的推进、数据治理和数据共享的执行情况,但未建设配套体系的数据资目前Y区在政务云运营项目中,采购配置有一套数据总线工具,实现基本区溯源、数据集管理、数据运营管理等均未进行相应的功能或工作执行,从而导致2.2.1本单位或本领域信息化建设的整体框架规划或设想对于Y区大数据中心具有整体信息化指导意义的主要为市大数据中心的建设规划,而目前市大数据中心已有关于政务云和市政务信息系统总体架构在市电子政务云,市数据资源平台和市公共赋能平大数据平台建设方案为全市信息系统建设框架的基础支撑平台,支撑全市政务信息系统的数据资源的2.2.2现有应用系统的情况流程审批、任务管理、数据表管理、数据源管理、监控告警、租户管理、安全组管理、离线任务等功能。所管理的数据为市级人口库和法人库相关数据,对于横向的区级委办单位的数据采集未进行建设,对于其他市级所汇聚的业务条线侧数2.2.3拟建项目与已有系统的关系根据现有应用系统情况的分析,本次拟建的公共大数据资源平台项目主要着重于区级公共数据的相关采集、治理、共享功能,与现有政务云运营服务项目中的数据总线建设相关。政务云运营服务项目主要为政务云的配套建设,是对基础设施层的资源分配和使用提供支撑服务,而本次平台主要围绕数据层,即为利用基础设施层的资源基础,搭建数据层的平台建设,故已有项目是本次项目建设的其中数据总线包括资源管理、API市场、流程审批、任务管理、数据表管理、数据源管理、监控告警、租户管理、安全组管理、离线任务等功能,通过数据产品实现建设,目前所管理的数据仅为市级人口库和法人库相关数据,对于横向的大数据平台建设方案区级委办单位的数据采集未进行建设,对于其他市级所汇聚的业务条线侧数据,本次拟建项目在Y区政务云上申请资源,在数据总线系统基础上进行重建,现在的系统基本可以满足扩建需要,目前业务流程处于线下运转,上线新数据资源平台后把该有的流程正规化。数据总线系统是基础设施层的资源基础,对于横向的区级委办单位的数据采集未进行建设,对于其他市级所汇聚的业务条线侧数据,也未有相关落地工作。本次的公共大数据资源平台以数据平台工具的角度出发进行区级公共数据的建设工作。实现数据资源管理、数据资源申请、市数据资源申请、区资源申请、目录管理、数据归集、三清单管理、基础信息维护、指标2.2.4现有网络、设备以及其它信息资源情况根据调研情况了解,Y区大数据中心目前主要建有区级政务云,政务云有一个大数据平台建设方案大数据平台建设方案3.1项目建设的背景在公共数据管理和互联网政务服务方面采取了一系列改革举措,积累了一定的实践经验,同时也面临一些困难和问题。根据《H市公共数据和一网通办管理办法》要求,需要进一步促进公共数据资源整合和利用,推进政务服务“一网通办”等加快推进数据治理促进公共数据应用实施方案》要求,2020年要全面建成贯穿数据全生命周期的大数据资源平台,基本形成覆盖全市地域、全行业领域的城市大数据枢纽,基本形成标准规范、开放竞争的H市为建设卓越全球城市,实现ZF治理能力现代化目标,由市大数据中心牵头,在公共数据管理和互联网政务服务方面采取了一系列的实践工作。包括建立统一的公共数据平台,全面实现H市政务“一网通办”,深入推进“放管服”改革,持续优化营商环境,切实提升群众和企业获得感的重要举措。同时市委市ZF体协同、高效运行、精准服务、科学管理的智慧ZF基本框架。根据《H市公共数据和一网通办管理办法》要求,前期已在“一网通办”的政务服务领域进行了信息化项目建设,在提升了ZF治理能力和公共服务水平的同时,也产生了汇聚全市针对全市公共数据的管理方式和管理要求,市里已下发多份文件,明确将该项管理工作作为考核要求提出,并将实际工作下发给各区要求配合完成。Y区大数据中心作为区级的数据管理部门,承担着政策本地化落实、政务数据交换、信息化建设运维以及其他数据相关的工作职责,中心独立挂牌意味着需进一步根据市级要求及区里信息化发展方向,完成以政务数据交换共享为核心的实践,成为全区政务数据的“枢纽中转分中心”,为“一网通办、一网统管”两网建设提供有力支撑,从而辅助市级平台支撑各城市管理大数据平台建设方案3.2项目建设的依据3.2.1《H市公共数据和一网通办管理办法》第八条(发展规划)区主管部门应当根据市级发展规划,制定本区公共数据第十条(基础设施)区主管部门负责本区电子政务外网、电子政务云、公共第十三条(大数据资源平台建设要求)区公共大数据资源平台应当与市大数第十七条(资源目录)区主管部门可以根据实际需要,对本区内未纳入全市第二十二条(数据校核确认)市级责任部门应当直接汇聚本系统公共数据;涉及区公共服务和管理机构采集的公共数据,且无法实现直接汇聚的,由区主管第二十三条(数据整合)区主管部门应当依托公共大数据资源平台,承接市第二十五条(共享交换方式)市大数据中心应当依托市大数据资源平台,建设统一的共享交换子平台,通过市、区两级部署,实现公共管理和服务机构之间第四十条(主管部门安全管理职责)市ZF办公厅和区主管部门应当编制本制定并督促落实公共数据和电子政务安全管理制度,协调处理重大公共数据和电3.2.2《H市加快推进数据治理促进公共数据应用实施方案》大数据平台建设方案按照“应编尽编”的原则,编制全量公共数据资源目录,确定公共数据资源目录配合任务:1)全面梳理公共数据共享需求,明确公共数据共享责任,编制“三清单”。2)根据事中事后综合监管应用需要,梳理公共数据共享需求,编制形成2019年事中事后综合监管数据的需求清单和责任清单。3)根据城市精细化管理应用需要,梳理公共数据共享需求,编制形成2019年城市精细化管理数据的编制形成2019年社区治理智能化数据的需求清单和责任清单。5)根据公共安全管理应用需要,梳理公共数据共享需求,编制形成2019年公共安全管理数据的需求清单和责任清单。6)在各部门报送的公共数据资源目录基础上,构建全市集中配合任务:1)制订《H市政务信息系统整合实施方案》,明确信息系统整合的工作要求,牵头推进历史遗留项目整合规范,开展信息化项目清理与合并,调整优化信息化项目资金安排,加强信息化项目资金引导,推进一批跨层级“大系配合任务:1)推进市大数据资源平台一期建设,实现跨部门和全过程数据管理,加强数据质量和数据安全管控,实现全市公共数据集中统一管理。2)建立公共数据质量监管机制,对各区、各部门数据数量、质量、归集、更新等工作进行实时监测和全面评价。各区、各部门要建立完善内部数据质量监管机制,及时处配合任务:1)建设统一的公共大数据资源平台,形成公共数据交换、共享的核心枢纽,提供跨部门、跨层级的公共数据交换共享和调度服务,并实现与国家大数据平台建设方案配合任务:1)依托开放的电子政务云,通过购买服务方式,引入一批具有先进性、创新性的第三方数据分析和数据展现等服务机构,采用快速迭代的数据应牵头任务:1)建立由主要领导牵头、信息化部门负责、业务部门参与的数据治理工作机制。2)开展各自领域的公共数据采集、归集、整合、共享、开放、应用等工作,做好公共数据治理相关工作。3)建立相应的考核、督查和评估机制,配合任务:1)创新公共数据项目管理模式,规范数据管理和数据服务费用标准,推广组件化、模块化、快速迭代的应用开发模式,推动信息化项目建设逐步向购买服务的模式转变,建立数据质量管理、数据安全、数据应用和政务云服务的长效运营工作机制。2)将公共数据归集、整合、质量、更新周期和共享应用情况作为信息化项目立项审核和绩效评价的重要依据,建立评估结果与信息化项目审核相衔接的工作机制。3)开展信息系统整合共享和数据治理专项审计。4)建设统一的安全监测监管平台,加强电子政务外网、电子政务云、大数据资源电子政务灾难备份中心等的安全管理,通过购买服务方式,建立公共数据管控体定期组织开展培训、交流,总结成熟经验,做好公共数据治理专项试点成果转化政策中明确要求各区、各部门应梳理各信息系统的实际数据资产情况,形成公共数据库表目录;按照“应编尽编”的原则,编制全量公共数据资源目录,确定公共数据资源目录的共享属性。同时依托电子政务云实现公共数据归集与整合,推进数据共享与应用。保障措施中要求建立由主要领导牵头、信息化部门负责、业务部门参与的数据治理工作机制;开展各自领域的公共数据采集、归集、整合、共享、开放、应用等工作,做好公共数据治理相关工作;建立相应的考核、督查和评3.2.3《H市公共数据质量管理暂行办法(征求意见稿)》发文中明确了区级主管部门的职责是负责指导、协调、推进、监督本行政区域内公共数据质量管理,建立本行政区内公共数据质量监管机制,建设区公共大数据资源平台,落实数据质量工作。公共管理和服务机构市本单位数据质量的直大数据平台建设方案接负责人,负责严格执行数据质量的规章制度,确保数据及时性、完整性和准确三清单一目录方面,要求区主管部门应当编制本区公共数据资源补充目录。而提出数据共享需求的市级责任部门根据履职需要提交需求清单,并明确数据资数据整合方面,区主管部门应当依托区公共大数据资源平台,开展本区公共数据质量监管方面,市大数据中心将定期出具市级责任部门和区主管部门的数据质量报告。报告内容包括检查对象、检查结果、问题种类、问题影响范围及影响程度、历史问题修复情况以及检查时间等。数据质量检查规则随数据质量报3.2.4《2020年H市深化“一网通办”改革工作要点》2020年2月9日H市委办公厅向全市发布了《202改革工作要点》的通知,提出了对于2020年关于“一网通办”的改革目标,包括实行“两个免于提交”(在开展政务服务和电子证照应用、数据共享核验、行政协助等方式,实行“凡是本市ZF部门核发的材料,原则上一律免于提交使个人办事更加方便、快速,法人办事更加高效、可),该文件将指导H市大数据中心在本次数据运营服务项目中关于2020年重点工12号文中要求实现公共数据“应归尽归”,建立完善全市公共数据分层采集12号文中要求,深化公共数据共享、开放和应用中要求各区配合市大数据中心依托大数据资源平台,深化“一网通办”主题数据库建设,推进主题数据整合和分析应用,支撑国家相关数据报送。在深化电子证照归集与应用中拓展长三角3.2.5《关于加强数据治理促进城市运行“一网统管”的指依托市、区两级大数据资源平台,实现城市运行“一网统管”业务数据、视频数据、物联数据、地图数据集中统一管理,建立完善相关安全体系和标准体系,形形成“两级统筹、三级开发、五级应用”的城市运行“一网统管”总体架构,依托市、区两级电子政务外网和电子政务云设计城市运行管理平台,市、区、街镇开发相关应用,网格和社区(单位、楼宇)部l业务数据——依托市、区两级大数据资源平台,统一业务数据采集标准,完善基层业务数据采集体系。各市级部门根据法定职责,明确本部门业务数据采集规范,经市大数据中心统筹后,形成统一的业务数据采集技术标准;指导各区开展基层业务数据采集、归集和治理,牵头汇聚各区采集的基层业务数据,融合热线、舆情等数据,形成本领域统一的数据资源池,l视频数据——各市级部门根据业务需求,按照国家相关标准,制定视频数据结构化应用场景和处理规则,由市大数据中心统筹形成基础性、通用性视频数据结构化处理标准,指导各区统筹实施视频l物联数据——各市级部门根据业务需求,按照国家相关标准,制定各自领域物联数据分析处理规则,由市大数据中心统筹形成基础性、通用性物联l地图数据——依托我市空间地理底图和各类图层信息,叠加“一标多实”的各类城市运行管理要素数据,整合各类地理数据,完善地图更新和转换联动机制,形成统一的空间地理综合数据库,打造城市运行“一张图”,支撑各类城市运行管理应用。市大数据中心按照国家相关标准,结合各市大数据平台建设方案级部门对地图使用的业务应用需求,统筹形成地图数据基础性和通用性标l数据库建设——依托市、区两级大数据资源平台,根据城市管理精细化、全面开展数据治理,推动公共安全、城市管理、社会治理、市场监管、卫生健康等领域的主题数据库建设,强化数据质量管理。建立市、区两级数据更新联动机制,实现主题数据库数据在市、区、街镇的实时流通共享,通过城市运行管理重点领域的综合应用带动公共数据整合和分析应用,推通过城市运行管理重点领域的综合应用带动公共数据整合和分析应用,推动市、3.3项目建设的必要性政策必要性:根据市里下发的政策要求,8号文中明确要求各区、各部门应梳理各信息系统的实际数据资产情况,形成公共数据库表目录;按照“应编尽编”的原则,编制全量公共数据资源目录,确定公共数据资源目录的共享属性。同时依托电子政务云实现公共数据归集与整合,推进数据共享与应用。保障措施中要求建立由主要领导牵头、信息化部门负责、业务部门参与的数据治理工作机制;开展各自领域的公共数据采集、归集、整合、共享、开放、应用等工作,做好公共数据治理相关工作;建立相应的考核、督查和评估机制,确保公共数据管理各项工作顺利推进。12号文中要求实现公共数据“应归尽归”,建立完善全市公共数据分层采集体系,各区开展基层业务数据、视频数据和物联数据的统一规范采集和结构化处据中心对区级大数据中心的考核工作及共享落地等工作。需形成Y区自己的数据实现公共数据的管理不仅仅是通过平台工具的建设来完成,还需配套进行数据的相关运营服务,才可真正意义上实现对全区公共数据的全面管治任务。根据大数据平台建设方案市里下发的各类数据运营相关报告可知,对于数据运营需覆盖数据治理、数据共享、数据开放、公共数据治理和大数据平台建设的任务,同时根据业务需要加强对综合库主题库等重点工作建设,根据该类任务的推进,各区级管理部门有必要建立对区内公共数据共享交换管理体系,以确保在市区级联工作中能够完成市里下发的各项考核要求。纵向的市区两级交换体系落实到了本区,而区内横向的数需要借助区政务云的基础设施资源、参考市级数据交换的体系,继续提升区内横向的数据共享交换能力,用以配合Y区大数据中心的发展规划与H市大数据中心这表明中国已将大数据视作战略资源并上升为国家战略,期望运用大数据推动经信息化为中华民族带来了千载难逢的机遇,能不能抓住机遇实现突破,关键是要规划落实好国家大数据战略,突破核心技术,不断推动大数据技术产业创新发展,构建以数据为关键要素的数字经济,夯实网络强国的基础,培育中国经济发展的新引擎,更好服务我国经济社会发展和人民生活改善。深刻阐述了实施国家大数据战略的重大意义、内在要求和重点任务,为发展数字经济、建设数字中国家大数据战略明确指出各级ZF、事业单位、科研机构,以及社会组织、企业和商业机构要深入挖掘大数据商用价值、民用价值、政用价值,推动大数据、智能化更好服务经济社会发展和促进保障改善民生。要运用大数据、智能化引领产业转型升级,推动互联网、大数据、人工智能同实体经济深度融合,加快发展数字经济,推动制造业加速向数字化、网络化、智能化发展。要运用大数据、智能化服务广大社会民生,推进大数据在扩大扶贫、就业、交通、生态环境等领域普及应用,提升公共服务均等化、普惠化、便捷化水平。要运用大数据、智能化因此,在区智慧城市建设总体统筹规划思想的指导下,按照H市大数据中心对市区两级大数据资源平台建设统一标准规范的要求,以实际需求为导向,搭建Y大数据平台建设方案评价为“六位一体”的大数据资源与综合管理服务体系,充分挖掘与发挥数据应用价值,为Y区领导决策和基层人员赋能,提供坚实的公共、城区管理、惠民和兴业数据协同服务,为Y区经济和社会发展注入新动能,助力Y区经济、民生和文化建设的加速发展,是贯彻和落实国家大H市历来重视政务数据资源的开放利用,积极落实政务大数据战略部署,先后发布《H市政务数据资源共享管理办法》、《H市ZF电子政务“十三五”发展规划》、《H市政务大数据发展实施意见》、《H市电子政务云建设工作方案》、《H市加快推进数据治理促进公共数据应用实施方案》等文件,明确提出“营造机数据采集汇聚能力大、共享开放程度高、分析挖掘应用广的政务大数据发展格局”,“全面建成贯穿数据全生命周期的政务大数据资源平台,基本形成覆盖全市地域、全行业领域的城市政务大数据枢纽,基本形成标准规范、开放竞争的政务大数据服务生态体系”。近两年来,本市及部分区级ZF相继成立政务大数据主因此,通过本项目的建设,搭建Y区公共大数据资源平台实现对Y区公共与政务大数据的归集、开放和应用的管理,是响应本市公共数据管理办法的必然要时代,以“业务应用系统建设为核心”的2.0时代,和以“打通数据、消除数据烟囱、开放共享和业务场景协同应用为核心的城市大脑”的3.0新数据管理体系存在“纵强横弱”的特点,系统内部实施垂直管理,系统之间则相互制约,而在横向上,ZF职能部门大多有专属职能,各自独立,互不联通。信息系统烟囱林立,阻碍数据共享是当下新型智慧城市建设需要解决的重中之重的难Y区在H市是较早全面推进开展智慧城市建设的区域,其在中,积累了大量的信息系统。这些信息系统依据相关职能产生数据,但彼此之间互不连通,因此形成了大量的“数据烟囱”。不同的系统仅能支撑本部门的单一大数据平台建设方案业务应用,数据往往是孤立的、未经整合的、片段的。从整个城市大数据的全局来看,单一业务的信息化缺少其他系统的数据支撑,很难形成具有“大数据智能共享、开放和应用的要求,满足与H市大数据资源平台的对接,并承接市大数据资源平台的落地数据资源,同时,归集全区内各单位公共数据资源,按需实现共享交换,逐步构建集Y区公共数据汇聚、整合、共享、应用、展示、评价六位于一体的大数据资源体系。依照市区一体的大数据资源的归集、治理、共享、开放、应用、安全等技术标准及管理办法,打破各部门间的信息壁垒,解决数据烟囱难题,强化跨部门、跨行业的组织统筹力度,提升信息资源整合水平,全面加快城市信息资源的有序汇聚,深度共享、关联分析、高效利用,实现全区跨层级、跨部门、跨系统、跨业务的数据开放共享交换、整合创新为政务服务提供数据服务,建立健全完善的组织机构和制度,构建高效的协同工作机制。应全面推行ZF目标管理系统,整合现有政务服务资源数据,建立完善的综合电子监察体系,重点监督考核线上服务质量、数据维护质量和共享开放度等指标,对线上不作为、慢作为和乱作为的现象进行约谈、问责制度。通过对充分开展立项必要性评估和建设效能评估,确保信息化系统的建设均遵循顶层设计理念,具备开放性、灵活性和拓展性。增加Y区政务服务亮点功能模块,如主题式套餐、综窗受理、自助服务一体机、效能监督等。一方面从需求侧的角度能够更好的体现Y区政务服务特色,另一方面从供给侧的角度也能够更好的响应国此外依据市区等政策文件指示,在2019年底国家政务服务平台上线运行,全国一体化在线政务服务平台框架初步形成,2020年底前政务服务事项应上尽上,2022年底前做到标准统一,整体联动,业务协同,全面实现一网通办。所以需要Y区政务服务平台有一个快速迭代开发部署的能力,需要强大的laaS、PaaS层作大数据平台建设方案大数据已经成为支撑新型智慧城市发展的关键所在,Y区形成丰富的数据资源积累、强大的应用市场优势和独特的创新创业氛围,为大数据发展打下良好基础在Y区经济发展和建设过程中,将不断面临来自内外部环境的压力和挑战,大数据的发展与人民群众的生活息息相关,这不仅对ZF各部门的日常管理提出了更高的要求,也将大数据态势的研判和分析摆在了十分重要的位置上。未来,各委办局间要实现横横向打通,做到各类数据运行与变化的实时同步,强化ZF在工作领域的协同性与同步性,以此才能更加从容应对不断涌现的经济发展压力和挑3.3.1业务现状、存在的具体问题和业务目标为了推进Y区公共数据相关的质量考核等工作,积极配合市里的考核要求。Y区目前在用的业务系统主要是数据总线,完成相关的采集、汇聚、共享等工作,但不能有效衔接所有工作,没有存储及运算Y区大数据中心在前期政务云相关各项目建设过程中,已基本完成全区政务外网系统的100%迁移上云,各上云单位的业务系统数据已根据各自条线管理上级单位要求进行上报,区级层面的三清单和数据资源目录梳理工作并未持续稳定的开根据市级大数据中心的建设规划及近年下发的各类政策文件要求,已逐步提出对区级数据管理部门的工作考核任务要求,其中提出市区级联的推进、数据治理和数据共享的执行情况,但未建设配套体系的数据共享交换类平台。目前Y区在政务云运营项目中,采购配置有一套数据总线工具,实现基本区级资源目录管理、采集、处理和市级数据的共享交换功能,对于数据资源的治理、溯源、数据采集管理等均未进行相应的功能或工作执行,从而导致无法完全满足市级大数据l缺少实时归集技术,数据共享协同低效。数据实时采集技术未落实,无法大数据平台建设方案l数据资源管理能力差,无法形成价值数据进行管理,数据的质量保障能力l缺乏业务应用场景的梳理,无法精准化提供“一网通办”、“一网统管”l未建设数据安全管控机制,缺乏对敏感数据的管理能力,对于平台层面也本次项目旨在通过建设公共大数据资源平台,搭建可承载市级大数据资源平台通过市区级联落地的区级数据平台,并同时构建区级采集、治理、共享的数据运营体系,要搭建Y区统一的大数据资源管理平台并实现基础功能架构,出台相关管理办法,支撑全区各政务部门的数据共享需求;建立大数据资源中心,完成标准化数据仓库的建设,并构建基础及融合数据库,为全区的政务处理、经济发区级委办单位形成互联机制,提供区级层面各业务应用场景的数据支撑服务,确保满足市级下发的各类“一网通办”、“一网统管”两网建设相关的业务要求,3.3.2业务对信息系统的具体需求结合Y区大数据中心的业务现状,以及市级大数据资源平台的建设业务目标要求,对于区级公共大数据资源平台的建设需要在市级大框架下,分析考核要求进行调整,落地符合区级业务现状的数据平台。根据市级平台围绕“聚”、l聚:提升区级平台数据采集和归集能力,搭建区级数据库的框架,启动除l管:结合公共数据管理要求,提升数据资源的治理能力,落地市级下放的三清单一目录内容,持续推进区级三清单一目录的梳理工作,加强形成区大数据平台建设方案l通:加快推进市区数据级联落地,打通以区级数据管理部门的数据上报和落地渠道,实现上下级纵向的数据共享交换和数据互联;横向上建立与区l用:以区级委办单位为各业务条线牵头单位,为区级委办单位的跨条线数3.3.3成果应用效果、推广设想、可持续发展情况通过公共大数据资源平台项目的建设,打造Y区级公共数据的汇聚、治理、共享的数据管理体系,完善市区两级的公共数据共享交换通道,建成区级的数据支撑大平台。承载市级大数据资源平台通过市区级联落地的区级数据平台,并同时构建区级采集、治理、共享的数据运营体系,形成区级的“三清单一目录”和综合库,与区级委办单位形成互联机制,提供区级层面各业务应用场景的数据支撑服务,从而为区级各部门提供业务系统整合改造打下基础,最终推动后续各条线推进以业务场景为驱动的数据支撑服务实施。确保满足市级下发的各类“一网通办”、“一网统管”两网建设相关的业务要求,以及对于区级数据运营的考核3.4用户和业务流程分析3.4.1用户分析本项目涉及政务外网,政务云上的所有委办用户单位数据管理用户、大数据3.4.2现有业务流程为了推进Y区公共数据相关的质量考核等工作,积极配合市里的考核要求。Y区目前在用的业务系统主要是数据总线,完成相关的采集、汇聚、共享等工作,但不能有效衔接所有工作,没有存储及运算等常态化运行能力。未来建设完成大大数据平台建设方案3.5平台性能需求分析3.5.1平台存储能力要求平台需要具备50TB数据存储与管理能力,其中结构化数据存储与管理能力3.5.2平台数据计算/并发能力要求分布式存储平台支持超过200人的数据开发人员并发访问,同时进行数据处平台的调度执行器需具备2000个在线数据任务在分布式存储平台下的管理和3.5.3平台门户使用要求3.6业务量需求分析3.6.1业务量分析本次项目建设范围覆盖约75个委办、12个街镇公共数据资源及市级部门落地数据资源。数据来源即为来自本区职能部门、街镇业务数据及市级大数据资源平大数据平台建设方案ZF部门:Y区ZF各级机构、部门工作人员数约8000余人,涉及政务服务相3.6.2数据存储量分析公共大数据资源平台数据来源主要是三部分,75家区级部门及事业单位数据资源、12个街镇公共数据资源、市级共享交换平台落地数据及主题库、专题库数从各区级委办局汇聚来的结构化、半结构化、非结构化数据根据调研如下,第一阶段:满足大数据平台的基础工作,包括Y区已有的目录、城运中心需第二阶段:满足区所有78个委办以及12个街道的数据编目、归集、治理、估算依据:根据第一轮线上问卷反馈的量19个部门,填写数据情况和是15T左右的数据量。Y区现在有75个委办+12个街道,按照这个估算Y区数据量60T左右。大数据存储机制都是3副本3*60T为180T。磁盘预留百分比(90%)3.6.3数据存储部署资源分析区级数据湖基于政务云提供的云数据库和云存储服务进行搭建(通常包括关系型数据库、NoSQL数据库、列数据库、分布式文件存储等),主要存放ZF部门业务数据库、未经加工的原始业务数据库,支持存储结构化、非结构化等多种类大数据平台建设方案区级数据湖通过公共大数据资源平台,与区内各部门业务应用系统、区级各部门或区数据管理部门的前置节点进行交换。数据湖中的共享数据依据元数据进区级数据湖的数据存储规模较庞大,需要支持存储扩展和横向、纵向迁移,直接用于分析的平均价值密度较低,通常需经过预处理、集成后,形成高质量公区级主题库和专题库,用于存放经过一系列清洗、转换、加载、治理步骤后以面向不用数据应用、行业领域及主题进行划分(如:综合业务协同、公共基础库、公共主题库、扩展主题库等),并为业务应用和终端用户提供业务对象访问、数据集访问等数据类服务,支撑辅助决策、数据可视化、数据开放、数据通过公共大数据资源平台提供的数据集成总线,对数据湖数据进行批量离线处理或实时处理,并将处理结果落地到数据资源池。数据资源池中的共享数据也区级主题库和专题库的数据存储规模较庞大,需要采用合适的数据平台对明细数据和汇总数据进行存储计算,计算结果可以使用分布式文件存储或关系型数本次项目数据存储容量参考业务量和数据存储量分析章节,数据存储部署资3.7硬件设备需求分析3.8功能需求分析3.8.1大数据底座析支撑,精细掌握租户分配状态,资源利用情况;大数据平台建设方案及资源分配的统一管理,租户管理能力标准化。支持租户建设统一多租户模型,贯通Hadoop、Kubernetes、数据中台,打造集合建设资源服务目录,实现Hadoop组件HDFS、Hive、HBase、Yarn及实现租户资源管理及实例创建功能,实现区大数据中心、区委办的资源分支撑平台运营管理,实现线上的租户管理、租户分析,用量提醒,支持平3.8.2数据采集子系统数据采集需要实现对全区各委办单位的数据采集功能,包括离线采集、准实时采集和实时采集的采集方式,根据各委办局业务数据的情况进行采集技术的实数据采集:ZF数据来源多样,包含视频类数据、物联感知类数据以及传统的公共数据,各数据来源的数据格式也不一致,在收集的过程中需对数大数据存储:实现现有应用的大量结构化数据、半结构化数据,以及将全市统一规划的大量图片、视频资料等非结构化数据的存储需求,要求大数据基础平台采用分布式文件系统实现对汇聚的多大数据分析计算:数据分析的处理速度、准确度对实际应用的及时性、高效性都有至关重要的影响。大数据平台提供分布式计算、流式计算、内存计算多种数据计算引擎,能够针对不同的场景采用不同的计算模型,对数据进行大规模批量处理或者实时处理,大大提升ZF分布式资源管理和调度:Hadoop2.0中的资源管理系统,它是一安全、容错、易用的集群管理能力,支持大规模集群的安装/升级/补丁、3.8.3数据治理子系统建设大数据治理子平台,提供数据标准管理、元数据管理、数据质量管理能力,实现对数据的规范治理与管理;提供数据工厂能力,实现对归集的数据进行清洗、加工,支撑业务的数据应用需求。具体,在本次公共大数据资源平台建设数据标准管理:提供数据标准管理功能,包括:字典标准管理、命名标准数据质量管理:提供数据质量管理功能,包括:质量模型配置、质量规则数据开发平台:提供数据开发平台能力,支持可视化开发和原生态开发两统一调度管理:提供统一调度管理功能,提供流程设计与管理、调度策略3.8.4数据资源中心在本次项目中,我们需要制定全区公共数据汇聚的标准规范和管理制度,归集全区各单位的ZF公共数据,形成Y区的数据资源湖。同时经过对数据进行清洗、基于全区的数据资源湖,利用经过治理后的数据,可以针对某一特领域的业务数据共享、应用需求,按主题归集形成专题库和主题库,并面向政务部门及社会进行数据开放。此外,我们还将持续开展、深入Y区大数据的应用探索,围绕跨部门、跨领域、跨行业的数据应用需求,对数据实体进行数据关联、数据融合和衍生计算,生成算法标签,逐步建立不同领域的应用专题或主题库构建面向全区多部门提供统筹的数据共建共享共用的数据服务。具体,在本次公共大数据资源建立Y区级数据湖:构建全区公共数据的存储与计算空间,支撑各类数据大数据平台建设方案资源的汇聚存储、处理计算与查询应用,并依据部门类别、数据源类别等完成数据对接的实施:完成与区各委办业务与管理系统、H市大数据资源平台以及物联网相关平台数据的对接,汇聚各类业务数据,形成全区公共建设基础库:建设全区统一的基础人口综合库、法人综合库、电子证照库以及地理空间库,支撑全区人口、法人、电子证照与地理空间等数据相关建设主题库:建设全区统一的产业经济主题库、电子证照主题库、权力事数据融合和衍生计算,生成算法标签,提供超级应用级数据服务。主题库的建设是为了满足某一特大型领域的业务共建共享需求,需要多个部门合作,在大数据主管部门的支撑下,构建面向全区多部门提供统筹的数据共建共享共用的数据服为了解决目前全区面向企业法人提供服务缺失基础数据的情况,本次项目拟面向特定领域专题应用的数据服务。一般由各自委办局自行开发建设,也可以根据实际情况由委办局委托大数据中心代建代运营。作为领域的专题数据,一般不作为支撑大型跨领域、跨行业的超级综合应用并向外部门提供数据服务,更3.8.5数据共享子系统安全管理和成功案例的快速复制,最大程度吸引外部开大数据平台建设方案包含数据交换和服务管理,支持结构化库表下发、文件共享、API接口共享、在Y区大数据资源平台项目的基础上扩展功能。主要包括消息推送、数据推建立数据开放门户:主要实现数据目录、数据接口、数据应用、数据图谱、将数据共享情况、数据归集情况进行统计分析后展示。可对填报、统计分析数据设置审批岗,对数据进行双重把关,对统计结果进行推送。KPI指标监控、监控指标预警信息及时推送、数据钻取,实现由粗-细,切换维度的数据分析、可视当委办向大数据中心提出查询要求,需要通过申请审批完成数据资源分享,大数据中心对接委办的管理流程,委办提出需求需要查询某数据项,将在该3.8.7统一运维子系统理指标和数据,对云资源、应用和业务对象的性能数据管警管理等,及时发现异常和潜在问题,对云管理运行过程况等运维数据进行深入分析,保障大数据资源平台稳定、全、合理的分配。构建一站式数据资产可视化管理,实现3.8.8数据安全管理子系统大数据资源平台应有完整的安全策略控制体大数据平台建设方案安全、高效和事件行为的可回溯性。大数据的安全能力,并通过对标准化解决方案进行定制化开能力的全局赋能,包括统一的身份和权限管理、统一3.9数据分析3.9.1数据流程和属性分析所有区级委办单位将直接作为数据源,汇聚至本次建设的区级平台中,各单位的数据更新和共享机制以数据资源目录所确定3.9.2数据量分析目前,数据汇聚接入、数据共享交换的服务对象,全区75个委办及12个街道;数据采用实时对接方式,实现自动化接入,平均每个委办按5个用户计算,大数据中心20个用户,厂商运维人员50,用户数预计400,根据目前业务发展情况预测,3年内用户规模预期达到600个以上用户。3.9.3信创适配分析2、市平台目前采用的技术路线,包括开源框架和部分数据库、数据湖产品,3、考虑到大数据工作的数据量大、性能要求高等特点,市平台未以AK方式市平台一期建设已通过验收,目前正常运行,支撑全市大数据工作开展。区大数据资源分平台建设,技术架构对标市平台,从基础设施方面、技术/产品选型方面和性能/量级方面,均无法完全按照AK要求建设。项目现阶段建设,可部分参照AK要求,在相关技术、产品和硬件条件具备后,进行AK适配并做好迁移工大数据平台建设方案3.10满足应用的需要对于如一网通办、一网统管等特殊应用,平台支持各部门政务应用系统与数据资源池的直接双向交互,无需通过数据湖进行中转,通过平台的调度引擎可进大数据平台建设方案4.1建设目标公共大数据资源平台项目建设的主要目标是要搭建Y区统一的大数据资源管理平台并实现基础功能架构,出台相关管理办法,支撑全区各政务部门的数据共享需求;建立大数据资源中心,完成标准化数据仓库的建设,并构建基础及融合数据库,为全区的政务处理、经济发展、社会民生、本次项目旨在通过建设公共大数据资源平台,搭建可承载市级大数据资源平台通过市区级联落地的区级数据平台,并同时构建区级采集、治理、共享的数据运营体系,形成区级的“三清单一目录”和综合库,与区级委办单位形成互联机制,提供区级层面各业务应用场景的数据支撑服务,确保满足市级下发的各类“一网通办”、“一网统管”两网建设相关的业务要求,以及对于区级数据运营的考核工作。l建设统一的大数据资源管理与应用平台:建设包含数据支撑底座、数据采集管理、数据整理治理子平台、数据共享交换子平台、统一运维子平台、数据资源门户为核心功能的大数据资源平台,实现大数据综合管理与服务l启动Y区大数据资源中心建设:完成标准化数据仓库的设计与规划建设,并完成与区各委办业务与管理系统、H市大数据资源平台以及物联网相关平台数据的对接,汇聚各类业务数据,构建Yl在Y区资源中心数据湖基础上,建设基础数据库,包括人口综合库、法人l在Y区资源中心数据湖以及基础库的基础上,持续深入大数据资源的建设与应用探索,基本完成支撑全区一网通办、一网统管、城市规划、应急指l建立统一的ZF数据信息资源目录,建立动态更新机制,明确全区各部门可向其他ZF机构共享的公共数据,建立全区统一的数据交换共享平台及数据中心,对上对下实现垂直共享,横向打通各部门间的数据交换共享,大数据平台建设方案4.2总体架构信息安全保障体系建设数据支撑底座、数据交换、数据资据库)、数据整理治理、数据服务、数据分析、数据共享4.2.1总架构图大数据平台建设方案大数据平台建设方案4.2.2平台架构关系4.3建设内容大数据平台建设方案结合区级数据平台的建设方向,从聚、管、通、用的业务维度考虑平台的建设功能,将包括数据采集、数据治理、数据共享方面的建设功能,具体功能方面4.3.1大数据底座析支撑,精细掌握租户分配状态,资源利用情况;建立租及资源分配的统一管理,租户管理能力标准化。支持租户建设统一多租户模型,贯通Hadoop、Kubernetes、数据中台,打造集合建设资源服务目录,实现Hadoop组件HDFS、Hive、HBase、Yarn及实现租户资源管理及实例创建功能,实现区大数据中心、区委办的资源分支撑平台运营管理,实现线上的租户管理、租户分析,用量提醒,支持平4.3.2数据采集子系统数据采集需要实现对全区各委办单位的数据采集功能,包括离线采集、准实时采集和实时采集的采集方式,根据各委办局业务数据的情况进行采集技术的实数据采集:ZF数据来源多样,包含视频类数据、物联感知类数据以及传统的公共数据,各数据来源的数据格式也不一致,在收集的过程中需对数大数据存储:实现现有应用的大量结构化数据、半结构化数据,以及将全市统一规划的大量图片、视频资料等非结构化数据的存储需求,要求大数大数据平台建设方案据基础平台采用分布式文件系统实现对汇聚的多大数据分析计算:数据分析的处理速度、准确度对实际应用的及时性、高效性都有至关重要的影响。大数据平台提供分布式计算、流式计算、内存计算多种数据计算引擎,能够针对不同的场景采用不同的计算模型,对数据进行大规模批量处理或者实时处理,大大提升ZF分布式资源管理和调度:Hadoop2.0中的资源管理系统,它是一安全、容错、易用的集群管理能力,支持大规模集群的安装/升级/补丁、4.3.3数据治理子系统建设大数据治理子平台,提供数据标准管理、元数据管理、数据质量管理能力,实现对数据的规范治理与管理;提供数据工厂能力,实现对归集的数据进行清洗、加工,支撑业务的数据应用需求。具体,在本次公共大数据资源平台建设数据标准管理:提供数据标准管理功能,包括:字典标准管理、命名标准数据质量管理:提供数据质量管理功能,包括:质量模型配置、质量规则数据开发平台:提供数据开发平台能力,支持可视化开发和原生态开发两统一调度管理:提供统一调度管理功能,提供流程设计与管理、调度策略4.3.4数据资源中心在本次项目中,我们需要制定全区公共数据汇聚的标准规范和管理制度,归大数据平台建设方案集全区各单位的ZF公共数据,形成Y区的数据资源湖。同时经过对数据进行清洗、基于全区的数据资源湖,利用经过治理后的数据,可以针对某一特领域的业务数据共享、应用需求,按主题归集形成专题库和主题库,并面向政务部门及社会进行数据开放。此外,我们还将持续开展、深入Y区大数据的应用探索,围绕跨部门、跨领域、跨行业的数据应用需求,对数据实体进行数据关联、数据融合和衍生计算,生成算法标签,逐步建立不同领域的应用专题或主题库构建面向全区多部门提供统筹的数据共建共享共用的数据服务。具体,在本次公共大数据资源建立Y区级数据湖:构建全区公共数据的存储与计算空间,支撑各类数据资源的汇聚存储、处理计算与查询应用,并依据部门类别、数据源类别等完成数据对接的实施:完成与区各委办业务与管理系统、H市大数据资源平台以及物联网相关平台数据的对接,汇聚各类业务数据,形成全区公共建设基础库:建设全区统一的基础人口综合库、法人综合库、电子证照库以及地理空间库,支撑全区人口、法人、电子证照与地理空间等数据相关建设主题库:建设全区统一的产业经济主题库、电子证照主题库、权力事数据融合和衍生计算,生成算法标签,提供超级应用级数据服务。主题库的建设是为了满足某一特大型领域的业务共建共享需求,需要多个部门合作,在大数据主管部门的支撑下,构建面向全区多部门提供统筹的数据共建共享共用的数据服为了解决目前全区面向企业法人提供服务缺失基础数据的情况,本次项目拟大数据平台建设方案面向特定领域专题应用的数据服务。一般由各自委办局自行开发建设,也可以根据实际情况由委办局委托大数据中心代建代运营。作为领域的专题数据,一般不作为支撑大型跨领域、跨行业的超级综合应用并向外部门提供数据服务,更4.3.5数据共享子系统安全管理和成功案例的快速复制,最大程度吸引外部开包含数据交换和服务管理,支持结构化库表下发、文件共享、API接口共享、在Y区大数据资源平台项目的基础上扩展功能。主要包括消息推送、数据推建立数据开放门户:主要实现数据目录、数据接口、数据应用、数据图谱、将数据共享情况、数据归集情况进行统计分析后展示。可对填报、统计分析数据设置审批岗,对数据进行双重把关,对统计结果进行推送。KPI指标监控、监控指标预警信息及时推送、数据钻取,实现由粗-细,切换维度的数据分析、可视当委办向大数据中心提出查询要求,需要通过申请审批完成数据资源分享,大数据平台建设方案大数据中心对接委办的管理流程,委办提出需求需要查询某数据项,将在该4.3.7统一运维子系统理指标和数据,对云资源、应用和业务对象的性能数据管警管理等,及时发现异常和潜在问题,对云管理运行过程况等运维数据进行深入分析,保障大数据资源平台稳定、全、合理的分配。构建一站式数据资产可视化管理,实现4.3.8数据安全管理子系统大数据资源平台应有完整的安全策略控制体安全、高效和事件行为的可回溯性。大数据资源平台的安全能力,并通过对标准化解决方案进行定制化开能力的全局赋能,包括统一的身份和权限管理、统一4.4应用系统4.4.1大数据底座大数据底座整体技术架构如图所示,其中包括大数据基础平台、集群洞察、大数据基础平台(DP),实现统一的资源分配,应用管理及为数据治理提供集群洞察(CI)是大数据集群资源、性能、安全的深度洞察和智能规划,保大数据平台建设方案流处理引擎(SP)实现统一的实时数据接入、分析处理、分发订阅,全面保关联检索引擎(SP)建立丰富的索引,多样化的查询接口,支持各种结构化业务数据解析,能够为更多的用户,丰富的数据类型,为多样化的业务提供通用大数据平台建设方案大数据平台建设方案大数据平台建设方案大数据平台建设方案大数据平台建设方案.1大数据平台建设方案.1大数据平台建设方案服务名称权限控制粒度权限HDFS文件目录、文件数支持对文件路径的权限管理,包括文件的读/写/执行Hive数据库,表支持数据库的细粒度权限管理,实现表、列的授权,权限包括查询、更新、创建、删除、修改MR2队列支持对队列的权限管理,包括:队列管理,队列查询Kafka主题支持对Kafka实例主题的权限管理,实现细粒度的权限控制,权限包括:发布、消费、配置、创建、删除等HBase命名空间支持对Hbase的命名空间的细粒度权限管理,支持表、列簇、列的授权,权限包括:查询、更新、创建、删除等Spark队列支持对队列的权限管理,包括:队列管理,队列查询为企业级用户搭建统一的分布式流式数据处理平台,实现统一的实时数据接实时开发管理:一站式完成流作业开发编排和管理能力,同时根据流数据的实时数据服务:依据实时业务场景的特点,提供个性化数据订阅和数据推送大数据平台建设方案实时分析处理:主要对流式数据进行业务逻辑运算,包括:字段计算、多流实时数据交换:主要完成B域订购数据、缴费数据、消费数据等的采集、清.1采用Master-Slave的分布式架构,针对不同系统的多种数据源,提供一站式实时采集、预处理和分发的功能,全界面化数据流采集配置和管理,摆脱单调的.异构系统间统一调度处理:支持异构系统、平台、数据库间数据调度流程.全界面化操作能力:丰富的图形化操作界面,控件式无编码开发功能,开.分布式线性动态扩展:实现节点动态线性扩展,从而满足高性能要求。.对第三方软件集成能力:提供插件式开发,将对外服务、集成功能封装成大数据平台建设方案API供其他软件调用;通过高速分布式缓存RedisCluster完成流数据和批数据的关联运算,满足实时字段计算:通过高速分布式缓存RedisCluster完成上网类、位置类、订单缴费类等流数据计算,运算速度快,高并发,高吞吐,并为用户提供托拉拽实时汇总计算:实时增量/全量数据汇总分析,支持多指标多维度并行计算,多流合并计算:解决多种流数据合并处理,例如:位置流场景,完全基于Spark、Flink内存机制,而非与外部组件交互,提供双时间窗口提供开发者基于控件模式的流数据开发编排能力,屏蔽了复杂的底层开发过程,降低开发门槛。提供向导式开发过程,简单易用提供实时和历史的性能指标分析和展示,同时提供性能优化的参数设定,即Kafka核心指标实时监控,同时提供告警项和阈值设定,实时分级展示告警信通过提供数据的存储、建立丰富的索引,多样化的查询接口,支持各种结构化业务数据解析,能够为更多的用户,丰富的数据类型,为多样化的业务提供通高效的查询性能:通过对不同业务场景建立索引,实现对流数据和批量数据大数据平台建设方案灵活的查询接口:提供可视化查询界面和API查询接口,通过定义丰富的查便捷的聚合查询:通过定义预定义函数,实现SQL的聚合查询,屏蔽底层查.1将结构化的数据文件实时读入flumesource中,通过flumesink实时地将结构数据入库到HBase中。在数据实时接入的过程中,会根据数据内容以及数据的格式动态计算出该条数据对应的数据表,实现不同数据入到不同的表中。实时入库功能实现数据在入数据库的同时进行字段解将写入hbase中的数据,按照自定义字段实时建立索引到solr中,也支持全整个实时数据索引功能中,使用了业界主流的三个组件:hbase、solr、大数据平台建设方案提供按照业务查询需求建立的多字段索引,实现1.实时建立全字段索引:不仅按照rowkey规则建立,同时可以完成其他字段可以作为统一的查询检索服务对外提供API调用,外部系统可以通过接口调大数据底座平台需配合各子系统做好对接工作,包括数据治理子平台、数据配合网络监控、操作系统监控、平台监控、平台上应用监控数4.4.2数据采集子系统.1库到库是指各委办局开放前置节点的数据库,通数据采集平台工具,可配置数据抽取方案,将前置支持mysql、Oracle、db2、SQLserver大数据平台建设方案类似于数据迁移或数据复制,它将数据源中的表数据原出来;增量抽取只抽取自上次抽取以来数据经过仔细评估,在当下的应用场景中,最佳的增量抽取方源表对增量表数据进行标记的方式,来捕获数据的增删改委办通过约定的API接口,通过restful、webservice等方式传递参数,数为满足数据采集平台对各种复杂任务的灵活工作流结合了数据集成、数据开发模块,用于创建有向无环的DAG工作业,工作流作业内部创建一个个的子作业,子作业之间互程运转,每个子作业完成对应的数据处理操作,执行错误行,也可就此终止,同时工作流提供完善的日志查看系统上的协作开发能力,提升了团队开发的效率。支持抽取任相互设置不冲突的依赖关系,从而确保下游数据不大数据平台建设方案失败恢复数据功能,可以检测到失败数据,有计划务进行恢复。通过日志可以看到各种运维监控信息消耗、抽取数量、抽取数据量等,满足对数据抽取查看,对任务执行的异常进行流程干预处理,对平台总览对整个作业集群的重要指标提供了可视化监示了运维人员常用的集群性能指标以及作业的执行统):大数据平台建设方案周期作业帮助运维人员管理线上作业。对于已上线增加了上线任务执行的依赖关系,任务上线时可以支持任务智能调度,根据节点、资源不同,实支持抽取任务的优先级调度功能,可灵活调整的提前执行。可在队列中,随时提升/降低数据质量管理子系统主要包含对数据完整性、析和管理,并对数据进行跟踪、处理和解决,实现数据的质量,并进而提高数据分析、数据挖掘质量维度包括:一致性、准确性、完整性、合理性、通过对数据的规则配置,然后对数据执行相应的规则,检据的检查结果以图表的方式直观的显示出来,方便了解数大数据平台建设方案依据质量需求,灵活配置质量规则。如开发质要的跨层数据访问、不合理的大表关联操作)、数据波动规依据质量规则执行的时机需求,配置执行方式依据质量检查规则对数据质量进行监控,如接依据质量检查评估规则对数据质量进行评估,对评估报告进行分析得出优化建议,并付诸优化动作.1提供单表数据预览功能,同时可通过设置稽查检的稽查结果分析,帮助数据模型设计人员分析数据内容根据预先配置的规则、算法和质量检查度量,对数角度的检查,以及时发现问题,解决问题。对程的日志可以判断出过程输出的目标表数据是否完整。提信息供选择,如:过程名、所属模块、执行时间、完成时度关联编码表、各纬度记录分布情况、是否有空值、空值在设定数据稽核的模板后,可以对稽核任务实行自动数据质量监控是对输入数据的质量检测和探查如脏数据比例)进行解和判断的工具,该模组对数质量探查会对探查到的数据问题进行强弱分级,大数据平台建设方案制定质量监控的详细规则,包括数据量的一致性提供整体数据表处理情况的预览,包括整体数据本模块主要解决有问题的数据表的排查情况,包需要能够根据预设的规则来检测数据中的质量问题,检测提供默认的规则模板,用户也可以自主编写规则表达式。度系统强耦合,发现脏数据可实现事中拦截,避免错误各类规则发现问题数和规则问题率排名(此规大数据平台建设方案支持指标看板,实时呈现在线业务关键指标,掌业务链路,主要展示所有已开启监控的数据业务链路的运明细,包含最新监控结果、告警信息中心和告警订阅配置业务分组管理、监控任务管理和业务链路管理。支持全局.1l结构与源系统保持一致的增量数据。汇聚业务系统源头数据。也是ETL加工过操作型数据,指结构与源系统保持一致的全量数据。采用双表设计存储,标准表做了标准化数据清洗,如证件类型代码标准化。原始表满足溯源及源系统数据lDataWarehouseDetail,数据仓库明细层数据(对应人口库、法人库、空间大数据平台建设方案地理库)。对数据按人口、法人、空间地理三大基础数据域进行分类,整合,清l按分析对象对实体进行数据整合,轻度汇总,算法标签。面向应用提供智能数据DWD层引用ODS层数据,默认使用ODS层字段数据类型,衍生加工数据字段按yyyymmdd月:yyyymm。涉及地市数据隔离,采用二级分区。命名为fq_xzqh(行大数据平台建设方案_1d_3d_1w_2w_1m_2m_3m_6m_b6m_cw_cm_cq_cy_std日日_mtd大数据平台建设方案日_wtd日ODS层每张表设计dw_status:数据状态,I,D,U分别对应增加、删除和修改统一对dwd、dws增加代理键字段,使用MD5对业务主键创建唯一ID。根据业务处理需要把数据生产在中间临时中,然后在生成结果数据。因此临时l字段名与ODPS关键字冲突时处理规则:加一个”_col”后缀,即:源字段名大数据平台建设方案l对于属性及数据量不大的事务数据,设置有原始格式及标准化格式的全量表。原始格式全量数据表生成:按业务主键对STG表数据与前一天ODS未清洗全量标准代码转换,按公安部代码定义标准,对源系统代码进行转换,源系统代码字段及标准代码字段均保留,不能转换成标准代码的代码值在标准代码项内保存成ll扩展增加的代码名称属性字段在原数据项名称的基础上加mc后缀标准格式化后扩充的日期字段,在原字段基础上加_dt后缀。大数据中心数据来源于多个渠道,各渠道提供的数据中,有很多相似性的数据大数据平台建设方案存在,例如城投水务提供的企业行业分类信息以及燃气公司提供的企业行业分类并且对于这两份数据处理的逻辑也会存在差异。数据整合的目的,是为了更好的基于ODS层,从人口、法人两个角度,明确哪些数据作为主数据,哪些数据作按照遵循事实,同时兼顾中性共享和灵活可扩展的设计DWD结构时,综合考虑需要合并的数据表,选择具有业务含义和业务用途统一采用dt作为分区字段。行为和轨迹类数据,所有数据按照增量保存,对于源头提供的历史数据,需要根据业务日期提炼所涉及的分区,然后把相关分区数据和历史数据合并,重新根据业务日期delta表保留:对于需要直接同步到ADS的增量数据,在DWD层数据处理中,对于数据中出现的异常业务日期,例如2086-9-28日,会影响正常的分区,需要在数据处理过程中,把这类信息统一放入到19000101分区中。数据质量检查的l大数据平台建设方案数据域主要分为人口、法人等,将数据按所属的业务类别来进行模型构建,数据子域是按对象及业务过程对数据域进行进l字段命名采用汉语拼音首字母命名。示例如下:姓名如果遇到冲突的情况,例如杭州hz,湖州hz,分别针对第一个冲突字段,采用前两个拼音字母来代替,例如:出生日期:cshrq,出所日期;csurq杭州haz,业务日期字段,冗余存在三种类型:string,datetime,bigint命名规范:datetime后缀_dt、bigint后缀_int。业务日期:出生日期、驾照办理日期等。基于大数据中心对人口、法人、空间地理的建设规范要求,基于国家标准、行0123456789大数据平台建设方案02女数据生命周期管理(datalifecyclemanagement,DLM)是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从创建和初始存储,到它过时被删除。DLM产品将涉及的过程自动化,通常根据指定的策略将数据组织成各个不同的层,并基于那些关键条件自动地将数据数据生命周期管理的总体原则口在数据的整个生命周期中,不同阶段的数据其l通常情况下,在其生命周期初期,数据的使用频率较高,需要使用高速存储,l随着时间的推移,数据重要性会逐渐降低,使用频率会随之下降,应将数据进行不同级别的存储,为其提供适当的可用,性、存储空间,以降低管理成l最终大部分数据将不再会被使用,可以将数据清理后归档保存,以备临时需根据目前系统资源情况,结合数据治理业务的需要,对使用大数据资源平台产1大数据平台建设方案234567注:具体情况随现场业务场景作具体调整,以便各方更准确更合理的对数据治拟定接入市大数据中心数据,共涉及10个委办,20个场景,100多张表。数4.4.3数据治理子系统在本次项目中,我们将通过大数据治理子平台的建设元数据管理、数据质量管理能力,实现对数据的规厂能力,实现对归集的数据进行清洗、加工数据治理将分散、多样化的数据通过汇集、标量进行全面的提升和监控,形成城市大数据的管理和控制据治理体系,持续不断的挖掘和提升数据的应用价值。数全生命周期、端到端的全链路透明化管控,实现“数据模大数据平台建设方案数据治理就是将数据转化为资产的手段和方法具,以分布式存储和运算为基础,通过人工智能和机器大数据资源平台的应用建设目标,包含数据地图、数据护伞以及安全卫士,提供全面的数据治理能力,提供数标准化、数据转换、数据关联、数据比对等方面服务。做好数据质量管理,主要包括四个方面数据缺失补缺、.1从政务办公网、感知网、社会协同单位收集据基础,并对汇集的原始数据开展基于数据管理和业务视基于数据管理视角,对业务元数据、技术元数据进据资产管理应用,达到数据资源的规范化和可视化;汇聚散、不可直接使用的状态,为数据使用者提供一站式的集设等需求;对数据融合处理的全过程通过质量管理工具基于业务应用视角,对汇聚的基础数据开展模型治基于业务背景及要求的处理加工、以及面向应用专题场数据资源层、主题数据资源层、应用数据资源层,形成基于业务需求引导和对数据资源信息的价值梳理,对和算法计算,将数据标签化,构建基础库,支撑专题应用按照业务场景需求,将基础库、主题库和专题起各类业务创新应用,如监控大屏、全息画像、预警中心数据治理平台会包含部分基础、主专题库数据等大数据平台建设方案大数据平台建设方案数据治理就是将数据转化为资产的手段和方法,采用数据治理系统工具,以分布式存储和运算为基础,通过人工智能和机器学习技术,辅之以适量的人工训本次项目中,数据整理治理子平台的建设将围绕公共大数据资源平台的应用建设目标,提供全面的数据治理能力。数据治理平台通过对数据全生命周期、端到端的全链路透明化管控,实现“数据模型标准化、数据关系脉络化、数据加工有效解决数据资源不可知、数据质量不可控、数据关系不可联、数据脉络不清晰通过数据治理子平台的建设与实施,可以将海量、分散、多样化的数据通过汇集、标准化、清洗等操作对数据的质量进行全面的提升和监控,形成全区大数据的管理机制,并提供一站式数据治理体系,持续不断的挖掘和提升数据的应用本项目建设的数据治理子系统适用于分析型系统数据处理的各个过程,负责数据的加工处理以及加工处理过程数据标准、元数据和数据质量的管理。平台可以提供数据输入、数据加工、数据输出和贯穿数据处理各个过程的全流程、全生命平台采用工厂化的数据处理和管理模式,通过数据生产计划、数据生产执行和数据生产管理三大子模块,保障数据处理全过程透明可控,实现工具化、流程化和自动化的开发、运维、管理,提升数据开发、生产的效率,保持系统健康、持续、稳定的发展。具体,本次所建设的数据治大数据平台建设方案l数据处理执行模块:负责数据处理计划的执行、数据的生产和数据质量控为实现工厂化的数据处理和管理,本项目数据治理子平台采用基于元数据驱l大数据平台建设方案维护公共的共享信息资源目录,实现信息资源的发现和定位,协助共享平台管系统支撑按照基础目录、主题目录、部门目录等维度进行分类,并支持按.1大数据目录体系的建设,信息资源梳理是基础,通过梳理工作才能全面了解部门的数据家底。整个过程要以数据为核心,从业务、信息化、供需等层面全面调研、整理、分析。通过以数据为核心的架构思维,完成整个政务信息资大数据平台建设方案3、资源整理:整理分析哪些委办局的业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论