某地数智专业一体化城建设项目宇宙大数据项目学习研究技术方案_第1页
某地数智专业一体化城建设项目宇宙大数据项目学习研究技术方案_第2页
某地数智专业一体化城建设项目宇宙大数据项目学习研究技术方案_第3页
某地数智专业一体化城建设项目宇宙大数据项目学习研究技术方案_第4页
某地数智专业一体化城建设项目宇宙大数据项目学习研究技术方案_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

某地数智专业一体化城建设项目宇宙大数据项目学习研究技术方案需求分析业务目标需求分析信息资源整合需求某地数智专业一体化城建设项目宇宙大数据项目是一项旨在利用宇宙大数据技术,为城市建设提供智能化决策支持的综合性项目。该项目将采用先进的数据采集、存储、处理和分析技术,通过对海量宇宙数据的收集、整合和分析,为城市规划、交通管理、环境保护、公共安全等领域提供精准的数据支撑和服务。为了实现这一目标,本项目将采用以下技术方案:数据采集技术:通过卫星、无人机等遥感设备,对城市各个领域进行数据采集,包括城市地形、建筑结构、交通流量、气象环境等数据。同时,还将采用传感器等物联网设备,对城市内部的环境数据进行实时监测。数据存储技术:采用分布式数据库技术,对采集到的海量数据进行高效存储和管理。同时,还将采用云计算技术,将数据存储在云端,实现数据的共享和备份。数据分析技术:采用机器学习、人工智能等技术,对采集到的数据进行深度分析和挖掘,提取出有价值的信息和规律。同时,还将采用可视化技术,将分析结果以图表、地图等形式呈现给使用者。应用系统开发技术:基于上述技术和方案,开发一系列智能化的应用系统,为城市管理和决策提供支持。其中包括智能交通管理系统、智慧环保系统、公共安全监控系统等。在实施过程中,本项目将充分发挥团队协作和创新精神,不断优化和完善技术方案,确保项目的顺利推进和成功实施。同时,还将注重与相关行业的合作和交流,共同推动宇宙大数据技术在城市建设中的应用和发展。信息资源整合是一个为了某种应用目的对业务和信息资源进行梳理、分类、组织、标准化,以满足业务协同对信息资源共享需求的过程。它不只是一个技术过程,更重要的是一个建立信息资源共享和管理机制与规则的过程。同时,信息资源整合应体现信息资源与业务之间的关联性,以满足业务协同对信息资源共享的需要。应用系统整合需求经过多年的电子建设,某地各部门已经建成了BIG量的应用系统,由于协同工作的需要,各应用系统之间是相互关联的,它们之间存在BIG量的DATA交换与协同。在实际的工作中,对DATA进行跨部门交换的需求日益迫切。不少部门由于协同办公的需要,在部范围内建立了一些DATA交换的,但是由于这些交换与业务密切相关,不能推广到更多的电子应用中,造成了重复建设的现象。业务处理管理需求从信息资源的特点和应用需要来看,信息资源与活动密切相关,信息资源产生于活动的各个环节和部门。在的活动中,部门在履行职能、办理业务和事项中随时都需要和产生信息资源,它的存在和分布是跨行业、跨部门、跨地域的,并且BIG部分信息资源随着业务的开展不断产生和变化,是一种与活动相关的动态信息资源。所以,信息资源的整合应体现信息资源与业务之间的关联性和动态性,建立以业务需求为依据整合信息资源的机制,以满足协同业务对信息资源共享的需要。信息量指标结构化DATA10TB,非机构化DATA(视频、图片)1PB。系统性能指标一般性DATA保存、修改、删除等操作的响应反馈速度不应超过5秒。WEB应用程序不应超过15秒。一般10万条DATA的简单查询及统计不应超过30秒,百万条DATA的查询统计不应超过60秒。复杂综合性跨模块查询及统计不应超过2分钟。总体建设方案总体设计原则(1) 统一性原则遵循国家电子的要求,以系统工程的方法对系统进行统一规划、统一设计,遵循统一的规范,采用统一的技术,以方便系统建成后的运行和维护,保证系统可持续、高效、安全运行。(2) 标准性、开放性系统所采用的相关标准必须与国际、国家、、级标准相符合,确保系统具有良好的开放性,能够实现与多种技术和软硬件的有机集成。(3) 安全性系统应具有完整、全面的安全体系和良好的安全性,能够提供信息传输保密性、DATA完整性、身份识别和数字认证、防抵赖性等安全保障措施,确保信息交换的安全运行。系统设计不影响各部门相关信息系统的安全性。(4) 可扩展性系统采用可扩展的技术体系架构,以适应信息化建设和应用系统快速发展的要求。系统必须支持异构DATA库之间DATA交换和共享,支持主流关系型DATA库,支持不同操作系统之间信息交换应用的互联互通。(5) 高可靠性系统应具有良好的可靠性,建立各种故障的快速恢复机制,确保实现7×24小时地正常运转,确保信息交换工作正常运行。(6) 可管理性系统应具有良好的可管理性,允许管理人员通过管理工具实现系统全面的监控、管理和配置,并为系统故障的判断、排错和分析提供支撑,可对信息交换流程进行简易、灵活地定制和调整,同时对系统运行情况能够实时的统计分析、报表展示。(7) 实现信息全生命周期管理所谓全生命周期管理,就是指从人们对信息的需求开始,到信息报废的全部生命历程的管理。实现全生命周期,需要对城管理部件、企业和公众的信息进行全方位的收集和管理,优化、控制城部件、企业的生命历程,提升DATA融合服务的服务能力和的执能力。(8) 学设计,分步实施某地BIGDATA作为DATA融合、联网应用和服务的重要载体其建设是一个庞BIG而复杂的系统工程,必须采取强有力的统一规划、统一标准,总体把握、统筹推进,根据发展阶段和现实需要,有计划、有步骤地推进具体项目建设,并能有机融合,形成整体。其中系统的可靠性、高性能、安全性、绿色节能和扩展性五项将成为建设设计重点。(9) 信息为基,应用为本某地BIGDATA建设的目的是打造高效的某地城管理、企业服务和公众服务业务系统。因而,某地BIGDATA是业务系统建设的基础,建立完善的应用系统才是建设最终目的。只有基于某地BIGDATA建立的业务系统,才能发挥的作用。(10) 可伸缩和可扩展性原则系统应该真正符合多层浏览器/服务器体系结构,应能满足新增的需求,而系统的体系结构不需做较BIG的改变,并能保证系统今后的滑升级。应充分考虑现有技术以及未来电子的发展要求,保证系统具有较好的开放性和结构的扩展性,在系统设计中应尽量采用模块化结构、提高各模块的独立性,尽可能减少模块间的DATA藕合,使各模块问的DATA依赖程度减至最低限度,同时,要适当兼顾今后需求扩BIG时对功能扩展的需要。交换和节点应具备支撑多个应用系统的能力和节点个数的易扩充性。(11) 高效性原则系统的运行效率主要包括:处理能力,处理速度,响应时间等。系统在满足其他各项功能需要的前提下,应可能地提高系统运行效率。(12)友好性原则系统应具有人性化的人机交互界面,要求使用者界面标准,统一集成,使用简单,减少使用的复杂程度,提高使用效率。(13)可管理易维护性由于电子公共DATA开放共享系统,使用面广,系统稳定性可用性要求高,因此还必须具有良好的可管理和易于维护的特点。总体目标建设目标为:以完善的机制体制和全面的安全体系为保障,以弹性动态的基础设施为基础,以信息资源DATA的共享、交换、融合、服务为核心,以多部门的业务流程协同为手段,打造可持续运营的、实用的、能够真正服务于社会管理、城管理和社会经济管理的信息化体系,并探信息化与体制机制深度融合和互相促进,为未来数智专业一体化城的建设打下良好的基础。目标可分解为如下的子目标:1) 实现某学习单位、所有部门及临时设立的机构的DATA交换,基础DATA集中、清洗、整理,以合理的DATA结构进行存储,打破部门信息壁垒,解决信息孤岛问题。2) 形成一整套DATA清洗整理体系,前期采集DATA通过采集-清洗-反馈-修改-再次采集DATA循环,清洗整理,后期各个部门新生产的DATA,都以几个DATA主体部门DATA为基础,产生DATA后,再采集清洗,逐步提升基础DATA质量。3) 形成整套DATA共享体系。DATA采集清洗整理后,集中到某地BIGDATA,各个部门对已整理的DATA提出DATA要求,在实现DATA安全、保密等多重权限控制情况下,以多种方式提供给部门使用者。实现部门之间的DATA共享、共用,统一DATA环境,减少部门之间DATA差异,提高各部门DATA质量,方便部门应用。4) 实现综合应用的建设。在完善的DATA采集、清洗、共享体系下,在完整、实时、权威及合理结构化的DATA融合服务之上,实现区域化整体DATA应用,为组织单位、公众群体提供完整的DATA展现、全面的基础DATA服务,以及为领导决策层提供全面的、多层次的、直观的、实时有效的DATA分析,解决当前部门应用片面不完整,无法宏观把控的面。总体建设任务BIGDATA通过将各委办及投资信息资源梳理和整合,建立基础地理空间库、XX库、XX库、宏观经济库、信用信息库和城建筑信息库六BIG基础库,建立信息系统的基底DATA,实现城管理中各要素的全面管理,为应用信息系统建设提供统一的DATA服务。通过统一的DATA管理,提供DATA标准化工具,使得DATA的收集、清理、整合等更加标准与完善,实现各个系统DATA的一致性,保证不同来源的信息能够无缝使用,实现提供DATA检查、DATA转换、DATA入库、DATA库性能调优、DATA备份与恢复管理、DATA权限控制、DATA导入导出、DATA查询统计等功能,在保证DATA高效应用基础上,保证DATA的安全性。通过建立DATA交换,需实现自动抓取各委办和投资信息系统中的增量DATA,使得各个单位收集及产生的DATA向公共基础DATA库的汇聚,保证公共基础DATA库DATA的能更新、可更新和及时更新,保障公共基础DATA库DATA的现势性。系统总体结构BIGDATA依托某地级数智专业一体化城云计算中心和BIGDATA,对“数智专业一体化某地”所需计算、存储、网络资源进行扩容,为形成一体化的“数智专业一体化某地”支撑与应用体系奠定基础。以资源整合、信息共享、协同应用为主线,通过DATA资源统一管理、共享交换与综合应用,形成“数智专业一体化某地”整体框架,为“数智专业一体化某地”建设提供DATA资源共享化、基础标准化、辅助决策智能化、数智专业一体化服务享受“一站式”的核心基础支撑,带动各领域的资源共享交换、业务协同、智能化应用与便捷化数智专业一体化服务。项目最终建成开放、可共享的高端计算环境,服务于信息化、同时为企业创造新型研、生产手段和资源服务,为研提供国际水准的现代化研环境,为跨行业跨学的技术合作创造机会,引导培育开发一批推动经济建设和行业发展的应用项目,培育新的经济增长点,培养和吸引一批高级信息技术人才。BIGDATA在整个架构中每一层贯穿安全保障体系和标准规范体系,全面保障某地BIGDATA的整体安全和稳运行,范围涵盖某地。DATA接入层DATA接入是指不同部门按照业务需求,确定信息交换流程,在部门间实现具有主动推送特点的连续、实时信息传输。典型的应用有公文交换、部门间基础信息交换、综合治税信息交换、信用信息交换、社会保障信息交换等。信息交换有集中交换、分布交换与混合交换等三种模式。DATA交换的主要任务是实现DATA的发送与接收,对参与者的合法性进行验证,并通过与DATA传输中间件的配合,实现可靠的DATA交换。DATA可靠传输的目的是实现传输过程中的“不错、不丢、不重”。DATA传输的可靠性由所选定的中间件软件保证,通过DATA传输中的DATA压缩/解压缩以及断点续传等功能,保证DATA交换的可靠性。DATA处理层不同委办交换而来的DATA经过DATA清洗、比对、融合环节,为某地BIGDATA打造信息完整、结构清晰合理、DATA准确及时的权威DATA库。DATA清洗由于信息共享DATA采集部门较多,各个DATA采集部门的信息化建设程度各异,DATA维护程度也各自不同,信息共享对从各个DATA采集部门采集回来的DATA进行规范性清洗,屏蔽DATA采集过程中,DATA格式错误、无用甚至对信息共享有危害的DATA。为信息共享建设DATA服务中心提供前期的一个DATA过滤。DATA比对DATA比对主要是对采集回来的各类DATA,进行关键字段的比较核对,形成各类型属性DATA在主表上的挂靠,同时也将采集过来的各个类型属性DATA中信息错误或有差异的DATA进行更正、统一。针对已经采集并清洗后的DATA,分类同地理、自然XX、组织单位三BIG库主表进行DATA比对,比对上的DATA,分主表和附属信息表存储,包括新增、修改。主表信息,累计增加,附属表比对上后携带主表id存储。无法比对上的附属表信息作为异常DATA存储,以便统计和后期反馈。DATA比对主要分为程序比对和人工比对两种手段,程序无法识别的DATA由人工进行核实。异常DATA反馈异常DATA反馈功能,将DATA采集、清洗、比对同DATA采集部门形成互动。将清洗和比对工作中发现的异常DATA反馈给DATA提供部门,提醒DATA提供部门核实的同时,也帮助提高部门自身业务DATA准确性。DATA融合层DATA共享在完成DATA比对,形成地理信息、自然XX、组织单位三BIG对象DATA结构体系后,通过地理信息库标准地址和自然XXXXX号码进行三BIG库整合,使三BIG相对独立的对象进行关联,有效的实现地理、XX、组织单位的紧密结合,从而构成完整的某地基础信息DATA库,DATA融合的过程如下图所示:主体对象表抽取对各个部门采集DATA进行清洗后,将信息过后的DATA分主次抽取,抽取地理、XX、组织单位三BIG主体对象,形成主体库。其中地理信息库主表,主要由地理信息构成,以地址信息id为主键,详细地址信息为主要字段,形成地址信息库主表。自然XX信息库主表,主要由自然XX信息构成,以XX信息id(或XXX号)为主键,以自然XX地址信息、自然人姓名、性别等信息为主要字段,形成自然XX信息库主表。组织单位信息库主表,主要由工商企业登记信息、编办事业单位信息、民社会团体、民办非企业单位及质监的组织机构代码颁证信息构成,以组织单位id为主键,以工商注册号、组织机构代码证、组织单位名称、注册地址、办公地址等信息为主要字段,形成组织单位信息库主表。主题表关联各主题库通过对应的主题表中的主键相互关联,如组织单位主题表通过企业地址与地址信息主题表关联、XX主题表通过人员居住地址与地理信息主题表关联、自然人主题表通过XXX号与组织单位主题表关联。属性信息与地理信息的关联属性信息与地理信息的关联地址编码主要通过地址编码实现。地址编码的过程通常包括两个明确的步骤,即地址标准化和地址匹配。地址标准化是指在进行地址编码之前,将道路地址处理为一种熟悉的、常用的格式,纠正道路和地址名称的形式等。目前宁波规划已经采集了20多万条标准地址DATA,具备了地址匹配的基础要求。地址匹配指确定具体地址事件的空间位置,并且将其绘制在地图上,最终目标是为给定地址,如:企业地址、人员居住地址等返回最准确的匹配结果,并通过GIS服务器在地图上找到并标明每条地址所对应的位置。地址编码的方式有3种:定位到道路、定位到区域以及定位到道路和定位到区域相结合的方式。定位到道路:是通过道路名和门牌号码进行匹配,在参考主题中每一个路段都具有道路名和起止门牌号码信息,在地理编码时,首先首先根据地址信息中道路名找到参考主题中相同名称的路段,然后根据地址信息中的门牌号及每个路段的起止门牌号码信息找到门牌号所在路段,最后根据门牌号及该路段的起止门牌号码信息进行内插确定该记录在该路段上的位置。定位到区域:将地址中具有区域属性的记录与地图地址相应属性的区域记录进行比较,如果匹配成功,则将待查地址区域以点要素形式生成在地图的相应区域内。定位到区域以及定位到道路和定位到区域相结合的方式:是将上述两个方法折中的方式来实现的。采用地址编码的优点:信息自动匹配,信息自动关联融合,减少了人力物力开销。缺点:匹配信息存在不准确现象,系统实现过程复杂。DATA仓库层随着某地BIGDATA将越来越多的部门DATA收集整合起来,信息共享DATA内容越来越复杂,更多的DATA信息无法得到有效的分析利用。而随着社会信息化的快速发展,使用者决策任务越来越重,决策频率也越来越高,原始的DATA分析已经无法负荷这种BIG量度、高频率、多维度的决策支持工作,为此信息共享引入DATA仓库技术。DATA仓库是一个面向主题、集成的、非易失的、随时间变化的DATA集合,能够对DATA进行分类、元DATA抽取、DATA统计、模型搭建、历史DATA存储等操作,为智能分析提供多角度、多层次、多时间面的DATA支持,方便智能分析中DATA统计,利用DATA仓库,新的分析需求无需从原始DATA进行重新归总统计,可直接利用初步综合DATA或中度综合DATA甚至高度综合DATA,从而节约DATA分析时间,快速支持使用者决策,同时也节约了分析系统设计开发成本。DATA仓库还存放了BIG量的历史统计静态DATA,对于以时间为主线的环比、同比、趋势等分析可提供直接的DATA支持,不需向原始的DATA分析那样去使用原始的历史DATA来重复统计,也解决有些DATA无历史DATA记录的弊端。DATA应用层应用系统是DATA融合服务建设的目的,通过应用系统的建设,充分发挥基础XX、组织单位库和地理信息库融合以及多部门信息整合的优势,满足以往做不好或者不能做的业务应用,以各种灵活的方式为使用者提供应用服务,例如部门共享应用、数智专业一体化社区、应用、领导桌面、智能分析、权限管理、全面审计、DATA资源、单点登录、公众服务等。应用架构及设计整体架构分为三层,最底层是基础层,包括云即云计算中心、物联网和基础网络工程。再向上是DATA层,即BIGDATA,最上层为应用服务层。BIGDATA包含:基础DATA库即XX、XX、空间地理、建筑、信用信息和宏观经济等六BIGDATA库。专题服务DATA库,包括各行业各部门DATA的专题DATA库。BIGDATA基础某地服务所需要的DATA来自于各委办和街道,包含传统DATA库DATA、视频、图片、声音、日志文件、电子邮件、地图、Word、PDF等各种文档。这些DATA分为结构化DATA、半结构化DATA和非结构化DATA。这些类型的DATA无法用传统关系型DATA库进行DATA处理和分析,必须借助于BIGDATA基础的HDFS、Hbase、MapReduce等技术手段进行处理和分析,支持顶层应用系统的DATA利用。BIGDATA基础主要包括如下组件:BIGDATA运行维护管理组件运行维护管理组件提供BIGDATA组件部署及动态扩容,提供BIGDATA部署工具,组件部署管理及动态增加机器节点管理工具;组件服务监控管理,提供组件的运行状态、组件的负载情况监控及组件的启动、停止、移除等管理;组件故障自动迁移,节点组件出现故障时,集群中的其它节点中的相应组件自动接管故障组件的工作,保证组件正常服务。主要由两部分组成:运行维护管理组件-agent和运行维护管理组件-server。在agent端,采用puppet管理节点;在Server端,采用Jetty,Spring,Jetty,JAX-RS等;可以利用Ganglia,Nagios的分布式监控能力。下图是运行维护管理组件的系统架构。其中master模块接受API和AgentInterface的请求,完成运行维护管理组件-server的集中式管理监控逻辑,而每个agent节点只负责所在节点的状态采集及维护。运行维护管理组件Server会读取Stack和Service的配置文件。当用运行维护管理组件创建集群的时候,运行维护管理组件Server传送Stack和Service的配置文件以及Service生命周期的控制脚本到运行维护管理组件Agent。Agent拿到配置文件后,会下载安装公共源里软件包(Redhat,就是使用yum服务)。安装完成后,运行维护管理组件Server会通知Agent去启动Service。之后运行维护管理组件Server会定期发送命令到Agent检查Service的状态,Agent上报给Server,并呈现在运行维护管理组件的GUI上。运行维护管理组件Server支持RestAPI,这样可以很容易的扩展和定制化运行维护管理组件。甚至于不用登陆运行维护管理组件的GUI,只需要在命令行通过curl就可以控制运行维护管理组件,以及控制Hadoop的cluster。分布式DATA库采用分布式DATA库Hbase。同时利用HBase中的主从复制和循环复制,使得系统达到一种高可用的状态。HBase复制是一种在不同HBase部署中复制DATA的方法。它可以作为一种故障恢复的方法,并提供HBase层次的高可用性。在实际应用中,例如,可以将DATA从一个面向页面的集群复制到一个MapReduce集群,后者可以同时处理新DATA和历史DATA。然后再自动将DATA传回面向页面请求的集群。HBase复制中最基本的架构模式是“主推送”(master-push),因为每个regionserver都有自己的WAL(或HLog),所以很容易保存现在正在复制的位置。正如众所周知的解决方案-Mysql的主/从复制,只使用二进制文件来跟踪修改。一个主集群可以将DATA复制到任意数目的从集群,每个regionserver都会参与复制自己的修改。复制是异步进行的,意味着集群可以是地理上彼此远离的,它们之间的连接可以在某个时刻断开,在主集群上的修改不能马上在从集群上进行同步(最终一致性)。和SQL语句不同,所有的WALEdits(包括来自客户端的Put和Delete产生的多单元格操作)都会被复制以保证原子性。来自每个regionserver的HLog是HBase复制的基础,并且只要它们需要将DATA复制到从集群,它们就必须被保存到HDFS上。每个regionserver从它需要的最老的日志开始复制,同时在zookeeper中保存当前恢复的位置来简化错误恢复。每个从集群恢复的位置可能不同,但它们处理的HLog队列内容是相同的。参与复制的集群的规模可以不对等。主集群会通过随机分配尽量均衡从集群的负载。分布式DATA仓库采用分布式DATA仓库Hive。XData-Hadoop发行版中Hive的元DATA是存储到Mysql中,利用mysql的ha对hive的元DATA进行高可用设计。具体如下:安装MySQLHA集成环境的两个节点要配置无密码环境,并且两个节点互相加入了对方节点的known-hosts文件。Heartbeat主从节点都需要两个网卡,一个网卡需要为外网访问提供服务,一个网卡需要为心跳线服务,两个网卡配置IP不能在同一子网中,心跳线所使用网卡IP不要设置路由信息。主节点上的两个不同用处的网卡名称应该分别与从节点上的两个不同用处的网卡对应并相同。Hive是建立在Hadoop上的DATA仓库基础构架。它提供了一系列的工具,用来进行DATA提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的BIG规模DATA的机制。Hive定义了简单的类SQL查询语言,称为QL,它允许熟悉SQL的使用者查询DATA。作为一个DATA仓库,Hive的DATA管理按照使用层次可以从元DATA存储、DATA存储和DATA交换三个方面来介绍。1、元DATA存储Hive将元DATA存储在RDBMS中,有三种模式可以连接到DATA库:SingleUserMode:此模式连接到一个In-memory的DATA库Derby,一般用于UnitTest。MultiUserMode:通过网络连接到一个DATA库中,这是最常用的模式。RemoteServerMode:用于非Java客户端访问元DATA库,在服务器端启动一个MetaStoreServer,客户端则利用Thrift协议通过MetaStoreServer来访问元DATA库。2、DATA存储首先,Hive没有专门的DATA存储格式,也没有为DATA建立索引,使用者可以非常自由地组织Hive中的表,只需要在创建表的时候告诉HiveDATA中的列分隔符和行分隔符,它就可以解析DATA了。其次,Hive中所有的DATA都存储在HDFS中,Hive中包含4种DATA模型:Table、ExternalTable、Partition、Bucket。Hive中的Table和DATA库中的Table在概念上是类似的,每一个Table在Hive中都有一个相应的资源来存储DATA。例如,一个表pvs,它在HDFS中的路径为:/wh/pvs,其中,wh是在hive-site.xml中由${hive.metastore.warehouse.dir}指定的DATA仓库的资源,所有的TableDATA(不包括ExternalTable)都保存在这个资源中。Partition对应于DATA库中Partition列的密集索引,但是Hive中Partition的组织方式与DATA库中的很不相同。在Hive中,表中的一个Partition对应于表下的一个资源,所有的PartitionDATA都存储在对应的资源中。例如:pvs表中包含ds和city两个Partition,则对应于ds=20090801,city=US的HDFS子资源为:/wh/pvs/ds=20090801/city=US;对应于ds=20090801,city=CA的HDFS子资源为:/wh/pvs/ds=20090801/city=CA。Buckets对指定列计算hash,根据hash值切分DATA,目的是为了便于并行,每一个Buckets对应一个文件。将user列分散至32个Bucket上,首先对user列的值计算hash,比如,对应hash值为0的HDFS资源为:/wh/pvs/ds=20090801/city=US/part-00000;对应hash值为20的HDFS资源为:/wh/pvs/ds=20090801/city=US/part-00020。ExternalTable指向已经在HDFS中存在的DATA,可以创建Partition。它和Table在元DATA的组织结构上是相同的,而在实际DATA的存储上则有较BIG的差异。在Table的创建过程和DATA加载过程(这两个过程可以在同一个语句中完成)中,实际DATA会被到DATA仓库资源中。之后对DATA的访问将会直接在DATA仓库的资源中完成。删除表时,表中的DATA和元DATA将会被同时删除。ExternalTable只有一个过程,因为加载DATA和创建表是同时完成的。实际DATA是存储在Location后面指定的HDFS路径中的,它并不会到DATA仓库资源中。3、DATA交换DATA交换主要分为以下几个部分DATA交换组成部分使用者接口:包括客户端、Web界面和DATA库接口。元DATA存储:通常是存储在关系DATA库中的,如MySQL、Derby等。解释器、编译器、优化器、执行器。Hadoop:用HDFS进行存储,利用MapReduce进行计算。使用者接口主要有三个:客户端、DATA库接口和Web界面,其中最常用的是客户端。Client是Hive的客户端,当启动Client模式时,使用者会想要连接HiveServer,这时需要指出HiveServer所在的节点,并且在该节点启动HiveServer。Web界面是通过浏览器访问Hive的。Hive将元DATA存储在DATA库中,如MySQL、Derby中。Hive中的元DATA包括表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表DATA所在的资源等。解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化到查询计划的生成。生成的查询计划存储在HDFS中,并在随后由MapReduce使用执行。Hive的DATA存储在HDFS中,BIG部分的查询由MapReduce完成(包含*的查询不会生成MapRedcue任务,比如select*fromtbl)。以上从Hadoop的分布式文件系统HDFS、分布式DATA库HBase和DATA仓库工具Hive入手介绍了Hadoop的DATA管理,它们都通过自己的DATA定义、体系结构实现了DATA从宏观到微观的立体化管理,完成了Hadoop上BIG规模的DATA存储和任务处理。分布式计算模块利用MapReduce、Spark等分布式计算框架,为上层应用提供BIGDATA分布式计算的支撑,提供Mahout,MLlib等算法库支撑,提供DATA存储访问及分布式计算任务的调度、运行支撑环境能力。MapReduceXData-SDH的BIGDATA批处理的计算模式是MapReduce,这是MapReduce设计之初的主要任务和目标。MapReduce是一个单输入、两阶段(Map和Reduce)的DATA处理过程。首先,MapReduce对具有简单DATA关系、易于划分的BIG规模DATA采用“分而治之”的并行处理思想;然后将BIG量重复的DATA记录处理过程总结成Map和Reduce两个抽象的操作;最后MapReduce提供了一个统一的并行计算框架,把并行计算所涉及到的诸多系统层细节都交给计算框架去完成,以此BIGBIG简化了程序员进行并行化程序设计的负担。MapReduce的简单易用性使其成为目前BIGDATA处理最成功的主流并行计算模式。在开源社区的努力下,开源的Hadoop系统目前已成为较为成熟的BIGDATA处理,并已发展成一个包括众多DATA处理工具和环境的完整的生态系统。目前几乎国内外的各个著名IT委办都在使用Hadoop进行委办内BIGDATA的计算处理。HadoopHDFS是GoogleGFS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase、HyperTable)的底层分布式文件系统。HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。如下图所示(HDFS体系结构图):HDFS体系结构图HadoopMapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的BIG型集群上,并以一种可靠容错的方式并行处理上TB级别的DATA集。一个MapReduce作业(job)通常会把输入的DATA集切分为若干独立的DATA块,由Map任务(task)以完全并行的方式处理它们。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。如下图所示(HadoopMapReduce处理流程图):HadoopMapReduce处理流程图Spark分布式计算框架Spark是一个通用的并行计算框架,是一种快速处理BIG规模DATA的通用引擎。HadoopMapReduce的每一步完成必须将DATA序列化写到分布式文件系统导致效率BIG幅降低。Spark尽可能地在内存上存储中间结果,极BIG地提高了计算速度。MapReduce是一路计算的优秀解决方案,但对于多路计算的问题必须将所有作业都转换为MapReduce模式并串行执行。Spark扩展了MapReduce模型,允许开发者使用有向无环图(DAG)开发复杂的多步DATA管道。并且支持跨有向无环图的内存DATA共享,以便不同的作业可以共同处理同一个DATA。Spark不是Hadoop的替代方案而是其计算框架HadoopMapReduce的替代方案。Hadoop更多地作为集群管理系统为Spark提供底层支持。Spark可以使用本地Spark,HadoopYARN或ApacheMesos作为集群管理系统。Spark支持HDFS,Cassandra,OpenStackSwift作为分布式存储解决方案。Spark采用Scala语言开发运行于JVM上,并提供了Scala,Python,Java和R语言API,可以使用其中的Scala和Python进行交互式操作。流DATA处理及消息框架支持主流的流处理框架,框架采用小批量流式处理方式,每隔设定间隔(100毫秒)处理当前批次DATA;可支持复杂SQL应用和在线流式机器学习。并且支持Kafka,Flume等常见消息队列或采集工具,兼容现有Hadoop生态系统。支持storm流式处理框架。具有扩展性强、容错性强、延迟低、吞吐高等特点。而且可以将kafka,storm,Hbase等组件连接起来。SparkStreaming流式计算随着BIGDATA的发展,人们对BIGDATA的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、使用者行为分析等。SparkStreaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,使用者可以结合流式、批处理和交互试查询应用。本节将详细介绍SparkStreaming实时计算框架的原理与特点、适用场景。Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式DATA集,提供了比MapReduce更丰富的模型,可以在快速在内存中对DATA集进行多次迭代,以支持复杂的DATA挖掘算法和图形计算算法。SparkStreaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理BIG规模流式DATA的能力。SparkStreaming的优势在于:能运行在100+的结点上,并达到秒级延迟。使用基于内存的Spark作为执行引擎,具有高效和容错的特性。能集成Spark的批处理和交互查询。为实现复杂的算法提供和批处理类似的简单接口。基于SparkonYarn的SparkStreaming总体架构如下图所示。SparkonYarn启动后,由SparkAppMaster把Receiver作为一个Task提交给某一个SparkExecutor;Receive启动后输入DATA,生成DATA块,然后通知SparkAppMaster;SparkAppMaster会根据DATA块生成相应的Job,并把Job的Task提交给空闲SparkExecutor执行。图中蓝色的粗箭头显示被处理的DATA流,输入DATA流可以是磁盘、网络和HDFS等,输出可以是HDFS,DATA库等。分布式消息框架分布式消息系统属于中间件产品,功能是将前端采集来的DATA进行分布式缓存,以供后端进行实时处理。Kafka是一种分布式的,基于发布/订阅的分布式消息系统。可以用来缓存采集的流DATA。Topic:特指Kafka处理的消息源的不同分类。Partition:Topic物理上的分组,一个topic可以分为多个partition,每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id(offset)。Message:消息,是通信的基本单位,每个producer可以向一个topic(主题)发布一些消息。Producers:消息和DATA生产者,向Kafka的一个topic发布消息的过程叫做producers。Consumers:消息和DATA消费者,订阅topics并处理其发布的消息的过程叫做consumers。Broker:缓存代理,Kafa集群中的一或多服务器统称为broker。DATA采集管理组件对DATA源的提供者、业务来源、连接信息、连接状态等进行管理,实现对DATA来源的跟踪;DATA库DATA采集,提供自Oracle、SQLServer、MySql等DATA库中采集DATA的功能,并进行定时的自动化采集;结构化文件DATA采集,提供自结构化DATA文件中采集DATA的功能,并对文件中的DATA行进行自动化字段拆分;非结构化文件采集,提供自FTP自动化定时采集非结构化文件,并对采集到的文件进行统一管理。DATA源管理可实现对DATA源,可实现对本地文件、主流结构化DATA库、分布式DATA存储等DATA源的提供者、业务来源、连接信息、连接状态等进行管理。支持的本地化文件包括excel、csv等;支持的主流结构化DATA库包括MySql、Oracle、PostgreSql、SQLserver、DB2、MonetDB等;支持的分布式DATA存储包括HDFS、Hive、Hbase等。DATA采集DATA采集包括DATA库DATA采集、结构化文件DATA采集、非结构化DATA采集。DATA采集通过ETL工具实现,ETL负责将分散的、异构DATA源中的DATA如关系DATA、面DATA文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到DATA仓库或DATA集中,成为联机分析处理、DATA挖掘提供决策支持的DATA。该系统采用SOA技术架构设计,采用组件复用和框架技术,以SOA面向服务的架构为基础,通过该服务开发出的应用系统具备松散耦合、可重用服务、标准化的服务接口、支持各种消息模式,实现应用系统之间以及与其他外部应用系统无缝、高效集成。ETL即DATA采集单元,是DATA转出客户端,是与DATA库服务器相连的负责采集相关DATA的单元,一方链接DATA库,一方链接VPN,如源DATA库为多个,则ETL系统采集端部署多个与源DATA库对应。ETL系统采集端功能如下:1、基本信息配置:设置合作伙伴编码与名称,设置ETL系统采集端编码;导出文件配置:导出文件的保存路径、DATA文件名、DATA文件列分隔符、导出文件的编码格式,目前DATA文件默认为文本文件方式;2、链接配置:配置需要链接的DATA库的DATA库类型、链接的IP地址、DATA库使用者名和密码;配置对应的ETL系统入库端的链接地址、使用者名及密码;3、DATA集配置:配置需要提取的DATA集清单与每种DATA集的采集周期(比如年、月、日等);4、脚本编写及植入:可手工编写DATA提取的SQL语句或存储过程,然后将脚本植入到DATA采集单元中;5、运行监控:监控DATA采集的过程,日志自动保存与输出、报错提醒(邮件\短信等)等;6、DATA打包上传:对已经提取的DATA进行加密、打包且上传到DATA加载单元;为保证DATA采集的及时性、准确性,需要根据机房环境和DATA库种类的不同,为DATA采集单元设计不同的部署方式。DATA采集单元部署在机房,需要注意以下问题:根据机房环境,设计如何接入互联网的方案;DATA采集单元通过VPN连入外联区域;为达到免责目的,DATA采集单元务必独立于零售商的硬件设备;合理设计DATA采集单元相对于防火墙的位置;在一般情况下,采用远程桌面方式执行日常维护。系统特点支持多种运行环境支持云、Windows、Linux、Unix等主流操作系统厂商的运行环境;可移植性高,并可对多终端的DATA进行同步和协调。支持多DATA源DATA采集支持多DATA源DATA采集:支持从主流关系型DATA库(oracle,MYSQL,SQLServer,DB2,sydbase,informix,达梦,神通),webservice接口,文件服务器等多种存储设备中采集DATA。支持BIGDATA存储和访问全面支持BIGDATA存储和访问,支持BIGDATA环境的DATA采集。支持BIGDATA存储载体Hadoop/HDFS和Avro,支持访问HDFS内的文件内容。支持主流NoSQLDATA库,包括:Hbase,mongodb等。图形化作业支持图形化作业:从图形化界面创建DATA采集转换、作业,以流程图方式呈现,具备清晰,直观的可视化操作界面。可视化作业支持可视化作业监控调度:在web可视化界面上统一调度作业,支持作业的执行,暂停,以及作业的日志报告查看。支持多DATA标准支持XML、WebServices、JSON,JMS等DATA标准;遵循restful风格遵循restful风格标准消息传递机制;DATA运行维护管理组件DATA运行维护管理组件提供对BIGDATADATA的统一监控和运行维护管理,具体功能包括:DATA监控,对BIGDATA中已有DATA存储量、DATA增量、表数量、在线访问人数等信息进行监控;DATA处理任务管理,对中的DATA采集处理任务信息进行集中查看及管理;操作日志管理,对中的使用者登录情况、使用者访问DATA表的情况进行日志记录,并提供筛选及查询功能;使用者及部门管理,提供多层级的部门管理及使用者管理,并提供使用者排序等功能;角色及DATA权限管理,提供自定义管理员及使用者角色的功能,对不同角色可授予精细至表字段的DATA访问权限管理;审批管理,提供审批权限配置工具,并根据配置进行流转审批管理。DATA监控整体状态监控提供对交换节点、交换作业、吞吐量、异常情况的整体监控。可按照过去一小时、过去一周、过去30天等维度查看DATA交换实时流量。可查看交换节点的服务器名称、主机名或IP地址、端口号、是否主服务器、用途、状态等详细信息。基础DATA库(1)信息资源规划某地BIGDATA作为部门DATA交换中心和DATA共享中心,需要实现DATA的集中交换和集中存储,因此,在全面建设之前,必须通过信息资源梳理,对某地各委办之间的输入DATA及输出DATA进行全面梳理,分析出需要集中交换与共享的DATA。在此基础上,通过与中心交换的方式,实现各委办之间的DATA共建共享。信息资源梳理是对某地各委办在业务开展过程中,从DATA的采集、存储、传输到使用的全面规划。通过对各委办的信息需求获取、现状信息环境调研、信息需求分析等一系列DATA资源梳理分析工作,站在某地整体的基础之上,设计某地BIGDATA中心需要存储的DATA和交换的DATA,并在此基础之上,制定DATA存储和交换的DATA标准。(2)基础DATA库某地BIGDATA未来需要集中存储的DATA包括各委办需要交换进来的DATA和需要交换出去的DATA,两部分DATA按照业务主题可划分为XX、XX、空间地理和宏观经济四类DATA,每类DATA结合国家目前正在建设的XX库、XX库、空间地理库和宏观经济库等内容,主要内容包括:XX类DATA:存储与XX相关的各种属性信息,包括XX基本信息、XX扩展信息及专用信息,XX基本信息中存储XX最基本的DATA项信息,包括:姓名、性别、民族、出生日期、住址、公民身份号码、照片,XX扩展信息中存储户籍、出生、死亡等信息,XX专用信息中按涉及XX管理的委办具体的行管理职能存储专用的XX信息,包括卫生、教育、税务、计生等专有信息。XX类DATA:存储与XX相关的各种信息,包括XX基本信息及XX扩展信息。XX基本信息中存储XX最基本的DATA项信息,包括:机构名称、机构类型、机构住所、法定代表人姓名、经营或业务范围、注册或登记机构名称、注册或登记号、资金币种、注册资本或开办资金金额、成立日期、行区域代码等信息;XX专用信息中按涉及XX管理的委办具体的行管理职能存储专用的XX信息,包括工商、质监、税务等专有信息。空间地理DATA:存储与空间地理有关的元DATA库、基础空间DATA库、信息图层DATA库、地名地址DATA库、历史DATA库、三维模型DATA库等七BIG类。宏观经济DATA:由部门DATA信息和类别DATA信息组成。部门DATA信息反映从各委办采集、清洗、比对后的信息,信息的存储按照DATA部门来源划分;类别DATA信息是按照经济、社会、居民生活等DATA类型进行存储,同一DATA类别的信息可以来源于多个部门。(3)基础DATA框架DATA资源体系框架是某地BIGDATA从DATA采集、处理、存储和管理的总体架构,为上层应用提供高档次的DATA存储和处理环境,DATA资源体系框架主要侧重于业务处理所需的信息和信息流,从实际业务出发,开展DATA资源梳理,从DATA采集、处理、传输、到使用进行统一规划,设计某地BIGDATA整体的DATA资源架构。从存储信息对象上来看,主要存储三BIG库DATA、以及从互联网上获取的各种信息的社会综合BIGDATA。从DATA处理过程来看,某地BIGDATADATA资源体系框架总体架构如下图所示:(4)基础DATA分区根据DATA资源共享交换DATA库规划,DATA资源共享交换的DATA存储由交换DATA临时存储区、操作型DATA存储区、DATA仓库、DATA集4个区域构成,具体建设的时候需要根据它们各自的特点分别进行设计。交换DATA临时存储区。交换DATA临时存储区(ExchangeDataStore,EDS)是用来保证DATA交换过程中安全隔离和临时存储的存储区,其DATA结构应与接入的应用系统保持一致。操作型DATA存储区。操作型DATA存储区(OperationalDataStore,ODS)存放集成的、可更新的、近实时的业务DATA。ODS主要用于异构业务DATA源的明细DATA整合后、进入DATA仓库前的存储,并提供企业面向业务的、近实时的统一DATA视图,支持企业全业务DATA的近实时查询与分析。ODS是业务系统间公共和共享DATA的存储区,是业务系统与DATA仓库间的DATA迁移的缓存区,是支持DATA资源共享交换应用中实时查询DATA的存储区,是日常业务决策支持的DATA存储区。ODSDATA模型依据DATA模型构建,基于主题域组织,其主题域划分和核心DATA实体与企业DATA模型相同。DATA仓库。DATA仓库(DataWarehouse,DW)存放面向主题的、集成的、相对稳定的、反应历史变化的DATA。DATA仓库统一存放与管理经整合后、具体分析价值的企业历史DATA,支持基于BIG量历史DATA的企业决策分析。DATA仓库中存储从业务系统中到处的用于决策和挖掘的企业DATA,也到处操作型DATA的轻度汇总DATA。DATA仓库的DATA一部分通过ODS导入,一部分通过业务系统直接导入。DATA仓库的DATA模型按照主题组织,主题域划分与DATA模型相同,DATA模型依据DATA模型构建。DATA集。DATA集(DataMarkets,DM)是以DATA仓库DATA为唯一DATA源、面向特定分析应用、俺一定方式重新组织的DATA集合,是DATA仓库的子集。DATA集基于DATA仓库创建,用于不同业务部门的需求和不同分析应用的分析DATA的存储,DATA集的DATA模型与企业DATA模型一直,用于描述企业业务部门、企业综合分析以及高级管理人员分析所需的DATA。DATA集模型也按主题组织,但其主题域划分与DATA模型不同,DATA集的主题是基于企业的不同部门、不同人员的分析需求而组织的。基础DATA分层。某地BIGDATADATA模型是DATA资源层的核心,是整个某地BIGDATADATA资源标准的具体体现,包括两级四层,分别为级DATA模型、应用级DATA模型。级DATA模型包括级概念DATA模型和级逻辑DATA模型。级概念DATA模型定义某地BIGDATA中心的主题域,反映业务的综合性信息需求。级逻辑DATA模型是对概念DATA模型的分解和规范化,描述实体、属性及实体之间的关系,提供了某地BIGDATA中心的总体DATA视图。通过建立级DATA模型,规范应用级DATA模型的设计,可减少信息化应用之间DATA的重复定义和不一致性,从源头上保证DATA的质量,降低应用集成和DATA共享的难度。级DATA模型应在各应用系统建设之前,从整个某地的角度,统一、集中设计DATA模型,保证DATA存储模式合理、学。应用级DATA模型包括应用级逻辑DATA模型和应用级物理DATA模型。应用级逻辑DATA模型是针对具体信息化应用的逻辑DATA模型,通常为级逻辑DATA模型的子集,为系统开发提供DATA规范。应用级物理DATA模型是在应用级逻辑DATA模型的基础上,考虑各种具体的技术实现因素,结合具体DATA库管理系统,进行物理结构设计,以满足DATA存储需要。应用级DATA模型是应用系统的重要组成部分,按照应用系统建设进程不断建立和完善。DATA交换DATA交换,通过各种方式,逐步采集完善各类基础DATA及专题DATA;通过DATA交换,按照统一的标准和规范,将某地各个委办的DATA资源汇总到某地BIGDATA,实现某地信息资源的汇聚和传递,满足全县各个委办对实时信息的横向交换以及业务协同等需求,为某地协同、公共服务和辅助决策等提供信息交换和共享服务;为保证DATA的动态准确性,需要对基础空间地理信息库、XXDATA库、XXDATA库等三BIG基础DATA库的信息进行DATA清洗、DATA比对、异常DATA反馈、DATA入库等加工处理。(1)DATA采集1)DATA采集方向为了保障XX库、XX库、空间地理信息库和宏观经济库等DATA在采集过程中的完整性、准确性和及时性,应从以下几个方面进行:建立DATA采集组织,实地开展DATA采集工作。通过划分区域,由专人负责定时采集和更新相应区域的四BIG库DATA。通过对采集人员的培训以及制定DATA采集制度、DATA填报表格,规范DATA采集工作,提高DATA采集质量。同时,开发DATA采集直报系统,充分利用应用等技术,实现异地DATA直报,提高DATA采集工作效率。在行审批过程中,逐步采集完善基础DATA。各委办、服务中心在各事项审批过程中,登记和审核各种与自然人、XX的相关证件信息和基本信息,这些信息可以作为XX库和XX库的DATA来源。通过与某省建设的电子信息系统对接,进行交换获取DATA。某省建设的电子类信息化系统包含了BIG量的基础DATA,并且这些系统为各部门提供了开放接口。某地BIGDATA可以与这些系统进行对接,获得与某地行管理范围内的XX、XX、空间地理和宏观经济DATA。通过XX普查工作完善基础DATA库DATA。借助每次XX普查工作的开展,收集XXDATA,通常XX普查登记包括了XX的自然特征,如年龄、性别、民族、家庭、生育、死亡等等,另外还有社会特征,比如人的迁移、分布、文化特征、教育特征、宗教等等。经济特征DATA主要包括就业状况、职业、行业等信息。2)DATA采集步骤对于DATA采集,建议采用分步进行,逐步扩充的原则,先整合目前能够获取的部门DATA,通过对这些DATA的整合,搭建起系统的整体框架,并制定相应的DATA规范标准以及DATA清洗比对规则。通过整体效应,吸引其他委办实现DATA共享。如果实际业务要求,需要实现DATA全面共享,对于未开放DATA接口的委办,采用以下两种方法获取相关DATA。一是DATA首次初始化,可以通过行手段,协调得到相关历史DATA,并根据历史DATA结构建立相关业务DATA库,对于新增或更新的DATA可以通过在采集页面增加DATA收集插件,对相关DATA库中的信息进行更新。二是在提供一个具有查询权限的使用者基础上,可以通过开发具有页面解析功能的插件,当使用者进行查询操作时,通过插件对查询结果页面进行分析,从中获取相关业务DATA字段信息,并将获取的信息保存到级DATA库中。在具体实施过程中,在对不开放DATA接口的委办,通过相关的页面插件收集DATA,存在一定的风险,如果DATA泄露,则会造成非常BIG的影响,所以建议从易到难,先整合目前能够开放DATA接口的委办DATA,在逐步扩充,最终实现DATA的全面共享。(2)DATA交换通过DATA交换,按照统一的标准和规范,将某地各个委办的DATA资源汇总到某地BIGDATA,实现某地信息资源的汇聚和传递,满足全各个委办对实时信息的横向交换以及业务协同等需求,为某地协同、公共服务和辅助决策等提供信息交换和共享服务。DATA交换的目的是实现传输过程中的“不错、不丢、不重”。DATA交换系统核心的功能包括DATA桥接模块、DATA传输模块、前置交换模块和交换管理监控模块。1)交换桥接模块桥接系统的功能完成委办业务系统信息库与前置信息库(或交换)之间双向安全、可靠的信息交换,并实现DATA格式转换。桥接实现方式包括直接连接、通过网闸等定时或实时传输。主要功能包括DATA映射、DATA提取、DATA抽取、过滤规则配置、DATA转换、DATA导出、DATA导入、监控管理等功能。2)交换传输模块交换传输系统即消息总线系统,作为前置交换系统之间的信息交换通道,实现交换信息的打包、转换、传递、路由、解包日志服务等功能。3)前置交换模块为确保各委办的原有系统的运行不被资源整合所影响,保障原系统的DATA安全,使用前置机作为各委办与DATA交换进行DATA交换的窗口,一方面从各业务系统提取DATA,向中心提交,另一方面从DATA中心接收DATA,并向业务系统传递DATA。前置机应具备缓存交换DATA,对DATA进行过滤、加工和展现的功能。主要由网络通信系统、操作系统、交换信息库、前置交换环境、交换服务配置工具等组成。4)交换管理监控模块交换监控模块作为交换系统的中心管理模块,协同委办交换前置机和中心交换前置机的运行并对交换系统的运行情况进行管理和监控。管理监控模块提供对整体的监控、业务域的管理、节点的管理、传输管理、安全管理、路由管理、统计分析和日志服务等功能。(3)DATA加工为保证DATA的动态准确性,需要对基础空间地理信息库、XXDATA库、XXDATA库等三BIG基础DATA库的信息进行加工处理。1)DATA清洗对各委办采集或交换来的DATA按照基础DATA的标准格式要求进行检查整理,对不符合质量要求或者错误的DATA进行更正,最终确保DATA的准确。DATA清洗的目的是数是保证DATA库DATA质量。2)DATA比对对DATA的字段、要求、合理数值范围、检查时段、预警方式等内容,按照不同DATA类型、DATA来源、变动方式进行单独或组合设置,由系统按照设置的比对指标,对各基础DATA库的信息进行综合比对分析,并生成比对结果,并根据授权情况,将比对结果分类下发到相关委办,对DATA进行核查。核查后反馈的DATA,将再次进入DATA加工环节。在核查过程中,系统按照设置的监管指标对各部门核查信息进行综合分析,并生成监察结果。3)异常DATA反馈异常DATA反馈实现DATA采集、清洗、比对同DATA采集委办形成互动,将清洗和比对工作中发现的异常DATA反馈给DATA提供委办,提醒DATA提供单位核实的同时,也帮助提高委办自身业务DATA准确性。4)DATA入库在DATA入库时,配置定义入库规则和配置定义入库流程,支持顺序入库,并行入库。新增DATA字段在入库前,要完成新增信息资源资源服务登记工作,包括进行入库元DATA和入库资源的编目、注册、发布、审核等工作。信息资源资源在开展基础应用、扩展应用和专业利用等应用中起承上启下的关键作用,为各种应用提供基础DATA管理服务,包括访问使用者认证、使用者授权、监控、日志等。DATA管理(1)资源资源服务按照国家信息资源资源体系标准,建立统一的信息资源资源体系,建设统一的信息资源管理中心,形成“物理分散、逻辑集中”信息资源管理模式;提高信息的交换能力,支持跨部门间的信息共享和业务协同,提高交各单位、各部门协同、管理水。通过借鉴信息资源资源体系,设计某地BIGDATA中心的信息资源资源服务系统,构建信息资源资源体系和信息资源共享环境,并通过资源服务实现跨部门的共享信息资源发现、定位与获取。该系统功能主要包括编目传输、资源服务、资源管理及共享服务。信息资源资源服务系统工作过程分为信息资源资源访问过程、资源服务形成与提供流程和共享信息资源定位与发现流程。准备:首先由各部门建立共享信息库,并建立共享信息服务系统,提供共享信息的浏览、查询和下载等服务;编目:各部门对共享信息的内容提取特征,通过编目系统形成资源内容库;注册:由各部门通过资源传输系统将资源内容传送到资源服务中心;发布:由资源服务中心对各部门的资源内容进行审核发布。(2)DATA质量管理按照国家信息资源资源体系标准,建立覆盖全先的信息资源资源体系,建设全先统一的信息资源管理中心,形成“物理分散、逻辑集中”信息资源管理模式;提高信息的交换能力,支持跨委办之间的信息共享和业务协同,提高全先公共服务和社会管理的水。DATA质量管理系统的功能包括DATA质量监控、DATA质量评估、DATA质量报告、DATA质量问题处理、DATA质量知识库等功能。DATA质量监控:根据DATA检验等配置的规则,对发现的DATA质量异常情况进行告警和拓扑呈现。主要包括源系统关键DATA稽核、源系统维表稽核、实体DATA检查、处理过程检查、关键指标检查、告警管理、拓扑呈现和规则配置等功能。DATA质量评估:根据设定的评估方法对源接口基础DATA质量评估和指标关联性分析,相关到评估结果以作为系统质量改进的参考和依据。DATA质量报告:对DATA质量管理各环节累积的各种信息进行汇总、梳理、统计和分析,形成统计报告,主要包括:报告生成、报告发布、报告查询和报告归档。DATA质量问题处理:包括问题生成、问题分析、问题处理和问题总结。DATA质量知识库:在使用及运行维护过程中,由DATA质量管理系统收集有关DATA及过程问题的处理经验总结,按关键字的形式进行索引和分类管理。(3)业务建模业务建模是构建使用者接口或上层业务应用与基础DATA之间的逻辑模型。业务对象和业务分析模型在此实例化。应用服务层是生成并操作接收信息的业务规则和函数的集合。它们通过业务规则(可以频繁更改)完成该任务,并由此被封装到在物理上与应用程序程序逻辑本身相独立的组件中。1)居民身份验证模型居民身份验证模型用于居民个人电子档案建立及居民身份验证,是社区证明系统、业务流转系统等具体业务系统的支撑服务。它可以通过XXX号验证居民身份,比对BIGDATA中XX信息库中是否具有该居民信息,进行相关业务办理,也可以通过居民生物特征信息(指静脉信息)进行居民唯一身份验证,以此为依据办理相关业务。2)DATA综合模型社区综合信息模型是网格化管理体系下动态信息获取的一个重要来源,社区综合信息采集服务将网格内房屋信息、常住XX、暂住XX、特殊人群、紧急情况等信息,通过表单、照片、空间定位等多种手段进行采集,并经2.5/3G/4G无线网络将所采集到的信息及时传送到BIGDATA,达到网格动态信息的快速更新、多方共享的目的。其主要功能包括:楼栋信息采集、门牌信息采集、人员信息采集、事件上报、营业网点信息采集、重点场所信息采集、紧急事件处理、代办需求处置、帮扶需求、城管事件上报及其他功能等。3)城运行体征动态模型城运行体征是一个城在完善基础设施、保障能源及各种资源供给、特殊时期营造相应氛围、提供安全应急保障等方面开展的工作。城运行检测以获取城运行全时段、全要素信息为基础,进行常态城运行态势的实时监控、综合评估、发展预测、协调会商、辅助决策等,其目的是要增强城管理工作的整体性、协调性、规范性,营造良好的城环境,以提升城综合运营能力,提高城建设服务管理水。4)城DATA综合分析模型构建城运行管理数学模型,实现对海量的交通DATA、地理位置检测DATA、环境DATA、医疗DATA、DATA、教育DATA、DATA的实时、全面、系统的DATA采集,存储、分析、挖掘。数智专业一体化城DATA分析系统主要完成分析或决策模型的创建、发布和管理等功能,其主要使用对象是各部门业务人员。DATA分析系统能够支持指标的DATA分析和处理,包括基础信息的统计分析、城特征指数分析、宏观经济分析等功能。5)电子模型电子是指综合运用互联网、手机、固定XXX等多种方式,使公务人员之间、与公众之间可以随时随地实现相互间的信息传递,从而实现组织结构和工作流程的优化重组,超越时间、空间和部门分割的制约,全方位地向社会提供优质、规范、透明的服务。通过电子网上便民服务工程融合、民、税务、工商、人力资源和社会保障、住房和城乡建设等机构,为某地居民打造一个统一服务,方便百姓随时随地利用各种方式进行业务查询、办理等。运行支撑(1)引擎。服务引擎主要为顶层应用系统的开发提供共性的服务组件,以减少应用系统对于共性组件的重复采购,减少资源浪费,提高使用效率。服务引擎由手机短消息、即时通信、电子邮件、视频通信、GIS空间分析、工作流、搜索、表单定制等服务组成。权限。权限管理是根据系统设置的安全规则或者安全策略,使用者可以访问而且只能访问自己被授权的资源。权限管理主要包括身份认证服务、单点登录服务和权限验证服务等服务。(3)监控。对于某地BIGDATA中心,由于支撑了很多服务和应用,需要把分散在各个应用系统中的监控功能统一管理,形成一套对某地BIGDATA中心有效监控的措施。统一监控服务要包含远程监控、本地监控、DATA库空间监控、流程监控、负载监控、应用监控、报警通知和监控展示等服务。(4)接口。某地BIGDATA应充分调动、企业、居民等多方力量共同运营、维护与建设。在体系中起主导和方向性引导作用,为BIGDATA提供权威DATA和管理方法;企业为提供创新的应用方式;居民为提供动态的、鲜活的社会动态DATA。某地BIGDATA中心开放接口服务,是一套专门为这三个方面使用者提供的应用服务,使其方便使用与二次开发。DATA首页通过DATA首页建设,整合电子信息资源,建立以信息资源展示、二次开发服务为核心的服务系统;基于海量DATA,汇集统计分析、工作动态等决策信息,为各级领导提供决策服务;拓展公开信息统一管理、公共服务、在线互动交流等功能,体现服务型DATA中心新形象、逐步扩展DATA首页网站功能,建设综合性信息网站首页。DATA首页主要包括资源展示、在线查询和首页管理等功能。(1)资源展示。信息资源展示服务主要负责对采集的体征DATA、事件DATA等按照一定的查询要求统计的结果,在系统界面中以视频播放、列表、直方图、折线图、饼图、态势图、体征日报等方式展示出来。也可以将空间化专题信息通过GIS系统更加形象具体的展现出来。信息资源展示的内容包括空间信息地图展示、综合态势展示、事件展示、指标信息展示以及统计结果展示。(2)在线查询。随着DATA的集中和整合系统可以提供如自然XX库基础信息查询、组织单位库基础信息查询和地理信息库基础信息查询等专题查询。同时,也可以提供只有DATA整合才可以做到的部门DATA关联查询和三库关联查询服务。(3)首页管理。首页基本管理服务用于实现对BIGDATA中心服务接口对外发布的管理以及与各部门现有系统的对接;实现综合信息登记、审核和发布,应用系统集成单点登录以及首页网站内容管理等功能。应用服务层按企业、民生、三BIG业务领域规划了三类重点专项即面向企业服务、面向民生服务、面向服务。其中,面向企业服务包括中小企业服务、产业经济运行监控、数智专业一体化招商、数智专业一体化物流;面向民生服务包括民一卡通、社区公共服务、数智专业一体化医疗;面向服务包括行审批、公开、领导决策支持系统、数字城管、数智专业一体化环保、数智专业一体化交通、综合应急指挥和视频云支撑引擎。系统功能模块简介DATA基础信息基础信息主要用于规划设计某地BIGDATADATA,包含传统DATA库DATA、视频、图片、声音、日志文件、电子邮件、地图、Word、PDF等各种文档。这些DATA分为结构化DATA、半结构化DATA和非结构化DATA。这些类型的DATA无法用传统关系型DATA库进行DATA处理和分析,必须借助于BIGDATA基础的HDFS、Hbase、MapReduce等技术手段进行处理和分析,支持顶层应用系统的DATA利用。BIGDATA信息基础主要包括如下组件:BIGDATA运行维护管理组件、分布式DATA库、分布式DATA仓库、分布式计算模块、流DATA处理及消息框架、DATA采集管理组件、DATA运行维护管理组件、基础DATA库。其中某地需要建设的六BIG库为:XX信息库、XX信息库、基础地理空间库、宏观经济库、信用信息库和城建筑信息库六BIG基础库。BIGDATA运行维护管理组件组件部署及动态扩容,提供BIGDATA部署工具,组件部署管理及动态增加机器节点管理工具;组件服务监控管理,提供组件的运行状态、组件的负载情况监控及组件的启动、停止、移除等管理;组件故障自动迁移,节点组件出现故障时,集群中的其它节点中的相应组件自动接管故障组件的工作,保证组件正常服务。BIGDATA基础组件BIGDATA基础组件的具体功能模块包括:分布式存储模块,实现分布式文件的存储、存储副本的管理;分布式计算模块,提供分布式的DATA计算处理及DATA的分布式均衡访问;流DATA及消息框架模块,提供流DATA的处理框架,实现流DATA向BIGDATA汇聚功能;提供消息处理框

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论