版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据云平台实施方案项目编号:某大数据云平台项目建设实施方案目录1.1 建设目标、规模、内容、建设期 11.1.1 建设目标 11.1.2 建设内容 11.1.3 建设周期 4第二章 需求分析 62.1 政务业务目标需求分析结论 62.2 系统功能指标 82.2.1 基础设施服务层(Iaas) 82.2.2 平台服务层(Paas) 82.2.3 应用服务层(Saas) 102.3 信息量指标 112.4 系统性能指标 122.4.1 总体性能指标 122.4.2 网络平台性能 132.4.3 系统平台性能 132.4.4 应用系统性能 13第三章 总体建设方案 153.1 总体设计原则 153.1.1 分期目标 173.2 总体建设任务与分期建设内容 183.2.1 总体建设任务 183.3 系统总体结构和逻辑结构 193.3.1 总体架构 193.3.2 技术架构 243.4 信息资源规划和数据库设计 253.4.1 数据模型规划 253.4.2 数据整合原则 273.4.3 技术缓冲层设计 283.4.4 整合模型层设计 293.4.5 共性加工层设计 433.4.6 数据应用层设计 473.4.7 数据库服务架构 483.5 应用支撑系统设计 503.5.1 大数据基础平台设计 503.5.2 ETL设计 623.5.3 调度架构设计 753.5.4 数据管控设计 813.6 应用系统设计 1063.6.1 分析决策支持系统 1063.7 数据处理和存储系统设计 147建设目标、规模、内容、建设期建设目标以“海信息、网关联、云计算、块数据、条运用、促和谐”为建设方针,建设以基础设施层、系统平台层、应用平台层为框架结构,多个系统应用为支撑的社会治理大数据云平台,实现社会治理从条块分制向整体联动转变,从被动应付向主动服务转变,从传统管理方式向信息化支撑转变,从分级管理向扁平化管理转变,从单打独斗向协作共治转变,不断推动社会治理体系和社会治理能力现代化。项目建成后,将覆盖全市十个区市县,使用对象包括社区服务中心(乡镇)工作人员、居委会(行政村)工作人员、社区网格员,也包括市、区县两级相关部门工作人员。建设内容市大数据云平台工程分为两期建设,从建设内容上来说,两期的建设内容是逐步完善、优化、扩展的关系。大数据云平台工程的总体建设任务为:1、系统运行环境基于市统一的基础设施层技术体系,搭建大数据云平台工程,主要是指支撑系统运行的软硬件基础环境。其中硬件基础环境包括:计算资源、存储资源、安全防护、网络资源等等;软件基础环境包括:数据库、中间件、数据备份等等。2、共享数据建设共享数据建设主要是指大数据云平台工程运行的数据基础。在大数据云平台工程的建设过程中主要包括了结构化数据和非结构化数据。结构化数据包括:基础空间数据和网格块数据关系数据库;非结构化数据主要包括海量行为数据、网页、各类报表、图像和音频/视频信息等等;基础空间数据利用现有的基础数据成果,进行修补测或数据时相、内容的更新,形成大数据云平台工程的基础空间数据库。网格块数据关系数据库以网格化管理数据、政府各专业职能部门数据为基础,以网格化管理为中心建设“网格块数据关系数据库”,其核心是要建立社区网格内“人与人”、“人与物”、“人与组织”、“物与物”、“组织与物”、“组织与组织”等的关联关系。海量行为数据依托开放式社会共享数据平台,建立大数据云平台工程所需的海量社会数据。各类报表针对目前尚未进行结构化数据梳理的业务数据,如Word、Excel等形式存储的业务数据;图像和音频/视频信息针对视频监控、人口信息的照片等信息的数据处理。3、支撑能力建设支撑内容的建设为应用系统建设提供组件式服务,主要建设:地理信息平台、数据分析平台、流程管理平台、安全平台等。地理信息平台立足市现有城市地理空间信息建设应用基础,从大数据云平台工程的应用实际需求出发,遵循“资源重用、节约投资”的原则,采用基于面向服务架构(SOA)的ServiceGIS等技术,实现对市分散的空间信息资源整合、共享和充分利用,为大数据云平台工程提供地理信息与业务数据的在线共享与交换支撑。数据分析平台数据分析平台是集数据的目录管理、数据交换、数据处理的分析与挖掘、数据的可视化展现为一体的综合支撑平台。流程管理平台通过对网格化服务管理的梳理,再造社会治理工作流程,将信任服务、授权服务和工作流等业务流程有机融合紧密结合在一起,构成安全的工作流业务系统,为不同业务流程提供实现的技术手段。安全平台基于云计算安全架构,同时根据大数据云平台工程的系统安全需求特点和风险状况,从物理安全、网络安全、云平台安全、系统安全、应用安全,数据安全六个层面,进行安全体系架构设计。4、应用系统建设应用系统建设着眼大数据未来发展趋势,以网格化服务管理系统为基础,提供涵盖政府、企业、社会组织、军民等内容的社会治理综合业务系统,既实现市统筹、创新、推动社会治理的需求,又满足部门、社区和社会组织对大数据云平台工程的应用需求。应用系统建设包括“网格化管理系统”、“社会动员管理系统”、“社区综合服务系统”、“社会分析决策支持系统”。5、接入系统建设接入系统包括PC系统、移动应用系统和微信应用系统。建设周期大数据云平台工程涵盖业务内容多、涉及范围广、建设周期长,为了完成工程的总体建设目标,需要一个逐步推进和逐渐完善的过程,必须依据循序渐进、分阶段、有步骤、重点突破的建设原则。一期工程计划于2019年底建成。其中,一期建设阶段5个月,运维应用(试运行)阶段为6个月,系统计划于2019年底完成终验。需求分析政务业务目标需求分析结论大数据云平台工程是一个基于大数据的概念,利用大数据技术,以构建大数据云平台工程数据平台为基础,以提供标准化的数据服务、网格化服务、流程服务为中心,支撑和协同市各部门和社会公众的社会治理工作。大数据云平台工程贯穿于市规划、发展、建设、运行、服务、管理的全过程,是一个复杂而庞大的系统工程,在描述与其他业务系统关联的同时,我们对大数据云平台工程有了一个清晰的定位:1、大数据云平台工程建设是打造社会治理升级版的重要内容。随着大数据时代的到来,社会治理面临着新机遇和新挑战。市委九届四次全会提出,要实施社会治理工程,打造法治升级版,积极探索以网格为基础的大数据建设。大数据云平台工程以块数据为基础,运用大数据技术,创新社会治理方式方法,提高社会治理能力,为打造法治“升级版”提供了有力的工作抓手,具有重大的实践意义和社会价值。2、大数据云平台工程建设是推进治理能力现代化的支撑平台。我市大力发展大数据产业,为社会治理工作带来了前所未有的契机。2015年全市加强群众工作创新社会治理大会提出,要狠抓平台建设,在以‘大数据’手段提升社会治理水平上实现新突破。通过实施大数据云平台工程建设,能够强化“条专块统”,倒逼体制改革,打破数据“壁垒”,链接数据“孤岛”,激发社会活力,发挥党政部门、社会组织、企事业单位、居民群众等多元主体的作用,构建众联、众包、众创、众筹的社会治理新局面。3、大数据云平台工程建设是完善民生服务体系的惠民工程。创新社会治理,要以最广大人民根本利益为根本坐标,从人民群众最关心最直接最现实的利益问题入手。大数据云平台工程建设能够通过大数据运用,统计分析与民生相关的海量数据,准确把握不同社会成员和不同地区的社会需求,实施精细化的服务管理,推动建立多层次的服务体系,营造和谐稳定的社会环境。大数据云平台工程覆盖至最基层的网格信息员,由网格信息员采集的民生需求,拓宽社情民意的采集渠道,打通居民与政府之间的沟通桥梁。同时,将民生数据汇总至“数据民生”的民生资源池,依托大数据手段,整合线下群众的社情民意信息,为下一步政策的制定和实施,提供决策依据。是政府由被动服务向主动服务、由基本服务向更好服务、由普惠服务向个性化服务转变的重要手段。4、大数据云平台工程建设是数据民生考核的组成部分。大数据云平台工程具有完整的考核体系,通过对案件处置的情况进行统计分析,对各级联动单位进行科学的评价。在大数据云平台工程的设计过程中,同样考虑了与“数据民生”考核的对接,其数据是“数据民生”面向社会考核的重要组成部分。系统功能指标基础设施服务层(Iaas)结合大数据云平台工程前端应用,依托市政务数据中心,基于市统一的基础设施层技术体系,结合市统一的云服务平台相关技术规范和参数,选择配置完善主机、存储、网络、操作系统等基础设施标准,考虑采用虚拟化硬件技术、分布式存储技术、并行编程模式、分布式资源管理、云计算平台管理、认证服务、证书服务、加密服务等技术功能,实现数据容灾、快速回复、快速部署、客户服务、业务与运营支撑系统,具备大数据计算能力、存储能力、安全防护能力,打造集数据存储、管理、统计、分析等功能为一体的“数据中枢”,构建大数据云平台工程建设基础设施层。平台服务层(Paas)在基础设施服务层基础上构建大数据云平台工程建设和升级所必需基础服务平台,主要包括地理信息服务、流程服务、建设数据分析服务、系统和权限管理等。升级完善地理信息服务升级改造流程服务建设数据分析服务大数据云平台工程要依托自身建立的“块数据关系库”进行社会治理数据的分析和挖掘。大数据云平台工程进行数据分析和挖掘的目的可以分为决策支持、精准推送和态势感知三个方面。大数据云平台工程的决策支持有别于传统专业化系统通过数据分析生成的支持数据报表。基于“块数据”的大数据云平台工程,其数据分析重点在于“关系”。它通过分析人与人、人与物、人与事、事与事之间的关系。例如留守儿童与当地学校类型和数量的关系、低保人员的低保金额与地区平均消费水平的关系、空巢老人与当地就业岗位之间的关系等等。通过这些关系的分析让政府管理者能够找到社会问题的根源,避免了传统管理方式中出现的“头疼医头、脚疼医脚”现象,使政府的资源能够发挥出最大效果。政府对老百姓的精准推送也是需要大数据云平台工程中对“块数据”进行分析和挖掘作为基础的。通过大数据云平台工程对社区百姓生活状态分析,结合医疗、教育、房屋、车辆等相关信息进行挖掘,可以找到社区百姓近期所需要的政府服务项目。例如大数据云平台工程通过数据的分析,得知某一居民处于适婚年龄,并在医院建立孕妇档案。大数据云平台工程通过这些数据的分析可以判断出此居民在未来几个月中办理准生证、新生儿户口的可能性较大。此时大数据云平台工程可以通过社区、APP等应用向社区工作人员推送提醒信息。对“块数据”的分析和挖掘将为大数据云平台工程赋予态势感知的能力。所谓态势感知在大规模系统环境和数据中,对能够引起系统态势发生变化的安全要素进行获取、理解、显示以及预测未来的发展趋势。立足于政府的社会治理,大数据云平台工程对“块数据”进行分析和挖掘所产生的态势感知的能力将有助于政府部门感知和预测社会风险,做到提前部署、防患于未然。例如对于社会敏感人员,通过大数据云平台工程的数据分析发现其在某一特殊时期的交通行动轨迹、通信联络范围存在异常,则相关部门管理人员可以提前部署,将社会风险扼杀在摇篮中。系统和权限管理系统和权限管理模块是对应用系统用户按照权限进行访问控制的管理,负责整个大数据云平台工程的配置、维护和管理工作,该系统采用工具化思想,实现不同功能的参数配置,实现不同的业务使用单位和不同级别的用户分别赋予其业务系统的使用权限。应用服务层(Saas)应用层系统功能指标包括:1、实现社区“一次录入、多部门共用”的功能,网格员采集数据、共享数据通过大数据云平台工程平台分发至其他部门业务系统;2、实现问题的受理、立案、派遣、处置、复核、结案的闭环工作处理路程;3、搭建社会组织、社工机构、志愿者与居民群众的沟通桥梁,实现公益活动供需管理;4、PC端采用浏览器方式访问,支持IE7.0、IE8.0、Chrome16.0、Firefox6.0等以上版本的主流浏览器;5、网格员上报和处置应用、各级管理者应用、公众访问应用等支持手机APP方式访问;支持iOS和android系统;6、公众访问支持微信和APP访问。信息量指标针对调研的结果,大数据云平台工程设计为主要存储关系信息、事件信息、以及相关的照片等信息资源。其中关系型数据估算前期数据如下表:表SEQ表\*ARABIC1信息量指标表描述信息数据量(单位:条)信息量(单位:MB)评估存储(单位:GB)人口信息50000000.1500.0企业信息800000.18.0社会组织信息50000.10.5设施信息15000000.1150.0房屋信息1000000.110.0城区地理信息3001500450.0农村地理信息7734100773.4呼叫中心信息20000000.1200.0公益信息100000.11.0社区服务信息1000000.110.0合计2102.9再加上其他信息(包括主键、外键、索引、冗余的存储,按信息总量的40%计算),建议需要数据库存储空间3T(前期可以先租用较小的空间,根据实际需要再扩大容量)。针对所有的证照资料(包括照片、身份证扫描信息、证明材料图片、事件上报图片等),初步预计存放5000万张照片,平均每张大小0.2M,需要10T磁盘存储空间。针对12345热线本身的事件数据(按照目前每月5万条,每条0.2M计算),每年的数据增量为120G,按照系统10年的设计寿命计算,即需要1.2T磁盘存储空间。针对门户网站、APP、微信的访问来看,每年的业务数据增量为100G足有,10年需要1T磁盘存储空间。综上所述,大数据云平台工程所需的信息量指标为15T左右。系统性能指标总体性能指标互联网应用支持并发终端数≥500;政务网应用支持并发终端数≥500;系统控制操作响应时间≤2s;数据浏览响应时间≤2s;一般数据查询响应时间≤4s;大数据分析处理时间≤1min;统计输出时间≤5s;双机负载均衡/热备用切换时间≤25s;平均年故障时间<24小时;平均故障修复时间<30分钟当系统处理能力不足时,可通过增加相应的节点和处理能力来实现系统处理能力的动态增长。网络平台性能要求数据传输网络畅通、快捷、可扩展。核心网络要求设备、线路均具有冗余,设备处理能力满足业务高峰期需要。整网带宽满足业务高峰期需要。系统平台性能要求采用通用性好、安全可靠的操作系统以及大型数据库系统,以保证系统良好的性能。应用系统性能应用系统性能应满足用户的要求,稳定、可靠、实用。人机界面友好,输出、输入方便,图表生成美观,检索、查询简单快捷。系统采用便于升级的模块化设计,包括采用软件升级来简化系统扩展和修改,模块组合可以根据需要来选择。提供标准的网络通信应用层协议和应用基本函数及调用接口。总体建设方案总体设计原则总体规划、分步实施大数据云平台工程建设涉及到各地区和多个部门,要进行统筹规划、总体设计和分级实施。为了避免各业务系统独立建设而导致的无法共享和数据交互的问题,在建设之处需要按照国家制定的相关标准规范进行建设,实现社会治理业务系统和技术支撑系统的有机结合。先易后难、循序渐进大数据云平台工程的建设从建设规模、建设思路、建设内容和建设所用的技术都是一种全新尝试和摸索,是对建设单位能力的考验。在大数据云平台工程建设过程中要将遇到的问题和困难进行排序,优先解决简单问题,稳扎稳打,分阶段出成果,逐步见效、逐步优化。利用现有、整合资源本着节约的原则,突出建设重点,注重高效实用,充分利用已有基础,防止推倒重来、重复建设。整合各级、各部门社会治理所需资源,尤其在数据层面,针对已经建成的平台要采用多种技术手段进行整合和共享。在应用层面,大数据云平台工程处理利用好政府资源以外,还要整合社会服务资源,为群众提供更好、更全面的服务。数据集中、标准统一大数据云平台工程的建设,需要将各级政府部门开始将数据相对集中起来,保证资源的高度利用以及通过相关的技术保证数据和应用的绝对安全和稳定。同时,统一各业务系统的数据字典,减少数据定义的二义性。对数据实行单点维护,明确数据责任部门和使用部门,确保基础信息的可靠性和一致性。建立统一的存储资源标准、性能标准、安全标准,提高数据访问控制能力,降低关键业务数据的安全隐患。模式创新、不走老路大数据云平台工程建设以“大数据”为创新模式,以“网格化管理”数据为基础,融合政府各专业职能数据和社会数据,以数据驱动业务应用,从而避免传统信息化建设中出现的“信息孤岛”、“信息壁垒”的问题。定位准确、边界清晰大数据云平台工程的建设是要搭建一个政府与社区群众畅通的沟通桥梁,要通过大数据的分析挖掘社会群众的服务需求、识别社会风险,并将社会需求和风险传递和提示给政府相关部门进行处理。大数据云平台工程的建设要避免与其他政府专业部门的应用交叉,避免重复建设和职责不清。功能齐全、先进适用在系统的总体设计上,借鉴各类系统的成功经验,同时注重吸取同类系统的建设教训。在技术上,充分考虑大数据云平台工程的现状和特点,在注重系统的实用性的前提下,应着重考虑云计算、大数据等先进的技术理念。在软件的开发思想上,加强核心技术的自主研发和应用,严格按照软件工程的标准和面向对象的理论来设计,保证系统的先进性。安全稳定、保护资源由于整个系统所涉及的很多数据不宜对外开放,这些数据的安全性至关重要。因此,系统应遵循安全性的原则。大数据云平台工程设计时将安全性问题分为以下三种情况:一是防止外部非法用户访问网络;二是防止内部合法用户的越权访问;三是意外的数据损害。为了提高系统的安全性,在设计时就需要考虑整个系统安全性。立足当前、着眼长远大数据云平台工程建设工作要以需求为向导,以应用促发展,把当前和长远结合起来,既要满足当前工作需要,又要适应未来技术的应用和发展,不断提升应急平台技术应用水平分期目标本着“总体规划、分步实施”和“先易后难、循序渐进”的建设原则,大数据云平台工程建设将分两期完成。一期建设目标1、搭建政府与社会群众之间的沟通渠道,政府能够第一时间通过各个渠道了解社会群众的需求。2、建立全市各级社工委事件处置平台,跟踪社会群众问题事件的处置过程,对各级部门问题事件的处置数量和质量进行考核。3、打造数据平台数据管控体系,定义数据管控组织和职能;定义数据管控工作办法和管理流程;搭建数据管控平台,包括数据标准、元数据和数据质量管理平台,重点是元数据管理平台;制定数据标准;4、建立社区网格化“块数据关系库”,以社区网格为中心管理网格内人、地、物、事、组织、情的关联关系。5、强化社会公益和社区服务支撑能力,为社会团体、志愿者、社区服务人员精准推送需求信息。6、整合数据资源,通过大数据分析,挖掘社会群众需求,识别社会风险,为领导决策提供支持。总体建设任务与分期建设内容总体建设任务市大数据云平台工程分为两期建设,从建设内容上来说,两期的建设内容是逐步完善、优化、扩展的关系。大数据云平台工程的总体任务包括:建立政府和社会、和民众畅通的沟通渠道,从多个渠道收集、分析、挖掘居民群众的迫切需求;强化党委统筹,加快向社会组织、居委会等方面的延伸,引导社会组织入驻,强化社区党委的统筹功能,形成了社会共治的良好局面。依托市数据交换平台,建设网格化社会治理的块数据,并优化升级网格化管理系统,夯实基层社会治理工作;采用租用的统一云平台的方式搭建系统运行环境,促进市云平台产业的应用落地;系统总体结构和逻辑结构总体架构大数据云平台工程的总体架构分为应用层、支撑层、数据层和基础设施层,系统载体包括PC端系统、移动应用系统和微信应用系统三部分,总体架构图如下所示:图SEQ图\*ARABIC1总体架构应用层大数据云平台工程是一个数据驱动应用的“大数据”系统,其应用的深度、数量、功能会根据系统所融合的数据量和数据范围有所变化和调整。目前已确定的应用包括“网格化管理系统”、“社会动员管理系统”、“社区综合服务系统”和“社会分析决策支持系统”四大系统,以及相应的移动化应用。应用系统的详细介绍将在第五章进行阐述。支撑层支撑层保证应用系统正常运行的核心。大数据云平台工程的支撑层包括“地理信息平台”、“流程引擎”、“ETL”、“数据调度”、“数据管控”等。各个支撑平台的应用是将成熟的技术进行封装,便于系统开发人员调用,使开发人员可以将主要精力放在业务应用系统的开发中,从复杂的底层技术中脱离出来,从而提高系统的建设效率。源系统数据抽取为保证业务数据的安全性,一般数据采用源系统主动落地的方案。源系统将导出的数据以文本文件的形式存储在统一数据交换共享平台中,供数据平台获取使用。技术缓冲层技术缓冲层直接对统一数据交换共享平台的文本文件进行加载,采用hdfs并行加载的方案,将数据存储到hadoop平台中。为保证数据的上传效率,可采用压缩算法对数据文件进行压缩,提供数据传输的效率。并且由于hadoop平台在数据处理时,可以对压缩文件进行自动解压,因此可以提供数据处理的效率,减少IO传输时间。整合层整合层对于业务数据的存储,采用第三范式关系表的形式,这样可以方便后续数据分析时直接采用SQL方式进行表的关联处理。因此在整合层,历史数据存储一般采用HIVE存储方式,并结合分区方案进行处理。在数据从技术缓冲层到整合层过程中,可以采用PIG对抽取的增量数据进行过滤、转换、格式控制等。在进行元数据管理方面,各层数据统一采用Hcatalog进行管理,保证pig、hive能同时进行相同数据的访问,保存处理的数据格式统一。由于采用统一的hcatalog管理,因此在pig进行数据清洗后,可以直接将数据存储到整合层的hive表中。汇总层汇总层又叫共性加工层,主要特点是针对特定应用逻辑,对数据平台中存储的业务历史数据进行加工汇总和分析,供后续的业务应用和集市使用。例如客户数统计、客户交易笔记统计等。汇总层的作用即时提取常用的共性分析结果进行存储,为后续应用提供系统的数据支撑。数据层数据层作为大数据云平台工程的核心建设内容,采用目前最先进的Hadoop大数据技术,存储来自于网格化管理、社区、各专业部门、社会组织、互联网等若干渠道的数据。在大数据云平台工程工程的数据层,将为这些数据建立各自的主题域,更重的是建立各类实体数据的关联关系。数据层的建设情况主要涉及以下几个方面:源系统指数据层上游的业务数据产生系统。是数据平台的主要数据来源。主要包括:公安系统的人口基本信息数据、房管系统的房屋信息数据、交通系统的交管信息等。这些数据可能包含结构化数据、非结构化数据、多媒体数据等。数据层需要统一处理和存储,为后续的数据消费系统的使用提供数据支撑基础。统一数据交换共享平台基于市政府数据交换共享平台进行,是源系统与大数据云平台工程数据层之间数据传输与交换的主要通道。统一数据管控平台主要是对元数据、数据质量、数据标准进行统一的管理。元数据管理主要包括元数据抽取、元数据分析、元数据导出等功能;数据质量管理主要包括制定数据质量规则、分析数据质量问题、跟踪数据问题和生产报告;数据标准管理主要包含制定数据标准、数据标准导入、数据标准分析等功能。统一调度平台用于管理数据层批处理任务的依赖关系配置、系统资源配置、任务并发与互斥、系统跑批进度监控、作业跑批状态监控、数据抽取与下发监控等。数据整合平台数据整合平台是数据层的建设核心。会对上游数据生成系统的结构化与非结构化数据进行统一的抽取、清洗、处理、加工、汇总、下发等。为下游的业务系统运行、业务系统分析、决策支持等提供强大的数据服务支持。基础设施层本次建设的大数据云平台工程将利用成熟的云架构Issa服务平台作为基础设施层。在Issa平台中要为大数据云平台工程提供基础的网络设备、服务器设备、存储设备等基础设施,并且通过防火墙等网络安全设备和机制保证大数据云平台工程的网络和设备级的安全保障。安全防护体系大数据云平台工程建设将从应用级、数据级、网络级、设备级多层次考虑和建设系统的安全防护体系,同时应用先进的安全技术配合相应的安全管理机制来保证大数据云平台工程工程的整体安全。标准规范体系大数据云平台工程的建设将遵循国家、省、市及行业相关的各项标准和规范进行设计和建设。技术架构本系统技术架构采用现阶段比较流行的Web应用程序开源框架,即struts+spring+hibernate的一个集成框架。具体架构图如下:图SEQ图\*ARABIC2技术架构图本系统框架从职责上分为四层:表示层、业务逻辑层、数据访问层和数据持久层,以帮助开发人员在短期内搭建结构清晰、可复用性好、维护方便的Web应用程序。其中使用Struts作为系统的整体基础架构,负责MVC的分离,在Struts框架的模型部分,控制业务跳转,利用Hibernate框架对持久层提供支持,Spring做管理,管理struts和hibernate。具体做法是:用面向对象的分析方法根据需求提出一些模型,将这些模型实现为基本的Java对象,然后编写基本的DAO(DataAccessObjects)接口,并给出Hibernate的DAO实现,采用Hibernate架构实现的DAO类来实现Java类与数据库之间的转换和访问,最后由Spring做管理,管理struts和hibernate。信息资源规划和数据库设计数据模型规划大数据平台主要实现对明细数据的存储、整合和加工处理,以及涉及历史数据的深度复杂处理,大数据平台是管理分析型系统的主要数据来源。从数据架构的角度大数据平台划分为四大数据层次,分别是数据缓冲层、整合模型层、共性加工层和应用层。这四层的划分并不是简单的递进关系,而是相互补充相互完善的关系。具体数据架构见下图:图3数据架构数据缓冲层数据缓冲层与源系统的数据结构一一对应,它是数据存储的临时存储区域。方便数据处理重跑及应用系统数据过渡至大数据平台。整合模型层面向分析型业务主题建立三范式模型,构建全系统级的单一数据视图,模型扩展性强且具有业务中立性,用于支持各类整合型的分析型应用。共性加工层依赖于对应用共性需求的的分析,提炼出对数据集成平台具有共性的数据访问、统计需求,从而构建出的一个面向应用的、提供共享的数据访问服务的公共数据。共性加工层主要基于整合模型层实现。数据应用层各应用系统存放的用于前端应用访问数据,方便用户灵活、动态、快速、多角度、多层次的业务数据。数据整合原则数据来源数据包含的是社会和云系统内部和社会和云系统外的业务系统数据。外部系统包括公安、民政、计生、税务、国土等系统的数据,数据来自于数据交换共享平台。表SEQ表\*ARABIC2大数据平台数据来源标准表系统归属数据来源数据内容外部系统公安系统人口户籍信息,人口的亲属关系人社部门城市人口社保信息,人口与公司关系卫计部门农村人口社保信息工商部门公司基础信息民政部门社会组织信息编办组织机构单位信息住建部门房屋基础信息禁毒办吸毒信息教育局教育信息内部系统网格化管理系统投诉、建议、咨询事件信息、事件处置信息、社情民意信息、重点特殊人群信息社会动员管理系统公益活动信息、社会求助信息、公众服务信息和志愿者信息社区综合服务系统社会综合服务信息数据整合概述数据整合的将多个数据来源系统的数据按照大数据云平台工程的要求,将数据抽取、清洗、转换、加载并将数据重新组织,形成有利于业务人员理解和分析使用的正确数据存储形式。从一个人口信息查看整个大数据平台信息。技术缓冲层设计设计原则技术缓冲层需要保持源系统的原貌,不对数据进行大量的改造和调整,只进行一些常用的标准化处理。数据特点1、数据结构和源系统保持一致。2、数据按照抽取的频率和增全量进行存储,每个频率单独保存一个表文件,而且存储周期不需太长,能满足后续其他层次的需求即可。3、技术缓冲层是为ETL服务的纯技术层,不对外提供数据服务。数据来源技术缓冲层的数据包含的是社会和云系统外的业务系统数据,例如:公安、民政、计生、税务、国土等系统的数据。数据来自于数据交换共享平台,包含增量和全量的数据。整合模型层设计模型设计思路借鉴数据模型的建设思路、利用在政府数据模型领域的实践经验、结合市网格中心的需求进行整合层模型层的设计。整合层模型采用面向主题的设计方法,有效组织来源多样的业务数据,使用统一的逻辑语言描述相关业务,保证了数据的一致性。在此基础上可以进行多种不同应用的开发设计,满足不同部门的业务需求和不同的数据访问方式,真正实现数据一次导入,多次使用。它所遵循的设计原则主要包括:中性整合模型层具有应用中性的特征。整合层模型从业务逻辑角度以关系模型方法进行建模,涵盖了所有的业务范围,并可以满足不断产生的业务发展需求。整合模型层采用的这种语义关系建模的设计方式,保存了各种分析性应用需要的所有业务数据以及这些数据之间重要的业务规则,体现了其作为大数据云平台工程基础数据层满足不同应用对数据的使用需求的功能。整合层模型不为任何特定的应用进行针对性的设计,模型不会由于现有应用的变动或者对新应用的支持而在结构上重构,这体现了模型对应用支持的中立性。一致性作为基础数据平台设计基础的逻辑数据模型必须在设计过程中保持一个统一的业务定义,比如人口的分类等应该在整个系统内部保持一致,将来各种分析应用都使用同样的数据,这些数据应按照预先约定的规则进行刷新,保证同步和一致。如外部系统和社会和云内部系统数据必须依照一套相同的存放规则进行处理,它们和其他数据的关联以及刷新的频率等都应该保持同步。灵活性整合层模型是一个基本上满足第三范式要求的语义关系模型,这种设计方法能够最大程度上减少冗余。第三范式的设计同时保证了整合层模型的灵活性和扩展性。面对新的需求,整合层模型的这种结构能够进行简单、自然的扩展。这种特性使得整合层模型在设计过程可以“想大做小”——在有一个全局规划的同时,选定某些部分入手,然后再逐步进行完善。比如可以从通过一个居民的基本信息资料、房产信息入手进行简单的分析,然后补充居民的公安、民政、税务等信息,延伸至全面的人口统一视图。满足详细粒度要求为了满足将来不同的应用分析需要,整合层模型能够提供最小粒度的详细数据以支持各种可能的分析查询。以这些最小粒度的详细数据为基础,可以根据不同的统计分析口径汇总生成所需的各种结果。在整合层模型中,不对详细数据按特定需求进行筛选或者加工。满足历史数据存储要求为了满足存储历史数据,又尽量考虑减少数据存储空间。对于非事件的数据,采用历史拉链表的存储方式;对于事件数据,采用只保留最新数据的存储方式。主题划分此数据区按主题存放数据,主题划分如下:表SEQ表\*ARABIC3整合模型的十大主题主题中文名称主题英文名称模型英文简称人口PopulationPOP组织OrganizationORG事件EventEVT服务ServiceSRV民情ConditionCON房屋房产EstateEST公共设施CommunalFacilitiesCMF空间地理GeographyGGP参考项ReferenceREF代码表CodeCD每个主题不是孤立存在的,相互之间是有关系的。例如:人口主题与组织、空间地理、房屋、事件、民情和服务六个主题有关系。这些关系数据会存放在相应的关系表中。图SEQ图\*ARABIC4主题关系图以一个居民的视角,查看到与其相关的所有信息。包括:其基本的属性信息、其居住的房屋的信息、其投诉的事件、其工作的单位、其居住地区的周围设施等信息。图SEQ图\*ARABIC5主题关系示例图数据使用主题划分的方式存放后,数据与数据之间的关系更为清晰,对进一步的分析决策提供了数据基础。由上面的例子数据,我们可以进一步进行数据分析。通过对居住房屋的数据和户籍数据的分析,得出张老伯是独自居住,若该社区开展老人服务活动时,应该是重点关注对象。其反映了希望建设社区医院的民情需求,对该网格数据的分析我们得出该网格周边没有医院,同时该网格人口分布情况为65岁的老人占其比例的45%,因此,我们可以得出张三老人反映的民情是应该采信,并相应提出解决方案。主题说明如下:POPULATION(人口)人口(Population):是指全市的全部人口,包括常住人口和流动人口。数据项包括人口基本信息、公安数据、社保数据、计生数据、民政数据、税务数据、教育数据等,使用证件类型、证件号码、姓名作为人口的唯一识别信息,将网格员补录的人口数据与外围系统(公安、社保、计生、民政、税务)数据进行整合,形成完整、全面的人口数据。借助人口主题的建立可以实现基于人口信息的分析,是实现以人口为中心的各种分析应用的重要基础。POPULATION主题的数据是社会和云系统的关键数据要素,也是构建基于大数据平台的各类应用的不可或缺的数据基础,在以人口为中心的数据分析决策过程中,这些信息显得尤其重要。图SEQ图\*ARABIC6人口主题模型以一个人口信息为例,看数据是如何存放的。图SEQ图\*ARABIC7人口主题关系数据示例人口与其他主题的关系模型示例如下:图SEQ图\*ARABIC8人口与其他主题的关系模型关系表将人之间的关系和人与房屋、组织的关系统一存放,当新增关系种类时,不需要修改模型,只需要增加关系种类代码,模型扩展性强。例如:人口关系历史将存放人与人之间的关系,包括从户籍信息取得的亲属关系、从教育信息得到的同学关系、从工作信息得到的同事关系等各种关系。通过该表可以展示出人与人之间的结构图,如下图所示:图SEQ图\*ARABIC9人与人关系图图SEQ图\*ARABIC10亲属关系图ORGANIZATION(组织)组织(ORGANIZATION)是指人们为实现一定的目标,互相协作结合而成的集体或团体,如法人单位,非营利性社会组织、个体户、政府机关、事业单位。组织主题分为机关事业单位、社会组织和经济组织三类等。数据包括组织登记数据、组织资质数据和组织监管数据,数据来源于编办、税务局、工商局、质量技监局、社团局及其他相关委办单位。图SEQ图\*ARABIC11组织主题模型EVENT(事件)事件(EVENT):包括群众来访、群众来信、群众来电、领导批办、上级交办、其他部门转来、排查发现、新闻媒体曝光和其他方式收集的咨询、建议和投诉。事件分为社会纠纷、安全生产、环境秩序、社会治安、出租房屋。事件主题所包含的信息是进行决策统计分析所需的核心数据。图SEQ图\*ARABIC12事件主题数据存储关系示例图SERVICE(服务)服务(SERVICE):包括是政府机关、社会群体、企事业单位提供的各类服务于广大居民的服务,包括公益活动、证件办理等的相关数据。公益活动的数据主要来源于社工委社会组织工作处、各类枢纽型社会组织等,其他部门的服务数据来源于相应的部门的业务系统。图SEQ图\*ARABIC13服务信息关系示例图CONDITION(民情)民情(CONDITION):包括是以社区为单位,形成居民反映的基本民情信息。ESTATE(房屋房产)房屋房产(ESTATE):是指房屋的物理数据(丘、幢、户)和权属数据,包括公用建筑、民用建筑、工业厂房、商业建筑。数据来源于房管局和网格员采集的数据。图SEQ图\*ARABIC14房屋主题模型COMMUNALFACILITIES(公共设施)公共设施(COMMUNALFACILITIES):通过城市公共设施的普查,构建全市公共设施的基础信息。图SEQ图\*ARABIC15公共设施主题模型GEOGRAPHY(空间地理)空间地理(GEOGRAPHY):从国土、测绘等部门获取基础地形图,经过地理信息的补测、修正形成大数据云平台工程系统的空间地理信息,同时包含网格数据。REFERENCE(参考项)参考项(REFERENCE):包含宏观经济、政策指引等决策支持信息。CODE(代码表)代码表(CODE):包含所有的代码表信息。数据整合数据整合的输入是从数据交换共享平台取得的各个部门系统的数据文件。系统先要对文件进行预处理,然后再加载源系统表,最后根据数据整合规则将源系统数据加载到整合层数据模型。1、文件预处理系统需要在收取数据文件之后自动开始文件预处理(文件解压,去文件尾),并将处理完的文件放到特定的服务器目录下。文件预处理需要充分考虑效率和资源占用情况,保证处理过程正确完整。由于源系统文件有些按日下传,注意解压文件最好按照数据日期的目录存储。同时需要有文件清理的机制,保证系统不会过量的占用存储资源。2、数据加载预处理完的文本文件需要按照源系统数据字典的定义加载到数据库中。加载方式可以采用LOAD方式或者外表方式。注意制定源数据表的命名规范,避免重名的数据表定义出现。3、数据整合数据整合主要是将源数据表里的数据加载到整合层数据模型,将从十几个部门系统的数据在整合层中按照主题存放。对于代码字段要按照市统一的数据标准进行标准化处理,例如:婚姻状况属性在公安、民政、计生的编码不一致,在整合层存储时要将其进行标准化,将其代码统一。4、整合数据的范围包括网格化管理系统、12345公共服务热线、社会动员管理系统、社区综合服务系统、公安局、社保局、计生委、民政局、税务局、教委、工商局、质量技监局、社团局、房管局等系统数据。属性覆盖因从多个部门取数,会出现属性不一致的现象,原则上以数据产生系统的数据为准。对于有明确来源系统的属性项,在数据整合时会以该系统为准,例如:房屋信息以房管局的信息为准,不再取其他系统的数据。对于没有明确来源系统的属性项,在整合层会将多个数据源的信息都保存。当出现多个数据源数据不一致时,将向网格人员生成信息核对任务,由网格人员进户核对信息维护到网格化管理系统中,同时将确定本系统最终认定的属性项。以婚姻状况为例,公安、民政、计生都有婚姻状况,但不能认定其以哪个部门为准,因此在其数据存放如下:图SEQ图\*ARABIC16数据属性覆盖存放模型共性加工层设计设计原则需求驱动共性加工层是因为需求而产生的,所以一定要基于需求。提炼共性共性加工层是提炼不同应用公共指标,提炼的程度太高会失去共性加工层的意义。架构分明在共性加工层再分明细层和共性加工层,明细层是主要是人口主题的扩展。共性加工层是除人口外的其他主题业务呈现。为了便于使用和管理,可根据数据汇总加工的粒度不同,明确其分层分类方法,使其层次清晰。迭代开发共性加工层的建设是一个循环往复的过程,不可能一步到位。随着应用的增加,共性加工层会不断的丰富,提升其业务价值。设计思路共性加工层的设计思路通常有视图和物理表两种方式:1、视图视图的加工逻辑写在视图定义中,由数据集市开发人员建立。当业务应用人员需要访问这些加工数据时,直接通过视图进行检索。当然数据库实际执行时还是要按视图定义,到基础层进行查询。视图的优势在于:视图本身并不存储数据,不需要额外的空间开销;视图的逻辑是写在视图定义中,不会提前按此逻辑预加工生成数据,修改逻辑时就很容易;视图本身不存储数据,对于稍有不同的需求就可以建多个视图来实现,不会形成任何额外存储开销。视图的劣势在于:在视图的实际操作访问时,是按视图定义中的逻辑展开,在基础层中进行查询。视图逻辑很复杂时,实际的数据库资源开销还是很大的,查询速度也会比较慢;当多个人在同一天要多次访问同一个视图时,就会重复消耗数据库资源,同时每个人都会面对较长的查询等待时间。2、预加工物理表预加工物理表将加工逻辑写在ETL程序中,由开发人员开发,定期运行这些程序将最终所需的数据加工好放在物理表中。当业务应用人员需要访问这些数据时,直接访问这些已经预加工好的物理表即可。预加工物理表的优势在于:复杂的加工逻辑已经在ETL程序运行时一次性的处理完毕,访问效率会比视图要好;基于物理表上有很多提高查询效率的技术可用,而视图可能就无法使用这些技术,预加工物理表可以适当采用这样的技术以进一步提高查询效率;基于基础层表的复杂的加工逻辑已经在ETL程序运行时一次性的处理完毕,当需要多次访问时节约开销和提高效率的优势就会体现的更充分。预加工物理表的劣势在于:预加工物理表本身需要存储数据,需要额外的空间开销,特别是当目标数据集较大时,这些开销还是非常可观的,还会引出一个数据保留周期的问题;预加工物理表的逻辑是写在ETL程序定义中,会提前按此逻辑预加工生成数据,因此修改逻辑时就很复杂,而且还涉及历史数据的问题;预加工物理表管理相对复杂,成本较高,增加删除需谨慎,且数量亦不适合太多。在共性加工层设计时视图和物理表的选择是一个比较复杂的问题,不可一概而论。最重要的决定因素是系统的配置情况,其次还有用户对于查询的效率期望值,中间表数据被重用的可能性,表数据量的大小等。实现方式共性加工层的实现方式主要有三种,分别为预链接、预计算和预聚合。1、预连接预连接指的是原来分散在整合模型层中的很多信息根据应用的需要进行预连接,这种预连接可以有不同的实现方式,比如可以采用物理表,也可以采用视图。2、预计算预计算在整合模型层中难于计算,通常是规则比较复杂,或者计算一次所需的时间比较长的数据预先计算出来,但粒度不变,仍为最细的人口粒度;对于需要预计算的数据,因为业务逻辑比较复杂,建议采用物理表的方式。3、预聚合预聚合维度建模方式对整合模型层和共性加工明细层进行汇总和聚合,不再是最细粒度了。对于预聚合,也将采用物理表与视图结合的方式,但因为预聚合的粒度已经比较粗了,所以数据量上也会减少很多,所以可以适当的多采用物理表的方式,以节约系统资源,提高查询效率。数据应用层设计数据应用层定位四大应用系统做为社会和云系统的一个子集,他主要面向某个特定的应用。其定位包括:1、大数据平台有大量的数据;应用系统中的数据更多的是大数据平台的子集,主要是基于大数据平台之上来建立的。2、大数据平台只适于少量的灵活访问;而应用系统适合大量的非预知的数据的访问和分析。3、应用层主要是面向应用而设计的,可以面向特定应用需求而设计数据结构;4、应用层的建设可以以3NF方式进行设计,也可以采用星型模型或多维模型的方式进行设计;5、大数据平台内存储了很长时间范围内的数据—从5年到10年,而应用集市数据则可根据应用的需要灵活掌握;6、大数据平台允许分析人员以受限的形式访问数据,而应用集市允许自由的访问。设计原则应用数据与系统数据字典的数据分开存储于不同的表空间。按应用划分数据,不同应用的数据应存储于不同的表空间,便以数据处理及前端查询。按业务管理需要独立处理或维护的数据,例如独立进行数据备份或清理,应考虑存储在独立的表空间。表和索引分开存储于不同的表空间,以便分布到不同的数据文件、硬盘上,并分别进行不同的物理存储参数优化。并行存取的多个分区,应考虑存放在不同的表空间,以控制分区分布到不同的数据文件、硬盘上。相对静态的表和频繁变动的表分开存放在不同的表空间,以便分别进行不同的物理参数优化。数据库服务架构基于云计算平台,将关系型数据库的能力以服务的形式提供给用户,同时具有传统关系型数据库软件系统常见的功能,又具备更多优势。目前需要支持MySQL数据库,后期会扩展到Oracle、MSSQLServer和PostgreSQL等。数据库服务能够实现对Oracle、MSSQLServer等资源的应用,可以采用物理机和虚机的方式整机部署分发的方式,也可以采用高性能物理机部署后采用数据库自身的管理系统进行实例的分发。图SEQ图\*ARABIC17数据库整体架构其主要功能包括:实例管理,包括创建实例、增删改实例、重启实例、读写分离主从设置等;数据迁移,将数据导入导出实例;数据备份与恢复,可设置自动备份策略或者随时手动备份,支持物理备份和逻辑备份,支持全量备份和增量备份,支持删除备份,支持从备份点文件恢复;数据库与帐号管理,对数据库及数据库帐号进行增删改查等操作;数据库参数配置,用户可灵活自定义数据库参数,使数据库性能最优化;运行监控,直观呈现实例的资源使用情况,以及数据库引擎的各项参数指标运行状况;日志管理,对错误日志和慢日志进行统计分析,为用户优化数据库性能提供参考信息。应用支撑系统设计大数据基础平台设计概述大数据数据应用平台以Hadoop及其相关技术为核心,提供海量数据存储和数据查询、挖掘分析能力。通过集成系统中各来源的结构化数据和半结构化数据,一方面将各级职能部门结构化信息进行统一管理,另一方面将内网上相关信息加以融合。大数据平台将结合其他各个业务系统,集成各种数据源后,搭建统一集中大数据处理和分析平台,从全方位,多角度为运营决策提供强有力的帮助。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:高可靠性Hadoop在文件存储和处理数据的能力值得信赖。高扩展性Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可以方便地扩展到数以千计的节点中。高效性Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。技术方案物理架构设计方案大数据平台的物理架构实现是十分复杂且技术难度较大的过程。参考目前流行的大数据设计理念和先进技术,设计大数据平台集群物理架构图如下:图SEQ图\*ARABIC18大数据平台集群示意图其中主要包括的机器节点描述如下:ResourceManage此节点用于运行计算框架YARN的主服务节点,控制整个集群的计算资源的分配和调度。需要有两个节点。NameNode此节点用于Hadoop集群中的HDFS文件系统的存储主节点服务,控制所有集群中的文件存储相关分析和管理。需要两个节点。HMaster此为Hbase的数据库相关服务的主节点,需要部署两份。DataNode此节点主要用于分布式的存储、计算应用。会部署Hbase、HFDS、YARN等相应的从节点服务。OtherComponents机器用于规划安装一个额外的计算组件、数据库、监控工具等。WebService用于集群的对应服务应用的安装,如历史数据查询的接口服务。关键点设计及推荐架构1、Hadoop集群高可用设计方案Hadoop采用zookeeper集群实现HDFS、YARN、HBASE、HIVE等集群组件的高可用。所有的重要服务都是双份,通过Zookeeper实现实时的监控。若出现活动状态的主节点故障时,Zookeeper监测到故障,立即将另一个备用状态的主节点激活为活动状态,保证了集群不会出现运行中断。同时,在Hadoop集群中,最重要的是保证HDFS数据不会丢失,实现的方式就是通过JournalNode集群,实现两个NameNode节点间的元数据实时同步,保证元数据不会丢失,也保障也集群的数据安全性。图SEQ图\*ARABIC19Hadoop集群高可用性架构图2、Hadoop集群中各节点的功能及安装的组件规划以下列表为Hadoop集群中的核心组件、客户端、应用程序的安装规划列表。描述了各主节点、监控节点、数据节点等需要安装的核心组件。另外需要说明的是,一些核心组件由于只需要安装客户端,因此没有详细体现在列表中(见表格最后一列),这些组件包括:Spark、Flume、Kafka、Pig、solr、nutch等,可根据实现应用需要进行安装。表SEQ表\*ARABIC4Hadoop集群核心组件安装规划机器序号分类HDFSYARNHbaseJournalNodezookeeperHive应用程序及客户端组件1主节点namenode2主节点namenode3主节点ResourceManagerHmaster4主节点ResourceManagerHmaster5监控节点、客户端节点JournalNodezookeeperHiveServerMYSQL各Hadoop客户端组件6监控节点、客户端节点JournalNodezookeeperHiveServerMYSQL各Hadoop客户端组件7监控节点、客户端节点JournalNodezookeeper各Hadoop客户端组件8应用程序节点HiveClientWebService、调度服务9应用程序节点HiveClientWebService调度服务10数据节点datanodeNodeManagerHRegionServer11数据节点datanodeNodeManagerHRegionServer12数据节点datanodeNodeManagerHRegionServer17数据节点datanodeNodeManagerHRegionServer18数据节点datanodeNodeManagerHRegionServer3、集群的物理部署架构推荐Hadoop集群中推荐的节点部署架构如下图所示,以机架为单位,每个机器上存放若干个机器节点。所有的主节点分别分一个机器(实现部署在两套机架上,因为所有主节点都是双份的);从节点按实际的机架容量分别放到多台机架上,需要注意的是在Hadoop中可以通过配置机器对应的机架来提高访问的效率,hdfs会优先访问本机架所对应的节点上的数据,以提高访问的效率。机架内部的节点之前以千兆网络进行联结,机架之前通过万兆交换机进行联结。图SEQ图\*ARABIC20集群部署物理架构推荐系统资源及配置规划表SEQ表\*ARABIC5系统资源配置规划表MachineTypeWorkloadPattern/ClusterTypeStorageProcessor(#ofCores)Memory(GB)NetworkSlavesBalancedworkloadTwelve2-3TBdisks8128-2561GBonboard,2*10GBEmezzanine/externalCompute-intensiveworkloadTwelve1-2TBdisks10128-2561GBonboard,2*10GBEmezzanine/externalStorage-heavyworkloadTwelve4+TBdisks8128-2561GBonboard,2*10GBEmezzanine/externalNameNodeBalancedworkloadFourormore2-3TBRAID10withspares8128-2561GBonboard,2*10GBEmezzanine/externalResourceManagerBalancedworkloadFourormore2-3TBRAID10withspares8128-2561GBonboard,2*10GBEmezzanine/external网络资源规划网络资源规划如下图所示。机架内部的节点机器之前最少采用千兆网连接,并且采用双网卡,各机架与主节点的联结采用万兆网连接,保证集群的网络高可用性和传输速度。图SEQ图\*ARABIC21大数据平台网络资源规划图计算架构实现整合层计算方案大数据平台历史数据存储在整合模型层,建议以整合数据模型进行存储,保持数据格式的一致性。业务系统在将每日增量数据加载到hadoop平台之后,通过hdfs文件进行存储;为方便后续数据分析和应用,数据在进行历史存储时,一般采用二维表的形式,也就是采用hive进行保存。针对每日的增量数据,可以采用按日分区的方式,将数据加载到hive表中,区分数据的历史。具体的计算架构如下图所示:图SEQ图\*ARABIC22缓冲层到整合层计算框架数据清洗在从源系统抽取的数据存储到hdfs平台后,数据以文件的形式进行存储,各字段间和字段内容可以存在不规范的情况,或数据存在错误的情况。这时若直接将数据存储到历史表中,将引发后续数据计算的错误,或者解析的失败。例如,字段包括特殊字符、代码类型错误等。这时就需要在数据入库前,先进行数据的清洗和转换。对于非结构化的数据,需要自定义mapreduce程序来处理;而对于大多数的业务数据表,我们可以采用pig流式处理直接对数据进行解析,然后存储hive表中。数据存储在hadoop平台中,存在有统一的元数据管理工具HCatalog。HCatalog可以对各组件进行统一的数据格式管理,保证各种工具可以该问相同的一份数据。例如,注册了Hive表之后,我们可以利用Pig对数据进行清洗转换,然后直接访问Hive表,将数据存储进入。在进行数据存储的同时,我们通过hive的分区技术,按日将数据进行分区,采用覆盖存储的方式,保证每日的数据不会出现重复的情况。共性加工层计算方案共性加工层用于将源数据按业务需求,将数据进行加工统计、汇总等,供各业务系统使用。此处数据存储需要根据实际应用方式来确定。针对实时查询和统计的数据,可以采用hbase进行数据存储,保证查询的高效性。针对集市应用等需求,可以将加工统计的数据采用hive表进行存储,方便数据的导出和批量处理。在进行数据处理时,采用Hcatalog统一进行元数据的管理,保证近源层和共性加工层的数据处理统一性。也就是在通过hbase进行存储时,同样可以采用hive、pig进行数据的访问。所有的数据在加工到共性加工层时,都可以通过Hive的查询语言进行处理,通过python脚本进行处理逻辑的包装。图SEQ图\*ARABIC23共性加工层计算框架图数据应用于查询方案Hadoop中可以提供两种数据查询的方案,可针对报表应用、数据挖掘工具的接入进行直接的访问,同时也可以进行自定义数据查询的开发。查询服务逻辑功能如下图:图SEQ图\*ARABIC24应用集市层应用框架图1、Hive数据查询Hadoop大数据平台可提供全面的数据查询服务,具有如下特点:适用于大规模的数据导出;利用Mapreduce/Tez引擎,适合复杂的SQL逻辑分析;较适合结构化数据存储;可应用于历史数据的统计分析,负责的数据查询运算等,非常适合为下游系统提供数据导出服务。2、Hbase数据查询适用于实时响应的查询Phoenix提供SQL查询接口,同时提供表索引功能Solr提供快速的全文检索,适合模糊匹配的索引功能HBASE更适合结构化或非结构化数据存储由于HBaze数据查询具备的以上特点,可用于支持下游应用系统的数据服务、全文检索查询服务、模糊匹配查询服务等。可支持如网格化管理系统的数据支持服务、数据导出服务、决策系统的数据分析与挖掘服务等。并且支持ETL设计ETL是指数据的抽取(Extract),转换(Transform)和加载(Load),是大数据平台实施的一个非常重要的环节,在项目实施的第一阶段中是项目实施的工作重点,建立一套完整、正确、高效的数据抽取、转换和加载机制,是大数据平台的基础性目标。需要指出的是,由于并行数据库的发展,目前更主流的大数据平台ETL模式是“E”“L”“T”的模式,即数据抽取、加载、转换。转换操作一般是库内进行。因此在项目实施过程中,Extract部分既可以采用已有ETL工具如InformaticPowerCenter,亦可以采自行开发的脚本,Load部分采用已有ETL工具或者数据库客户端加载工具,最后在进行转换(Transform)时采用脚本开发语言+SQL脚本实现。该ETL架构充分考虑在大数据查询、大批量大数据文件加载、卸载处理情况下,系统仍能保证高效、稳定的运行。大数据平台的ETL过程是数据处理的核心过程。通过使用ETL的相关技术,对从源系统输入的数据进行清洗、比对、处理、加工等处理步骤,完成数据集中、数据整合、数据标准化等过程。为下游业务系统提供数据支持。图SEQ图\*ARABIC25ETL架构设计图数据抽取对源系统的数据进行抽取,只有在源系统不具备自行导出文件的前提下,才需要大数据平台主动抽取数据。虽然可以做到直连源系统将数据抽取到缓冲层,但在时间充裕的情况下不建议这样做。将数据抽取成文件可以保证系统的一致性,并在文件层对源系统的数据进行管理和归档。本模块还需要包含检查源系统是否就绪和对源系统进行抽取通知等功能。可以使用公共的数据库表和源系统交换信息,源系统具备开发条件的,也可以使用socket开发通信接口。抽取过程的提取增量问题,优先使用时间戳提取增量。在没有时间戳的情况下,如果源表很大,可以申请源系统建立触发器或者建立辅助表记录源表每行的哈希值来辅助提取增量,但不建议这种办法,会对源系统造成较大影响。通过数据库日志提取增量只能通过IBM或Oracle的工具实现,需要额外购买。如今的硬件吞吐能力很强,在不具备增量抽取条件时建议直接抽取全量,在大数据平台的近源层可以为下游提供增量。数据加载数据由文件加载至数据缓冲层,该层的数据特点:短期的,细节地反应业务原貌的数据存储,直接提供基于源系统结构的简单原貌访问,为BI环境中适合的业务需求提供支持。在此层只对数据进行简单处理,不考虑整合。考虑到数据量,对于非关键字段不保留历史,加载前需要对文件进行校验。满足特定的需求:有些就需要原始数据,满足业务人员使用;可考虑对此层数据会做一些数据类型的规范化,减少错误发生的可能性;上游数据标准发生变化,整合层将标准化为整合层提供数据源,以便及时修正整合层数据对于源系统删除的,建议打上删除标签与整合层类似,采用集中标准的算法。近源层加工缓冲层的数据通过不同算法进入近源层。本层的模型基本和源系统相同,所以这层主要做如下工作:标准化本层并不做代码转换,但是会对日期,金额,等字段类型进行标准化处理,以不影响数据原貌为前提。全量覆盖代码表等不需要保留历史的表进行全量覆盖操作。增量对比对缓冲层的数据进行增量对比,加载入历史表中。历史拉链可以用最经济的方式保存相当长期的数据。整合层加工近源层的数据经过转换整合进入主题模型层,该层的数据特点:长期的,细节的,整合的数据存储,为大数据平台环境中适合的各类业务需求提供支持,此层的数据处理主要是面向全局的数据整合,中性设计,灵活扩展,提供规范和共享。面向主题设计,采用主题设计;主要存放细节的和历史的数据。共性加工层主题模型层数据经过一定的转换加工进入共性加工层,该层的数据特点:共性加工层是从业务的视角出发,提炼出对大数据平台具有共性的数据访问、统计需求,从而构建出的一个面向支持应用的、提供共享的数据访问服务的公共数据。共性加工层通常是提炼一些应用的共性加工,并在此层一次加工后供下游应用多次使用。其作用是:同时服务于多个不同应用,实现数据加工结果的共享,减少系统重复加工的开销;提高使用时的查询效率;降低应用开发和数据查询的复杂程度;实现对常用业务统计口径统一的定义和维护,而不致于不同的应用加工出不同口径的数据;加快新应用的实施进度;便于业务分析人员直接使用数据服务子系统的数据进行查询分析;应用集市层应用集市层的数据来源于主题模型层和共性加工层,应用集市层完全针对具体应用需求而建,按照标准的建模规范,应用集市层的实施要点为:采用遵从业务应用需求的建模方式,以方便使用为主要目的;注意数据保留周期不宜过长;在性能允许的情况,本层部分表也可以以视图实现;ETL异常处理策略ETL异常处理策略主要对本项目的ETL的校验点重启机制进行详细描述。如果由于各种异常情况的发生而导致数据ETL过程出错时,通过回溯操作可使数据库中的数据恢复到数据正确最近的时点,从而进行恢复性加载。保证数据集成平台数据的可恢复性和数据处理的灵活性。出错处理首先要制定标准而规范的出错处理流程,在流程内部要针对各种不同出错的原因进行针对性处理,出错的原因和处理的方法需要在ETL运行的过程中不断的总结和整理,形成一份《ETL故障错误恢复说明书》。在出错的情况中,比较严重的是当数据库中的数据出现较多错误时,需要对数据库中的数据进行回溯到前一天或数据正确最近的时点。ETL处理的异常主要包括:硬件、操作系统、网络导致异常;数据源数据传输、质量导致异常;ETL过程处理导致异常;目标数据模型导致异常;人工干预导致异常等;处理的方法包括:手工干预,重新调整ETL过程;终止流程,通知管理员;拒绝数据,记录原因;清洗数据,部分入库;监控资源,反复尝试;ETL恢复策略包括有:除了应用集市层,其他层几乎所有任务都可以在故障修复后直接重跑每条记录中有数据ETL的时间戳,对小数据量的数据表,可以通过该时间戳清除掉本次加载的数据对于大数据量的表,可以利用时间窗口功能,如果大表某一天的数据出现错误后,可以直接进行一天数据的recover;数据接口目标及内容大数据云平台工程数据接口标准定义目的是规范社会和云源系统或数据交换共享平台通过FTP/DB直连获取相关数据源提供的数据文件标准和大数据平台为下游数据集市提供的数据文件标准。标准包含但不限于以下内容:文件传送方式文件命名规则输出频度文件格式文件就绪标识字段填写规则定义原则及策略1、文件目录定义原则文件目录涉及业务源系统为大数据平台供数的文件目录和大数据平台为下游数据消费系统供数的文件目录。目录定义原则如下:能够快速定位文件的存放目录能够有效区分文件的用途能够有效区分不同时间点的文件目录结构用英文简称或者数字串(例如时间)同一系统抛出的、同一目标系统接入的,必须存放在同一目录下文件目录结构建议:~/源系统英文简称或者目标系统英文简称/日期(YYYYMMDD/大数据平台接入数据源文件:/BDF_IN/源系统英文简称/日期(YYYYMMDD)/2、文件命名原则文件涉及大数据平台系统加载文件和大数据平台卸出文件,命名原则如下:英文文件名,且文件名长度现在系统规定的长度内统一文件后缀统一的文件命名格式:增量/全量标识_三位源系统英文简称/三位目标系统英文简称_原系统表名_8位日期.后缀3、文件格式定制原则命名原则如下:定义字段间分割符,充分考虑市网格中心业务系统的实际情况,定义通用的分隔符定义每条完整数据的区分方式对于异常字段,例如空字段,如何在正确的识别信息等严格的要求卸出字段的内容,比如:是否含有异常字符,是否有空格等,以及对异常字段的处理方式或者建议4、文件就绪标识原则就绪文件用于记录数据文件来自系统、数据日期、文件大小、记录数、生成时间等属性信息,标识数据文件导出结束,与数据文件为一一对应关系,命名为数据文件命名.ctl。如果数据文件名为CBS_GLMAST_20120101.dat,则其对应就绪文件命名为CBS_GLMAST_20120101.ctl就绪文件以逗号分隔,填写示例:系统简称,数据日期,文件名,记录数,大小,生成时间戳名词定义如下:表SEQ表\*ARABIC6名词定义表名词定义系统简称数据源系统简称,如核心为CBS数据日期数据日期,格式YYYYMMDD文件名对应数据文件名称记录数文件记录数大小数据文件物理大小生成时间戳文件生成时间,格式为YYYY-MM-DDTHH:MM:SS,其中T为大写字母,如2012-01-01T12:00:00就绪文件示例:CB,20120101,CB_ADPXX_20120101.dat,2512335,1232345454,2012-01-02T12:00:005、字段填写规则充分考虑不同字段的格式要求,对于特殊要求的字段,提供样例说明。例如:时间传输格式为:YYYYMMDD,2011年1月1日为:20110101;金额:默认单位都是“元”,保存小数点后两位等ETL作业设计作业设计原则:作业设计以目标表为导向,一般情况下,目标表与作业一一对应存在多个作业处理一个目标表:目标表字段来自多个源表,可通过多个作业处理;目标表记录来自单一源表,可通过单一作业处理目标表中既有直接映射字段,也有源表计算字段、自身衍生字段,可以拆分为多个JOB,目标表在一定场景下可以当做源表使用如从源表到目标表,需要建立中间临时表,可将每个临时表当作一个目标表处理,可通过多个JOB完成从源表到目标表如出现同字段多源表优先顺序更新规则,只设计获取优先级最高的源表属性字段JOB原则上不允许一个作业处理多个目标ETL作业流设计1、作业组流是阶段内的相关作业组的集合。提供数据块的流向控制。划分作业组流原则:ETL分为两个阶段:基础数据加工、应用数据加工。每个阶段内的时间独立按照作业组翻牌;作业组流在阶段内划分,不允许跨阶段划分;以源系统+主题(或子主题)为作业组流划分依据,不同源系统或不同主题作业组不放同一作业组流中2、作业组是相关作业流的集合。划分作业组原则:在作业组流中划分作业组;作业组可满足独立翻牌;作业组界定:一个JOB是多个JOB的前置JOB,该JOB可界定为作业组的起点;一个JOB是多个JOB的后续JOB,该JOB可界定为作业组的终点;作业组内的作业流可并行或串行执行;作业组在过程内划分,不允许跨过程划分作业组;作业流不能跨作业组依赖;占用资源大的多个作业组之间串行;作业组内并行的作业流之间执行时间应相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年真空绝热板项目提案报告范文
- 2024年机械量仪表项目申请报告
- 安徽省铜陵市枞阳县枞阳县浮山中学2025届高考考前提分语文仿真卷含解析
- 安徽省安庆市五校联盟2025届高考语文考前最后一卷预测卷含解析
- 浙江省宁波重点中学2025届高考仿真模拟英语试卷含解析
- 恩施市重点中学2025届高三最后一模数学试题含解析
- 2025届河南省济源四中高三下第一次测试英语试题含解析
- 云南省绿春县二中2025届高考考前模拟英语试题含解析
- 新疆维吾尔自治区行知学校2025届高三下学期第六次检测英语试卷含解析
- 2025届江苏邳州运河中学高考仿真卷英语试卷含解析
- 中华人民共和国药典(2023年版)
- 【2022年】陕西省宝鸡市警察招考公安专业科目预测试题(含答案)
- 《线性代数》课后习题答案
- 许可证有效期内的辐射安全防护工作总结
- 教学设计 《寻找时传祥》
- 农村生活污水处理设施运行维护费用指导价格指南(示范文本)
- 凸透镜成像规律动画可拖动最佳版swf
- 贷款还款计划书范文6篇(6篇)
- 如何培养孩子的自信心课件
- 肌内效贴技术课件
- 幼儿园中班社会教育认识蒙古族课件
评论
0/150
提交评论