




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息资源服务(金融云)大数据平台建设方案第34页共68页大数据平台建设方案2015年4月目录1 项目概述 41.1 项目背景 41.2 建设目标 41.3 建设原则 51.4 建设思路 51.5 建设内容 62 需求分析 72.1 现状分析 72.2 数据分析 82.3 需求总结 103 技术方案 113.1 设计原则 113.2 设计思路 123.3 架构体系 143.3.1 整体架构设计 143.3.2 技术架构设计 153.3.3 网络拓扑架构 173.4 数据流向 193.5 建设内容 203.5.1 前置系统 203.5.2 ETL平台 203.5.3 数据仓库 213.5.4 统一数据服务接口 243.6 技术选型 263.6.1 MPP数据库 263.6.2 Hadoop平台 283.6.3 传统数据库 313.6.4 传统ETL 313.6.5 云化ETL 313.6.6 混搭架构融合管理 323.6.7 数据集成 373.7 产品选型 403.8 配置清单 423.8.1 软件配置清单 423.8.2 硬件配置清单 423.8.3 MPP数据库配置部署 433.8.4 Hadoop集群配置部署 444 方案优势特点 464.1 混搭架构的大数据平台 464.2 数据资源统一管理、高度共享 464.3 海量数据低成本存储管理 464.4 高可用、动态扩展 474.5 深度精细化的业务数据支撑 475 大数据区金融应用推荐建设 475.1 金融云大布控及大搜索建设 475.2 视侦系统 475.3 经侦实战化情报分析 476 附录一:H3CDataEngineMPPCluster产品简介 486.1 系统技术架构 496.2 系统技术特点 516.3 系统功能简介 526.4 H3CDataEngineMPPCluster工具 536.4.1 图形化企业管理工具 536.4.2 图形化监控工具 536.4.3 数据备份/恢复 556.4.4 gcadmin工具 566.4.5 数据重分布工具 566.5 系统核心技术 566.5.1 MPP+SharedNothing架构 566.5.2 列存储 576.5.3 高效的透明压缩 586.5.4 高可用 596.5.5 高并发 596.5.6 高性能在线扩展 626.5.7 高性能数据加载 636.5.8 OLAP函数 656.5.9 行列混合存储 656.5.10 智能索引 656.5.11 全文检索 666.6 系统运行环境 666.6.1 网络环境 666.6.2 硬件环境 666.6.3 操作平台 666.7 系统开发接口 676.7.1 H3CDataEngineMPPClusterODBC 676.7.2 H3CDataEngineMPPClusterJDBC 676.7.3 H3CDataEngineMPPClusterADO.NET 686.7.4 H3CDataEngineMPPClusterCAPI 687 附录二:H3CDataEngineHDP产品简介 69项目概述项目背景XX“XXX”经过多年建设,取得了较大成绩,有力支撑了业务工作开展,促进了工作体制机制变革。XX信息化的高速发展积累了丰富的业务数据,种类不断丰富、结构不断异化、总量急速增长,行业的大数据体系已初见雏形。目前,省内各级机关快速积累并不断增长的信息数据已成为继警力资源、装备资源之后的新一类核心资源。如何快速挖掘其内在价值,转化为现实战斗力,在更高更深层次服务保障工作开展,已成为XX信息化迫切需要解决的关键问题。当前,伴随着XX信息资源的快速增长,数据质量不高、处理能力不强、标准规范不足、专业应用不深等问题开始全面显现,迫切需要以新的思路、新的方法、新的技术,逐步解决数据资源海量化、异构化,应用需求多样化、复杂化等现实问题。为强力推动“大情报”工作建设,打牢“大情报”系统根基,做强情报信息数据支撑,强化实战应用效能,按照部、省厅“大情报”体系建设的要求,XX着力建设信息资源服务平台。该平台以解决当前面临的具体问题为出发点,以云计算、大数据等新技术为关键支撑,以服务实战应用为根本目标,逐步建立信息化新的技术架构、开发模式,强化信息资源梳理整合,建设便捷高效的应用功能,有效构建信息资源应用服务新体系。建设目标基于云计算、列存储、大规模并行处理(MassivelyParallelProcessing,简称MPP)、Hadoop等先进技术与理念,构建XX信息资源服务平台的数据资源服务支撑体系。开发结构化、半结构化和非结构化三类信息资源,建立具有海量数据处理能力的大数据平台,健全数据采集渠道,增加信息总量,加强统筹规划,改善内容结构,加大整合力度,统一标准规范,初步形成大数据统一存、管、用系统框架。有效汇总整合内外部数据资源,实现对数据资源的统一管理、高度共享和高效利用,解决数据资源海量化、异构化,应用需求多样化、复杂化等现实问题,进一步提升信息资源开发利用水平,提升信息资源服务的能力和服务品质,深层次满足上层业务应用、管理决策支持和信息再生应用的需要,达到强化情报信息数据支撑,服务实战应用的目的。同时,在平台不断成熟发展的过程中,形成配套的管理机制,平台也将进一步向下开放,从而实现合理调整警力、科学配置资源、改进金融模式的目的,进而逐步建立一套与形势发展相适应的现代金融新机制,使机关指挥体系、情报研判及工作机制更加适应未来信息化建设的要求。建设原则本项目要从项目建设所采用的技术、建成后系统的特性等几个方面充分考虑项目建设原则,具体如下:先进性与前瞻性原则——项目需采用先进、成熟的技术,并兼顾数据分析系统未来的发展要求。实用性和扩展性原则——系统功能实用,操作简便,运行快捷,并具备良好的可扩展性。可靠性和稳定性原则——系统设计要保证软硬件及网络系统等均符合系统可用性使用要求,保障系统可靠、稳定运行。统一性和标准化原则——系统开发各项功能必须遵循国家信息化建设标准,实现系统的统一性和标准化。建设思路项目在建设中将遵循如下设计原则:1、以数据为核心XX信息资源服务大数据平台的建设核心是对来源广泛、海量化、异构化的数据进行全面的汇集整合,并在此基础上实现数据的关联挖掘。能否最终建设形成一个信息量丰富、实时性强、来源可靠的信息库,决定了系统最终上层应用的功能,也决定了系统能否持续发展、能否对周边系统提供有力的支撑。2、以平台为基础基于平台面向各警种部门的上层应用建立数据统一存、管、用的生态环境,一方面实现数据资源的统一存储、统一管理和高度共享,另外一方面提供统一的数据资源服务接口,实现数据和服务的高效利用,基于平台形成一个生态体系,繁荣信息化。3、注重持续发展项目的建设不是要完全替换现有的数据和系统,而是在现有基础上,充分利用已有的成果,经过对现有数据的再分析和深度挖掘,产生新的有价值信息,满足应用需求多样化、复杂化的需求。项目不但要利用现有项目的成果,而且还要将自身的成果提供给其它系统使用。4、侧重创新XX信息资源服务大数据平台是一个具有创新性的平台,其以云计算、MPP、Hadoop等新技术为关键支撑,以服务实战应用为根本目标,逐步建立信息化新的技术架构、开发模式,强化信息资源梳理整合,建设便捷高效的应用功能,有效构建信息资源应用服务新体系。建设内容根据项目需求,本期项目需要建设能够支撑信息资源服务平台,对数据、社会数据和互联网数据进行整合和统一管理的的大数据平台,并通过对大数据的分析,成功有效地完成决策支持,推动各业务的有序运行。整个信息资源服务大数据平台的建设内容主要分为四部分:前置系统、ETL平台、数据仓库和统一数据服务接口。需求分析根据当地时间遇到问题、数据内容、新需求来进行分析。需本地修改。根据当地时间遇到问题、数据内容、新需求来进行分析。需本地修改。按照横向物理整合、纵向逻辑集成的总体思路,基于XX各类业务应用系统生产的业务数据、社会面采集的各类人、财、物的流动及管理数据、互联网应用产生的各类实名数据,通过整合汇聚和服务集成,建设形成信息服务综合资源库,通过对该库中各类数据的关联分析和深度挖潜,为各类业务应用提供诸如同案分析、串并比对、研判布控等复杂分析功能,为一线实战提供更为丰富的信息资源应用服务。现状分析经过长期的实际应用,XX信息资源库无论是在数据资源利用以及对外提供数据服务,还是在管理运维中的问题,也逐渐的显现出来。随着信息化建设工作的不断推进,越发成为制约整个工作发展的瓶颈,也渐渐暴露出数据资源、手段建设等没有充分利用等问题,导致在实际工作中实战效能不高,一定程度上影响了手段作用的发挥,具体问题如下:1、信息资源的开发和整合力度不够,共享程度低从总体看,目前已有的采集渠道基本沿袭传统模式,信息源少、覆盖面小、代表性不强;统计周期长,信息时效性差;大量的信息处于部门所有、相对封闭的分散状态,缺乏有效整合,共享程度低。这种状况在宏观上难以为决策层提供有力的支撑,微观上难以为各警种业务提供有效的信息引导。2、无法实现跨域数据的融合汇总和管理XX信息资源服务平台涉及面广,信息源宽泛,不仅涉及八大基础库等结构化业务数据,还包括从民政、工商等部门交换来的社会数据,以及微博、微信、网页、论坛等互联网数据。大数据时代,XX急需构建信息资源服务大数据平台,实现对各类业务多样性的海量信息进行一致性管理,为上层业务应用和数据挖掘提供基础支撑。3、资源服务能力差,海量数据的管理和服务存在瓶颈基于各警种部门业务对数据资源的需求,这要求一方面要提供高效的数据资源服务,另外一方面要提供灵活多变的业务资源服务。而目前现有系统面向业务操作OLTP场景,面对来源广泛、类型各异的海量数据,现有系统无法有效的存储和管理,特别是面对大数据对象的深度解析和关联处理,以及海量的半结构化数据和非结构化数据处理,无法实时高效的检索出关键信息,现有系统的数据资源服务能力已经阻碍了基层民警业务实战应用。4、决策、管理和服务职能缺乏有力支撑随着大数据时代的到来以及XX信息化的发展,对于海量业务数据的处理需求骤然增加,但没有建立起完善的以大数据平台为核心的决策支持系统和管理服务系统等系统,各业务的决策、管理和信息服务缺乏现代信息技术支持手段,无法满足各业务的实际需要。数据分析数据的属性或特征从不同角度看有不同的特点,可以按照如下不同的分类方法进行归类:按数据类型分类中既包含结构化数据,又包含半结构化数据和非结构化数据。结构化数据:系统中包含八大基础库等业务数据,以及从民政、工商等部门交换来的社会数据。半结构化数据:业务系统等产生的大量的网页、word、pdf、xml、报表等数据。非结构化数据:业务系统中存在大量的监测音视频、图片、文档、文本等数据。按数据应用类型分类数据应用类型分为:事务型操作、分析型操作。事务型操作:指主要进行增加、删除或修改操作,这类的应用主要是业务系统中的操作。分析型操作:业务中还有一部分操作室进行大量的查询、统计,即为分析型操作,分析类操作又分为关系型操作和非关系型操作。关系型操作对关系型数据进行复杂的关联查询、统计;非关系型操作基于非关系型数据按照关键字进行内容分类检索。按数据价值密度分类数据按照其价值密度分为:高价值密度数据和低价值密度数据。高价值密度数据:在的警员、刑侦等业务系统中产生了大量的具备高使用价值的结构化数据,在各业务系统中被精确频繁的使用,这些数据位高价值密度数据。低价值密度数据:业务系统中会产生大量的监控音视频、抓取图片等非结构化数据和网页等半结构化数据,以及在监测、登记等业务中大量的日志类结构化数据,但是价值松散,这类数据是低价值密度数据。按数据职能分类数据按数据职能分为:基础数据、统计数据、交换数据、共享数据和管理数据等。基础数据:指业务采集或产生的的基础信息,包括警员、在逃人员、出入境等基础业务数据。统计数据:为了实现数据统计、快速查询、综合分析,将基础数据按照数据仓库模型进行组织而产生的数据,主要指针对专题产生的统计结果信息及汇总信息等。交换数据:指从民政、社保等外部单位交换采集的社会数据。共享数据:根据必要的访问权限和数据密级,供内部或外部人员或单位访问的数据。管理数据:主要包括运维管理数据、交换管理数据、工作流配置数据、规则数据以及系统运行监控数据等,在系统运行过程中产生的,用于维持系统正常运行而产生的数据。需求总结XX金融工作需要逐步建立一套与形势发展相适应、面向各业务、具有海量数据处理能力的大数据平台,深层次满足上层业务应用、管理决策支持和信息再生应用的需要,使机关指挥体系、情报研判及工作机制更加适应未来信息化建设的要求。具体需求如下:1、数据整合共享需求:面向多信息资源源头以及多种数据,需要合理布局资源结构,并按照统一的标准体系,汇总整合内外部结构化数据、半结构化数据以及图像、视频等多种类数据信息,对各类业务多样性的海量信息进行一致性管理,形成统一、高性能、高可扩展、高可靠的综合大数据平台,为上层业务应用和数据挖掘提供基础支撑。2、海量数据存储管理需求:信息资源服务平台的数据主要包括八大基础库等业务数据,从民政、工商等部门交换来的社会数据,以及微博、微信、网页、论坛等互联网数据,现有的传统的数据存储系统不能解决数据规模日益增长的问题,因此对海量数据存储管理有迫切需求。3、高效即席查询需求:采用新型数据库对海量数据进行存储,并提供SQL查询语言对各类业务统计信息进行快速查询,从而提升业务处理效率。4、数据分析性能需求:随着数据量的不断增加,需要数据平台具备线性扩展能力和强大的分析能力,支撑不断增长的数据量,满足未来性各类业务工作的发展需要,确保业务系统的不间断且有效地工作。5、大数据分析挖掘需求:目前的管理方式正在从“业务驱动”向“数据驱动”转变,各管理部门迫切需要掌握业务基础概况、发展状况、发展历史和发展趋势等,从而更好的引导各项业务合理发展。目前,这些数据的获取没有完整的解决方案,现有系统只能统计分析出部分数据报告,并且在运用数据发现网络活动内在规律的时候,往往力不从心,迫切需要运用大数据技术,分析挖掘“潜在”价值,帮助政府相关部门准确决策、合理调配资源。6、海量数据快速全文检索需求:为提高用户查询、检索信息的速度与灵活性,实现人、案、物全息搜索以及关联搜索,需要大数据平台提供海量数据快速全文检索服务,满足各警种情报分析与案件办理等的需要。技术方案设计原则项目在开发的过程中应注重实用性、易用性和安全性的要求。切实把握各类业务工作的特点和未来发展的方向,使平台能够充分发挥效用,为相关业务人员和管理人员提供准确的指导和有价值的决策参考依据。XX厅信息资源服务平台中的数据和信息属于涉密范畴,系统应注重安全性要求,充分考虑信息防泄漏、防盗取的问题。先进性和实用性信息资源服务大数据平台所采用的技术具有先进性和实用性。即采用的存储设备平台、服务器主机平台、系统软件平台及相关应用系统平台所采用的技术应符合当前技术发展的方向。与此同时,为了保证系统的稳定性,在采用先进的技术的同时考虑到成熟技术的性能,以保证在系统建设过程中采用的能跟踪先进的技术的同时兼顾项目的可实施性。可靠性信息资源服务大数据平台稳定、可靠,具备高可用性,能够满足“数据集中”系统业务的要求。大数据平台的可靠性同时也包括系统所具有的具体功能、系统所能支持的大数据容量和在复杂的运行环境里稳定、可靠地运行,在出现异常的情况下,系统具有相应的规避措施等,保证系统服务的不间断运行。可扩展性随着信息资源服务平台的实施,各类信息数据不断地增多和业务应用系统的覆盖面的不断扩大,大数据平台将承担更大的数据管理和数据支撑任务,为此,系统平台必须提供足够的扩展能力以满足将来业务增长的需要。其主要表现在在业务和数据系统需要扩展空间时,只增加相应的硬件,不用改动整体的架构,实现容量和性能的线性提升,同时,新增的硬件可平滑地接入正在运行的系统。易管理性由于信息资源服务平台所服务的对象的广泛性,以及应用系统的复杂性,因此,为保证信息资源服务平台工程的顺利实施,在大数据平台建设时充分考虑这些特点。大数据平台用户界面友好,各项功能使用简单、方便、快捷。系统配置和管理体现图形化、直观化,尽量避免复杂的系统配置文件。可管理性充分体现在系统软、硬件平台的管理工具应提供丰富的、图形化的管理工具,以便于管理及系统问题的判断。安全性考虑到各类业务工作会涉及到诸多敏感及涉密信息,系统需要具备信息安全防护机制,防止信息泄漏和恶意入侵,保障信息数据的私密性和安全性。信息资源服务大数据平台运行系统的安全性包括硬件平台的安全、系统安全、业务应用系统的安全和网络通讯的安全。大数据平台建设首先遵循安全可靠的原则,最大可能减少因信息基础设施故障而造成的业务无法正常进行的现象的发生;同时,建设中注重信息安全体系的建设,提高数据的整体安全性,进一步保证数据安全。设计思路当前,XX积累了丰富的业务数据,数据种类不断丰富,数据总量急速增长,数据资源呈现海量化、异构化等特点,行业的大数据体系已初见雏形,迫切需要以新的思路、新的方法、新的技术,逐步解决。XX信息资源服务大数据平台整合优化内外各类信息资源,形成基础资源库,并在基础数据资源库建设的基础上,通过二次抽取、索引化整合、逻辑关联等方式,建设形成应用服务资源库。一是实现基础数据资源的关联融合,对不同来源、不同类型的基础数据,按要素提取关键字段,建立要素内的关联关系;二是实现专题应用数据的整合建库,按照业务应用具体需要,基于专业应用业务模型,通过二次抽取整合的方法,建立专题应用资源库,满足专业应用需要。应用服务资源库要求库内要进行大量的统计分析和多表关联运算,这就对大数据处理的性能提出了更高的要求。按照数据特征和数据处理要求,XX信息资源服务大数据平台的实现需要以混搭模式构建,最优的解决方案应包括:用MPP架构的新型数据库集群处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求。1、采用MPP架构的新型数据库集群建设应用服务资源库,同时能够承担基础数据资源库中关系型数据的存储、整合和统计分析任务。MPP架构的新型数据库集群重点面向行业大数据,采用SharedNothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本X86商用服务器,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。MPP架构的新型数据库集群的技术实现特点使得其特别适用于应用服务资源库的建设,在强调关联分析的背景下,同时面向众多的业务场景和分析任务,基于MapReduce的Hadoop架构有着二次开发的技术和成本劣势。2、采用Hadoop实现半结构化、非结构化数据处理。围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术,也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。综上所述,XX信息资源服务大数据平台采用MPP架构的新型数据库集群+Hadoop的混合架构,按照横向物理整合、纵向逻辑集成的总体思路,基于各类GA业务应用系统生产的业务数据、社会面采集的各类人、财、物的流动及管理数据、互联网应用产生的各类实名数据,通过整合汇聚和服务集成,建设形成信息服务综合资源库,通过对该库中各类数据的关联分析和深度挖潜,为一线实战提供更为丰富的信息资源应用服务。架构体系整体架构设计XX信息资源服务大数据平台重点完成海量数据的统一存储、管理、信息共享和数据资源服务提供,并作为应用系统的支撑,针对不同的业务建立不同的专题,建立完善的数据采集、加载、存储、分析和应用展示的架构体系。XX信息资源服务大数据平台采用混搭架构,其核心主要包含四个部分,分别是:前置系统、ETL数据平台、数据仓库和统一数据服务接口。其中:前置系统这部分在前期交流的时候,一定要对用户的数据格式、数据量有调研;:将采集的全部数据按源系统的数据格式临时存储,屏蔽对源系统的干扰,为数据检查和ETL数据处理做好准备。这部分在前期交流的时候,一定要对用户的数据格式、数据量有调研;ETL平台:通过进行高效数据抽取、数据清洗、数据转换、数据校验、数据加载等,完成对数据、社会数据和互联网数据从数据源向目标数据仓库转化的过程。数据仓库:通过数据仓库存储管理XX大数据平台中所涉及的所有数据进行存储、分析,并能够支撑应用层的业务需要,进行查询、统计和展现的实现。统一数据服务接口:统一数据服务接口是高性能服务接口,为上层应用提供统一的数据服务,满足数据查询、数据互操作、数据交换、数据分析、目录服务、综合查询、信息比对等业务应用的需要。整体系统架构如下图所示:图片针对性修改图片针对性修改技术架构设计整个XX信息资源服务大数据平台从数据和功能的角度可以分为数据源层、数据准备层、数据接入管理层、数据存储共享层、数据服务接口层和数据应用层六个部分,其技术架构如下图所示。图片针对性修改图片针对性修改数据源层:数据来源层为整个系统提供数据,包括内部的综合应用系统、各警种业务系统,以及外部的社会资源数据和互联网数据等。系统不直接从数据来源系统抽取数据,而是通过数据准备层,以保证数据源业务系统的安全。数据准备层:从源系统通过桥接、导入/导出、ETL等方式,采集的全部数据,并按源系统的数据格式临时存储,为数据检查和ETL数据处理做好准备。数据接入管理层:高效进行数据的抽取、清洗、转换、校验、加载等处理,完成对数据、社会数据和互联网数据从数据源向目标数据仓库转化的过程。对于少量或适量的结构化数据可利用传统ETL进行处理,海量的结构化、半结构化、非结构化数据可利用云化ETL(Hadoop)进行处理。数据存储管理层:大数据平台的数据存储层。数据存储管理层实现平台采集和产生的大数据存储,包括结构化数据存储、半结构化数据和非结构化数据存储。其中具有高价值密度的结构化数据使用MPP数据库集群以数据仓库的方式来负责存储管理,低价值密度的音视频、互联网等半结构化和非结构化大数据以Hadoop的HBase、HDFS分布式存储系统负责存储管理。大数据存储管理层对MPP数据库集群和Hadoop平台实现了融合,整合了列存储、智能索引、多副本、Mapreduce、Hive等大数据处理技术对信息资源服务的大数据进行统一的存储管理。数据服务接口层:提供高性能服务接口,为上层应用提供统一的数据服务。数据应用层:面向XX信息资源服务平台的各类业务应用。通过对各业务系统所产生的各类结构化、非结构化大数据进行统一整理、分类、存储、专题分类等处理操作,从而达到将原始的无法使用的大数据化零为整,使之成为有序、专题化、可统一查询分析的价值数据目标。以大数据平台为基础,用户的信息资源服务平台应用可以更快更方便的开发建设,应用的种类可以更加多样化,特别是对结构化和非结构化数据的综合价值挖掘更加有效和深入。网络拓扑架构大数据平台采用双链路接入,保证链路接入的可靠性。平台网络拓扑架构主要包括五部分:网络接入区、安全管理区、核心交换区、云计算服务区和云存储服务区。平台网络拓扑架构如下图所示:网络接入区:大数据平台通过双链路连接到广域网网,在边界出口路由器上架设Ddos流量清洗设备,实现流量检测和抵抗拒绝服务攻击。双链路连接通过链路负载均衡器实现链路访问的负载均衡。安全管理区:安全管理区部署大数据平台安全设备和软件,保证整个平台部署的系统及数据的安全性,主要包括防病毒、IPS、漏洞扫描、堡垒机、IT综合管理系统以及统一的安全管理系统、安全设计系统和安全监控系统等。核心交换区:实现大数据平台的核心交换功能,及在核心链路上部署入侵防御系统、防火墙和防病毒设备,保证云平台的安全高效的接入功能。云计算服务区:在云计算服务器部署基础环境和及应用系统。应用系统通过WEB应用防火墙WAF设备以保证应用系统面临的网页篡改、敏感信息泄露、拒绝服务、蠕虫等网络安全危害。云存储服务区:部署云存储平台服务器,并在服务器上部署安全数据库集群保证大数据的存储、管理和访问等的安全性。安全数据库集群通过存储加密、三权分立、强制访问控制等技术保护大数据的安全性。数据流向XX信息资源服务大数据平台的数据流向如上图所示,其中:前置系统从源系统采集、汇总数据、社会数据和互联网数据等全部数据,为数据检查和ETL数据处理做好准备。ETL平台从前置系统抽取数据,进行数据清洗、转换、校验等处理,并将处理后的高价值密度的海量结构化数据,直接加载到MPP数据库集群中,对于低价值密度的海量半结构化数据数据和非结构化数据,将其元数据或索引放入数据仓库中,将非结构化数据放入Hadoop系统中。MPP数据库完成数据仓库的搭建,存储管理结构化数据,以及半结构化和非结构化数据的元数据或索引,并对所有数据进行复杂关联查询分析。MPP数据库集群进行统计分析及复杂查询的结果数据,将数据同步到Hadoop系统进行备份和非关系型处理。Hadoop系统承担海量半结构化数据和非结构化数据分布式计算、非关系型处理,存储管理各种非结构化、半结构化的数据,并保存MPP数据库集群的备份数据等。统一数据服务接口是高性能服务接口,为上层应用提供统一的数据服务。建设内容根据项目需求,本期项目需要建设能够支撑信息资源服务平台,对数据、社会数据和互联网数据进行整合和统一管理的的大数据平台,并通过对大数据的分析,成功有效地完成决策支持,推动各业务的有序运行。整个信息资源服务大数据平台的建设内容主要分为四部分:前置系统、ETL平台、数据仓库和统一数据服务接口。依据XX的实际需求情况,设计一个以大数据平台为核心,抽取包括数据、社会数据和互联网数据等在内的全部数据进行整合和统一管理的大数据平台,整个系统全面支持业各业务实际应用,从数据端到最终的信息资源服务业务支撑。前置系统从源数据系统采集、汇总数据、社会数据和互联网数据。所采集的数据类型分为三类,结构化数据、半结构化数据和非结构化数据。前置系统将采集的全部数据按源系统的数据格式临时存储,屏蔽对源系统的干扰,为数据检查和ETL数据处理做好准备。另外,前置系统备份存储了一定量的源系统的历史数据,可实现数据的版本控制和管理,在源系统数据已经刷新的情况下,即时二次抽取过程运算出错,也可以进行回溯。ETL平台ETL平台通过进行高效数据抽取、数据清洗、数据转换、数据加载等,完成对数据、社会数据和互联网数据从数据源向目标数据仓库转化的过程。ETL平台处理的源数据分为三类,结构化数据、半结构化数据和非结构化数据。为了高效的处理不同类型的海量数据,ETL平台可划分为传统ETL和云化ETL两部分。所有数据均可通过ETL平台处理后加载到数据仓库中。数据清洗数据清洗实现对业务数据的标准化统一,去除重复记录、替换处理和去除无效数据等功能。对不同来源的业务数据进行清洗和转换,将不同标准规范下的数据统一转换成符合信息资源服务平台的数据标准与数据定义,提供多种数据清洗的方式,利用条件过滤、去除重复记录、空值处理和去除无效数据等方式对业务数据进行清洗。数据转换非结构化数据结构化转换通过对信息系统中日志类文件的解析,实现非结构化数据向结构化数据的转换,最终保存到数据仓库中。日志解析方式根据用户对日志信息的获取需求及解析原则设计定制,凭借数据仓库带来的高性能优势,对解析转化后的日志文件能够实现高效的查询分析。低价值密度数据向高价值密度数据转换对于音视频、图片这种低价值密度的非结构化数据,通过元数据提取特征,将特征数据保存到数据库中,从而实现向高价值密度的结构化数据的转换。元数据支持定义、查询、编辑、发布四项功能,在元数据的作用下,提取出来的特征信息通过加载,最终保存到数据仓库中,为实现高性能的查询分析提供基础。数据仓库在前置系统与ETL平台对采集到的大量数据进行简单的梳理与过滤后,将所有数据导入数据仓库中进行存储和分析,通过二次抽取、索引化整合、逻辑关联等方式,实现基础数据资源的关联融合,对不同来源、不同类型的基础数据,按要素提取关键字段,建立要素内的关联关系;同时,实现专题应用数据的整合建库,按照业务应用具体需要,基于专业应用业务模型,通过二次抽取整合的方法,建立专题应用资源库,满足专业应用需要。整个数据仓库是面向专题的、稳定的和随时间变化的,分为情报库、信息应用库、全文索引库、配置库等几个部分,其中在情报库的基础上构建重点人专题、关联专题及其他专题等,在信息应用库的基础上构建业务查询、统计专题和其他专题等。作为整个大数据平台最核心的存储分析部分,为上层应用提供有力支撑。数据仓库由基础数据层、中心数据层、数据集市层和数据管理平台四个部分构成。基础数据层基础数据层是一个轻度汇总的数据库,既能够支撑事务型操作,又能支持简单的统计分析操作,并提供统一完整的数据视图和提高系统综合性能,简化了数据仓库的数据传输接口和数据仓库管理数据的复杂度。基础数据层的数据粒度为细节级数据,存储从源系统抽取的业务基础数据,包括数据、社会数据和互联网数据。这些数据经过清洗、标准化,主要是操作型数据和参数数据,基础数据层按业务主题进行归类、整合等。基础数据层面向业务层面,对于不同数据类型的数据进行事务性的操作。中心数据层中心数据层在基础数据的基础上进行加工汇总,形成的指标数据,存储分析型和加工汇总型数据。中心数据层的数据需求来源于应用的一些共同性指标,可以是一些中间数据,这些指标的存在,可以大大提高应用系统的处理效率。中心数据层的数据模型按照主题组织,可以采用星型模型或雪花型模型进行组织,是一个面向主题、集成、稳定、随时间变化的数据集合,用于支持管理决策。数据集市层数据集市层根据应用需求进行建设,包括固定报表、即席查询、OLAP、数据挖掘等,存放的数据主要为分析型数据。数据集市层数据可从中心数据层来,也可以直接由基础数据层来。数据集市层数据直接对外,可直接取用,一般均为满足需求。当然也可以从中心数据层或基础数据层取数据,比如取明细数据。数据集市层是以数据仓库数据为唯一数据源、面向特定分析应用、按一定方式重新组织的数据集合,是数据仓库的子集。数据集市基于数据仓库创建,用于不同业务部门的需求和不同分析应用的分析数据的存储,数据集市模型也按主题组织,可以采用星型模型或雪花型模型进行组织,是基于企业的不同部门、不同人员的分析需求而组织的。数据管理平台元数据管理元数据管理实现对数据描述的标准化,解决系统不同部门之间对相同数据的定义差别造成的指标描述不同的问题,使元数据成为数据整合的基础和依据。元数据管理主要实现定义、查询、编辑、发布元数据四个功能。主数据管理主数据管理实现对系统主数据的管理维护。主要包括对主数据的增加、删除、编辑和查询等主要功能。增删改功能都同时支持对主数据的批量操作和逐条操作。查询支持关键词检索、即席查询等多种查询方式。数据标准管理数据标准管理定义全面、合理、准确的数据标准,提供高效的数据服务。数据定义标准基于全部业务的特点及所涉及的数据,定义数据项的命名规则、数据类型、数据长度、数据值域、数据涵义等数据定义标准,作为数据库设计的参考依据,制定数据表规范、索引规范、视图规范、序列规范、触发器规范等。数据质量管理监控数据质量管理监控包括数据质量管理和数据质量监控功能。数据质量管理实现对数据标准化、统一化管理。数据质量监控功能实现对数据运行情况的监控,保证数据的真实性、完备性和自治性,出现异常情况时报警。数据生命周期管理数据生命周期管理提供对管理信息系统的数据在整个生命周期内的管理:从创建和初始存储,到它过时被删除。根据数据价值随时间推移的演化关系,提供高效、低成本、访问安全便捷的管理架构。在效率最高的系统中保存最有价值的数据,实现高效;低价值的数据保留在低成本的系统中,保证数据管理的低成本。数据服务监控数据服务监控管理实现负载监控、Qos控制、授权管理和计费管理。负载监控实现对本地资源的运行状态监控。包括服务器负载监控、数据库负载监控、数据资源负载监控等。可根据用户需求,定制负载异常时的自动告警功能。Qos控制实现对数据访问能力的限制,当网络过载或拥塞时,QoS能确保重要业务量不受延迟或丢弃,同时保证网络的高效运行。QoS控制包括分类、标注和优先级功能。授权管理实现对APP用户使用权限的管理。计费管理实现对APP用户使用数据资源所产生费用的计量管理。数据服务安全审计提供数据服务安全审计功能,帮助管理员对系统安全进行实时监控,及时发现数据资源申请和使用的动态,发现应用系统入侵和违规行为,忠实记录系统在使用过程中发生的一切,提供取证手段。系统安全审计包括识别、记录、存储、分析与安全相关行为有关的信息。数据服务安全审计与安全审计平台对接,将审计日志保送至安全审计平台。统一数据服务接口统一数据服务接口是高性能服务接口,为上层应用提供统一的数据服务,主要包括SQL接口、MapReduce接口、业务定向接口、关联查询接口、资源目录服务接口,满足数据查询、数据互操作、数据交换、数据分析、目录服务、综合查询、信息比对等业务应用的需要。各类服务接口实现模版化封装配置,支持数据规约的制定、维护和管理,支持服务接口授权的动态化、粒度化管理;支持多种形态的Web服务接口;支持数字证书为凭据,实现服务接口调用人、调用时间、发起IP和操作类型、操作字段、具体条件、返回结果等日志信息的自动采集。基本接口SQL接口平台集成的传统关系型数据库和分析型数据库集群集群符合SQL92标准,实现完备的数据存储和数据管理功能,符合并支持CAPI、ODBC、JDBC、ADO.NET等国际接口规范,直接执行SQL语句,获取执行SQL的结果集。HQL接口平台集成Hadoop生态组件Hive来管理非结构数据的部分,用户可用HQL语句来处理相关数据。方便用户更简便的管理数据仓库中的数据。MapReduce/Spark接口平台集成Hadoop生态组件来管理非结构数据的部分,实现Mapper和Reducer接口来提供Map和Reduce方法,这是MRJob的核心部分。封装接口业务定向接口平台支持针对特定业务对数据的需求封装专门的服务接口,上层应用开发可以调用专门的业务数据接口,无须重新组织构建接口,从而加速开发进程。关联查询接口通过UDF(UserDefinedFunction,用户自定义函数)扩展机制,分析型数据库集群可以与Hadoop生态组件的数据接口对接,分析型数据库集群内部通过定义若干个函数来调用驱动MapReduce函数,将查询命令取得的结构化数据结果集和非结构化数据结果集统一输出,关联查询接口实现了多样性数据关联查询对上层应用的透明。资源目录服务接口对有效的数据资源进行编码并通过资源目录服务接口的形式,发布资源信息,系统的访问人员根据不同的权限通过目录服务接口访问所需的数据资源信息。技术选型MPP数据库按照XX的数据特征和数据处理要求,对于高价值密度的海量结构化数据,直接加载到数据仓库中;对于低价值密度的海量半结构化数据和非结构化数据,将其元数据或索引放入MPP集群中,将非结构化数据放入Hadoop系统中。数据仓库要求能够进行海量数据的存储和管理,库内要进行大量的统计分析和多表关联运算,能够支撑各警种人员的高并发访问和即席查询,并提供可靠的服务,这就对大数据处理的性能提出了更高的要求。数据仓库由MPP数据库来承担,将所有数据导入数据仓库中进行存储和分析,实现海量结构化数据复杂关联查询分析,并提供应用支撑层的接口。MPP数据库集群采用SharedNothing(无共享)+MPP(大规模并行处理)架构以及列存储、智能索引、自适应压缩、双向并行、安全组等关键技术,能够有效提升海量结构化数据复杂关联查询分析应用的性能,提供高可靠的服务。MPP数据库重点面向海量数据分析型应用,采用SharedNothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对OLAP分析类应用的支撑,运行环境多为低成本X86商用服务器,具有高性能、高压缩、高并发、高可靠和高可扩展等特点,在企业分析类应用领域获得极其广泛的应用。这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。1、高性能。MPP数据库集群基于MPP大规模并行处理技术和列存储技术,实现对海量结构化数据的分布式计算和高效列式存储。列存储架构保证了分析型数据库集群在进行复杂关联查询分析时,只需要将查询分析所涉及到的数据列加载到内存中进行运算处理,从而有效降低I/O,提升数据处理性能。智能索引技术实现海量数据在加载入库的同时建立粗粒度索引,在处理上层应用的复杂关联分析和查询请求时,可以有效提升查询和分析性能。双向并行技术实现了自动高效的并行SQL执行方法,充分利用现代的SMP多核CPU资源并行处理海量数据。2、高压缩。自适应压缩技术使MPP数据库集群可以基于不同数据列的数据类型选择不同的压缩算法,从而提升数据整体压缩比,实现海量结构化数据的存储。3、高并发。读写没有互斥,支持简化模式的MVCC,支持数据的边加载边查询,单个节点并发能力大于300用户。4、高可靠。MPP数据库集群通过SafeGroup安全组技术实现安全组内数据冗余机制来保证集群的高可用特性,从而能够为复杂查询分析业务提供持续稳定的数据支撑。5、高可扩展。MPP数据库集群的SharedNothing架构,保证了集群能够实现随着数据规模而灵活扩展,并且集群性能随节点数增加呈线性增长,从而保证在数据量快速增长的情况下,查询分析性能不会下降。MPP架构的新型数据库集群的技术实现特点使得其特别适用于本期项目数据仓库的建设,在强调关联分析的背景下,同时面向众多的业务场景和分析任务,以及日益增大的数据分析、数据挖掘、数据备份和即席查询等应用需求。与传统数据库相比,MPP数据库集群在海量数据分析处理方面性能提升10-100倍。Hadoop平台Hadoop基本介绍采用Hadoop平台承担海量半结构化数据和非结构化数据分布式计算、非关系型处理,并利用Hadoop分布式HDFS、HBase列数据库来存放各种非结构化、半结构化的数据。Hadoop平台采用开源的技术框架实现,是以分散存储和并行计算为基础的半结构化和非结构化大数据处理平台,利用低成本的通用计算设备(PC)组成大型集群,构建具备高性能的海量数据分布式计算服务平台。Hadoop符合GNU相关规范,属于完全开放源代码的体系架构,不仅属于完全免费模式,而且更是便于二次开发和平台定制。半结构化和非结构化数据处理的所有工作都在Hadoop集群中完成。使用分布式列数据库HBase,用来快速存取访问海量数据,通过MapReduce计算框架,实现把海量计算任务分解到各个计算节点的目标,从而能够在较短时间内完成海量数据处理、分析任务。同时充分整合利用Hadoop平台本身的分类、聚类算法组件、分析挖掘组件,结合各种数据开发封装满足各种业务需求的通用、专用服务组件,如行为分析组件、兴趣分析组件、关键词分析组件等。HBase组件HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个ColumnFamily,一个Fmaily下的列位于一个HFile中,易于缓存数据。表是疏松的存储的,因此用户可以给行定义各种不同的列。在HBase中数据按主键排序,同时表按主键划分为多个HRegion,如下图所示(HBase数据表结构图):海量数据的存储架构一系列机架通过大量的机架转换与机架式服务器连接起来,通常会用1GB或者2GB的宽带(通过双链路聚合上联到接入交换机组)来支撑连接。如果使用10GB的带宽将能显著的提高CPU核心和磁盘驱动器的密集性。上一层的机架转换会10GB*2或10GB*4的更高带宽连接着许多机架,形成集群。大量拥有自身磁盘储存器、CPU及DRAM的服务器将成为从节点。同样有些机器将成为主节点,这些拥有少量磁盘储存器的机器却有着更快的CPU及更大的DRAM。在扩展集群时主要有两个方向,一个是广度即增加计算节点,另一个是深度方向,即扩展更多个磁盘驱动器和更多的CPU核心,深度上增加后需要考虑将网络I/O增加,即万兆网络甚至更高网络则是一个重要的考虑因素。传统数据库前置系统按源系统的数据格式临时存储采集的全部数据,不对数据进行任何的处理,因此,本方案建议前置系统由价格低廉的传统数据库(OLTP数据库)来承担。前置系统从源系统采集数据的方式,可以采用桥接、导入/导出、ETL工具等。传统ETL前置系统中少量或适量的结构化数据可利用技术成熟的传统ETL进行处理,然后加载到数据仓库中。传统ETL专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库,技术成熟、稳定可靠。借助传统ETL工具可以快速的建立起ETL工程,屏蔽复杂的编码任务,提高速度,降低难度。云化ETLXX积累了丰富的业务数据,信息源宽泛,数据种类不断丰富,数据总量急速增长,数据资源呈现海量化、异构化等特点,这些数据要求快速完成抽取转换和装载工作,传统ETL工具已经无法应对这种挑战,因此需要利用面向大数据的云化ETL进行处理,然后加载到数据仓库中。云化ETL系统由Hadoop构建,即使用Hadoop构建信息资源服务大数据平台的云化ETL系统,处理海量的结构化、半结构化、非结构化数据。Hadoop对数据进行简单查询效率很高,适合过滤错误数据、残缺数据和重复数据,可以很好地承担数据清洗任务。另外,Hadoop存储容量大,价格便宜。Hadoop可以使用简单、廉价的硬件构筑存储容量大的集群,具有存储容量大、低成本等优势。利用这一优势,可以方便的存储海量的ETL原始数据。混搭架构融合管理XX大数据平台对存储结构化大数据的MPP数据库集群和存储半结构化和非结构化大数据的Hadoop系统无缝融合,对数据资源建立统一视图,提供统一接口,统一调度关系型和非关系型运算,实现了非关系型数据和关系型数据统一查询,实现深度的数据价值挖掘。两种系统联合部署大数据平台管理系统支持在同一个节点上部署两种系统。这种部署方式使得联合查询无需进行数据在节点间的传输,提升查询效率。如下图所示:对数据资源建立统一视图扩展MPP数据库的外部表机制来建立数据资源统一视图。提供统一接口,统一调度关系型和非关系型运算,简化用户编程维护扩展MPP数据库的解析和执行层,实现对Hadoop云计算平台的访问。执行流程如下:主要有以下三种执行流程:MPP数据库集群直接访问Hadoop云计算平台MPP数据库直接进行计算MPP数据库集群通过组合执行器同时处理两种数据。目前对Hadoop平台的部分操作是用复杂的编程方式利用的MapReduce实现的,难度大,可维护性差,通用性和效率都很低。在无缝对接后,MapReduce操作大部分转化为通过MPP数据库集群提供的自定义函数功能来实现。由MPP数据库来完成对云计算平台中的数据访问和处理。实现方式:在MPP数据库上编写自定义函数,这种方式满足绝大部分需求;利用C或JAVA等高级语言编写自定义函数,这种方式面向特殊需求。用户自定义行业特征函数可以在MPP数据库集群上以UDF形式嵌入用户的行业特征函数,或直接调用Hadoop上的特征函数。统一数据操作接口在大数据存储平台内部集成了MPP数据库集群与Hadoop平台,对于不同类型的数据文件存储方式与位置不同。MPP数据库集群存储高价值结构化数据,Hadoop存储低价值结构化数据、半结构化和非结构化数据,以满足XX多源、异构海量数据的存储需求。但是对于上层的用户来说并不需要区分不同的数据类型。大数据存储平台对上提供统一的数据操作接口,包括数据加载接口、数据访问接口和数据服务封装接口。数据加载接口数据加载接口实现对MPP数据库集群和Hadoop平台统一的数据加载功能。对于高价值结构化数据直接加载到MPP数据库中即可。对于低价值结构化数据、半结构化数据与非结构化数据加载,将原始数据加载到Hadoop系统,同时将该数据的结构化元数据信息和索引信息存储到MPP数据库中,将MPP数据库中存储的数据和Hadoop中存储的数据建立关联关系,以实现综合查询和分析。数据访问接口数据访问接口实现对MPP数据库集群和Hadoop平台统一的数据访问功能。大数据存储平台统一数据访问接口的标准化,对大数据存储平台的使用的易用性有着重要的意义。统一的标准化访问接口,可以更好的实现访问的透明化,使数据实现异地存储与访问,优化网络资源,提高大数据存储平台的处理能力。大数据存储平台对上层应用提供统一的数据访问接口,即大数据管理接口(BDMI),该接口通过面向分布式存储系统的扩展API(分布式文件系统用户接口)、JDBC、ODBC、ADO.NETC-API、RESTFulAPI、MapReduce等接口形式,对结构化数据,半结构化数据和非结构化存储资源进行统一的管理,大数据管理接口把三者有机的融合在一起,屏蔽了由于数据形式的多样性造成的上层应用开发的复杂性,实现了数据访问与存储位置对上层应用的透明性。数据服务封装接口大数据存储平台存储海量、多源、异构的业务数据,为了给平台应用提供好方便快捷的数据服务,根据本项目中信息资源服务应用的业务需求,在大数据存储平台对存储在MPP数据库中的高价值结构化数据和存储在Hadoop中低价值结构化数据、半结构化数据和非结构化数据进行了数据服务的封装,能够以更简单、更直接、更迅捷的提供定向数据服务封装接口,主要包括关联视图服务接口、数据服务封装接口等。关联视图服务关联视图服务为上层的信息资源服务大数据业务应用提供关联视图数据服务,为应用层建设提供关联数据查询视图,并通过视图的物化等技术实现数据关联查询的预处理,以提升信息资源服务业务应用的数据复杂查询、综合关联查询及周期性固定查询的处理效率。关联视图服务主要包括MPP关联视图服务、Hadoop关联视图服务和综合数据视图服务。MPP关联视图服务实现基于MPP数据库的高价值结构化数据关联查询视图,为智慧吴忠高价值数据应用,如大数据分析等提供复杂查询和关联查询视图;Hadoop关联视图服务实现基于Hadoop的低价值结构化数据、半结构化数据和非结构化数据简单查询视图,为信息资源服务大数据应用提供简单的业务查询视图;综合数据视图服务实现基于MPP数据库和Hadoop的综合数据查询视图服务,能够基于各种类型的业务数据,包括结构化数据、半结构化数据和非结构化数据进行综合的关联查询并提供视图服务,为信息资源服务的大数据应用提供用户行为分析、业务分析等综合分析数据视图。数据服务封装数据服务封装基于信息资源服务大数据特征和分布以及业务系统大数据应用的业务需求对数据操作进行了服务封装,可按照两种方式对数据服务封装接口进行分类,即面向数据的类型和来源以及操作类型。从面相数据的类型和来源主要分为三类:MPP数据服务封装、Hadoop数据服务封装和综合数据服务封装。MPP数据服务封装主要针对MPP数据库的数据操作进行的服务封装,根据信息资源服务大数据应用的需求对常用的数据操作进行封装,以方便上层应用的数据操作需求,简化上层应用建设;Hadoop数据服务封装通过类SQL语言对Hadoop的MapReduce操作进行封装,使基于Hadoop应用的开发更符合程序员的经验和使用习惯,简化业务系统大数据应用开发难度;综合服务封装实现对常用的基于MPP数据库系统和Hadoop系统中的结构化数据、半结构化数据和非结构化数据的综合分析和复杂查询的封装,通过简单的参数设置实现全数据的复杂查询服务。从操作类型主要分为数据增加服务封装、数据修改服务封装、数据查询服务封装和数据删除服务封装,分别实现对MPP数据库系统和Hadoop系统的数据加载、修改、查询和删除服务。云存储设计本项目所设计的数据仓库主要技术包括:云存储体系结构,集群分布式事务,集群高可用复制技术,结构化数据、非结构化数据的集中管理与分布式存储,统一加载和查询接口,支持虚拟化环境,通用缓存技术,统一用户视图、备份和恢复技术等,这些技术有效地保障了集群的高性能、高可用性等。针对整个XX海量数据的特点,选取的云存储架构,具有构建成本低、性能高效可靠、使用简单方便的特点。是未来的发展趋势。支持云计算的数据仓库管理系统由MPP数据库集群系统和分布式文件系统构成。设计采用无共享(SharedNothing)架构和大规模并行处理技术(MPP)的数据库集群管理系统。系统可支持TB到PB级别结构化数据存储查询,对于大数据量的处理具有高安全、高性能、高可用的特点。设计使用的分布式文件系统FDFS(DataEngineDistributedFileSystem)由本地分布式文件系统与云存储管理层组成,提供对业务透明的分布式文件存储功能。云存储体系通过集成所涉及数据库集群和分布式文件系统各自的优势,实现海量多源异构数据的存储,并有效保障数据的安全与高性能检索。结构化数据存储在安全数据库集群系统中;非结构化数据存储在分布式文件系统中,提取的元数据信息存储在数据库集群系统,并与存储的数据关联。从而实现结构化数据与非结构化数据的统一管理、高效检索。云存储体系为上层应用提供统一安全加载访问接口,包括统一安全加载接口、面向分布式存储的扩展API、安全标准接口、RESTFulAPI。云存储体系通过有机融合结构化和非结构化数据,实现了数据访问与存储位置的透明,支撑上层大规模数据分析应用的并发复杂查询,对海量网络信息安全数据应用提供高速、稳定、可靠的支撑。设计中数据仓库管理系统内部集成了数据库集群管理模块与分布式文件管理模块,对于不同类型的数据文件提供统一的存储管理。数据库集群存储结构化数据,非结构化数据存储在分布式文件系统上。以满足海量数据的存储需求。但是对于上层的用户来说并不需要区分不同的数据类型。数据集成信息资源服务大数据平台对业务系统、其他部门的数据进行整合主要采用数据抽取和数据交换两种形式。对于内部其他相关信息化系统的数据整合,通过数据抽取工具从其他相关信息化系统抽取数据,加载到数据平台不同的数据存储管理系统中。对于来自社保、民政、工商、卫计及其他部门的社会数据,数据平台通过数据交换共享系统实现对这些外部数据的获取,然后加载到数据平台不同的数据存储管理系统中。信息资源服务大数据平台库间数据交换涉及到MPP数据库集群与传统数据库之间的数据交换、MPP数据库集群与Hadoop系统之间的数据交换、传统数据库与Hadoop系统之间的数据交换。MPP数据库集群与传统数据库数据交换信息资源服务大数据平台依靠MPP数据库集群构建数据仓库系统支撑复杂查询、统计和分析等OLAP分析应用,通过传统ETL/云化ETL从传统数据库抽取基础数据,加载到MPP数据库集群中。另一方面,数据平台统计分析应用产生的统计分析和查询结果数据存储在MPP数据库集群中,可通过数据导出将这些结果数据反馈传送给传统数据库。MPP数据库集群与Hadoop系统数据交换信息资源服务平台通过Hadoop系统对海量低价值密度的结构化、半结构化、非结构化数据进行计算处理提取特征数据,MPP数据库集群采集和存储其特征数据,用于统计分析处理。另一方面,MPP数据库集群进行统计分析及复杂查询的结果数据,将数据同步到Hadoop系统进行备份和非关系型处理。图MPP数据库与Hadoop分工数据流向图上图是MPP数据库与Hadoop分工数据流向图,Hadoop承担数据清洗,转换以及保存MPP数据库集群的备份数据等功能。Hadoop对数据进行简单查询效率很高,适合过滤错误数据、残缺数据和重复数据,可以很好地承担数据清洗任务。而MPP数据库集群使Hadoop具有优秀的扩展能力,为元数据、清洗后数据、备份数据以及元数据等类型的海量数据存储提供了保障。MPP数据库集群与Hadoop系统分工合作,Hadoop用于ETL系统,MPP数据库集群负责数据仓库的汇总、建模以及各种运算,其分工如下:1、Hadoop负责底层的ETL系统,即使用Hadoop构建信息资源服务数据平台的云ETL系统。整个Hadoop平台,负责将接口文件从远程主机进行读取,并放到Hadoop集群中,利用hive进行建表,将接口文件形成hive原始表。这一步就是ETL的清洗过程。第二步对这些原始表进行简单关联,如进行编码的转换,以及关联用户资料后获取某些字段,以完成ETL系统的转换步骤。通过这两个步骤,形成存放在hive中的ETL结果表。2、MPP数据库使用加载机,将Hadoop中的HDFS文件系统,挂载到加载机上,以达到直接对hive的表文件直接读取的目的。通过MPP数据库的加载服务,直接读取HDFS上存储的ETL结果表,将这些结果表以文件的形式加载到MPP数据库集群中。3、MPP数据库集群,承担整个核心数据仓库的角色。MPP数据库采用完全并行的MPP+SharedNothing的分布式扁平架构,没有Master节点,不会产生数据访问热点和性能瓶颈;数据存储采用先进的列存储架构,能够实现最高1:20的数据压缩,帮助用户最大程度的节省硬件存储投资和后续的电能消耗;可支撑100多个集群节点,采用了安全组技术保障了整个集群的高可用(HA)部署,实现PB级海量数据存储和管理。MPP数据库还实现了高性能的分布式数据处理,实现了大并发和大规模数据复杂统计和即席查询的秒级响应,具有在线扩展功能,能够在不停服务情况下,系统进行动态扩展,为上层多维分析、复杂统计分析等分析应用提供完善可靠的数据支撑。MPP数据库与Hadoop分工的原因:1、Hadoop存储容量大,价格便宜。Hadoop可以使用简单、廉价的硬件构筑存储容量大的集群,具有存储容量大、价格便宜等优势。利用这一优势,可以方便的存储海量的ETL原始数据。2、Hadoop对简单的关联操作具有性能优势。Hadoop在单表操作或者是简单关联时,可以利用其分布式文件操作的优势,高效的发挥其性能优势。3、Hadoop在处理复杂SQL运算时不具有性能优势,且语句的编写和优化较为复杂。Hadoop在处理复杂的SQL语句时,在编写起来较为复杂。因为hive语句并非是标准的SQL语句,有众多的语法不支持,有时一个SQL语句简单的关联甚至需要改写为笛卡尔积才可以正确实现其逻辑。而且在复杂语句运算时,已经不能够仅转换为文件操作,性能不具有优势。并且对于hive的语句进行优化,需要非常资深的经验才可以完成,一般技术人员难以编码。5、MPP数据库语句编写简单MPP数据库的语法符合SQL92标准,有非常良好的使用基础,且对Oracle、DB2等数据库的语句兼容非常好,差异率不超过10%。在开发应用时,可以快速的部署和实施。6、MPP数据库集群并行性好、产品成熟MPP数据库集群的资源管理非常优秀,并行处理的时候可以动态的分配资源。而且几乎不需要开发人员过多的参与数据库的运行,完全可以当做一个成熟的产品使用。MPP数据库集群可以完整的支持数据仓库的应用,适合高复杂度、大规模数据量的运算。且基于其列存、分布式等先天优势,具有很高的执行效率。传统数据库与Hadoop系统数据交换大数据平台的Hadoop系统用于存储海量的低价值密度的结构化数据,大数据平台将根据上层业务应用的需要,通过数据抽取工具将存储在Hadoop系统中的部分结构化数据抽取到传统数据库中,用于满足上层业务系统对原始数据进行处理的需要。另一方面,大数据平台通过数据抽取工具将传统数据库中的历史数据抽取到Hadoop系统中进行备份。产品选型1、MPP数据库——H3CDataEngineMPPCluster华三通信大规模分布式并行处理分析型数据库集群系统,简称:H3CDataEngineMPPCluster,它是华三通信公司面向海量数据分析型应用领域,以独特的列存储,压缩和智能索引技术为基础,自主研发的一款极高性能的数据库产品。H3CDataEngineMPPCluster具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的数据库平台,符合本项目建设需求。H3CDataEngineMPPCluster采用完全并行的MPP+SharedNothing架构,具有低成本、海量存储、高效加载、高扩展、高可用、高并发等优势。H3CDataEngineMPPCluster按照列的方式进行物理存储,信息查询时不读取无效列数据,降低I/O开销,提升系统查询统计性能。H3CDataEngineMPPCluster拥有SQL接内部集成了各种核心模块,支撑着对海量数据信息的高效加载和查询。有SQL接口、SQL分析优化器/执行器、粗粒度多维智能索引、缓存管理和压缩/解压缩技术。其中自适应压缩,能够按照数据类型和数据分布规律自动选择最优压缩算法,压缩比可达到1:5至1:20,节省存储空间,降低I/O,提升产品性能;粗粒度多维智能索引,在数据加载时自动建立,索引信息中包含统计信息,实现数据查询时不解包直接获得统计值,进一步降低I/O,实现复杂查询的快速响应。H3CDataEngineMPPCluster通过标准的CAPI、JDBC、ODBC、ADO.NET接口为上层应用提供服务。产品包含多种图形化管理工具,提供对集群环境的可视化监控和管理。数据加载工具能够实现2TB/小时的加载速度。2、Hadoop系统及云化ETL——H3CDataEngineHDPDataEngineHDP:DataEngine大数据计算平台,建立在开源的Hadoop之上的大数据处理平台。统一管理平台、海量数据处理、流程标准化、管理集中化。DataEngineHDP-NoSql:DataEngine大数据存储平台,分布式Key/Value数据库,基于Hbase技术,具有高性能、高压缩比的数据存储与查询能力。3、传统数据库——Oracle、Mysql、GBase8tGBase8t是国内首款事务型通用数据库,有南大通用研发完成。GBase8t体现出的优势:(1)稳定高效:成熟、稳定、高性能;(2)自主可控:知识产权自主可控、能力自主可控、发展自主可控、满足国产资质;(3)国产高端:高端产品、高端应用、国产化替代。Mysql为开源数据库,使用简便,成本较低。4、传统ETL目前主流的ETL工具有:Informatica、Datastage、flume、微软DTS、Beeload、Kettle等等。可根据实际源数据来合理选择ETL工具。云化ETL工具已经集成在H3CDataEngineHDP平台之中。配置清单软件配置清单本期平台建设所需的全部软件配置清单如下:序号名称推荐规格型号数量单位备注1MPP数据库华三通信H3CDataEngineMPPCluster1套2前置系统待定1套3Hadoop系统华三通信H3CDataEngineHDP1套4传统ETL待定1套5云化ETL华三通信H3CDataEngineHDP-ETL1套6主机防病毒-1套可选7安全审计系统-1套可选8安全管理平台-1套可选9IT综合管理系统-1套可选硬件配置清单本期平台建设所需的全部硬件配置清单如下:序号名称数量单位备注1服务器台2交换机台3核心路由器台4核心交换机台5Ddos设备台套6负载均衡设备台套7入侵防御系统台套8防火墙台套9防病毒网关台套10WAF台套11IPS台套12漏洞扫描系统台套13前置机可选台套根据用户实际隔离需求可以根据预算和客户需求来引导是否要建一个大的数据交换平台。主要用户各委办局之间可以根据预算和客户需求来引导是否要建一个大的数据交换平台。主要用户各委办局之间MPP数据库配置部署配置需求数据量:XXTB(根据经验数据量业务需求)节点磁盘容量:10*2TB系统配置推荐H3CDataEngineMPPCluster计算节点共XX台,详细配置如下:节点配置详细信息计算节点数量XXCPU4*4core(Intel(R)Xeon(R)2.0GHz)内存64GB硬盘10*2TBSAS盘,7200转网络万兆加载机数量2(可以选择计算节点作为加载机)CPU4*4core(Intel(R)Xeon(R)2.0GHz)内存64GB硬盘10*2TBSAS盘,7200转网络万兆系统部署Hadoop集群配置部署配置需求数据量:XXTB(根据经验数据量业务需求)节点磁盘容量:10*2TB系统配置推荐H3CDataEngineHDP计算节点共XX台,详细配置如下:节点配置详细信息计算节点数量XXCPU4*4core(Intel(R)Xeon(R)2.0GHz)内存128GB硬盘10*2TBSAS盘,10000转网络万兆系统部署遗留遗留方案优势特点混搭架构的大数据平台在大数据存储平台内部集成了MPP数据库集群与Hadoop平台,MPP数据库集群存储高价值结构化数据,Hadoop存储低价值结构化数据、半结构化和非结构化数据,优势互补,使业务得到最优的支撑。MPP数据库集群凭借高性能的分布式计算,更适合结构化数据分析类应用场景的列存储、智能索引、自适应压缩、并行计算等技术特性,能够充分满足基于结构化数据的复杂的关联分析查询需求,基于MPP数据库集群可以建设高性能的数据仓库系统,实现不同专题的数据库建设。Hadoop系统凭借大规模分布式存储、计算能力和高弹性扩展能力,能够存储海量低价值密度数据,并进行高效的内容分类检索,以满足侦查、案件分析等业务中大量的分类检索需求。数据资源统一管理、高度共享通过云计算、大数据技术,实现对各类数据源各种类型的结构化、半结构化和非结构化跨域数据的统一管理和高度共享,面对不断增长的数据规模和不断深化的工作,大数据平台帮助XX实现一套平台应对各类数据,系统采用模块化分层设计,帮助XX以最低的工作复杂度实现最高性能的大数据处理效能。海量数据低成本存储管理通过分布式计算和存储以及Hadoop+MPP的混搭结构,有效支撑海量数据。基于MPP数据库集群的大数据综合应用平台,数据存储采用先进的列存储架构,能够实现最高1:20的数据压缩,帮助用户最大程度的节省硬件存储投资和后续的电能消耗。MPP数据库集群基于低成本高性能的X86商用服务器构建,运行于开源Linux操作系统。相比基于小型机+磁阵的解决方案,大数据存储管理硬件成本大幅降低。智能索引自动建立,数据库维护简单,降低后期DBA数据库维护的难度和成本。高可用、动态扩展通过合理配置能够有效实现均衡负载,充分发挥每一个节点的计算能力,提升整个系统的协同效率;基于安全组的备份策略,能够保证节点在发生故障时,不影响系统对外提供服务的连续性。MPP数据库集群支持上百个计算节点,能够有效处理PB级数据。基于MPP+SharedNothing的分布式数据处理架构,面对数据规模不断扩增时可通过平滑扩容实现容量和性能的提升。整个过程高度自动化,无须停止集群服务,保证服务连贯性。深度精细化的业务数据支撑有效管理和整合海量数据,实现对各类数据的多维深入分析;高效的数据分析能力,帮助客户应对复杂性强、效率及实时性要求高的场景;高效的运算性能和海量数据的快速查询响应能力,以及100%的查询召回率的全文索引支持,为上层多维分析、即席查询、复杂统计分析等分析应用提供完善可靠的数据支撑,帮助用户挖掘数据潜在价值,辅助科学决策。附录一:H3CDataEngineMPPCluster产品简介华三通信大规模分布式并行处理数据库集群系统,简称:H3CDataEngineMPPCluster,它是华三通信公司面向海量数据分析型应用领域,以独特的列存
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农作物繁育员现状分析试题及答案
- 掌握农作物繁育技术的秘诀试题及答案
- 2024年贵州省公务员考试行测历年真题试题试卷答案解析
- 2024年篮球裁判员破解试题及答案
- 2024年安徽省考公务员考试结构化面试真题试题试卷答案解析
- 模具设计创新实例分析试题及答案
- (高清版)DB50∕T 808-2017 渝小吃 黄凉粉烹饪技术规范
- 游泳救生员职业资格考试面试的试题及答案准备
- 模具设计师的认证考试准备试题及答案
- 智能农田综合管理项目可行性研究报告(参考)
- 包装函范文英文函电(3篇)
- JTG-QB-003-2003公路桥涵标准图钢筋混凝土盖板涵
- 2024年四川省成都市龙泉驿区中考数学二诊试卷(含答案)
- MOOC 感测技术-武汉理工大学 中国大学慕课答案
- 2024年陕西新华出版传媒集团新华书店分公司招聘笔试参考题库含答案解析
- 铁路机务知识培训课件
- 人工智能在制造业中的应用2024年智能工厂的新范式
- (高清版)TDT 1037-2013 土地整治重大项目可行性研究报告编制规程
- 呼气一氧化氮检测技术
- 矿山运输及安全
- 铝加工(深井铸造)企业重点事项解读(米)
评论
0/150
提交评论