数据仓库建设方案_第1页
数据仓库建设方案_第2页
数据仓库建设方案_第3页
数据仓库建设方案_第4页
数据仓库建设方案_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第A 号公开招标方案建议书数据仓库建设数据仓库总体架构专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。根据专家系统数数据仓库建设设目标,结合合系统数据业业务规范,包包括数据采集集频率、数据据采集量等相相关因素,设设计专家系统统数据仓库架架构如下:数据仓库架构从从层次结构上上分为数据采采集、数据存、数据分析、数据服务等等几个方面的的内容:数据采集:负责责从各业务自自系统中汇集集信息数据,系统支撑KKafka、St

2、ormm、Flumee及传统的EETL采集工工具。数据存储:本系系统提供Hddfs、Hbasee及RDBMMS相结合的的存储模式,支持海量数数据的分布式式存储。数据分析:数据据仓库体系支支持传统的OOLAP分析析及基于Sppark常规规机器学习算算法。数据服务总线:数据系统提提供数据服务务总线服务,实现对数据据资源的统一一管理和调度度,并对外提供供数据服务。数据采集专家系统数据仓仓库数据采集集包括两个部部分内容:外外部数据汇集集、内部各层层数据的提取取与加载。外外部数据汇集集是指从TCCMS、车载载子系统等外外部信息系统统汇集数据到到专家数据仓仓库的操作型型存储层(OODS);内内部各层数据据

3、的提取与加加载是指数据据仓库各存储储层间的数据据提取、转换换与加载。外部数据汇集专家数据仓库数数据源包括列列车监控与检检测系统(TTCMS)、车载子系统等相关子系统,数据采集的内容分为实时数据采集和定时数据采集两大类,实时数据采集主要对于各项检测指标数据;非实时采集包括日检修数据等。根据项目信息汇汇集要求,列列车指标信息息采集具有采采集数据量大大,采集频率率高的特点,考考虑到系统后后期的扩展,因因此在数据数数据采集方面面,要求采集集体系支持高高吞吐量、高高频率、海量量数据采集,同同时系统应该该灵活可配置置,可根据业业务的需要进进行灵活配置置横向扩展。本方案在数据采采集架构采用用Flumee+K

4、afkka+Stormm的组合架构构,采用Fluume和ETTL工具作为为Kafkaa的Prodducer,采用Stoorm作为KKafka的的Consuumer,Stormm可实现对海海量数据的实实时处理,及时对问题题指标进行预预警。具体采集系系统技术结构构图如下:数据汇集架构功功能Flume提供供了从connsole(控制台)、RRPC(Thhrift-RPC)、ttext(文文件)、taail(UNNIX taail)、ssyslogg(sysllog日志系系统,支持TTCP和UDDP等2种模模式),exxec(命令令执行)等数数据源上收集集数据的能力力。Flumme的数据接接受方,可以

5、以是conssole(控控制台)、ttext(文文件)、dffs(HDFFS文件)、RRPC(Thhrift-RPC)和和sysloogTCP(TCP ssyslogg日志系统)等。在我们们系统中由kkafka来来接收。Kafka分布布式消息队列列,支撑系统性性能横向扩展展,通过增加加brokeer来提高系系统的性能。Storm流处处理技术,支撑Supeervisoor横向扩展展以提高系统统的扩展性和和数据处理的的实时性。采集架构优势解耦在项目中要平衡衡数据的汇集集与数据的处处理性能平衡衡,是极其困困难的。消息息队列在处理理过程中间插插入了一个隐隐含的、基于于数据的接口口层,两边的的处理过程都

6、都要实现这一一接口。这允允许你独立的的扩展或修改改两边的处理理过程,只要要确保它们遵遵守同样的接接口约束。冗余有些情况下,处处理数据的过过程会失败。除除非数据被持持久化,否则则将造成丢失失。消息队列列把数据进行行持久化直到到它们已经被被完全处理,通通过这一方式式规避了数据据丢失风险。在在被许多消息息队列所采用用的“插入-获取取-删除”范式中,在在把一个消息息从队列中删删除之前,需需要你的处理理过程明确的的指出该消息息已经被处理理完毕,确保保你的数据被被安全的保存存直到你使用用完毕。扩展性因为消息队列解解耦了你的处处理过程,所所以增大消息息入队和处理理的频率是很很容易的;只只要另外增加加处理过程

7、即即可。不需要要改变代码、不不需要调节参参数。扩展就就像调大电力力按钮一样简简单。灵活性 & 峰峰值处理能力力在访问量剧增的的情况下,应应用仍然需要要继续发挥作作用,但是这这样的突发流流量并不常见见;如果为以以能处理这类类峰值访问为为标准来投入入资源随时待待命无疑是巨巨大的浪费。使使用消息队列列能够使关键键组件顶住突突发的访问压压力,而不会会因为突发的的超负荷的请请求而完全崩崩溃。可恢复性当体系的一部分分组件失效,不不会影响到整整个系统。消消息队列降低低了进程间的的耦合度,所所以即使一个个处理消息的的进程挂掉,加加入队列中的的消息仍然可可以在系统恢恢复后被处理理。而这种允允许重试或者者延后处理

8、请请求的能力通通常是造就一一个略感不便便的用户和一一个沮丧透顶顶的用户之间间的区别。送达保证消息队列提供的的冗余机制保保证了消息能能被实际的处处理,只要一一个进程读取取了该队列即即可。在此基基础上,IrronMQ提提供了一个”只只送达一次”保保证。无论有有多少进程在在从队列中领领取数据,每每一个消息只只能被处理一一次。这之所所以成为可能能,是因为获获取一个消息息只是”预定定”了这个消消息,暂时把把它移出了队队列。除非客客户端明确的的表示已经处处理完了这个个消息,否则则这个消息会会被放回队列列中去,在一一段可配置的的时间之后可可再次被处理理。缓冲在任何重要的系系统中,都会会有需要不同同的处理时间

9、间的元素。例例如,加载一一张图片比应应用过滤器花花费更少的时时间。消息队队列通过一个个缓冲层来帮帮助任务最高高效率的执行行写入队列列的处理会尽尽可能的快速速,而不受从从队列读的预预备处理的约约束。该缓冲冲有助于控制制和优化数据据流经过系统统的速度。异步通信很多时候,你不不想也不需要要立即处理消消息。消息队队列提供了异异步处理机制制,允许你把把一个消息放放入队列,但但并不立即处处理它。你想想向队列中放放入多少消息息就放多少,然然后在你乐意意的时候再去去处理它们。内部各层数据提提取与加载数据汇集将数据据储存于操作作型数据存储储层(ODSS),在数据据仓库各层次次间数据转换换提取加载,采采用传统的E

10、ETL工具进行采集集,数据仓库库间的各层次次的数据采集集的实效性根根据具体的数数据需求而定定,具体ETTL建模界面面如图:数据加工与处理理对于数据仓库平平台,应该建建立一套标准准化、规范化化的数据处理理流程,例如如:如何采集集内部和外部部数据、结构构化和非结构构化数据;如如何清洗采集集来的脏数据据和无效数据据;如何对不不同来源的数数据进行打通通;如何对非非结构化的数数据进行结构构化加工;如如何在结构化化数据的基础础上进行商业业建模和数据据挖掘等等。大数据管理层在在一条数据总总线上构建了了一条完整的的大数据处理理流水线。这这条流水线从从数据的采集集、清洗到加加工处理,把把原始杂乱无无章的数据加加

11、工成结构化化的数据组件件,供上层的的大数据应用用来拼装调用用,让企业拥拥有创造数据据资产的能力力。存储设计数据量估算按每列列车平均均500毫秒通过过车地通信采采集监测数据据100条,每天运营营时间18小小时,按每条条记录1600字节计算(监测数据的的数据项相对对简单),初初步按照677列列车计算算。单列列车日监测测数据=3600*2*160*100*118/10224/10224/102242G67列列车年数数据量=2*67*3665/10224 48T10年总数据量量(乘上增长长系数10%)530T (含操操作系统)数据规划10年年,加上系统统用户信息、系系统日志信息息、专家信息息、业务数据

12、据及其它不可可预测类数据据,数据总量量预估5300T。数据存储专家系统数据采采用混合存储储模式进行存存储,RDBBMS存储专专家系统业务务基本数据及及最近1年的监监测数据,110年内历史监测测数据采用NNoSQL HBase数数据库进行存存储,以方便便查询,HBBase基于于Hdfs分分布式文件系系统搭建,具具体存储模式式如下图。RDBMS数据据库,支持专专家库的核心心业务,存储储列车最近11年的监测数数据为保证专专家系统安全全、稳定运行行,在数据库库系统上支撑撑各种统计分分析及传统的的BI业务。考考虑到操作系系统存储、缓缓存存储、数数据库系统存存储、日志存存储等因素, RDBMSS数据库服务

13、务器预计每台台60T存储储,考虑数据据安全及系统统稳定因素RRDBMS采采用双机热备备技术互备。大数据平台规划划存储最近110年监测数数据,日志文文件备份及历历史数据采用用大数据Haadoop和和HBase存存储,大数据据平台数据采采用节点间冗冗余备份,预预设数据2倍冗余余存储,(考虑平台提供供的压缩技术术,压缩存储储可以节省330-55%的空间)。10年数据量=530T*1.5 800T (2倍冗余存储储)分层存储专家数据分三个个层次进行汇汇集与存储,分分别为ODSS层、数据仓库层层、主题数据层,各层次数据据存储内容如如下ODS层:数据据来源于各生生产系统,通通过ETL工工具对接口文文件数据

14、进行行编码替换和和数据清洗转转换,不做关关联操作。未未来也可用于于准实时数据据查询。数据仓库层:数数据深度汇集集层,根据业业务有选择的的对ODS层层的数据进行行提取,通过对数据据的加工处理理,将单一的数数据信息转换换成体系信息息,将点信息数数据变成面信信息数据。主题数据层:将将数据信息体体系根据各主主题进行提取取与转换,主主题域内部进进行拆分、关关联。是对OODS操作型型数据按照主主题域划分规规则进行的拆拆分及合并。数据分析建模伴随着大数据时时代的悄然来来临,数据的的价值得到人人们的广泛认认同,对数据据的重视提到到了前所未有有的高度。数数据已经作为为企业、事业业单位的重要要资产被广泛泛应用于盈

15、利利分析与预测测、客户关系系管理、合规规性监管、运运营风险管理理等业务当中中。如何建立立大数据分析析模型,以提提供决策依据据是很多用户户所迫切解决决的问题。专家数据仓库建建立在Haddoop分布布式系统之上上,提供了多多种丰富的算算法模型,不不同的应用通通过借助不同同的接口实现现数据的多维维呈现和结果果展示,为用用户提供科学学的决策支持持。图 10-7 hadooop算法模型图大数据平台提供供数据挖掘模模型、分布式式计算引擎、高高性能机器学学习算法库(包包含分类 、聚聚类 、预测测、推荐等机机器学习算法法)、即席查查询功能,可可以帮助决策策者快速建立立数据分析模模型立方体,便便于决策者进进行O

16、LAPP分析。常用算法模型:分类算法:分类是找出数据据库中的一组组数据对象的的共同特点并并按照分类模模式将其划分分为不同的类类,其目的是是通过分类模模型,将数据据库中的数据据项映射到某某个给定的类类别中。如政政务网中将用用户在一段时时间内的网上上办理所遇到到的问题划分分成不同的类类,根据情况况向用户推荐荐关联类的问问题解决方案案,从而方便便用户快速解解决网上办事事审批中遇到到的各类问题题。回归算法回归分析反映了了数据库中数数据的属性值值的特性,通通过函数表达达数据映射的的关系来发现现属性值之间间的依赖关系系。在回归算算法中通常将将数值结果转转化为了0到到1之间的概概率,数值越越大,函数越越逼近

17、1,数数值越小,函函数越逼近00,它可以应应用到对数据据序列的预测测及相关关系系的研究中去去。如我们根根据这个概率率可以做垃圾圾邮件预测,例例如概率大于于0.5,则则这封邮件就就是垃圾邮件件。聚类算法聚类类似于分类类,但与分类类的目的不同同,是针对数数据的相似性性和差异性将将一组数据分分为几个类别别。属于同一一类别的数据据间的相似性性很大,但不不同类别之间间数据的相似似性很小,跨跨类的数据关关联性很低。分分类算法中的的一个显著特特征就是训练练数据中包含含了标签,训训练出的模型型可以对其他他未知数据预预测标签。在在聚类的算法法中,训练数数据都是不含含标签的,而而算法的目的的则是通过训训练,推测出

18、出这些数据的的标签。以二二维的数据来来说,一个数数据就包含两两个特征,可可通过聚类算算法,给他们们中不同的种种类打上标签签,通过聚类类算法计算出出种群中的距距离,根据距距离的远近将将数据划分为为多个族群。关联算法关联规则是隐藏藏在数据项之之间的关联或或相互关系,即即可以根据一一个数据项的的出现推导出出其他数据项项的出现。关关联规则的挖挖掘过程主要要包括两个阶阶段:第一阶阶段为从海量量原始数据中中找出所有的的高频项目组组;第二极端端为从这些高高频项目组产产生关联规则则。推荐算法推荐算法是目前前业界非常火火的一种算法法,在电商界界,如亚马逊逊,天猫,京京东等得到了了广泛的运用用。推荐算法法的主要特

19、征征就是可以自自动向用户推推荐他们最感感兴趣的东西西,从而增加加购买率,提提升效益。神经网络模型神经网络模型,因因其自身自行行处理、分布布存储和高度度容错等特性性非常适合处处理非线性的的以及那些以以模糊、不完完整、不严密密的知识或数数据为特征的的处理问题,它它的这一特点点十分适合解解决数据挖掘掘的问题。典典型的神经网网络模型主要要分为三大类类:第一类是是以用于分类类预测和模式式识别的前馈馈式神经网络络模型;第二二类是用于联联想记忆和优优化算法的反反馈式神经网网络模型。第第三类是用于于聚类的自组组织映射方法法。Adaboosst算法其核心思想是针针对同一个训训练集,训练练不同的分类类器(弱分类类

20、器),然后后把这些弱分分类器集合起起来,构成一一个更强的最最终分类器 (强分类器器)。其算法法本身是通过过改变数据分分布来实现的的,它根据每每次训练集之之中每个样本本的分类是否否正确,以及及上次的总体体分类的准确确率,来确定定每个样本的的权值。将修修改过权值的的新数据集送送给下层分类类器进行训练练,最后将每每次训练得到到的分类器最最后融合起来来,作为最后后的决策分类类器。深度学习深度学习算法是是对人工神经经网络的发展展。在计算能能力变得日益益廉价的今天天,深度学习习试图建立大大得多也复杂杂得多的神经经网络,用来来处理存在少少量未标识数数据的大数据据集。数据资源管理专家系统数据具具有数据量大大、

21、数据类别多多、数据关联关关系紧密等特特点,随着数据的的积累,数据资源的的利用价值逐逐步体现,提高数据的的管理,是对对数据资源充充分利用的前前提条件。数数据资源管了了包括如下几几部分内容:数据标准化化管理、数据据监测管理及及元数据管理理等。数据标准管理汇集整理数据资资源管理所需需的标准规范范信息,建立立数据标准数数据库。利用用专家系统数据据标准管理系系统的接口同同步更新标准准信息。包括括数据元标准准以及信息代代码标准。建设数据资源库库,实现专家家系统发布标标准数据元与与本地扩展数数据元标准的的汇集。实现现与车辆检修修等数据源管管理系统接口口对接。建设信息代码资资源库,梳理理国标、部标标和本省定义

22、义的标准代码码以及各业务务信息系统需需要使用的其其它代码,建建立字典代码码实体数据库库。应具备字字典代码定期期同步功能。并并建设信息代代码在线映射射维护功能,以以便对数据标标准化转换提提供支持。数据监控管理大数据运行监控控通过对大数数据资源库相相关服务器、OOraclee数据库、分分布式存储系系统、Haddoop平台台等的运行状状态、性能指指标以及数据据更新情况进进行持续监控控,及时发现现存在的问题题及隐患,辅辅助系统管理理员及时采取取措施,提高高大数据资源源库的运行可可靠性,保障障大数据资源源库稳定高效效运行。发现现异常问题时时通过短信、邮邮件等方式通通知系统管理理员及时处理理,实现通过过自

23、动、智能能、持续的自自动监控预警警代替人工巡巡检,降低运运维工作量,提提高运维效率率。通过可视视化图表对监监控结果进行行统计分析直直观展现平台台运行各类运运行指标,辅辅助管理员从从宏观角度掌掌握平台运行行情况。性能指标监控可以对服务器CCPU负载、OOraclee数据库连接接数、分布式式存储IO负负载、Haddoop负载载等各类性能能相关指标进进行监控,以以便掌握平台台负载情况,及及时发现性能能问题,辅助助平台优化。大数据库日志监监控自动采集大数据据相关组件运运行日志,并并根据既定规规则进行分析析,发现异常常及时告警。提提供日志查询询检索功能,可可以按组件类类型、时间、关关键字等进行行过滤。数

24、据量监控数据量监控通过过对数据总量量以及增量进进行定期监控控,可以掌握握数据量变化化情况,也可可以从数据增增量角度发现现数据入库异异常。数据量量监测结果可可同步到数据据台帐,以便便数据台帐统统计数据总量量情况。元数据管理元数据是数据仓仓库中存储的的基本单元,实实现对元数据据的管理,数数据仓库的最最基本功能之之一。元数据管理包括括元数据注册册登记、元数数据存储、元元数据建模等等多方面功能能。数据服务大数据平台开放放存储访问接接口,提供基基于 Haddoop 技技术体系的 HDFS、HHBase访访问接口,以以 OpennAPI 的的方式,为应应用提供大数数据存储服务务。数据服务层主要要由数据服务

25、务总线来建设设,主要负责责将大数据平平台的能力接接口注册进去去,再以标准准化接口开放放给应用系统统使用,支持持多种协议转转换、服务质质量 控制、访访问控制、规规则引擎等。数数据服务层将将大数据平台台的数据服务务能力开放出出去,供第三三方平台使用用。如上图:应用服服务系统使用用服务接口,来来接入数据服服务总线,经经过数据服务务 总线的接接入端点,进进行过滤。同同时根据访问问控制、服务务质量、协议议转换、策略略调 度、规规则引擎的处处理,接出到到大数据平台台的能力接口口。大数据平台大数据平台基础础架构大数据基础平台台基于烽火自自主知识产权权FitDaata产品,FitDaata主要集集成了基础计计

26、算资源、网网络资源、存存储资源,在在统一的安全全体管理体系系下,将这些些资源再进行行深度加工、处处理、关联,形形成多种类型型的基础服务务能力,构建建基础资源层层,向应用提提供基础资源源的服务能力力。数据服务务总线通过服服务治理来维维护基础资源源服务能力,并并通过访 问控制、服服务质量、协协议转换等,对对应用提供多多协议支持。平平台支撑体系系的运维体系系提供整体运运维能力,保保障平台的正正常运行;安安全体系提供供整体安全能能力,保障平平台的数据安安全和使用安安全;平台采采用分布式架架构,支持巨巨量数据存储储与分析, 保障专家管理理系统的高性性能、高可用用性和易扩展展性。FittData大大数据基

27、础平平台结构如下下图红线标出出部分。数据计算与存储储:是FitDaata 大数数据平台的核核心内容,提提供分布式存存储能力和分分布式计算能能力。提供的的存储框架能能力,包括基基于结构化数数据存储、非非结构化数据据存储和半结结构化数据存存储,其计算算框架与存储储框架均是分分布式集群方方式部署,可可以平滑的进进行弹性扩容容。数据服务层:数数据服务层主主要由数据服服务接口来实实现,对应用用提供数据支支撑。通过数数据服务接口口将平台的数数据资源以标标准 APII 接口的方方式开放出来来,供不同的的应用系统使使用。数据应应用层主要提提供基于该平平台来构建的的专家系统应应用。采用平平台的标准AAPI,数据

28、据资源层获取取数据服务,目目前API 接口包括资资源目录浏览览、数据查询询搜索等。数据汇聚层:提提供各层之间间数据交换能能力,由ETTL数据集成成工具来实现现。平台支持持多中异构数数据源,针对对不同数据源源的不同数据据,也提供多多种数据抽取取方式,例如如数据库直 连抽取、Sqqoop 抽抽取等。提供供计算框架能能力,主要集集成了批处理理计算框 架、流式计计算框架、内内存计算框架架等能力,还还提供了像 Hive、Mahouut、 Sparkk 等二次计计算能力框架架。平台可将将这些计算能能力开放,供供数据模型、数数据挖掘、应应用系统来使使用。运维体系:运维维体系提供面面向专家系统统完整运维方方案

29、, 涵盖了运行行监控到使用用操作。安全全体系提供面面向专家系统统大数据平台台的用户权限限管理、终 端访问控制制、日志安全全审计等能力力。数据存与计算是是 FitDData 大大数据平台核核心能力,将将目前专家系系统内部业务务数据源进行行有效整合,集集成以数据为为核心的查询询、 分析和管理理能力。采用用分层整合,灵灵活配置,横横向扩展,纵纵向贯穿的大大数据平台服服务能力,其其计算框架、存存储框架都以以容器的方式式,可轻松灵灵活的在线进进行装卸,以以平滑扩充大大数据平台的的集成能力。除除此还集成了了二级计算框框架、通用的的数据处理算算法库和数据据仓库,将大大数据平台的的数据进行清清洗、加工和和分析

30、挖掘,处处理后的数据据可订阅,充充分体现数据据即服务的大大数据思想。 分布式存储储框架:主要要负责针对巨巨量数据的存存储,以分布布式存储技术术, 支持快速、巨巨量、多种类类型的数据存存取。支持从从数据源抽取取数据到大数数 据平台存储储,集成多种种存储方式,有有针对结构化化数据、非结结构化数据和和 半结构化数数据的存储。 计算框架:主要提供批批处理计算、内内存计算、流流式计算框架架,由数据处处 理管理驱动动来分配和调调度计算框架架,加载数据据处理算法,完完成数据处理理。 数据仓库:主要对计算算框架完成后后的结果进行行存储,支持持 Hbasse、MS SQQL Serrver 等等存储,同时时将数

31、据以接接口的形式开开放出去。 数据处理算算法库:集成成通用的数据据分析算法、能能够插入用户户自定义的数数 据模型算法法,配合以资资源管理系统统为主的计算算存储框架,进进行数据处理理。 资源管理系系统,以容器器的方式,来来为计算框架架和存储框架架分配资源,并并 支持资源调调度,弹性伸伸缩。 数据服务总总线:主要将将基础平台的的能力和数据据服务接口,以以 API 的方式开放放出去,形成成一个共享的的、供应用使使用的服务总总线。FitDataa特点广泛适应性:支支持结构化、半半结构化、非非结构化数据据;支持实时时数据。巨量数据:数据据处理能力在在PB级以上上。线性扩展:存储储、计算均可可增加节点进进

32、行线性扩展展。统一运维管理:降低安装部部署、运营、维维护成本。经济性:可运行行在普通X886服务器上上,硬件成本本低。高可靠性:支持持容灾容错、备备份恢复机制制,支持自动动告警。支持持节点可靠性性、数据可靠靠性。高性能:高效数数据处理性能能,支持Sppark、Stormm、R。认证安全:支持持Kerbeeros安全全认证、LDDAP账户管管理控制。数据安全:支持持数据加密。负载均衡:支持持节点间存储储、技术负载载均衡。开放性:支持符符合Hadooop规范的的第三方组件件或工具。FitDataa主要功能FitDataa是基于开源源Hadooop开发的企企业级大数据据产品,提供供PB级数据据的采集

33、、存存储和处理能能力,支持数数据加载、查查询、分析、挖挖掘等功能。节点批量自动部部署通过以Web管管理,以图形形界面的方式式实现大数据据平台节点批批量自动部署署,只需添加加主机名(或或者IP地址)即可实实现将节点服服务器添加到到集群中,截截图如下:图 向集群中添添加节点节点动态管理通过web管理理实现节点的的动态添加、删删除,当存储储空间或者计计算资源不足足时,支持向向集群中添加加同等配置的的服务器,实实现大数据平平台在线动态态扩容,而不不需要停机处处理,不影响响平台正常运运行。大数据平台以WWeb图形界界面实现Haadoop集集群监控,包包括大数据平平台的硬件资资源、软件资资源、数据资资源的

34、监控,以以及整个Haadoop集集群的工作负负载。主要包包括以下几个个方面:服务组件状态监监控通过管理平台可可以看到所有有目前已安装装的服务组件件的健康状况况。图 服务组件运运行状况计算资源负载监监控通过管理平台可可以实时看到到整个平台的的资源负载情情况,包括集集群的CPUU、集群磁盘盘IO、集群群网络IO、HDFS IO,如下下图所示:图 计算资源监监控多任务实时监控控通过对集群运行行任务的实时时监测,并根根据任务优先先级和耗时不不同对任务进进行动态调度度,减少出现现大量任务等等待和重要任任务无法及时时完成的可能能,可以使HHadoopp集群的运行行变得更加高高效合理。(1)、系统根根据各队

35、列资资源的最小值值分配集群资资源,这样可可以按照需求求对各任务队队列获取的集集群资源进行行分配,而且且不会出现集集群资源的闲闲置浪费。(2)、可以实实现对各任务务队列获取的的集群资源大大小实时动态态调整,及时时保证高优先先级任务所在在队列获得更更多的集群资资源。(3)、可以实实现在某个任任务队列出现现空闲时,将将该任务队列列获取的集群群资源自动分分配给其他繁繁忙的任务队队列,以使得得集群资源利利用最大化。磁盘性能监控对集群机器的硬硬盘进行监控控,如下图所所示,详细的的展示出磁盘盘IO的利用用率,读写速速度,磁盘的的等待时间。图:磁盘性能监监控故障快速定位大数据平台具备备完整的告警警监控和故障障

36、快速定位能能力。能够将将计算框架的的每个作业进进度、状态、资资源利用情况况进行监控,并并通过可视化化图形界面进进行展示。当大数据平台出出现异常情况况时,平台能能够通过监控控系统,对服服务器节点宕宕机、集群异异常、安全异异常等异常事事件进行预警警、报警,并并通过邮件、短短信报警手段段进行告警通通知。提供预预制的恢复规规则和安全规规则,对集群群异常进行自自动修复、自自动限制非安安全行为的操操作。大数据平台能够够通过对告警警信息的分析析,快速定位位平台内部出出现故障的节节点,对于因因故障无法继继续提供服务务器的节点进进行标记,将将平台的作业业任务自动分分配到其他的的节点上运行行,同时,大大数据平台采

37、采用分布式体体系结构及无无单点故障设设计,平台内内任何节点的的宕机都不会会影响平台的的稳定运行和和业务的正常常使用。待故故障节点恢复复正常后,再再将该节点纳纳入平台的资资源中,将作作业任务分配配到恢复后的的节点上运行行。日常运维监控大数据综合平台台提供完整的的日常运维监监控的服务能能力,针对从从上层应用平平台到底层基基础平台的各各个功能模块块和组件均提提供有监控能能力,能够分分析系统的运运行日志和用用户日志,并并且能够将监监控数据通过过文件接口或或webseervicee接口的方式式汇总到平台台管理运维模模块的监控管管理界面中进进行统一呈现现和管理使用用。系统能够够根据监控到到的数据进行行分析

38、判断,对对异常的数据据触发告警,在在前台界面提提醒,直至出出发通知和处处理等进一步步动作。平台的监控范围围涵盖有:平台管理资源的的使用与分配配服务器视图:提提供针对各服服务器和存储储等设备的资资源使用情况况的实时查看看,包括当前前设备的CPPU负荷,内内存占用情况况,存储空间间使用情况,网网络带宽占用用情况、设备备运行状态等等。管理员能能够根据监控控信息在管理理平台上有效效调度分配系系统资源。其其中集群的监监控如下图所所示:针对服务器的监监控如下图所所示:服务视图:提供供系统中各服服务资源使用用情况的实时时查看,包括括连接数、当当前作业数,II/O情况,运运行状态等。监控系统的运行行情况接口服

39、务运行监监控:提供针针对数据源和和应用层的监监控服务,包包括运行状态态和流量等信信息;数据存取过程监监控:提供针针对数据存储储过程的监控控服务,包括括系统平台的的I/O情况况(整体I/O和具体各各节点I/OO以及具体的的各作业的II/O情况)和和数据存取过过程的任务列列表;数据汇聚过程监监控:监控系系统的数据汇汇聚过程,包包括使用资源源信息,使用用的数据源信信息,作业进进程运行状况况信息,使用用时间/计划划完成时间等等信息;数据处理过程监监控(作业监监控):监控控系统的数据据处理(作业业)过程,包包括使用资源源信息,使用用的数据源信信息,作业进进程运行状况况信息,使用用时间/计划划完成时间等等

40、信息;应用监控:针对对运行在平台台上的应用进进行监控,包包括各应用当当前的运行状状态、应用对对数据的使用用状况,应用用为用户提供供的查询数量量等;系统异常告警与与处理用户告警:对用用户操作使用用过程中的异异常行为进行行告警,例如如某用户访问问了超过其正正常权限的数数据等。系统告警:对系系统中存在的的服务节点宕宕机,系统接接口异常,数数据存储报错错,系统资源源紧张等系统统运行异常情情况进行告警警触发,并提提醒用户进行行操作处理。FitDataa优势烽火大数据平台台FitDaata借助先先进开源的大大数据存储及及处理技术,成成功实施了公公安大数据平平台、楚天云云政务大数据据平台,通过大数据据项目的

41、实施施,逐步沉淀淀了大量的算算法模型及分分析与展示工工具,在平台台性能及稳定定性上经历了了实战的考验验,逐步总结结出一套FiitDataa自己的系统优优化策略及系系统运维策略略,平台经受受住了单节点点超过10000台集群的实实战考验,并支持HAA高可用性运运行策略,经过四年时时间及高强度度项目的锤炼炼,FitDaata大数据据平台已经走走出了自己的的路。在数据据处理上支持持PB及超大大量数据的秒秒级查询及汇汇集。SmartASS是企业级基基础开发平台台,它基于FFitDatta平台之上上,采用微服服务架构,支支持分布式部部署,是成熟熟可靠的多终终端应用开发发框架。它集集成业界流行行和成熟的技技

42、术框架,通通过应用系统统使用,反馈馈的情况不断断完善应用框框架的通用功功能,满足业业务系统快熟熟构建的目标标,具备良好好用户体验硬件部署按照专家系统安安装接口规范范要求,结合合专家管理系系统数据量估估算值和数据据存储特点,本本着数据安全全、系统稳定定可靠的核心心设计思路,设计专家系统大数据平台数据节点服务器22台,其中管理节点服务器2台,数据节点服务器19台,监控节点一台,系统RDBMS数据库服务器台,应用服务器6台,绘制专家系统部署逻辑结构图如下:硬件清单根据系统规划及及安装接口规规范要求,初初步规划服务务器如下:系系统应用服务务器需求6台;大数据据平台设计节节点22个,其中中管理节点22个

43、,数据节节点19个,监控节点点服务器1台台,RDBMMS数据库服服务器两台双双机热备。具具体各服务器器硬件需求如如下表:编号服务器名配置数量说明1RDBMS数据据库服务器4*Intell Xeonn E7-44800/88800 vv3最大可扩展至44 CPU,72 核支持8GB/116GB/332GB/664GB DDDR4 高高速内存配置128GBB DDR44 内存配置9 块9000GB 115K SAAS,14*4T NL SAAS 硬盘。2双机备份2大数据平台管理理节点2*Intell Xeonn E7-44800/88800 vv3最大可扩展至44 CPU,72 核支持8GB/11

44、6GB/332GB/664GB DDDR4 高高速内存配置128GBB DDR44 内存配置6 块6000GB 115K SAAS,3*4T NNL SASS 硬盘。1Active3大数据平台管理理节点2*Intell Xeonn E7-44800/88800 vv3最大可扩展至44 CPU,72 核支持8GB/116GB/332GB/664GB DDDR4 高高速内存配置128GBB DDR44 内存配置6 块6000GB 115K SAAS,3*4T NNL SASS 硬盘。1Standbyy4大数据平台数据据节点2*Intell Xeonn E7-44800/88800 vv3最大可扩展

45、至44 CPU,72 核支持8GB/116GB/332GB/664GB DDDR4 高高速内存配置128GBB DDR44 内存配置6 块6000GB 115K SAAS,12*4T NNL SASS 硬盘。19数据节点5大数据集群性能能检测服务器器2*Intell Xeonn E7-44800/88800 vv3最大可扩展至44 CPU,72 核支持8GB/116GB/332GB/664GB DDDR4 高高速内存配置128GBB DDR44 内存配置6 块6000GB 115K SAAS,3*4T NNL SASS 硬盘。1监控节点6应用服务器CPU:2 颗颗E5-26630 v33 24

46、 个内存存插槽,最大大支持1.55TB 内存存,支持21133 MHHz 内存。当当前配置644GB 内存存。支持SAS、SSSD 和PCIe SSD 硬硬盘,支持22.5寸和3.5 寸寸硬盘混插。支持24+2 个2.5 寸 SAS/SSATA 或或者 14 个3.5寸 SAS/SSATA + 2 个2.5 寸SAS/SSATA +16 个1.8 SSSD。硬盘:配置6 块600GBB 15K SAS 硬硬盘2应用服务器7交换机48 10/100/11000Baase-TXX,4 1000/10000Base-X SFPP2网络设备8防火墙多功能防火墙,44口以上2安防设备9工作站Intel(

47、RR)Xeonn CPU E5,配置1T SSATA 硬硬盘。内存:8GB 2说明:硬件部分分交换机、防防火强及工作作站,请根据据标书确认!大数据服务务器、RDBBMS数据库库服务器及应应用服务器的的具体配置参参数请硬件朋友和和标书上进行行重新确认,这这边只对内存存量、CPU颗数数及存储空间间大小做了要要求。个人介绍吴宏勋:“烽火火集成”高级大数据据架构师,曾曾担任医疗大大数据、公安安大数据、财财税大数据项项目大数据架架构师,具有有丰富的大数数据项目实施施经验,对高高吞吐、高并并发、海量数数据实时汇集集,TB、PPB级海量数数据即席查询询与实时处理具有有针对性方案和和经验,研读读过部分Haad

48、oop、HHBase、SSpark源源码,对Haadoop、HHBase、SSpark的的原理有很深深的理解,曾曾从事多个项项目大数据平平台的调优工工作!专家系统架构设设计本系统总共分为为四个层次,从从下到上依次次为数据采集集层、基础平台层层、应用支撑撑层、应用及及展示层,各各层在专家系系统统一业务务规范、技术术规范、安全全规范下进行行数据通信及及集成。数据采集层:负负责专家系统统信息数据的的汇集、转换换与加载,数数据采集层提提供多种数据据采集方法:ETL、FFlume、Kafkaa等,系统支支持Flumme+Kaffka+Sttorm混合合架构的数据据采集模式,以提高数据据采集系统的的吞吐量

49、和并并发量。基础平台层:基基础平台层为为专家数据仓仓库提供大数数据基础平台台支撑,包括括分布式存储储系统、Hbbase数据据库系统、YYarn并行行计算资源管管理与监控等等,同时支持持Sparkk 机器学习算算法库,支持持R等行业分分析库。应用支撑层:应应用支撑层为为系统各类应应用提供支撑撑,是系统数数据层和应用用层的连接纽纽带。应用支支撑层包括基基础平台和常常规算法两个个部分,基础础平台负责数数据的存储与与并行计算,数数据存储支持持分布式存储储、RDBMMS存储等存存储方式,常常规算法负责责数据分析与与业务建模。应用及展示层:应用层是系系统各项业务务功能的集合合,主要包括括资车辆故障障诊断、

50、车辆辆健康评估、车车辆部件检修修、车辆故障障处理及车辆辆对比分析等等。展示层是用用户同系统交交互的窗口,是是应用层对外外提供服务的的主要手段。支持多种图表展示如饼图、柱状图、曲线图、热力图、气泡图和散点图等可视化展示。平台运维管理Hadoop集集群监控大数据平台以WWeb图形界界面实现Haadoop集集群监控,包包括大数据平平台的硬件资资源、软件资资源、数据资资源的监控,以以及整个Haadoop集集群的工作负负载。主要包包括以下几个个方面:服务组件状态监监控通过管理平台可可以看到所有有目前已安装装的服务组件件的健康状况况,绿色圈表表示运行状态态健康。图:服务组件运运行状况存储与内存资源源监控包括获取存储量量、剩余存储储量以及

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论