大数据处理平台设计方案方案_第1页
大数据处理平台设计方案方案_第2页
大数据处理平台设计方案方案_第3页
大数据处理平台设计方案方案_第4页
大数据处理平台设计方案方案_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据处理平台设计方案方案

1.2.6.1大数据基础平台

(1)架构设计

SDCHadoop大数据基础平台集工作台、工作流开发环境、

任务调度、数据管理、数据检索、集群运维管理系统和应用

门户为一体,为用户提供基于大数据的基础解决方案,全面

满足不同行业、不同人群对大数据的个性化要求。其架构设

计如下图:

分布式缓存层(Tachyon、Redis)

•运维管理(SDCConsole):SDCConsole是大数据运维

管理系统,为SDCHadoop供高可靠、安全、容错、

易用的集群管理能力,支持大规模集群的安装部署、

监控、告警、用户管理、权限管理、审计、服务管理

等。

•SDCHadoop集成开发工具:提供了web图形化方式操

作,包括流程控制、作业调度、数据管理、数据搜索、

元数据管理、文件管理等功能。

•HDFS:Hadoop分布式文件系统(HadoopDistributed

FileSystem),提供高吞吐量的数据访问,适合大

规模数据集方面的应用。

•Zookeeper:提供分布式、高可用性的协调服务能力。

帮助系统避免单点故障,从而建立可靠的应用程序。

•HBase:提供海量数据存储功能,是一种构建在HDFS

之上的分布式、面向列的存储系统。

•Elasticsearch:提供了一个分布式多用户能力的全文

搜索引擎。

•Parquet:面向分析型业务的列式存储格式。

•YARN资源管理系统,它是一个通用的资源模块,可以

为各类应用程序进行资源管理和调度。

•Tachyon:分布式内存文件系统,可以在集群里以访问

内存的速度来访问存在tachyon里的文件。

•Redis:提供基于内存的高性能分布式K-V缓存系统。

•MapReduce:提供快速并行处理大量数据的能力,是一

种分布式数据处理模式和执行环境。

•Spark:基于内存进行计算的分布式计算框架。

•Strom:提供分布式、高容错的实时计算系统。

•Hive:建立在Hadoop基础上的开源的数据仓库,提供

类似SQL的HiveQueryLanguage语言操作结构化数

据存储服务和基本的数据分析服务。

•Impala:提供SQL语义,能查询存储在Hadoop的HDFS

和HBase中的PB级大数据。

•SparkStreaming:建立在Spark上的实时计算框架,

通过它提供的丰富的API、基于内存的高速执行引擎,

用户可以结合流式、批处理和交互试查询应用。

•Kylin:支持在超大数据集上进行秒级别的SQL及OLAP

查询。

(2)功能模块

大数据运维管理

大数据运维管理为大数据存储供高可靠、安全、容错、

易用的集群管理能力,支持大规模集群的安装部署、统一监

控告警、统一用户权限管理、日志查询、服务管理等。

•服务管理

提供服务管理,支持对各项资源及服务进行创建、删除、

启停、重启、配置、升级、部署、维护等操作:

主页

状态所有运行状况问题B配石区3,所有星新命令

•Cluster1(CDH7A图表30分钟1小

e*cpu肝集做I。

•国壬机添加服打

@3Accumuto16

启动

・KHBase停止

•oHDFS重启

・\Hive次动重后

部署客户瑞配国整个主观中第主机使用挈・各设盘中的一各宏中的

・H»Hue-Cluster1CPU254%415KMKt

官曙KemrosS;月耀花

•Yimpaia

升娱群集HDFSK)

®«Kafka

西新群集

•爽Key-ValueStoreJH新动松源泡

•QoozieInspectHostsinCluster

启用Kerberos

・3s<*

设用HDFSWCT据催

•<iSparx

-答网缢g5S3M博・各网络接口214K%>&OataNo0eXWsDataNodc

•{rSpark(StandaioSi看客尸猴坦URL

•睁Sqoop1Client

重命名群集

•哈Sqoop2

配ISCDH版本

•ffiYARN(MR2lnd

•4ZooKeeper进入缰护嗅式

•统一监控告警

提供集群监控功能,集成大数据服务、可视化服务、数

据挖掘服务等,并对服务器CPU、服务资源、服务状态(警

告、错误、隐患)进行实时监控,并以图表形式呈现。支持

异常邮件报警,便于用户及时发现问题并处理:

主页

妖苞所91通行状gJSKK区}•球力叁今

•Cluster1明去

・・王机X1

@aAccumulo16

•HHB»se

•OW3FS6X

•/F

・HiHue

•Ylmpato

•Key-VMu«S«M

・QOozi*

•3Sok

•<XSpark

•<zspark(Standaio

•♦Sqoop1Client

•«Sqoop?

•giYARN(MR2IncQ

・jZooKeeper

ClouderaManagementService

•QCloud«raManaQx<1>

•日志查询

提供日志分析友好的Web界面,可以帮助用户汇总、分

析和搜索重要数据日志:

(terf.ar«ht.(Malin*.<«nn«ct4e.C0)r0t*InpVtStrfaa.r«»d(Cti)«<*Ir«ut$tr*«*.<«v*:l*$)

*tsrg.ip«(be.»clr.jervltt.SclrttsfBtcMiIter.<onju»eIr5Ut($elrOisp»tcMllter.j»v>:91l

»torg.f^chc.Mlr.servlK.SolrDlipatdiFilter.doFiittr<SolrOiipitcWilter.jfv<:233)

*tu-f.iMCh«.colr.s»rvlK.UbCliOat<hFilt»r.<laFHt*r<$olH>l»«UhFilu«-.1«v*:2l6!

・统一用户权限管理

提供统一用户权限管理,方便管理员对用户进行管理:

胪胪我

府喀能肥建

Oosenua畔

D珪逐OouJeraUan^er

@节OxBUai消

SDCHadoop集成开发工具

提供了web图形化方式操作,包括流程控制、作业调度、

数据管理、数据搜索、元数据管理、文件管理等功能。

•流程控制

工作流是由多个节点和节点间的依赖关系所组成的一组

逻辑和规则,形成一张有向无环图(DAG图)开发者可通过

开发面板和管理面板新建工作流来新建工作流进入工作流

设计器,在工作流设计器中通过拖拽不同类型节点并连线的

方式来开发一个工作流,提供基本的数据集成、数据计算、

数据调度等组件的工作流设计,支持工作流的新增、删除、

修改、查询、测试运行、格式化、提交、保存。支持设置工

作流任务定时执行,并实时监控任务执行情况,支持运行日

志查看。

・实时概况

采用多视图实时对流程运行进行监控,从状态、时段、

步骤类型、耗时等不同角度查看过去12小时或24小时内所

有流程的运行统计概况,帮助用户第一时间获知全局运行情

况,并提供强大的性能分析报告优化流程调度:

流程设计:通过简单的拖拽方式即可完成数据特征提取,

样本数据建立,数据挖掘场景构建等复杂流程设计,界面简

洁,操作简单:

a回M16-5-21x0mw&zi

«4<aa

Mt*:Adman

MMQ:加"2ll&J

工作流列表和工作流设计在同一页面,方便用户快速的

切换工作流进行操作,提供工作流新增、删除、修改、查询、

运行、保存功能:

访皿

|DQ|IIWUIB司

Qxs»w

&I«Uitmi

匕EM1A

MM

•t3改专a

UBSW*0

sew学习■_

+

谢e件a宓制

•H•50000时决行

ae2016623S目20164-23

■*am

«K

病20164-2U2&2J

提供工作流组件参数配置,满足用户各类流程设计需求:

用户可设置工作流调度,让流程任务定时执行:

提供工作流运行、暂停功能,运行过程中实时返回各步

骤运行结果:

«JMr«:admin

y:admin

:2012/1USC23

运行监控:展示进行中和已完成的工作流信息,信息主

要包含流程名称、状态、提交者、启动时间、结束时间、运

行进度:

提供关键词搜索流程功能,支持按状态和周期筛选工作

流,方便用户快速查找:

提供运行中的工作流暂停、终止功能;提供已完成的工

作流再次运行、查看运行日志功能:

15*

2M用1L2S2J

<dmn

0曲esa

和M13P-RKS

0e)a

S

2889取H84Misffefi

RSfi:XXH-JM;0@

S^F»MH;IL3@

=>曲9购lOi0Q

知£1接台戢±rfi1

•作业调度

通过多时间维度的计算任务调度、在线运维、监控报警

等功能为大数据开发提供稳定的计算调度能力,可以支持超

过百万级的调度任务量。

•数据管理

支持关系型数据、Hadoop等多种方式的数据查询操作。

可指定数据库进行查询,支持历史查询记录查看:

meYgU>D9*S

gQ权化SM«

<■default

a

«•n=|see*|

2MMI7-14aV>?3»$3tfMtenM«a-

»»«•-

201M7-CIwkct«»e«.

Mc・.

MOL

提供图表化的查询结果展示,支持条状图、折线图、圆

形图、映射图;图表还可按升序、降序及正常序显示查询结

果:

支持查询结果导出为XLS和CSV格式,还可保存到

HDFS或者Hive中:

▲customecddcurtomennamecu$tomer$.emailjreference$customeruddresses

175012DorothyWilk(①加0伽¥加:帆1邮曲叫:匕邸幅中01函帼如呻'闻础{断网仲《5'加2处2

217254MartinJohnson('emaiLfonnat'加T:hquencyTd航'categwies'fpwnos'娴如哪Y喇fsKpping'fstreet.r:'158Jadewa

312532MelvinGarcia('^iljofinatYhtiT.'.,frequtncyYdailyVcategories'fpfomos^fue/sur/eys'^lse}){'sKpping':f$tfeet.r:'1740Hawk$

442632RaymondS.Vestal('etwil.fornifltYlitnr.''frequenc/YmontHy'.'categonesTpfomos^rw/sun'eys'rfalse)}{'billing'fstreel.r^SBChestnut

•数据搜索

通过平台建立多维索引,实现分布式实时搜索与分析引

擎,可实时对数据进行深度搜索:

•元数据管理

对元数据进行管理和操作,查看表结构、表的存储位置

及样本数据。支持从文件创建一个表、手动创建一个表以及

Hadoop体系与传统关系型数据库之间大批量数据的传输。

查看元数据信息,如表结构、样例数据及存储位置等,

支持指定数据库查看:

gf注K1KW

效揖秀default

SQL

I<(default

*QC

•SBSUM

etMi

MSSaBtomtn

SI

_IEh.tU>tol

Bkv3

Importedbysqoopon2016AM/2011X)112

Importedbysqoopon2016/04/1416SS35mIistveximpln

oratortestUMmpte_07

onlyfortest■J0»*nfi».G8

et.crvdn.data

onlyformytM

E!*1

stm

Invonedbysqoopon2016/W/201M*2皂I@u»ti

支持手动创建一个表,后续数据导入到该表文件夹下,

可实现对数据的查询等操作;同时也支持从数据文件中导入

数据的方式创建一个表:

胡叫.今Q

蹦髅

雌摩defaultSC3

SQL

表<Sdefault

Sts多骷芸蹈腾x丢弃

=M1

表名=customers

Bh_credft_(iata

Hh.tabtel

B!kv3

Importedbysqoopon2O16AM/2011X)1:12

?kvwcampte2

Inx»rt«ibysqoopon2016/04/1416:5535

~kvexample$

•文件管理

文件管理主要功能是实现对Hadoop文件的管理,实现海

量数据文件的分布式存储。支持对文件进行新增、删除、修

改、查询、权限更改等操作。支持查看历史记录以及从回收

站恢复删除的文件:

分布式文件系统HDFS

HDFS是Hadoop的分布式文件系统,实现高吞吐量的数据

访问,适合大规模数据集方面的应用,为海量数据提供存储。

HDFS包含主、备NameNode和多个DataNode。在HDFS内

部,一个文件分成一个或多个“数据块"DataNode集合里,

NameNode负责保存和管理所有的HDFS元数据。客户端连接

到NameNode,执行文件系统的“命名空间”操作,例如打开、

关闭、重命名文件和目录,同时决定“数据块”到具体

DataNode节点的映射。DataNode在NameNode的指挥下进行

“数据块”的创建、删除和复制。客户端连接到DataNode,

执行读写数据块操作。

分布式批处理引擎MapReduce

MapReduce是用于并行处理大数据集的软件框架。

MapReduce的根源是函数性编程中的map和reduce函数。

Map函数接受一组数据并将其转换为一个键/值对列表,输入

域中的每个元素对应一个键/值对。Reduce函数接受Map函

数生成的列表,然后根据它们的键缩小键/值对列表。

MapReduce起到了将大事务分散到不同设备处理的能力,这

样原本必须用单台较强服务器才能运行的任务,在分布式环

境下也能完成了。

统一资源管理和调度框架YARN

YARN是中的资源管理系统,它是一个通用的资源管理模

块,可以为各类应用程序进行资源管理和调度。YARN不仅局

限于MapReduce一种框架使用,也可以供其他框架使用,比

如Tez、SparkStorm等。YARN主要分为ResourceManager>

ApplicationMaster与NodeManager三个部分。

•ResourceManager:RM是一个全局的资源管理器,负责

整个系统的资源管理和分配。它主要由两个组件构成:调度

器(Scheduler)和应用程序管理器(Applications

Manager)。

/调度器根据容量、队列等限制条件(如每个队列分配

一定的资源,最多执行一定数量的作业等),将系统中的资

源分配给各个正在运行的应用程序。调度器仅根据各个应用

程序的资源需求进行资源分配,而资源分配单位用一个抽象

概念Container表示。Container是一个动态资源分配单位,

它将内存、CPU、磁盘、网络等资源封装在一起,从而限定

每个任务使用的资源量。此外,该调度器是一个可插拔的组

件,用户可根据自己的需要设计新的调度器,YARN提供了多

种直接可用的调度器,比如FairScheduler和Capacity

Scheduler等。

/应用程序管理器负责管理整个系统中所有应用程序,

包括应用程序提交、与调度器协商资源以启动

ApplicationMaster>监控ApplicationMaster运行状态并

在失败时重新启动它等。

•NodeManager:NM是每个节点上的资源和任务管理器。

一方面,它会定时向RM汇报本节点上的资源使用情况和各

个Container的运行状态;另一方面,它接收并处理来AM

的Container启动/停止等各种请求。

•ApplicationMaster:AM负责一个Application生命周

期内的所有工作。包括:

/与RM调度器协商以获取资源。

,将得到的资源进一步分配给内部的任务(资源的二次

分配)。

/与NM通信以启动/停止任务。

/监控所有任务运行状态,并在任务运行失败时重新为

任务申请资源以重启任务。

分布式数据库HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布

式存储系统。HBase适合于存储大表数据(表的规模可以达

到数十亿行以及数百万列)访问可以达到实时级别。HBase

集群由主备Master进程和多个RegionServer进程组成:

•利用HadoopHDFS(HadoopDistributedFileSystem)

作为其文件存储系统,提供高可靠性、高性能、列存

储、可伸缩、实时读写的数据库系统。

•为Spark和HadoopMapReduce提供海量数据实时处理

能力。

•利用ZooKeeper作为协同服务。

分布式内存计算框架Spark

Spark是一个并行数据处理框架,能够帮助用户简单的开

发快速,统一的大数据应用,对数据进行,协处理,流式处

理,交互式分析等等。

Spark具有如下特点:

•快速:数据处理能力,比MapReduce快10-100倍。

•易用:可以通过Java,Scala,Python,简单快速的

编写并行的应用处理大数据量,Spark提供了超过

80种高层的操作符来帮助用户组件并行程序。

•普遍性:Spark提供了众多高层的工具,例如Spark

SQL,MLib,GraphX,SparkStream,可以在一个应

用中,方便的将这些工具进行组合。

•与Hadoop集成:Spark能够直接运行于Hadoop的

集群,并且能够直接读取现存的Hadoop数据。尤其,

Spark和Hadoop紧密结合,可以通过大数据基础平

台Console部署安装Sparko

SparkStreaming是一种构建在Spark上的实时计算框

架,它扩展了Spark处理大规模流式数据的能力。

SparkSQL是Spark中用于结构化数据处理的模块。Spark

SQL提供了一种通用的访问多数据源的方式,可访问的数据

源包括Hive、Avro、Parquet、ORC、JSON和JDBC数据源,

这些不同的数据源直接也可以实现互相操作。SparkSQL复

用了Hive的前端处理逻辑和元数据处理模块,使用Spark

SQL可以直接对已有的Hive数据进行查询。另外,SparkSQL

还提供了诸如API、CLKJDBC等诸多接口,对客户端提供

多样接入形式。

分布式搜索ElasticSearch

ElasticSearch是一个实时分布式搜索和分析引擎:

•可用于全文搜索、结构化搜索、文本分析;

•提供了一个分布式多用户能力的全文搜索引擎,基于

RESTfulweb接口,目的是通过简单的RESTfulAPI

来隐藏Lucene的复杂性,从而让全文搜索变得简单;

•使用Java开发的,用于复杂应用底层的搜索功能开发。

•Elasticsearch不仅仅是Lucene和全文搜索,还支持

以下特性:

•分布式的实时文件存储,每个字段都被索引并可被搜

索;

•分布式的实时分析搜索引擎;

•可以扩展到上百台服务器,处理PB级结构化或非结构

化数据。

•Elasticsearch是面向文档(documentoriented)的:

•可以存储整个对象或文档(document)0

•同时会索引(index)每个文档的内容使之可以被搜索。

•在Elasticsearch中,可以对文档(而非成行成列的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论