大数据中心项目建设运营方案_第1页
大数据中心项目建设运营方案_第2页
大数据中心项目建设运营方案_第3页
大数据中心项目建设运营方案_第4页
大数据中心项目建设运营方案_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据中央工程建设运营方案

本文为琳。区口格式,下载后可自由编辑

目录

第1章方案概述..............................................................3

1.1.建设背景.............................................................3

1.2.当前现状..............................................................4

1.3.建设目标..............................................................5

第2章方案设计原那么....................................................6

2.1.设计原那么..........................................................6

2.2.设计依据............................................................7

第3章数据中央方案架构.......................................................7

3.1数据中央架构设计......................................................7

3.2大数据处理设计....................................................11

3.3大数据存储设计....................................................15

3.4平安设计..............................................................17

3.5平台搭建实施步骤..................................................20

3.6物理架构设计......................................................20

第4章数据中央网络方案组成.................................................22

4.1.防火墙设计......................................................22

4.2.接入层设计.........................................................22

4.3.网络拓扑.............................................................23

第5章数据中央根底设施方案组成.............................................23

5.1.机柜系统设计....................................................24

5.2.制冷系统设计.......................................................26

5.3.供配电系统设计.....................................................30

5.4.模块监控系统设计...................................................33

第6章运维方案..............................................................38

6.1.技术和售后效劳..................................................38

6.2.售后效劳工程........................................................38

6.3.售后效劳工程内容....................................................38

第1章方案概述

“百年大计,教育为本",教育行业是我国经济开展的关键命脉之一,伴随着数据集中在

教育业信息化的逐渐展开,数据中央在企业和信息化的地位越来越重要.教育数据中央建设

已成为教育机构信息化趋势下的必然产物.教育数据中心作为承载教育机构业务的重要IT

根底设施,承当着教育机构稳定运行和业务创新的重任.在教育机构新型客户效劳模式下,数

据中央需要更高效地支持后台业务和信息共享需求,同时要24小时不间断的提供效劳,支

持多种效劳手段.这对教育数据中央的资源整合,全面平安,高效治理和业务连续性提出更高

的要求.

此数据中央建设方案主要对数据中央的根底设施和网络规划局部提出整体建议,保证

数据中央的高性能、平安、可靠,从而使数据中央能承载更多高品质的业务.

1.1.建设背景

自从出现数字化教育以来,数据中央作为数字化交易的核心,被各个教育系统广泛采用.

目前随着教育电子化的推广,客户市场细分的深入,教育产品设计的专业化,以及对于教育系

统平安性的要求.教育系统的数据中央需要更强大的运算水平,更多的存储空间,更平安可靠

的规划和设计.不仅如此,教育系统相比其他行业的数据中央有其自身特有的特点和要求.教

育行业数据中央的非常重要的一点就是平安和可靠.由于哪怕是短时间的网络瘫痪也会造成

非常广泛和严重的后果.这对教育数据中央的资源整合,全面平安,高效治理和业务连续性提

出更高的要求.所以教育行业数据中央产品和方案的应用必须采用更高等级的产品和整体设

计方案,以满足对于系统平安性的要求.

从数据大集中到多业务整合,教育行业的数据中央建设正围绕着业务开展的需要迅速展.

教育根底设施的建设,很重要的一个环节就是教育数据中央的建设.教育数据中央工程不仅

集建筑、电气、安装、网络等多个专业技术于一体,更需要丰富的工程实施和治理经验.教育

数据中央设计与施工的优劣直接关系到数据中央内计算机系统是否能稳定可靠地运行,是否

能保证各类信息通讯畅通无阻.

由于教育数据中央的环境必须满足计算机等各种数据,以到达反应信息和处理问题的成效.

特别是要将需要解决电池放电状态和旁路运行状态的监控治理问题等重要信息发到主要负

责人的上,以便能随时掌握信息,对一些天气灾害停电而有应急预案.

1.2.当前现状

随着业务的开展,数据中央的问题与日俱增,数据中央所面临的压力和挑战也越来越大:

业务的不断调整和改变让数据中央总体架构面临极大的压力、有限的物理空间让数据中央

扩展性和灵活性有所限制、虚拟化的欠缺让数据中央资源调配水平有限、复杂多变的异构环

境让数据中央治理效率异常低下、高居不下的耗电量让数据中央能源本钱迅速上升.这些问

题与挑战让数据中央治理者迫切需要对数据中央进行整合和升级.通过有效的整合让传统数

据中央升级成为一个智能化、自动化、高效化的数据中央.当前数据中央面临的问题:

•可靠性问题

供电可靠性是数据中央平安性的重要保证,随着以信息技术为支撑的新业务的不断涌现,

教育行业数据中央对供电可靠性的要求大大提升.在数据中央领域,动力平台的可用性指标

分别高于数据中央的可用性指标和整个网络系统的可用性指标,因此,对动力平台的关注理

应放到最核心的位置.比方效劳器电源的冗余方式发生了变化,供电系统就应当做出相应改

变.刀片效劳器以及虚拟化的应用,使高热密度问题凸显,数据中央环境更加恶劣,制冷模式

就也需要做出改变.

•节能降耗问题

数据中央建设的加速,导致的最直接后果就是能源消耗量的急剧攀升.在当前全球能源

紧张的大背景下,节能降耗是整个数据中央行业的大趋势.对于企业本身而言,能耗的急剧增

长大大提升了数据中央的运行本钱,数据中央的节能和能效改善已成为整个行业的迫切要求.

•治理与维护问题

数据中央是一个庞大而复杂的系统,这些系统是一个有机的整体,牵一发而动全身,数据

中央可靠性的发挥有赖于每个设备的正常运行,有赖于这些设备的协调一致,任何一个环节

出现故障,都有可能造成巨大损失.因此,对整个系统的治理越来越重要,而难度也越来越大.

•扩容问题

随着业务量的不断扩大,教育行业IT应用系统日益增长,效劳器规模变得日益庞大,带

来了高能耗、数据中央空间紧张、IT预算紧张等问题.同时,数据中央动力平台的匹配性却

不够,要么利用率低,资源浪费严重;要么供电与制冷明显缺乏,影响数据中央可用性.简言之,

动力系统对核心设备供电或者制冷需求的反映不够灵敏.

针对上述问题,技术推出了创新型的数据中央解决方案.该解决方案具有高可用性、高节

能性、高灵活性、高可维护性等四大特点,能够帮助教育行业客户解决数据中央建设与应用

的难题,满足教育企业在信息化过程中对数据中央动力平安、节能环保等方面日益增长的应

用需求.

1.3.建设目标

数据中央建设应达成以下目标:

高可用--数据中央的高可用直接影响到业务系统的可用性,高可用至少包括高可靠、高

平安和先进性三个方面:

♦高可靠:应采用高可靠的产品和技术,充分考虑系统的应变水平、容错水平和纠错

水平,保证整个根底设施运行稳定、可靠.当今,关键业务应用的可用性与性能要求

比任何时候都更为重要.

♦高平安:根底设计的平安性,涉及到核心数据平安.应根据端到端访问平安、网络分

层平安两个维度对平安体系进行设计规划,采用软硬件安全设备,从局部平安、全局

平安到智能平安,将平安理念渗透到整个数据中央网络中.

♦先进性:数据中央将长期支撑企业的业务开展,数据中央建设需要考虑后续的时机

本钱,采用主流的、先进的技术和产品,建立高性能,大容量存储的数据中央.

♦易扩展--随着信息化的开展,企业内通信网络的建立和全面覆盖,未来的业务范围

会更多更广,业务系调整与扩展再所难免,因此数据中央必须能够适应业务系统的

频繁调整,同时在性能上应至少能够满足未来5〜10年的业务开展.对于设备的选择

和协议的部署,应遵循业界标准,保证良好的互通性和互操作性,支持业务的快速部

署.

♦易治理--数据中央是IT技术最为密集的地方,数据中央的设备繁多,

各种协议和应用部署越来越复杂,对运维人员的要求也越来越高,单独依赖运维人

员个人的技术水平和业务水平是无法保证业务运行的持续性的.因此数据中央需要

提供完善的运维治理平台,对数据中央IT资源进行全局掌控,减少日常的运维的人

为故障.同时一旦出现故障,能够借助工具直观、快速定位.

第2章方案设计原那么

2.1.设计原那么

根据“先进、实用、稳定、可靠”的总原那么,对云数据中央软硬件系统进行科学合理

的设计,保证中央建设的胜利完成.

数据中央工程是智能弱电工程的重要组成局部.其根本要求可归纳为:保证系统运行的

可靠性、保证系统的设计寿命、保证信息平安的要求、保证操作人员的工作环境.

设计一个好的数据中央,要以兼顾人机并重之原那么,一个合格的现代化计算机数据中

央,应该是一个平安可靠、舒适实用、节能高效和具有可扩充性的数据中央,设计应以运行条

件、平安可靠作为首要的考虑因素.因此对数据中央建设要求遵循以下设计原那么:

1.高平安可靠性

为保证数据中央能为用户提供连续不间断的7X24小时效劳,数据中央必须具有高可靠

性.在系统设计时应注意尽量减少单点故障的存在,对存在单点故障的环节,在设计上必须减

少其对整个系统的影响.

由于该数据中央内部计算机系统涉及到机密信息,其泄密可能严重危害社会秩序,所以

需要保证数据中央的平安性,必须具有安保系统以保证用户的设备和数据不受侵害.实现高

平安性的举措包括:闭路电视监测、门禁系统、自动平安报警系统等.

中央软硬件系统要高度可靠,虚拟机出现故障要能自动迁移,数据要有冗余备份,可以

从故障中及时恢复..

2.可扩展性

鉴于信息网络系统需求的不断开展与变化,技术也在不断提升,故在建设时应考虑这些

变化对资源需求的改变,以使整个系统具有灵活的可扩展性,特别是精密空调、配电开关及

配电柜、UPS及供电母线等.

中央的效劳器、存储、网络都可以不用停机就线性扩容效劳器、存储、网络等设备.

3.易于治理

通过使用先进和可靠的治理工具来实现系统的高质量治理,以节约人力资源.由于数据

中央内设备繁多,具有一定复杂性,随着业务的不断开展,治理的任务必定会日益繁重.所以

在设计时,必须建立一套完善的数据中央治理和监控系统.实时监控、监测整个数据中央的

运行状况、语音报警,实时事件记录,可以迅速确定故障,提升可靠性,简化数据中央治理人

员的维护工作.

中央的资源池支持方便灵活地治理维护和审计.

4.高性能价格比

数据中央所需设备的选型应该以适用为主,合理选择材料与设备;不要造成资源浪费;

同时也要保证该数据中央的高可靠性.以较高的性能价格比设计数据中央,能以较低的本钱、

较少的人员投入来维持系统运转,提供高效能与高效益.

中央的软硬件设施选择合理,具有高性价比.

2.2.设计依据

?电子计算机数据中央设计标准?GB50174-93

?计算机场地技术条件?GB2287-89

?计算机场地平安要求?GB9361-88

?计算机机房活动地板技术条件?GB6650-86

?建筑物防雷设计标准?GB50057-94

?高层民用建筑设计防火标准?GBJ45

?电子计算机机房施工及验收标准?SJ/T30003-93

?建筑防火设计标准?GB5004-95

?空调与通风工程施工及验收标准?GB50243-97

?建筑与建筑群综合布线系统工程设计标准?GB/T50311-2000

?建筑与建筑群综合布线系统工程验收标准?GB/T50312-2000

?中华人民共和国通信行业标准?YD-T9261、2、3

?国际综合布线标准?TIA/EIA568-B

?供配电系统设计标准?GB50052-92

?火灾自动报警系统设计标准?GBJ116-98

?工业企业通信接地设计标准?GBJ79-85

?高性能屏蔽室屏蔽效能的测量方法?GB12190

第3章数据中央方案架构

3.1数据中央架构设计

云计算数据中央通过运行在单独的效劳器上的云操作系统对效劳器、存储、网络等资

源进行虚拟化治理,提供可以自定义的虚拟机,在虚拟机上安装Hadoop.hbase等Nosql分

布式数据库集群,对现有的数据ETL采集、清洗、转换、汇总进来,使用海量数据分布存储技

术,用spark,storm等大数据处理软件对hbase中的数据进行分析处理,挖掘数据价值.还

可以在虚拟机上运行业务应用系统,提供负载均衡和冗余备份,到达系统的稳定、高可用和

方便的扩展性.

通过安装SSR等平安软件和平安效劳器,可以保证提升操作系统的平安级别,从而到达

国家等级保护的三级要求,为客户构建真正的平安长城.

云计算数据中央可以自动治理和动态分配、部署、配置、重新配置以及回收资源,也可

以自动安装软件和应用,具有良好的弹性和灵活性,治理、使用方便.云中央可以向用户提供

虚拟根底架构.用户可以自己定义虚拟根底架构的构成,如效劳器配置、数量,存储类型和大

小等等.用户通过自效劳界面提交请求,每个请求的生命周期由平台维护.

效劳器虚拟化系统基于效劳器,存储和网络设备构建资源池,在资源池上通过资源的治

理、调度和镜像治理实现系统的各种高级功能,例如计算层面的系统负载均衡和虚拟机高可

用,存储层面的镜像复制和冗余.系统支持以主机或者虚拟群集为单位治理资源,虚拟群集为

一组共享存储资源的物理主机.

云中央既是一个企业云,也可以对外提供效劳,扩展成公有云.学校还可以使用别的公

有云如阿里云,形成混合云.

蠲空机牙即序S1万片系搜存M不操网结界设安仝系扰

虚拟化奥源附

物理根

底架构

云中央包括iaas、paas、saas三层效劳:

1),SaaS:提供给客户的效劳是运营商运行在云计算根底设施上的应用程序,用户

可以在各种设备上通过客户端界面访问,如浏览器.消费者不需要治理或控制任何云计算根

底设施,包括网络、效劳器、操作系统、存储等等;

2).PaaS:提供给消费者的效劳是把客户采用提供的开发语言和工具(例如

Java,python,.Net等)开发的或收购的应用程序部署到供给商的云计算根底设施上去.

客户不需要治理或限制底层的云根底设施,包括网络、效劳器、操作系统、存储等,但客户

能限制部署的应用程序,也可能限制运行应用程序的托管环境配置;可以使用docker容器

完成应用系统的部署和治理.

3).laaS:提供给消费者的效劳是对所有计算根底设施的利用,包括处理CPU、内

存、存储、网络和其它根本的计算资源,用户能够部署和运行任意软件,包括操作系统和应

用程序.消费者不治理或限制任何云计算根底设施,但能限制操作系统的选择、存储空间、

部署的应用,也有可能获得有限制的网络组件(例如路由器、,防火墙,、负载均衡器等)的

限制.

云中央采用xen、kvm、VMware进行虚拟化,LXC提供Linux容器,支持docker应用容

器.

支全保■体系施用功能服将,务保国体系

口药口,电配总物口中一事时・m一】户应用皿*号

1、

个A云■»假云WJikt^.第J股警

r一

分梅胃理体系

・物侵■系统

回问年台

应用安全9

・3芟6翼晚

信事赶

运行监控系院

鞫遭登鱼

运绿・理系娱

仔份

K・计

做务殳何就两

一.效劳器采用浪潮整机柜效劳器SmartRack,面向海量数据的存储和处理,适合云资源池

如虚拟化、分布式存储,大数据处理如Hadoop集群等应用,目前在国内效劳器中占主导地位,

特点如下:

定位多种应用,支持各类效劳器节点.

针对不同业务对存储、计算、1.吞吐量、功耗的不同要求,设计开发出不同种类的效劳

器节点,包括:1U全宽双路12盘位综合型节点、1U全宽单路18盘位冷存储节点、1U半宽

双路计算型节点,满足不同需求.

整机柜集中供电、集中散热,相比其他架构效劳器,运行功耗降低10%以上.

整机柜由一组电源模块集中供电,最大输出功率高达22.5kw,直接支持交流或高压直流

供电,各节点通过铜排从电源模块取电,结合电源负载动态调整技术,电源转换效率高达94%

以上.

机柜背部风扇墙集中散热,根据节点数量灵活调节风扇墙高度,采用140mm大尺寸风扇,

相同功耗下可提供更大散热量.

领先的架构设计,保证系统高可靠运行.

效劳器节点中无独立的电源和风扇,有效降低单点故障.

根据整机柜实际负载情况,电源可实现N+N/N+2/N+1多种冗余方式.

风扇可根据温度状况自动调节转速,支持2+1冗余.

对整机柜节点、电源、风扇进行集中监控治理.

实现治理中央RMC对整个机柜各模块的统一监控和治理,节点、电源、风扇的健康状

况、温度、配置信息一目了然,还可进行批量开关机、重启,功耗限制,风扇转速自动/手动

调节等功能,搭配专为SmartRack设计的可视化治理软件,轻松实现简易化智能治理.

简易维护,无需繁琐拆装.

独有节点前维护设计、各模组免工具热插拔设计、优化的线缆走线设计,使得系统运维

难度大大降低.风扇等易损部件全部裸露在外,更加方便更换维护.二.云操作系统建议采用

浪潮云海•云数据中央操作系统V3.0,此系统秉承开放化、模块化、标准化的设计理念,基

于虚拟化技术,实现了数据中央资源融合、资源治理及效劳交付,简化了云数据中央运维,提

升了云数据中央效劳水平.

云海•云数据中央操作系统有以下特点:

自主可控、平安可靠的云数据中央操作系统:

浪潮自主研发的国产云数据中央操作系统,增强了火£8平安、虚拟化平安、数据平安、

访问限制、平安审计等方面的平安限制,可帮助用户构建平安可控的云数据中央.

异构资源治理:

云海OS支持对数据中央各类异构硬件设备及软件资源的统一治理;支持对VMWare

vSphere,InspuriVirtual等异构虚拟化资源池的集中治理,已部署的虚拟化环境可被云

海OS无缝接管;

精细的软硬件资源监控:

云海OS支持对数据中央主流厂商的效劳器、网络设备、存储设备等物理资源,操作系

统、数据库、WEB应用等软件资源,VMWarevSphere、InspuriVirtual等虚拟化环境的精

细监控,提供界面、邮件、短信等多种告警方式,通过详尽清晰的报表分析数据,帮助数据中

央的运维人员随时掌握数据中央的各类资源的运行状况,降低运维治理复杂度,提升运维效

率.

快速的效劳交付:

云海OS支持通过虚拟机模板、应用效劳模板的方式,实现业务的快速交付,业务上线

时间由原来的几周、几天,缩短为几分钟,大大提升数据中央的效劳水平.

资源使用按量计费:

实时的资源使用情况统计,让用户精确掌控自身资源和费用使用情况,帮助IT部门实

现由本钱中央向价值中央的角色转变.

资源按需效劳:

云海OS可实现将根底架构作为效劳交付,用户可通过自助效劳门户在线申请及访问

自己的虚拟数据中央、应用效劳、虚拟机等资源,实现资源的按需申请、便捷获取、自助使

用.

可定制的业务流程:

云海OS支持用户创立与原工作流程吻合的资源申请的审批流程,实现业务流程的个

性化、可定制化.

灵活的效劳交付方式:

云海OS既支持从下到上的资源申请与审批,也支持从上到下的资源创立与分配的效

劳交付方式,可满足不同客户对资源获取方式的不同需要.

多租户私有云:

云海OS可创立多个组织,一个组织可代表某业务部门、分部或子公司.每个组织都有

各自独立的虚拟数据中央、用户及独有的目录,可将组织资源分配给本组织的用户,每个组

织如同拥有自己的数据中央.利用基于权限的用户限制机制和基于虚拟交换机的网络隔离技

术,实现多租户环境下的平安性和可靠性,以此构建平安的多租户私有云.

灵活可控的权限治理:

云海OS支持用户自定义角色类型,不同的权限可自由组合,实现灵活可控的系统权限

治理.

效劳全生命周期治理:

云海OS涵盖效劳提供所需的各个环节,包括效劳的申请审批;效劳的交付和回收;效

劳的使用统计和计费;效劳的运行监控

效劳移动性:

通过vApp封装多个虚拟机效劳和相关的网络连接策略,遵循OVF等开放式标准,实现

同一个云环境的终端用户彼此之间可以轻松共享效劳,而不同的云环境的用户可以轻松的在

云之间迁移效劳.

3.2大数据处理设计

通过在虚拟机上安装Hadoop2.6、hbasel.0等NosqI数据库集群,用sqoop1.3把现

有的数据汇总进来,要对现有数据做个总的分析,对字段统一定义规划,制定转换策略,做到

正确性、唯一性、可用性,去除重复字段,通过ETL抽取、清洗数据,把数据导入hbase,这

样就可以消除信息孤岛,用spark、storm等大数据处理软件对hbase中的数据进行分析处

理,挖掘数据价值.

云中央通过调度系统自动采集、加工、存储数据,为应用系统提供支持:

基础

操作系疣:

环境Umx/Linux/Wmdows

在云中央的平台上,开发招生、创业、就业、数据实验室等应用系统,通过元数据库治

理所有的数据数据经过采集、加工后进入hbase,消除信息孤岛,统一治理使用:

8888

个人翩科配管颜

&盅T卿曰sa争戊)工fl码也理壬兄

II七A正理里二

i

更S

9919Q!Q去

W巡岸1tflTSl等

交•

西酿飒弓扉蝴珊应用早工作布悸干熊?

to・1士余生.防部

平f-f

百4

一\hadoop2架构体系

下列图是hadoop2的架构图

PIGHive

NScriptQuery

n2no

EM

aIffHCatalog

—-tgMetadataServices

ztOnO

geh—a

eKr

eDMapReduce

mp-a

LPbaDis(ribnt-edProcessing

ora

jms

fmce

cstYARN

ResourceSchedulingandNegotiaiioo

N.

E

DistributedStorage

1.HDFS文件系统,Hadoop实现了一■个分布式文件系统〔HadoopDistributed

FileSystem〕,简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的〔low-

cost〕硬件上;而且它提供高吞吐量〔highthroughput]来访问应用程序的数据,适合

那些有着超大数据集(largedataset〕的应用程序.HDFS放宽了(*匕*)P0SIX的要求,

可以以流的形式访问〔streamingaccess]文件系统中的数据.

2、YARN是一套资源统一治理和调度平台,可治理各种计算框架,包括MapReduce,

Spark,MPI等.包括以下内容:ResourceManager〔RM〕:整个系统只有一个RM,它就

只管调度方面的事情,并且为集群应用而优化,因而具有很好的性能.RM的一个核心是它的

Scheduler.调度包含两个过程,一要搜集各节点的情况;二要根据某种调度策略,分配适

宜的节点.搜集节点情况是基于一个资源容器〔resourcecontainer]的概念,该容器包

括cpu,disk,network等(目前只用到cpu〕

NodeManager〔NM〕:NM是每个节点一个实例,治理每个节点,它触发应用容器

(applicationcontainer〕,监控节点的资源〔cpu/disk等),并向RM报告资源的情况.

AppIicationMaster(AM]:AM是每个应用一个实例,它是一个特定的框架接口库,

一-■方面与RM中的Scheduler协商得到resourcecontainer,另一■方面与NM一起执

行和监控各子任务部件,从系统的角度,AM本身也一种container(下列图中将它与

container画得一■样).

Container:从逻辑上,container可认为是资源的分配容器,它包括hostname,cpu,

memory等属性.AM发送ResourceRequest给区凶,然后RM分配适宜的Container给

AM,AM再将此Container提交给它所在节点的NM,NM采用此资源容器运行任务.实际

上,Container是一种使用资源的“授权”,AM得到此授权后,在NM的治理下,可以运行任

何进程(包括非Java应用,这一点与1.0不同).

二、Hive是基于Hadoop的一个数据仓库工具,处理水平强而且本钱低廉.

主要特点:

存储方式是将结构化的数据文件映射为一张数据库表.提供类SQL语言,实现完整的

SQL查询功能可以将SQL语句转换为MapReduce任务运行,十分适合数据仓库的统计分

析.

三、HBase

HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适

合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模

式.HBase使用和BigTable非常相同的数据模型.用户存储数据行在一个表里.一个数据

行拥有一个可选择的键和任意数量的列,一个或多个列组成一■个ColumnFamily,一•个

Fmaily下的列位于一■个HFile中,易于缓存数据.表是疏松的存储的,因此用户可以给

行定义各种不同的列.在HBase中数据按主键排序,同时表按主键划分为多个HRegion,

如下列图所示〔HBase数据表结构图):

四.Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、

oracle...)间进行数据的传递,可以将一个关系型数据库(例如:

MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导

进到关系型数据库中.

五.spark架构体系

本墟独立

运行模式运行模式MesosYARN

A

HDFSAmazonS3,HypertableHBase」etc

Spark与Hadoop的比照

♦Spark的中间数据放到内存中,对于迭代运算效率更高.

Spark更适合于迭代运算比拟多的ML和DM运算.由于在Spark里面,

有RDD的抽象概念.

♦Spark比Hadoop更通用.

Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两

种操作.比方map,filter,flatMap,sample,groupByKey,reduceByKey,union,

join,cogroup,mapValues,sort,partionBy等多种操作类型,Spark把这些操作称为

Transformations,同时还提供Count,collect,reduce,lookup,save等多种

actions操作.Spark的mlIib支持机器学习.

这些多种多样的数据集操作类型,给给开发上层应用的用户提供了方便.各个处理

节点之间的通信模型不再像Hadoop那样就是唯一的DataShuffle一种模式.用户可以命

名,物化,限制中间结果的存储、分区等.可以说编程模型比Hadoop更灵活.

不过由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web效

劳的存储或者是增量的web爬虫和索引.就是对于那种增量修改的应用模型不适合.

♦容错性.

在分布式数据集计算时通过checkpoint来实现容错,而checkpoint有两种方式,

一・个是checkpointdata,一■个是loggingtheupdates,用户可以限制采用哪种

方式来实现容错.

♦可用性.

Spark通过提供丰富的Scala,Java,PythonAPI及交互式SheII来提高可用

性.

Spark与Hadoop的结合

♦Spark可以直接对HDFS进行数据的读写,同样支持SparkonYARN.Spark

可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用

Hive,几乎与Hive完全兼容.

Spark的适用场景

♦Spark是基于内存的迭代计算框架,适用于需要屡次操作特定数据集的应用场

合.需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度

较大的场合,受益就相对较小

♦由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web效

劳的存储或者是增量的web爬虫和索引.就是对于那种增量修改的应用模型不适合.

♦总的来说Spark的适用面比拟广泛且比拟通用.

3.3大数据存储设计

采用浪潮人513000存储大数据,支持容量、性能的在线无限扩展,提供软硬件故障情况

下的数据重建、远程容灾功能,是适用于云计算、大数据业务并兼具高性能、高可靠、高可

扩展、大容量特征的新一代存储系统平台,具有以下特点:.

海量存储,在线横向扩展:

1.限制器集群体系架构,所有限制器并行承当数据10、保证系统整体负载均衡,数据

分散存储,预防单限制器故障带来的风险和性能的瓶颈,支持限制器在线横向扩展,满足持

续增长的容量和性能需求.

2.支持NAS/Object/IP-SAN/IB-SAN存储接口,并且支持SAN、NAS、Object同时

运行,满足客户在不同时间、不同地点、不同业务对存储的不同需求,支持Windows、Linux、

Unix等多种操作系统并存的复杂网络环境中,轻松实现跨操作系统的数据存储与共享,另

外支持NFS/CIFS/FTP等多种文件共享协议.

3.支持丰富的主机连接接口,支持1Gb/10GbiSCSL40Gb/56GbInfiniBand主机

连接,无缝接入用户现有环境,满足客户对高带宽及高性能的差异化需求.

4.全面支持Flash/SSD/SAS/SATA各类常见存储介质,模块化的容量扩展模式,支持

数据分级存储,满足各类型应用.

数据持续保护,业务运行无忧:

1.支持数据卷隔离映射功能、数据快照功能、快照回滚、远程卷复制(同步/异步)、

远程数据复制及恢复、逻辑分区动态扩容.

2.支持数据副本、数据纠删码、自动分层等多种数据冗余保护和性能加速功能,为用

户提供高级别的数据保护及容灾功能.

3.支持全集群Active-Active、Active-Standby,全局热备等限制器工作模式,保

证整体系统的高可用,保证数据存取及业务运行万无一失.

4.支持软硬件故障时的数据自动修复,系统可用性到达99.999%.

模块化设计,人性化治理

1.AS13000各主要部件均采用模块化设计,客户按需选择,维护、升级、管理简单方

便:

2.支持数据副本、全局热备,以及自动构建RAID、各RAID级别间执行在线迁移不影

响正常数据应用

3.完备监控治理方式,当系统出现异常时,除了通过机器指示灯报警外,可通过邮件

等方式将异常状况及时通知治理员

4.集中部署,统一治理

绿色节能:

1).全系统选取节能降耗的处理器、芯片组、风扇和散热片等部件,提升系统的能效

利用率.

2).支持在线扩容/缩减时数据自动迁移,保证系统按需配置,同时支持Maid磁盘节能

技术,降低磁盘能耗,节约开支.

3).支持自动精简技术,大大提升存储资源利用率.

3.4平安设计

一.采用浪潮SSR主机平安增强系统,这是一款基于操作系统内核层开发的安全加固软件.

与传统的防火墙、IDS/IPS不同,SSR工作在最贴近用户数据的操作系统层面,不仅可以预

防外部的黑客攻击,同样可以预防来自内网攻击的风险.该产品弥补了传统信息平安解决方

案在主机层平安的‘'短板",与传统信息平安产品形成了良好的互补,提升操作系统的平安

级别,从而到达国家等级保护的三级要求.为客户构建真正的平安长城.

功能特性:

1、强制访问限制

在操作系统内核层实现文件、注册表、进程、效劳、网络等对象的强制访问限制,可配

置针对以上对象不同的访问策略来保护系统和应用资源,即使是系统治理员也不能破坏被

保护的资源.

2、完整性检测

对文件和效劳进行完整性检测,并可设置定期检测工程,当发现文件或者服务篡改时进

行报警并发现哪些文件发生改变.

3、防格式化

保护功能开启时,可预防病毒和入侵者恶意格式化磁盘,同时降低治理员意外格式化磁

盘的风险.

系统资源监控与报警:

对系统的CPU、内存、磁盘、网络资源进行监控,当这些资源的使用状况超过设置的

阀值时将进行报警,以提前发现资源缺乏、滥用等问题.

4、双因子认证和组合式密码认证

不仅提供SSR平安治理员和SSR审计官员的USBKEY+密码的双因子认证功能,还可

对系统用户配发USBKEY实现双因子认证.对于远程登陆和虚拟化系统而无法识别USB

KEY的效劳器,SSR提供可配置两个密码组合的登陆认证方式,只有掌握密码的两个人同时

存在才能登陆系统,以此保证自然人的可信.

5、自我保护

SSR采用内核密封技术和完整性保护技术来保证SSR的文件不被恶意篡改,进程不被

恶意注入.

6、统一治理

在一个SSR限制台可以同时对多个平台的SSR进行治理和维护,且SSR可开放接口给

第三方治理平台集成,实现与不同产品间治理的融合.

7、灵活多样的策略模板

提供经过验证的分等级的平安策略模板,全面保护系统,方便易用,降低用户的使用难

度.

8、维护模式

当用户担忧自己配置的策略是否会影响系统和应用时,可开启此功能,此时SSR将只记

录违规的日志而不进行阻止,便于治理员在不造成业务中断的情况下调整策略.

功能亮点:

1、免疫病毒木马,抵御黑客攻击

SSR采用的ROST技术对系统中的文件、注册表、进程、网络、效劳、帐户等多方面进

行防护构建立体防护体系,从文件创立、执行、访问资源到结束层层把关,从根本上免疫各

种未知病毒、后门等恶意代码,抵御黑客的攻击,确保系统和应用平安稳定运行.

2、降低“零日漏洞”风险,延迟漏洞修复

SSR采用强制访问限制和白名单机制,只允许可信的帐户和进程访问被保护资源,并对

操作系统中重要二进制文件进行完整性保护.即使恶意代码利用漏洞获取了系统的权限,也

不能破坏系统文件和植入木马,降低了从“零日漏洞”发现到用户打上补丁之间这段“真

空期”的平安风险,同时允许用户延迟补丁部署,推迟到定期修补周期进行修补.

3、分权治理,有效躲避“一权独大”

SSR采用了分权治理的机制,躲避了原操作系统治理员“一权独大”的风险,将原系统

治理员权限分散为系统操作员、平安治理员和审计治理员,三个权限各司其职,相互制约,实

现了最小权限,不仅保证了系统平安性,同时贴合了国家相关信息平安标准标准.

4、提升系统平安级别,增强用户合规体验

SSR在操作系统内核层实现了平安标记和强制访问限制机制,与用户系统自身的自主

访问限制相融合,为系统和用户重要应用提供更强的约束和更高的平安限制级别,同时提供

三权分立、完整性校验、双因素认证、剩余信息保护等紧贴信息平安标准的功能,帮助用户

在系统平安建设时的合规要求.

5、统一治理机制,化繁为简

治理员可以从任何地方通过双因子身份认证后,对所有被保护的效劳器进行平安策略制定

和维护,实现集中治理,减少日常维护工作量.

采用浪潮SSA平安应用交付硬件系统,特点是:

1.丰富的应用负载均衡功能,保证数据中央应用可用性.

支持丰富的四到七层应用负载均衡功能;

支持针对多种算法的全局负载均衡;

支持针对不同运营商多链路的负载均衡;

支持丰富的健康检查功能,保证后台效劳实时可用;

可以实现N+1台设备的集群、双机热备、双机互备等多种高可用性部署模式;

支持冗余电源,最大化网络运行时间,降低了系统宕机或网络故障对业务的影响.

2.多项应用加速技术,降低效劳器负载,提升访问速度,改善用户体验.

采用内存缓存技术,有效降低效劳器负载,并提升访问响应速度.

采用业界标准Gzip、Deflate压缩算法,对文本类型资源可实现80%以上的压缩率,

能降低效劳器的压力,提升带宽的利用率.

可对多个客户端的TCP连接进行合并,通过少量的长连接与后台效劳器通信.

SSL卸载功能,将加解密负荷卸载到应用交付设备上,有效降低效劳器压

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论