版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
是什么,它只把存储文件是为二进制文件,也就是说,hbase的存储数据对
于HDFS文件系统是透明的。下面是HBase文件在HDFS上的存储示意图。
HBaseHRegionser/ers集群中的所有的region的数据在服务器启动时都是被
打开的,并且在内冲初始化一些memstore,相应的这就在一定程度上加快系统
响应;而Hadoop中的block中的数据文件默认是关闭的,只有在需要的时候才
打开,处理完数据后就关闭,这在一定程度上就增加了响应时间。
Blockl:128MBlockl:128M
从根本上说,HBase能提供实时计算服务主要原因是由其架构和底层的数据
结构决定的,即由LSM-Tree+HTable(region分区)+Cache决定客户端可以直
接定位到要查数据所在的HRegionserver服务器,然后直接在服务器的一个
region上查找要匹配的数据,并且这些数据部分是经过cache缓存的。具体查询
流程如下图所示:
具体数据访问流程如下:
1.Client会通过内部缓存的相关的-ROOT-中的信息和.META.中的信息直接
连接与请求数据匹配的HRegionserver;
2.然后直接定位到该服务器上与客户请求对应的Region,客户请求首先会
查询该Region在内存中的缓存MemstorefMemstore是一个按key排
序的树形结构的缓冲区);
3.如果在Memstore中查到结果则直接将结果返回给Client;
4.在Memstore中没有查到匹配的数据,接下来会读已持久化的StoreFile
文件中的数据。前面的章节已经讲过,StoreFile也是按key排序的树形
结构的文件一一并且是特别为范围查询或block查询优化过的,;另外
HBase读取磁盘文件是按其基本I/O单元(即HBaseBlock)读数据的。
具体就是过程就是:
如果在BlockCache中能查到要造的数据则这届返回结果,否则就读去相应
的StoreFile文件中读取一block的数据,如果还没有读到要查的数据,就将该
数据block放到HRegionServer的blockcache中,然后接着读下一block块儿的数
据,一直到这样循环的block数据直到找到要请求的数据并返回结果;如果将该
Region中的数据都没有查到要找的数据,最后接直接返回null,表示没有找的匹
配的数据。当然blockcache会在其大小大于一的阀值(heapsize*
hfile.block.cache.size*0.85)后启动基于LRU算法的淘汰机制,将最老最不常用
的block删除。
2
l.l.l.l.l.lHbase高可用
Zookeeper集群
MasterMaster
主名点备节点
节点1
RacklRack2Rack3RackX
当出现上图三种情况的高可用策略:
1.HDFS机架识别策略:当数据文件损坏时,会找相同机架上备份的数据文
件,如果相同机架上的数据文件也损坏会找不同机架备份数据文件。
2.HBase的Region快速恢复:当节点损坏时,节点上的丢失region,会在其
他节点上均匀快速恢复。
3.Master节点的HA机制:Master为一主多备。当Master主节点宕机后,
剩下的备节点通过选举,产生主节点。
l.l・l・l.l.2Hbase优势
>列可以动态增加,并且列为空就不存储数据,节省存储空间;
>HBase可以自动切分数据,使得数据存储自动具有水平扩展功能;
>HBase可以提供高并发读写操作的支持;
3
>与HadoopMapRecue相结合有利于数据分析;
>容错性;
>版权免费;
>非常灵活的模式设计(或者说没有固定模式的限制);
>可以跟Hive集成,使用类SQL查询;
>自动故障转移;
>客户端接口易于使用;
>行级别原子性,即PUT操作一定是完全成功或者完全失败。
消息服务设计概要
消息服务:集成消息中间件服务,如ActiveMQ,RabbitMQ等,为PaaS服
务、SaaS应用提供消息服务。
.lActiveMQ
Ll.l.2.l.lActiveMQ概述
ActiveMQ是一种开源的,实现了JMS1.1规范的,面向消息(MOM)的中问件,
为应用程序提供高效的、可扩展的、稳定的和安全的企业级消息通信。ActiveMQ
使用Apache提供的授权,任何人都可以对其实现代码进行修改。
若采用紧耦合架构会存在一些问题,如下:
Blockingremoteproceduralcall
这种紧耦合的架构有着天生的缺陷:
1、这种架构将会造成系统维护管理上的巨大消费,因为,即使是很小的改
动,很可能会波及到整个系统。
2、由于调用者必须阻塞式的等待被调用者返回,如果被调用者处理过程复
4
杂,将会严重影响调用者的执行效率和资源使用率。
3、如果调用失败,整个架构即失败。
为解决这些问题,我们采用消息中间件的办法:
SendingamessageReceivingamessage
应用程序1向消息中介(MOM)发送一条消息,很可能一段时间之后,应
用程序2调用MOM来收取消息。任何一个应用程序都不知道对方是否存在也不
需要阻塞等待。这种通信方式大大缩减了维护开销,因为对于一个应用程序的修
改,会对其他应用程序影响极小。
所以说,消息中间件的方式使得应用松耦合,提高应用伸缩性。
.L2ActiveMQ优势
(1)activemq可以很好的运行在任何JVM上,而不只是集成到JBoss的应
用服务器中;
(2)activemq支持大量的跨语言客户端;
(3)activemq支持许多不同的协议,如Ajax,REST,Stomp,OpenWire,
XMPP
⑷activemq支持许多高级功能,例如MessageGroups,ExclusiveConsumer,
CompositeDestinations
(5)activemq支持可靠连接并且具有可配置的自动重连接
(6)activemq对Spring有很好的支持
(7)activemq支持跨网络的分布式目的地
(8)activemq是速度非常快;一般要比jbossmq快10倍
5
Ll.l.2.l.3ActiveMQ高可用
采用SharedDatabaseMaster/Slave架构,Master与Slave之间数据进行共享。
那如何避免冲突呢?通过争夺数据库表的排他锁,只有Master有锁,未获得锁
的自动成为Slave。
ActiveMQMessageBrokerusesarelationaldatabase,itgrabsanexclusivelock
onatableensuringthatnootherActiveMQbrokercanaccessthedatabaseatthe
sametime
对于“共享存储”而言,只会“共享”持久化消息。对于非持久化消息,它
们是在内存中保存的。
可以通过配置(forcePersistencyModeBrokerPluginpersistenceFlag)属性强制
所有的消息都持久化。
当Master宕机后,Slave可自动接管服务成为Master。由于数据是共享的,
因此Master和Slave之间不需要进行数据的复制与同步。Slave之间通过竞争锁
来决定谁是Mastero
6
.2RabbitMQ
Ll.l.2.2.lRabbitMQ概述
AMQP,RPAdvancedMessageQueuingProtocol,高级消息队列协议,是应用
层协议的一个开放标准,为面向消息的中间件设计。消息中间件主要用于组件之
间的解耦,消息的发送者无需知道消息使用者的存在,反之亦然。
AMQP的主要特征是面向消息、队列、路由(包括点对点和发布/订阅)、可
靠性、安全。
RabbitMQ是一个开源的AMQP实现,服务器端用Erlang语言编写,支持多
种客户端,如:Python、Ruby、.NET、Java、JMS、C、PHP、ActionScript>XMPP、
STOMP等,支持AJAX。用于在分布式系统中存储转发消息,在易用性、扩展性、
高可用性等方面表现不俗。
22使用消息中间件的好处
场景说明:用户注册后,需要发注册邮件和注册短信,传统的做法有两种1.
串行的方式2并行的方式
(1)串行方式:将注册信息写入数据库后,发送注册邮件,再发送注册短信,以上
三个任务全部完成后才返回给客户端。这有一个问题是,邮件,短信并不是必须的,
它只是一个通知,而这种做法让客户端等待没有必要等待的东西.
50ms
(2)并行方式:将注册信息写入数据库后,发送邮件的同时,发送短信,以上二个
任务完成后,返回给客户端,并行的方式能提高处理的时间。
7
假设三个业务节点分别使用50ms,串行方式使用时间150ms,并行使用时间
lOOmSo虽然并性已经提高的处理时间,但是,前而说过,邮件和短信对我正常的使
用网站没有任何影响,客户端没有必要等着其发送完成才显示注册成功,英爱是
写入数据库后就返FI.
(3)消息队列
引入消息队列后,把发送邮件,短信不是必须的业务逻辑异步处理
由此可以看出,引入消息队列后,用户的响应时间就等于写入数据库的时间+
写入消息队列的时间(可以忽略不计)引入消息队列后处理后,响应时间是串行的
3倍,是并行的2倍。
.2.3RabbitMQ的优势
1.基于erlang语言开发具有高可用高并发的优点,适合集群服务器。
2.健壮、稳定、易用、跨平台、支持多种语言、文档齐全。
3.有消息确认机制和持久化机制,可靠性高。
4.开源。
8
.2.4RabbitMQ的应用场景
场景工:单发送单接收
使用场景:简单的发送与接收,没有特别的处理。
场景2:单发送多接收
使用场景:一个发送端,多个接收端,如分布式的任务派发。为了保证消息
发送的可靠性,不丢失消息,使消息持久化了。同时为了防止接收端在处理消息
时down掉,只有在消息处理完成后才发送ack消息。
场景3:Publish/Subscribe
使用场景:发布、订阅模式,发送端发送广播消息,多个接收端接收。
场景4:Routing(按路线发送接收)
使用场景:发送端校「outingkey发送消息,不同的接收端按不同的「outing
key接收消息。
9
场景5:Topics(按topic发送接收)
使用场景:发送端不只按固定的routingkey发送消息,而是按字符串''匹
配〃发送,接收端同样如此。
Q1
缓存服务设计概要
缓存服务:集成Redits、Memcached等内存数据库,可以为服务模块、PaaS
服务、SaaS应用提供信息缓存,提升用户使用的访问效率。
.1Redits
.1.IRedits概述
Redis是一个基于key-value的NoSQL数据库,首先它把数据都放在memory
中(注:Redis2.x提供了applicationlevel的virtualmemory,可以把value放入swap
到磁盘),这一点像memcached,不过它也提供持续化的特性,可以定期把数据
以snapshot的方式刷到磁盘,尽管如此,由于是定期写入,还是可能会造成数
据丢失,所以它也提供另外一种方式叫AOF(appendonlyfile),很类似HBase中
WAL(WriteAheadLog),在写数据之前先记下这些操作,以保证在程序异常退出或
者机器掉电的情况下,可以redo而保证数据不丢失。
10
Redis不同于其他的key-value数据库的一个重要的卖点是,它支持多种数据
结构。只有一种类型是但是可以是和
keystring,valuestring,hashjistzsetsortset.
所以你甚至可以把Redis当成一种messagequeue来使用。
Redis的Client/Se'ver之间的通讯协议就是普通的基于文本的tcp的协议,
一问一答的类型,考虑到TCP的开销,需要一个整的周期RTT(RoundTripTime)
才能完成一次操作。所以Redis使用了Pipeline技术,即发送多个请求,而不等
待每一个请求回复才发送下一条请求,可很大程度的提高系统的吞吐量(5倍)。
l.l・l・3.l.2Redits优势
性能极高-Redis能读的速度是110000次/s,写的速度是81000次/s。
丰富的数据类型-Redis支持二进制案例的Strings,Lists,Hashes,Sets及
OrderedSets数据类型操作。
原子-Redis的所有操作都是原子性的,同时Redis还支持对几个操作全并
后的原子性执行。
丰富的特性-Redis还支持publish/subscribe,通知,key过期等等特性。
L.3Redits高可用
Master
Redis的Server有两种角色,一种是Master,另外一种是Slave,用户的写
操作只能发生在Master,j(ijSlave只能分担只读操作。Master和Server会同步
以保证数据保持一致,Master只有一个,Slave可以有多个。在同步时,对于Master
来说是一个非阻塞的操作,所以Master在同步时,Master仍然可以接收新的读
11
请求,而对于Slave来说,同步是一个阻塞操作,所以同步的时候,就不能接收
读请求了。所以RedisReplication有两种用途,一种是为了负载均衡,另外一种
就是纯粹为了数据冗余。
l.LL3.l.4Redits应用场景
1、会话缓存(SessionCache)
最常用的一种使用Redis的情景是会话缓存(sessioncache)。用Redis缓存
会话比其他存储(如Memcached)的优势在于:Redis提供持久化。
2、全页缓存(FPC)
除基本的会话token之外,Redis还提供很简便的FPC平台。回到一致性问
题,即使重启了Redis实例,因为有磁盘的持久化,用户也不会看到页面加载速
度的下降,这是一个极大改进,类似PHP本地FPC。
3、队列
Reids在内存存储引擎领域的一大优点是提供list和set操作,这使得Redis
能作为一个很好的消息队列平台来使用。Redis作为队列使用的操作,就类似于
本地程序语言(illPython)对list的push/pop操作。
4、排行榜/计数器
Redis在内存中对数字进行递增或递减的操作实现的非常好。集合(Set)和
有序集合(SortedSet)也使得我们在执行这些操作的时候变的非常简单,Redis
只是正好提供了这两种数据结构。
5、发布/订阅
最后(但肯定不是最不重要的)是Redis的发布/订阅功能。发布/订阅的使
用场景确实非常多。
12
.2Memcached
.2.1Memcached概述
Memcached是一个高性能的分布式的内存对象缓存系统,目前全世界不少
人使用这个缓存项目来构建自己大负载的网站,来分担数据库的压力,通过在内
存里维护一个统一的巨大的hash表,它能够用来存储各种格式的数据,包括图
像、视频、文件以及数据库检索的结果等。简单的说就是将数据调用到内存中,
然后从内存中读取,从而大大提高读取速度。
.2.2Memcached工作流程
—>苜次访问:从RDBMS中取得数据保存到memcached
—>第二;次后:从memcached中取得数据显示页面
1、先检查客户端的请求数据是否在memcached中,如有,直接把请求数据
返回,不再对数据库进行任何操作;
2、如果请求的数据不在momcached中,就去查数据库,把从数据库中获取
的数据返回给客户端,同时把数据缓存一份到memcached中;
3、每次更新数据库的同时更新memcached中的数据,保证一致性;
4、当分配给memcached内存空间用完之后,会使用LRU(LeastRecently
Used,最近最少使用)策略加上到期失效策略,失效数据首先被替换,然后再替
换掉最近未使用的数据。
13
L.3Memcached特点
数据仅存在于内存中,宕机或重启数据将全部失效。
内容数据达到启动时设定内存指定值后、基于LRU算法删除缓存,LAZY模
式、可指定最大内存用量。
实际瓶颈在于网络连接、占应较少的CPU资源。
服务器端无分饰式功能(C开发)、取决于客户端的实现(php、C#、java)、可
布署多台服务器,访问时做个均衡策略如根据IP分配连接负载。
存储的节点数据键名250字节、键值限制在1MB、只适合普通字符串、作
为小规模的数据分布式平台是十分有效果。
32位机器单进程使用最大内存2G、可分多个端口开启多进程支持、64位机
器可认为无上限。
.2.4Memcached高可用
Memcached一般配合keepalived实现高可用,两个节点,一主一从。如果
主宕机,keepalived会立即将备节点提升至主状态。虽然服务是高可用的,但
是数据无法进行共享。
存储管理服务设计概要
存储管理服务:提供存储系统统一管理服务,如块存储、文件存储、对象存
储等。存储管理服务屏蔽了底层存储系统的差异,可以从全局角度统筹资源,同
时为上层如内容管理等提供更大的查询检索范围。
.1定义
为业务JL具提供文件实例的创建、杳询、修改、删除功能;提供存储路径的
设置。
1.1.L4.2职能
对文件实例进行增删改查。
提供存储空间的查询。
14
提供存储路径的增删改杳。
提供文件类型的增删改查。
.3产品形态
产品软件,可独立部署带前端界面;
服务,以API接口方式提供数据。
第2节IAAS层技术架构设计
1.2.1存储资源设计
非编制作存储设备本次选型EMCX410设备5个节点,采用分布式集群NAS
存储设备,有效容量5U/1B,有效带宽35UUMB/3;
全媒体共享资源库存储本次选型EMCX210设备6个节点,采用分布式集群
NAS存储设备,有效容量205TB,有效带宽1200MB/S;
省网络大厦制作存储选型精一科技的F1S5116X-D4TNLSAS72*16,采用分布
式集群NAS存储设备,有效容量40TB,有效带宽800MB/S;
归档蓝光盘库容量配置540TB,有效容量450TB。
非编制作存储设备设计
系统存储空间支持扁平化多副本方式存储。节点负载均衡:任意节点的任意
服务出现故障,都能实现服务能力的自动漂移,故障切换时间不超过5So满足
XX电视台所有电视新闻节目的生产、制作、数据迁移、素材存储等各个功能模
块的需求。
存储是一个系统的核心设备,所以需要从存储的可靠性、安全性、扩展性等
方面进行考虑。非编工作站按4层100Mbps码率计算存储所需的峰值带宽。
根据发展需要,预留一定的带宽。
本次配置非编制作存储设备节点数量5个,每个节点物理容量144TB,可
根据业务发展的需要以及系统的设计需要,对带宽和容量进行线性扩展,支持在
15
线扩展。所有存储设备采用分布式NAS架构。
存储的安全:所有节点的硬件采用冗余配置,支持热插拔,任何一个设备出
现故障均不会影响到整个系统,出现故障的设备可在线更换。任何一个节点掉线
都不影响数据访问。存储系统提供详细管理功能、完善的日志系统、以及自动报
警功能。
.1产品选型配置
EMCisilon集群分布式存储系统
X410存储节点配置:
采用多活式存储架构,配置5个横向扩展集群存储系统控制相,320GB缓存,
非SSD或闪存卡模拟;配置10个万兆光口,10个千兆接口,10个40GbIB接口,
提供各类N「S、CI「S、「TP、HTTP、Swift、HD「S等数据访问接口,客户端无需安
装任何软件可直接通过多种协议访问存储上同一份数据;
硬盘配置:
本次配置5个节点5*36块=180块4TB企业级SATA硬盘容量空间。单一
文件系统最大支持260PB存储容量;
集群网络配置:
本次集群存储系统配置2个8口40GbIB交换机。
软件功能配置:
配置OneFS存储专用操作系统,统一命名存储空间,简化用户使用方式;具
备集群存储系统横向扩展功能,可在线进行存储容量和性能的提升;具备Access
Zones安全多分区功能,针对各个业务系统进行合理分区划分,提升各业务系统
整体安全性;配置.Smartconnect负载均衡功能,实现前端业务应用均衡处理,
提升存储系统性能,并提升链路安全性:具备集群N+M数据保护技术,提升存
储系统可靠性;存储配置SmartQuotas存储配额软件,可实现存储空间细粒度划
分,实现存储多租户管理功能;
服务:3年7X24小时硬件原厂服务。
注:配置含一套EMC原厂机柜和2块4TB冷备硬盘
16
L产品功能
EMCisilon集群存储系统面向各种应用场景具备不同的X系歹ij(具备高带宽能
力)、S系列(具备高IOPS能力)、NL(具备大容量能力)、HD(具备超大容量、
高密度能力)系列等多种硬件平台,但是所有的硬件平台均采用统一的OneFS
操作系统。EMCisilon集群存储系统可以是基于S或NL系列的存储系统也可以是
X系列或者HD系列存储集群,存储网络支持千兆、万兆等不同链路。也就是说
一套小型的EMCisilon集群存储系统就可以满足不同的性能、容量要求。同时EMC
isilon存储系统还具备如下产品特性:
平台构建灵活——灵活起步,降低初期和日后投资成本
EMCisilon集群存储系统面向各种应用场景具备不同的X系列(具备高带宽能
力)、S系列(具备高IOPS能力)、NL(具备大容量能力)、HD(具备超大容量、
高密度能力)系列等多种硬件平台,但是所有的硬件平台均采用统一的OneFS
操作系统。EMCisilon集群存储系统可以由X系列产品组成,也可以采用S或NL
系列,甚至是HD系列构建EMCisilon集群存储。这些不同系列的产品组合而成
的isilon存储系统具备完全具备同样的功能。
Isilon湍料端横向扩展存储鲫决"案,由OneFS卷⑴系绘扭供支号.
可为用户槌供广泛的这项以演足特过的疗储需圾
因此,用户初期购买一套简单初级的设备就可以满足自己灵活、多变的需
求,日后随着业务的发展以及数据量的增长将核心存储平台进行容量和性能上的
升级。另外值得一提的是,日后在进行集群存储系统扩容或性能升级时,EMC
isilon集群存储架构都能够充分保证各业务的独立和安全,并且可以随时动态的
保持容量、性能负载均衡,即时调整容量和压力。通过软、硬件平台的多样优化
17
选择,既能满足用户的实际应用需求,还可以最大程度上降低用户的初期和日后
投资成本。
单一命名空间——集中化共享虚拟存储池,使用管理方便
EMCisilon集群存储系统架构可以智能地将数据打散存放到每个数据引擎上,
通过每个数据引擎创建一个集中化的共享虚拟存储池,可提供超过2OPB的全局
单一的命名空间。全局单一命名空间使前端编辑人员、使用人员直接对虚拟资源
池进行读写和管理,而无需考虑数据在存储设备中的存放模式,与传统的NAS
存储系统相比,简化了海量数据存储和管理的复杂性;另外,单一命名空间其容
量可以近乎无限的扩大,突破了以前广电用户所要面临的操作系统单一目录不能
超过2TB的限制,为高清大视频文件的存储带来了便利。
构建企业数据湖——缩短业务整体处理流程,提升效率,降低风险
随着'业务的发展,应用的转变,目前越来越多的政府、企业、学校等组织架
构需要存储以及处理越来越多的数据。在复杂的应用场景和海量的数据规模下,
当前传统的IT架构越来越显得束手无策。这是由于当前IT架构存在以下几种问
题:
数据孤岛——存在投资浪费且日后无法进行数据挖掘
由于之前企、业发展、应用建设模式的原因,之前IT组织在进行业务系统架
构时,大多会为每个业务系统、部门、甚至个人应用建设一套IT设施。每个系
统的数据均存放在不同的数据平台上,因此就产生了数据孤岛。之前的这种“孤
岛,,或,,竖井”式IT架构实际上导致了资源的浪费,硬件设备的重复建设,同
时数据资源分散在多个孤岛上,不利丁业务流程的开展,同时日后更加无法有效
开展对企业数据进行数据挖掘、数据寻宝的1:作。
另一方面,由于现今业务流程往往涉及到多个组织、多个应用,此时就会有
数据共享或数据读取的需求产生。显然数据孤岛的这种架构就会带来了第二个数
据共享的问题。
跨平台数据共享、访问效率低下
18
当前IT企业中,多个不同的业务系统往往采用多种不同的操作系统
(Windows、Unix、Linux),不同的数据访问模式(SAN、QFS、NFS)。而之前的
“数据孤岛”式的IT架构将数据资源分散在了一个个不同的环境、不同读取方
式下的数据平台上。因此跨平台的数据共享、数据访问的效率不仅低下,而且为
了解决某些特定应用无法进行数据共享的问题,往往还会建造一种数据摆渡系统。
而这种做法无疑更加导致了投资的浪费,降低了业务处理能力。
数据保护低下
由于采用“数据孤岛”式的构架,往往相同的文件内容以多种存放格式(比
如ntfs、ext4)存储在多个硬件设备上。此时我们要对这些相同的文件采用不同
的数据保护方式(比如raid、快照、复制、备份等),这导致了我们数据备份、
数据保护资源的浪费,增加了我们IT的整体投入成本。
因此基于以上这种架构不够灵活的数据平台,EMCisilon存储可以特地帮用
户构建自己的一套企业数据湖。数据湖可以帮助我们企业提升业务整体效率,避
免投资浪费,减少业务,提供一套完整的数据保批措施。
用户可以通过EMCisilon存储构建一个企业内部的数据融合环境一一数据湖。
首先EMCisilon数据湖规避了原有的这种数据孤岛的方式,他可以将各种不同类
型的数据均存放在后台的EMCisilon存储空间中。并且EMCisilon存储的数据湖
具备多种不同的访问模式和访问接口,用户和前端各种不同类型的应用可以以多
种不同的访问方式方便快捷的访问后台的数据湖中的数据。同时由于数据存放在
19
数据湖中,我们可以按照各种不同的应用、数据类型,提供统一的数据保护模式
和生命周期管理。
EMCisilon数据湖具备多种访问模式
EMCisilon存储所构建的企业数据湖不仅具条诸如面向windows平台的CIFS
数据访问接口,面向Unix、Linux平台的NFS接口以及通用的FTP、HTTP等数据
访问接口,而且还能提供面向大数据分析平台的HDFS访问接口以及云计算平台
下S3、Swift接口。如果我们的企业构建了一套自己的数据湖,当前端的业务终
端(windows平台)将采集到的数据可直接通过CIFS的访问模式直接在应用系统
上将数据存放在后台的数据湖中,而此时IT系统内部的Linux、Unix业务服务器
可通过自己的访问方式直接读取后台数据湖中的数据进行业务处理,而无需进行
数据流转。同时企业内部的分析平台、数据挖掘平台也可就地、立刻进行数据分
析,而不用进行数据摆渡。而分析的结果也可立刻的被前端的展示平台(服务器
或移动终端)将数据结果进行实时的展现。这样可极大的提升业务效率。另一方
面EMCisilon构建的企业数据湖不仅能够和现有企业内部IT架构进行整合,也可
和公有云或日后企业的构建的私有云进行整合。
EMCisilon数据湖降低风险
由于数据是存储在后台数据湖中的,因此我们可以提供统一的数据保护方式,
采用统一的数据保护模式的好处在于我们可以有效利用数据备份资源,减少不必
20
要的资源浪费,降低IT投入,减少运维成本。而在这种统一的数据保护模式下,
EMCisilon数据湖可根据不同的应用级别,不同的数据类型提供不同的数据保护
方式(诸如:N+M保护、快照、备份、容灾等)。进而提升企业内部整体数据的
安全性。
EMCisilon数据湖降低整体投资,提升整体管理性
当前企业内部中存在着大量的历史数据和非活跃数据,而这些数据往往都会
占据存储大部分资源,高端存储尤为如此。而传统的IT孤岛往往对此束手无策,
而构建了EMCisilon的数据湖之后,EMCisilon存储内部的数据湖可根据数据的
活跃程度,数据的生命周期情况,将数据直接归档在数据湖内部中的便宜、大容
量的归档空间内。这样我们就可以极大的提升我们的存储资源,降低我们后续的
采购成本。另一方面,我们依据生命周期的管理思路,采用统一的管理模式可极
大的提升IT数据平台的整体管理性,降低运维成本。
Scale-out横向扩展一一性能和容量随集群规模二维增长
不同于传统的Scale-up(纵向扩展)的单个设备向更强大的CPU、内存、通
道及其他设备扩展的方式,Scale-out横向扩展则是通过一定的技术将一个个独立
的设备聚合成•个大而强的系统。对丁•用户来讲,Scale-up架构的存储系统其设
备处理能力上限在购买时已经确定,如果需求超过上限,只能重新购买更高性能
的设备;而Scale-out架构的系统可以采用搭积木的方式,通过把成百个体聚合
起来,来满足不断增长的存储容量和性能的需求,而EMCisilon集群存储系统是
一款基于Scale-out架构下同时提供IP-SAN访问连接和NAS数据使用方式的高端
存储系统,其存储性能和容量可以按需进行动态寸展。
21
由于采用了Scale-out横向动态扩展技术,EMCisilon集群存储系统可以为用
户提供如下好处:打破了传统存储架构的扩展限制,容量最大可超过20PB,同
时可以保证存储系统容量和性能的均衡,可以很好的满足广电用户未来随业务增
长所带来的海量数据的存储空间和带宽的需求;避免由于用户需求的不断增长而
带来的数据迁移和应用中断的问题,可随业务需求变化而动态调整资源,带宽、
处理能力和存储容量都可以实时调整和扩展;所有扩容操作均可以在线进行,无
须中断应用的正常执行。
集成的数据保护、容错机制——提供始终如一的高可用性
一般来说为保护存储上宝贵的信息资源免遭殒坏,都将采用raid技术,而传
统的raid技术,包括raid4、raid5,在过去很长一段时期中都能基本满足需求,
提供单个磁盘驱动器发生故障时的数据保护。但是广电用户采用海量的大容量磁
盘驱动器,发生第二块、第三块磁盘故障的概率大增。面密度以将近100%的复
合年增长率在不断加大,但是磁盘驱动器的可靠性和性能并没有同步提高,而且
由于大容量磁盘需要更长的RAID重建时间,极大地增加了同时发生几个磁盘故
障的可能性,数据丢失的风险不可小视。再者传统的raid*raid5技术无法对整
体存储性能带来明显的提升,实际上传统存储系统将用户的数据置于危险和低性
能环境之中。
而EMCisilon集群存储采用优于传统raid技术的统一数据保护方式,EMC
22
isilon集群存储系统采用OneFS操作系统,OneFS不依赖基于硬件的RAID技术来
提供数据保护。相反,OneFS包含核心技术FlexProtect,此技术基于可靠的数学
构造,并利用Reed-Solomon编码来提供冗余和可用性。FlexProtect可以提供针
对最多四个同时发生的全节点或单个驱动器的故障的保护,并且在群集规模扩展
时,FlexProtect可以满足确保将单个故障的重新构建时间缩至最短这一要求。
OneFS传统
RAID
4个以上的节点故障单个头部故障
4个以上的驱动器故障2个驱动渊故障
N路恢复能力
FlexProtect是OneFS中的一项重要创新技术,它采用特定于文件的方法来实
现数据保护,为每个文件单独存储保护信息。这种独立保护允许将保护数据连同
文件数据一起散布在整个群集中,从而在需要时大幅提高数据访问和重建的潜在
并行度。在Isilon存储系统中存在节点或驱动器故障时,FlexProtect能够确定文
件的哪些部分受故障的影响,并让多个节点仅参与受影响的文件的重新构建。由
于OneFS中的Autobalance功能将文件散布在整个群集中,可用来重新构建文件
的磁盘轴和CPU数量远超过典型硬件RAID实施中可用的数量。此外,FlexProtect
不需要在单个备用驱动器上重新构建数据(RAID采用此方法造成不可避免的瓶
颈);相反,文件数据是在可用空间中重新构建的,从而提供了虚拟〃热备盘〃。
OneFS中的FlexProtect功能可以识别文件,因此它还提供了特定于文件的保
护功能。可以为单个文件(更常见的是某个目录)提供特定的保护级别,并按照
与数据或工作流的重要性级别保护文件系统的不同部分。关键数据可以获得更高
的保护级别,而不太关键的数据可以获得较低的保护级别。这为存储管理员提供
23
了非常精确的保护/容量权衡,可在群集扩展和工作流过时的时候动态调整。
结论
存储系统中的可扩展性、高性能、易管理性和数据保护非常关键,这样才能
满足用户需求。借助EMCisilon集群存储的OneFS操作系统,管理员只需使用单
个管理点,即可在单一文件系统最大支持260PB存储容量。
SmartPools"OneFS@InsightlQ",
操作系统软件
SmartQuotasSynclQ
SnapshotlQAsperaforIsilonIQSmartConnect
IsilonforvCenter
由EMCisilon集群存储系统构建的整体解决方案实现了高性能、统一数据使
用、统一存储管理、统一数据保护、零数据升级迁移、容量和性能无限平滑扩展
的企业数据湖构建。
.3产品特点
系统存储空间支持扁平化多副本方式存储。
节点负载均衡:任意节点的任意服务出现故障,都能实现服务能力的自动漂
移,故障切换时间不超过5so
满足XX电视台所有电视新闻节目的生产、制作、数据迁移、素材存储等各
个功能模块的需求。存储是一个系统的核心设备,所以从存储的可靠性、安全
性、扩展性等方面进行考虑。非编工作站按4层100Mbps码率计算存储所需
的峰值带宽。根据发展需要,预留一定的带宽。本次配置非编制作存储设备节点
数量5个,每个节点物理容量144TB。
后续根据XX电视台业务发展的需要以及系统的设计需要,对带宽和容量进
行线性扩展,支持在线扩展。所有存储设备采用分布式NAS架构。
存储的安全:所有节点的硬件采用冗余配置,支持热插拔,任何一个设备出
现故障均不会影响到整个系统,出现故障的设备可在线更换。任何一个节点掉线
24
都不影响数据访问。存储系统提供详细管理功能、完善的日志系统、以及自动报
警功能。存储系统支持多副本及跨节点RAID技术:全局数据灵活多级别冗余设
置数据保护,最大可达N+4保护级别或8倍副本镜像保护。可以根据数据重要
性对存储系统中的不同目录(存储系统中的任意目录)灵活调节冗余度等功能,允
许在线更改保护机制,不影响应用使用,管理界面截图:
[♦Min]Toter*faiureof2Owes81node(Sm^ested)
卜涮―hftxtof2dr»mOR2no<m
【♦3dmjkter*ftMeof3drwwOR1node
StorageP(♦3ctIMd]kterMeraft«eof3drwesOR.1nodeAM)15ve
(•3n)ktertfeof3(tvmOR3nodn
【川皿』*,3・549wt«0R1no(M
Summary
I*2n]kier*64OR2nodes
WlBfOR4nodMf
Tiers&hocRK]Mnoredo^r2nodeF
㈤Mnoredotr3noclwsiontdSSDOtves
Meme(4x)Mnored4noctesryandthatallnodet>pes
■*200.24(Sx)Mrrcredo*er$nodes
(6xjMncredo^r6nodtt
[7x]5er7
jT8»jMrrc*ed(r«r8nodes
I*MIn]kAwfaAjreoT
NodePoolMetrics
非OEM产品,拥有自主知识产权;企业级高端分布式集群NAS存储设备,
采用横向扩展集群存储架构,同一集群支持144个节点扩展,全Active并行集群
模式,所有节点功能一致、地位均等、数据均衡分布。无单独元数据节点,无单
独管理节点;节点数量/文件系统可在线动态扩展,容量与性能随着扩展同步增
加;EMC具有自有知识产权和开发产品能力,非OEM;
/bin/showfield?f=doc&state=4807:dgo6kx.2.1
25
UnitwlTradecvuirltOfGce
HoaaeM»rIntinSearriifAQGtoM«ryGutaie^CnMMt«HluUneM*114/*rt,Mew«Hr^
Trademarks>TrademarkElectronicSearchSystem(TESS)
1SS”5•&upci^ort3g.Jf8£Z)r201T
HCZQH
LogcxAPleasek)goufwtienyouredoneioreleasesystemresourcesallocatedforyou.
xuuAt:ORx<1>orecord:Record1outof2
TSDRis?!!nnnrnrw(gm。〃八。他”皿,痴心”,。mum,。TES$)
ISILONSYSTEMS
13118SYSTEMS
3ood»andSe<v»c<s»C009g021023026036038GssCoo^uiorhx^rafoandwftnnr©namoljrtotgon!storagesystorecapobtoofnoewortoomnwea»on.ooi
USENCOMMERCE20010610
MarkDrawingCo^t<1>TYPtODRAWING
UfialNumber76MTWQ
(ilmgDM。AUQUM.2001
CurrentBasis
>»ginal,AngB«m18
>ublnhedf«OppovuonDoco*to<IS.2001
W”iUf*bcnNumber2467他
ntemattonalRegistration
087553
Mumbef
^egiMraboaOateDec<rr<»r3.2002
Owner(REGtS-RAMT»MonS>>s)cmsInc.CORPORATIONDELAWARE3101Wo«mnAwnuoSoattoWASHWGTON96121
(LASTUSTEOOWNER)EMCCoqxxatonCORPORADONMASSACHUSETTSX^SoJhStreetHoptontonMASSACHUSETTS01748
K*MgnmealRecordedASSIOWENTRECORDED
AttorneyofRecordJohnTJ«xtoy
3ncteimwNOCl/iMISMADETOTHEEXUUSrVERIGHTTOUSESYSTEMS'APARTFROMTHEMARKASSHOW)
M*ofMartTRAD61URK
PRINCIMl
KfMavrtTeitSCCT1$SECTe(6.YR)SECTION6(lO.YR)2Ol2O42e
Q・n«wal1STRENEWU201204W
.ivetOeadIndicatorUVC
支持NFS、QFS、HDFS、FTP、HTTP等公有协议,无须在服务器上安装客户
端即可访问存储数据,并且同一份数据可以被这些协议共同访问;存储作为整
体交付用户,自带内部高速互联设备和对外服务的数据访问和管理接口;内部交
换互联为40GbInfiniband,冗余配置。
单卷或单文件系统容量最大支持扩展至60PB;存储系统支持多副本及跨节
点RAID技术:全局数据灵活多级别冗余设置数据保护,最大可达N+4保护级
别或8倍副本镜像保十。可以根据数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专业软件销售协议条款范本(2024年度)版B版
- 2025年度快递业务运费标准合同范本3篇
- 北京市中考语文模拟试卷二套【附参考答案】
- 3 认识方向(说课稿)-2023-2024学年二年级上册数学 苏教版
- 2024招投标法规与协议管理实务操作指南版
- 2024毛竹山竹林碳汇项目承包合作协议3篇
- 16《新年的礼物》第一课时(说课稿)-2023-2024学年道德与法治一年级上册统编版
- 2024版买卖合同协议书
- 4 说说我们的学校(说课稿)2024-2025学年统编版道德与法治三年级上册
- 医院内分泌科改善护理服务行动用“心”控糖 共筑健康
- 2025年中国AI学伴行业市场现状及投资态势分析报告(智研咨询)
- 智能安防监控系统设计与实施计划书
- 2024年南京市第一医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 2024北京海淀五年级(上)期末英语(教师版)
- 2024年民营医院医生与医院合作协议
- 室内设计CAD制图(海南工商职业学院)知到智慧树答案
- 2024-2025学年语文二年级上册 部编版期末测试卷(含答案)
- 期末模拟卷 2024-2025学年人教版数学六年级上册(含答案)
- 【高中数学课件】排列数公式的应用
- 医院抢救领导工作小组制度
- 2024年河南省公务员录用考试《行测》真题及答案解析
评论
0/150
提交评论