分布式存储在行业和应用分析_第1页
分布式存储在行业和应用分析_第2页
分布式存储在行业和应用分析_第3页
分布式存储在行业和应用分析_第4页
分布式存储在行业和应用分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分布式存储在行业和应用分析

来自twt社区同行交流,欢迎更多同行参与交流目前分布式存储是否适用大多数行业和应用?随着X86性能的提升和万兆、10万兆网络的发展,分布式存储的瓶颈似乎也越来越少,除了如金融等对IO有特殊要求的行业,分布式存储是否适用在大多数行业和应用中呢?以我目前接触过两个例子来说,一个用的超融合运行大数据分析业务,另一个用的VSAN运行虚拟化,上面分布数据库、中间件等,由于业务没有那么大的压力,所以目前看分布式存储是可以胜任这样的环境的。在实际更多的行业中,还有哪些除了对IO有很高要求的行业以外,不适用分布式存储的应用呢?问题来自社区活动,由会员@潘延晟系统工程师提出,来自twt社区众多同行的分享,欢迎大家参与交流,各抒己见。*“争议”栏目内容来自同行分享的一手体验和观察,仅代表个人观点@TB洪雪技术总监:摘一段某金融行业工程师的话,应该也是出自twt的话题:1,分布式存储没有大量使用,其中一个最大的原因是“软件定义的分布式存储”在可用容量单价方面相比传统存储贵太多了,我们金融企业真心用不起。2,高可用方面,分布式存储高可用方面对比传统SAN存储有明显差距,无论是单节点重启影响,微码升级影响等各方面在IO静默时间IO跌落幅度和长度方面差距太明显了。3,集中式架构决定性能可做得更好更极致更低时延。分布式架构天然上性能低时延不如集中式。4,经历者曾经有几十PB几十套软件定义分布式存储(厂商产品)的运维经验:对比传统集中式存储软件定义的设备故障时的影响持续时间和修复难度要高得多。最怕遇到的是软件bug或是某个软件模块服务异常,这种情况一般很难快速修复,甚至要等几天到周的时间等厂商写hotfix然后打上修复。@wwwdp西安未来国际项目经理:分布式存储目前在公安和交通的视频监控应用和视频图像分析、卡口图像(人脸/车辆识别)、大数据分析后端都有广泛的应用。有些厂家的分布式存储可提供集文件存储、对象存储、块存储、大数据四种存储服务于一身的分布式存储架构,通过横向扩展基础架构实现单系统存储节点扩展至数千个,形成EB级海量存储空间、百亿数据文件管理、千万级IOPS和百GB带宽,并凭借其高效可靠的数据自动修复和自动运维机制,显著降低了存储管理的负担。分布式存储采用全对称、去中心化分布式架构,将系统的数据和元数据平均的分布到各个节点上,打破了传统系统的元数据集中式存储和管理这一限制,对系统的目录实行分而治之,实现负荷分担、负载均衡;即使系统中出现节点故障,系统也能够通过数据冗余规则以及故障修复迅速进行响应,恢复故障节点存储的数据及元数据信息,提供比传统存储系统更高的可靠性。分布式存储系统完成系统中各个节点存储资源的组织,对外提供统一API、支持不同协议的存储服务。分布式存储通过iSCSI协议对外界提供块级别设备接口,采用分布式系统技术、高可用系统技术将大量的存储设备进行集中管理,并支持快照、克隆、卷QoS、精简配置等功能,提高资源利用率,保证关键业务的性能。分布式存储系统通过HDFSAPI提供大数据服务,使用HDFS可以将存储系统强大的分布式存储能力与Hadoop中MapReduce强大的并行任务处理能力相融合,并结合HDFS相关组件,将数据直接存储,从架构上解决数据爆炸性增长、非结构化数据分析速度缓慢等问题;通过数据共享访问能力的提升与接口的开放,可实现跨平台的数据共享访问,满足不同应用的需求。分布式存储系统可以根据客户业务需求,灵活的添加或者移除存储节点,从而将数据和应用程序从硬件抽象出来。当向系统中添加节点时,每个节点或者机箱都将聚合增加CPU、内存、缓存、网络等资源,使系统整体性能高于各部分总和,提高吞吐量、容量和IOPS。分布式存储采用了元数据集群和基于一致性哈希算法的去中心化技术,支持节点动态扩展,不存在性能瓶颈。随着节点数的增加,存储容量和计算能力线性增加,最终给用户提供呈线性递增的吞吐及并发能力。客户为保证存储空间利用率,分布式存储提供清空回收站与定时删除功能。分布式文件系统回收站和分布式块存储系统回收站数据存储位置及方式不同,因此清空和清理时限的设置要分别进行。清空回收站操作需要慎重处理,在清除数据之前,需要查看回收站,确认没有需要的数据,再进行此项操作。而定时删除功能降低了用户的管理负担,用户可以自由设定定期扫描时间和文件目录/逻辑卷超时时间,系统每隔一段时间在后台运行扫描一次,遍历回收站目录下所有日期目录或卷回收站内卷删除时间,获取当前时间,与日期目录或卷删除时间进行比较,对小于文件目录超时时间的文件/目录/逻辑卷不允许删除,反之,则进行自动删除操作。分布式存储将零散的存储资源集合起来,提供一个统一命名空间给用户,使用户可通过任何节点接入系统并处理客户端连接请求。为均衡分发客户端的连接请求并确保业务可靠性,提供“轮询机制”、“连接数机制”、“cpu机制”、“memory机制”、“bandwidth机制”的负载均衡策略供用户自主选择,系统根据选定的策略将多客户端连接到系统各节点,使得不同存储节点业务、硬盘压力相对均衡,优化系统资源的使用。@荣重实XSKY技术总监:依照IDC的中国市场分析,分布式存储在国内占比已经超过40%,可以说是普适了大量的行业和场景。从场景看:1、私有云和混合云,本身就是分布式存储的主战场,在各个行业内广泛采用,其中政府、互联网、金融、运营商、教育、医疗等等行业已经稳定运行多年。2、各种类型影像系统,比如金融的ECM和双录,医疗的PACS和病理分析,高科的基因和电镜及AI,制造业的封测和MES,教育的精品课录播,自动驾驶的大量分析类数据,交通的卡口、ETC信息。3、大规模监控云,如政府和运营商的各类视频收集平台4、海量的备份归档数据5、两地三中心容灾分布式比较难适配的场景,除了对IO延迟及其敏感的场景,其他场景几乎都涉及了分布式存储,近期很多金融机构已经开始尝试利用国产化硬件配合全闪介质进行跑批测试,简单的说就是客户对于双模架构的理解已经非常深刻,不会盲目的进行站队,而是在充分理解自己应用和IO模型的情况下,选择最适合自己的数据存放方法。随着SSD和网络技术的继续发展,我们有理由推断,分布式存储在市场中占有的场景和行业会继续增加,慢慢成为主流的数据存放方式,结合数据湖以及数据流动的概念,更快更稳定更长久的保存数据,充分发挥数据本身的价值。@penguinhe成方金融项目经理:分布式存储应用在应用服务器、中间件服务器等对IO没有极致要求和高可用方面有较高要求的分区上,结合应用、中间件和系统层面自身的双活及高可用设计,基本可以满足需求。@一只红松鼠华为:从题主的描述来看,问题可能是“采用通用X86服务器的分布式存储是否适用大多数行业(比如问题中的超融合)”,甚至可能是“采用通用X86服务器+分布式软件是否适用大多数行业(VSAN的例子)”。所以分别回答一下这几种情况。首先以我的经历,IT业务场景的差异是非常巨大的。几年前一个项目招了几个DBA,干了几天发现他工作方法效率非常低,不像有几年的经验的样子。后来明白了,他以前搞的数据库1T就很大了,而我们的业务抄起来就是几T甚至十几T,他原来效率很高的方法就变成了很低效的方法。具体到提问,第一,分布式存储,仅讨论使用分布式架构的存储的话,那么大部分场景都是适用的(参见另一话题回复:/Question/443341-3013459)。例外之处反而可能不是高IO,而是一些小场景。因为分布式架构需要一定规模才能发挥性能、成本优势,小场景反而是磁盘队列的优势。那么我们来看看“采用通用X86服务器的分布式存储是否适用大多数行业”。我借用下AWS的实践来回答,因为AWS能看到场景应该比我们能遇到的丰富得多。AWS的存储绝对是分布式的,早期也是用通用服务器的,网络是10GE。很符合题主描述的情况。但从去年发布的EBSIO2Express,开始使用专有硬件、专有网络协议。网络带宽没有看到,但因为估计要承载ROCE,25GE是大概率。从AWS上抓了不同卷类型的特点、场景对比表,应该比较符合题主的问题方向,但也不可能完美解答。比如Oracle,虚拟桌面等等在多种类型的存储中都出现过,应该用哪种,恐怕AWS也说不太清。这就像我找的DBA,他理解的最大、IO密集型、中小等概念,和我理解的可能不在一个位面。不过这张表还是能看出很多信息,简单解读一下:

1.对存储的选择除了性能还有可靠性,对应题主的问题,除了金融等特殊行业,要求可靠性高的场景也很多;2.而从存储能力方面,高性能和高可靠往往是相伴而生的,即使性能要求不高,有很高可靠性需求也要使用比较高端的存储,只能全都要,不能二选一;3.高性能、高可靠的需求大量存在,否则AWS也不必花那么大投入,还收购了一家公司来补齐这部分能力;4.高性能高可靠是很难实现的,AWS只是实现了个预览版,而且通用硬件已经搞不定了。至于像VSAN这样完全分离的方案,要考虑的因素还有软件的能力。VSAN是很强大的软件,运维也比较容易。如果使用其它产品,可靠性,运维能力也是需要考虑的。补充说明,表中的信息记忆中是从英文网站扒的,但时间长了,找不到链接了。而且用的机器翻译,各位凑合看吧。@赵海技术经理:首先,分布式存储这个概念不是一个唯一的产品,很多产品都可以归为分布式存储的范畴。例如有分布式对象存储,分布式文件系统存储。不同的产品由于其数据存取及组织方式的差异,必然有自己最适合和擅长的场景,当然也会存在自己的短板。所以,分析分布式存储适合什么样的行业和应用,如能聚焦到某一类产品上来,会更有针对性。再有我们分析这个产品适不适合这个行业和应用,需要从应用所处的场景特点来分析。就通用分析而言,无论是分布式对象还是分布式文件系统类的产品,目前应用的大多数场景还是企业的一些非结构化及半结构化的数据存储及分析场景。一方面是数据量级的问题,另外一方面是数据本身的结构特点,再有一个就是扩展性的问题。但是对于传统的关系型数据库类的应用,由于其数据量级、数据并发控制的严格性以及稳定性等方面要求,大多数还是在传统集中式存储上。对于一些分析类的应用,由于互联网的融入,数据特点及量级方面都有了质的变化,因此大家都是根据具体应用特点采用NOSQL+分布式存储+定向开发等形成一套具有自己独特应用特点的数据中后台。@whistwuSmartX解决方案经理:我的答案是肯定的,分布式存储将适用大多数行业和应用。在此之前,我们来了解大多数行业和应用对存储的诉求是什么?刚开始的时候,我们只需要一个能存储数据文件的设备,随着数据量越来越多,应用越来越多,我们需要更大空间的存储,而且大家能共享使用,不会造成资源浪费,这时通过光纤网络共享的SAN存储满足了需求;同时,SAN存储的快速发展还受益于IOE的架构体系,这中间的“O”就是数据库体系,因为数据库对IO性能的要求苛刻,SAN存储的IO性能和响应时间能够满足要求。因此“高性能”是大多数行业对存储的诉求之一,同时也是对分布式存储的诉求。刚开始的时候,因为分布式架构和产品成熟的因素,性能确实是考验分布式存储的一个难关,记得2017年中国移动组织了第一次分布式存储集采,结果17家送测厂商无一例外失败了,其中最主要的原因就是性能不达标。行业里第一个想到的办法是超融合,计算虚拟化+分布式存储融合在一起,将数据更加靠近计算,没有存储网络的延迟影响,能发挥设备的极致性能。有意思的是IDC报告里把HCI超融合和分布式块存储的市场放在一起来统计,是有一些道理的,因为超融合主要面对的是生产核心系统的领域,而这正好也是分布式块存储的目标市场之一。但是企业里还是有很多应用没有用虚拟机的,这部分怎么办呢,所以存算分离的场景是分布式存储重点的方向之一。影响分布式存储性能有很多方面,最重要的主要是两点,介质和传输网络,对于分布式存储系统来说,介质可以选择高性能的全闪磁盘,甚至全NVMe的SSD磁盘,能达到较高的IO性能,对于网络来说,分布式存储选用iSCSI连接方式比较多,但我们知道,iSCSI作为存储接口使用走的是TCP/IP网络,TCP/IP网络为非无损网络,意味着一旦有丢包,存储性能会下降非常快,最新的方式是采用NVMe-oF作为传输协议,通过NVMeoverFabric实现NVMe标准在PCIe总线上的扩展,以此来挑战SCSI在SAN中的统治地位,同时这也非常适合分布式存储架构,NVMe-oF配合RoCEv2,能够使得分布式存储的响应时间达到了微秒级别。其次,需要企业对存储的另一诉求是“可靠性”。传统的SAN存储可靠性主要是采用了部件冗余和RAID技术,因为系统的工业化集成程度高,耦合性好,所以故障报修的问题少,而现在的分布式存储中,更多的考虑是通用型号的X86服务器设备作为平台,适用性较好,通过纠删码和副本技术来保护数据不会因为硬件故障而丢失,同时,考虑冗余的角度变成了防止硬盘故障、节点故障、网络故障和集群故障等,用通俗的话来说,一个是按法拉利F1方程式来设计的,一个是按方便实用特斯拉电动车型设计的,当然这里说的是高端的磁盘阵列,普通的双控传统存储可能还远远达不到F1方程式级别。从企业应用角度还要考察的第三项是“稳定性”。正常情况下,分布式存储平稳运行是基础,需要考虑的系统是出现问题的时候,处在非健康状态下是否也能平稳运行,比如磁盘故障恢复时、部分节点故障后、网络亚健康时、存储容量达到80%的时候,这都是考验各分布式厂商技术功底,特别是在数据库环境下,更考验分布式存储厂商是否有长时间的技术积累,相信随着技术发展和分布式存储软件的迭代,分布式存储的稳定性会更好。如果阅读中国IDC2021年上半年的报告,你会发现分布式存储和超融合已经不声不响的占了快一半的市场份额,比去年同期还高了5.8%,从市场表现上来看未来的分布式存储毫无疑问是适用大多数行业和应用的。@刘东

东软集团IT技术咨询顾问:首先,随着X86服务器性能的提高,10GE/100GE网络的性能提升、固态硬盘的普及和大容量硬盘的出现,分布式存储确实越来越突显出其优势,性价比高,规模化部署成本低,性能线性增长,这些特性让越来越多的行业正在将业务更多的部署在分布式存储上。从前几年的试探性部署,到现在的规模化部署,分布式存储的市场增长率,在大容量存储市场,已经显著的超过了传统架构的集中式存储。其次,我们需要看到,各个行业虽然都在大规模的部署分布式存储,但是传统的集中架构式存储仍有市场空间,目前据我了解,还没有任何一个行业的存储市场完全被分布式存储替代,仍然是混合架构,而非专有架构。最后,我们从两个不同的行业进行分析,看一下具体的应用场景。1、医疗行业,最适合分布式存储部署的场景就是PACS文件系统,这类系统的应用特点是对文件存储有大容量的存储需求,同时又要求高性能。平均每个大型医院每年的数据增长量有几十TB,所以传统集中存储架构已经不适合这种大规模的数据量增长需求。最不适合分布式存储部署的是核心HIS系统,这类系统数据量不大,通常只有最多只有几个TB,每年数据增长几十GB,但是对I/O非常敏感,而且涉及到财务,对数据一致性要求也比较高,不太适用分布式存储。2、政府行业,最适合分布式存储部署的场景是大数据平台、电子公文系统等,类似公文这类系统通常需要存储大量的邮件附件等文件,对数据量要求比较高,但是性能要求一般,使用大容量低成本硬盘组件分布式存储是非常合适的,不但可以降低政府部门投资,灵活的扩展能力也可以将系统投资按年进行扩容,合理分配预算。最不适合的是电子政务的数据库系统,通常这类系统存储民生等关键业务数据,特别是在做全国数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论