海量非结构化数据存储优化项目可行性分析_第1页
海量非结构化数据存储优化项目可行性分析_第2页
海量非结构化数据存储优化项目可行性分析_第3页
海量非结构化数据存储优化项目可行性分析_第4页
海量非结构化数据存储优化项目可行性分析_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 海量非结构化数据存储优化项目可行性分析 1.背景和原因谈到非结构化数据管理,相信越来越多的传统企业开始重视起这个领域。这里面既有被动的传统架构的适应性转型,当然也有主动的数据价值挖掘驱动。从大环境来看,互联网业务的进一步发展、物联网、人工智能等技术的逐步落地,使得非结构化数据正以几何级数在增长,而且增速和规模已经远远超过了结构化数据。所以,对于传统行业来讲,正面主动、积极乐观的对待非结构化数据已经迫在眉睫。同样的,对于传统保险业来讲,非结构化数据存储优化也一样成为大势所趋。一直以来,作为传统行业,保险公司的存储系统普遍采用集中式的 SAN 和NAS 存储。这种采用专业硬件的紧耦合架构设计的传

2、统集中式存储一直主导着险企存储技术的发展,而且长期以来都作为各种保险业务、ERP、邮件的主存储系统,因此我们的关注点也大多集中在如何提高这些专用存储系统的性能、安全性和可管理性上。但随着企业的发展,保险业务量的激增,企业信息系统出现越来越多的非结构化数据。影像系统是非结构化数据的一个主要来源,已经积累了数十亿的文件量,占用了近 PB 的空间,这些非结构化数据主要存放在上述集中式存储上。由于传统存储采用集中的元数据处理方式,因此,当存取千万、亿级的文件量时就会出现陡峭的性能骤降拐点,直接表现就是前端内容管理平台处理效率降低,核保、保全以及理赔等保险业务效率的下降,最终导致客户满意度的下降,这显然

3、不利于险企的健康持久发展。另外,中国保监会已经发文要求保险行业实施“双录”即录音、录像系统,以便规范保险代理人的销售行为,保障被保险人权利。“双录”系统的实施,带来了更多的录音录像等非结构化数据,这无疑又给现有存储系统带来了一波更大的压力。在数据处理性能之外,针对海量的非结构化数据的安全加固,在传统存储上设计高可用架构、两地三中心的容灾方案均带来了过高的成本开销。如果从传统集中式存储自身面对的挑战来看,不难发现,传统的存储架构也暴露出很多问题。首先,传统存储对机房空间、综合布线、电力、散热等的要求较高,这对未来数据中心模块化机房的部署带来了诸多挑战。其次,传统存储的初次采购价格和后期维保费用也

4、是居高不下。在云计算和软件定义等技术大潮下,传统的存储厂商也面临着开源带来的压力,有的甚至面临着产品和技术转型,因此这些对传统存储的持久化发展带来了一定的影响。再者,由于海量的非结构化数据普遍采用传统的集中式架构,造成业务数据的备份和恢复效率低,无法满足系统的安全性要求。最后,如果从智能一体化的云数据中心建设角度考虑,传统的存储系统还缺少一些业务系统要求的敏捷性和自动化能力。由于传统存储系统大多是采用紧耦合设计,存储的弹性较之于时下流行的分布式存储要弱。因此无法灵活、及时的响应前端业务系统处理规模变化带来的 IO 性能变化。基于以上传统存储面临的诸多问题以及业务系统产生的海量非结构化数据,同时

5、考虑到传统存储无法很好的满足这些新型的存储需求,我们急需构建新的云对象存储平台。最终可以对各类前端业务提供接口标准化的、规范化的、高可用、高可靠和高性能的分布式云对象存储新平台。通过项目的实施最终实现保险公司海量非结构化数据的存储优化和数据蕴含的业务价值挖掘。项目中使用的云对象存储产品普遍采用了商用 x86 硬件的分布式架构,因此较之于传统集中式的存储解决方案,这种新的平台可以有更灵活的横向在线扩展能力,从而可以轻松应对业务规模、数据量骤增带来的后端存储压力。另外在云对象存储平台解决了企业海量非结构化数据存储需求的同时,通过其分布式架构天然具有的容灾特性可以轻松构建跨多站点的灾备方案。再者,借

6、助云对象存储对文件多版本的支持以及比传统存储更高的可用性、可靠性和可维护性指标,云对象存储平台同时也成为了一个免备份的数据保护平台,从而可以进一步降低企业 IT 系统的 TCO。最后,借助统一云对象存储平台对外暴露的标准化的、易于应用接入的 S3、Swift 等对象访问协议,可以轻松扩展企业基于非结构化数据的应用。2.该项目实施的预期应用效果在底层统一的云对象存储平台之上,借助平台对外暴露的标准化的、易于应用接入的 S3、Swift 等对象访问协议,可以轻松扩展企业基于非结构化数据的应用。我们构建了高效的ECM内容管理平台,基于开源软件Owncloud搭建企业网盘应用,同时平台未来还可以接入备

7、份系统以及实现和大数据应用、AIops的对接,进而实现对企业海量非结构化数据资产的深入挖掘。在IT层面,统一的云对象存储平台也极具价值。较之于集中式存储,分布式的云对象平台可以降低设备采购和机房成本至少80%,而存储人员的运维能力至少达到8倍的提升。云对象存储平台普遍采用通用的x86服务器、大容量低转速的SATA高密硬盘和Ethernet以太网组网,较之于传统集中式SAN和NAS存储采用专用的软硬件和FC专用网络协议组网,甚至是更高速的IB网络组网,显然云对象存储平台有极大的成本优势。从IT运维人员的工作负荷来看,传统的存储有更复杂的容灾技术和专业的软硬件特性,而云对象存储平台的运维门槛显然有

8、了极大的降低。此外,运维人员的维护效率也会得到大幅的提升。3.重大风险揭示与管理3.1 自主掌控开源云存储技术能力薄弱(风险概率5,后果严重度2)在险企构建海量非结构化数据存储平台的时候,会选择商业+开源两条腿走路的策略,商业产品较之于开源解决方案有更多的企业级特性,适合上线核心业务系统。而对于边缘化非核业务系统以及企业对新技术的研究工作中,会引入开源的解决方案。由于引入并掌握开源技术需要时间,现阶段项目组自主掌控开源云存储技术能力仍较为薄弱。故障处理时,需要项目组网上自行搜索尝试排障,处置故障及时性和有效性较差,因此可能存在较大的运维风险。应对措施:一是控制开源云存储平台推广范围,优先在研发

9、测试、生产验证、开源云平台等非核心生产环境使用,逐步扩大适用范围,确保数据安全,在使用过程中提高自主掌控能力;二是加强云存储可靠性研究,提升分布式集群抵御服务器、机柜、乃至更大故障域的能力,从底层确保云平台的稳定可靠;三是与合作厂商加强合作,学习商业发行版在系统调优、参数设置方面的最佳实践。四是增强运维人员的技能储备,如通过培训、参加认证考试和技术社区的交流,提升运维人员的技术理论水平和实践能力。3.2 统一云对象存储平台性能不足(风险概率3,后果严重度4)由于POC测试的局限性,有些极端的业务场景会难以覆盖到或者是测试不够充分,那么不可避免的会出现实际的生产系统在新的云对象存储平台上出现性能问题,进而影响到业务系统处理效率。应对措施:对于该风险,由于商业化的云对象存储平台有非常高的在线横向扩展能力,可以通过扩展前端访问节点的方式提升业务的IO并发能力。此外,如果是底层的SATA磁盘造成的性能瓶颈,也可以在线扩展SAS甚至是SSD磁盘,构建更高性能存储池的方式进一步提升后端存储的性能。4.关键技术路线选型对于海量非结构化数据存储优化项目构建的统一云对象存储平台可以采用“商业+开源”两条线部署的方式。对于核心的业务系统,诸如影像系统和“双录”系统,综合考虑存储系统的安全性、性能、易管理性以及原厂支持等因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论