华为:2024年金融数据中心存储顶层架构白皮书_第1页
华为:2024年金融数据中心存储顶层架构白皮书_第2页
华为:2024年金融数据中心存储顶层架构白皮书_第3页
华为:2024年金融数据中心存储顶层架构白皮书_第4页
华为:2024年金融数据中心存储顶层架构白皮书_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HUAWEI金融数据中心存HUAWEI非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式HUAWVEI金融数据中心存储顶层架构白皮书您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,地址:客户服务邮箱:客户服务电话:客户服务传真:HUAWEI金融数据中心存 42存储目标架构规划原则 73存储目标架构详细规划 9 4结语 36HUAWVEI金融数据中心存储顶层架构白皮书11.1背景近年来,在全球经济增长缓慢,贸易战和地区冲突持续的背景下,金融行业的营收压力增大,资产规模增长显著放缓。借助科技的力量,金融机构的数字化进程在后疫情时代持续深化。一方面,金融机构利用数字化技术持续为客户提供无所不在的智能化体验,以满足多样性的客户需求;另一方面,金融机构也在积极利用智能化技术构建敏锐的业务洞察力,以快速应对各种市场变化。因此,1.2金融存储趋势、技术&市场洞察金融机构一直是率先将新兴IT技术的应用于业务场景的行业。凭借云计算,大数据和人工智能等技术的应用,金融机构正在优化我们看到,随着手机银行和线上支付技术在金融行业的广泛应用,金融服务触达客户的时间和空间进一步扩展,促使金融机构的始布局人工智能(AI)应用,尤其是大模型技术的研发,利用AI使能业务运营、产品营销、风险控制和客户服务等业务领域,进一步提升金融服务的智能化水平。根据IDC的报告,90%的银行已经开始业务应用的需要,也驱动着金融机构的数字基础设施架构的转变。以兼具韧性和灵活的云原生应用,逐步淘汰传统封闭的架构,重构创新开放的存算分离架构,建设具有高可靠,高扩展性的基础1.3金融数据中心存储底座建设总体要求金融机构需要系统化构建面向未来的金融基础设施,这个目标架构以高可用、高安全、可信合规、绿色低碳为主要特点,支持金融服务的极致体验、业务敏捷、泛在智能和开放创新。基于这些特业务分级:将业务系统根据重要性和服务范围进行科学的分类和分级,通常建议分为3~4档;资源保障,以存算分离架构在确保稳定低时延的同时,提升系统整体可靠性;非关键环境可根据TCO、运维习惯和系统扩展性的综合。容灾:传统基础设施采用两地三中心/四中心,云原生系统采用。备份:采用全闪存热备+海量对象存储温备+公有云冷备实现多级备份;采用云上业务、云下备份的方式进行混合多云的数据集中。归档:采用海量对象温归档+蓝光/磁带/公有云冷归档实现多级。数据&AI:打通数仓、数据湖和AI训练离、湖仓一体等实现数智融合;通过超高并发度、高性能存算网的2存储目标架构规划原则4、弹性伸缩能力:存储平台的设计应有较强的弹性,3存储目标架构详细规划3.1.1金融行业生产交易场景的趋势和变化金融行业数字化转型发展,使得金融服务的业务模式发生了显著的变化。从多数银行公布的年报来看,新兴金融服务交易量年度平均增长都在50%以上,而且主要来自网上支付等新兴技术的应用。因此前端渠道接入系统这类直接面向客户提供服务的请求接入类系统的服务模式正在快速发生变化。新兴的业务模式扩大了金融服务的触达渠道,从传统的线下网点服务扩展到线上服务;延伸了金融服务时长,从原来的5*8小时服务延长到7*24小时不间断业务服务。另一方面,数字化的深入,凸显数据的重要性,金融行业数十年积累的用户数据和业务数据是重要的数字资产。金融行业在整体数据量方面已经达到了EB(Petabyte,即千万亿字节)级别。新报告,目前金融机构的数据量普遍达到PB级,尤其是国有大型银行的核心业务系统存储规模也已达到百PB级,并且未来五年预计年均增幅将达到24.33%。3.1.2金融行业生产交易场景业务需求这些业务模式变化和数据量的增长,也正在深刻影响并重塑着金融行业的数据中心基础架构。为适应未来业务发展,数据中心基础设施,必须满足业务所需的吞吐性能和可靠性要求,并具备面向未来的扩展性要求:业务量的激增,对数据基础设施的性能、吞吐量提出了更高要求。从性能上讲,一般业务处理平均有大约50次数据库请求,每次数据库请求约1000次左右存储读写(注:基于银行核心系统的交以上的时延,对业务整体增加50秒以上的时延。从吞吐量上讲,中等银行生产业务的峰值交易大约5000笔/秒(即:5000TPS)来估算,峰值业务处理需要的存储IO请求能力约为1.5M-2.5M的存储在高吞吐和高性能需求下,采用存算一体架构,将对无疑是个靠性,数据加密和数据压缩等繁琐的数据存储处理,因此服务器的CPU资源捉襟见肘。但是通过存算分离架构,所有数据存储的IO服务时间的延长,对整体架构可用性的提出更高要求。金融业户的流失。以中等规模银行为例,核心系统交易量一般在1000-3000笔每秒。因此,系统服务中断和不可用的每一秒,则意味着1000笔以上的交易损失和用户流失,甚至监管层的惩罚。例如,星展银行在2023年先后5次大规模中断业务服务,新加坡金管局(MAS)要求其提供16亿美金的额外资本,并在2023年11月对新对于数据中心而言,如果要满足整体业务可用性99.999%的要求,即年停机时间5分钟以内,则数据中心基础架构的可靠性必须要提升到99.9999%以上,即年度故障时间30秒以内。当前,部分金融机构采用基于x86服务器的存算一体架构,该架构在可靠性上只能达到99%。金融行业统计表明,x86服务器超过5年以上之后,故障率超过0.5%,因此采用服务器本地磁盘的数据库存储,随着数据中心集群规模的扩大,频繁的故障和恢复,会对生产交易系统的业务连续性带来严峻挑战。而在存算分离架构下,服务器只负责数据逻辑处理,所有数据的持久化和可靠性等能力都由存储设备统一完成,即使服务器发生故障,也不影响其他数据库实例计算节点的数据访问。同时,利用存储的RAID和快照等技术,极大提业务种类的增加,对业务之间数据交换更加频繁,各类运银行生产交易系统是各类系统运营数据和报表等系统的数据源,如何实时的获取有效的数据,并且对生产系统的业务影响最小,成为各业务系统与生产交易系统之间不可调和的矛盾。在存算一体架构下,必须通过专用ETL工具直接对数据库数据进行操作,对业务系统造成性能干扰,因此只能选择在夜间业务低谷时段抽取数据,对后端系统的实时性造成影响。在存算分离架构下,可充分利用存储的一致性快照和克隆等能力,快速构建生产交易系统的数据库副本,满足各类后端系统对业务数据实时性需求,并且对生产端数据库业务的性能影响最小。比如,每日批量作业希望每日夜间定时从主库上利用存储的一致性快照和克隆等能力,快速生成一个数据库因此,面向未来,为了满足业务性能,可靠性和扩展性的要求,基于共享存储池和分层解耦的存算分离架构将是主流的架构选择方3.1.3金融行业生产交易场景目标架构从金融行业来看,越来越多的金融客户倾向于采用分层解耦、按需分配的统一资源池架构打造生产交易平台,参考架构如下图所示:1、根据业务系统的服务等级,从吞吐性能和的等级,一般建议分成3级或者4级。比如Tier1采用物理服务器满足高性能高可靠要求;Tier2满足大部分金融业务处理的通用需求;Tier3满足一般性能和可靠性要求的业务处理,比如开发测试业务系统分配标准的计算和存储资源,内部通过Quota配额和3.2数据分析-大数据存算分离架构3.2.1金融大数据分析发展趋势和变化中国金融大数据产业快速发展,成为金融行业业务增长的新引近几年,随着移动金融、互联网信贷等新业务形态的出现,金融大数据应用得到长足发展,已经渗透到金融行业的方方面面,广泛应用到营销、风控、运营等多种关键业务中,极大的提升了金融《IDCPeerScape:金融领域中数据管理分析服务最佳实践案例》报告显示,2023年,中国金融行业大数据市场支出规模达到29.7亿美元,预计到2027年将增长至64.6亿美元,CAGR达到21.4%。未来几年,金融大数据市场仍将保持较高的增速,是数据管理、数据分析厂商争夺的主要市场,目标客户覆盖大型和中小型随着大数据应用的深入,大数据平台从注重数据处理走向注重诺贝尔经济学奖获得者罗纳德·科斯(RonaldCoase)曾经说+AI时代的到来让这句话有了更多的现实意义,如果说石油滋养了工业时代,那么海量非结构化数据就是智能时代的石油。金融大数3.2.2金融大数据分析业务需求随着外部数据规模和金融客户应用场景的变化对大数据平台提1、能获客:大数据平台要具备PB级的海量文件分析能力,能够从2、能活客:大数据平台要具备极致高性能,存储系统需要具备毫秒级时延、TB级高带宽,能够抵挡业务高峰浪涌,支持T+0的数据实时分析,为金融反诈、信贷评估等业务提供实时生产决策能力,3、降本增效:近几年金融大数据投资预算逐年走高,但是随着AI时代的到来和监管要求的趋严(如要求数据留存期大于10年投资预算的增长显然无法赶上非结构化数据量的增长速度,剪刀差越来越大,这就要求金融大数据平台一方面要降低单位容量的投资成本,另一方面还要提升单位容量的性能,支持海量数据低成本存4、支持平滑演进:大数据平台需要具备支持面向未来的平滑演进,支持HDFS、S3多种数据访问协议,平台升级过程中,老的存储集5、更简单的数据管理:支持多任务资源隔离,保障关键任务高效执行,具备跨域的数据管理能力,全局数据可视、可管、可用,并3.2.3金融大数据分析平台架构演进趋势湖仓融合架构领跑大数据的下半场,成为金融大数据的重点布局技术。传统数据湖和数据仓库分离建设,数据湖擅长存储和处理各种类型、大量原始数据,而数据仓库则更擅长结构化数据的存储和高效查询,各自都有一定的局限性。湖仓融合架构结合了两者的优点,能够在同一系统中处理结构化和非结构化数据,提供统一的数据管理和分析平台,从而提高数据处理效率和分析能力,降低数据管理成本。这种架构特别适用于需要实时分析大量复杂数据的场基于专业分布式存储的存算分离方案是大数据湖仓融合的基础。传统存算一体模式采用Hadoop原生存储底座进行数据存储,单命名空间支撑的文件数量少、三副本冗余机制存储空间利用率低、跨域数据管理能力弱,无法支撑湖仓融合架构下海量的结构化、非结构化、半结构化数据统一存储诉求。专业分布式存储因其良好的协议扩展性、容量密度、空间利用率和性能,可以很好的应对湖仓融合架构下对存储的各类要求,因此基于专业分布式存储进行存算分3.2.4金融大数据分析平台目标架构Hadoop有多种计算引擎,包括离线、实时、内存、流式等,各种计算引擎都有自己擅长处理的文件格式,保证各种计算引擎的性能,但是这也造成了一份数据的重复存储。拉通各个计算引擎的文件存储格式,做到一份数据存储支撑多种引擎,可以大幅降低存存算分离是大数据平台持续演进的关键所在,通过存算分离改解决了不同大数据集群间计算、存储资源利用率不均的问题,又使得大数据计算节点可以和用户的其他计算节点能够按业务峰谷灵活调配,一举两得,我们推荐的大数据方案架构如下图所示,支持HUAWVEI金融数据中心存储顶层架构白皮书传统存算一体方案存储资源是瓶颈,计算资源利用率往往不足到50%以上,改造之后的计算、存储设备总台数案节省30%以上。(4)存储底座采用分布式元数据管理方式,单一命名空间支持百亿级文件统一管理,较存算一体方案的单命名空间亿级文件数量提升退出往往是一大难题,华为存算分离方案通过元数据网关支持新老集群统一纳管和数据灵活迁移,老集群可(3)统一存储底座,同时支持多厂家、多版本Hadoop,适配无随着数据量的急剧膨胀,一方面数据的跨地域访问日益频繁,如何消除数据重力让全域数据自由流动成为了亟需解决的问题;另一方面大数据平台多用户、多任务分析已经成为常态,存储资源隔更新,全局数据视图实时永新;支持全局数据自由流动,激活数据(2)SmartQos实现精细化资源管理,多用户、多业务并行不悖,3.3金融AI业务场景3.3.1金融AI趋势与变化HUAWVEI金融数据中心存储顶层架构白皮书AI模型的数据将成为新常态。个方面已经显现出不同的价值。目前大量金融客户加大A在提升金融产品营销能力方面,AI技术可以帮助银行实现客户领域AI应用可以提升银行的风险防范与处置能力,使其能够在使能新业态方面,AI结合IoT、区3.3.2金融客户落地AI业务需求型的训练和提升起着至关重要的作用,数据的数量与质量将决定着AI模型智能化的程度。当前金融客户在AI模型训练与推理过程中遇到如下关键挑战:2、金融客户的价值数据往往散落在众多分散的数据中心中,形成了据跨域搬迁,导致通常数据准备时间在大模型生产全流程中占比超复搬迁成为大模型基础设施建设过程中首先要考虑的问题。以某大300TB数据,分散在多个银行数据中心中存储。如何让分散在不同该银行技术部门最头痛的问题。因此,构建一个高效的数据存储和4、从训练到推理是AI大模型实现商业闭环的必经之路,目前的金3.3.3金融AI业务场景目标架构AI数据湖方案是一个数据全局管理,数据存储、编织、管流动一体的数据存储解决方案,助力构建企现对企业内部多源异构数据的统一存储和管理,还能够提供高效的数据处理和分析能力,为企业提供全方位的数据服务。通过构建AI数据湖,企业可以打破传统数据中心的限制,实现数据的全局可视设中,数据要素的流通是实现数据价值最大化的关键。可以通过构建全局文件系统,支持多中心数据资产的全局可清晰地了解自身数据资源的分布和状况。同时,通过优化数据存储模型的训练提供源源不断的数据支持。此外,数据的流通还能够促进私域数据的共享和整合。金融行业的数据具有独特的价值和特征,通过将这些数据进行融合和分析,可以挖掘出更多有价值的信息和所以,理想的AI数据湖解决方案应具备以下几个核心能力:2、高性能:AI工作负载通常涉及大量的数据处理和计算,因此存级低延迟的性能,以满足模型训练与推理的性能需求;3、大容量以及可扩展性:随着AI多模态的发展,AI模型和数据集越来越大,存储系统需要具备足够的容量来存储这些数据和模型,4、数据韧性和安全:AI数据通常具有很高的价值,因此存储系统必须保证数据的安全性和可靠性,能够抵御硬件故障、数据损坏等风险,提供数据备份和恢复功能,具备主动预防勒索攻击的能力。对于敏感信息,存储具备安全功能,保护数据不被未经授权的访问5、知识实时更新及记忆能力:AI在推理应用场景需要提供大库容RAG知识库,为大模型增加知识储备,加速行业知识更新;使用方案应提供合理性价比,数据可以自动分级,根据数据访问频率按3.4.1金融行业容灾趋势和变化3.4.2金融行业存储容灾架构业务需求分为例)RPORTO30分钟本地高可用+(两地三中心)+≤5分钟<4小时本地高可用+(两地三中心)+要≤30<24小时同城主备+备份≤243~7天3.4.3金融行业存储容灾架构本地高可用:两地三中心:√多样化,提供多种选择:双活+同步复制方案支持同异步互转,力3.5数据保护3.5.1金融行业数据保护趋势和变化金融行业以其高度信息化和严格的信息安全标准而著称,近年HUAWVEI金融数据中心存储顶层架构白皮书来,金融行业勒索软件攻击事件不断上升,给金融机构的数据安全带来了前所未有的挑战。不仅严重影响了金融行业的正常运行,更让金融系统的稳定性面临前所未有的考验。这不仅是对金融机构应急响应能力的考验,更是对整个金融行业网络安全防护体系的全面审视。金融安全无小事,任何一环的疏漏都可能引发连锁反应,威Veritas最近的研究发现,金融行业一直是勒索软件阴影下的去三年的年度报告。在报告涉及的行业中,金融行业始终被网络威胁所牵动。在过去三年中,金融行业企业年度报告中提及"网络攻击"的次数增加了55%。同时,勒索软件的提及率从2020年到2022年上升了88%。●某北美银行于2020年遭遇勒索软件Maze攻击,被窃取和泄露上千万张信用卡信息;●某南美国家银行于2020年遭遇勒索软件Revil攻击,被迫HUAWVEI金融数据中心存储顶层架构白皮书●某国际保险公司于2021年遭遇勒索软件CryptoLocker攻●某巨头保险集团于2021年遭遇勒索软件Avaddon攻击,●某银行北美分析机构于2023年遭到勒索软件攻击,导致部《中国数据灾备产业白皮书暨数据灾备建设调研报告2021》架构分析显示,普遍缺乏数据防勒索措施。异地备份的比例只有约10%,本地备份的完备性也不足:只备份了关键的核心数据库应用,整体行业情况如下:●灾备系统建设水平不一:区域发展差异及金融机构实力的不均,导致灾备系统的建设水平参差不齐。大中型金融机构在灾备体常运行时备份系统并不承载生产业务,同时传统备份恢复技术的也无法满足生产业务的利用诉求,导致备份相关资源投入大3.5.2金融行业备份业务需求对金融企业而言,应用系统的可靠性、可用性保障的重要性永远是第一位的,全行业都会把业务连续性及灾备建设作为IT运营工金融行业灾备建设通常包括存储、计算和网络的设计,目前金融行业主流的灾备建设方案为以存储产品为核心实现灾备建设。建设总体原则是根据不同应用对性能和容灾的诉求进行存储选型,按HUAWVEI

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论