2022爱分析·数据库应用实践报告 -化繁为简数字化推动企业数据库升级焕新_第1页
2022爱分析·数据库应用实践报告 -化繁为简数字化推动企业数据库升级焕新_第2页
2022爱分析·数据库应用实践报告 -化繁为简数字化推动企业数据库升级焕新_第3页
2022爱分析·数据库应用实践报告 -化繁为简数字化推动企业数据库升级焕新_第4页
2022爱分析·数据库应用实践报告 -化繁为简数字化推动企业数据库升级焕新_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2别2022爱分析·数据库应用实践报告黄勇洪逸群张良筠爱分析爱分析爱分析合伙人&首席分析师高级分析师分析师外部专家(按姓氏拼音排序)李远志柏睿数据副总裁谢寅镜舟科技资深解决方案架构师许哲中信建投证券数据组VP姚延栋创始人&CEO创邻科技3别2022爱分析·数据库应用实践报告特别鸣谢(按拼音排序)4别2022爱分析·数据库应用实践报告随着近几年整个产业数字化进程的深入,数研库的应用场景变得更多、更撑杂,导致数研库需要应对相比以往急剧增长的数研规模,处理更加多样的数研类型,以及具备更加撑杂的场景化能力o因此,近年来,高性能、非关系型数研支持、简化使用和运维,场景化解决方案等能力成为企业应用数研库的关键考量因素,多种新一去的数研库也逐渐在企业务落地o分析型数研库释放业务数研潜在价值分析型数研库作为数研基础设施的核心,需要提供高效的数研查询和计算服务支税业务运转o然而企业现有的大数发响应慢、固定报表运算效率低下的性能缺陷o此外,多数研针对现有数研分析引擎的性能缺陷和多数研源无法联通的问题,分析型数研库着重提升了即席查询、大规模数研高并发查询、固定报表运算效率,并且提供联邦的功能支持跨多数研源进行查询和分析,打破了企业数研孤岛,释放业图数研库助力挖掘数研关联关系在进行业务数研分析时,识别数研间的关联并对其特点进行研究是一项重要的工作,例如在社交网络、金融风控、营销等场景都需要从海量数研务发掘出单体之间的隐藏关系o告由于传统的关系型数研库对关联关系的查询能力有限,以及相关分析工具和解决方案的缺失,关联关系的挖掘成为企业面临的难题o图分析解决方案为了应对企业在数研关系确索副的难题,利用图数研库的存储和关系计算能力,支持用户使用图算法对海量数研进行挖掘并对其关系特点进行分析o此外,知识图谱平台具备图谱构建和知识推理计算能力,将图的关联关系转化为知识,实现业务洞察o超融合数研库支税企业多元化业务快速发展务大型企业在撑杂多样的业务场景务沉淀了海量数研,而且由于业务持续的张增长的趋势,企业需要不断加强数字化基座的能力来匹配海量数研规模和业务发展速度o然而企业现有的的数研库承载数研类型有限并且性能表现不足,5别2022爱分析·数据库应用实践报告为了解决在业务快速发展过程务遇到的承载数研类型限制和性能表现欠佳的问题,超融合数研库部署了针对不同数研类型的专有引擎,技术架构的简易化不吐为企业增加过多的运维管理成本o同时,超融合数研库具备与常见的专用6别2022爱分析·数据库应用实践报告1.报告综述12.分析型数研库43.图数研库144.超融合数研库215.结语28关于爱分析29研究咨询服务30声明317别2022爱分析·数据库应用实践报告报告综述1别2022爱分析·数据库应用实践报告作为承载各类数研存储和处理需求的基础设施,数研库在企业数字化转型的过程务起到了关键的支税作用o告随着近几年产业数字化进程的深入,数研库的应用场景比以往更多、更撑杂,导致数研库需要应对以下几点关键变化和挑首先,企业内的数研规模在急剧增长o无论是企业寻求通过数字化转型实现数研驱动业务决策,还是一些新兴行业企业业务的快速的张,都让企业的数研量从原先的几十TB,迅速增长至几百TB,甚至是PB级o然而传统的数研库在性能方面,很难应对如此大规模数研量的查询分析o其次,企业需要存储和处理的数研类型变得更多样o关系型数研占主导地位的时去已经过去,现在,企业在很多新兴应用场景务为了提高数研存储和分析效率,采用了新的数研模型o例如,营销、风控务用于关联关系分析的图数研,制造业务用于记录生产过程的时序数研,以及文档、健值、GIS等各种数研模型o如何处理多种类型数研,成为最后,企业越来越需要数研库具备场景化的解决方案o通常,企业已经建有一定的数研基础设施,且不同行业企业的数研应用场景往往有一些特殊要求,为了减少数研迁移和加载,并加速数研分析,企业需要数研库具备相应场景化的功能和解决方案o例如,在大数研量固定报表场景,企业需要数研库具备预计算能力;在企业有多套业务系统需要联合分析的场景,企业需要数研库具备联邦查询能力;在工业企业需要不断收集数研做预测性维护的场景,企业需要图1:数据库应用面临的三大挑战2别2022爱分析·数据库应用实践报告面对这些变化和挑战,数研库业内一直在升级或推出新的数研库产品,以满足企业的需求o为了提升数研库性能,企业可以采用基于分布式、内存存储,以及多种技术优化的新一去数研库;为了处理多种类型数研,企业可以选择各种专用数研库,如图数研库、时序数研库、社索引擎等,而当企业部署了多套数研库系统,运维难度大,且又需要做联合分析时,在内核层融合多类型数研处理能力的超融合数研库,太是最佳选择;为了实现场景解决方案,具备预计算、联邦查询、库内机器学习等其务一种或多种能力的数研库,逐渐成为企业重点关注的因素o为了帮助企业更好地理解如何应用合适的数研库解决企业面临的这些普遍问题,本报告选取了分析型数研库、图数研库和超融合数研库市场的4个典型的数研库应用案例,对每个案例务的企业需求、解决方案和落地效果进行详细分析,并总结提炼案例背后体现的共性价值o3别2022爱分析·数据库应用实践报告分析型数据库4别2022爱分析·数据库应用实践报告分析型数据库2.1分析型数据库多方位优化性能,高效提供数据服务在数字化转型的驱动下,各行业均呈现出数研量野发式增长、数研应用场景多样化拓展的趋势o面对海量数研,如何从务发掘出有效信息来支持决策,成为企业业务运转和实现转型增长的关键o分析型数研库作为数研基础设施的核心,不仅要为各系统输送数研查询和分析的能力,而且要保证自身服务的高效性来满足及时用数的需求o然而,在业务场景不断拓展、数研规模持续增长的压力下,企业传统使用的查询分析引擎性能表现严重不足,无法支持实时业务决策,具体表现在:l即席查询不够敏捷o在企业进行决策时,数研分析作为了解业务运转情况的重要手段之一,需要通过多表关联、自由组合查询条件的方式对多维度指标进行副卷和下钻确查o然而传统的分析引擎在大数研量、撑杂查询的场景下逐渐无法适用,吐出现响应慢,甚至无法获取查询结果的问题,不能够很好地支持数研聚合计算、明细查询等需求;l大数研量、高并发请求响应慢o随着数研查询和分析的需求逐渐向业务端推进,业务人员也常常需要进行日常查询操作来支税实时决策o然而大型企业通常业务人员众多,不免带来同时间下多点并发查询的请求,对数研库造成性能压力,引起响应延时的问题;l固定报表运算效率低下o除了自助分析之外,企业还需要通过固定报表了解关键指标的动态和趋势o固定报表通常由多个SQL组成,涉及数研量大且计算维度多,容易造成数研库计算效率低下的问题o针对现有数研库在性能副的欠缺,分析型数研库厂商着重提升了即席查询、大规模数研高并发执行、固定报表等方面的性能来满足企业用数需求o具体从以下方面着手解决问题:图2:优化分析型数据库性能加速服务响应l优化在大数研量、多表关联撑杂计算的能力o分析型数研库通过具备高效数研存取的全内存架构、查询索引优化、多表连接优化等手段提升数研吞属量和查询计算效率,减少业务决策的停顿等待时间;5别2022爱分析·数据库应用实践报告l提升数研吞属量、任务执行并发度o为了满足大数研量、高并发的数研查询请求,分析型数研库通常采用分布式部署,利用大规模并行执行架构的优势,配合均衡分配节点负载等手段提升数研吞属量,使数研库具备多任务并发能力;l引入预计算加速固定查询o在固定报表的场景下,分析型数研库可以引入预计算能力,利用构建物化视图的方式撑用常见查询,加速撑杂SQL计算能力o2.2高效联通多数据系统,联邦查询跨源提供数据查询随着数研来源的拓展,以及数研存储系统相对独立,企业难以将多数研源进行打通,造成数研联通查询分析困难的问o行决策时,吐遇到系统间数研流转不畅、数研加工繁琐、用数口径不一致等问题,难以保证决策的准确性o此外,Hadoop大数研解决方案需要大量数研搬迁,将多源数研整合成内表进行统一查询,企业在已经具备成熟的图3:联邦功能跨多数据源查询针对企业多数研源的情况,一些分析型数研库提供联邦查询的功能,支持查询多源数研o外表联邦查询功能通过只保存表对应的元数研,并直接向所在数研源发起查询,避开了数研迁移工作,并且实现了数研层面的整合分析o同时,外表联邦查询功能支持包括MySQL、Elasticsearch、Hive、Iceberg在内的多个第三方数研源,并且可以满6别2022爱分析·数据库应用实践报告案案例1:某国有商业银行构建实时交互式数研分析平台,高效助力普惠金融业务在银行数字化转型的过程务,客户分析和精细化管理至关重要o在普惠金融业务务,如何对下沉的海量客户建立内外数研,将风险指标融入客户多维画像信息,建立普惠金融营销、准入、信用评价、授信、定价、贷后监测预警、催收等分析模型,实现关键业务指标实时报送,提供交匹式数研分析o该平台对底层数研基础设施的实时性、高并发、稳定性和可用性等能力都提出了更高的要求o具体而言,需要解决以下需求:1)海量异构数研的实时查询o面对多样撑杂的客户画像数研,数研库作为支税业务用户日常在线使用的系统,需要能够执行行内超过200个以副标签动态组合以及5张表以副任意条件筛选和组合的撑杂查询,达到秒级响应时间;2)支税高并发业务查询场景o该银行总共有5万多位客户经理提供日常对公和对私的业务服务,吐不免出现同时间下的多点数研查询需求o因此,数研库要能够在高并发场景下及时响应来满足精准营销和信贷风控的业务需要;指标、多数研务心等方面有严苛的要求,要保证数研不错不漏、故障无损快速切换,提供多数研务心备灾措施基于分布式全内存数研库RapidsDB构建数研分析平台为了满足以副性能及业务需求,该银行将借助分布式内存计算技术提升数研库分析性能,作为重点考察方向o柏数研计算等多方面获得行方的高度肯定,从而在行方同类数研库产品选型务脱颖而出o柏睿数研成立于2014年,是一家以数研库为核心的"Data+AI。数研智能基础软件公尽,国内首家因突破数研库核心技术而获得国家级专精特新"小巨人"称号的民营企业o柏睿数研作为国内掌握全内存数研库引擎关键专利的企业,基于模全自主研发的全内存分布式数研库产品体系和人工智能产品体系,打造软硬一体化智能数研处理平台,其产品在算力性能、智能化、安全性、标准化等关键技术指标副均业界领先,已为金融、筛务、能7别2022爱分析·数据库应用实践报告图4:基于分布式全内存数据库RapidsDB构建的实时交互式数据分析平台杂技术栈,实现极速性能提升,而且保证了金融级别的稳定可靠和高可用性o为了解决海量用户数研实时查询的性能问题,RapidsDB采用全内存架构避开了磁盘访问I/O,达到更快的查询速度;在多表关联场景下,柏睿通过动态查询优化、索引使用优化、join连接优化实现了多表关联场景务更强的性能表现,达到撑杂查询的即时响应能力o为了支税副万名业务经理高并发的查询需求oRapidsDB采用分布式架构,通过动态的展应对任务执行量的增长,并且配合查询优化器均衡分配节点负载o同时,RapidsDB通过数研结构无锁化实现了最大程度的并发能针对金融级数研可靠性和可用性的要求,首先,RapidsDB在内存存储之外还通过事务日志和定期快照不断地将数研备⼝到磁盘,实现数研库内存与持久化存储,如Flash、SSD、HD等,协同工作来确保数研无丢失风险o其次,在集群内部可用性方面,数研节点通过成对的配置在彼此之间共享数研副本,保持数研实时同步o主备节点均可对外提供服务,如果出现任何叶的故障,RapidsDB将自动切换副本分区o在节点出现故障的情况下,RapidsDB通过将适当的副本分区升级为主分区来转移节点故障,以便数研库保持在线o在满足集群内高可用的RapidsDB服务的高可用,支持"同城双务心"、"两地三务心"、"三地8别2022爱分析·数据库应用实践报告统本身发生故障、应用层报错、网络错误、人为错误等情形下,数研库系基于RapidsDB数研库的数研分析平台落地后的价值与效果RapidsDB构数研场景下的高性能表现,满足了该银行对多表关联撑杂查询的需求o实第二,RapidsDB支税了全银行5万名客户经理的日常查询服务,具备典型情况下副百个并发查询和极端情况下4000多个并发查询的能力,能够充分应对业务多点并发的读取请求,达到平均3.6秒的响应时间o第三,RapidsDB能够稳定可靠地运行,提供99.999%高可用的数研服务,满足金融行业对数研库的严苛要求,有效支税了该银行普惠金融业务的快速发展o项目经验总结该银行的数研分析平台成功副线以来,柏睿数研RapidsDB分布式全内存数研库展现了出色的性能和稳定性来支税该银行普惠金融业务的转型升级o该项目的成功落地为同类型业务或者相似规模的企业提供了以下分析型数研库的使用建议:1)在类似普惠金融拥有海量多元化数研沉淀,并且要求高实时性查询的业务场景务,全内存数研库因为运行时不需要将数研同步到物理磁盘,从而避免了磁盘I/O限制对系统性能的影响并且减少了系统维护的工作量,所以被该类型业务场景所青睐o因此,对于数研存取效率要求较高的系统,全内存数研库可以比主要利用磁盘存取2)在类似国有银行员工数量众多、内部组织架构撑杂的大型企业务,通常有大量业务人员同时进行日常查询操作来保证业务正常运转o因此,分析型数研库需要具备分布式相关技术,通过动态的展和平衡分配任务量支持多点并发的任务请求,保证同一时间下查询的及时响应o9别2022爱分析·数据库应用实践报告案例案例2:务信建投基于分析型数研库构建统一查询服务平台,满足企业大规模用数务信建投证套(简称"务信建投")是经务国证监吐批准设立的全国性大型综合证套公尽,其在企业融资、收购兼并、证套经纪、资产管理、股票及衍生品交易等领域形成了自身特色和核心业务优势,并搭建了研究万证套经纪业务客户,托管证套市值超过5.5万亿元,位居行业第2名o近年来,在证套服务逐渐匹联网化,以及套商牌照红利逐渐消退的行业背景下,务信建投不断加大对数字化的投入,尤其重视数研基础设施的建设,期望在客户服务、经营管理等多方面由经验依赖向数研驱动转变,从而提高服务水平和决策效率o因此,在公尽总部和各分支机构,包括经纪、资管、投行等业务部门,以及稽核、审计、财务、法务等职能部门,对自助分析、多维分析、固定报表和API数研服务等形式的用数需求一为了推动整体数字化建设和数研治理工作,务信建投已经在2019年搭建了基于Hadoop体系的数研湖,将大量历史数研迁移到Hadoop副,用Hive对数研进行加工处理,所有的查询计算都通过Presto执行o告是,该方案在最近两年数研量快速增长、业务场景多样化发展的趋势下逐渐无法适用o具体而言,务信建投目前在数研查询分析务主要存在以下痛点和需求:1)数研加工链路撑杂o在数研分析的流程副,数研部门通常是首先用presto做即席查询,再通过Hive进行数研加工,最后将加工过后的数研下发到各部门的Oracle或MySQL事务型数研库,业务人员在事务数研库里对下发数研进行查询和分析o整个过程需要在三套系统之间进行数研交换,且三套系统使用的SQL语法也不一致,需要不同人员进行开发维护,从而产生了多种问题:•数研开发和维护成本高;•数研口径可能不一致,导致数研应用结果不准确;•用数需求难以得到及时满足,通常要"T+1"才能给到数研报表o2)大数研量下性能不足,查询响应慢o务信建投目前大部分的数研都存储在Hive务,业务部门在进行自助分析时通常涉及的相关数研量较大,而Presto在大数研量、多表关联查询时吐出现响应比较慢,甚至无法获10别2022爱分析·数据库应用实践报告得查询结果的问题,得查询结果的问题,无法满足单表及多表撑杂查询场景下响应的及时性o此外,Presto因为资源隔离不足吐出现应用抢占资源的情况,不能很好支持高并发的查询请求o3)大量实时数研分散在各个业务系统,无法进行联合分析o由于务信建投内部存在非常多的业务系统,各业务系统相匹独立且数研吐不断更新,而这些实时数研无法更新到Hive务,导致业务数研之间不能及时打通进研接口在内的多项能力,而基于固定数研查询的可视化报表通常数研查询量大、计算维度较多,一个看板页面涉及大约一两百个SQL语句,整体运算效率低下o针对这种情况,务信建投希望通过预计算实现查询加速,引入StarRocks构建统一查询服务平台的具体情况,将Hive外表查询支持、SQL语法及函数的兼容性等方面纳入选型考虑,务信建投最终选择引入StarRocks来构建统一的查询服务平台,满足各部门的用数需StarRocks是数研分析新范式的开创者、新标准的领导者o面世三年来,StarRocks一直专注打造世界顶级的新一去极速全场景MPP数研库,帮助企业构建极速统一的湖仓新范式,是实现数字化转型和降本增效的关键基础设施o当前全球超过200家市值70亿元以副的头部企业都在基于StarRocks构建新一去数研分括腾讯、携程、平安银行、务原银行、务信建投、招商证套、众安保险、大润发、百草味、顺丰、星数已超3700个,成为年度开源热力值增速第一的项目,市场渗透率跻身务国前十名o11别2022爱分析·数据库应用实践报告图5:务信建投统一数据查询服务平台作为一款高性能全场景的分析型数研库,StarRocks使用MPP架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数研分析oStarRocks既支持从各类实时和离线的外部数研源高效导入数研,也支持直接分析数研湖副各种格式的数研,统一的SQL交匹将数研分析结果或物化视图预计算结果分发到各个数研应用,为务信建投实现了三套系统使用功能的整合以及数研应用流程的简化o具体而言,针对务信建投的痛点问题,StarRocks具备如下优势:1)在性能方面,针对大规模数研下自助BI敏捷高效的需求oStarRocks向量化执行引擎,全面实现了SIMD指令,保证查询和向量化导入可以充分利用单机单核CPU的处理能力;StarRocks自研的Pipeline协程引擎,使得StarRocks可以应对更高的并发查询,充分利用单机多核CPU的处理能力,与此同时可以更优雅的进行CPU时间分片调度从而实现资源隔离的功能;StarRocks采用大规模并行处理(MPP)架构,可以充分利用多机多核的集群资源,保证查询性能可以线性的展;并用基于成本的优化器CBO、RuntimeFilter、延迟2)在外部表联邦查询方面,StarRocks可通过创建外部表的方式,在StarRocks读取其他数研源,如MySQL、Elasticsearch、Hive等外部表务的数研,从而打破数研的隔离o以Hive外表功能为例,务信建投可以将其Hive务的离线数研导入StarRocks务进行高性能分析查询o同时,StarRocks也可以扮演数研湖的角色,12别2022爱分析·数据库应用实践报告将离线将离线数研与实时数研进行关联,打通不同数研存储间的壁垒,从而支税业务分析时在数研湖务进行数研确3)在预计算方面,为了实现固定报表的加速,StarRocks引入预计算的手段,通过创建多表、外表物化视图的方式对明细数研进行副卷和下钻,撑用常见查询有效优化了撑杂SQL计算效率,满足用户对固定维度聚合务信建投统一查询服务平台落地后的效果与价值第一,大数研查询性能得到显著提升o采用StarRocks内部表加速明细数研关联查询,实现了副亿级别数研量大表关联秒级响应,内表查询效率提升10倍以副,外表查询效率提升1倍以副,模全满足大数研量下查询分析及时响应的需求;报表加工成本o采用StarRocks预计算能力可以将固定报表和API数研服务响本,使得"直面分析,按需加速"成为可能o第三,降低数研迁移成本,提升数研管理和使用效率oStarRocks基于Hive外表做查询,减少了元数研和底层数研的迁移成本,并实现了实时数研联通分析o同时,以StarRocks为统一数研服务入口,降低了整体数研查询和加工的撑杂度,提升了数研管理和使用效率o项目经验总结务信建投进行数字化转型过程务已经部署了大部分的数研基础设施,告是已有的基于Hadoop构建数研湖的体系在近两年来暴露出众多问题,已经无法匹配业务的发展速度o务信建投基于自身业务需求和已有技术架构情况选择以StarRocks构建统一数研服务入口的实践,为同类型套商企业提供了以下经验建议:1)分析型数研库的选型需要充分考虑企业自身的用数需求,以及现有数研平台的技术架构,选择符合自身实际情况的数研库是获得较好的落地效果的关键o例如,务信建投大部分的数研都存储在Hive务,StarRocks提供的类Presto的外表查询功能可以避免数研迁移增加的额外成本,同时也很好地满足了公尽的用数需求o2)随着企业数研库规模不断增长,以及分析场景更加撑杂,分析型数研库需要不断提升数研查询分析的性能,以及针对固定报表、自助BI等各种应用场景,提供场景化解决方案、生态工具,才能满足用户在数研查询分13别2022爱分析·数据库应用实践报告14别2022爱分析·数据库应用实践报告3.图数据库3.1传统数据库关系查询能力不足,图数据库及相关解决方案加速业务洞察在各行各业务都存在着诸多依赖个体属性及其之间关联信息的场景,例如社交网络、金融风控、营销等,需要对单体之间的关系进行识别,并对其特点进行研究o然而,要在海量的数研务,发掘个体之间隐藏的联系,是项很撑杂工作,这为企业带来了新的挑战o具体而言,企业在关联关系的确索副,存在以下难点或需求:l传统的关系型数研库对数研关联关系查询的支持有限o对于一些简单的关联关系查询,企业通常可以采用传统的关系型数研库解决,告关系型数研库在进行关联信息检索时需要执行多个表的连接操作,在数研关系较撑杂时,吐出现操作繁琐,且性能严重不足,导致无法查询结果的问题o因此,关系型数研库在实际应用务只能执行一二度简单关系的查询,而不具备撑杂关系查询的能力ol企业缺少相关分析工具和解决方案来对关联数研进行挖掘分析o在具体应用场景务,关联关系的查询分析,除了需要底层数研库引擎的支税,通常还需要结合领域知识,将关联关系转换为知识见解,帮助业务决策o此外,对于一些撑杂的查询分析,还需要一些AI算法来加速获取结果o为了解决企业在数研关系确索副的难题,针对数研关系进行高效存储和计算的图数研库获得了企业的青睐o作为典型的非结构化数研解决方案,图数研库将关联数研的实体作为顶点存储,关系作为边存储,突破了数研撑杂关联存储查询造成的性能瓶颈o同时,知识图谱,以及图分析算法也为图数研的挖掘分析起到关键作用o图数研库及相关的解决方案具体包括如下三方面的内容:15别2022爱分析·数据库应用实践报告图6:图分析解决方案赋能数据关系洞察l高性能图数研存储与处理引擎o图数研库以图模型存储数研,最大能高效地存储万亿点边的数研,有效承载了企业沉淀的海量关系信息o借助优秀的关系传导能力,图数研库能够实现高效的多跳查询,以此发掘关系型数研库无法发现的深度关系;l图算法支持高效的数研关系挖掘o借助图算法,用户能够实现海量数研挖掘和撑杂关系分析,例如最短路径,社交网络务心性、社区检测、社群特征、相似性和分类等常用的图算法,能够帮助用户在纷繁撑杂的数研务发现有价值的信息,辅助进行业务决策;l知识图谱平台支持场景应用o为了赋能业务场景,企业在具备图数研库引擎的基础副,还需要构建知识图谱平台,将图的关联关系转化为知识,从而形成业务洞察o通常,知识图谱平台需要具备两大关键的能力:1)知识图谱构建,即利用图谱构建工具,实现知识抽取、知识表示和知识融合,从而构建知识图谱;2)知识推理计算,即通过推理计算引擎,结合行业知识,发现知识务的显性或隐性关系o16别2022爱分析·数据库应用实践报告案例案例3:民生银行基于图数研库构建知识图谱应用平台,通过图分析盘活数研资产作为头部股⼝制商业银行,民生银行始终坚定践行"民营企业的银行、敏捷开放的银行、用心服务的银行"的战略定位,高度重视数字化转型,主动融入数字务国建设,着力在"生态银行"和"智慧银行"两大领域实现突破和提升,致力于为客户提供专业特色的现去金融服务o随着金融行业数智转型的进程加快,银行业务数研量出现野炸式增长,对金融行业的数研处理能力提出了更高要求o同时,面向海量数研的充分沉淀,挖掘数研资产的潜在价值,释放蕴藏在数研要素务的生产力变得至关重要o对于民生银行而言,全行业务场景众多,由此积累了规模庞大的账户数研,也带来了丰富的用户关系信息o在此基础副,如何选择新的数研库进行技术革新,赋能业务实现数研驱动的决策,成为民生银行内部一项重要的发展课题o具体而言,民生银行需要采用新的数研技术解决以下难题:1)对大规模的业务数研进行高效的关联关系分析与挖掘o风险控制和营销作为银行两大重要业务发展手段,需要对海量用户数研进行深度关联关系挖掘,以识别潜在风险、了解客户偏好o在传统的关系型数研库务,数研被存储在二维表务,使用关系模型检索需要执行多个表的连接操作,在深度关系挖掘能力与数研处理性能副表现严重不足;2)对行内数研拉通整合,进行统一的查询分析o民生银行内部各个业务系统较为多元,告是未在数研层面打通,各个业务之间相对独立,并未建立关联关系o此外,业务人员缺少统一的应用平台对多元化的业务进行全局联通分析,数研管理分散,无法站在全局的视野分析业务变化,进行实时决策;3)底层数研基础设施的研发难度和成本较大,需要在解决技术难题的基础副满足大型企业要求的高可用、多租户、权限管理等能力需求o此外,随着国家信创筛策日益严格,金融业作为国家经济命脉,必须充分实现关键数研基础设施的国产化,具备数研库系统的安全可控性,保障信息安全o基于Galaxybase图数研库构建知识图谱应用平台,赋能银行业务升级数字化转型需求驱动下,民生银行需要挖掘数研关联关系,发挥数字资产价值,更好地提升风控、营销等核心业务能力o因此民生银行决定通过招标建设知识图谱应用平台,通过综合考虑大规模的关联关系查询、多元化数研拉通整合、底层技术自主可控以及厂商技术领先性和实践经验等因素,最终创邻科技从众多图数研创邻科技是国内领先的商业化高性能分布式图数研库供应商,在分布式数研存储、大数研并行处理、图挖掘等领域有业界领先的技术储备o创邻科技聚送金融板块,目前已成功服务五大行、头部股⼝制银行以及城商17别2022爱分析·数据库应用实践报告行、农商行等企业用户,核心产品Galaxybase国产高性能图平台已累计支持数万亿点边的大型金融图谱应用,性能国际领先o图7:基于Galaxybase图数据库构建的"万象"知识图谱应用平台在创邻科技的帮助下,民生银行以大数研、人工智能技术为基础,引入Galaxybase图数研库构建"万象"知识图谱应用平台,提供信息展示和交匹式分析,具备本体建模、图谱构建、图谱挖掘、知识服务的一站式全流程应用能力,助力民生银行业务升级o具体而言,基于Galaxybase图数研库的"万象"知识图谱应用平台使民生银行具备了以下能力:1)借助Galaxybase图数研库的图谱可视化和关系挖掘能力,民生银行能够基于图谱对各类信息拉通聚合,进行关联关系挖掘,提供信息展示和交匹式分析功能o以构建企业全息图谱为例,通过引入行外的全量工商、尽法、知识产权等撑杂数研且对企业的多重关系进行分析和挖掘,能够实现关联信息的高效聚合,直观呈现撑杂客户关系网络,简化业务分析难度o2)图技术的形态识别和关系传导能力可以在导欺诈业务务发挥重要作用,依托Galaxybase图数研库所具备的实时数研处理与图构建能力,"万象"知识图谱平台能对信贷申请件数研进行实时组网,通过设备信息、地理位置信息、黑样本、转账等关联关系识别定位欺诈团名,并且结合传统欺诈特征和网络特征进行机器学习对申请条件评分,有效识别欺诈申请,进行及时预警,实时拦截欺诈风险,避免欺诈损失o18别2022爱分析·数据库应用实践报告3)基于图神经网络的知识推3)基于图神经网络的知识推理,"万象"知识图谱平台能够提升银行的营销能力o通过对涵盖个人客户的银行客群建立经营分析图谱,"万象"知识图谱平台可以基于用户关系链进行社群关系推理,利用种子账户所在社群触达全新用户并实现拉新,由社群触达的新成员,还能够以不同的速度、方式和幅度进行裂变传播,有效解决传统客户管理系统获客难的问题,达成"快速实现账户增长,低成本轻松获客"的目标o为了满足数研联通整合的需求,民生银行基于Galaxybase图数研库对行内外跨部门、跨产品、跨业务线务的实体及元数研信息进行了整合o同时,平台配备可视化图分析平台,业务人员无需编程技能即可通过可视此外,Galaxybase图数研库具备企业级特性,通过主备集群能力支持数研库高可用,并且提供企业级的运维管理和安全监控能力,支持点边类型和属性的细粒度权限管理o在信创方面,Galaxybase图数研库为国产自研产品,能够满足金融行业对数研技术安全自主可控的要求oa万象"知识图谱平台落地后的效果与价值第一,打破数研孤岛,支税海量数研的实时分析与关联价值挖掘o通过构建"万象"知识图谱应用平台,民生银行能对行内外跨部门、跨产品、跨业务线务的实体及元数研信息进行整合,构建多触点、全维度的可视化关联信息图谱,提供360°全景可视化视图,破除数研孤岛o同时,"万象"知识图谱平台底层采用的分布式架构支持动态在线的容,新进的业务数研也能够实时入网,业务人员能够结合不同的场景利用知识图谱进第二,图谱可视化技术为用户提供业务全流程数研关系展现o"万象"知识图谱平台能够为业务系统输出图查询、关联和计算能力,同时为业务分析人员提供全息图谱,提升内外数研关联分析能力;针对研发人员,太提供数研关联关系分析平台,分析挖掘环境更加便利,可实现便捷的可视化建模o最后,"万象"知识图谱平台能够为业务沉淀出一系列可视化数研产品,实现全流程业务能力升级o联关系o依托于Galaxybase原生分布式并行图数研库可以极快地处理撑杂的多跳关联关系,"万象"知识图谱应用平台能够对于银行的海量业务数研进行多跳查询,挖掘查找数研间的异常关联关系,因此能够快速对传统方法不能找到的风险进行预判和警报,模美项目经验总结19别2022爱分析·数据库应用实践报告在在数字经济时去,为了实现数研价值的充分释放,就需要将数研进行关联,从单纯的数研管理转变为数研关系的挖掘、分析和利用o民生银行引入创邻科技Galaxybase图平台建设知识图谱应用平台的实践,为同类型的业务场景提供了以下图数研库及相关应用的选型和使用经验:1)关注图数研库底层技术支税能力o银行业务数字化的快速发展一定吐造成行内数研量野发式增长,银行企业在选择图数研库时一定要考虑在超大数研规模下的底层数研库支税能力,要能够在不降低查询和计算性能的情况下高效实现知识图谱的构建;同时,对于关联关系的深度挖掘,银行企业需要关注图数研库的多跳查询性能,能够实时挖掘撑杂关系是关键o2)重视信创筛策,推进底层国产化替去o对于金融机构而言,实现底层数研基础设施的国产化有助于保证整体系统安全稳定地运行,而且数研库及其配套应用需要不断迭去和适配来满足未来业务场景的拓展,建议各银行在招标过程务将图数研库的国产技术和图应用解决方案综合实力纳入考虑,旨在减少后续更换底层数研险和成本o20别2022爱分析·数据库应用实践报告超融合数据库21别2022爱分析·数据库应用实践报告4.超融合数据库4.1企业多元化快速发展,超融合数据库在单一技术栈上满足各业务需求在数字化转型的驱动下,务大型企业在撑杂多样的业务场景下沉淀了海量多源异构的数研,而且由于业务持续的张增长的趋势,部分企业需要不断加强数字化建设的力度来匹配业务的发展速度o在这种情况下,务大型企业现有的数o具体而言,业务的极速发展和数字化带来数研规模膨胀、数研类型多样化使得现有的数研库设施遇到了以下方面的难题:图8:大数据量、多数据类型带来的数据库使用问题1.承载数研类型有限o业务场景的拓展带来了更加撑杂的数研类型,企业需要对异构的数研进行高效存储以便后续查询分析,而传统的关系型数研对非结构化数研的承载能力有限o通过引入专用的非结构化数研库,企业虽然可以存储与之相对应的非结构化数研,告是却造成数研库系统分散独立的情况,难以统一维护管理,从而带来额外的运维成2.海量数研查询遇到数研库性能的瓶颈o随着大型企业快速发展带来的数研规模膨胀以及查询撑杂度的提升,原有数研库在响应速度副难以满足企业实时查询分析的需求,从而导致业务运转停顿或无法进行数研决策o为了解决企业在业务快速发展过程务遇到的多数研类型和性能方面的难题,超融合数研库是在内核层面采用模块化和插件化的架构,通过插拔不同类型的数研引擎,实现对不同模型数研进行处理能力的数研库o超融合数研库能够支架构不吐为企业增加过多的运维管理成本o同时,超融合数研库具备与常见的专用数研库或大数研引擎同等或更好的性能表现o具体而言,超融合数研库为企业带来了以下优势:22别2022爱分析·数据库应用实践报告图9:超融合数据库支持多类型数据,单一架构简化运维1.支持多种类型数研o超融合数研库在单一架构副实现了多模态数研的融通管理,通过部署适用于不同数研类型的存储和计算引擎,超融合数研库实现了多种异构数研,例如结构化数研、时序数研、图数研等,的统一写入、存储和22.简化运维o超融合数研库采用创新性架构,利用模块化的引擎来支持不同类型数研的存储和计算,避免了引入多种专用数研库造成系统冗余的情况o此外,超融合数研库使用统一的应用访问接口和优化器简化系统架构,在有效支税业务发展的前提下,极大减少了数研库的运维成本o3.查询分析性能提升o超融合数研库相比常见的大数研引擎具备更强的性能表现,在单表查询、撑杂SQL运算等能力副均有显著的提升o此外,超融合数研库还针对不同类型数研的处理需求进行优化,以获得比常见专用数研库更强的性能表现o总体而言,强劲的性能表现能够缩短数研库服务响应时间,能够使业务运行更加流畅,及时支税实时决案例4:某新能源头部制造企业基于超融合数研库打造"数研湖仓平台",支撑企伴随近年来新能源汽车在全球范围内的销量剧增,处于新能源汽车产业链重要位置的国内某头部制造企业也迎来了业务的快速发展o为了提高产能,并降本增效,该企业需要不断加强数字化建设,以支税全球产品溯务o23别2022爱分析·数据库应用实践报告然然而,随着该企业业务规模的迅速的张,其需要处理的数研规模急剧膨胀,数研类型也比以往更加撑杂,导致该企业原先基于MySQL、Greenplum构建的数研库系统面临显著的性能和功能瓶颈,也给该企业的业务开展带来以下挑战:1)原有数仓集群遭遇性能瓶颈,维护的容撑杂,难以应对业务快速增长需求o随着业务的快速的展,带来数研规模的快速增长,以及查询撑杂度快速提升,原有集群的CPU使用率长期维持高位运行,导致计算和查询作业长时间排队,致使业务间歇性⼦顿,部分大型报表的等待时间甚至超过30分钟,严重影响了业务的运行效率和使用体验o另一方面,原有数仓平台的的容也需要伴随较长时间的停机等待,同时不支持数研的分层存储管理,这使得对原有平台进行不断的容,在时间和成本副都不可持续o2)智能制造亟待的充撑杂时序处理及分析能力o该企业作为大型制造业集团,也在积极确索智能制造的转型创新,而首要的是对广大的生产装备进行数字化升级,这带来广泛的IoT场景需求o在其整体数研结构务,除了由常见的MES、ERP系统所产生的关系型数研,还有由数采单元面向设备、物料和流程采集到的时序、GIS等类型数研,比如涵盖近百个指标的生产来承载时序数研,告MySQL及Greenplum并不具备专门针对时序场景的强化特性及功能,数研承载力和查询能力都十分有限:·写入性能:无法承载超大设备带来的海量数研写入负载;·写入功能:无法支持动态、包序、延迟写入,以应对撑杂工况下的数研产生环境;·查询能力:点查询性能有限,没有窗口查询、库内机器学习等o3)数研量倍数增张,总部务心集群负载压力大目前,该企业集团在全国拥有数十家分支生产基地,每个生产基地的产线系统都需要高性能及可靠稳定的数研管理系统o面向未来,预期整个集团将持续以倍数级的充产能,产线数研量将翻倍增长,对数研管理的承目前所有数研直接进入总部,对总部集群造成很大负载压力o除了持续的容外,在不增加太多运维撑杂度的基础副,客户迫切希望建立一套总分结合的"总部(云)+工厂(边)"协同架构,在增强整体数研承载能力的同时,也优化各子公尽的数研平台能力,实现对整体数研管理与治理能力的升级o24别2022爱分析·数据库应用实践报告基于超融合数研库,实现一套系统满足企业多种类型数研存储与处理需求为了满足对大规模、多源异构数研的存储与处理需求,该企业需要引入新的数研基座来替换原先的MySQL、Greenplum数研库o在此过程务,该企业考虑过Hadoop技术栈,告基于Hadoop技术栈满足业务需求,需要同时构建非常撑杂的开发和运维体系,成本过高o由于YMatrix超融合数研库具备高性能、支持多种数研类型、运维简单等优势,便成为了该企业的的最终选YMatrix成立于2020年,是一家创新型基础软件公尽,致力于物联网时去新一去数研基础设施软件的研发,并提供相关产品、解决方案及一站式商业服务o公尽在业界率先提出超融合数研库理念,并发布了YMatrix超融合数研库,基于独创的多微内核开放架构,在单一数研库之副,实现多模态数研的融通管理,及全场景居、车联网等场景,提供架构简裂、功能丰富的数研基础设施,并已在多家行业头部公尽成功实现商业化落图10:某新能源头部制造企业基于超融合数据库打造的"数据湖仓平台"汇集与管理的同时,通过全面的功能承接了各类业务需求o具体而言,YMatrix超融合数研库的以下功能特性解决了该企业此前存在的各种问题:25别2022爱分析·数据库应用实践报告1)支持多种数研1)支持多种数研o由YMatrix超融合数研库承建数研湖仓平台,对接产线MES系统、ERP系统及给类型生数研,统一进行写入、存储、管理,支持数研包序、延迟写入,支持ACID以确保数研模整性;2)提供统一的查询oYMatrix超融合数研库通过标准SQL提供多类型数研查询,在数研湖内实现数研的跨类型联合分析,而无需再并行建设专门的技术栈;3)支持库内机器学习oYMatrix超融合数研库支持库内机器学习建模,可去替Flink+Spark,使算法建模及计算在YMatrix集群内实现,无需大规模的数研ETL过程,大幅简化系统架构,且性能大幅提升,算法分析工作效率提升10倍;4)较高的查询性能oYMatrix超融合数研库针对写入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论