存算分离架构：加速电信行业数据处理驱动业务创新

上传人：策*** IP属地：山西上传时间：2024-08-13 格式：DOCX 页数：56 大小：3.77MB 积分：19.9 举报 版权申诉

已阅读5页，还剩51页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

存算分离架构加速电信行业数据处理，驱动业务创新吴昊｜北京酷克数据科技有限公司公司概况2016年3月，酷克数据成立。公司由Greenplum和ApacheHAWQ的三位核心研发人员创立，专注于云端数据仓库等数据平台类产品研发。公司总部位于北京，在上海、广州、深圳、天津、武汉、杭州、新加坡/洛杉矶（筹）等地设立分支机构。专注云化技术路线：16年开始专注投入云原生技术路线（创新性采用元数据、存储、计算三层分离架构），充分利用云平台近乎无限的存算资源，及弹性伸缩特性，以更低成本，更快的速度对越来越多样的数据进行越来越复杂的分析，让数据能够便捷高效的流动、交易、融合；拥有顶级团队成员：核心团队主要由来自Pivotal、Teradata、IBM、Yahoo!、Oracle和华为等公司资深的云计算、分布式数据库和大数据专家组成；服务众多知名企业：服务运营商、金融、央企、互联网等行业头部客户，包括中国移动、中国联通、中国电信、建设银行、中国银行、中国石油、招商局等世界级企业，其中最大客户规模约3万个节点。研发实力信创实力1.作为国内领先的数据库研发企业，早在2020年酷克数据便启动了信创工作，建设了完善的信创生态：•2020年酷克数据与华为云鲲鹏云实现了兼容性认证；•后续又完成了麒麟操作系统认证、飞腾芯片兼容性认证、欧拉操作系统认证、统信操作系统认证。并与芯片、中间件、应用软件、硬件等生态上下游厂商保持紧密的协同合作，构建完善的生态体系；2.借助完善的生态，酷克数据帮助多家企业完成了信创化改造：•中国联通湖仓一体数据平台项目：鲲鹏/X86+麒麟/统信；•中移在线营服数据处理平台项目：鲲鹏+欧拉；•国家金融监督管理总局监管报送项目：鲲鹏+麒麟；•建设银行云计算平台国产化一期试点项目：鲲鹏+统信、飞腾+麒麟；•中国银行数据纵横平台推广项目：鲲鹏+麒麟。3.2021年底酷克数据正式加入信创工委会，积极参与信创活动。IDhyIDhytium飞腾HYCGONXSKYXSKY数据平台建设面临的主要挑战数据洞察不再依存于基于复杂模型的抽样理论，而是基于全量数据进行分析，进行全量计算，降低对复杂模型的依赖；运营商积累了海量多源的数据，并且意识到基于这些数据需要深刻的洞察，挖掘出未曾有过数据洞察不再依存于基于复杂模型的抽样理论，而是基于全量数据进行分析，进行全量计算，降低对复杂模型的依赖；运营商积累了海量多源的数据，并且意识到基于这些数据需要深刻的洞察，挖掘出未曾有过大数据时代，同时伴随移动互联网的发展，之前无法想象的海量数据进入运营商的数据处理平台。Level4数字经营，建立差异化的业务优势LevelLevel3构建互联网化的运营能力LevelLevel2解决特定业务领域问题Level1大数据技术解决单点业务问题传统数据库架构难以满足当前数字化转型需求产品架构老数据新孤岛现有产品缺陷，包括规模能力、异构兼容能力和平台开放能力三个方面的缺失应用之间交换数据成本高，需要平台厂商和应用厂商共同定制开发机制整体成本高扩展难度大存算绑定，大量硬件资源浪费数据平台难以根据业务的需求快速扩容，并且基本无法做到缩容，从而影响业务的敏捷响应能力，同时也可能造成资源的浪费数据冗余多运营工作杂平台间大量的冗余数据，难以集中管理，造成资源浪费的同时，还难以保证数据一致性，数据标准也难以稽核和维护，数据治理难度大质量难管理安全有隐患每一个数据平台都要做好数据安全管理，与数据流转过程中的质量稽核与校验，管理难度大，资源开销大，数据泄露风险高信息安全和隐私保护机制需要进行多家厂商的适配上云有瓶颈云上兼容差数据平台也难以以PaaS或者SaaS方式在云上弹性部署，阻碍数据服务的数字化创新大数据平台和大数据平台不兼容数据源大数据平台数据仓库数据载入数据集市/数据大数据平台数据仓库数据载入数据集市/数据应用支撑平台数据回流数据加载数据分发数据供给数据回流数据加载数据分发数据供给数据应用与服务传统MPP数据库面临的挑战企业不断增长的数据规模要求：近乎无限的、多传统传统MPP数据库采用存储计算紧耦合架构，缺乏弹性伸缩能力管理控制台启停、扩容、升级等服务VM/对象存储等基础设管理控制台启停、扩容、升级等服务VM/对象存储等基础设施管理集群状态监控、故障告警、故障恢复1个元数据集群元数据集群元数据存储服务元数据服务SMSMSSSSSMSMSSSSMSSS计算集群-1计算集群-3对象存储/HDFS对象存储/HDFS对象存储云基础设施（公有云、云基础设施（公有云、私有云、资源池）n元数据、计算与存储分离，计算集群按需搭建，横向扩展，解决传统MPP数据库单一集群并发和计算能力受限问题n统一的元数据和存储服务，形成权威的企业级数据视图，实现多个计算集群间数据共享n云上资源灵活伸缩，提高运木桶效应等问题多形态数据集中存储能力，打破数据存储孤岛SQL语言应用程序SQL语言应用程序••元数据+扩展标签+内容信息•数据对象文件元数据信息示例元数据项值文件名card01.pdf文件类型元数据信息示例元数据项值文件名card01.pdf文件类型pdf文件文件大小1.4mb创建时间2023-11-16修改日期2024-1-16存储位置oss://test/!HashDataDatabaseMPP/SQL引擎directorytable普通表table对象存储元数据共享存储OSS•非结构化多模态数据涵盖各种格式和类型，并且数据体量庞大，处理过程复杂•引入DirectoryTable目录表，存储和管理非结构化数据对象的元数据，这些元数据以结构化的形式存在•元数据信息与共享存储上的非结构化数据文件本身形成关联关系，用户可以使用熟悉的SQL语句来操作DirectoryTable和普通Table•利用外部表/连接器集成大数据生态，融入企业湖仓架构•SparkSparkPythonPython/RHDFS/Hudi/Iceberg外部表HashData内部表HDFS/Hudi/Iceberg外部表HashData内部表计算集群-1计算集群-n元数据同步•SQL并行访问•元数据集群（HMS）HiveIcebergHudiHashData可以同步HIVE、Hudi、Iceberg元数据，建立外部表，并行访问大数据生态数据，参与SQL计算，并将数据缓存在计算节点，供后续使下一步HashData将支持开放的表格式（首先支持Iceberg实现外部计算引擎与HashData互访，满足上层应用用数需求；此外，HashData还将扩展元数据管理能力，开放Gopher缓存服务，与Hadoop生态无缝融合。多样化分析计算能力—HashML引擎PythonSQLMLPCNNMLPCNN…预训练微调插件深度学习框架预训练基座模型机器学习算法库工作节点#1工作节点#2工作节点#3工作节点#1工作节点#2工作节点#3调度节点工作节点#4工作节点#n调度节点工作节点#4工作节点#n…………共享存储共享存储•基于分布式计算框架，提供了SQL、Python两种调用方式；•支持流行的机器学习算法，如：XGBoost、LightGBM、GLM等；•支持流行的深度学习算法，如：ResNet，支持流行的深度学习框架，如：PyTorch、TensorFlow等；•支持预训练语言大模型技术，能够对百亿到千亿级参数LLM进行微调；•支持GPU加速，通过多机多卡分布式计算，能够进一步提升运算效率；•计算引擎支持按需调度工作节点，并行计算。SQLSQL客户端Python客户端协调节点调度节点↓协调节点调度节点SQL计算引擎作业提交&状态监控ML/SQL计算引擎计算引擎……计算节点#1计算节点#n工作节……计算节点#1计算节点#n工作节点#1……工作节点#n工作节点#n共享存储共享存储•一个平台，一份数据，SQL+HashML双模态分析引擎；•HashML节点支持与HashData节点可以混合部署，或根据负载情况独立部署；•HashML与HashData无缝集成，支持高效、并行数据交换，支持模型在数据库中存储、管理；•借助HashML引擎，HashData可以实现：面向各业务条线的数据科学实验，典型如：反洗钱、风险等；大模型智能应用，包括生成类和决策类两种，生成类落地较多，如：的交互式数据模型智能问答档生成、文生管理，语料数存算分离的弹性架构，克服传统MPP局限性业务支撑受限于集群并发能力和混合负载能力，面对复杂、多样的业务需求，尤其是打通全后端的运营型分析，无论单集群、多集群，都很难做到完美支撑业务，无法提供好的业务体验。一二存储计算紧耦合，数据跨节点均匀分布，无法根据业务的灵活变化，提供快速弹性伸缩能力。数据库资源和应用绑定，无法作为资源池在应用间智二三存在木桶效应，且缺乏自愈能力，集群扩容需要重分布数据，无法实现秒级扩展。一旦节点发生故障或需要扩展，集群网络、IO资源受到很大影三一一数据数据平台需要管理海量数据，传统MPP架构导致数据库规模受限，无法数据平台需要管理海量数据，传统MPP架构导致数据库规模受限，无法提供近乎无限的存储能力。且MPP数据库不支持存储和计算资源独立扩展，扩容常常带来计算资源的浪费。对象存储可以管理海量数据，提供近乎无限的扩展能力。且存算分离的架构可以支持存储和计算资源多维度、独立统一的元数据管理和数据存储服务，面向多个计算集群提供权威理存储计算紧耦合的架构，多集群的部署模式导致数据冗余，一数多源，可能存在二义性和质量问题，难以形成面向分析的企业级数据视图，无法很好的支撑分析应用。存储计算紧耦合的架构，多集群的部署模式导致数据冗余，一数多源，可能存在二义性和质量问题，难以形成面向分析的企业级数据视图，无法很好的支撑分析应用。HashData基于云基础设施部署，通过HashData基于云基础设施部署，通过CloudManager实现了与平台运维存算分离架构使得HashData具备极速扩缩容、故障自愈等功能，种类多，且以竖井方式建设，分散的基础架构硬件，给环境部署、升级带来很大工作量。一二分布式架构、大量设备增加了日常监控和管理的难度和工作量，这一点在二云原生数据库分析型数据库机器学习平台深度学习平台支持大模型的AI平台联邦查询平台全文检索平台非结构化数据处理平台并行计算网格元数据访问服务发元数据访问服务发理元数据访问服务理元数据访问服务复元数据存储服务…… File、Kafka……）XX运营商之前采用Greenplum搭建ODS平台，随着业务的发展和平台建设的深入，Greenplum逐渐面临扩展的瓶颈，存储和计算能力难以满足业务需要。开始引入Hadoop生态，基于hive构建统一的数据湖，以Spark、Flink为计算引擎，支撑B、O、M域数据管理分析存统储一分析应用O域分析应用算时计实引批XX运营商之前采用Greenplum搭建ODS平台，随着业务的发展和平台建设的深入，Greenplum逐渐面临扩展的瓶颈，存储和计算能力难以满足业务需要。开始引入Hadoop生态，基于hive构建统一的数据湖，以Spark、Flink为计算引擎，支撑B、O、M域数据管理分析存统储一分析应用O域分析应用算时计实引批擎量统一存储+流批引擎分析应用挑战实时采集实时消息离线采集离线数据流批采集l不同应用场景的OLAP计算引擎比较多，数据需要在不同的引擎间拷贝，数据链路长，时效性差，并且数据一致性校验难度大。l工作负载管理比较薄弱，在一定并发情况下，性能极差，无法提供好的业务体验。lHadoop最初设计是面向批量处理场景，没有针对交互式分析优化。lHadoop缺乏完整事务支持，尤其是多条DMLSQL复杂操作，ACID无法满足。lHadoop的DML操作、复杂SQL查询效率低。l分析领域涉及大量业务规则或业务逻辑加工处理，Hadoop的SQL能力不足导致这些需求无法满足。引入云原生架构数据库，融合现有大数据体系，支撑批量和准实时场景，后续建设从两个层面展开：1.夯实基础。建设分析型数据库资源池，与大数据生态深度融合；2.迁移应用。梳理并规划应用场景，逐步从Hadoop、Oracle生态向HashData迁移。企业门户企业门户管理类营销类……对内应用管理类营销类……对内应用O2O推荐……对外运营运行监控平台数据管控平台OLAPOLAPSparkOLAP实时批量计算引擎离线采集离线采集离线消息实时采集实时数据企业云平台企业云平台25312531型型数据湖4HashData开放管控、运维等相关API，与一站式大数据管控及大数据运维体系对接海光x86鲲鹏ARM一套数据存储，多套计算分析引擎并存，按需选择不同计算引擎，最大限度减少数据搬家基于联邦集群构建统一的数据湖数据一次入湖，所见即所得多引擎融合，用户自有选择计算引擎处理业务场景基于统一存储，存储集群进一步收敛按租户隔离计算业务集群，结合实际业务按需调整计算节点，弹性扩容，调整算力依托存算分离架构，满足各类业务场景技术需求序号产品组件融合融合目标1多引擎融合HashData计算引擎和大数据产品计算引擎并存，用户根据业务场景选择计算引擎2元数据融合大数据产品元数据组件（HMS）和HashData元数据打通，统一管理，供多计算引擎使用3权限一体化融合HashData开放权限相关API，对接大数据平台资源、租户、用户、数据对象分配策略，实现统一权限管控4数据湖存储融合HashData基于联邦HDFS统一存储，统一管理各种多源异构数据，数据一次入湖，所见即所得，数据分析不搬家5大数据运营体系融合HashData按统一规范入驻云门户，打通用户租户体系，实现线上申请，线上开通o围绕云原生技术重构大数据算力调度引擎，HashData基于客户信创底座构建支持多样化分析的数据平台台用户管理用户管理租户管理租户管理资源管理资源管理集群管理集群管理任务管理任务管理权限管理权限管理贴源总部共性个性计算集群计算集群计算集群应用计算集群溯源计算集群贴源总部共性个性计算集群计算集群计算集群应用计算集群溯源计算集群•统一数据湖，实现全域数据的整合和分析，提升数据的质量和利用效率，降低数据冗余和冲突•统一元数据，形成企业级数据视图，实现多计算集群间的数据共享和协同分析•存储与计算分离，资源池独立，计算存储按需扩缩，提升资源利用率•计算引擎云原生化，通过自动化管理和调度，计算资源弹性扩缩，实现灵活高效的计算服务案例一、典型应用场景--交互式探索•查询业务：灵活多变的自助服务业务，HashData根据不同查询场景规划不同查询资源，不同查询互不影响。•高并发业务：HashData数据库利用底层存储共享一份数据，数据一次加载，多个计•查询业务：灵活多变的自助服务业务，HashData根据不同查询场景规划不同查询资源，不同查询互不影响。•高并发业务：HashData数据库利用底层存储共享一份数据，数据一次加载，多个计算集群数据可见，计算集群间资源隔离，满足高并发需求。•存算分离：存储和计算分离，存储资源快速、无限扩展、计算资源敏捷、弹性伸缩；•湖仓存储融合：与数据湖平台采用统一HDFS存储，支持Schema、事务、高效增删改、流批一体等功能•湖仓引擎融合：数据湖、HashData数据统一管理，数据不复制搬家,内置多种计算引擎，且支持多种引擎访问同一份数据•统一元数据：提供元数据的统一管理能力，面向多种计算引擎，提供统一的企业数据视图；结合以上特性，可以实现一套元数据，一套数据存储，各租户资源隔离的使用场景，湖仓融合的数据中台基础底座。租户1租户2租户3租户4案例一、项目价值--数据湖存储融合o基于联邦HDFS统一存储，统一管理各种多源异构数据，数据一次入湖，所见即所得，数据分析不搬家Spark、Spark、FinkHashData统一HDFS联邦集群案例二、某运营商--数据平台项目建设背景XX数据处理平台建设时采用了当时业界广泛运用的“Hadoop+MPP数据库”混搭架构作为数据仓库，其中MPP数据库选用Vertica数据库。Vertica承载公司数据仓库、客服应用、外呼样本、数据洞察等高时效性、高重要性应用。Vertica集群当前版本软件存在缺陷，且已处于过保状态，导致集群运行稳定性不足，对所承载高时效性、高重要性应用的可用性产生较大影响。公司数据库、缓存等中间件，以及IT系统服务已资源快资源快速交付应用高效可靠成本集约成本集约案例二、项目建设目标云原生数据仓库能力，实现数据算力快速部署、高效交付云原生数据仓库能力，实现数据算力快速部署、高效交付•存储、计算、元数据三者分离，提供高效稳定的算力服务；•提供计算资源横向秒级扩缩容能力，实现数据算力快速部署、高效交付。存量应用迁移赋能，提升应用稳定性•模型、应用、数据高效迁移；•数据应用长期稳定运行；存量应用迁移赋能，提升应用稳定性•模型、应用、数据高效迁移；•数据应用长期稳定运行；•满足业务长期发展需要。周边系统集成适配，提升数据融通分析效率•云原生数据仓库与流批、仓库系统集成，实现数据存算集群高效协同；•云原生数据仓库与分析工具集成，提升数据敏捷分析效率。周边系统集成适配存量应用迁移赋能云原生数据仓库能力案例二、项目整体架构……话务分析服务运营市场运营效能提升……话务分析服务运营市场运营效能提升指标开发模型建设报表建设实时应用……自助分析自助分析统计分析工具PythonPython工具超市数据洞察工具数据开发API邮件推送工具集成数据洞察工具数据开发API邮件推送工具集成客户轨迹服务客户轨迹服务页面集成页面集成精益外呼精益外呼可视化分析融合营销融合营销即席查询即席查询报表工具报表工具指标中心指标中心两级运营两级运营流批数据开发工具流程编排工具应用部署工具运维监控工具流程编排工具应用部署工具运维监控工具数据交换工具数据开发工具数据治理工具智能决策智能决策…………数据存算底座计算FlinkFlink-流处理引擎HiveHive-批处理引擎openLooKeng-交互式查询HashDataHashData-高性能分析引擎分布式数据缓存引擎（分布式数据缓存引擎（Alluxio）HashDataHashData-数据缓存引擎热线话务数据热线话务数据存储KafkaKafka存储RedisRedis存储HDFSHDFS存储HbaseHbase存储对象存储对象存储服务请求数据服务请求数据线上运营数据线上运营数据权益生态数据权益生态数据数据采集能力FTPFTPSFTP

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

存算分离架构：加速电信行业数据处理驱动业务创新

文档简介

温馨提示

最新文档

评论

存算分离架构：加速电信行业数据处理驱动业务创新

文档简介

温馨提示

最新文档

评论

相关文档