大数据云原生技术发展研究报告2023_第1页
大数据云原生技术发展研究报告2023_第2页
大数据云原生技术发展研究报告2023_第3页
大数据云原生技术发展研究报告2023_第4页
大数据云原生技术发展研究报告2023_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据云原生技术发展研究报告I2.传统大数据平台的痛点:探讨传统大数据平台3.云原生技术解决思路:详细说明云原生技术解决这些关键痛点的参考架构,包括弹性伸缩、资源隔离、容器化、统一资源调度、研究单位:天翼云科技有限公司 1 1 9 12 15 16 17 18 19 20 20 22 26 27 31 35 40V 40 41 44 44 44 45 461一、大数据平台与云原生技术的发展与演进仓一体等概念。这里按出现顺序简述其中关于数据湖和湖来源:CCSATC601大数据技术标准推进委员会):2):来源:云原生产业联盟3库(Hive)是常见的大数据平台之上数据仓):Spark、Flink、Presto4来源:云原生产业联盟2010年,数据湖概念被提出,数据湖是一56来源:Gartner):7来源:CCSATC601两个系统间额外的ETL流程导致时效性差,数据一致性保障89来源:cf.io/到了2018年,原来的定义已经限制了云原生生态的发“云原生技术有利于各组织在公有云、私有云和混合云等新型动器、服务网格、微服务、不可变基础设施和声明式API。让这些创新为大众所用。”从2018年起,一些开源大数据引擎陆续开始了onKubernetes的来源:Pepperdata2022BigDataonKubernetesReport50%+的受访者正在将大数据应用迁移至Kubernete1.超过45%的受访者为了提高应用程序的性能和稳定性而选择将任国内外云厂商也一直加大产品技术在云原生(Serverless)方向的作为大会主题之一,包括大数据在内的多款云产品均发布了其与云原生融合的一些其它声音,也值得我们关注:反方认为:维持已经成熟和可靠的系统不需要K8S:1.增加复杂度和不可靠性:K8S增加了额外的架构2.性能挑战:在K8S上运行的数据库可能面临性能问题。3.安全和合规风险:多租户环境和更多的组件依赖,增加数据库4.成本和维护问题:尽管K8S在一定程度上简化了数据库管理,它们通常需要复杂的技术实现和专业知识。通过将数据库部署在K8S上,这些能力可以通过K8S的自动化和标准化机制更容易地实业务需求的波动,在高峰期自动扩展资源,在低谷期收回,有4.高可用性等解决方案:固化高可用方案,提供主从秒级切换和二、传统大数据平台的需求与痛点传统围绕Hadoop生态构建的大数据(一)交付运维成本高组件多样性导致较高的人力需求:不相同。部署,配置和维护如此多样的技术栈需要和运维,提高问题监测和定位的效率。集成在(二)资源利用率低大数据集群,可以是批处理、也可以是流处(三)系统迭代与兼容性挑战版本兼容。由于许多新的大数据组件不支持旧版本的H易地做到IaC(InfrastructureasCode)和CaaS(Configurat(四)安全相关挑战三、云原生技术解决大数据问题的思路(一)云原生技术提升运维交付质量与效率3、统一的日志收集与监控报警个好处:一个服务包含3个副本,如果其中某几个副本意外退出了,声明式(二)云原生技术提升集群资源使用率和弹性来源:/article/812c3183d4a2507892534de76该思路的优点是管控集中,统一K8S调度管理,便于实现在线基于Yarn的大数据作业的兼容性无法保证,需要企在该种思路中,作业提交入口依然为YARN保持不变,整个计算资源的调度还是由YARNRM来执行,计算任务还是NodeManager中。整体架构如图所示:来源:https://koordinator.sh/等同于单独扩容了几台YarnNodeManager。该思路的优点是计算任(三)云原生技术提升大数据平台迭代效率GitOps方法论,可以方便得做到IaC(Inf部署;部署时可以结合灰度发布和服务网格等技术实现A/Btest,金常见的云原生发布策略有滚动更新与回滚、蓝绿发布、金丝雀发布(四)云原生技术提升大数据安全和隐私保护API使用层面上的隔离、通过Kata等安全容LimitRange,Request/limit,Name2、网络通信安全:也基于RBAC准则,即访问控制+鉴权+授权,针对不同的用户限制3、数据加密与保护:数据完整性:云原生存储中,会通过校验码等机制来验证数据在技术栈中可以使用RAM/IAM等鉴权系统对资源进行精确的访问控数据机密性:云原生技术栈中,从数据传输、计算、到存储都有完整的全链路加密方案,数据在网络传输时可以采用Https、SSL、同算法对数据进行加密存储,算法可以在申请PV(PersistentVolume,4、审计与合规性:云原生技术基于微服务架构,每一个微服务一般都是多活架构,6、丰富的安全工具提升网络安全2、更便于实现混合云、多云架构和编排容器化的大数据应用。无论是在公有云、私有云还是混合云环境中,Kubernetes有希望提供一致的操作体验,简化跨云环境中部署和扩展大数据应用变得更加灵活和高效。我们可以尝试根据应用的资源需求和可用性要求,智能地在多云或混的形式运行,这保证了应用在不同云环境中的一致性和可移植性。容器化的应用更好地在多个云环境之间迁移,无需针对特制,这有助于在多云和混合云环境中保护数据和应用。通过这些策略,可以有效地隔离和保护跨云环境中的网络流量,确保3、更便于与AI平台融合传统的大数据平台和AI平台往往存在一定两个独立的团队,它们依赖于不同的技术栈。大数据资源管理和调度能力,可以同时纳管CPU和GPU,更好的支这种统一性减少了跨技术栈协作的复杂性,使得团队可以更专1、如何提升大数据作业调度的稳定性和性能?(1)更为智能和灵活的调度算法(2)针对不同作业类型的精细化调度的QualityofService(QoS)类型,如Guaranteed,BuBestEffort。这种分类允许系统根据作业的重要性和资源(3)分布式调度支持大规模集群2、如何做好旧系统兼容性,降低旧作业迁移成本?平台时,需要进行大量的改造和适配工作,如支持YarnAPI的云原生调度器。同时,开发与传统存储系统(如JuiceFS等。同时也需要针对各自具体的场景,开发一些辅助迁移工3、如何解决云原生场景下中间临时数据存取的问题?大数据计算场景下有很多中间临时数据,也就Shuffle数据。传统的Shuffle机制可能因为跨节点动态资源调度的特性,在资源重新的失效而丢失;业界比较流行的演进方案是采用新型的Shuffle处理技术,如RemoteShuffleService(RSS),来优化在云原生环境中的数据传输和处理流程。通过这种方式,可以有效4、如何缓解存算分离对大数据组件的影响?针对这一挑战,需要优化大数据处理组件,比如改进Spark和层,以及Hudi、Iceberg等表格式存储,实现更适合存算分离场景的应的平替,比如对象存储和K8S,因此HDFS和YARN本身的容器场景下,Hadoop本身的可靠性和兼容性在较大规模的场景下已经经过了大量的检验,对于很多用户来说,可靠性和兼容性大于一切,Hadoop依然有其存在的价值,私有化场景下的对象存储也会失去公探讨的话题。在传统的Hadoop大数据平台到完全Serverless化的云过较少的投入,获得部分云原生技术的红利。目前开源社区有一些HadoopOnK8S的方案,也有6、传统大数据平台如何向云原生演进?大量的企业未来都会面对如何从传统的大数据平台向云原生演四、大数据云原生技术的架构简述2、容器化与统一资源调度3、多种计算引擎联合管理4、统一元数据管理云和混合云等情况。公有云部署可以采用云厂商售卖Kubernetes服务,而混合云客户可能同时拥有公有云和私),为上层的计算引擎提供统一的数据访问接口。元数据量,丰富的分析型元数据需求,可以考虑构建元数据湖仓管理服务来解决湖仓一体的自动化治理难题,通),),),),),观测性设施构建(Log/Metrics/Tracing),安全管理,发布管理,容五、大数据云原生的未来发展和战略建议(一)技术发展方向将工作负载分布在不同的云服务提供商和本地数据中心之间,策略,大数据云原生技术将帮助企业更有效地管理和维护其大及,数据的迁移成本,可观测性和有效的数据治理变得至关重要,DataFabric等数据治理架构和方法论正逐步被行业关注,4.AI与大数据的融合:人工智能和大数据技术的融合将推动更1.建立更广泛的探讨:鼓励信通院这样的权威机构牵头,组织行业内的专家学者、企业领袖和技术先锋,共同进行更广泛和深2.产出专业研究报告和技术白皮书:定期发布关于大数据云原生技术和产业的研究报告,以及相关技术的白皮书。这些文档应涵盖最新的行业趋势、技术进展、最佳实践和案例研究,为行3.关注国内特殊需求:针对国内市场的特殊需求,如私有化部署场景,考虑更多私有云、混合云的方向,提供针对性的解决方4.制定统一的测评标准:制定一套标准化、公正的测评体系,用于评估不同大数据云原生解决方案的性能、可靠性、安全性等(三)针对企业和用户的建议1.实际评估业务需求:在跳入云原生的大潮之前,先停下来问一云原生技术中受益,比如是否需要更便捷的部署运维、更强的3.小步快跑,逐步迁移:不必急于一步到位。可以先从一个不太复杂的项目开始尝试,逐渐感受和学习云原生的运作方式,再4.分享实战经验:如果你在云原生转型中取得了成功,不妨写个案例分享出来,或者在行业会议上讲讲你的故事。这不仅能提确保你的云原生方案一开始就能满足行业安全标准,有时候后6.持续监控,关注成本和效益:定期检查你的云原生环境是否真六、参考文献启发。最后感谢大数据云原生资深专家,开源KubeData作者刘彬,利用业余时间帮助审稿。由于时间仓促,水平/cncf/toc/blob/main/DEFINITION./developer/article/222/s/Ely4Nme02Ks8SeyqXp9[12]Pepperdata-2021BigDa/wp-content/uploads/dlm_uploData-on-Kubernetes-Report.pdf/article/https://www.starburst.io/blog/p/news/2020/02/11/rel/2020/02/18/mr3-unle

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论