




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本文格式为Word版,下载可任意编辑——亚马逊云科技智能湖仓助力企业重塑数据价值王永
数据量在以前所未有的速度增长,从TB级暴增至PB级,甚至EB级。传统的本地数据分析方法不具有充分的扩展能力,同时价格太贵,无法处理这样大量的数据。企业需要从多个孤岛提取所有的数据,然后将这些数据集中在数据湖,从而直接对这一数据进行分析和机器学习处理。
不过,在这样一个数据“迸发〞的趋势下,企业挖掘数据价值的挑战也愈发明显:从结构化到半结构化再到非结构化数据的指数增长、繁杂的使用场景和实时数据的快速决策能力。
“在此之前,一个数仓隔几天跑一个报告是习以为常的,但是现在企业的整个业务和场景变化会驱动企业的决策能力加快,甚至好多决策会是分钟級的,这就要求在一些实时流分析时给到决策。〞亚马逊云科技大中华区服务产品部总经理顾凡在接受笔者的采访时表示,面对细分的应用场景,目前市面上单一、通用的数据解决方案在性能上会有所妥协,很难满足客户的真实需求,用户亟需融合了易用、易扩展、高性能、专门构建、安全及智能等特性于一体的新一代数据管理架构。
2021年6月24日,亚马逊云科技针对数据及数据分析等服务持续发力,推出引领大数据未来的“智能湖仓〞架构,围围着“智能湖仓〞,亚马逊云科技提供的数据分析服务包括:底层上,从数据库把数据注入到数据湖中的DMS,从弱网的环境把数据搬到数据湖中的AmazonSnowball,以及有实时的流数据服务AmazonKinesis系列。
中间层,AmazonS3是核心数据湖的关键构成组件,数据进入到AmazonS3,在EB级以及在高可用、高扩展的状况下支撑结构化、半结构化、非结构化的数据,并在AmazonS3上也会有针对分析专门优化过的存储层。
上层是真正数据的处理和数据的消费层。在数据分析领域里针对不同的分析场景会有不一样的分析引擎——AmazonRedshift、AmazonEMR、AmazonAthena等。同时除数据处理和分析的引擎之外,还有商业智能BI类的像AmazonQuickSight以及大量的机器学习类的服务。
“智能湖仓并不是一个产品,而是为解决客户现实挑战而生,为处理繁杂场景而设计的架构。〞在顾凡看来,亚马逊云科技在数据分析整个产品设计的想法有三层方面的考量:首先,为云优化。无论是AmazonAurora还是AmazonRedshift,这些都是云原生的数据库、数仓,其自然在弹性方面是没有限制的,可以做到十分好的线性扩展。
其次,专门构建。数据分析场景越来越多元化,使用的人也会越来越多元化,所以,必需要去专门构建不一样的分析引擎。
最终,完全托管。这个是贯穿于云计算始终不会变的原则,针对客户业务无区别的繁重的工作都由亚马逊云科技来做,而不需要去重复地做整个仓、湖的管理、构建、甚至是数据的无缝移动。
在智能湖仓这个概念里,有一个方面是反复被提到的——数据的无缝移动。
在客户的业务场景中,数据移动大约分为三类:由外向内,数据入湖。例如,在AmazonRedshift数据仓库做查询,依照区域来划分今年的销售,查询跑出结果之后,数据不会只呆在数仓里,会从数仓重新注入到数据湖中。由于机器学习的AmazonSageMaker直接就对接着数据湖,数据可以从数据湖再注入到AmazonSageMaker,AmazonSageMaker通过分区域产品销售的分析数据去建立模型,即先由湖仓完成查询,查询的数据入湖,机器学习调用数据。
由内向外,数据出湖。当客户用实时数据流的服务,将客户在网站上的Web点击流的数据注入到湖里面,这些数据已经在湖里面。
环湖移动。简单来说是数据并不会只从外面往里进和从里面往外出,无论是数据库、数据仓库,还是不一样的分析引擎,环湖有不一样目的的专用数据存储。
“亚马逊云科技智能湖仓架构提出已经有几年的时间,在2022的re:Invent上谈到如何迭代这样一个智能湖仓架构的时候,我们十分强调未来的整个数据做一个更好的支撑。〞顾凡说到。
从亚马逊云科技的角度来看,智能湖仓的架构必需要有一个快速构建可扩展的数据湖,即AmazonS3。围围着AmazonS3,客户使用专门构建的这些数据分析的服务集合,例如,结构化数据的繁杂查询AmazonRedshift和AmazonAurora交易型数据库等,在湖、仓和专门构建的数据服务之间做好移动数据,包括AmazonGlue和AmazonGlueElasticview等功能。以一种统一的方式管理湖里面数据的安全性、访问操纵和审计。最终,以低成本扩展系统,但同时不降低性能。
“构建一个数据湖要有专门构建的数据分析服务,要能做到数据、湖、仓和专门构建的数据服务的无缝数据移动,统一管理、低成本,这是我们所定义的亚马逊云科技智能湖仓架构。〞在顾凡看来,智能湖仓不仅仅是湖和仓的打通,更是湖、仓专门构建数据服务连接成一个整体。写在最终
亚马逊云科技“智能湖仓〞架构优势表达在五个方面:第一,灵活扩展、安全可靠。这个架构最重要的是AmazonS3数据湖的基础组件,它拥有无与伦比的持久性是11个9。其可用性不仅可以跨3个可用区做数据复制,可扩展性甚至可以做到EB级。更重要的是,可以在数据湖高扩展性、高可用性的状况下,很好的操纵成本。
其次,专门构建、极致性能。任何一个技术都会各有优劣,所以并不存在一个技术,既能在功能、性能以及扩展性上做到一个产品打天下。
第三,数据融合、统一治理。未来的整个的智能湖仓架构里面,数据会在各个点之间移动,亚马逊云科技把数据移动归纳为几种方式:一种是传统的ETL,提取转换加载;
一种是可视化数据准备。例如,AmazonSageMaker里面的DataWrangler,可以快速从数据里面提取特征。
第四,灵巧分析、深度智能。谈到数据永远分不开三个话题:如何把数据基础设施现代化,采用云上的云原生数据库;
如何从数据中真正产生价值;
如何用机器学习更好地辅助决策,甚至是驱动决策。
因此,在智能湖仓的架构下,亚马逊云科技首先集成就是AmazonSageMaker和湖仓的融合。然后是机器学习的再扩圈——不是只有数据科学家、机器学习的数据开发工程师在用机器学习,更要勉励今天的DBA、数据分析师都可以用机器学习。
第五,拥抱开源、开放共赢。无论AmazonEMR,还是AmazonElasticsearch以及AmazonMSK,都是针对开源API的一种全面的支持和兼容。
值得一提的是,当前已经有数十万的客户在借助亚马逊云科技全球服务构建数据湖,并将数据分析和机器学习等工作负载搭载其中。
“以客户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 养殖兔子售卖合同范本
- 窗帘墙布定制合同范本
- 桥梁劳务协作合同范本
- 预防保健科年终工作总结
- 药品质量与安全论文
- 蛋糕店大学生创业计划
- 2020对口招生基本文化素质测试卷
- 门诊半年工作总结
- 2025年湖南省永州市第十六中学中考一模道德与法治试题(含答案)
- 内勤年终数据工作总结
- T-CBJ 3108-20221 无醇啤酒标准
- T-CHIDA 02-2022 T-CWEC 33-2022 城市水环境综合治理技术指南
- 2025年高考作文备考之一人写遍热点话题:雷军站在时代的风口(金句+作文运用+范文)
- GIS知识培训课件
- 2025美国急性冠脉综合征(ACS)患者管理指南解读课件
- 医院股东章程范本
- 全国职业院校技能大赛赛项规程(高职)农产品质量安全检测
- MOOC 电子线路设计、测试与实验(一)-华中科技大学 中国大学慕课答案
- 广东英语中考必背1600词
- 北京某公司销售合同管理制度
- 小波分析简介
评论
0/150
提交评论