![构建大数据基础平台_图文_第1页](http://file3.renrendoc.com/fileroot_temp3/2022-3/12/87d5fee9-c4ff-4965-835c-175864a2fb9f/87d5fee9-c4ff-4965-835c-175864a2fb9f1.gif)
![构建大数据基础平台_图文_第2页](http://file3.renrendoc.com/fileroot_temp3/2022-3/12/87d5fee9-c4ff-4965-835c-175864a2fb9f/87d5fee9-c4ff-4965-835c-175864a2fb9f2.gif)
![构建大数据基础平台_图文_第3页](http://file3.renrendoc.com/fileroot_temp3/2022-3/12/87d5fee9-c4ff-4965-835c-175864a2fb9f/87d5fee9-c4ff-4965-835c-175864a2fb9f3.gif)
![构建大数据基础平台_图文_第4页](http://file3.renrendoc.com/fileroot_temp3/2022-3/12/87d5fee9-c4ff-4965-835c-175864a2fb9f/87d5fee9-c4ff-4965-835c-175864a2fb9f4.gif)
![构建大数据基础平台_图文_第5页](http://file3.renrendoc.com/fileroot_temp3/2022-3/12/87d5fee9-c4ff-4965-835c-175864a2fb9f/87d5fee9-c4ff-4965-835c-175864a2fb9f5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、构建大数据基础平台 102030405060708090100正在使用计划在12个月内添加该技术尚无计划Ha oop来源:IDC 、计算机世界IT 调查商务智能与分析分组调研,2012年,n = 111图 1第3页采集、存储并应用数量快速激增的数据已成为企业面对的一个持续趋势。而该趋势仍在不断变化:社交媒体、传感器、机器和员工都提供了丰富的新数据源。非结构化数据在数据中的所占比例极高,因此企业迅速转向非结构化数据分析技术,并希望由此获得竞争优势。(见图1非结构化数据对众多企业来说仍是一项有待有效开发的重要资源,可帮助企业获得更深入的客户和运营洞察力,并最终形成竞争优势。然而,传统关系型数据库和
2、商务智能工具针对结构化数据而设计,难以适应非结构化数据管理需求。与此同时,结构问:您是否正在使用或计划部署以下技术?化与非结构化数据的数量和速率都在飞速提升,进一步增加企业的挑战。所有这些催生了统称为“大数据”的全新分布式计算范例的发展,并将推动分析技术的发展,例如面向非结构化数据设计的Hadoop 、NoSQL 等等。 大数据技术支持企业探索提高效率、降低总体拥有成本和提升IT 基础设施灵活性的可能,持续激增的数据迫使企业寻求新的方法来采集、整理、管理和分析数据。 事实上,大数据的出现为数据中心带来了前所未有的新型工作负载,处理这些工作负载需要使用不同的独立基础设施,因此IT 部门需要同时管
3、理旧有和新增基础设施的方式,最终实现两类设备的整合。关系型数据库搜索索引规则引擎纵列数据库或列式数据库文档存储复杂事件处理了解大数据平台了解成本第4页实施大数据功能将在多个领域影响IT 基础设施。实施大数据技术之前,企业需要明确大数据技术的总体成本。为此,企业需要考虑以下因素: 硬件成本,包括服务器、存储和网络软件成本,包括大数据软件(如Hadoop 及其生态系统和集成传统数据库与商务智 能工具的连接器实施成本,包括研究、设计与规划工作,安装和配置,与现有商务智能应用程序集成,安装后的开发与测试等风险和质量成本问题,因为大数据实施不会轻而易举。实施问题将减慢部署进程,还可能导致代价高昂的返工I
4、T 机会成本。大数据技术的安装和集成耗时会减少IT 部门对增加商业价值活动的关注延迟业务改进的成本。预期的员工效率提升和业务洞察力可能推迟至实施项目结束后才能实现发挥大数据的优势可以为企业带来显著且明确的收益,但大数据也将同时增加数据中心面临的挑战。IT 基础设施团队必须妥善处理大数据的三个特性,即数量(数据量持续激增、类型(数据类型不断丰富和速率(数据流转速率需要大幅提升。此外,并非所有数据都具有价值,而IT 部门必须帮助数据专家筛选海量的数据,以便“大海捞针”,获取业务洞察力。 总的来说,大数据需要一个能够高速且灵活存储、移动与合并数据的基础设施传统IT 基础设施设计中并未包含此类要求。将
5、非结构化数据转变为结构化数据,并使用关系型数据库管理系统来管理数据,这在技术上是可行的。但是,转变非常耗时,而且会增加成本并延长分析时间。通常,数据转换面临的问题更多来自财务方面,而非技术。也就是说使用传统基础设施管理大数据并不具有经济可行性。数据源非结构化RDBMS外部ODS数据摄入 Hadoop/HDFS 架构图2:融合型数据架构第5页©2013 埃森哲保留所有权利。显然,大数据需要专有且更经济高效的新型基础设施。很多情况下,这意味着企业需要转变以往实践。过去几年中,整合与虚拟化一直是数据中心关注的重点,目的是减少服务器数量,并与大型共享存储平台连接,以减少数据中心的空间。然而,
6、埃森哲预计大数据可能会反其道而行之,要求数据中心使用分散的数据模型。多数情况下,恰当的大数据平台由多个小型商用服务器集群而非企业级平台组成。存储功能将通过本地独立服务器实现,取代集中的共享存储方式。(显然,预建大数据系统是最适合的方法,将在稍后讨论。 大数据分散存储方法具有多项优势。例如分散存储具有经济、灵活和高效的特点,能够快速扩展以包括数以千计相对低成本的服务器,无需升级为昂贵的企业服务器和存储设备。并且,无共享模式无需与数量有限的共享存储磁盘传输数据,可以消除严重影响海量数据处理的性能瓶颈。但这并不意味着大数据平台将取代现有基础设施,或者传统基础设施虚拟化与整合已风光不再。大数据与现有平
7、台之间并非“非此即彼”而是“共存”的关系。要在海量的繁杂数据中获取商业价值,IT 基础设施团队必须应用两类基础设施模型,并运行两种截然不同的平台,然后开发一个融合了两者特性的数据架构。 秉承上述理念,埃森哲预计数据库技术将出现新的平衡,因为数据架构师会发现关系型数据库已不再是唯一的选择。“混合解决方案架构”将混合旧有和新型数据库,推动新型基础设施的应用,以发掘旧有基础设施的潜力。(见图2简而言之,未来关于数据架构的讨论将关注两类基础设施的平衡、共存与融合。第6页大数据与数据中心 大数据平台的出现将引发数据中心的大规模分化,基础设施专家必须应对层出不穷的新挑战。例如,数据中心需要管理大规模的大数
8、据平台,即基础设施中新增的数百个或数千个集群服务器。他们还要管理不同节点的服务配置与协调,并实现大数据管理套件与传统管理套件的集成。大数据需要网络基础设施支持TB 容量的数据集传输。在基础设施中安装大量商用服务器需要调整电源、温度调节以及空间等物理基础设施要素。同样,大数据存储基础设施需要多PB的容量,并且能够容纳数以亿计的数据对象。鉴于非结构化数据作为业务资产的价值逐步增加,企业应当采取措施以保证数据的安全性和可用性。企业需要新的方法,因为传统方法难以应对如此庞大数量的数据备份和还原任务。大数据技术的安全特性日渐成熟,企业应考虑部署适当的控制手段来防止数据遭到破坏和盗窃。IT治理也需要调整以
9、支持大数据。一般情况下,企业必须制定全面的治理流程,涵盖从大数据平台绩效管理到服务退单、事件/问题管理以及服务台支持的各个环节。 最后,IT需要确定如何实现大数据平台与其它IT基础设施的集成。企业希望发掘结构化和非结构化数据的价值,以便结合两类数据获得更全面的业务洞察,并综合其它企业数据来理解大数据。整合数据可以让企业充分发挥现有数据仓库和分析工具的作用,支持决策者在组织内部普及大数据的使用。规划基础设施解决方案模式优势具体内容商用平台,本地存储1.高灵活性和大规模输出2.Hadoop 实施技能可轻松获取3.开发或应用Hadoop 实施参考架构1.商用物理服务器2.由商用服务器机架组成的POD
10、 配置3.直接附加存储 12x3TB /节点4.现场灾难恢复备份和还原5.基础设施自动化与协调6.数据中心容量规划商用平台,共享存储 1.中小企业实施2.Hadoop 实施技能可轻松实现3.开发或应用Hadoop 实施参考架构1.在VMWare ESXi 等管理程序中运行的虚拟服务器2.由nESX 集群(密度为n 至1组成的POD 配置3.共享横向扩展NAS4.共享存储可能成为瓶颈5.现场备份与还原6.外部复制以用于灾难恢复7.基础设施自动化与协调8.数据中心容量规划大数据机(美商天睿、DCA 、甲骨文 1.快速交付2.与现有商务智能分析平台紧密集成(甲骨文、Greenplum 、美商天睿1.
11、计算机、存储、网络和大数据捆绑组件2.高可用性和容错性设计3.简单而统一的管理4.Hadoop 管理工具5.系统管理工具6.单一支持云实施(单用户或多用户 1.快速交付2.1.启动(或服务终止时需要将数据集转移到云2.需关注数据隐私与安全3.云中数据所有权图3:基础设施解决方案模式© 2013 埃森哲保留所有权利。IT 团队需要全面的跨领域方法来构建大数据平台。IT 基础设施团队应同IT 专家协作,借鉴专家在分析、风险与遵规、业务应用程序及IT 治理方面的观念和预测。不同的观点可以帮助基础设施团队重新规划数据中心,确保数据中心能够应对大数据的数量、速率和复杂性挑战,实现大数据与传统架
12、构的融合,同时始终关注经济性。埃森哲研究表明,“以数据为中心”的设计理念由此显得格外重要。同样,需要明确大数据平台建设没有“一刀切”标准。企业的实际情况各不相同,因此认真制定前期规划十分关键。基础设施团队需要充分理解大数据对数据中心的影响:分析数据中心的容量、存储和网络要求,确定可能的数据来源,计算需要管理的数据集大小,了解分析工作负载(数量和速率以及CPU 和IO 工作负载,明确大数据平台与传统商务智能工具的集成程度。如前所述,部分企业可能倾向于分布式无共享商用硬件基础设施,但很多时候其它方法的效果可能更佳。例如,如果工作负载较低,并且无需担心存储瓶颈对性能的影响时,具有共享存储的商用平台可
13、能更为适合,例如企业刚刚开始探索大数据工作负载有限的情景。(见图3始终关注业务其它情况下,尤其在实施时间至关重要时,套装集成式系统似乎更为适合。此类解决方案相比商用服务器集群可能需要更高的前期硬成本,但其技术与软件捆绑能够加快部署速度,而且可以避免实施Hadoop 和连接硬件的复杂性(以及额外成本。集成式解决方案的方法还可以改善与现有基础设施的集成。(参见“简化大数据实施”例如,甲骨文大数据机可以简化与甲骨文数据库和商务智能工具等现有结构化数据处理系统的集成。大数据基础设施与传统基础设施在很多方面存在差异,但两者遵循一项基本原则,即需要确保 支持经营绩效。这意味着企业迁移至大数据平台时需要认真
14、评估和监测基础设施的总体拥有成本。 与此同时,企业应当超越对成本的关注,寻求促进业务敏捷性和业务发展的基础设施功能。埃森哲研究表明,卓越绩效企业通常会重视以下重要因素,例如制定自适应的可执行战略来适应持续变化的环境,通过持续创新建立竞争优势。大数据技术支持更灵活、更高速的数据移动,以满足业务需求。大数据基础设施是实现上述方法的关键。为此,企业需要确保基础设施支持持续的IT 成本优化,根据业务需求扩展和缩减基础设施,并证明IT 投资对业务的价值。缜密规划的大数据基础设施方法能够交付上述功能,并最终帮助IT 和企业取得成功。计算范例可能因大数据而改变,但企业对IT 支持效率与创新的期待从未改变这将
15、成为评判大数据基础设施成功与否的重要标准。简化大数据实施数据种类模式无模式采集整理分析构建自有模型采集整理分析甲骨文方法分布式文件 系统交易(键值存储DBMS (OLTP映射化简解决方案ETLDBMS 数据仓库高级分析大数据机Cloudera CDH 3Cloudera Manager 大数据连接NoSQL 数据库CE Oracle Exalytics 思维分析速度Oracle Exadata OTLP 和 DW数据挖掘与甲骨文语义空间v.s.图4:两种方法:自行构建系统与使用甲骨文集成式系统经甲骨文公司许可转载事实上,集成式系统的潜在价值在于减少设置时间和优化持续管理,这对于有些情况极其重要
16、。例如,甲骨文大数据产品甲骨文大数据机,可提供针对大数据优化的单机架648TB 原始存储空间和216个CPU 处理核心。设备包含全套大数据软件,例如Hadoop 和NoSQL 。(参见图4预配置套件的目标是提供企业系统需要的高性能、可用性与安全性。大数据实施包括集成不同的基础设施组件,是一项需要专业技能支持的复杂任务。此外,随着大数据在企业中的作用逐步显现,相关基础设施为其它关键业务解决方案提供同样的绩效、安全性与支持将变得越来越重要。基于上述事实,企业可能会关注能够提供“现成”大数据平台的套装集成式系统。流化采集整理分析和显示数据源甲骨文大数据机Oracle ExadataOracle Exalytics甲骨文大数据连接器图5:甲骨文分析基于集成式系统经甲骨文公司许可转载该方法能够显著缩短实施时间。以某个大型大数据项目为例,甲骨文预计10机架、144节点的系统硬件实施需要约1,800条电缆和1,300个工时。使用大数据机,同样的硬件实施只需48条电缆和38个工时。在长期运行方面,甲骨文设备提供单点大数据硬件与软件支持,可以降低多供应商的复杂性。应用大数据机的方法还能够促进大数据平台与其它基础设施的集成。例如,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Module 10 Unit 2 You shouldn't be late(说课稿)-2024-2025学年外研版(一起)英语五年级上册001
- 16 滑轮 说课稿-2023-2024学年科学六年级上册青岛版001
- 3 珍贵的淡水资源(说课稿)-2023-2024学年四年级科学下册大象版
- 3 我不拖拉 第2课时(说课稿)-2023-2024学年道德与法治一年级下册统编版
- 2023二年级数学上册 二 角的初步认识 锐角和钝角说课稿 西师大版
- 19《夜宿山寺》说课稿-2024-2025学年二年级上册语文统编版
- 2023八年级道德与法治上册 第四单元 维护国家利益 第八课 国家利益至上 第1框 国家好 大家才会好说课稿 新人教版
- 2024年八年级道德与法治下册 第三单元 人民当家作主 第五课 我国基本制度 第2框 根本政治制度说课稿 新人教版
- 2024年秋九年级历史上册 第一单元 古代亚非文明 第3课 古代印度说课稿2 新人教版001
- 2025北京建筑材料购货合同
- 2024年05月浙江金华成泰农商银行员工招考笔试历年参考题库附带答案详解
- 北京市海淀区2024-2025学年七年级上学期期末考试数学试题(含答案)
- 带看协议书范本(2篇)
- 2025-2030年中国科教玩具行业发展动态及前景趋势分析报告新版
- 股权投资项目建议书
- 2025年北京广播电视台招聘(140人)历年高频重点提升(共500题)附带答案详解
- 2024复工复产安全培训
- 中学生宿舍日常与管理
- 2025中国南光集团限公司校园招聘高频重点提升(共500题)附带答案详解
- 【历史】秦汉时期:统一多民族国家的建立和巩固复习课件-2024-2025学年统编版七年级历史上册
- 社区中心及卫生院65岁及以上老年人健康体检分析报告模板
评论
0/150
提交评论