使用大数据技术实现企业数据仓库的现代化_第1页
使用大数据技术实现企业数据仓库的现代化_第2页
使用大数据技术实现企业数据仓库的现代化_第3页
使用大数据技术实现企业数据仓库的现代化_第4页
使用大数据技术实现企业数据仓库的现代化_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大多数组织的企业数据仓库是使用有15-20年历史的以在线事务处理(OLTP)为中心的技术和体系结构构建的。近年来,这些系统中聚集了越来越多的数据,受传统和移动业务智能产品的推动,查询负载呈指数级增长,这导致数据仓库容易崩溃、超负载运转、成本高昂,可能耗费数小时才能返回查询结果。它们并不满足业务日益增长的数据需求,却管理着数量不断增加的结构化和非结构化数据源,而不能在必需的粒度级别或以充分及时的方式解答运行业务所需的问题。是的,我们已经对其投入了太多,而不能将其直接淘汰。大数据市场动态已经促使形成了新的技术、产品和方法,可用于使这些容易饱和、不灵活的数据仓库现代化,并使它们对业务更敏捷地响应,而不必淘汰现有设备。本文描述了可以使用企业现有技能快速实施并迅速实现投资回报的五种战术。EMC视点基于大规模并行处理(MPP)的数据库提供高效利用成本、横向扩展的数据仓库环境,允许组织利用摩尔定律1提高x86处理器的性能/成本比率。MPP数据库提供非侵入性分析平台/数据仓库,用于对海量数据执行数据发现和挖掘工作。MPP数据库构建于并不昂贵的商用群集上,在管理海量详细数据的同时,可以扩展、补充或替代您现有数据仓库的某些部分,还能提供灵活的查询、报告、控制面板和分析(请参见图1)。好处MPP数据库不仅提供与您现有数据仓库相同的许多好处,还提供以下优势:好处可利用更详细、更强大的维度数据•具有预测零售状况和能源消耗•具有预测零售状况和能源消耗的季节性•通过本地化查明借贷或进行欺诈曝光•可进行数字媒体归属或医疗保健治疗分析的超维度•自动参数化•像任何其他数据库那样的加载和查询能力•并行扫描和处理所有节点•极高的可扩展性和优化的I/O•易于添加节点和存储的线性可扩展性•改进的查询和加载性能1摩尔定律是计算硬件历史上长期以来的观察结果,即集成电路上的晶体管数目每两年大约增加一倍。其结果是,同等成本的计算能力每18-24个月便会翻番一次。/wiki/MPP数据仓库将使更多精细数据用于查询、报告以及控制面板深入查看和横向查看挖掘。可以对详细数据而非数据聚合进行分析。最新的发展现在允许您直接在Hadoop数据文件系统(HDFS)上构建您的数据仓库,以受益于HDFS提供的成本效益、横向扩展体系结构和本机并行度,同时使用组织的基于SQL的标准BI工具提供访问。从分析的角度而言,一旦开发了某个模型,并从这些数据集中点滴积累了业务洞察力,就可以直接将该模型和/或分析洞察力迁移到现有数据仓库中,以便集成到当前的业务智能环境中。另外,分析建模也可以在MPP平台上执行,使其成为生产流程的一部分。好处利用低延迟(高速)数据访问好处利用低延迟(高速)数据访问•推动实时客户购置、预见性维护或网络优化决策•根据当前市场或当地天气情况按需更新分析模型大数据最具有影响的一个发展是数据库内分析的出现。数据库内分析解决了执行高级分析中一个最大的缺点,即,需要将大量数据移来移去。这种需要导致许多组织和数据科学家不得不被迫使用聚合表,因为分析发掘和发现流程中非常容易发生数据传输问题。数据库内分析通过将分析算法移至存储数据的位置,逆转了这一流程,从而加快了建模的开发和部署。数据移动的消除带来了相当多的好处:•移动几个TB的数据,可能会耗费数小时。而使用数据库内分析,移动数据的时间直降为零。•由于数据移动在逻辑处理时间上是最耗时间的活动,减少数据移动则会将处理时间减少至原来的1/N,其中,N是处理单元的数量。对于仅有5个处理器的系统,1TB的处理时间可以减少至原来的1/16,从193分钟降为12分钟(参见图2)。好处管理众多的结构化和非结构化数据源•集成非结构化的索赔描述,以减少欺诈性索赔•利用移动数据生成实时促销•利用传感器读数优化收益和定价Hadoop分布式文件系统(HDFS)提供功能强大但价格实惠的方案,以实现操作数据存储区(ODS)和数据转移区域的现代化。HDFS是一个高效利用成本的大型存储系统,具备固有的计算和分析功能(MapReduce)。HDFS构建于商用群集上,简化了各种数据源的采集和存储,这些数据包括结构化数据、半结构化数据(例如,Web日志和传感器馈送)或者非结构化数据(例如,社交媒体、图像、视频和音频)。一旦纳入Hadoop文件系统,好处管理众多的结构化和非结构化数据源•集成非结构化的索赔描述,以减少欺诈性索赔•利用移动数据生成实时促销•利用传感器读数优化收益和定价一旦采用Hadoop,用户就可以通过采纳新的ELT(提取/加载/转换)模式,极大地强化现有的ELT(提取/加载/转换)例程和开发新的ELT例程。现有的ETL例程可通过Hadoop的本机并行特性大大加速,而新的“数据浓缩”过程则可以进行开发,以生成新的指标(频率、时间跨度、顺序),这些指标可能成为更好的业务绩效预测系数。最终的结果就是一个为数据仓库和分析环境同时馈送数据的单一平台。这种价格实惠、横向扩展的解决方案可用于存储您的所有数据。好处利用从非结构化数据源中点滴积累的新指标、维度和维度属性•利用客户的兴趣、热情、关联和隶属关系改善微细分•利用从非结构化数据源中点滴积累的新指标、维度和维度属性•利用客户的兴趣、热情、关联和隶属关系改善微细分•将传感器生成的性能数据添加到您的制造、供应链或者产品预见性维护模型中使用Hadoop和MapReduce开始构建体验的一种简易方式就是,使用这些技术从非结构化数据源生成新的指标,这些指标可以馈送到企业数据仓库中。这将提供一种功能,即,利用社交媒体、手机、消费者评论、医生便条或索赔描述等数据确定可以成为更好的绩效预测因素的新指标。最新的发展使得组织可以使用其基于SQL的标准BI工具直接在本机并行的HDFS平台中访问组织的结构化表。性价比令人难以置信。它还大大简化了组织处理和分析非结构化数据(日志文件、文本文件、研究出版物)的能力,从而找出非结构化数据中的主要度量单位,并将该数据在同一个Hadoop环境中加载为结构化(表格)格式。使用日志文件分析示例:•将日志文件按原样载入(流入)Hadoop,可采用的文件格式为:.csv格式的HDFS文件,可直接作为外部表映射到查询,或者作为HBase数据库文件用于存放“粉碎的”事件列表。在这种用途中,HAWQ可以使用HBase引擎过滤结果集,然后再响应•使用MapReduce分析每个日志记录,以确定“会话ID”、“用户ID”、“开始时间”、“停止时间”、“传输的数据”等字段•将这些字段加载到仍处于同一个hadoop环境下的表结构中•使用基于SQL的标准BI工具查询该表(参见图4)。这些新指标是从您的详细结构化数据或新的非结构化数据源(例如,社交媒体、手机或传感器生成的数据)中收集的,现在可以很容易地集成到现有业务智能查询、报告、控制面板和分析(参见图5)。好处注意:随着Hadoop继续融入关系数据库市场,实施此战术可以使公司立于不败之地。能够在Hadoop上生成指标和处理数据,利用发展很快的HBase和Hive等工具,以及让BI工具直接连接到HDFS,这可能会使数据仓库专业人员产生疑问:为什么他们需要将数据移动到一个关系数据库。好处•快速地将您的数据仓库环境扩展到使用不常访问的数据源••快速地将您的数据仓库环境扩展到使用不常访问的数据源•支持一次性业务分析请求•在移入企业数据仓库前测试和验证业务使用情形数据联合领域的持续发展现已允许组织根据需要将数据仓库扩展到访问非数据仓库和外部数据源。这种“虚拟数据仓库”或扩展的数据结构可以支持组织快速访问不常引用的数据源的需求,而无需花费数周或数月的时间将这类数据移动到企业数据仓库。这种数据可让用户以虚拟方式访问和分析,如果系统确定需要以更高的频率访问这种数据源,会将其置于数据仓库环境中(参见图6)。注意:对于大规模的统计和计算机学习建模,则需要将大型数据集馈送给模型,因而数据联合将不再适用。在革命性的、改变游戏规则的大数据开发领域,数据仓库现代化听起来有点像进化发展。但是,它目前可以使用现有数据仓库技能来执行,这代表着以通过大数据技术获取立即实现的商业价值和实现企业灵活性为目标的万里长征第一步。您还在等什么?EMC全球服务提供组织所需的战略指导和技术专业知识,用于解决组织面临的业务和信息基础架构难题,并从其信息资产和投资中挖掘最大价值。我们承诺通过卓越的服务提供优异的总体客户体验。我们有遍及世界各地的15,000多名专业人员和支持服务专家,并有一个全球联盟和合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论