2023学年完整公开课版大数据存储_第1页
2023学年完整公开课版大数据存储_第2页
2023学年完整公开课版大数据存储_第3页
2023学年完整公开课版大数据存储_第4页
2023学年完整公开课版大数据存储_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据存储2知识目标大数据存储技术路线数据仓库的重要性数据处理技术的核心问题01能力目标了解大数据存储技术路线掌握数据处理技术的核心问题02学习目标3学习任务了解大数据存储技术路线初步探索数据仓库初步数据处理技术的核心问题4目录01大数据存储技术路线02数据仓库的重要性03数据处理技术核心问题大数据存储技术路线5采用MPP架构的新型数据库集群,重点面向行业大数据,采用SharedNothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本PCServer,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用大数据存储技术路线6围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术,也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。7数据仓库的重要性在互联网高速发展之前,无论是电信运营商,还是大银行,保险公司等都花费了巨额资金建立了自己的企业级数据仓库。这些仓库主要是为企业决策者生成企业的一些关键指标(KPI),有的企业有几千张、甚至上万张KPI报表,有日表,周表,月表等等。这些系统有几个主要特征:技术架构主要基于传统RDBMS+小型机+高端阵列(就是大家说的IOE),当然数据库有部分DB2,Teradata等。8数据仓库的重要性报表基本都是固定的静态报表,产生的方式是T+1(无法即时产生)数据量增长相对缓慢,DW的环境变化很少。最终用户只能看汇总的报表,很少能够基于汇总数据做动态drilldown(钻取)。多数领导基本上认为花了很多钱,但看不出是否值得做,有鸡肋的感觉。最后大家对大量的报表都视而不见了。9数据处理技术的核心问题10总结-新型MPP数据库的价值技术:基于列存储+MPP架构的新型数据库在核心技术上跟传统数据库有巨大差别,是为面向结构化数据分析设计开发的,能够有效处理PB级别的数据量。在技术上为很多行业用户解决了数据处理性能问题。用户价值:新型数据库是运行在x-86PC服务器之上的,可以大大降低数据处理的成本(1个数量级)。11总结-新型MPP数据库的价值未来趋势:新型数据库将逐步与Hadoop生态系统结合混搭使用,用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求。12数据处理技术的核心问题大数据需要多元化的技术来支撑。当前数据处理对企业的挑战越来越大,主要是下面几个原因:第一个原因是数据量已经是上一代的一个数量级了,1个省份级运营商1年就可超越1PB结构化数据。第二个原因是“大数据”关注的更多是用户行为、群体趋势、事件之间的相关性等,而不仅仅是过去的KPI,。这就对数据分析平台对数据的分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论