浅谈大数据生态圈

上传人：熏*** IP属地：江西上传时间：2023-01-12 格式：PPT 页数：22 大小：2.29MB 积分：12 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

浅谈大数据生态体系Talkingaboutbigdataecosystem何为大数据大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据的特点：一是数据体量巨大。至少是PB级别以上量级的数据二是数据类型多样。现在的数据类型不仅是文本形式，更多的是图片、视频、音频、地理位置信息等多类型的数据，个性化数据占绝对多数。三是处理速度快。数据处理遵循“1秒定律”，可从各种类型的数据中快速获得高价值的信息。四是价值密度低。以视频为例，一小时的视频，在不间断的监控过程中，可能有用的数据仅仅只有一两秒。大数据，首先你要能存的下大数据传统的文件系统是单机的，不能横跨不同的机器。HDFS（HadoopDistributedFileSystem）的设计本质上是为了大量的数据能横跨成百上千台机器，但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据，你引用的是一个文件路径，但是实际的数据存放在很多不同的机器上。你作为用户，不需要知道这些，就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。那什么是HDFS（HadoopDistributedFileSystem）？一个分布式存储系统GoogleGFS的开源实现数据存储采用master/slave架构模式，主要由Client、NameNode、SecondaryNameNode和DataNode组成HDFS：体系结构示意图NameNode管理文件系统的命名空间和客户端对文件的访问操作。DataNode负责处理文件系统客户端的文件读写请求，并在NameNode的统一调度下进行数据块的创建、删除和复制工作。ClientNameNodeDataNodeblockblockblockblockblock.......DataNodeblockblockblockblockblock..............DataNodeblockblockblockblockblock.......数据请求读写文件相关操作处理数据存的下数据之后，你就开始考虑怎么处理数据虽然HDFS可以为你整体管理不同机器上的数据，但是这些数据太大了。一台机器读取成TB或者PB量级的数据，一台机器慢慢跑也许需要好几天甚至好几周。对于很多公司来说，单机处理是不可忍受的，比如微博要更新24小时热博，它必须在24小时之内跑完这些处理。那么我如果要用很多台机器处理，我就面临了如何分配工作，如果一台机器挂了如何重新启动相应的任务，机器之间如何互相通信交换数据以完成复杂的计算等等。为了解决以上可能出现的问题，人们正式提出了MapReduce/Tez/Spark等等框架。MapReduce是第一代计算编程模型，Tez和Spark是第二代。MapReduce的设计，采用了极简化的计算模型，只有Map和Reduce两个计算过程，通过这个模型，已经可以处理大数据领域很大一部分问题了。Hadoop概述Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）和MapReduce（GoogleMapReduce的开源实现）为核心的Hadoop，为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上，形成分布式系统；MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以，用户可以利用Hadoop轻松地组织计算机资源，从而搭建自己的分布式计算平台，并且可以充分利用集群的计算和存储能力，完成海量数据的处理什么是MapReduce？找出一仓库黄豆中最大的n个黄豆如何解决？一仓库黄豆一桶黄豆一桶黄豆一桶黄豆一桶黄豆……筛子筛子筛子筛子黄豆黄豆黄豆黄豆一桶黄豆筛子黄豆找N个人一起筛黄豆，最后把每个人筛出的K个黄豆放在一起（总共N*K个黄豆），再交由一个人筛出N*K个黄豆里最大的K个（分布式计算）MAPReduceMapReduce模型概述一个MapReduce作业（job）通常会把输入的数据集切分为若干独立的数据块，由map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败的任务。Map-Reduce流程MapReduce模型首先将用户的原始数据源进行分块，然后分别交给不同的Map任务区处理。Map任务从输入中解析出Key/Value对集合，然后对这些集合执行用户自行定义的Map函数得到中间结果，并将该结果写入本地硬盘。Reduce任务从硬盘上读取数据之后，会根据key值进行排序，将具有相同key值的组织在一起。最后用户自定义的Reduce函数会作用于这些排好序的结果并输出最终结果。MapReduce的缺点Hadoop的一个最主要缺陷：MapReduce计算模型延迟过高，无法胜任实时、快速计算的需求，因而只适用于离线批处理的应用场景。1、表达能力有限：计算都必须要转化为Map和Reduce两个操作，但这并不是适合所有的情况，难以描述复杂的数据处理过程；2、磁盘IO开销大：每次执行时都需要从磁盘读取数据，并且在计算完成后需要将中间结果写入磁盘，IO开销较大；3、延迟高：一次计算可能需要分解成一系列按顺序执行的MapReduce任务，任务之间的衔接由于涉及到IO开销，会产生较高的延迟。而且在前一任务执行完成之前，其他任务无法开始，因此难以胜任复杂、多阶段的计算任务。第二代计算框架—Spark尽管MapReduce极大的简化了大数据分析，但是随着大数据需求和使用模式的扩大，用户的需求也越来越多，MapReduce显得力不从心1.更复杂的多重处理需求（比如迭代计算,机器学习（ML），图算法Graph）；2.低延迟的交互式查询需求而MapReduce计算模型的架构导致上述两类应用先天缓慢，用户迫切需要一种更快的计算模型，来补充MapReduce的先天不足。于是，Spark就出现了Spark架构Spark的优点（1）运行速度快：Spark使用先进的DAG执行引擎，以支持循环数据流和内存计算，基于内存的执行速度可比HadoopMapReduce快上百倍，基于磁盘的执行速度也能快十倍；（2）易使用：Spark支持使用Scala、Java、Python和R语言进行编程，简洁的API设计有助于用户轻松构建并行程序。（3）通用性：Spark提供了完整而强大的技术栈，包括SQL查询（SparkSQL）、流式计算（SparkStreaming）、机器学习（MLlib）和图算法（GraphX）组件；（4）运行模式多样：Spark可以运行于独立的集群模式中，或运行于Hadoop中，也可以运行于AmazonEC2等云环境中，并且可以访问HDFS、HBase、Hive等多种数据源；HBase数据库HBase的特点？大：一个表可以有上亿行，上百万列；面向列：面向列(族)的存储和权限控制，列(族)独立检索；稀疏：对于为空(null)的列，并不占用存储空间，因此，表可以设计得非常稀疏。HBase的是啥？HBase建立在HDFS之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于NoSQL和RDBMS之间，仅能通过行键(rowkey)和行键序列来检索数据，仅支持单行事务(可通过Hive支持来实现多表联合等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与Hadoop一样，HBase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。Hbase的架构Hive介绍Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。Hive和Hbase区别Hive：Hive是Hadoop数据仓库，严格来说，不是数据库，主要是让开发人员能够通过SQL来计算和处理HDFS上的结构化数据，适用于离线的批量数据计算。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce。应用场景：Hive适合用来对一段时间内的数据进行分析查询，例如，用来计算趋势或者网站的日志。Hive不应该用来进行实时的查询。因为它需要很长时间才可以返回结果。Hbase非常适合用来进行大数据的实时查询。Facebook用Hbase进行消息和实时的分析。它也可以用来统计Facebook的连接数。Hive是一个数据仓库，那么Hive和传统意义上的数据库有什么不一样的呢？1.hive和关系数据库存储文件的系统不同，hive使用的是hadoop的HDFS（hadoop的分布式文件系统），关系数据库则是服务器本地的文件系统.2.hive使用的计算模型是mapreduce，而关系数据库则是自己设计的计算模型.3.关系数据库都是为实时查询的业务进行设计的，而hive则是基于hadoop的，是为海量数据做数据挖掘设计的，实时性很差；实时性的区别导致hive的应用场景和关系数据库有很大的不同。4.Hive很容易扩展自己的存储能力和计算能力，这个是继承hadoop的，而关系数据库在这个方面要比数据库差很多。1.低延迟和高性能2.可扩展3.高可靠性4.高容错性5.编程模型简单6.支持多种编程语言7.支持本地模式

人人文库> 全部分类> 教育资料 > 课设设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

浅谈大数据生态圈

文档简介

温馨提示

最新文档

评论

浅谈大数据生态圈

文档简介

温馨提示

最新文档

评论

相关文档