大数据技术原理与应用-林子雨版-课后习题复习资料_第1页
大数据技术原理与应用-林子雨版-课后习题复习资料_第2页
大数据技术原理与应用-林子雨版-课后习题复习资料_第3页
大数据技术原理与应用-林子雨版-课后习题复习资料_第4页
大数据技术原理与应用-林子雨版-课后习题复习资料_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

/46每个数据节点会为多个块池提供块的存储。可以看出,数据节点是一个物理逻辑,而块池则属于逻辑概念,一个块池是一组块的逻辑集合,块池中的各个块实际上是存储在各个不同的数据节点中的。因此联邦中的一个名称节点失效,也不会影响到与它相关的数据节点继续为其他名称节点提供服务。7、请阐述1.0体系结构中存在的问题。答:(1)存在单点故障;(2)大包大揽”导致任务过重;(3)容易出现内存溢出;(4)资源划分不合理。8、请描述架构中各组件的功能。答:组件功能①处理客户端请求②启动/监控③监控④资源分配与调度①为应用程序申请资源,并分配给内部任务②任务调度、监控与容错①单个节点上的资源管理②处理来自的命令③处理来自的命令9、请描述在框架中执行一个程序时,从提交到完成需要经历的具体步骤答:①用户编写客户端应用程序,向提交应用程序,提交的内容包括程序、启动的命令、用户程序等。中的负责接收和处理来自客户端的请求。接到客户端应用程序请求后,里面的调度器会为应用程序分配一个容器。同时,的应用程序管理器会与该容器所在的通信,为该应用程序在该容器中启动一个被创建后会首先向注册,从而使得用户可以通过来直接查看应用程序的运行状态采用轮询的方式通过协议向申请资源。以“容器”的形式向提出申请的分配资源,一旦申请到资源后,就会与该容器所在的进行通信,要求它启动任务。当要求容器启动任务时,它会为任务设置好运行环境(包括环境变量、包、二进制程序等),然后将任务启动命令写到一个脚本中,最后通过在容器中运行该脚本来启动任务。各个任务通过某个协议向汇报自己的状态和进度,让可以随时掌握各个任务的运行状态,从而可以在任务失败时重启任务。应用程序运行完成后,向的应用程序管理器注销并关闭自己。若因故失败,中的应用程序管理器会监测到失败的情形,然后将其重新启动,直到所有任务执行完毕。请对和1.0框架进行优劣势对比分析。答:(1)大大减少了承担中心服务功能的的资源消耗。1.0中的需要同时承担资源管理、任务调度和任务监控等三大功能,而中的只需要负责资源管理,需要消耗大量资源的任务调度和监控重启工作则交由来完成。由于每个作业都有与之关联的独立的,所以,系统中存在多个作业时,就会同时存在多个,这就实现了监控任务的分布化,不再像 1.0那样监控任务只集中在一个上。1.0既是一个计算框架,又是一个资源管理调度框架,但是只能支持编程模型。而则是一个纯粹的资源调度管理框架,在它上面可以运行包括在内的不同类型的计算框架,默认类型是。因为,中的是可变更的,针对不同的计算框架,用户可以采用任何编程语言自己编写服务于该计算框架的。比如,可以编写一个面向计算框架的,从而使得计算框架可以运行在框架之上。同理,还可以编写面向、等计算框架的,从而使得、等计算框架也可以运行在框架之上。中的资源管理比1.0更加高效。采用容器为单位进行资源管理和分配,而不是以槽为单位,避免了1.0中槽的闲置浪费情况,大大提高了资源的利用率。请分别描述、和的功能。答:①是生态系统的一个组件,提供了类似的语言(包含、、、等操作,同时也支持用户自定义函数),允许用户通过编写简单的脚本来实现复杂的数据分析,而不需要编写复杂的应用程序,会自动把用户编写的脚本转换成作业在集群上运行,而且具备对生成的程序进行自动优化的功能,所以用户在编写程序的时候,不需要关心程序的运行效率,这就大大减少了用户编程时间。是开源的支持作业的计算框架,直接源于框架,核心思想是将和两个操作进一步进行拆分,即被拆分成、、、和,被拆分成、、、、和等,经过分解后的这些元操作可以进行自由任意组合产生新的操作,经过一些控制程序组装后就可形成一个大的作业。通过作业的方式运行作业,提供了程序运行的整体处理逻辑,就可以去除工作流当中多余的阶段,减少不必要的操作,提升数据处理的性能。把应用到数据仓库的优化中,使得性能提升了约100倍。是由公司开发的一种高吞吐量的分布式发布订阅消息系统,用户通过系统可以发布大量的消息,同时也能实时订阅消费消息。设计的初衷是构建一个可以处理海量日志、用户行为和网站运营统计等的数据处理框架。第九章是基于内存计算的大数据计算平台,试述的主要特点。答:具有如下4个主要特点:①运行速度快; ②容易使用; ③通用性; ④运行模式多样。的出现是为了解决的不足,试列举的几个缺陷,并说明具备哪些优点。答:(1)存在以下缺点:①表达能力有限;②磁盘开销大;③延迟高主要有如下优点:的计算模式也属于,但不局限于和操作,还提供了多种数据集操作类型,编程模型比更灵活;提供了内存计算,中间结果直接存放内存中,带来更高的迭代运算效率;基于的任务调度执行机制,要优于的迭代执行机制。美国加州大学伯克利分校提出的数据分析的软件栈认为目前的大数据处理可以分为哪三个类型?答:①复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间;基于历史数据的交互式查询:时间跨度通常在数十秒到数分钟之间;基于实时数据流的数据处理:时间跨度通常在数百毫秒到数秒之间。已打造出结构一体化,功能多样化的大数据生态系统,试述的生态系统。答:的设计遵循“一个软件栈满足不同应用场景 ”的理念,逐渐形成一套完整生态系统,既能够提供内存计算框架,也可以支持即席查询、实时流式计算、机器学习和图计算等。可以部署在资源管理器之上,提供一站式的大数据解决方案。因此,所提供的生态系统同时支持批处理、交互式查询和流数据处理。从架构转向架构可带来哪些好处?答:(1)实现一键式安装和配置、线程级别的任务监控和告警;(2)降低硬件集群、软件维护、任务监控和应用开发的难度;便于做成统一的硬件、计算平台资源池。试述“”的概念。

答:可以运行与之上,与进行统一部署,即“工具架构如图所示,资源管理和调度以来,分布式存储则以来。♦park♦parkYARN

Hwz

zaE3sparkonYARN疙s7、试述如下的几个主要概念:、、阶段、分区、窄依赖、宽依赖。答:①:是弹性分布式数据集()的英文缩写,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。②:是(有向无环图)的英文缩写,反映之间的依赖关系。③阶段:是作业的基本调度单位,一个作业会分为多组任务,每组任务被称为阶段”,或者也被称为任务集”。④分区:一个就是一个分布式对象集合,本质上是一个只读的分区记录集合,每个可以分成多个分区,每个分区就是一个数据集片段。⑤窄依赖:父的一个分区只被一个子的一个分区所使用就是窄依赖。⑥宽依赖:父的一个分区被一个子的多个分区所使用就是宽依赖。对的操作主要分为行动()和转换()两种类型,两种类型操作的区别是什么?答:行动():在数据集上进行运算,返回计算值。转换():基于现有的数据集创建一个新的数据集。第十章试述流数据的概念流数据,即数据以大量、快速、时变的流形式持续到达试述流数据的特点流数据具有如下特征:数据快速持续到达,潜在大小也许是无穷无尽的数据来源众多,格式复杂数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储注重数据的整体价值,不过分关注个别数据数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序试述流计算的需求对于一个流计算系统来说,它应达到如下需求:高性能:处理大数据的基本要求,如每秒处理几十万条数据海量式:支持级甚至是级的数据规模实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别分布式:支持大数据的基本架构,必须能够平滑扩展易用性:能够快速进行开发和部署可靠性:能可靠地处理流数据7列举几个常见的流计算框架目前有三类常见的流计算框架和平台:商业级的流计算平台、开源流计算框架、公司为支持自身业务开发的流计算框架商业级:和较为常见的是开源流计算框架,代表如下::免费、开源的分布式实时计算系统,可简单、高效、可靠地处理大量的流数据S4():开源流计算平台,是通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统公司为支持自身业务开发的流计算框架:(百度)银河流数据处理平台(淘宝)试述流计算的一般处理流程流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算、实时查询服务

数据实时采集数据实时计算用户查询实时查询服务查询结果用户查询实时查询服务查询结果流计算处理流程示意图20试列举几个框架的应用领域框架可以方便地与数据库系统进行整合,从而开发出强大的实时计算系统可用于许多领域中,如实时分析、在线机器学习、持续计算、远程、数据提取加载转换等21的主要术语包括,、、和,请分别简要描述这几个术语.:将流数据描述成一个无限的序列,这些序列会以分布式的方式并行地创建和处理.框架可以方便地与数据库系统进行整合,从而开发出强大的实时计算系统.:将的状态转换过程抽象为。即可以处理,也可以将处理后的作为新的发送给其他.:将和组成的网络抽象成,它可以被提交到集群执行。可视为流转换图,图中节点是一个或,边则表示订阅了哪个。当或者发送元组时,它会把元组发送到每个订阅了该的上进行处理.:将和组成的网络抽象成,它可以被提交到集群执行。可视为流转换图,图中节点是一个或,边则表示订阅了哪个。当或者发送元组时,它会把元组发送到每个订阅了该的上进行处理22一个由哪些组件组成??里面的每个处理组件(或)都包含处理逻辑,而组件之间的连接则表示数据流动的方向27集群中的节点和节点各自运行什么后台进程?这些进程又分别负责什么工作?集群采用“—”的节点方式:节点运行名为“”的后台程序(类似中的“”),负责在集群范围内分发代码、为分配任务和监测故障节点运行名为“”的后台程序,负责监听分配给它所在机器的工作,即根据分配的任务来决定启动或停止进程,一个节点上同时运行若干个进程28试述在框架中的作用使用来作为分布式协调组件,负责和多个之间的所有协调工作。借助于,若进程或进程意外终止,重启时也能读取、恢复之前

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论