大数据技术原理和应用林子雨版课后习题答案解析

上传人：洛*** IP属地：上海上传时间：2022-11-18 格式：DOCX 页数：46 大小：106.24KB 积分：11.9 举报 版权申诉

已阅读5页，还剩41页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

--.z..z.第一章试述信息技术开展史上的3次信息化浪潮及具体容。信息化浪潮发生时间标志解决问题代表公司第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮2010年前后物理网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业试述数据产生方式经历的几个阶段答：运营式系统阶段，用户原创容阶段，感知式系统阶段。试述大数据的4个根本特征答：数据量大、数据类型繁多、处理速度快和价值密度低。试述大数据时代的“数据爆炸〞的特性答：大数据时代的“数据爆炸〞的特性是，人类社会产生的数据一致都以每年50%的速度增长，也就是说，每两年增加一倍。数据研究经历了哪4个阶段？答：人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种式。试述大数据对思维方式的重要影响答：大数据时代对思维方式的重要影响是三种思维的转变：全样而非抽样，效率而非准确，相关而非因果。大数据决策与传统的基于数据仓库的决策有什么区别战略决策和战术决策。大数据决策可以面向类型繁多的、非构造化的海量数据进展决策分析。答：领域金融行业

大数据的应用大数据在高频交易、社区情绪分析和信贷风险分析三大金融创新领域发挥重要作用。汽车行业利用大数据和物联网技术的五人驾驶汽车，在不远的未来将进我们的日常生活互联网行业借助于大数据技术，可以分析客户行为，进展商品推荐和有对性广告投放个人生活大数据还可以应用于个人生活，利用与每个人相关联的“个大数据〞，分析个人生活行为习惯，为其提供更加周全的个化效劳。举例说明大数据的关键技术答：批处理计算，流计算，图计算，查询分析计算大数据产业包含哪些关键技术。答：IT根底设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。定义并解释以下术语：云计算、物联网资源。物与物相连，实现信息化和远程管理控制。详细阐述大数据、云计算和物联网三者之间的区别与联系。大数据、云计算和物联网的区别大数据、云计算和物联网的区别大数据、云计算和物联网的联系大数据侧重于海量数据的存储处理与从整体来看，大数据、云计算和物联网分析，海量数据中发现价值，效劳于生这三者是相辅相成的大数据根植于云产和生活云计算本质上皆在整合和优计算大数据分析的很多技术都来自于化各种IT资源并通过网络已效劳的方云计算云计算的分布式存储和管理系法，廉价地提供给用户；物联网的开展统提供了海量数据的存储和管理能力，目标是实现呜呜向量应用创新是物联没有这些云计算技术作为支撑大数据网的核心存储、分析和处理。第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答：Hadoop的核心是分布式文件系统HDFS和MapReduce，HDFS是谷歌文件系统GFS的开源实现，MapReduces是针对谷歌MapReduce的开源实现。试述Hadoop具有哪些特性。2.试述Hadoop具有哪些特性。答：高可靠性，高效性，高可扩展性，高容错性，本钱低，运行在Linu*平台，支持多种编程语言试述Hadoop在各个领域的应用情况。3.试述Hadoop在各个领域的应用情况。Sunnyvale总部建立了M45——一个包含了4000个处理器和1.5PB容量的Hadooop集群系统；Facebook主要将Hadoop平台用于日志处理，推荐系统和数据仓库等方面；Facebook主要将Hadoop平台用于日志处理，推荐系统和数据仓库等方面；HadoopHadoop在线数据反应、网页聚类等。试述Hadoop的工程构造以及每个局部的具体功能。4.试述Hadoop的工程构造以及每个局部的具体功能。答：答：meon是为Hadoop其他子工程提供支持的常用工具，主要包括文件系统、RPC和串行化库Pigmeon是为Hadoop其他子工程提供支持的常用工具，主要包括文件系统、RPC和串行化库PigChukwaHiveHBaseMapReduceHDFSZookeepermonAvroAvro是为HadoopAvro是为Hadoop和简单的动态语言集成功能。HDFS是Hadoop工程的两个核心之一，它是针对谷歌文件系统的开源实现。HDFS是Hadoop工程的两个核心之一，它是针对谷歌文件系统的开源实现。HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库，一般采用HDFS作为其底层数据存储。HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库，一般采用HDFS作为其底层数据存储。MapReduce是针对谷歌MapReduce的开源实现，用于大规模数据集的并行运算。MapReduce是针对谷歌MapReduce的开源实现，用于大规模数据集的并行运算。Zoookepper是针对谷歌ChubbyZoookepper是针对谷歌Chubby当的协调任务。Hive是一个基于Hadoop的数据仓库工具，可以用于对Hadoop文件中的数据集进展数据整理、特殊查询和分布存储。Hive是一个基于Hadoop的数据仓库工具，可以用于对Hadoop文件中的数据集进展数据整理、特殊查询和分布存储。Pig是一种数据流语言和运行环境，适合于使用Hadoop和MapReducce平台上查Pig是一种数据流语言和运行环境，适合于使用Hadoop和MapReducce平台上查询大型半构造化数据集。询大型半构造化数据集。SqoopSqoopH大哦哦哦配合关系数据库之间交换数据。Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统，可以将各种类型的数据收集成适合Hadoop处理的文件，并保存在HDFS中供Hadoop进展各种MapReduce操作。Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统，可以将各种类型的数据收集成适合Hadoop处理的文件，并保存在HDFS中供Hadoop进展各种MapReduce操作。第三章试述分布式文件系统设计的需求。设计需求透明性

含义 HDFS的实现情况具备访问透明性、位置透只能提供一定程度的访明性、性能、和伸缩透明问透明性，完全支持位性透明性、性能和伸缩透性并发控制客户端对于文件的读写机制非常简单，任何时不应该影响其他客户端都只允许有一个程序写对同一个文件的读写入*个文件文件复制一个文件可以拥有不同 HDFS采用了多副本机位置的多个副本硬件和操作系统的异构可以在不同的操作系统采用Java语言开发具有性和计算机上实现同样的客户端和效劳端程序很好的跨平台能力可伸缩性支持节点的动态参加或退出群，具有很好的伸缩性容错保证文件效劳在客户端或者效劳端出现问题的时候能正常使用具有多副本机制和故障自动检测、恢复机制平安保证系统的平安性平安性较弱分布式文件系统是如何实现较高水平扩展的？(MasterNode)(MasterNode)(NameNode)，另一类叫“从节点〞〔SlaveNode〕或者也被称为“数据节点〞(DataNode)试述HDFS答：在传统的文件系统中，为了提高磁盘读写效率，一般以数据块为单位，恶如不是以字节为单位。答：在传统的文件系统中，为了提高磁盘读写效率，一般以数据块为单位，恶如不是以字节为单位。HDFS中的块，默认一个块大小为64MB，而HDFS中的文件会被拆分成多HDFS在块的大小的设计上明显要大于HDFS中的块，默认一个块大小为64MB，而HDFS中的文件会被拆分成多HDFS在块的大小的设计上明显要大于普通文件系统。试述HDFS的每个文件中各个块所在的数据节点的位置信息；的每个文件中各个块所在的数据节点的位置信息；数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会发送自己所存储的块的列表。数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会发送自己所存储的块的列表。hadoopfs-ls<path>显示<path>指定的文件的详细信息hadoopfs-cat<path>将<path>指定的文件的容输出到标准输出hadoopfs-mkdir<path>创立<path>指定的文件夹hadoopfs-get[-ignorecrc][-crc]<src><localdst>复制<src>指定的文件到本地文件系统<localdst>指定的文件或文件夹。-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。hadoopfs-put<localsrc><dst>从本地文件系统中复制<localsrc个源文件到<dst(stdin)入目标文件系统。hadoopfs-rmr<path>删除<path>指定的文件夹及其的所有文件第四章试述在Hadoop体系架构中HBase与其他组成局部的相互关系。答：HBase利用HadoopMapReduce来处理HBase算；利用Zookeeper作为协同效劳，实现稳定效劳和失败恢复；使用HDFS为HBase层数据导入功能，Pig和Hive为HBase提供了高层语言支持，HBase是BigTable的开源实现。工程BigTableHBase文件存储系统GFSHDFS工程BigTableHBase文件存储系统GFSHDFS海量数据处理MapReduceHadoopMapReduce协同效劳管理ChubbyZookeeper区别传统关系数据库HBase数据类型区别传统关系数据库HBase数据类型关系模型数据模型数据操作多表连接无法实现表与表之间关联存储模式基于行模式存储，元组或基于列存储，每个列族都行会被连续地存储在磁由几个文件保存，不同列盘也中族的文件是别离的--数据索引针对不同列构建复杂的多个索引只有一个行键索引数据维护用最新的当前值去替换记录中原来的旧值更新操作不会删除数据新的版本可伸缩性很难实现横向扩展，纵向扩展的空间也比拟有限轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩HBase有哪些类型的访问接口？答：HBase提供了NativeJavaAPI,HBaseShell,ThriftGateway,RESTGateWay,Pig,Hive等访问接口。列族请以实例说明HBase数据模型。列族答：列限定符InfoName MajorEmail201505001LuoMinMathLuoqq.201505002LiuJunMathliuqq.201505003*ieYou.Mathz.*ieqq.--.z..z.you163.you163.行键单元格ts1ts26.分别解释HBase中行键、列键和时间戳的概念每个时间戳对应一个数据版本是任意的字节数组。字符组成，创立表的时候不需要定义好列。不同的版本。请举个实例来阐述HBase的概念视图和物理视图的不同HBase数据概念视图行键行键时间戳列族contents列族anchor“.n.〞T5Anchor:nsi.=〞N〞T3Anchor:my.look.ca=〞N〞“.n.〞T3Content:html=〞<html>...〞T2Content:html=〞<html>...〞<html>...〞T1Content:html=〞<html>...〞HBase数据物理视图行键时间戳列族anchor“.n.〞T5Anchor:nsi.=〞N〞T4Anchor:my.look.ca=〞N〞行键时间戳列族contents“.n.〞T3Content:html= 〞<html>...〞T2Content:html= 〞<html>...〞T1Content:html= 〞<html>...〞在HBase的概念视图中，一个表可以视为一个稀疏、多维的映射关系。在物理视图中，一个表会按照属于同一列族的数据保存在一起试述HBase各功能组建及其作用〔1〕库函数：到每个客户端；〔2〕一个Master主效劳器：主效劳器Master主要负责表和Region的管理工作；〔3〕许多个Region效劳器：Region效劳器是HBase中最核心的模块，负责维护分配给自己的Region，并响应用户的读写请求请阐述HBase的数据分区机制。答：HBase采用分区存储，一个大的表会被分拆许多个Region，这些Region被分发到不同的效劳器上实现分布式存储。HBase中的分区是如何定位的。通过构建的映射表的每个条目包含两项容，一个是Regionde标识符，另一个是Region效劳器标识，这个条目就标识Region和Region效劳器之间的对应关系，从而就可以知道*个Region被保存在哪个Region效劳器中。试述HBase的三层构造中各层次的名称和作用。层次层次名称作用第一层Zookeeper记录了-ROOT-表的位置信息文件第二层-ROOT-表记录了.META.表的Region位置信息-ROOT-表只能有一个Region。通过-ROOT-表，就可以访问.META.表中的数据第三层.META.表记录了用户数据表的Region位置信息，.META.表可以有多个Region，保存了HBase中所有用户数据表的Region位置信息Region，保存了HBase中所有用户数据表的Region位置信息请阐述HBase的三层构造下，客户端是如何访问到数据的。答：首先访问Zookeeper，获取-ROOT表的位置信息，然后访问-Root-表，获得.MATA.MATARegion具体位于哪个效劳器，最后才会到该Region效劳器读取数据。试述HBase系统根本架构以及每个组成局部的作用。〔1〕客户端客户端包含访问HBase的接口，同时在缓存中维护着已经访问过的Region位置信息，用来加快后续数据访问过程〔2〕Zookeeper效劳器Zookeeper可以帮助选举出一个Master作为集群的总管，并保证在任何时刻总有唯一一个Master在运行，这就防止了Master的“单点失效〞问题〔3〕Master主效劳器Master主要负责表和Region的管理工作：管理用户对表的增加、删除、修改、查询等操作；实现不同Region效劳器之间的负载均衡；在Region分裂或合并后，负责重新调整Region的分布；对发生故障失效的Region效劳器上的Region进展迁移〔4〕Region效劳器Region效劳器是HBase中最核心的模块，负责维护分配给自己的Region，并响应用户的读写请求请阐述Region效劳器向HDFSRegion效劳器部管理一系列Region对象和一个HLog文件，其中，HLog上面的记录文件，它记录着所有的更新操作。每个Region对象又是由多个StoreStoreMemStoreStoreFile，其中，MemStore试述HStore每个Store对应了表中的一个列族的存储。每个Store包括一个MenStore缓存和假设干个StoreFileMenStoreMenStoreMemStoreStoreFileStoreFile试述HLog答：HBase系统为每个Region效劳器配置了一个HLog文件，它是一种预写式日志〔WriteAheadLog〕，用户更新数据必须首先写入日志后，才能写入MemStore缓存，并且，直到MemStore缓存容对应的日志已经写入磁盘，该缓存容才能被刷写到磁盘。在HBase中，每个Region效劳器维护一个HLog，而不是为每个RegionHLog。请说明这种做法的优缺点。Region录追加到单个日志文件中，不需要同时翻开、写入到多个日志文件中。缺点：如果一个Region效劳器发生故障，为了恢复其上次的Region对象，需要将Region效劳器上的对象，需要将Region效劳器上的HLogRegion对象进展拆分，然后分发到其他Region效劳器上执行恢复操作。当一台Region效劳器意外终止时，Master恢复这台发生意外的Region效劳器上的Region,MasterHLogZookeeper会实时监测每个Region效劳器的状态，当*个Region效劳器发生故障时，Zookeeper会通知Master。Master首先会处理该故障Region效劳器上面遗留的HLog文件，这个遗留的HLog文件中包含了来自多个Region对象的日志记录。系统会根据每条日志记录所属的Region对象对HLog到相应RegionRegion重新分配到可用的效劳器中，并把与该Region对象相关的HLog日志记录也发送给相应的效劳器。Region效劳器领取到分配给自己的Region对象以及与之相关的HLog日志记录以后，会重新做一遍日志记录中的各种操作，把日志记录中的数据写入到MemStore缓存中，然后，刷新到磁盘的StoreFile文件中，完成数据恢复。第五章如何准确理解NoSQLNoSQL是一种不同于关系数据库的数据库管理系统设计方式，是对非关系型数据库的一类统称，它采用的数据模型并非传统关系数据库的关系模型，而是类似键/值、列族、文档等非关系模型。试述关系数据库在哪些方面无法满族Web2.0关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面：〔1〕无法满足海量数据的管理需求〔2〕无法满足数据高并发的需求〔3〕无法满足高可扩展性和高可用性的需求请比拟NoSQL比拟标准RDBMSNoSQL备注数据库原理完全支持局部支持RDBMS有关系代数理论作为根底NoSQL没有统一的理论根底数据规模大超大RDBMS很难实现横向扩展，纵向扩展的空间也比拟有限，性能会随着数据规模的增大而降低NoSQL可以很容易通过添加更多设备来支持更大规模的数据数据库模式固定灵活RDBMS需要定义数据库模式，严格遵守数据定义和相关约束条件NoSQL不存在数据库模式，可以自由灵活定义并存储各种不同类型的数据查询效率快可以实现高效的简单查询，但是不具备高度构造化查询等性，复杂查询的性能不尽人意

RDBMS借助于索引机制可以实现快速查询〔包括记录查询和围查询〕很多NoSQL数据库没有面向复杂查询的索引，虽然NoSQL可以使用MapReduce来加速查询，但是，在复杂查询方面的性能仍然不如RDBMS一致性强一致性弱一致性RDBMS严格遵守事务ACID模型，可以保证事务强一致性很多NoSQL数据库放松了对事务ACID四性的要求，而是遵守BASE模型，只能保证最终一致性数据完整性容易实现很难实现任何一个RDBMS都可以很容易实现数据完整性，比方通过主键或者非空约束来实现实体完整性，通过主键、外键来实现参照完整性，通过约束或者触发器来实现用户自定义完整性NoSQL数据库却无法实现扩展性一般好 RDBMS很难实现横向扩展，纵向扩展空间也比拟有限NoSQL在设计之初就充分考虑了横向扩展的需求，可以很容易通过添加廉价设备实现扩展可用性好很好RDBMS在任何时候RDBMS为了保证严格的一致性，只能提大多数NoSQL都能提供较高的可用性标准化是否RDBMS已经标准化〔SQL〕NoSQL还没有行业数据库都有自己的查询语言，很难规应用可维护性复杂复杂RDBMS需要专门的数据库管理员(DBA)维护NoSQL数据库虽然没有DBMS复杂，也难以维护程序接口StoneBraker 认为：程序接口StoneBraker 认为：NoSQL缺乏统一查询语言，将会拖慢NoSQL开展技术支持高低RDBMS经过几十年的开展，已经非常成熟，Oracle等大型厂商都可以提供很好的技术支持NoSQL在技术支持方面仍然处于起步阶段，还不成熟，缺乏有力的技术支持答：键值数据库、列族数据库、文档数据库和图数据库试述键值数据库、列族数据库、文档数据库和图数据库的适用场合和优缺点。数据库数据库适用场合优点缺点键值数据库通过键而是通过值来扩展性好灵活性好，无法存储构造化信查的业务大量写操作时性能高息，条件查询效率较低列族数据库不需要ACID事务持的情形

查找速度快，可扩展性强，容易进展分布式扩展，复杂性低

功能较少，大都不支持强事务一致性文档数据库只在一样的文档上加事务

性能好〔高并发〕，数据构造灵活提供嵌入式文档功中既可以根据键来构建索引，也可以根据容构建索引

缺乏统一的查询语法图形数据库具有高度相互关联系的数据

灵活性高，支持复杂的图形算法，可用于构建复杂的关系图谱

复杂性高，只能支持一定的数据规模试述CAP理论的具体含义。答：所谓的CAP指的是：C〔Consistency〕：一致性，是指任何一个读操作总是能够读到之前完成的写操作的结果，据A:〔Availability〕：可用性，是指快速获取数据，可以在确定的时间返回操作结果，保证每个请求不管成功或者失败都有响应；〔ToleranceofNetwork〕：分区容忍性，是指当出现网络分区的情况时〔即系统中任意信息的丧失或失败不会影响系统的继续运作。请举例说明不同产品在设计时是如何运用CAP试述数据库的ACID四性的含义1Atomicity)指事务必须是原子工作单元，对于其数据修改，要么全都执行，要么全都不执行。2.一致性〔consistency〕指事务在完成时，必须使所有的数据都保持一致状态。Isolation)指并发事务所做的修改必须与其他并发事务所做的修改隔离。Durability)一直保持。试述BASEBASE的根本含义是根本可用〔BasicallyAvailble〕、软状态〔Soft-state〕和最终一致性〔Eventualconsistency〕请解释软状态、无状态、硬状态的具体含义。soft-statehard-state〕〞相对应的一种提法。数据库保存的数据是“硬状态〞时，可以保证数据一致性，即保证数据一直是正确的状态可以有一段时间不同步，具有一定的滞后性。什么是最终一致性？最终一致性根据更新数据后各进程访问到数据的时间和方式的不同，又可以区分为：session〕的上下文中，只要会立新的会话，而且系统保证不会延续到新的会话；程度的一致性，否则就非常难以编程了*回在那个值之前的值A通知进程BB的后续访问将获得A写入的最新值。而与进程A无因果关系的进程C的访问，仍然遵守一般的最终一致性规则A自己执行一个更新操作之后，它自己总是可以访问到更新过的值，绝不会看到旧值试述不一致性窗口的含义。所有后续的访问都可以读取到操作OP写入的最新值。从OP操作完成到后续访问可以最终读取到OP写入的最新值，这之间的时间间隔称为“不一致性窗口〞。14最终一致性根据更新数据后各进程访问到数据的时间和方式的不同，又可以分为哪些不同类型的一致性？会话一致性、单调写一致性、单调写一致性、因果一致性和“读己之所写〞一致性。什么是NewSQLNewSQL是对各种新的可扩展、高性能数据库的简称，这类数据库不仅具有NoSQL对海量数据的存储管理能力，还保持了传统数据库支持ACID和SQL特性。第六章1.试述云数据库的概念。数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。2.与传统的软件使用方式相比，云计算这种模式具有哪些明显的优势"云数据库有哪些特性"答：1〕动态可扩展2)高可用性34)5)高性能6)免维护7)平安试述云数据库的影响。小企业的低本钱数据存储需求。中小企业在IT根底设施方面的投人比拟有限，非常渴望从举例说明云数据库厂商及其代表性产品。答：云数据库供给商主要分为三类。传统的数据库厂商，如Teradata、Oracle、IBMDB2和MicrosoftSQLServer。涉足数据库市场的云供给商，如AmazonGoogle.!、阿里、百度、腾讯等。新兴厂商，如IVertica.LongJumpEnterpriseDB7.试述UMP系统的功能。答：UMP系统是构建在一个大的集群之上的，通过多个组件的协同作业，整个系统实现了1.容灾云数据库必须向用户提供一直可用的数据库连接，当MySQL实例发生故障时，系统必系统会为每个用户创立两个MySQL实例，一个是主库，一个是从库，而且，这两个MySQL实例之间互相把对方设置为备份机，任意一个MySQL实例上面发生的更新都会复制到对方。同时，2.读写别离由于每个用户都有两个MySQL实例，即主库和从库，因此，可以充分利用主从库实现用户UMP系统实现了对于用户透明的读写别离功能，当整个功能被开启时，负责向用户提供访问MySQL数据库效劳的Pro*y效劳器，就会对用户发起的SQL语句进展解析，如果属于写操作,就直接发送到主库，如果是读操作，就会被均衡地发送到主库和从库上执行。3.分库分表UMP(Shard/Horizontal实例。除此以外，用户还需要自己设定分库分表规则，如需要确定分区字段，也就是根据哪个字段进展分库分表MySQL实例上。4.资源管理UMP系统采用资源池机制来管理数据库效劳器上的MySQL还在每台效劳器部采用Cgroup将资源5.资源调度UMP系统中有3种规格的用户，分别是数据量和流量比拟小的用户、中等规模用户以及需要分库分表的用户。多个小规模用户可以共享同一个MySQL实例。对于中等规模的用户，每个用户独占个MySQLMySQLUMP通过MySQL6.资源隔离当多个用户共享同一个MySQL实例或者多个MySQL实例共存在同一个物理机上时，个用户过多消耗系统资源会严重影响到其他用户的操作性能。7.数据平安数据平安是让用户放心使用云数据库产品的关键，尤其是企业用户，数据库中存放了很多业务数据，有些属于商业，一旦泄露，会给企业造成损失。UMP系统设计了多种机制来保证数据平安。SSL数据访问IP记录用户操作日志。SQL拦截。13.UMP系统是如何保障数据平安的"答：SSLSSL(SecureSocketsLayer)Pro*y效劳器实现了完整的MySQL客户端效劳器协议，可以与客户端之间建立SSL数据库连接。数据访问IP白。可以把允许访问云数据库的IP地址放入“白〞，只有白的IP地址才能访问，其他IP地址的访问都会被拒绝，从而进一步保证账户平安。操作记录，可以发现隐藏的平安漏洞。SQL拦截。Pro*y效劳器可以根据要求拦截多种类型的SQL"select〞。15.简述RDS中实例与数据库的概念。答：RDS实例或简称“实例〞，是用户购置RDS效劳的根本单位。在实例中可以创立多个数据库，可以使用常见的数据库客户端连接、管理及使用数据库。可以通过RDS管理控制台或OPENAPI来创立、修改和删除数据库。各实例之间相互独立、资源隔离，相互之间不存在CPUIOPS等抢占问题。但是，同一实例中的不同数据库之间是资源共享的。每个实购置RDS实例的性能，取决于购置RDS实例时所选择的配置，可供用户选择的硬件配置项为存和磁盘容量。RDS数据库或简称“数据库〞，是用户在一个实例下创立的逻辑单元，一个实例可以创立多个数据库，在实例数据库命名唯一，所有数据库都会共享该实例下的资源，如CPU、存、磁盘容量等。RDS不支持使用标准的SQL语句或客户端工具创立数据库，必须使用OPENAPI或RDS管理控制台进展操作。16.列举连接RDSforMySQL数据库的4种方法。答：方法1:使用客户端MySQL-Front访问。使用客户端MySQL-Front,在连接Host框中输3306方法2:使用数据库管理T具Navicat。Navicat_MySQL是一套专为MySQL设计的强3306)、数3:使用MySQL安装MySQLmysql-uuser_name-hyuqianli.mysql.rds.aliyuncs.-P3306-p****其中，-u指定的是用户名，指定的是主机名，指定的是端口，指定的是密码。方法4:使用阿里云控制台iDBCloudiDBCloud的页面如图6-7人数据库账号的密码，便可以登录RDS第七章MapReduce和Hadoop谷歌公司最先提出了分布式并行编程模型MapReduce,HadoopMapReduce是它的开源实现。谷歌的MapReduce运行在分布式文件系统GFS上，与谷歌类似，HadoopMapReduce运行在分布式文件系统HDFS上。相对而言，HadoopMapReduce要比谷歌MapReduce的使用并部署到计算机集群中。MapReduce是处理大数据的有力工具，但不是每个任务都可以使用MapReduceMapReduce怎样的要求。答：适合用MapReduce3.MapReduce模型采用Master(JobTracker)-Slave(TaskTrackerJobTracker和TasKTracker的功能。答：MapReduce框架采用了Master/Slave架构，包括一个Master和假设干个Slave。Master上运行JobTracker,Slave上运行TaskTrackero用户提交的每个计算作业，会被划分成假设千个任务。JobTracker负责作业和任务的调度，监控它们的执行，并重新调度已经失败的任务。TaskTracker负责执行由JobTracker指派的任务。6.试述MapReduce的工作流程(需包括提交任务、Map、Shuffle、Reduce的过程)。9.MapReduce中有这样一个原则:移动计算比移动数据更经济。试述什么是本地计算，并分析为何要采用本地计算。答：MapReduce设计的一个理念就是“计算向数据靠拢〞，而不是“数据向计算靠拢〞，因为移动数据需要大量的网络传输开销，尤其是在大规模数据环境下，这种开销尤为惊人，所以，移动计算要比移动数据更加经济。本地计算：在一个集群中，只要有可能，MapReduce框架就会将MapHDFS减少了节点间的数据移动开销。试说明一个MapReduceMap任务数量和Reduce务数量各是由什么因素决定的。是否所有的MapReduce程序都需要经过Map和Reduce请举例说明。答：不是。对于关系的选择运算，只需要Map过程就能实现，对于关系R中的每个元组t,t。这时的Reduce函数就只是一个恒等式，对输入不做任何变换就直接输出。试分析为何采用binerMapReducebiner"为什么"答：对于每个分区的所有键值对，后台线程会根据key对它们进展存排序(Sort),排序是MapReduce的默认操作。排序完毕后，还包含一个可选的合并(bine)操作。如果用户事先没有定义binerbinerkey的<key,value>的value加起来，比方，有两个键值对<**mu",1>和<**mu",1>,经过合并操作以后就可以得到一个键值对<**mu",2>,减少了键值对的数量。不过，并非所有场合都可以使用biner,因为，biner的输出是Reduce任务的输人，biner绝不能改变Reduce任务最终的计算结果，一般而言，累加、最大值等场景可以使用合并操作。MapReduce程序的输入文件、输出文件都存储在HDFSMap成时的中间结果则存储在本地磁盘中。试分析中间结果存储在本地磁盘而不是HDFS答：第八章1、试述在Hadoop推出之后其优化与开展主要表达在哪两个方面。答：Hadoop对MapReduce和GDFS的许多方面做了有针对性的改良提升。2、试述HDFS1.0中只包含一个名称节点会带来哪些问题。展性、性能和隔离性等问题。HDFS的存空间是由上限的，这限制了系统中数据块、文件和目录的数目。HDFS吞吐量。在隔离性方面，单个名称节点难以提供不同程序之间的隔离性，一个程序可能会影响会影响其他运行的程序。3、请描述HDFSHA架构组成组建及其具体功能。答：在一个典型的HAHDFSHA中，处于待命状态的名称节点提供了“热备份〞，一旦活泼名称节点出现故障，就可以立即切换到待命名称节点，不会影响到系统的正常对外效劳。4、请分析HDFSHA架构中数据节点如何和名称节点保持通信。HDFS信息，报告自己的状态，同时也会处理来自名称节点的指令。6、请描述HDFS联邦中“块池〞的概念，并分析为什么HDFS答：HDFS联邦拥有多个独立的命名空间，其中，每一个命名空间管理属于自己的一组块，这些属于同一个命名空间的块构成一个“块池〞。HDFS不会影响到与它相关的数据节点继续为其他名称节点提供效劳。7、请阐述MapReduce1.0体系构造中存在的问题。答：〔1〕存在单点故障；JobTracker“大包大揽〞导致任务过重；容易出现存溢出；资源划分不合理。组件功能ResourceManager组件功能ResourceManager①处理客户端请求②启动/监控ApplicationMaster③监控NodeManager④资源分配与调度ApplicationMaster务②任务调度、监控与容错NodeManager①单个节点上的资源管理②处理来自ResourceManager的命令②处理来自ResourceManager的命令③处理来自ApplicationMaster的命令9YARN框架中执行一个MapReduce的具体步骤。答：①用户编写客户端应用程序，向YARN提交应用程序，提交的容包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。②YARN中的ResourceManager负责接收和处理来自客户端的请求。接到客户端应用程序请求后，ResourceManager里面的调度器会为应用程序分配一个容器。的应用程序管理器会与该容器所在的NodeManager为该应用程序在该容器中启动一个ApplicationMaster③ApplicationMaster被创立后会首先向ResourceManager注册，从而使得用户可以通过ResourceManager来直接查看应用程序的运行状态④ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请资源。⑤ResourceManager以“容器〞的形式向提出申请的ApplicationMaster分配资源，一旦ApplicationMaster申请到资源后，就会与该容器所在的NodeManager进展通信，要求它启动任务。ApplicationMaster要求容器启动任务时，它会为任务设置好运行环境〔包括JAR后通过在容器中运行该脚本来启动任务。⑦各个任务通过*个RPC协议向ApplicationMaster汇报自己的状态和进度，让ApplicationMaster可以随时掌握各个任务的运行状态，从而可以在任务失败时重启任务。向ResourceManagerApplicationMaster序管理器会监测到失败的情形，然后将其重新启动，直到所有任务执行完毕。10、请对YARN和MapReduce1.0框架进展优劣势比照分析。答：〔1〕大大减少了承当中心效劳功能的ResourceManager的资源消耗。MapReduce1.0中的JobTracker需要同时承当资源管理、任务调度和任务监控等三大功能，而YARN中的ResourceManager只需要负责资源管理，需要消耗大量资源的任务调度和监控重启工作则交由ApplicationMaster来完成。由于每个作业都有与之关联的独立的ApplicationMaster，所以，系统中存在多个作业时，就会同时存在多个ApplicationMaster，这就实现了监控任务的分布化，不再像MapReduce1.0那样监控任务只集中在一个JobTracker上。MapReduce1.0既是一个计算框架，又是一个资源管理调度框架，但是只能MapReduce编程模型。而YARN则是一个纯粹的资源调度管理框架，在它上面可以运行包括MapReduceMapReduce因为，YARN中的ApplicationMaster是可变更的，针对不同的计算框架，用户可以采用任何编程语言自己编写效劳于该计算框架的ApplicationMaster。比方，可MapReduce计算框架的ApplicationMaster，从而使得MapReduce计算框架可以运行在YARN框架之上。同理，还可以编写面向Spark、Storm计算框架的ApplicationMaster，从而使得Spark、Storm等计算框架也可以运行在YARN框架之上。YARN中的资源管理比MapReduce1.0YARN展资源管理和分配，而不是以槽为单位，防止了MapReduce1.0中槽的闲置浪费情况，大大提高了资源的利用率。11、请分别描述Pig、Tez和Kafka的功能。是HadoopSQLPigLatinFilter、GroupBy、Join、OrderBy等操作，同时也支持用户自定义函数〕，允许用户通过编写简单的脚本来实现复杂的数据分析，而不需要编写复杂的MapReduce应用程序，Pig会自动把用户编写的脚本转换成MapReduce作业在Hadoop集群上运行，而且具备对生成的MapReduce程序进展自动优化的功能，Pig用户编程时间。②Tez是Apache开源的支持DAG作业的计算框架，直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步进展拆分，即Map被拆分成Input、Processor、Sort、Merge和Output，Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，经过分解后的这些元操作可以进展自由任意组合产生新的操作，经过一些控制程序组装后就可形成一个大的DAG作业。通过DAG作业的方式运行MapReduce作业，提供了程序运行的整体处理逻辑，就可以去除工作流当中多余的Map阶段，减少不必要的操作，提升数据处理的Hortonworks把Tez应用到数据仓库Hive倍。③Kafka是由LinkedInKafka系统可以发布大量的消息，同时也能实时订阅消费消息。Kafka设计的初衷是构建一个可以处理海量日志、用户行为和运营统计等的数据处理框架。第九章1、Spark是基于存计算的大数据计算平台，试述Spark的主要特点。答：Spark具有如下4个主要特点：①运行速度快；②容易使用；③通用性；④运行模式多样。2、Spark的出现是为了解决HadoopMapReduce的缺乏，试列举HadoopMapReduce的几个缺陷，并说明Spark具备哪些优点。答：〔1〕Hadoop存在以下缺点：①表达能力有限；②磁盘IO开销大；③延迟高Spark主要有如下优点：①Spark的计算模式也属于Map和Reduce了多种数据集操作类型，编程模型比MapReduce更灵活；②Spark提供了存计算，中间结果直接存放存中，带来更高的迭代运算效率；③Spark基于DAG的任务调度执行机制，要优于MapReduce的迭代执行机制。3、美国加州大学伯克利分校提出的数据分析的软件栈BDAS认为目前的大数据处理可以分为哪三个类型？答：①复杂的批量数据处理：时间跨度通常在数十分钟到数小时之间；②基于历史数据的交互式查询：时间跨度通常在数十秒到数分钟之间；③基于实时数据流的数据处理：时间跨度通常在数百毫秒到数秒之间。4、Spark已打造出构造一体化，功能多样化的大数据生态系统，试述Spark的生态系统。答：Spark的设计遵循“一个软件栈满足不同应用场景〞的理念，逐渐形成一套完整生态系统，既能够提供存计算框架，也可以支持SQLSpark可以部署在资源管理器YARN站式的大数据解决方案。因此，Spark所提供的生态系统同时支持批处理、交互式查询和流数据处理。5、从Hadoop+Storm架构转向Spark架构可带来哪些好处？答：〔1〕实现一键式安装和配置、线程级别的任务监控和告警；〔2〕降低硬件集群、软件维护、任务监控和应用开发的难度；6、试述“SparkonYARN〞的概念。答：Spark可以运行与YARN之上，与Hadoop“SparkonYARNYARNHDF7、试述如下Spark的几个主要概念：RDD、DAG、阶段、分区、窄依赖、宽依赖。答：①RDD：是弹性分布式数据集〔ResilientDistributedDataset〕的英文缩写，是分布式存的一个抽象概念，提供了一种高度受限的共享存模型。②DAG：是DirectedAcyclicGraph〔有向无环图〕的英文缩写，反映RDD之间的依赖关系。段〞，或者也被称为“任务集〞。④分区：一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可以分成多个分区，每个分区就是一个数据集片段。⑤窄依赖：父RDD的一个分区只被一个子RDD的一个分区所使用就是窄依赖。⑥宽依赖：父RDD的一个分区被一个子RDD的多个分区所使用就是宽依赖。8、Spark对RDD的操作主要分为行动〔Action〕和转换〔Transformation〕两种类型，两种类型操作的区别是什么？答：行动〔Action〕：在数据集上进展运算，返回计算值。转换〔Transformation〕：基于现有的数据集创立一个新的数据集。第十章1试述流数据的概念2试述流数据的特点流数据具有如下特征：数据快速持续到达，潜在大小也许是无穷无尽的数据来源众多，格式复杂数据量大，但是不十分关注存储，一旦经过处理，要么被丢弃，要么被归档存储注重数据的整体价值，不过分关注个别数据4试述流计算的需求对于一个流计算系统来说，它应到达如下需求：高性能：处理大数据的根本要求，如每秒处理几十万条数据海量式：支持TB级甚至是PB级的数据规模实时性：保证较低的延迟时间，到达秒级别，甚至是毫秒级别分布式：支持大数据的根本架构，必须能够平滑扩展易用性：能够快速进展开发和部署可靠性：能可靠地处理流数据7列举几个常见的流计算框架目前有三类常见的流计算框架和平台：商业级的流计算平台、开源流计算框架、公司为支持自身业务开发的流计算框架1商业级：IBMInfoSphereStreams和IBMStreamBase2较为常见的是开源流计算框架，代表如下：TwitterStorm：免费、开源的分布式实时计算系统，可简单、高效、可靠地处理大量的流数据!S4〔SimpleScalableStreaming可扩展的、分区容错的、可插拔的流式系统3公司为支持自身业务开发的流计算框架：FacebookPumaDstream〔百度〕银河流数据处理平台〔淘宝〕8试述流计算的一般处理流程流计算的处理流程一般包含三个阶段：数据实时采集、数据实时计算、实时查询效劳流计算处理流程示意图20试列举几个Storm框架的应用领域Storm框架可以方便地与数据库系统进展整合，从而开发出强大的实时计算系统Storm可用于许多领域中，如实时分析、在线机器学习、持续计算、远程RPC、数据提取加载转换等21Storm的主要术语包括BoltsTopology和StreamGroupings要描述这几个术语将流数据Stream描述成一个无限的Tuple序列，这些Tuple序列会以分布式的方式并行地创立和处理Storm框架可以方便地与数据库系统进展整合，从而开发出强大的实时计算系统Bolt：Storm将Streams的状态转换过程抽象为BoltBolt即可以处理Tuple将处理后的Tuple作为新的Streams发送给其他BoltTopologStorm将Spouts和Bolts组成的网络抽象成TopologTopologySpout或，边则表示订阅了哪个Stream。当Spout或者Bolt发送元组时，它会把元组发送到每个订阅了该StreamBoltTopologStorm将Spouts和Bolts组成的网络抽象成TopologTopologySpout或，边则表示订阅了哪个Stream。当Spout或者Bolt发送元组时，它会把元组发送到每个订阅了该StreamBolt22一个Topolog由哪些组件组成？Topology里面的每个处理组件〔Spout或Bolt的连接则表示数据流动的方向27Storm集群中的Master节点和Work节点各自运行什么后台进程？这些进程又分别负责什么工作？Storm集群采用“Master—Worker〞的节点方式：Master节点运行名为“Nimbus〞的后台程序〔类似Hadoop中的“JobTracker〞〕，负责在集群围分发代码、为Worker分配任务和监测故障Worker“Supervisor根据Nimbus分配的任务来决定启动或停顿Worker进程，一个Worker节点上同时运行假设干个Worker28试述Zookeeper在Storm框架中的作用Storm使用Zookeeper来作为分布式协调组件，负责Nimbus和多个Supervisor之间的所有协调工作。借助于Zookeeper，假设Nimbus进程或Supervisor进程意外终止，重启时也能读取、恢复之前的状态并继续工作，使得Storm极其稳定31试述Storm框架的工作流程Storm的工作流程如下列图所示：所有Topology任务的提交必须在StormNimbus节点分配给其他SupervisorNimbus节点首先将提交的Topology进展分片，分成一个个Task的Supervisor，并将Task和Supervisor相关的信息提交到Zookeeper集群上Supervisor会去Zookeeper集群上认领自己的，通知自己的Worker进程进展TaskTopology之后，就会创立Spout/Bolt实例并进展序列化。之后，将序列化的组件发送给所有的任务所在的机器(即Supervisor每一个任务上反序列化组件第11章1、试述BSP模型中的超步的3个组件及具体含义。地存中的值，不同处理器的计算任务都是异步并且独立的。Put获取〔Get〕操作③栅栏同步。当一个处理器遇到“路障〞〔或栅栏〕，会等其他所有的处理器完成它们的计算步骤；每一次同步也是一个超步的完成和下一个超步的开场。2、Pregel为什么选择一种纯消息传递模型？答：采用这种做法主要基于以下两个原因。①消息传递具有足够的表达能力，没有必要使用远程读取或共享存的方式。②有助于提升系统整体性能。大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的时间延迟；Pregel的消息模式采用异步和批量的方式传递消息，因此可以缓解远程读取的延迟。4、请简述Aggregator的作用，并以具体Aggregator的作用，并以具体Aggregator的例子做说明。答：Aggregator提供了一种全局通信、监控和数据查看的机制。Aggregator的聚合功能，允许在整型和字符串类型上执行最大值、最小值、求和操作，比方可以定义一个“Sum〞Aggregator来统计每个顶点的出射边数量，最后相加可以得到整个图的边的数量。Aggregator还可以实现全局协同的功能，比方当可以设计“and〞Aggregator来决定在*个超步中pute〔〕函数是否执行*些逻辑分支，只有当“and〞Aggregator显示所有顶点都满足了*条件时，才去执行这些逻辑分支。6、简述Pregel的执行过程。答：〔1〕选择集群中的多台机器执行图计算任务，每台机器上运行用户程序的一个副本，其中，有一台机器会被选为Master，其他机器作为Worker。〔2〕Master把一个图分成多个分区，并把分区分配到多个Worker。〔3〕Master会把用户输入划分成多个局部，通常是基于文件边界进展划分。〔4〕Master向每个Worker，Worker会通知〔5〕计算过程完毕后，Master会给所有的Worker发送指令，通知每个Worker对自己的计算结果进展持久化存储。8、试述Worker和Master的作用。答：Worker的作用：借助于名称效劳系统定位到Master的位置，并向Master会为每个Worker分配一个唯一的IDWorker会对自己所管辖分区中的每个顶点进展遍历，并调用顶点上的pute()函数。MasterCheckPoint会通知所有的Worker把自己管辖的分区的状态写入持久化存储设Master周期地ping收到ping消息后向Master如果在指定的时间间隔没有收到*个Worker的反应，Master就会将它标为“失效〞，并启动恢复模式。第12章1、试述数据可视化的概念。式表示，可以从不同的维度观察数据，从而对数据进展更深入的观察和分析。2、试述数据可视化的重要作用。答：①观测、跟踪数据。利用变化的数据生成实时变化的可视化图表，可以让人们一眼看出各种参数的动态变化过程，有效跟踪各种参数值。②分析数据。利用可视化技术，实时呈现当前分析结果，引导用户参与分析过程，根据用户反应信息执行后续分析操作，完成用户与分析算法的全程交互，实现数据分析算法与用户领域知识的完美结合。③辅助理解数据。帮助普通用户更快、更准确地理解数据背后的定义。④增强数据吸引力。枯燥的数据被制成具有强大视觉冲击力和说服力的图像，可以大大增强读者的阅读兴趣。3、可视化工具主要包含哪些类型？各自的代表产品有哪些？E*celGoogleChartAPID3Visual.lyRaphaelFlotTableauModestMapsLeafletPolyMaps、OpenLayers、Kartography、GoogleFushionTables、QuanumGIS〕

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据技术原理和应用林子雨版课后习题答案解析

文档简介

温馨提示

最新文档

评论

大数据技术原理和应用林子雨版课后习题答案解析

文档简介

温馨提示

最新文档

评论

相关文档