大数据技术原理与应用林子雨版课后习题答案

上传人：简*** IP属地：河北上传时间：2024-12-04 格式：PDF 页数：36 大小：10.25MB 积分：12 举报 版权申诉

已阅读5页，还剩31页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一章

1.试述信息技术开展史上的3次信息化浪潮及具体内容。

信息化浪潮发生时间标志解决问题代表公司

第一次浪潮1980年前后个人计算机信息处理IntekAMD、IBM、

苹果、微软、联想、

戴尔、惠普等

第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里

巴巴、百度、腾讯

等

第三次浪潮2010年前后物理网、云计信息爆炸将涌现出一批新的

算和大数据市场标杆企业

2.试述数据产生方式经历的几个阶段

答：运营式系统阶段，用户原创内容阶段，感知式系统阶段。

3.试述大数据的4个根本特征

答：数据量大、数据类型繁多、处理速度快和价值密度低。

4.试述大数据时代的“数据爆炸”的特性

答：大数据时代的“数据爆炸”的特性是，人类社会产生的数据一致都以每年50%的速度

增长，也就是说，每两年增加一倍。

5.数据研究经历了哪4个阶段？

答：人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。

6.试述大数据对思维方式的重要影响

答：大数据时代对思维方式的重要影响是三种思维的转变：全样而非抽样，效率而非精确,

相关而非因果。

7.大数据决策与传统的基于数据仓库的决策有什么区别

答：数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力，

能结合历史数据和实时数据实现查询分析和自动规那么触发，从而提供对战略决策和战术

决策。

大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。

8.举例说明大数据的根本应用

答:

领域大数据的应用

金融行业大数据在高频交易、社区情绪分析和信贷风险分析三大金融创

新领域发挥重要作用。

汽车行业利用大数据和物联网技术的五人驾驶汽车，在不远的未来将走

进我们的日常生活

互联网行业借助于大数据技术，可以分析客户行为，进行商品推荐和有针

对性广告投放

个人生活大数据还可以应用于个人生活，利用与每个人相关联的“个人

大数据”，分析个人生活行为习惯，为其提供更加周全的个性

化效劳。

9.举例说明大数据的关键技术

答：批处理计算，流计算，图计算，查询分析计算

10.大数据产业包含哪些关键技术。

答：IT根底设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。

11.定义并解释以下术语：云计算、物联网

答：云计算：云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力，用户

只需要在具备网络接入条件的地方，就可以随时随地交得所需的各种IT资源。

物联网是物物相连的互联网，是互联网的延伸，它利用局部网络或互联网等通信技术

把传感器、控制器、机器、人类和物等通过新的方式连在一起，形成人与物、物与物相连,

实现信息化和远程管理控制。

12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

大数据、云计算和物联网的区别大数据、云计算和物联网的联系

大数据侧重于海量数据的存储、处理与从整体来看，大数据、云计算和物联网

分析，海量数据中发现价值，效劳于生这三者是相轴相成的。大数据根植于云

产和生活；云计算本质上皆在整合和优计算，大数据分析的很多技术都来自于

化各种IT资源并通过网络己效劳的方云计算，云计算的分布式存储和管理系

法，廉价地提供给用户；物联网的开展统提供了海量数据的存储和管理能力，

目标是实现呜呜向量，应用创新是物联没有这些云计算技术作为支撑，大数据

网的核心分析就无从谈起。物联网的传感器源源

不断的产生大量数据，构成了大数据的

重要数据来源，物联网需要借助于云计

算和大数据技术，实现物联网大数据的

存储、分析和处理。

第二章

L试述hadoop和谷歌的mapreduce、gfs等技术之间的关系

答：Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的

开源实现，MapReduces是针对谷歌MapReduce的开源实现。

2.试述Hadoop具有哪些特性。

答：高可靠性，高效性，高可扩展性，高容错性，本钱低，运行在Linux平台，支持多种

编程语言

3.试述Hadoop在各个领域的应用情况。

答:2007年，雅虎在Sunnyvale总部建立了M45--------个包含了4000个处理器和1.5PB容

量的Hadooop集群系统；

Facebook主要将Hadoop平台用于日志处理，推荐系统和数据仓库等方面；

百度主要使用Hadoop于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据

反应、网页聚类等。

4.试述Hadoop的匚程结构以及每个局部的具体功能。

答：

PigChukwaHiveHBase

MapReduceHDFSZookeeper

CommonAvro

Commeon是为Hadoop其他子工程提供支持的常用工具，主要包括文件系统、RPC和串行化

库

Avro是为Hadoop的子工程，用于数据序列化的系统，提供了丰富的数据结构类型、快速

可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言

集成功能。

退出群，具有很好的伸缩性

容错保证文件效劳在客户端具有多副本机制和故障

或者效劳端出现问题的自动检测、恢复机制

时候能正常使用

平安保证系统的平安性平安性较弱

2.分布式文件系统是如何实现较高水平扩展的？

分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，

一类叫“主节点”(MasterNode)或者也被称为“名称结点”(NameNode),另一类叫“从节

点”(SlaveNode)或者也被称为“数据节点”(DataNode)

3.试述HDFS中的块和普通文件系统中的块的区别。

答：在传统的文件系统中，为了提高磁盘读写效率，一般以数据块为单位，恶如不是以字

节为单位。

HDFS中的块，默认一个块大小为64MB,而HDFS中的文件会被拆分成多个块，每个块

作为独立的单元进行存储。HDFS在块的大小的设计上明显要大于普通文件系统。

4.试述HDFS中的名称节点和数据节点的具体功能。

答：名称节点负责管理分布式文件系统系统的命名空间，记录分布式文件系统中的每个文

件中各个块所在的数据节点的位置信息；

数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端

或者是名称节点的调度来进行数据的存储和检索，并向名称节点定期发送自己所存储的块

的列表。

hadoopfs-Is＜path＞显示＜path＞指定的文件的详细信息

hadoopfs-cat＜path＞将＜path＞指定的文件的内容输出到标准输出

hadoopfs-mkdir＜path＞创立＜path＞指定的文件夹

hadoopfs-get[-ignorecrc][-crc]＜src＞＜localdst＞复制＜src＞指定的文件到本地文

件系统〈localdst》指定的文件或文件夹。-ignorecrc选项复制CRC校验失败的文件。使用

-crc选项复制文件以及CRC信息。

hadoopfs-put＜localsrc＞＜dst＞从本地文件系统中复制＜localsrc》指定的单个或多个源

文件到＜dst＞指定的目标文件系统中。也支持从标准输入(stdin)中读取输入写入目标文件

系统。

hadoopfs-rmr＜path＞删除＜path＞指定的文件夹及其的所有文件

第四章

1.试述在Hadoop体系架构中HBase与其他组成局部的相互关系。

答：HBase利用HadoopMapReduce来处理HBase中的海量数据，实现高性能计算；

利用Zookeeper作为协同效劳,实现稳定效劳和失败恢复；使用HDFS作为高可靠的底

层存储，利用廉价集群提供海量数据存储能力;Sqoop为HBase的底层数据导入功能，Pig

和Hive为HBase提供了高层语言支持,HBase是BigTable的开源实现。

2.请阐述HBase和BigTable的底层技术的对应关系

答：

工程BigTableHBase

文件存储系统GFSHDFS

海量数据处理MapReduceHadoopMapReduce

协同效劳管理ChubbyZookeeper

3.请阐述HBase和传统关系数据库的区别

生口.•

区别传统关系数据库HBase

数据类型关系模型数据模型

数据操作插入、删除、更新、查询、插入、查询、删除、清空，

多表连接无法实现表与表之间关

联

存储模式基于行模式存储，元组或基于列存储，每个列族都

行会被连续地存储在磁由几个文件保存，不同列

盘也中族的文件是别离的

数据索引针对不同列构建复杂的只有一个行键索引

多个索引

数据维护用最新的当前值去替换更新操作不会删除数据

记录中原来的旧值旧的版本，而是生成一个

新的版本

可伸缩性很难实现横向扩展，纵向轻易地通过在集群中增

扩展的空间也比拟有限加或者减少硬件数量来

实现性能的伸缩

4.HBase有哪些类型的访问接口？

答:HBase提供了NativeJavaAPI,HBaseShell,ThriftGateway,RESTGateWay,Pig,

Hive等访问接口。

5.请以实例说明HBase数据模型。

列族

列限定符

答：

/Info

NameMajorEmail

201505001LuoMinMath

⑴行键是唯一的，在一个表里只出现一次，否那么就是在更新同一行，行键可以是任意的

字节数组。

⑵列族需要在创立表的时候就定义好，数量也不宜过多.歹U族名必须由可打印字符组成，

创立表的时候不需要定义好列。

⑶时间戳，默认由系统指定，用户也可以显示设置。使用不同的时间戳来区分不同的版本。

7.请举个实例来阐述HBase的概念视图和物理视图的不同

HBase数据概念视图

行键时间戳列族contents列族anchor

U//T5Anchor:cnnsi

二〃CNN”

T3Anchormy.look.

ca="CNN"

〃“

T3Content:html=

T2Content:html=

T1Content:html=

"<html>...w

HBase数据物理视图

行键时间戳歹！^anchor

II〃T5Anchorcnnsi

二"CNN"

T4Anchormy.look.

ca=,zCNN"

行键时间戳列族contents

"uT3Content:html=

T2Content:html=

T1Content:html=

在HBase的概念视图中，一个表可以视为一个稀疏、多维的映射关系。

在物理视图中，一个表会按照属于同一列族的数据保存在一起

8.试述HBase各功能组建及其作用

[1]库函数：链接到每个客户端;

〔2〕一个Master主效劳器：主效劳器Master主要负责表和Region的管理工作；

⑶许多个Region效劳器：Region效劳器是HBase中最核心的模块，负责维护分配给

自己的Region,并响应用户的读写请求

9.请阐述HBase的捌居分区机制。

答：HBase采用分区存储，一个大的表会被分拆许多个Region,这些Region会被分发

到不同的效劳器上实现分布式存储。

10.HBase中的分区是如何定位的。

通过构建的映射表的每个条目包含两项内容，一个是Regionde标识符，另一个是Region

效劳器标识,这个条目就标识Region和Region效劳器之间的对应关系，从而就可以知

道某个Region被保存在哪个Region效劳器中。

11.试述HBase的三层结构中各层次的名称和作用。

层次名称作用

第一层Zookeeper记录了-ROOT-表的位置信息

文件

第二层-ROOT-表记录了.META.表的Region位置信息

-ROOT-表只能有一个Region。通过-ROOT-表，就可以访

问.META.表中的数据

第三层.META.表记录了用户数据表的Region位置信息，.META.表可以有多个

Region,保存了HBase中所有用户数据表的Region位置信息

12.请阐述HBase的三层结构下,客户端是如何访问到数据的。

答：首先访问Zookeeper,获取-ROOT表的位置信息，然后访问-Root-表，获得.MATA.

表的信息，接着访问.MATA.表，找到所需的Region具体位于哪个Region效劳器，最后

才会到该Region效劳器读取数据。

13.试述HBase系统根本架构以及每个组成局部的作用。

〔1〕客户端

客户端包含访问HBase的接口，同时在缓存中维护着已经访问过的Region位置信息,

用来加快后续数据访问过程

⑵Zookeeper效劳器

Zookeeper可以帮助选举出一个Master作为集群的总管，并保证在任何时刻总有唯

——个Master在运行，这就防止了Master的"单点失效”问题

〔3〕Master

主效劳器Master主要负责表和Region的管理工作：管理用户对表的增加、删除修

改、查询等操作；实现不同Region效劳器之间的负载均衡；在Region分裂或合并后，

负责重新调整Region的分布;对发生故障失效的Region效劳器上的Region进行迁移

⑷Region效劳器

Region效劳器是HBase中最核心的模块，负责维护分配给自己的Region，并响应用

户的读写请求

14.请阐述Region效劳器向HDFS文件系统中读写数据的根本原理

Region效劳器内部管理一系列Region对象和一个HLog文件，其中，HLog是磁盘上面

的记录文件，它记录着所有的更新操作.每个Region对象又是由多个Store组成的,每

个Store对象了表中的一个列族的存储。每个Store又包含了MemStore和假设干个

StoreFile,其中，MemStore是在内存中的缓存。

15.试述HStore的工作原理

每个Store对应了表中的一个列族的存储。每个Store包括一个MenStore缓存和假设干

个StoreFile文件。MenStore是排序的内存缓冲区,当用户写入数据时,系统首先把数据

放入MenStore缓存,当MemStore缓存满时，就会刷新到磁盘中的一个StoreFile文件

中，当单个StoreFile文件大小超过一定阈值时，就会触发文件分裂操作。

16.试述HLog的工作原理

答：HBase系统为每个Region效劳器配置了一个HLog文件,它是一种预写式日志

[WriteAheadLog）,用户更新数据必须首先写入日志后，才能写入MemStore缓存，

并且，直到MemStore缓存内容对应的日志已经写入磁盘，该缓存内容才能被刷写到磁盘。

17.在HBase中，每个Region效劳器维护一个HLog,而不是为每个Region都单独维

护一个HLog。请说明这种做法的优缺点。

优点：多个Region对象的更新操作所发生的日志修改，只需要不断把日志记录追加

到单个日志文件中，不需要司时翻开、写入到多个日志文件中。

缺点：如果一个Region效劳器发生故障，为了恢复其上次的Region对象，需要将

Region效劳器上的对象，需要将Region效劳器上的HLog按照其所属的Region对象进

行拆分,然后分发到其他Region效劳器上执行恢复操作。

18.当一台Region效劳器意外终止时，Master如何发现这种意外终止情况？为了恢复这

台发生意外的Region效劳器上的Region,Master应该做出哪些处理（包括如何使用HLog

进行恢复）？

Zookeeper会实时监测每个Region效劳器的状态，当某个Region效劳器发生故障

时,Zookeeper会通知Master。

Master首先会处理该故障Region效劳器上面遗留的HLog文件，这个遗留的HLog

文件中包含了来自多个Region对象的日志记录。

系统会根据每条日志记录所属的Region对象对HLog数据进行拆分，分别放到相应

Region对象的目录下，然后，再将失效的Region重新分配到可用的Region效劳器中，

并把与该Region对象相关的HLog日志记录也发送给相应的Region效劳器。

Region效劳器领取到分配给自己的Region对象以及与之相关的HLog日志记录以

后，会重新做一遍日志记录中的各种操作片巴日志记录中的数据写入到MemStore缓存中,

然后，刷新到磁盘的StoreFile文件中,完成数据恢复。

第五章

1.如何准确理解NoSQL的含义？

NoSQL是一种不同于关系数据库的数据库管理系统设计方式，是对非关系型数据库的一类统称，它采用

的数据模型并非传统关系数据库的关系模型，而是类似键/值、列族、文档等非关系模型。

2.试述关系数据库在哪些方面无法满族Web2.0应用的需求。

关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面：

(1)无法满足海量数据的管理需求

(2)无法满足数据高并发的需求

(3)无法满足高可扩展性和高可用性的需求

3.请比拟NoSQL数据库和关系数据库的优缺点。

比拟标准RDBMSNoSQL备注

数据库原理完全支持局部支持RDBMS有关系代数

理论作为根底

NoSQL没有统一的理

论根底

数据规模大超大RDBMS很难实现横

向扩展，纵向扩展的

空间也比拟有限，性

能会随着数据规模的

增大而降低

NoSQL可以很容易通

过添加更多设备来支

持更大规模的数据

数据库模式固定灵活RDBMS需要定义数

据库模式，严格遵守

数据定义和相关约束

条件

NoSQL不存在数据库

模式，可以自由灵活

定义并存储各种不同

类型的数据

查询效率快可以实现高效的简单RDBMS借助于索引

查询，但是不具备高机制可以实现快速查

度结构化查询等特询（包括记录查询和

性，复杂查询的性能范围查询）

不尽人意

很多NoSQL数据库没

有面向复杂查询的索

弓I，虽然NoSQL可以

使用MapReduce来

加速查询，但是，在

复杂查询方面的性能

仍然不如RDBMS

一致性强一致性弱一致性RDBMS严格遵守事

务ACID模型，可以保

证事务强一致性

很多NoSQL数据库放

松了对事务ACID四

性的要求，而是遵守

BASE模型,只能保证

最终一致性

数据完整性容易实现很难实现任何一个RDBMS都

可以很容易实现数据

完整性，比方通过主

键或者非空约束来实

现实体完整性，通过

主键、外健来实现参

照完整性，通过约束

或者触发器来实现用

户自定义完整性

但是，在NoSQL数据

库却无法实现

扩展性一般好RDBMS很难实现横

向扩展，纵向扩展的

空间也比拟有限

NoSQL在设计之初就

充分考虑了横向扩展

的需求，可以很容易

通过添加廉价设备实

现扩展

可用性好很好RDBMS在任何时候

都以保证数据一致性

为优先目标，其次才

是优化系统性能，随

着数据规模的增大，

RDBMS为了保证严

格的一致性，只能提

供相对较弱的可用性

大多数NoSQL都能提

供较高的可用性

标准化是否RDBMS已经标准化

(SQL)

NoSQL还没有行业标

准，不同的NoSQL数

据库都有自己的查询

语言，很难标准应用

程序接口

StoneBraker认为：

NoSQL缺乏统一查询

语言，将会拖慢

NoSQL开展

技术支持高低RDBMS经过几十年

的开展，已经非常成

熟，Oracle等大型厂

商都可以提供很好的

技术支持

NoSQL在技术支持方

面仍然处于起步阶

段，还不成熟，缺乏

有力的技术支持

可维护性复杂复杂RDBMS需要专门的

数据库管理员(DBA)

维护

NoSQL数据库虽然没

有DBMS复杂，也难

以维护

5.试述NoSQL数据库的四大类型

答：键值数据库、列族数据库、文档数据库和图数据库

6.试述键值数据库、列族数据库、文档数据库和图数据库的适用场合和优缺点。

数据库适用场合优点缺点

键值数据库通过键而是通过值来扩展性好，灵活性好，无法存储结构化信

查的业务大量写操作时性能高息，条件查询效率较

低

列族数据库不需要ACID事务支查找速度快，可扩展功能较少，大都不支

持的情形性强，容易讲行分布特强事务一致性

式扩展，复杂性低

文档数据库只在相同的文档上添性能好(高并发)，

加事务灵活性高，复杂性低，

缺乏统一的查询语法

数据结构灵活

提供嵌入式文档功

能，将经常查询的数

据存储在同一个文档

中

既可以根据键来构建

索引，也可以根据内

容构建索引

图形数据库具有高度相互关联关灵活性高，支持更杂复杂性高，只能支持

系的数据的图形算法，可用于一定的数据规模

构建复杂的关系图谱

7.试述CAP理论的具体含义。

答：所谓的CAP指的是：

C(Consistency)：一致性，是指任何一个读操作总是能够读到之前完成的写操作的结果，也就是在分

布式环境中，多点的数据是•致的，或者说，所有节点在同•时间具有相同的数据

A(Availability)；可用性，是指快速获取数据，可以在确定的时间内返回操作结果，保证每个造•求不

管成功或者失败都有响应：

P(ToleranceofNetworkPartition)：分区容忍性,是指当出现网络分区的情况时(即系统中的一局部节

点无法和其他节点进行通信)，别离的系统也能够正常运行，也就是说，系统中任意信息的丧失或失败

不会影响系统的继续运作。

8.请举例说明不同产品在设计时是如何运用CAP理论的。

9.试述数据库的ACID四性的含义

1.原子性(Atomicity)

指事务必须是原子工作单元，对于其数据修改，要么全都执行，要么全都不执行。

2.一致性(consistency)

指事务在完成时，必须使所有的数据都保持一致状态。

4.隔离性(Isolation)

指并发事务所做的修改必须与其他并发事务所做的修改隔离。

5.持久性(Durability)

指事务完成之后，它对于系统的影响是永久性的，该修改即使出现致命的系统故隙也将一直保持。

10.试述BASE的具体含义

BASE的根本含义是根本可用(BasicallyAvailble)、软状态(Sufl-bldle)和最终致性(Evenlual

consistency)

11.请解释软状态、无状态、硬状态的具体含义。

“软状态(soft-state)”是与“硬状态(hard-state)”相对应的一种提法。数据库保存的数据是“硬

状态”时，可以保证数据一致性，即保证数据一直是正确的。“软状态”是指状态可以有一段时间不同

步，具有一定的滞后性。

12.什么是最终一致性？

最终一致性根据更新数据后各进程访问到数据的时间和方式的不同，又可以区分为：

(1)会话一致性：它把访问存储系统的进程放到会话［session)的上下文中，只要会话还存在，

系统就保证“读己之所写”一致性。如果由于某些失败情形令会话终止，就要建立新的会话，而且系统

保证不会延续到新的会话：

(2)单调写一致性：系统保证来自同•个进程的写操作顺序执行。系统必须保证这种程度的•致

性，否那么就非常难以编程了

（3）单调读一致性：如果进程己经看到过数据对象的某人值，那么任何后续访问都不会返回在那

个值之前的值

（4）因果一致性：如果进程A通知进程B它已更新了一个数据项，那么进程B的后续访问将获得

A写入的最新值。而与进程A无因果关系的进程C的访问，仍然遵守一般的最终一致性规那么

（5）“读己之所写”一致性：可以视为因果一致性的一人特例。当进程A自己执行一个更新操作

之后，它自己总是可以访问到更新过的值，绝不会看到旧值

13.试述不一致性窗口的含义。

所有后续的访问都可以读取到操作0P写入的最新值。从0P操作完成到后续访问可以最终读取到0P写

入的最新值，这之间的时间间限称为“不一致性窗口”。

14最终一致性根据更新数据后各进程访问到数据的时间和方式的不同，又可以分为哪些不同类型的一致

性？

会话一致性、单调写一致性、单调写一致性、因果一致性和“读己之所写”一致性。

14.什么是NewSQL数据库？

NewSQL是对各种新的可扩展、高性能数据库的简称，这类数据库不仅具有NoSQL对海量数据的存

储管理能力，还保持了传统数据库支持ACID和SQL特性。

第八章

1.试述云数据库的概念。

答：云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下开展起来的一

种新兴的共享根底架构的方法，它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配

置，让软、硬件升级变得更加容易，同时，也虚拟化了许多后端功能。云数据库具有高可扩展性、高可

用性、采用多租形式和支持资源有效分发等特点。

2.与传统的软件使用方式相比，云计算这种模式具有哪些明显的优势？

3.云数据库有哪些特性？

答：1）动态可扩展2）高可用性3）较低的使用代价

4）易用性5）高性能6）免维护7厂平安

4.试述云数据库的影响。

答：在大数据时代，每个企业几乎每天都在不断产生大量的数据。企业类型不同，对于存储的需求也千

差万别，而云数据库可以很好地满足不同企业的个性化存储需求。

首先，云数据库可以满足大企业的海最数据存储需求。云数据库在当前数据爆炸的大数据时代具有

广阔的应用前景。传统的关系数据库难以水平扩展，相本无法存储如此海量的数据。因此，具有高可扩

展性的云数据库就成为企业海量数据存储管理的很好选择。

其次，云数据库可以满足中小企业的低本钱数据存储需求。中小企业在IT根底设施方面的投入比拟

有限，非常渴望从第三方方便、快捷、廉价地获得数据库效劳，云数据库采用多租户方式同时为多个用

户提供效劳，降低了单个用户的使用本钱，而且用户使用云数据库效劳通常按需付费，不会浪费资源造

成额外支出，因此，云数据库使用本钱很低，对于中小企业而言可以大大降低企业的信息化门槛，让企

业在付由较低本钱的同时，狭得优质的专业级数据库效力，从而布效提升企业信息化水平。

另外，云数据库可以满足企业动态变化的数据存储需求。企业在不同时期需要存储的数据量是不断

变化的，有时增加，有时减少。在小规模应用的情况下，系统负载的变化可以由系统空闲的多余资源来

处理,但是，在大规模应用的情况下，传统的关系数据库由于其伸缩性较差，不仅无法满足应用需求，而

上会给企业带来高昂的存储本钱和管理开销。而云数据库的良好伸缩性，可以让企业在需求增加时立即

获得数据库能力的提升，在需求减少时立即释放多余的数据库能力,较好地满足企业的动态数据存储需

求。

5.举例说明云数据库厂商及其代表性产品。

答：云数据库供给商主要分为三类。

1）传统的数据库厂商，如Teradata、Oracle、IBMDB2和MicrosoftSQLServer等。

2）涉足数据库市场的云供给商，如Amazon、Google.YahooL阿里、百度、腾讯等。

3）新兴厂商,如IVertica.LongJump和EnterpriseDB等。

7.试述UMP系统的功能。

答：UMP系统是构建在一个大的集群之上的，通过多个组件的协同作业，整个系统实现了对用户透明

的容灾、读写别离、分库分表、资源管理、资源调度、资源隔离和数据平安功能。

1.容灾

云数据库必须向用户提供一直可用的数据库连接，当MySQL实例发生故障时，系统必须自动执行故障

恢复，所有故障处理过程对于用户而言是透明的，用户不会感知到后台发生的•切。

为了实现容灾，UMP系统会为每个用户创立两个MySQL实例，一个是主库，一个是从库，而且，这两

个MySQL实例之间互相把对方设置为备份机，任意一个MySQL实例上面发生的更新都会复制到对方。

同时，Proxy效劳器可以保证只向主库写人数据。

2.读写别离

由于每个用户都有两个MySQL实例，即主库和从库，因此，可以充分利用主从库实现用户读写操作的

别离，实现负载均衡。UMP系统实现了对于用户透明的读写别离功能，当整个功能被开启时，负责向用

户提供访问MySQL数据库效劳的Proxy效劳器，就会对用户发起的SQL语句进行解析，如果属于写操作,

就直接发送到主库，如果是读操作，就会被均衡地发送到主库和从库上执行。

3.分库分表

UMP支持对用户透明的分库分表(Shard/HorizontalPartition)。但是，用户在创立账号的时候需要指定类

型为多实例，并且设置实例的个数，系统会根据用户设置来创立多组MySQL实例。除此以外，用户还

需要自己设定分库分表规那么，如需要确定分区字段，也就是根据哪个字段进行分库分表，还要确定分

区字段里的值如何映射到不同的MySQL实例上。

4.资源管理

UMP系统采用资源池机制来管理数据库效劳器上的CPU、内存、磁盘等计算资源，所有的计算资源都

放在资源池内进行统一分配，资源池是为MySQL实例分配资源的根本单位。整个集群中的所有效劳器

会根据其机型、所在机房等因素被划分为多个资源池，每台效劳器会被加人到相应的资源池。在资源池

划分的根底上，UMP还在每台效劳器内部采用Cgroup将资源进一步地细化，从而可以限制每个进程组

使用资源的上限，同时保证进程组之间相互隔离。

5.资源调度

UMP系统中有3种规格的用户，分别是数据量和流量比拟小的用户、中等规模用户以及需要分库分表

的用户。多个小规模用户可以共享同一个MySQL实例。对于中等规模的用户，每个用户独占个MySQL实

例.用户可以根据自己的需求来调整内存空间和磁盘空间，如果用户需要更多的资源，就可以迁移到资

源有空闲或者具有更高配置的效劳器上对于分库分表的用户，会占有多个独立的MySQL实例，这些实

例既可以共存在同一台物理机上，也可以每个实例独占一台物理机。

UMP通过MySQL实例的迁移来实现资源调度。借助于阿里集团中间件团队开发的愚公系统，UMP可

以实现在不停机的情况下动态力,容、缩容和迁移。

6.资源隔离

当多个用户共享同一个MySQL实例或者多个MySQL实例共存在同一个物理机上时，为了保护用户应用

和数据的平安，必须实现资源隔离，否那么，某个用户过多消耗系统资源会严重影响到其他用户的操作

性能。

7.数据平安

数据平安是让用户放心使用云数据库产品的关键，尤其是企业用户，数据库中存放了很多业务数据,

有些属于商业机密，一旦泄露，会给企业造成损失。UMP系统设计了多种机制来保证数据平安。

1]SSL数据库连接。

2)数据访问IP白名单

3)记录用户操作日志。

4)SQL拦截。

13.UMP系统是如何保障数据平安的?

答：

1）SSL数据库连接。SSL（SecureSocketsLayer）是为网络通信提供平安及数据完整性的一种平安协议，

它在传输层对网络连接进行加密。Proxy效劳器实现了完整的MySQL客户端效劳器协议，可以与

客户端之间建立SSL数据库连接。

2）数据访问IP白名单。可以把允许访问云数据库的IP地址放入“白名单〃，只有白名单内的IP地址才

能访问，其他IP地址的访问都会被拒绝，从而进一步保证账户平安。

3）记录用户操作日志。用户的所有操作记录都会被记录到日志分析效劳器，通过检查用户操作记录,

可以发现隐藏的平安漏洞。

4）SQL拦截。Proxy效劳器可以根据要求拦截多种类型的SQL语句，比方全表扫描语句"select

15.简述RDS中实例与数据库的概念。

答：RDS实例或简称“实例〃，是用户购置RDS效劳的根本单位，在实例中可以创立多个数据库，可以使

用常见的数据库客户端连接、管理及使用数据库。可以通过RDS管理控制台或OPENAPI来创M、修改

和删除数据库。各实例之间相互独立、资源隔离，相互之间不存在CPU、内存、IOPS等抢占问题。但是,

同一实例中的不同数据库之间是资源共享的。每个实例拥有其自己的特性，如数据库类型、版本等，系

统有相应的参数来控制实例行为。用户所购置RDS实例的性能，取决于购置RDS实例时所选择的配置，

可供用户选择的硬件配置项为内存和磁盘容量。

RDS数据库或简称“数据库”，是用户在一个实例下创立的逻辑单元，一个实例可以创立多个数据库，

在实例内数据库命名唯一，所有数据库都会共享该实例下的资源，如CPU、内存、磁盘容量等。RDS不

支持使用标准的SQL语句或客户端工具创立数据库，必须使用OPENAPI或RDS管理控制台进行操作。

16.列举连

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据技术原理与应用林子雨版课后习题答案

文档简介

温馨提示

最新文档

评论

大数据技术原理与应用林子雨版课后习题答案

文档简介

温馨提示

最新文档

评论

相关文档