数据库技术复习_第1页
数据库技术复习_第2页
数据库技术复习_第3页
数据库技术复习_第4页
数据库技术复习_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1. 与网状和层次数据库相比,关系数据库有哪些优点?与层次和网状模型比较,关系模型有下列优点:数据结构单一;建立在严格的数学概念基础上;将数据定义和数据操纵统一在一种语言中,使用方便,易学易用。2. 试述关系模型的完整性规则实体完整性:关系中键属性的值不能取空值。 参照完整性:是关系间引用所遵循的规则,与外键有关。 用户定义的完整性:数据间应满足的语义约束关系,由用户定义,由系统检查。3. 试述等值连接与自然连接的区别和联系等值连接表示为R A=BS,自然连接表示为R S;自然连接是除去重复属性的等值连接。两者之间的区别和联系如下:1、自然连接一定是等值连接,但等值连接不一定是自然连接。等值连

2、接不把重复的属性除去;而自然连接要把重复的属性除去。2、等值连接要求相等的分量,不一定是公共属性;而自然连接要求相等的分量必须是公共属性。3等值连接不把重复的属性除去;而自然连接要把重复的属性除去。4. 函数依赖、部分依赖、完全依赖、传递依赖、平凡依赖5. 函数依赖公理和推论Armstrong公理(三个公理):设r是R(U)上的一个关系,X、Y、Z、WU。A1. 自反律: 若YXU, 则 XY;A2. 增广律: 若XY且ZU,则 XZYZ;A3. 传递律: 若XY, YZ,则 XZ. 有以上三个公理,可以推出以下3个推论:推论1(合成规则): 若XY,XZ,则XYZ推论2(分解规则): 若XY

3、且ZY,则XZ推论3(伪传递规则) 若XY,YZW,则XZW。6. 函数依赖的覆盖和等价 对于在模式R上的函数依赖集F和G,如果对G中的每一个函数依赖XY,都有F|=XY,称F是G的一个覆盖。把逻辑蕴含符号引入函数依赖集的覆盖中, 记为:F|= G定义(等价和覆盖) 在模式R上的FDs F和G,若F+=G+,则称F和G等价。 记作FG。 定理: 已知模式R上的函数依赖集 F和G。当且仅当 F|=G 且 G|=F ,则 F G。 1. 试述数据库设计过程,及每个阶段的任务。 数据库的设计可分为以下六个阶段:需求分析、概念设计、逻辑设计、物理设计、实施和运行、使用和维护。 需求分析:信息需求、处理

4、需求、安全性和完整性方面的需求。 概念设计:在需求分析的基础上,通过对用户需求进行分析、归纳、抽象,形成一个独立于具体DBMS和计算机硬件结构的整体概念结构,常用工具用ER模型。 逻辑设计:在概念结构设计的基础上,在一定的原则指导下将概念模式(E-R图)转换为某个具体DBMS支持的数据模型相符合的、经过优化的逻辑结构,其中用对数据逻辑结构进行优化采用范式理论。 物理设计:为逻辑数据结构选取一个最适合应用环境的物理结构,包括存储结构和存取方法等。 数据库实施和运行:用DBMS提供的数据定义语言(DDL)和其它实用程序将数据库逻辑结构设计和物理设结构计结果用DDL严格描述出来,成为DBMS可以接受

5、的源代码,再调试产生目标模式,最后将数据装入数据库。 数据库的使用和维护:收集和登记数据库运行的情况记录,用于评价并改善数据库系 统的性能。 2 什么是数据库的逻辑结构设计?试述其设计步骤。逻辑结构设计:把概念结构设计阶段设计好的基本E-R图转换为与选用DBMS产品所支持的数据模型相符合的逻辑结构。逻辑结构设计的方法:1. 将概念结构转换为一般的关系、网状、层状模型;2. 将转换来的关系、网状、层状模型向特定DBMS支持下的数据模型转换;3. 对数据模型进行优化。 3. 试述数据库物理设计的内容和步骤。数据库的物理设计:为一个给定的逻辑数据模型选取一个最适合应用要求的物理结构的过程。数据库物理

6、设计的步骤:(1)确定数据库的物理结构,在关系数据库中主要指存取方法和储存结构。(2)对物理结构进行评价,评价的重点是时间和空间效率。4 数据库管理系统的主要功能有哪些? 数据库管理系统是位于用户和操作系统之间的数据管理软件。科学地组织和存储数据、高效地获取和维护数据,用户使用的各种数据库命令以及应用程序的执行,最终都是DBMS来实现的。 DBMS 的主要功能包括: (1) 数据库定义;(2) 数据操纵 (3) 数据库控制;(4) 数据库维护 5 数据库管理系统有哪几部分组成? DBMS的组成如下:(1)数据和元数据存储(2)存储管理器(3)查询处理器(4)事务管理器(5) 输入模块-模式修改

7、、查询和修改6开发一个数据库管理系统的主要技术难点在哪里?对中国如何尽快开发自己的数据库管理系统,给出你的建议。 1. 分布式数据库的有哪些特点?分布式数据库系统的特点 1. 数据是分布的 2. 数据是逻辑相关的 3. 结点自治性2. 分布式数据库管理系统有哪几部分组成?分布式数据库管理系统的组成 1局部数据库管理系统(LDBMS) 2全局数据库管理系统(GDBMS) 3全局数据字典GDD 4网络通信管理CM 3. 分布式数据库系统能够提供哪些分布透明性?不同透明性对应用程序的编程有什么影响? 分片透明性:关系如何分片对用户是透明的,指用户不必关心数据是如何分片的。其应用程序的编写与集中式数据

8、库相同。 位置透明性 (较常用):用户需知道数据在哪个片段,而不必知道所操作的数据放在哪个节点。 数据在结点间的转移不会影响应用程序。 局部映象透明性:该透明性提供数据到局部数据库的映象。在编程时不但需要了解全局关系的分片模式,还需要了解各片段存放的站点。 无透明性4. 半连接在分布式查询优化中的作用?会计算简单的半连接。5 试述事务的概念及事务的4 个特性。事务(Transaction): 是用户定义的一个数据库操作序列,是数据恢复和并发控制的基本单位,数据库系统在执行事务时,要么执行事务中全部操作,要么一个操作都不执行。一般用Ti表示第i个事务。原子性(Atomic):一个事务要么全执行,

9、要么全不执行。 一致性(Consistency):事务执行的结果必须是使数据库从一个一致状态变到另一个一致性状态。隔离性(Isolation):事务更新过的数据在事务结束前对其他事务不可见。持久性(Durability):已完成事务对数据的更新应持久,发生故障应恢复。6. 在数据库管理系统中为什么要采用并发控制技术?常用并发控制技术有哪些?DBMS对事务采用并发机制的主要目的: (1)改善系统的资源利用率:对于一个事务来说,在不同阶段使用不同的资源,若并发执行可以交叉使用这些资源,有利于提高系统资源的利用率。 (2)改善短事务的响应时间:若设有两个事务T1 和T2,其中T1是长事务,交付系统在

10、先;T2是短事务,交付系统比T1稍后。如果串行执行,则须等T1执行完毕后才能执行T2。而T2的响应时间会很长。一个长事务的响应时间长一些还可以得到用户的理解,而一个短事务的响应时间过长,用户一般难以接受。如果T1 和T2并发执行,则T2可以和T1重叠执行,可以较快地结束,明显地改善其响应时间.DBMS对事务采用并发机制的方法:基于封锁的方法、基于时戳的方法、版本更新方法。其中封锁方法在商业化数据库管理技术中使用最为普遍。7 什么是两段封锁协议?二段锁协议(Two-Puase Looking 2PL协议) (1). 任何事务在对数据操作前必须先获得锁; (2). 事务在释放一个锁后不再获得任何锁

11、。第一阶段是获得封锁,也称为扩展阶段。在这阶段,事务可以申请获得任何数据项上的任何类型的锁,但是不能释放任何锁。第二阶段是释放封锁,也称为收缩阶段。在这阶段,事务可以释放任何数据项上的任何类型的锁,但是不能再申请任何锁。8 数据库恢复的基本技术有哪些? 事务恢复的目的是当数据库出现故障时能恢复到一个正确一致的状态。 集中式数据库系统中恢复的手段主要是利用转储和日志。转储:数据库管理员定期将整个数据库复制到磁带或另一个磁盘上保存起来的过程。日志:保存每一次对数据库进行更新操作的有关信息的文件,由DBMS自动建立和记录。9 什么是日志文件?为什么要设立日志文件?日志文件的主要内容: (1).事务处

12、理的标识符(开始、结束); (2).操作的类型(插入、删除、修改); (3).更新前的值; (4).更新后的值.10 数据库运行中可能产生的故障有哪几类?故障种类: 事务故障、系统故障、介质故障。 事务故障:由于某种原因导致事务尚未运行完成并提交就被中断所产生的故障。比如:算术运算的溢出、零作除法、违反完整性等。 系统故障:系统在运行过程中,由于某种原因致使所有正在运行的事务都以非正常的方式终止而引起的故障。比如:硬件和软件故障、突然停电等。 介质故障:系统在运行过程中,由于某种原因致使存储在外存储器中的数据部分丢失或全部丢失的故障。11 试述实现数据库安全性控制的常用方法和技术。用户鉴别、存

13、取权限控制、视图机制、跟踪审查、数据加密存储 12. 给出下列名次的含义对象、类、封装、继承、多态、对象标识、子类、超类。对象属性集合 描述对象的状态、组成和特征方法集合 描述对象的行为特征消息集合 是对象向外提供的界面,由对象接收和响应对象标识:每个对象都有一个内部标识符OID,OID在整个系统中 是唯一的,一旦生成就不能改变。封装:每个对象都是其状态和行为的封装体。类:具有相同特征对象的集合;对象为类中的实例。 类本身看作对象,称为类对象。面向对象数据库模式是类的集合,形成类层次结构一组相关类形成类层次结构子类、超类 子类和超类间具有继承关系子类继承超类的属性和方法。单继承和多继承 解决同

14、名冲突的方法: 子类与超类间的同名冲突按子类优先处理; 多个超类间的同名冲突,按说明超类的先后取第一个超类中的定义 或 规定继承的超类; 提供显式方法: 从多个冲突的实例变量或方法中继承一个;继承多个,在类定义中重新命名。多态性:同一操作有不同的实现,取决于具体对象。13. 叙述面向对象模型中“对象标识”与关系模型中的“键”的相同点和不同点。 对象标识是指每个对象都有的一个内部标识符OID,OID在整个系统中是唯一的,一旦生成就不能改变。而键是指在关系中能唯一标示元组的最小属性集。它可以不止一个,可以是多个属性的组合。它们的作用值相同的。 1. 叙述key/value的数据结构。key/val

15、ue的数据结构:域(Domain)数据项(Item) 域类似于传统关系数据库中的“表”,但域无结构,作用是容纳数据项; 数据项用Key定义,一个域中的不同数据项可能具有不同的结构,数据属性全部是字符串类型,但在有些实现中,属性也可以具有简单的类型,如整型、字符串数组等。2. Key/Value数据模式与关系数据库的比较有哪些优点和缺点?Key/Value的优点: 便于扩展,适于云计算的环境 与应用程序代码的兼容性更好Key/Value的缺点: 数据完整性约束转移至应用程序 目前的很多Key/Value数据存储系统之间不兼容 在云环境中,很多用户和应用使用同一个系统。为了避免一个进程使共享环境超

16、载,往往严格限制一个单独的查询所能够产生的全局影响。3. 在数据切分机制中,一致性哈希算法的基本原理是什么?下面就来按照5个步骤简单介绍consistent hashing算法的基本原理。(1) 环形hash空间 考虑通常的hash算法都是将value映射到一个32位的key值,也即是0232-1次方的数值空间;我们可以将这个空间想象成一个首(0)尾(232-1)相接的圆环(2) 把数据对象映射到hash空间 接下来考虑4个对象object1object4,通过hash函数计算出的hash值key在环上的分布如下图所示。hash(object1) = key1; hash(object4) =

17、 key4;(3) 把cache映射到hash空间Consistent hashing的基本思想就是将对象和cache都映射到同一个hash数值空间中,并且使用相同的hash算法。假设当前有A,B和C共3台cache,那么其映射结果将如图3所示,他们在hash空间中,以对应的hash值排列。hash(cache A) = key A; hash(cache C) = key C;(4) 把对象映射到cache 现在cache和对象都已经通过同一个hash算法映射到hash数值空间中了,接下来要考虑的就是如何将数据对象映射到服务器cache上面了。 在这个环形空间中,如果沿着顺时针方向从对象的k

18、ey值出发,直到遇见一个cache,那么就将该对象存储在这个cache上,因为对象和cache的hash值是固定的,因此这个cache必然是唯一和确定的。这样就找到了对象和cache的映射方法! 依然继续上面的例子,那么根据上面的方法,数据对象object1将被存储到服务器cache A上;object2和object3对应到cache C;object4对应到cache B。(5) 考察cache的变动 前面讲过,通过简单hash然后求余的方法带来的最大问题就在于:当cache有所变动时,cache会失效,进而对后台服务器造成巨大的冲击,现在就来分析分析consistent hashing算

19、法。(a)移除cache 考虑假设cache B挂掉了,根据上面讲到的映射方法,这时受影响的将仅是那些沿cache B逆时针遍历直到下一个cache(cache A)之间的对象,也即是本来映射到cache B上的那些数据对象。 因此这里仅需要变动对象object4,将其重新映射到cache C上即可;参见下图。(b) 添加cache 再考虑添加一台新的cache D的情况,假设在这个环形hash空间中,cache D被映射在对象object2和object3之间。这时受影响的将仅是那些沿cache D逆时针遍历直到下一个cache(cache B)之间的对象(它们是本来映射到cache C上对

20、象的一部分),将这些对象重新映射到cache D上即可。 因此这里仅需要变动对象object2,将其重新映射到cache D上。 一致性哈希算法优点:每个节点都负责存储环中该节点与其后继节点之间区域对应的存储对象,也称为“区间负责制”。区间负责制使得节点的加入和退出只需要其邻居节点进行数据迁移,而不影响其它节点 一致性哈希算法缺点:采用随机的位置值来决定数据项存储在哪个节点上,这导致节点之间负载不均衡。4 云计算按照服务类型可以分为哪几类?从专用到通用分为:将软件作为服务(SaaS)、将平台作为服务(PaaS)、将基础设施作为服务(IaaS)。5. Google云计算中分布式结构化数据表Big

21、table的设计动机是什么? 需要存储的数据种类繁多:Google目前向公众开放的服务很多,需要处理的数据类型也非常多。包括URL、网页内容、用户的个性化设置在内的数据都是Google需要经常处理的; 海量的服务请求:Google运行着目前世界上最繁忙的系统,它每时每刻处理的客户服务请求数量是普通的系统根本无法承受的; 商用数据库无法满足Google的需求:一方面现有商用数据库设计着眼点在于通用性,根本无法满足Google的苛刻服务要求;另一方面对于底层系统的完全掌控会给后期的系统维护、升级带来极大的便利 6. 试比较Hadoop中的数据库HBase和传统关系数据库的不同. Hbase和传统关

22、系数据库的不同主要体现在:1. 数据类型 Hbase只有简单的字符串类型,所有类型都是交由用户自己处理,它只保存字符串。而关系数据库有丰富的类型选择和存储方式、数据操作,Hbase操作只有很简单的插入、查询、删除、清空等,表和表之间是分离的,没有复杂的表和表之间的关系,所以也不能也没有必要实现表和表之间的关联等操作。而传统的关系数据通常有各种各样的函数、连接操作。2.存储模式 Hbase是基于列存储的,每个列族都有几个文件保存,不同列族的文件是分离的。传统的关系数据库是基于表格结构和行模式保存的。3.数据维护 Hbase的更新正确来说应该不叫更新,而且一个主键或者列对应的新的版本,而它旧有的版

23、本仍然会保留,所以它实际上是插入了新的数据,而不是传统关系数据库里面的替换修改。4.可伸缩性 Hbase和Bigtable这类分布式数据库就是直接为了这个目的开发出来的,能够轻易的增加或者减少(在硬件错误的时候)硬件数量,而且对错误的兼容性比较高。而传统的关系数据库通常需要增加中间层才能实现类似的功能。7. 了解MapReduce的基本工作原理。 MapReduce原理的要点: 数据分割、任务调度、故障处理等细节对程序员透明; 利用资源无关性的原理,提高处理效率; 合理的任务粒度,优化容错处理和整体效率; 本地计算:充分利用数据的空间局部性来减少网络传输,节省带宽资源; 减少中间数据的产生,优

24、化网络传输。8. 了解Hadoop中的分布式数据库- Hbase的逻辑模型和物理模型。逻辑模型:表格里存储一系列的数据行,每行包含一个可排序的行关键字、一个可选的时间戳及一些可能有数据的列(稀疏)数据行有三种基本类型的定义:行关键字是数据行在标准唯一标识,时间戳是每次数据操作对应关联的时间戳,列定义为:(:)物理模型:实际上就是把概念模型中的一个行进行分割、并按照列族存储空的单元格不存储,未指明时间戳则返回指定列的最新数据值9. 了解在亚马逊的分布式Key/value数据存储与管理系统Dynamo中,采用的哪些技术来保证数据的可伸缩性和最终一致性。Dynamo综合了一些著名的技术来实现可伸缩性

25、和可用性:数据划分(data partitioned)和使用一致性哈希的复制(replicated),并通过对象版本(object versioning)提供一致性。10. 阐述SQL Azure和SQL Server的相同点和不同点。1物理管理和逻辑管理SQL Azure在管理上突出强调了物理管理,能够自动复制所有存储数据以提供高可用性,同时还可以管理负载均衡、故障转移等功能 ;用户不能管理SQL Azure的物理资源 ;SQL Azure不能使用SQL Server备份机制,所有的数据都是自动复制备份;2服务提供部署本地SQL Server时,需要准备和配置所需要的硬件和软件 ;用户在Wi

26、ndows Azure平台上创建了账户后,便可以使用SQL Azure数据库,同时还可以访问所有提供的服务 ;每个SQL Azure订阅都会绑定到微软数据中心的某个SQL Azure服务器SQL Azure服务器上的数据库通常会在数据中心其他物理机上进行备份。 3Transact-SQL支持SQL Azure中由微软进行物理资源的管理,因而这些类型的参数并不适用于SQL Azure4特征和类型SQL Azure不支持SQL Server的所有特征和数据类型。在现今版本的SQL Azure中,不支持分析、复制、报表和服务代理等服务11. 大数据的4V特征是什么?“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。12. 分布式数据系统的CAP原理的三要素是什么?分布式数据系统的CAP原理的三要素:一致性(Consistency) 可用性(Availability) 分区容忍性(Partition

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论