




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据库考试复习题数据库考试复习题数据库考试复习题V:1.0精细整理,仅供参考数据库考试复习题日期:20xx年X月8、ODBC,OLEDB,JDBCODBC(OpenDatabaseConnectivity,开放数据库互连)提供了一种标准的API(应用程序编程接口)方法来访问DBMS(DatabaseManagementSystem)。这些API利用SQL来完成其大部分任务。ODBC本身也提供了对SQL语言的支持,用户可以直接将SQL语句送给ODBC。ODBC的设计者们努力使它具有最大的独立性和开放性:与具体的编程语言无关,与具体的数据库系统无关,与具体的操作系统无关。OLEDB(ObjectLinkingandEmbedding,Database,对象链接嵌入数据库,有时亦写作OLEDB或OLE-DB)是微软为以统一方式访问不同类型的数据存储设计的一种应用程序接口,是一组用组件对象模型(COM)实现的接口,而与对象连接与嵌入(OLE)无关。它被设计成为ODBC的一种高级替代者和继承者,把它的功能扩展到支持更多种类的非关系型数据库,例如可能不支持SQL的对象数据库和电子表格(如Excel)。OLEDB用一组抽象概念(包括数据源、会话、命令和行集)将数据的存储从需要访问数据的应用中分离出来。这是因为不同的应用需要访问不同数据类型和数据源,但是并不需要了解具体如何使用特定技术的方法访问这些数据。OLEDB在概念上分为了消费者和提供者。消费者是那些需要访问数据的应用程序,提供者是实现了那些接口并将数据提供给消费者的软件组件。OLEDB是微软数据访问组件(MDAC)的一部分。MDAC是一组微软技术,以框架的方式相互作用,为程序员开发访问几乎任何数据存储提供了一个统一并全面的方法。OLEDB的提供者可以用于提供像文本文件和电子表格一样简单的数据存储的访问,也可以提供像Oracle、SQLServer和SybaseASE一样复杂的数据库的访问。OLEDB同样可以提供对层次类型的数据存储(如电子邮件系统)的访问。另一方面,由于不同的数据存储技术可能具有不同的能力,OLEDB提供者不需要实现OLEDB中每一个接口。通过使用COM对象实现可用的能力-OLEDB提供者将把数据存储技术的功能映射到特定的COM接口上。当某种接口提供的能力在所使用的数据库技术中不适用时,微软称该接口的可用性为"provider-specific"。同时,提供者也可以扩大数据存储的能力-这些能力在微软的用语中被称为services。JDBC(JavaDataBaseConnectivity,java数据库连接)是一种用于执行SQL语句的JavaAPI,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。JDBC提供了一种基准,据此可以构建更高级的工具和接口,使数据库开发人员能够编写数据库应用程序,二.叙述题1、文件系统与数据库系统有什么区别使用数据库系统有什么优点文件系统和数据库系统之间的区别。(1)文件系统用文件将数据长期保存在外存上,数据库系统用数据库统一存储数据;(2)文件系统中的程序和数据有一定的联系,数据库系统中的程序和数据分离;(3)文件系统用操作系统中的存取方法对数据进行管理,数据库系统用DBMS统一管理和控制数据;(4)文件系统实现以文件为单位的数据共享,数据库系统实现以记录和字段为单位的数据共享。文件系统和数据库系统之间的联系:(1)均为数据组织的管理技术;(2)均由数据管理软件管理数据,程序与数据之间用存取方法进行转换;(3)数据库系统是在文件系统的基础上发展而来的。现代的数据库管理系统应该具备的7个功能:使用数据库系统的好处是:·查询迅速、准确,而且可以节约大量纸面文件;·数据结构化,并由DBMS统一管理;·数据冗余度小;·具有较高的数据独立性;·数据的共享性好;·DBMS还提供了数据的控制功能。2、何谓视图举例说明在数据库设计时引入视图有何益处。从用户角度来看,一个视图是从一个特定的角度来查看数据库中的数据。从数据库系统内部来看,一个视图是由SELECT语句组成的查询定义的虚拟表。从数据库系统内部来看,视图是由一张或多张表中的数据组成的,从数据库系统外部来看,视图就如同一张表一样,对表能够进行的一般操作都可以应用于视图,例如查询,插入,修改,删除操作等。视图是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行数据。但是,视图并不在数据库中以存储的数据值集形式存在。行和列数据来自由定义视图的查询所引用的表,并且在引用视图时动态生成。对其中所引用的基础表来说,视图的作用类似于筛选。定义视图的筛选可以来自当前或其它数据库的一个或多个表,或者其它视图。分布式查询也可用于定义使用多个异类源数据的视图。视图是存储在数据库中的查询的SQL语句,它主要出于两种原因:安全原因,视图可以隐藏一些数据,如:社会保险基金表,可以用视图只显示姓名,地址,而不显示社会保险号和工资数等,另一原因是可使复杂的查询易于理解和使用。视图:查看图形或文档的方式。视图一经定义便存储在数据库中,与其相对应的数据并没有像表那样又在数据库中再存储一份,通过视图看到的数据只是存放在基本表中的数据。对视图的操作与对表的操作一样,可以对其进行查询、修改(有一定的限制)、删除。当对通过视图看到的数据进行修改时,相应的基本表的数据也要发生变化,同时,若基本表的数据发生变化,则这种变化也可以自动地反映到视图中。视图的优点视图有很多优点,主要表现在:1.视点集中视图集中即是使用户只关心它感兴趣的某些特定数据和他们所负责的特定任务。这样通过只允许用户看到视图中所定义的数据而不是视图引用表中的数据而提高了数据的安全性。2.简化操作视图大大简化了用户对数据的操作。因为在定义视图时,若视图本身就是一个复杂查询的结果集,这样在每一次执行相同的查询时,不必重新写这些复杂的查询语句,只要一条简单的查询视图语句即可。可见视图向用户隐藏了表与表之间的复杂的连接操作。3.定制数据视图能够实现让不同的用户以不同的方式看到不同或相同的数据集。因此,当有许多不同水平的用户共用同一数据库时,这显得极为重要。4.合并分割数据在有些情况下,由于表中数据量太大,故在表的设计时常将表进行水平分割或垂直分割,但表的结构的变化却对应用程序产生不良的影响。如果使用视图就可以重新保持原有的结构关系,从而使外模式保持不变,原有的应用程序仍可以通过视图来重载数据。5.安全性视图可以作为一种安全机制。通过视图用户只能查看和修改他们所能看到的数据。其它数据库或表既不可见也不可以访问。如果某一用户想要访问视图的结果集,必须授予其访问权限。视图所引用表的访问权限与视图权限的设置互不影响。视图的安全性视图的安全性可以防止未授权用户查看特定的行或列,是用户只能看到表中特定行的方法如下:1在表中增加一个标志用户名的列;2建立视图,是用户只能看到标有自己用户名的行;3把视图授权给其他用户。逻辑数据独立性视图可以使应用程序和数据库表在一定程度上独立。如果没有视图,应用一定是建立在表上的。有了视图之后,程序可以建立在视图之上,从而程序与数据库表被视图分割开来。视图可以在以下几个方面使程序与数据独立:1如果应用建立在数据库表上,当数据库表发生变化时,可以在表上建立视图,通过视图屏蔽表的变化,从而应用程序可以不动。2如果应用建立在数据库表上,当应用发生变化时,可以在表上建立视图,通过视图屏蔽应用的变化,从而使数据库表不动。3如果应用建立在视图上,当数据库表发生变化时,可以在表上修改视图,通过视图屏蔽表的变化,从而应用程序可以不动。4如果应用建立在视图上,当应用发生变化时,可以在表上修改视图,通过视图屏蔽应用的变化,从而数据库可以不动。3、使用触发器有何优点举例说明如何使用触发器保证数据的一致性。触发器可通过数据库中的相关表实现级联更改;不过,通过级联引用完整性约束可以更有效地执行这些更改。触发器可以强制比用CHECK约束定义的约束更为复杂的约束。与CHECK约束不同,触发器可以引用其它表中的列。例如,触发器可以使用另一个表中的SELECT比较插入或更新的数据,以及执行其它操作,如修改数据或显示用户定义错误信息。触发器也可以评估数据修改前后的表状态,并根据其差异采取对策。一个表中的多个同类触发器(INSERT、UPDATE或DELETE)允许采取多个不同的对策以响应同一个修改语句。
我们以BBS论坛数据库中多个关联表的操作为例,阐述触发器在保持数据完整性、一致性中的应用。在BBS的程序设计中,我们经常会碰到对一个数据表操作的同时,还要自动对另外几个相关联的数据表进行操作,以保证各数据表之间数据的完整性与一致性。BBS论坛中常用的数据表有:BBS_User表(存储用户信息):用于存储用户信息。字段有用户名、密码、积分、发帖数、等级ID、最后一次发帖、qq、Email、头像、注册时间等;BBS_Type表:用于存储大版块信息。字段有版块ID、版块名称等;BBS_LanMu表:存储分论坛信息。字段有分论坛ID、名称、所属大版块ID、主题总数、回复总数、版主等;BBS_Topic表:存储帖子信息。字段有帖子ID、标题、内容、发帖人、所属分论坛ID、回复总数、点击总数、最后一次回贴时间、回帖人等;BBS_Reply表:存储回复信息。字段有回复内容、回复人、回复的帖子ID、回复时间等。在BBS论坛中,触发器主要应用于以下几种情况:当用户在分论坛里发表帖子时,对BBS_Topic表进行操作,但同时要自动对分论坛表BBS_LanMu里面的论坛主题总数增1,还要更新BBS_User表给该用户增加相应的积分,当用户积分达到一定分数时,自动更新该用户的等级ID,表示该用户已经升了一个等级。当用户回复帖子时,对BBS_Reply表操作的同时,也需要对分论坛表BBS_LanMu里的回复总数增1、对BBS_Topic表的回复总数增1并更新该表里的最后回帖标题和时间,还要将BBS_User表里的该用户的发帖数增1、自动增加相应积分、更新最后发帖标题和时间等;在论坛的后台管理中,管理员有时需要添加或者删除一个大版块。当我们要删除BBS_Type表一个大版块时,为了保证数据库各表中数据的完整性与一致性,要同时对BBS_LanMu表、BBS_Topic表、BBS_Reply表中相关联的数据记录一并删除。下面将以后台管理中对论坛大版块进行删除操作时应用触发器为例来进行具体介绍。(1)需求分析在一个BBS中常见的论坛结构如图Pic-1:在一个论坛中有许多个大版块,每个版块又对应多个分论坛。每个论坛又对应多个帖子,每个帖子又对应多个回复信息。因此需要4个相关联的表来存储相应的信息:BBS_Type表(存储大版块信息)、BBS_LanMu表(存储分论坛信息)、BBS_Topic表(存储帖子信息)、BBS_Reply表(存储回复信息)。BBS_Type与BBS_LanMu、BBS_LanMu与BBS_Topic、BBS_Topic与BBS_Reply之间都是一对多的关系。当我们要删除BBS_Type表一个大版块时,为了保证数据库各表中数据的完整性与一致性,需要同时对BBS_LanMu表、BBS_Topic表、BBS_Reply表中相关联的数据记录一并删除。因为这里面存在3对一对多的关系,如果在程序中或者存储过程实现,显然是很困难也是不合理的。根据触发器的作用以及这4个表之间的关系,采用嵌套触发器来实现这个删除功能。为BBS_Type表、BBS_LanMu表、BBS_Topic表分别建立一个AFTER触发器,该触发器由DELETE事件触发。采用嵌套触发器可以在数据库里自动完成这多个表中相关记录的删除,大大简化了业务逻辑。这样即保证了数据的完整性与一致性,又保证程序设计的合理性与方便性。(2)创建触发器根据需求分析,为BBS_Type表、BBS_LanMu表、BBS_Topic表分别建立AFTER触发器,该触发器由DELETE事件触发。建立在这3个表之上的触发器之间是嵌套触发的关系,即BBS_Type表上的触发器触发BBS_LanMu表上的触发器,BBS_LanMu表上的触发器再触发BBS_Topic表上的触发器。本文中使用的数据库为MicrosoftSQLServer2005。要让触发器能嵌套触发必须在数据库“属性”中,将“递归触发器已启用”设置为TRUE。1.为BBS_Type表(存储大版块信息)建立触发器DelType。该触发器功能是删除BBS_LanMu表中属于刚删除的大版块的所有分论坛信息。CREATEtrigger[DelType]on[dbo].[BBS_Type]afterdeleteasbegindeclare@typeidintselect@typeid=TypeIDfromdeleted--获得要被删除的版块IDdeletefromwhereTypeid=@typeidend2.为BBS_LanMu表(存储分论坛信息)建立触发器DelLanmu。该触发器功能是删除BBS_Topic表中属于刚删除分论坛的所有帖子信息。CREATEtrigger[DelLanmu]on[dbo].[BBS_LanMu]AFTERDELETEasBEGINdeclare@lmidintselect@lmid=LMIDfromdeleted--获得要被删除的分论坛IDdeletefromwhereLMID=@lmidEND3.为BBS_Topic表(存储帖子信息)建立触发器DelTopic。该触发器功能是删除BBS_Reply表中属于刚删除帖子的所有回复信息。CREATEtrigger[DelTopic]on[dbo].[BBS_Topic]afterdeleteasBEGINdeclare@tidintselect@tid=TIDfromdeleted--获得要被删除的帖子IDdeletefromwhereTID=@tidEND执行过程触发器执行过程如图Pic-2。当数据操作层对数据表BBS_Type发出DELETE一条记录的时候,触发器DelType被触发,此触发器将删除BBS_LanMu表中属于刚删除的大版块的所有分论坛信息。当DelType触发器对数据表BBS_LanMu删除一条记录时,又触发BBS_LanMu表上的触发器DelLanmu,此触发器将删除BBS_Topic表中属于刚删除分论坛的所有帖子信息。当DelLanmu触发器对数据表BBS_Topic删除一条记录时,又触发触发器DelTopic,此触发器将删除BBS_Reply表中属于刚删除帖子的所有回复信息。至此数据库中与BBS_Type中删除记录相关联的所有记录全部删除,保证了数据库各表数据的完整性与一致性。这个过程是在数据库中自动进行的,因此速度非常快,用户只需要对BBS_Type表发出删除一条记录的命令,其他表中相关的记录会自动删除。4、在设计数据库系统时,应该采取那些措施来防止介质故障如果出现介质故障,如何恢复数据库对于OracleDBA们来说,Oracle数据库恢复提供的选项种类数目实在是太多了,数据库恢复方法可以说都取决于故障类型,但对于某一个特定的故障也可能有许多不同的恢复方法。总的来说,数据库恢复可以分为实例恢复与介质恢复两大类。数据库出现实例故障,例如,意外掉电、后台进程故障,或预料发出使用ABORT命令终止数据库实例时,在启动数据库时就会发现实例故障,此时就需要实例恢复,实例恢复是数据库自动进行的,可以将数据库恢复到故障之前的事务一致性状态。如果在联机备份时发现实例故障,则需介质恢复。如恢复数据文件时没执行检验点就脱机,这时所丢失的改动就需要进行介质恢复。介质恢复可以使用归档日志文件,也可以使用联机日志文件。介质恢复主要用于由于介质故障引起数据库文件的破坏时使用。介质故障是当一个文件、一个文件的一部分或磁盘不能读写时出现的故障。Oracle启动时会检测数据文件头中的检验点计数器和控制文件中对应的检验点计数器,当两者的值不相等时就说明需要做介质恢复。如果数据库可以运行,在线日志仅可重用但不能归档,此时介质恢复可以使用最新的完全备份的简单恢复。如果数据库可以运行,其日志已经被归档,则只能恢复数据库到介质故障前的一个指定事务一致性状态。所以,介质故障的恢复是将整个数据库恢复到故障之前的一个事务一致状态。如果数据库是在归档方式下运行,则可以实施完全介质恢复和不完全介质恢复。1Oracle数据库恢复之完全介质恢复完全介质恢复可恢复全部丢失的数据,使数据库恢复到最新状态。在所有需要的重做日志文件、备份数据文件(对于所有丢失或损坏的数据文件的备份)和一个当前有效控制文件都可以正常使用的情况下应当使用完全介质恢复以使数据的损失减到最小。在实施完全数据库恢复时,可以根据数据库文件的破坏情况,使用不同的恢复方法。例如,当数据文件被物理破坏,这时数据库不能正常启动,但是可以安装,此时可进行全部的或单个被破坏的数据文件的完全介质恢复。如果数据文件被物理破坏但这时数据库还处于打开状态,可以进行离线的表空间的恢复。因为数据库是打开的,这时未破坏的数据文件的表空间是在线的,可以正常使用,而被破坏的数据文件的表空间是离线的,不可正常使用,可以只对被破坏的数据文件实施完全介质恢复。但是注意,系统表空间是不能让其离线的,所以当系统表空间损坏的时候,只能使用不完全介质恢复。2Oracle数据库恢复之不完全介质恢复不完全介质恢复是在完全介质恢复不可能进行或有特殊要求时进行的介质恢复。例如,系统表空间数据文件损坏、在线日志损坏或认为误删除不应该删除的基表和表空间等,这时可以实施不完全介质恢复,使数据库恢复到故障前或用户出错之前的一个事务一致性状态。不完全介质恢复包括基于撤消的不完全恢复、基于时间点的不完全恢复以及基于数据库改变号的不完全恢复。基于撤消的不完全恢复(recoverdatabaseuntilcancel)是在进行不完全恢复时由数据库管理员进行控制,在某一个恢复点可撤消指定的操作。例如,在一个或多个在线日志文件由于介质故障被破坏,不能实施完全数据库恢复,这时可以进行基于撤消的恢复,在恢复到最近的、未被破坏的日志文件后终止恢复过程,数据库从这一点重新开始运行。在这种方式下,Oracle允许每次前滚一个日志文件。基于时间点以及基于数据库改变号的不完全恢复主要用于将数据库恢复到过去的某个指定点。基于时间点的恢复(recoverdatabaseuntiltime)可以把恢复进行到重做日志文件内的某个特定时间点,例如,当用户上午9点钟意外的删除一个表,现在想恢复它,那么可以从备份中恢复相应的数据文件,并进行基于时间点的不完全恢复,恢复到上午9点以前的某个时刻。再如,由于系统故障,在线日志文件部分被破坏,所有活动的日志文件突然不可使用,实例被终止,此时需要进行介质恢复。在恢复中可使用当前在线日志文件的未损坏部分,利用基于时间点的恢复,一旦将有效的在线日志应用于数据文件后就可以立即停止恢复过程。
基于数据库改变号(recoverdatabaseuntilchange)的不完全恢复可以使数据库恢复到事务一致的状态。用这个选项指定的SCN被Oracle标注为参考值,凡是SCN号小于这个参考值的重做记录都将被运用,而SCN大于参考值的重做记录将被禁止使用。这样,正好在此SCN处提交的事务将被回滚。当不完全介质恢复完成时,数据库必须用alterdatabaseopenresetlogs打开,这个命令将会使数据库做一个标记,使得已经被跳过的那些重做记录不会被意外的又重新运用。3Oracle数据库恢复之设计Oracle数据库备份恢复策略时应遵循的原则数据库备份恢复是为了保证数据库中数据的正确性和完整性,不同的应用环境要应用不同的解决方案,有不同的侧重点,要考虑的问题也相当的多,对于一个有经验的DBA来说,可能解决方法有很多种。但一般来说,一个完整的备份恢复系统需要遵循以下原则:(1).正确性备份就是为了恢复。如果备份的东西是错误的那还有什么意义正确性永远是第一位的。(2).稳定性备份恢复策略的实施必须要有充分的前期测试工作,测试结果取得比较稳定的成功之后才能实施到生产数据库上。(3).全面性在复杂的计算机网络环境中,必须考虑到备份与恢复操作的简捷性,同时又要保证在需要恢复时能及时获取备份数据,保证备份内容、存储地点不会因为网络故障和环境故障而失效。因此,对网络环境的复杂性、硬件环境的差异性要有充分的考虑。(4).自动化备份方案应能提供定时的自动备份,在自动备份过程中,还要具有日志记录和错误处理功能。(5).高性能在设计时,应尽量考虑到提高数据备份恢复的速度,同时考虑如何压缩备份文件以节省存储空间。(6).操作简单因为备份恢复是一个相当繁琐的工作,几乎每天都要做,只有事先做好充分的准备工作,才能减少日常实施过程中的工作量。(7).实时性一些关键数据库业务需要24小时不停机,因此,备份时很多文件仍将处于运行状态中,所以很多情况下要采用联机备份,联机备份时服务器应尽量少进行批量事务处理,以免产生许多重做操作。以上就是对Oracle数据库恢复几种方法的详细介绍,希望能给大家带来帮助。5、为什么要建立数据仓库数据仓库有那些不同于事务数据库的特征1.
数据仓库的概念数据仓库领域的权威W.H.Inmon给出了数据仓库的一个简短而全面的定义:数据仓库是一个面向主题、集成、时变、非易失的数据集合,是支持管理部门的决策过程。根据该定义,数据仓库具备以下四个关键特征:
面向主题(SubjectOriented)的数据集合数据仓库通常围绕一些主题,如“产品”、“销售商”、“消费者”等来进行组织。数据仓库关注的是决策者的数据建模与分析,而不针对日常操作和事务的处理。因此,数据仓库提供了特定主题的简明视图,排除了对于决策无用的数据。
集成(Integrated)的数据集合数据仓库通常是结合多个异种数据源构成的,异种数据源可能包括关系数据库、面向对象数据库、文本数据库、Web数据库、一般文件等。
时变(TimeVariant)的数据集合数据存储从历史的角度提供信息,数据仓库中包含时间元素,它所提供的信息总是与时间相关联的。数掘仓库中存储的是一个时间段的数据,而不仅仅是某一个时刻的数据。
非易失(Nonvolatile)的数据集合数据仓库总是与操作环境下的实时应用数据物理地分离存放,因此不需要事务处理、恢复和并发控制机制。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,因此其数据相对稳定,极少或根本不更新。综上所述,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。数据仓库也常常被视为一种体系结构,通过将异种数据源中的数据集成在一起而构成,支持结构化和专门的查询、分析报告和决策制定。2
数据仓库的类型数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:企业数据仓库(EDW)、操作型数据库(ODS)和数据市集(DataMart)。①企业数据仓库为通用数据仓库,它既含有大量详细的数据,也含有大量累赘的或聚集的数据,这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。②操作型数据库既可以被用来针对工作数据做决策支持,又可用做将数据加载到数据仓库时的过渡区域。与EDW相比较,ODS有下列特点:ODS是面向主题和面向综合的;ODS是易变的;ODS仅仅含有目前的、详细的数据,不含有累计的、历史性的数据。③数据市集是数据仓库的一种具体化,它可以包含轻度累计、历史的部门数据,适合特定企业中某个部门的需要。几组数据市集可以组成一个EDW(在以后部分将会重点提到)。随着数据仓库发展的需求,软件工具升级相当快,新产品也层出不穷。为了便于追踪其技术发展和更好地选择相关的工具,数据仓库的构造者应该广泛地收集这方面的文件和数据,以便做出最佳的选择。3
数据仓库与传统数据库的比较传统的关系型数据库RDB遵循一致的关系型模型,其中的数据(记录)以表格的方式存储,并且能用统一的结构化查询语言(StructualQueryLanguage,SQL)进行数据查询,因此它的应用常被称为联机交易处理(OLTP),其重点在于完成业务处理,及时给予客户响应。关系型数据库能够处理大型数据库,但不能将其简单地堆砌就直接作为数据仓库来使用。数据仓库主要工作的对象为多维数据,因此又称为多维数据库。多维数据库的数据以数组方式存储,既没有统一的规律可循,也没有统一的多维模型可循,它只能按其所属类别进行归类。以应用而言,多维数据库应该具备极强的查询能力,多维数据库中存储的信息既多又广,但由于其完成的是一种联机事物分析(OLAP),因此并不追求瞬时的响应时间,在有限的时间中给予响应即被认可。实际上,OLAP包含交互式的数据查询,伴随着多种分析方法,例如下钻或成功地钻入到最底层的细节信息上。因此数据仓库中的信息,尽管是多维的,仍然可以用具体的表格表示。尽管数据仓库与传统数据库之间存在着如此大的差异,但设计数据仓库并不是完全另起炉灶,而可利用现有的传统处理数据,从中进行信息的综合,从而构造出满足不同需求的数据仓库。即数据从动态的、目前事件驱动的传统工作数据流向静态的、历史性质的数据仓库。从理论上说,从工作数据中战略性地引入到期的数据可以完成这种转变,但是由于受到实际存储容量和技术的限制,这实际上是不可能的。因此必须从工作数据中分离和筛选数据进入到数据仓库中。鉴于以上各种因素,为保证OLAP的性能,必须将数据仓库和传统工作的数据相分离。6、数据挖掘的分类方法主要有那些利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。②回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。③聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。④关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。⑤特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。⑥变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。⑦Web页挖掘。随着Internet的迅速发展及Web的全球普及,使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。7、Web挖掘的主要研究内容有哪些Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。Web挖掘流程与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下[3]:1.查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。2.信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。3.模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。4.模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。搜索引擎技术Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(InformationRetrieval)和信息抽取IE(InformationExtraction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合,而信息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构合表达的含义感兴趣,它得一个重要任务就是对数据进行组织整理并适当建立索引。信息获得(IR)和信息抽取(IE)技术的研究已近有很长时间,随着Web技术的发展,基于Web技术的IR、IE得到了更多的重视。由于Web数据量非常大,而且可能动态变化,用原来手工方式进行信息收集早已经力不从心,目前的研究方向是用自动化、半自动化的方法在Web上进行IR和IE。在Web环境下既要处理非结构化文档,又要处理半结构化的数据,最近几年在这两方面都有相应的研究成果和具体应用,特别是在大型搜索引擎中得到了很好的应用。Web挖掘分类及各自的研究现状及发展根据对Web数据的感兴趣程度不同,Web挖掘一般可以分为三类:Web内容挖掘(WebContentmining)、Web结构挖掘(Webstructuremining)、Web用法挖掘(WebusageMining)1、Web内容挖掘:指从Web内容/数据/文档中发现有用信息,Web上的信息五花八门,传统的Internet由各种类型的服务和数据源组成,包括WWW、FTP、Telnet等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子商务数据,以及其他各种通过Web可以访问的数据库。Web内容挖掘的对象包括文本、图象、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现(KDT)领域,也称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引起了许多研究者的关注。最近在Web多媒体数据挖掘方面的研究成为另一个热点。Web内容挖掘一般从两个不同的观点来进行研究。从资源查找(IR)的观点来看,Web内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户过滤信息。而从DB的角度讲Web内容挖掘的任务主要是试图对Web上的数据进行集成、建模,以支持对Web数据的复杂查询。1.1从资源查找(InformationRetrival)的观点挖掘非结构化文档:非结构化文档主要指Web上的自由文本,包括小说、新闻等。在这方面的研究相对比较多一些,大部分研究都是建立在词汇袋(bagofwords)或称向量表示法(vectorrepresentation)的基础上,这种方法将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环境。属性可以是布尔型,根据词汇是否在文档中出现而定,也可以有频度,即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、不常用词汇的属性作为考察集合。词汇袋方法的一个弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们做了相应的研究,采取了不同技术,如信息增益,交叉熵、差异比等,其目的都是为了减少属性。另外,一个比较有意义的方法是潜在语义索引(LatentSemanticIndexing),它通过分析不同文档中相同主题的共享词汇,找到他们共同的根,用这个公共的根代替所有词汇,以此来减少维空间。例如:“informing”、“information”、“informer”、“informed”可以用他们的根“inform”来表示,这样可以减少属性集合的规模。其他的属性表示法还有词汇在文档中的出现位置、层次关系、使用短语、使用术语、命名实体等,目前还没有研究表明一种表示法明显优于另一种。用资源查找(InformationRetrival)的观点挖掘半结构化文档:与非结构化数据相比,Web上的半结构化文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘,其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。1.2从数据库(Database)的观点挖掘非结构化文档:数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类:Web信息的建模和查询;信息抽取与集成;Web站点建构和重构。从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不止是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web数据仓库或Web知识库或虚拟数据库来实现。相关研究主要是基于半结构化数据进行的。数据库观点主要利用OEM(ObjectExchangeModel)模型将半结构化数据表示成标识图。OEM中的每个对象都有对象标识(OID)和值,值可以是原子类型,如整型、字符串型、gif、html等,也可以是一个复合类型,以对象引用集合的形式表示。由于Web数据量非常庞大,从应用的角度考虑,很多研究只处理办结构化数据的一个常用自集。一些有意义的应用是建立多层数据库(MLDB),每一层是它下面层次的概化,这样就可以进行一些特殊的查询和信息处理。对于在半结构化数据上的查询语言研究也得到了人们的重视并做了专题研究。由于在数据库观点下数据的表示方法比较特殊,其中包含了关系层次和图形化的数据,所以大部分建立在扁平数据集合之上的数据挖掘方法不能直接使用,目前已经有人针对多层数据库挖掘算法进行研究。2、Web结构挖掘:Web结构挖掘的对象是Web本身的超连接,即对Web文档的结构进行挖掘。对于给定的Web文档集合,应该能够通过算法发现他们之间连接情况的有用信息,文档之间的超连接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。把网页之间的关系分为incoming连接和outgoing连接,运用引用分析方法找到同一网站内部以及不同网站之间的连接关系。在Web结构挖掘领域最著名的算法是HITS算法和PageRank算法。他们的共同点是使用一定方法计算Web页面之间超连接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。此外,Web结构挖掘另一个尝试是在Web数据仓库环境下的挖掘,包括通过检查同一台服务器上的本地连接衡量Web结构挖掘Web站点的完全性,在不同的Web数据仓库中检查副本以帮助定位镜像站点,通过发现针对某一特定领域超连接的层次属性去探索信息流动如何影响Web站点的设计。3、Web用法挖掘(WebusageMining):即Web使用记录挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法,Web用法挖掘可以分为两类,一类是将Web使用记录的数据转换并传递进传统的关系表里,再使用数据挖掘算法对关系表中的数据进行常规挖掘;另一类是将Web使用记录的数据直接预处理再进行挖掘。Web用法挖掘中的一个有趣的问题是在多个用户使用同一个代理服务器的环境下如何标识某个用户,如何识别属于该用户的会话和使用记录,这个问题看起来不大,但却在很大程度上影响着挖掘质量,所以有人专门在这方面进行了研究。通常来讲,经典的数据挖掘算法都可以直接用到Web用法挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法等。在线手册根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web用法挖掘分为五类:●个性挖掘:针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。●系统改进:Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。●站点修改:站点的结构和内容是吸引用户的关键。Web用法挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依,比如页面连接情况应如何组织、那些页面应能够直接访问等。●智能商务:用户怎样使用Web站点的信息无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤,Web用法挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。●Web特征描述:这类研究跟关注这样通过用户对站点的访问情况统计各个用户在页面上的交互情况,对用户访问情况进行特征描述。8、举例说明何谓关联规则挖掘中的支持度和置信度。支持度和置信度:关联规则从一个侧面揭示了事务之间的某种联系。支持度和置信度总是伴随着关联规则存在的,它们是对关联规则的必要的补充。对某条关联规则而言,如A->B(support=30%,confidence=60%)其中的support=30%是说,在所有的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版七年级下册道德与法治教学计划(及进度表)
- 2025年比特币投资合作协议书
- nginx路由配置规则
- 学期教学工作计划创设教育游戏
- 工作环境改善计划
- 务实有效的工作计划制定
- 商业综合体保安工作总结与风险分析计划
- 学习方法指导与培训计划
- 绿色品牌建设的路径与策略计划
- 《身边的清洁用品:2 怎样洗衣更干净》教学设计-2023-2024学年三年级下册综合实践活动沪科黔科版
- 飞行员政审的个人自传
- 旧设备安全拆除施工方案范本
- 居住区规划设计案例分析1535793655
- 广东省通用安装工程综合定额(2018)Excel版
- 思想道德与法治2023版教学设计第二章 追求远大理想 坚定崇高信念
- 华南理工大学硕士论文格式模板
- 电子商务概论目录
- 装修返工合同
- 直流滤波电感设计
- 消力池砼施工工法
- 电力工程安全保证体系及措施
评论
0/150
提交评论