版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘知识点汇讲数据库技术的演化20世纪60年代:数据收集,数据库创建,信息管理系统(IMS)和数据库管理系统(DBMS)
20世纪70年代:关系数据模型,关系数据库管理系统工具
20世纪80年代:关系数据库管理系统(RDBMS),高级数据模型(面向对象、演绎等等)和面向应用的DBMS(空间的、科学的、工程的)
20世纪90年代至今:数据挖掘和数据仓库,多媒体数据库和web数据库
数据挖掘(数据库中的知识发现)�
在大型数据库中提取有趣的(重要的,隐含的,目前未知的,潜在有用的)信息和模式知识发现过程KDD过程的步骤了解应用领域:相关的预备知识和应用目标
创建一个目标数据集:数据选择,数据清理和预加工(可能占用60%精力)
数据变换:发现有用的特征,维/变量的变换,常量的表示
选择数据挖掘功能:汇总,分类,关联,聚集,选择挖掘算法
数据挖掘:搜索兴趣模式
模式评估和知识表达:可视化,变形,去掉冗余模式等等
使用发现的知识
何种数据上进行数据挖掘关系数据库,数据仓库,事务数据库,高级数据库与信息库,面向对象和对象-关系数据库
空间数据库,时间序列数据库和暂时数据库,文本数据库和多媒体数据库
异源数据库和继承数据库模式兴趣度度量:一个模式是有趣的如果(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)是潜在有用的;(4)是新颖的或对用户正在寻求证实的假设是有效的。
数据挖掘和数据仓库结合数据挖掘系统,数据库管理系统,数据仓库,非耦合,疏松耦合,半紧密耦合,紧密耦合
联机分析数据挖掘
数据挖掘和OLAP的结合,交互式挖掘多层知识
通过下钻/上卷,转轴,切片/切块等,在不同的层次,挖掘知识和模式的必要性。
多种挖掘功能的综合特征化的分类,先聚集再关联数据仓库一个与组织结构的操作数据库分别维护的决定支持数据库。
为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
“数据仓库是一个面向主体的、集成的、时变的、非易失的数据集合,支持管理过程的决策过程”—W.H.Inmon数据仓库和异源DBMS传统的异种数据库的集成:在异种数据库的顶部建立一个包装程序和集成程序
查询驱动方法
当一个查询提交客户站点,首先使用元数据字典对查询进行转换,将它转换成相应异种站点上的查询,然后,不同站点返回的结果被集成为全局回答
查询驱动方法需要复杂的信息过滤,并且与局部数据源上的处理竞争资源
数据仓库:使用更新驱动的方法,为集成的异种数据库系统带来了高性能
将来自多个异种源的信息预先集成,并存储与数据仓库中,供直接查询和分析OLTP和OLAP的区别
用户和系统的面向性:OLTP面向顾客,而OLAP面向市场
数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据。
数据库设计:OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型
视图:OLTP系统主要关注一个企业或部门内部的当前数据,而OLAP系统主要关注汇总的统一的数据。
访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询
为什么需要一个分离的数据仓库提高两个系统的性能
数据库管理系统—OLTP的协调:存取方法,索引,同步控制,恢复
数据仓库—OLAP的协调:复杂的OLAP查询,多维视图,合并
不同的功能和不同的数据:
数据维护:决策支持需要历史数据,而操作数据库一般不维护历史数据
数据统一:决策支持需要将来自异种源的数据统一(如聚集和汇总)
数据质量:不同的数据源通常使用不一致的数据表达,代码和形式,这些都需要协调雪花模式:雪花模式是星型模式的变种,其中某些维表示规范化的,而数据进一步分解到附加的维表中,它的图形类似于雪花的形状
事实星座表:多个事实表共享维表,这种模式可以看作星型模式及,因此称为星系模式或事实星座数据仓库的设计关于数据仓库设计的四种视图
自顶向下视图:允许选择数据仓库的所需的相关信息
数据源视图:揭示被操作数据库系统捕获、存储和管理的信息。
数据仓库视图:由事实表和维表构成
商务查询视图:从最终用户的角度透视数据仓库的数据DM的过程数据准备阶段:数据的选择(选择相关的数据,净化(消除噪音、冗余数据),推测(推算缺失数据),转化(离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等),数据缩减(减少数据量),经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。
巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。
数据预处理的必要性:数据挖掘要求的数据:干净、准确、简洁、完整。
原始数据存在的问题:
杂乱性:来自多种数据库和文件系统,缺乏统一标准和定义。
冗余性:同一个事务在数据库中可能存在多个相同的物理描述。
不完整性:设计缺陷或人为原因造成数据丢失、不确定、不完整。数据预处理的基本功能:数据清洗,数据集成,数据变换,数据约简数据预处理的基本功能-数据清洗功能:去除源数据中的噪声数据和无关数据,重复数据处理,缺值数据处理
数据类型转换
方法:,有监督方法:有领域专家指导:无监督方法:样本数据训练算法
数据预处理的基本功能-数据集成功能:
数据的选择:从多数据源中选择数据
数据冲突处理:如字段同名异义、异名同义、长度不同。
数据不一致处理:如单位、命名、结构、含义不一致。
数据类型的选择数据预处理的基本功能-数据变换功能:格式化:将元组集按照格式化条件合并,即对属性值量纲的归一化处理。
归纳:处理元组属性值之间的“is-a”语义关系。
多维数据组织:采用切片、旋转、投影等操作将原始数据按照多维立方体形式组织成为不同层次、不同粒度、不同维度的聚集。数据预处理的基本功能-数据简化功能:在对数据挖掘任务和原始数据充分理解的基础上,发现依赖于目标的表达数据的有用特征,从而尽可能地精简数据量。
方法:属性选择:属性剪枝、并枝、相关分析。
数据抽样:随机抽样、等间隔抽样、分层抽样。数据预处理的主要方法基于约略集的属性约简方法:按等价关系对属性集进行划分,求出最小约简集。
基于概念树的数据浓缩方法:将元组逐层归纳为概念树,并去除噪声数据。
基于信息论的数据泛化方法:数据立方体法、面向属性的归纳方法、最大熵方法。
基于统计分析的属性选取方法:主成分分析、回归分析、公共因素模型分析,找出特征属性。
遗传算法:高效进行数据聚类预处理。OLAP服务器类型关系OLAP(ROLAP)
使用关系和扩充关系DBMS存放并管理数据仓库,而OLAP中间件支持其余部分。
包括每个DBMS后短的优化,聚集导航逻辑的实现,和附加的工具和服务
更大的可伸缩性
多维OLAP(MOLAP)
基于数组的多维存储引擎(稀疏矩阵技术)
对预计算的汇总数据的快速索引
混合OLAP(HOLAP)
用户的灵活性,例如,低层次:相关的,高层次:数组
特殊的SQL服务器
在星型和雪花模式上支持SQL查询
数据仓库后端工具和实用程序数据提取:从多个异种的外部数据源收集数据
数据清理:检测数据中的错误,可能时更正它们。
数据变换:将数据由遗产或宿主格式转换成数据仓库格式
21.表的存储空间,除了数据存储空间外,还包含索引存储空间。22.数据挖掘可以针对任何类型的数据库进行,既包括传统的关系数据库,也包括非数据库组织的文本数据源、Web数据源以及复杂的多媒体数据源等1.关系数据库2.数据仓库3.文本数据库4.复杂类型数据库23.元数据按其所描述的内容,可以分为三类。(1)关于基本数据的元数据。(2)关于数据处理的元数据。(3)关于企业组织的元数据。24.根据用户对数据仓库的认识和使用目的,从用户的角度分类可将数据仓库划分为两大类(1)技术元数据(TechnicalMetadata)。(2)业务元数据(BusinessMetadata)。25.元数据定义了数据从被抽取,到清洗、转换,再到导入数据仓库的全部过程。元数据在数据抽取/转换中的作用如下。(1)确定数据的来源。(2)保证数据仓库内容的质量。(3)实现属性间的映射与转换。26.元数据的收集的方法有哪些(1)数据源中元数据的收集。(2)数据模型中元数据的收集。(3)映射关系元数据的收集。(4)数据仓库应用元数据的收集。27.按使用目的的不同,数据仓库的使用者可分为开发人员、维护人员和最终用户三类28.时间维在几乎所有的MDDB或数据仓库中,都是最要的一个维,使用最为普遍。时间维有以下两个特点。(1)周期特征。时间维中包含许多周期(时间单位),如日、周、月、季、年等。这些周期之间,存在着固定的转换规则。(2)行业特征。不同的行业,其工作日各有特点。一般是每周5个工作日,但也有许例外,如交通运输、零售等行业全年无休息日。29.数据挖掘项目是一项系统工程,它作为从数据库中自动发现知识的过程,仍然需要来自不同领域专家共同参与知识发现的全部过程。其中,发挥着主要作用的专家包括主题领域专家、数据专家、数据分析专家和数据挖掘专家30.数值型数据概念分层的方法主要有分箱、聚类分析、基于熵的离散化。31.数据泛化的方法很多,较为常用和有效的方法有数据立方体、面向属性的归纳等方法。32.从不同的角度考察,关联规则有多种分类。(1)根据项对应属性的数据类型,关联规则可以分为布尔型和数值型。(2)根据规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。(3)根据规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。(4)关联并不一定意味着相关或因果,有时需要识别不同的项是否相关,是否存在因果关系。根据关联规则的各种扩展,可分为相关分析、最大模式和频繁闭项集、添加约束等类型。33.多层、多维的数量型关联规则是前三种规则的复合体,挖掘的难度比较大。最简单的关联规则是单维、单层的布尔关联规则。在数据库挖掘中经常使用下列几种约束。(1)知识类型约束。(2)数据约束。(3)维或层次约束。(4)兴趣度约束。(5)规则约束。35.规则约束可以分为反单调的、单调的、简洁的、可转变的和不可转变的五种类型。36.分类是数据挖掘的基本功能之一,它的目标是从数据集中提取出能够描述数据类基本特征的模型,并利用这些模型把数据集中的每个对象都归入到其中某个已知的数据类中。37.聚类分析的数据源可以分为两种类型,即结构化的数据和非结构化的数据。38数据取样的过程有哪些A.Web数据采样。A.Web数据分析。A.Web数据调整。Web数据转换39.数据预处理就是将来自不同数据源的各类数据,组织成为模式挖掘所必需的数据结构。数据预处理的过程有哪些(1)数据清洗。(2)数据集成。(3)数据转换。(4)数据约简。40.自动摘录方法的突出优点是不受领域的限制。自动摘录方法的不足之处在于(1)文章的书写是否规范对摘录效果的影响很大。(2)主题析出难以全面。(3)易产生冗余句。(4)缺乏连贯。数据仓库和数据库有何不同?它们有那些相似之处?数据仓库与传统数据库的关系数据仓库在传统数据库的基础之上发展起来的,但它并不是对传统数库的彻底抛弃,而是旨在弥补统数据库在数据分析能力方面的不足,以提供良好的大规模数据分析能力为己任,图为决策提供有效的技术支持。和传统数据库相比,数据仓库在体特征、存储内容、向用户等方面,都有着重大的差异。正是由于这些差的存在,实现了数仓库技术在分析能力上的突破。数据抽取:在构建数据仓库的过程中,外部数据源所提供的数据并不都是有用的,有些数据对决策并能提供支持,同时,外部数据源中数据冗余的现象也很普遍。数据仓库既然是面向主题,么在外部数据源中,只有那些与主题相关的内容才是必需的、有使用价值的。因此,必以主题的需求为依据,对数据源的内容进行有目的地选择,这一过程被称为“数据抽取”(DataExtraction)。数据清洗:数据仓库的外部数据源所提供的数据内容并不完美,存在着“脏数据”—即数据有空缺、噪声等缺陷,而且在数据仓库的各据源之间,其内容也存在着不一致的现象。为了控制这些对其进行处理,这一处理过程称为“数据清洗”(DataCleaning)。对于任何数据仓库而言,数据清洗过程都是必不可少的。元数据:所谓元数据,就是有关数据的数据,它是关于数据仓库中数据,操作数据的进程以及应用程序的结构和意义的描述信息,元数据在数据仓库的建立过程中,有着十分重要的作用它所描述的对象,涉及数据仓库的各个方面。总之,数据是整个数据仓库中的核心部件。数据仓库中数据的非易失性:数据仓库中数据的非易失性,又称数据的稳定性,它包括两方面的含义:其一是指数据仓库内容的更新、追加等操作是不频繁的,一般依据既定的周期或条件阈值进行;其二是指,数据在导入数据仓库后,虽然也有删除、更新等操作,但决定这种操作的阈值条件是较难满足的,这种情况的发生是非常罕见的,可以近似地认为,数据一旦导入数据仓库后,就不再发生变化在数据仓库的构建过程中,将客观事物从现实世界的存在到计算机内物理实现的抽象过程划分为四个阶段,所谓现实世界,即客观存在的世界,它是存在于现实中的各种客观事物及其相互关系的总和。对于数据仓库而言,它的内容只是完整的客观世界的一个真子集,包含了对特定决策进行支持所必需的所有客观对象。所谓概念世界,是人们对现实世界中对象的属性进行条析、逐步概括和归纳之后,将其以抽象的形式反映出来的结果。它包括概念和关系两大部分内容。所谓逻辑世界,是指人们依据计算机物理存储的要求,将头脑中的概念世界进行转化,从而形成的逻辑表达结果。计算机世界,是指现实世界中的客观对象在计算机中的最终表达形式,即计算机系统中的实际存储模型。客观对象的内容只有在计算机中实现了物理存储,才能供人们有效地进行分析和处理。粒度模型:粒度模型,是指数据仓库在构造过程中各种粒度参数的总和。在从概念模型构造逻辑模型,由逻辑模型转换成计算机模型,最终构建数据仓库的过程中,它也起着至关重要的作用。粒度:所谓粒度,是指数据仓库中记录数据或对数据进行综合时所使用的时间段参数,它决定了数据仓库中所存储的数据单元在时间上的详细程度和级别。时间段参数越小,粒度级别越低,数据就越详细、越具体;反之,时间段参数越大,粒度级别越高,就意味着数据综合度越高,同时细节的损失也就越多。OLAP:联机分析处理(OnlineAnalyticalProcess,OLAP)就是这样一门分析技术,它以数据仓库为应用平台,根据决策者的需求,迅速而灵活地对数据仓库中的大量数据进行复杂、有效的分析处理,并将结果以直观的形式提供给决策分析人员,从而实现对决策的支持。数据单元:“数据单元”又称“数据单元格”,是指多维数组的取值,即维数组的每个维都选中一个维成员后所构成的数据组合。数据单元的表示方法为(维度1维成员,维度2维成员,…,维度n维成员,变量值)。多维数组:如果一个数据集合可以从多个角度进行观察,即具有多个维度,则根据这些维度将数据组织所构成的数组,就是多维数组。多维数组是OLAP的核心,按其维度的数量,也可称为“数据立方体”或“数据超立方”。多维数组可以用(维1,维2,维3,…,维n,变量)来表示。维成员:“维成员”是指某个维的某个具体取值。如果该维具有多个层次,则维成员也是由在该维各层次上的取值组合而成的。维:维是指人们观察某个数据集合的特定角度,它是以对数据的某个共性的提取为前提的。维的层次:在同一个维度上,可以存在多个程度不同的细节,这些细节就是“维的层次”,它是对“维”的进一步细化。当人们从某个特定角度观察问题时,按所依据的细节程度(即维层次)的不同,可以得到多种描述方法。维表:维表是用于记录维度的关系表。多维数据立方体中每个坐标轴上的值,各记录在一个维表中,这样,一个n维的数据立方体,就有n张维表。事实表:事实表是用于记录度量信息的关系表。多维数据立方体中所有的度量信息,均可记录在同一个事实表中。因此,事实表的提交要比维表大得多。空间数据库。主要指存储空间信息的数据库,其中数据可能以光栅格式提供,也可能用矢量图形数据表示。对空间数据库的挖掘可以为城市规划、生态规划、道路修建提供决策支持。时序数据库。主要用于存放与时间相关的数据,它可用来反映随时间变化的即时数据或不同时间发生的不同事件。对时序数据的挖掘可以发现事件的发展趋势、事物的演变过程和隐藏特征,这些信息将对事件的计划、决策和预警是非常有用的。关联分析:关联分析(AssociationAnalysis)就是从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式。数据关联是数据库中存在的一类重要的知识。若两个或多个变量的取值之间存在某种规律性,则称之为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联规则。分类:分类(Classification)在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是找出一组能够描述数据集合典型特征的模型或函数,以便能够识别未知数据的归属或类别。数据挖掘中分类和回归的不同分类和回归都可用于预测。预测的目的是从利用历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。聚类:聚类(Clustering)是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。数据挖掘中聚类与分类分析方法的不同聚类与分类分析方法不同,聚类分析是在没有给定划分类的情况下(如没有预定的分类表、没有预定的类目),根据信息相似度进行信息聚集的一种方法。所以,聚类分析的输入数据集是一组未标记的对象。聚类的目的是根据一定的规则,合理地进行分组或聚类,并用显式或隐式的方法描述不同的类别。由于分析可以采用不同的算法,所以对于相同的数据集合可能有不同的划分。在机器学习中,聚类是无指导学习的一个例子,分类是有指导学习的一个例子,两者所采用的方法相差甚远,并且聚类的时间复杂度要比分类大得多。信息摘要:信息摘要(InformationSummarization)是一种自动编制文摘的技术,即利用计算机将一篇文章浓缩成一篇短文的过程。文摘是以简洁的篇幅,忠实地反映原文内容的一段简短文字。通过阅读文摘,人们可以快速地掌握大量文献的基本内容,提高获取信息的效率。信息抽取:信息抽取(InformationExtraction)就是根据一个事先定义好的、描述所需信息规格的模板,从非结构化的文本中抽取相关信息的过程。这个模板通常说明了某些事件、实体或关系的类型。元数据挖掘:元数据挖掘(MetadataMining)是指对元数据进行的挖掘。例如,对文本元数据的挖掘。文本元数据可以分为两类:一类是描述性元数据,包括文本的名称、日期、大小、类型等信息;一类是语义性元数据,包括文本的作者、标题、机构、内容等信息。数据立方体:数据立方体是数据仓库和联机分析处理的核心概念之一。数据立方体中存放着预先对部分或所有维(属性)的汇总结果。利用数据立方体对数据泛化的目的是把那些经常被查询到的、运算开销较高的计算预先执行,并将执行结果存储到数据立方体中,以便于知识发现、决策支持以及其他应用。数据立方体的维数不限定为3,它可以为n(n>1)。聚类:聚类就是将数据对象组成不同的类(或簇),使得不同类对象之间的相似性尽量小,而同类对象之间的相似性尽量大。事实表是星形模型的核心,其内容可以分为那些部分?作用是什么?事实表是星形模型的核心,其内容可以分为键和详细指标两部分。事实表通过键将各维表组织起来,共同满足用户的查询需求;详细指标则是指记录在事实表中的具体数据,因其构成与内容较为简单,因此在事实表中直接记录,供查询使用。元数据的收集的作用与业务数据相比,元数据的量是很小的,并且其变化的频率与幅度也远不如业务数据,因此,对元数据采取自动收集的机制,不会对数据仓库的运行效率产生大的影响,也不会给开发人员带来大量的额外工作。另一方面,有效的元数据收集机制,却可以大大提高数据仓库的开发、维护与工作的效率。项:对一个数据表而言,表的每个字段都具有一个或多个不同的值。字段的每种取值都是一个项(Item)。在进行挖掘关联规则时,项一般表示成谓词的形式,如商品类型(计算机),其中“商品类型”是字段名,“计算机”是字段的值。有时也直接用字段的值来表示。事务:事务是项的集合。本质上,一个事务就是事实表中的一条记录。事务是项集I的子集。事务的集合称为事务集,通常就是事务数据库。但E-R图法很难直接用于开发数据仓库,目前采用的解决方法是什么?答:为了将用E-R图描述的企业模型方便地映射为数据仓库的数据模型,可以采取措施对传统的E-R图方法进行改进,即引入以下概念。(1)事实实体(FactEntity)用于表示现实世界中一系列相互关联的事实,一般是查询分析的焦点,在E-R图中用矩形表示;(2)维度实体(DimensionEntity)用于对事实实体的各种属性作细化的描述,是开展查询分析的重要依据,在E-R图中用菱形表示;(3)引用实体(QuotationEntity)对应于现实世界中的某个具体实体或对象,在事务数据查询时能提供详细的数据,在E-R图中用六角形表示。事实实体是数据仓库的中心,对应着数据仓库中的事实表。在数据仓库的高层模型中,它具有以下的作用:为用户提供定量的数据基本分析点,提供多种访问事实数据的路径、维度或指标,提供相关的标准数据,构成每个维度中最低一级的类别和一个信息组中的指标,作为存储大量数据的基础表格。在数据仓库中,维度实体可以作为对用户查询结果进行筛选的工具。维度实体的另一个重要作用,是支持数据仓库的整体构建,为不同的事实实体之间建立联系,从而将维度实体和引用实体结合成一个完整的整体,以满足用户对数据仓库的访问需求。引用实体的内容是从业务数据库中转换而来的。在数据仓库中,它往往体现为物理数据库,向用户提供详细的数据,以实现对决策的支持。数据仓库的反规范化处理的意义?规范化处理的结果,表现为将一个复杂的、依赖关系众多的大表分解成为若干个内容简洁、关系清楚的小表。应该指出,即使分解过程能满足连接无损性和依赖保持性的要求,这种分解结果也不是最佳的。因为数据仓库要实现对决策的支持,常常需要进行大规模的查询操作,这种操作必然涉及对众多的小表进行动态的关联。反规范化的另一种情况,是保持数据仓库中数据的适度冗余。在数据仓库中,有些数据是基本的,涉及到大多数,甚至是全部的业务。依据规范化理论的要求,这类数据应当存放在一个基本的表中,与记录其他具体业务数据的表相互独立,以供查询使用。这样的结果是:每次进行查询操作时,都必须同时访问业务数据表和上述基本表,再对其进行关联操作,这就增加了CPU和系统I/O的负担。因此,有必要将基本表中的内容作为冗余数据,重复地插入到各个业务数据表中,从而以适当牺牲存储空间为代价,求得系统整体效率的提升。逻辑模型中,包括4种基本的结构元素。(1)初始数据组。每个主要实体均拥有且只拥有一个初始数据组,它体现实体的本质特征。初始数据组的内容和属性需要借助逻辑模型中的其他部件(如二次数据组等)来详细说明。(2)二次数据组。每个主要实体均可拥有多个二次数据组,它们通过链接部件与初始数据组相连,对初始数据组的内容和属性加以详细说明。(3)连接数据组。它是在数据组之间建立联系的部件。借助于连接数据组,初始数据组与二次数据组之间的联系得到了体现,二次数据组因而可以对初始数据组的内容作出详细说明。(4)类型数据组。它可以理解为在初始数据组主题下,逐级细化的分类数据,在图示中通过初始数据组指向右侧的线段来表示。相对靠左侧的是超类型数据组,相对靠右侧的称为子类型数据组。说明逻辑模型4种基本结构间的关系?从数据稳定性的角度来观察,除连接数据组之外,从初始数据组,到二次数据组,再到类型数据组,其稳定性是逐步降低的。通过逻辑模型,设计者可向数据仓库的用户提供出与概念模型相比更为详细的“系统功能结构图”。用户可以从中了解到系统所能提供的功能,以及他们所能够获得的信息。在逻辑模型中,数据的属性已经初步体现出来,具备了向物模型过渡的条件。数据仓库的物理模型设计,必须依据以下要点进行。物理模型设计的主要内容,包括以下哪几个方面。(1)数据存储结构的确定。。(2)索引策略的确定。(3)数据存放位置的确定。(4)存储分配参数的确定。MOLAP与ROLAP的比较MOLAP与ROLAP是OLAP实现的两种主要方式,本节将从体系结构、数据存取等几方面,对这两种实现方式进行比较①。1.体系结构:在ROLAP处理过程中,ROLAP服务器通过用户界面接受多维查询,将其转化为标准的SQL查询,在RDBMS中执行,然后再将查询的结果,以适当的形式通过用户端界面显示出来。多维数据立方体是借助RDBMS平台实现的,因此系统的工作过程稍显复杂2.数据的存取:MOLAP基本上是专为OLAP处理而设计的,具备良好的预综合能力,可自建索引,可以多维查询语言直接对数据立方体进行存取操作,具有较快的数据存取速度。但在MOLAP中,数据的细节并不是物理地存储在MDDB中,不可直接访问。3.数据的存储管理:在存储实现上,为了保证访问速度,MDDB一般以平面文件的形式存放,文件的大小受操作系统的限制。4.元数据的管理对OLAP和数据仓库而言,元数据的地位是至关重要的,它是系统的核心数据。OLAP的元数据包括数据层次关系的定义、数据间的转换规则、时间序列信息、数据的安全控制规则、数据更新状态与方法的定义、数据源的描述等。在元数据的管理上,MOLAP和ROLAP都缺乏统一的标准,5.适应性:OLAP的适应性主要包括以下几方面的内容。(1)对维数变化的适应性。MOLAP具有较高的预综合度,随维数的增加,数据超立方体的体积增长十分迅速,管理较难;相比之下,RLOAP的预综合度较低,管理灵活,维的增加对数据库总体的影响较小,适应性较强。(2)对数据变化的适应性。由于MOLAP的高效率是建立在预综合基础上的,当数据变化频繁时,MDDB进行预综合所需的开销将十分可观,因此其对数据变化的适应性不如ROLAP。(3)对数据量的适应性。作为ROLAP基础的RDBMS,其发展历程要远远超过MDDB,目前已拥有较强的并行处理能力,能较好地适应大数据量的运算,同时在对软硬件环境的适应能力上,也具有明显的优势。应该指出,MOLAP与ROLAP二者之间,并没有绝对的优劣之分,特别是在对中小规模数据的分析处理上,MOLAP高效率的优势十分明显。随着MDDB技术的不断发展,研究的不断深入,MOLAP技术必将会有质的提高。竞争情报系统概念竞争情报系统是企业感知竞争环境变化、了解竞争对手动向、制定经营战略和竞争决策的信息系统。通过它,可以帮助企业完成竞争情报的收集、整理、加工、储存、分析、研究和管理等多项工作,提高企业获取竞争情报的效率,为企业在竞争上取得优势提供必要的保障。竞争情报系统的使用有助于企业提高竞争情报工作的效率,降低获取情报的成本,帮助企业抓住市场机遇,使企业在市场变化中能够主动采取应变措施,同时也能够将不同部门提供的单功能情报进行综合分析,得到重要的决策支持信息。数据挖掘应用在企业竞争情报系统中,数据挖掘可以解决文本自动分类、自动聚类、信息抽取、自动摘要、关联规则分析等问题。1.文本自动分类和聚类:利用自动分类和自动聚类技术,既可过滤掉不相关的文档,又可将相关文档按照相关程度从高到低排序,方便用户查询,还可以将收集到的电子文档按类别建立相应的数据库,提高查全率和查准率。信息抽取:利用信息抽取工具,竞争情报人员根据情报要求可以从不同信息源中抽取多种情报,如竞争对手情报收集指标。竞争情报收集指标的值只是文本中的信息片段,在文本中只占很小的比例,这不是文本所谈论的主题之一。3.自动摘要:利用自动摘要功能可以大大节省情报人员每天花费在收集和阅读大量书面文档上的时间,也可以在情报循环的报告阶段帮助情报人员生成报告的摘要,使主管能够选择是否阅读分析报告的全文。4.关联规则分析:利用关联规则分析方法可以实现竞争对手分析、客户分析,将关联分析与Web挖掘相结合可以分析网络欺骗、访问者的个人爱好,利用关联规则分析方法还可以挖掘例外规则与意外规则。可以提高决策的科学性,降低企业在经营活动中的风险。常见数据挖掘分析方法介绍本文标签:数据分析,数据挖掘下面介绍十种\o"查看数据挖掘中的全部文章"数据挖掘(DataMining)的分析方法,以便于大家对模型的初步了解,这些都是日常挖掘中经常遇到的算法,希望对大家有用!(甚至有\o"查看数据挖掘中的全部文章"数据挖掘公司,用其中的一种算法就能独步天下)1、基于历史的MBR分析(Memory-BasedReasoning;MBR)基于历史的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。记忆基础推理法中有两个主要的要素,分别为距离函数(distancefunction)与结合函数(combinationfunction)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。记忆基础推理法的优点是它容许各种型态的数据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据,有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。2、购物篮分析(MarketBasketAnalysis)购物篮分析最主要的目的在于找出什么样的东西应该放在一起?商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品,找出相关的联想(association)规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计吸引客户的商业套餐等等。购物篮分析基本运作过程包含下列三点:(1)选择正确的品项:这里所指的正确乃是针对企业体而言,必须要在数以百计、千计品项中选择出真正有用的品项出来。(2)经由对共同发生矩阵(co-occurrencematrix)的探讨挖掘出联想规则。(3)克服实际上的限制:所选择的品项愈多,计算所耗费的资源与时间愈久(呈现指数递增),此时必须运用一些技术以降低资源与时间的损耗。购物篮分析技术可以应用在下列问题上:(1)针对信用卡购物,能够预测未来顾客可能购买什么。(2)对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。(3)保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。(4)对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。3、决策树(DecisionTrees)决策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元树、三元树或混和的决策树型态。4、遗传算法(GeneticAlgorithm)遗传算法学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经由一连串类似产生新细胞过程的运作,利用适合函数(fitnessfunction)决定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到最佳解。基因算法在群集(cluster)问题上有不错的表现,一般可用来辅助记忆基础推理法与类神经网络的应用。5、聚类分析(ClusterDetection)这个技术涵盖范围相当广泛,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。6、连接分析(LinkAnalysis)连接分析是以数学中之图形理论(graphtheory)为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于企业的研究。7、OLAP分析(On-LineAnalyticProcessing;OLAP)严格说起来,OLAP分析并不算特别的一个数据挖掘技术,但是透过在线分析处理工具,使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般,透过图表或图形等方式显现,对一般人而言,感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。8、神经网络(NeuralNetworks)神经网络是以重复学习的方法,将一串例子交与学习,使其归纳出一足以区分的样式。若面对新的例证,神经网络即可根据其过去学习的成果归纳后,推导出新的结果,乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式,其学习效果十分正确并可做预测功能。9、判别分析(DiscriminantAnalysis)当所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric)时,判别分析为一非常适当之技术,通常应用在解决分类的问题上面。若因变量由两个群体所构成,称之为双群体—判别分析(Two-GroupDiscriminantAnalysis);若由多个群体构成,则称之为多元判别分析(MultipleDiscriminantAnalysis;MDA)。(1)找出预测变量的线性组合,使组间变异相对于组内变异的比值为最大,而每一个线性组合与先前已经获得的线性组合均不相关。(2)检定各组的重心是否有差异。(3)找出哪些预测变量具有最大的区别能力。(4)根据新受试者的预测变量数值,将该受试者指派到某一群体。10、罗吉斯回归分析(LogisticAnalysis)当判别分析中群体不符合正态分布假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件(event)是否发生,而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协率开始减小,故机率值介于0与1之间。数据库系统重要知识点绪论本章属于基础知识,主要是对一些概念的理解和记忆。没有难点,相对的重点在于ER模型的设计和关系模型的掌握。一、数据管理技术的发展阶段(识记)数据管理技术共经历了三个阶段:人工管理阶段、文件系统阶段、数据库阶段:1、人工管理阶段的特点: (1)数据不保存在机器中 (2)没有专用软件对数据进行管理 (3)只有程序的概念,没有文件的概念。2、文件系统阶段的特点与缺陷: (1)数据可长期保存在磁盘上。 (2)数据的逻辑结构与物理结构有了区别 (3)文件组织呈现多样化 (4)数据不再属于某个特定程序,可以重复使用。其缺陷是: 数据冗余性 数据不一致性 数据联系弱3、数据库阶段的特点 采用复杂的数据模型表示数据结构 有较高的数据独立性(数据结构分成用户的逻辑结构、整体逻辑结构和物理结构三级) 数据库系统为用户提供方便的用户接口,可以使用查询语言、终端命令或程序方式操作数据库。 系统提供了四个方面的数据控制功能:数据库的恢复、并发控制、数据完整性和数据安全性。 对数据的操作不一定以记录为单位,还可以数据项为单位。数据库技术中的四个名词:DB、DBMS、DBS、数据库技术。其概念是不同的,要分清。DB:数据库(Database),DB是统一管理的相关数据的集合。DBMS:数据库管理系统(DatabaseManagementSystem),DBMS是位于用户与操作系统之间的一层数据管理软件,为用户或应用程序提供访问DB的方法,包括DB的建立、查询、更新及各种数据控制。DBMS总是基于某种数据模型,可以分为层次型、网状型、关系型、面向对象型DBMS。DBS:数据库系统(DatabaseSystem),DBS是实现有组织地、动态地存储大量关联数据,方便多用户访问的计算机软件、硬件和数据资源组成的系统,即采用了数据库技术的计算机系统。数据库技术:是一门研究数据库结构、存储、管理和使用的软件学科。二、数据描述的术语(领会)1、数据描述的三个领域:现实世界、信息世界和机器世界。信息世界中的几个概念:实体(即客观存在可以相互区别的事物)、实体集(同类实体的集合)、属性(实体的特性)、实体标识符(唯一标识实体的属性(集))。机器世界中的四个概念:字段、记录、文件、键(关键码)。2、数据描述的两种形式:物理描述和逻辑描述。前者是指数据在存储设备上的存取方式,后者是指程序员或用户以用以操作的数据形式。3、数据联系的描述: 1:1联系:如果实体集E1中的每个实体最多只能和实体集E2中的一个实体有联系,反之亦然,好么实体集E1对E2的联系称为"一对一联系",记为"1:1"。 1:N联系:如果实体集E1中每个实体与实体集E2中任意个(零个或多个)实体有联系,而E2中每个实体至多和E1中的一个实体有联系,那么E1对E2的联系是"一对多联系",记为"1:N"。 M:N联系:如果实体集E1中每个实体与实体集E2中任意个(零个或多个)实体有联系,反之亦然,那么E1对E2的联系是"多对多联系",记为"M:N"。三、数据模型1、数据模型的概念(领会):表示实体类型及实体类型间联系的模型称为"数据模型"。它可分为两种类型:概念数据模型和结构数据模型。2、概念数据模型(领会):它是独立于计算机系统的模型,完全不涉及信息在系统中的表示,只是用来描述某个特定组织所关心的信息结构。(掌握ER模型)3、结构数据模型:它是直接面向数据库的逻辑结构,是现实世界的第二层抽象。这类模型涉及到计算机系统和数据库管理系统,所以称为"结构数据模型"。结构数据模型应包含:数据结构、数据操作、数据完整性约束三部分。层次模型(识记):用树型结构表示实体间联系的数据模型关系模型(领会):是由若干个关系模式组成的集合,其主要特征是用二维表格结构表达实体集,用外鍵表示实体间联系。四、数据库的体系结构(领会)1、三级结构模式:数据库的体系结构分为三级:内部级、概念级和外部级: 外部级:单个用户所能看到的数据特性,称外模式。 概念级:涉及到所有用户的数据定义,是全局的数据视图,称"概念模式"。 内部级:最接近于物理存储,涉及到实际数据存储的结构,称"内模式"。2、两级映象: 模式/内模式映象:用于定义概念模式和内模式之间的对应性。一般在内模式中描述。 外模式/模式映象:用于定义外模式和概念模式间的对应性。一般在外模式中描述。3.两级数据独立性: 物理数据独立性:修改内模式时尽量不影响概念模式及外模式,则达到物理数据独立性。 逻辑数据独立性:修改概念模式时尽量不影响外模式和应用程序。五、数据库管理系统(DBMS领会)1、DBMS的主要功能:(1)数据库的定义功能(2)数据库的操纵功能(3)数据库的保护功能(4)数据库的存储管理(5)数据库的维护功能(6)数据字典2、DBMS的组成:由两大部分组成:查询处理器和存储管理器,前者包括DDL编译器、DML编译器、嵌入型DML预编译器、查询运行核心程序。后者包括授权和完整性管理器,事务管理器、文件管理器,缓冲区管理器。六、数据库系统(DBS领会)DBS由四部分组成:数据库、硬件、软件、数据库管理员。DBS的全局结构及DBS的效益,了解一下。第二章关系数据库本章为次重点章,我们经常使用的数据库均采用关系模型,本章主要介绍了关系模型的关系运算理论,主要在于对关系演算运算的理解,为后面章节的SQL作准备。一、关系模型的基本概念(识记)1、关系模型的基本术语:用二维表格结构表示实体集、外键表示实体间联系的数据模型称为关系模型。基本术语有:字段(属性)、字段值(属性值)、记录(元组)、二维表格(元组集合、关系或实例)。在这里,括号中的表述为关系模型中的术语。它与表格中术语可以一一对应。还有,关系中属性个数称为元数,元组个数为基数。键:由一个或几个属性组成。(注意键不一定是唯一的一个属性)。 超键:在关系中能唯一标识元组的属性集称为关系模式的超键。(注意,超键也是一个属性集,不一定只是一个属性) 候选键:不含有多余属性的超键称为候选键。 主键:用户选作元组标识的一个候选键为主键。 外键:某个关系的主键相应的属性在另一关系中出现,此时该主键在就是另一关系的外键,如有两个关系S和SC,其中S#是关系S的主键,相应的属性S#在关系SC中也出现,此时S#就是关系SC的外键。2、关系模式、关系子模式 关系模式:关系模式实际上就是记录类型。它包括:模式名,属性名,值域名以及模式的主键。关系模式仅是对数据特性的描述。(这通常在数据库中表现为一个数据表的结构) 关系子模式:就是用户所用到那部分数据的描述。 3、关系模型的三类完整性规则 实体完整性规则:要求关系中组成主键的属性上不能有空值。 参照完整性规则:要求不引用不存在的实体。 用户定义完整性规则:由具体应用环境决定,系统提供定义和检验这类完整性的机制。4、关系模型的形式定义:数据结构、数据操作和完整性规则。二、关系代数运算(简单应用)1、关系代数的五个基本操作:并、差、笛卡尔积、投影和选择。并(∪):两个关系需有相同的关系模式,并的对象是元组,由两个关系所有元组构成。差(-):同样,两个关系有相同的模式,R和S的差是由属于R但不属于S的元组构成的集合。投影(σ):对关系进行垂直分割,消去某些列,并重新安排列的顺序。选择(π):根据某些条件关系作水平分割,即选择符合条件的元组。2、关系代数的四个组合操作:交、联接、自然联接和除法交(∩):R和S的交是由既属于R又属于S的元组构成的集合。联接包括θ联接和F联接,是选择R×S中满足iθ(r+j)或F条件的元组构成的集合,特别注意等值联接(θ为等号"=")。自然联接(R|X|S):在R×S中,选择R和S公共属性值均相等的元组,并去掉R×S中重复的公共属性列。如果两个关系没有公共属性,则自然联接就转化为笛卡尔积。除法(÷):首先除法的结果中元数为两个元数的差,以例2.6为例,我们可以直接用观察法来得到结果,把S看作一个块,拿到R中去和相同属性集中的元组作比较,如果有相同的块,且除去此块后留下的相应元组均相同,那么可以得到一条元组,所有这些元组的集合就是除法的结果。对于上述的五个基本操作和组合操作,应当从实际运算方面进行理解和运用,对其形式定义可不必深究。注意课本上的例子和给的练习题。3、关系代数表达式及应用在关系代数表达式中,复合了上述五个基本操作,在给出相应的表格(关系)中,应该能够根据给出的关系代数表达式计算关系值,也要能根据相应查询要求列出关系表达式。在列关系表达式时,通常有以下形式:π...(σ...(R×S))或者π...(σ...(R|X|S))首先把查询涉及到的关系取来,执行笛卡尔积或自然联接操作得到一张大的表格,然后对大表格执行水平分割(选择)和垂直分割(投影)操作。但是注意当查询涉及到否定或全部值时,就不能用上述形式,而要用到差或除法操作。第三章关系数据库SQL语言本章为重点章,应熟悉和掌握SQL的数据定义、数据查询、数据更新的句法及其应用,特别是数据查询的应用。结合上机操作进行理解和掌握。一、SQL概述。1、SQL发展历程(识记)SQL从1970年美国IBM研究中心的E.F.Codd发表论文到1974年Boyce和Chamberlin把SQUARE语言改为SEQUEL语言,到现在还在不断完善和发展之中,SQL(结构式查询语言)虽然名为查询,但实际上具有定义、查询、更新和控制等多种功能。2、SQL数据库的体系结构(领会)SQL数据库的体系结构也是三级结构,但术语与传统关系模型术语不同,在SQL中,关系模式称为"基本表",存储模式称为"存储文件",子模式称为"视图",元组称"行",属性称"列"。SQL数据库体系的结构要点如下: (1)一个SQL数据库是表的汇集。 (2)一个SQL表由行集构成,行是列的序列,每列对应一个数据项。 (3)表或者是基本表,或者是视图。基本表是实际存储在数据库中的表,视图由是由若干基本表或其他视图构成的表的定义。 (4)一个基本表可以跨一个或多个存储文件,一个存储文件也可存放一个或多个基本表。存储文件与物理文件对应。 (5)用户可以用SQL语句对表进行操作,包括视图和基本表。 (6)SQL的用户可以是应用程序,也可以是终端用户。3、SQL的组成(识记)SQL由三部分组成: (1)数据定义:SQLDDL。定义SQL模式,基本表、视图和索引。 (2)数据操纵:SQLDML。包括数据查询和数据更新(增、删、改)。 (3)数据控制:包括对基本表和视图的授权、完整性规则的描述,事务控制等。二、SQL的数据定义(简单应用)1、SQL模式的创建和撤消:SQL模式的创建可简单理解为建立一个数据库,定义一个存储空间,其句法是:CREATSCHEMA<模式名>AUTHORIZATION<用户名>撤消SQL模式的句法为:DROPSCHEMA<模式名>[CASCADE|RESTRICT]方括号中的选项参数CASCADE表示连锁方式,执行时将模式下所有基本表、视图、索引等元素全部撤消。RESTRICT表示约束式,执行时必须在SQL模式中没有任何下属元素时方可撤消模式。2、SQL提供的基本数据类型 数值型:包括integer、smallint、real、doubleprecision、float(n),numeric(p,d) 字符串型:char(n)、varchar(n),前者是定长,后者为变长串 位串型:bit(n),bitvarying(n),同上。 时间型:date、time。3、基本表的创建、修改和撤消 基本表的创建:(可理解为建立表结构)CREATTABLESQL模式名.基本表名(列名,类型,……完整性约束...)完整性约束包括主键子句(PRIMARYKEY)、检查子句(CHECK)和外键子句(ForeignKEY). 基本表结构的修改ALTERTABLE基本表名ADD/DROP(增加/删除)列名类型名(增加时写出)删除时有子句[CASCADE|RESTRICT],前者为连锁删除,后者为约束删除,即没有对本列的任何引用时才能删除。 基本表的撤消DROPTABLE基本表名[CASCADE|RESTRICT]4、视图的创建和撤消 创建:CREATVIEW视图名(列名表)ASSELECT查询语句 撤消:DROPVIEW视图名5、索引的创建和撤消 创建:CREAT[UNIQUE]INDEX索引名ON基本表名(列名表[ASC|DESC]) 撤消:DROPINDEX索引名总结:凡创建都用CREAT,删除都用DROP,改变用alter,再跟类型和名字,附加子句很容易了。三、SQL的数据查询(综合应用)这一段是本章的重点内容,应该熟练掌握。首先了解基本句法:1、SELECT-FROM-WHERE句型 SELECT列名表(逗号隔开)FROM基本表或视图序列WHERE条件表达式在这里,重点要掌握条件表达式中各种运算符的应用,如=,>,<,<>等算术比较运算符、逻辑运算符AND、OR、NOT、集合成员资格运算符:IN,NOTIN,以及嵌套的SELECT语句的用法要特别注意理解。针对课本的例题和课后习题进行掌握。在查询时,SELECT语句可以有多种写法,如联接查询、嵌套查询和使用存在量词的嵌套查询等。最好都掌握,但是起码应能写出一种正确的查询语句。2.SELECT语句完整的句法: SELECT列名表(逗号隔开)FROM基本表或视图序列[WHERE条件表达式](此为和条件子句)[GROUPBY列名序列](分组子句)[HAVING组条件表达式](组条件子句)[ORDERBY列名[ASC|DESC]..](排序子句)这段关于完整句法的内容能够理解也就问题不大了。3、SELECT语句中的限定这一段内容主要是对SELECT语句进一步使用进行的深入学习,领会下列各种限定的使用目的和方法。 要求输出表格中不出现重复元组,则在SELECT后加一DISTINCT SELECT子句中允许出现加减乘除及列名,常数的算术表达式 WHERE子句中可以用BETWEEN...AND...来限定一个值的范围 同一个基本表在SELECT语句中多次引用时可用AS来增加别名 WHERE子句中字符串匹配用LIKE和两个通配符,%和下划线_. 查询结果的结构完全一致时可将两个查询进行并(UNION)交(INTERSECT)差(EXCPT)操作 查询空值操作不是用='null',而是用ISNULL来测试。 集合成员资格比较用IN/NOTIN,集合成员算术比较用元组θSOME/ALL 可以用子查询结果取名(表名(列名序列))来作为导出表使用 基本表的自然联接操作是用NATURALINNERJOIN来实现的。四、SQL的数据更新(简单应用)简单应用就是掌握基本的句型并能套用在一些简单的查询要求上。1、数据插入:INSERTINTO基本表名(列名表)VALUES(元组值)或INSERTINTO基本表名(列名表)SELECT查询语句其中元组值可以连续插入。用查询语句可以按要求插入所需数据。2、数据删除:DELETEFROM基本表名[WHERE条件表达式]3、数据修改:UPDATE基本表名SET列名=值表达式,[列名=值表达式...][WHERE条件表达式]这一节的关于增删改的操作要和前面关于数据库模式、表的增删改操作进行对比学习,以加深理解。不要忘记上机实践。第五章关系数据理论本章的理论性较强,学习时有无从下手的感觉,在学习时应多加思考,从概念出发去理解理论,前后的理论有较强的联系,因此要逐个理解,但对于理论的证明等内容则不必深究,本章重点是函数依赖和范式的概念。一、关系模式的设计问题(识记)关系数据库是以关系模型为基础的数据库,它利用关系来描述现实世界。一个关系既可以用来描述一个实体及其属性,也可以用来描述实体间的联系。关系实质上就是一张二维表,表的行称为元组,列称为属性。关系模式是用来定义关系的,这里的关系模式我们可以简单地理解为一个表的结构,一个关系数据库包含一组关系,也就是包含一组二维表,这些二维表结构体的集合就构成数据库的模式(也可以理解为数据库的结构)。关系数据库设计理论包括三个方面内容:数据依赖、范式、模式设计方法。核心内容是数据依赖。关系模式的存储异常:数据冗余、更新异常、插入异常和删除异常二、函数依赖(FD)1、函数依赖的定义(领会):设有关系模式R(A1,A2,...An)或简记为R(U),X,Y是U的子集,r是R的任一具体关系,如果对r的任意两个元组t1,t2,由t1[X]=t2[X]导致t1[Y]=t2[Y],则称X函数决定Y,或Y函数依赖于X,记为X→Y。X→Y为模式R的一个函数依赖。这个定义可以这样理解:有一张设计好的二维表,X,Y是表的某些列(可以是一列,也可以是多列),若在表中的第t1行,和第t2行上的X值相等,那么必有t1行和t2行上的Y值也相等,这就是说Y函数依赖于X。如下图所示:教师课程张老师物理杨老师化学李老师物理在表中,凡教师名相同的,对应的课程名也必是相同的,则此时说教师名函数决定课程名,或"课程名"函数依赖于"教师名"。但是反过来不一定,课程名相同时并不一定教师名相同,所以这里的Y→X是不成立的。要特别注意的是,在这张表中,任何一行的关系均应符合上述条件,如果有一行不符合函数依赖的条件,则函数依赖对于这个关系就不成立。还有应该了解的是,函数依赖是否成立是不可证明的,只能通过属性的含义来判断,上述表是一个关系实例,可以一条条进行验证,但是对于模式设计来说,开始时并没有数据插入,我们只能从属性的含义出发,如这个关系模式保存了全校所有教师和课程对应关系,则有可能出现相同的教师名而课程名不是一样的情况(有同名教师),那么"课程名→教师名"这个函数依赖就不成立了。上述例子可对照课本理论进行领会。2、键和FD的关系(领会)键是唯一标识实体的属性集。对于键和函数依赖的关系:有两个条件:设关系模式R(A1,A2...An),F是R上的函数依赖集,X是R的一个子集, (1)X→A1A2...An∈F+(它的意思是X能够决定唯一的一个元组) (2)不存在X的真子集Y,使得Y也能决定唯一的一个元组,则X就是R的一个候选键。(它的意思是X能决定唯一的一个元组但又没有多余的属性集)包含在任何一个候选键中的属性称为主属性,不包含在任何键中的属性为非主属性(非键属性),注意主属性应当包含在候选键中。3、函数依赖(FD)的推理规则(了解)前面我们举的例子中是以实际经验来确定一个函数依赖的逻辑蕴涵,但是我们需要一个推理规则才能完全确定F或F+的所有函数依赖。设有关系模式R(U),X,Y,Z,W均是U的子集,F是R上只涉及到U中属性的函数依赖集,推理规则如下: 自反律:如果YXU,则X→Y在R上成立。 增广律:如果X→Y为F所蕴涵,ZU,则XZ→YZ在R上成立。(XZ表示X∪Z,下同) 传递律:如果X→Y和Y→Z在R上成立,则X→Z在R上成立。 合并律:如果X→Y和X→Z成立,那么X→YZ成立。 伪传递律:如果X→Y和WY→Z成立,那么WX→Z成立。 分解律:如果X→Y和ZY成立,那么X→Z成立。三、关系模式的范式(领会)1、1NF、2NF、3NF、BCNF的定义: 1NF:第一范式。即关系模式中的属性的值域中每一个值都是不可再分解的值。如果某个数据库模式都是第一范式的,则称该数据库模式是属于第一范式的数据库模式。比如有一个关系顾客={顾客,送货地址},若有这样几行记录:顾客 送货地址张三北京、上海李四 北京 这时的第一条记录就表示本关系模式不是1NF的,因为课程中的值域还是可以分解的,它包括了两个地址,如分为:顾客 送货地址张三北京张三 上海李四 北京 就成为第一范式的关系模式。 2NF:第二范式。如果关系模式R为第一范式,并且R中每一个非主属性完全函数依赖于R的某个候选键,则称为第二范式模式。在这里要先了解"非主属性"、"完全函数依赖"、"候选键"这三个名词的含义。候选键就是指可以唯一决定关系模式R中某元组值且不含有多余属性的属性集。非主属性也就是非键属性,指关系模式R中不包含在任何建中的属性。设有函数依赖W→A,若存在XW,有X→A成立,那么称W→A是局部依赖,否则就称W→A是完全函数依赖。在分析是否为第2范式时,应首先确定候选键,然后把关系模式中的非主属性与键的依赖关系进行考察,是否都为完全函数依赖,如是,则此关系模式为2NF。如果数据库模式中每个关系模式都是2NF的,则此数据库模式属于2NF的数据库模式。 3NF:第三范式。如果关系模式R是第二范式,且每个非主属性都不传递依赖于R的候选键,则称R为第三范式的模式。这里首先要了解传递依赖的含义:在关系模式中,如果Y→X,X→A,且X不决定Y和A不属于X,那么Y→A是传递依赖。注意的是,这里要求非主属性都不传递依赖于候选键。 BCNF:这个范式和第三范式有联系,它是3NF的改进形式。若关系模式R是第一范式,且每个属性都不传递依赖于R的候选键。这种关系模式就是BCNF模式。纵观四种范式,可以发现它们之间存在如下关系:BCNF3NF2NF1NF1NF ↓ 消去非主属性对键的部分函数依赖2NF ↓ 消去非主属性对键的传递函数依赖3NF ↓ 消去主属性对键的传递函数依赖BCNF2、多值依赖。简单了解一下。第六章数据库设计与上一章不同,本章的实用性较强,详细讲述了数据库应用系统设计的全过程。重点是概念设计中ER模型的设计方法,逻辑设计中ER模型向关系模型的转换方法。一、数据库设计概述(识记)1、软件生存期:是指从软件的规划、研制、实现、投入运行后的维护、直到它被新的软件所取代而停止使用的整个期间。它包括六个阶段:(规需设编试运维) (1)规划阶段 (2)需求分析阶段 (3)设计阶段 (4)程序编制阶段 (5)调试阶段 (6)运行维护阶段2、数据库系统生存期数据库应用系统的开发也是一项软件工程,称为数据库工程,数据库应用系统也有生存期的概念,通常包括七个阶段: (1)规划阶段 (2)需求分析阶段 (3)概念设计阶段 (4)逻辑设计阶段 (5)物理设计阶段 (6)实现阶段 (7)运行维护阶段3、数据库设计方法学一个好的数据库设计方法应该能在合理的期限内,以合理的工作量产生一个有实用价值的数据库结构。数据库及其应用系统的设计分为以下几个阶段:规划、需求分析、概念设计、逻辑设计、物理设计。二、需求分析(识记)需求分析阶段应对系统的整个应用情况作全面的、详细的调查、确定用户的目标,收集支持系统总的设计目标的基础数据和对这些数据的要求,确定用户需求,并把这些要求写成用户和数据库设计者都
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临沂大学《Matlab语言与应用》2020-2021学年第一学期期末试卷
- 聊城大学东昌学院《设计基础》2021-2022学年第一学期期末试卷
- 聊城大学《软件质量保证与测试》2022-2023学年第一学期期末试卷
- 八年级政治复习计划
- 工程工作计划锦集
- 会计实习安排计划
- 2024八年级德育工作计划 德育工作计划
- 培训总结及计划
- 新手健身房训练计划
- 幼儿大班工作计划下期幼儿大班工作计划秋季
- 2024年下半年航天科保春季校园招聘正式启航易考易错模拟试题(共500题)试卷后附参考答案
- 2024年江苏省苏州市中考数学试卷含答案
- 软件测试汇报
- 无薪资合同范例
- GB/T 22082-2024预制混凝土衬砌管片
- 充电电缆产品入市调查研究报告
- 5.5 跨学科实践:制作望远镜教学设计八年级物理上册(人教版2024)
- 2024年时事政治题库附参考答案(综合题)
- 隧道及地下工程基础知识单选题100道及答案解析
- 飞行区维护与保障学习通超星期末考试答案章节答案2024年
- 2024年法律职业资格考试(试卷一)客观题试卷及解答参考
评论
0/150
提交评论