数据库与数据仓库_第1页
数据库与数据仓库_第2页
数据库与数据仓库_第3页
数据库与数据仓库_第4页
数据库与数据仓库_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 数据库与数据仓库 信息管管理理系统统开开发结结构构第四章数数据库库和数据据仓库第一节数数据管管理第二节数数据库库与数据据库管理理系统环环境第三节关关系数数据库模模型第四节数数据库库的建立立第五节数数据仓仓库与数数据挖掘掘第六节高高级数数据库技技术和高高级数据据库应用用第一节数数据管管理什么是数数据管理理数据组织织的层次次实体、属属性和关关键字数据管理理的传统统方法数据管理理的数据据库方法法为什么要要进行数数据管理理名称,时时代,作作者,规规格,幅幅面,内内容,卷卷前引首首,前隔隔水,后后隔水,题跋,历代收收藏人,印章,真迹图图,细部部放大图图为什么要要进行数数据管理理第一,“信息孤孤岛

2、”问问题日益益严重,数据采采集、整整理、分分析的繁繁重任务务,多源源异构的的海量数数据存储储,信息息资源有有效利用用的需求求,旧有有的数据据管理与与企业发发展的冲冲突等等等;第二就是是系统的的自动化化程度不不高,各各个系统统不能平平滑地集集成起来来;第三就是是信息系系统的成成本,我我们曾谈谈到,信信息系统统集成成成本比信信息系统统建设的的成本高高甚至几几倍。什么是数数据管理理根据赛迪迪顾问的的界定,中国数数据管理理技术应应用软件件主要包包括:企企业信息息门户(EIP)、商商业智能能(BI)、内内容管理理(CM)、知知识管理理系统(KMS)和竞竞争情报报系统(CIS)五大大应用软软件领域域。数据

3、管理理的定义义数据组织织的层次次数据按照照层次方方式进行行组织由位、字字节、字字段、记记录、文文件和数数据库组组成位(Bit)位是计算算机中最最小的数数据单位位,其值值为0或或1,是是一个二二进位,表示一一个导通通或未通通的电路路。字节(Byte)字节是由由若干位位组成的的,代表表一个字字符。字字符是信信息的最最基本构构架。(见ASCII码表)ASCII编码码表数据组织织的层次次字段(Field)。多个字符符组成一一个词或或者一个个完整的的数字(如人名名或年龄龄),字段是数数据的最最小单位位,它不不能再分分成有意意义的单单位记录(Record)由与某个个特殊对对象或活活动有关关的所有有字段组组

4、成。文件(File)同一类型型的所有有记录组组成一个个文件文件就是是与某个个特定主主题相关关的数据据记录的的集合。(字母J的ASCII码)数据的层次举例文件字节字段纪录01001010900811刘汉云 2000-9-4位0,1数据库刘汉云项目数据库包含:职员编号、姓名、聘用日期学分及成绩的记录职员文件(名字字段)职员文件部门文件财务文件900811刘汉云 2000-9-4900206李卓宇 2002-7-2910810张昕阳 2001-8-2模型的概概念:对现实世世界事物物特征的的模拟和和抽象就就是这个个事物的的模型。计计算机机不能直直接处理理现实世世界中的的具体事事物,所所以必须须先把具具

5、体事物物转换为为抽象的的模型,然后再再将其转转换为计计算机可可以处理理的数据据,从而而以模拟拟的方式式实现对对现实世世界事物物的处理理。模型应满满足以下下要求:真实地反反映现实实世界;易被人理理解;便于在计计算机上上实现;基本术语语实体:客客观存在在、并且且可以互互相区别别的事物物称为实实体。属性:实实体所具具有的每每一个特特性都称称为一个个属性。选择的的实体属属性越多多,所描描述的实实体就越越清晰。属性有有“型”和“值值”的概概念,属属性的名名称就是是属性的的“型”;对型型的具体体赋值就就是属性性的“值值”。主键值(码):在众众多属性性中能够够唯一标标识实体体的属性性或属性性组。实体集:某个

6、实实体型下下的全部部实体,称为实实体集。联系:一一个实体体集内部部各实体体之间的的相互联联系,叫叫做实体体内部联联系。在在实体集集之间的的联系,称为实实体的外外部联系系。实体、属属性和关关键字实体entity实体是所所收集的的数据相相关的一一类事物物,可以以是物,人,实实际的东东西,或或者具体体的东西西员工库存客户订单教室实体、属属性和关关键字属性Attribute属性是实实体的某某一方面面的特征征学生的姓姓名、学学号、年年龄、性性别成绩绩是学生生的属性性库存号、说明、现有数数量、在在仓库中中的位置置等是库库存的属属性实体、属属性和关关键字关键字PrimaryKey关键字是是用来识识别记录录的

7、一个个或一组组数据项项,是识识别记录录和文件件中查找找记录的的标志学生文件件中的学学号,产产品文件件中的产产品号,订单文文件中的的订单号号辅助关键键字SecondaryKey不能唯一一表示一一个记录录的字段段数据管理理的传统统方法利用文件件管理数数据为每个应应用程序序分别创创建和存存储数据据文件的的数据管管理方法法都称为为传统方方法应用程序 A文件A应用程序 B文件B应用程序 C文件C数据管理理传统方方法的不不足数据冗余余大冗余是指指在多个个数据文文件中重重复出现现相同的的数据。数据与程程序独立立性不高高数据文件件和维护护它的相相关程序序之间过过分依赖赖。数据管理理的数据据库方法法数据库是是逻

8、辑相相关的记记录和文文件的集集合。把先前提提及的所所有存储储在独立立文件中中的记录录归并在在一个数数据库内内,以便便让不同同的应用用程序存存取。储存在数数据库中中的数据据既独立立于使用用它的计计算机程程序,也也独立于于存储它它的外部部存储器器的类型型。数据库管管理系统统中的模模式数据库管管理系统统中的模模式物理模式式:描述述数据的的物理存存储形式式,也称称内模式式,直接接与操作作系统或或硬件相相联系。概念模式式(逻辑辑模式):数据据库数据据的完整整表示,是所有有用户的的公共数数据视图图。模式式仅仅涉涉及数据据类型的的描述,不涉及及具体的的数据值值。子模式:针对每每一个用用户或应应用,又又由模式

9、式导出若若干个子子模式(或叫外外模式、用户模模式)。子模式式是直接接面向用用户的,用户能能够看见见并使用用的是逻逻辑结构构的局部部数据描描述。每每一个子子模式都都是模式式的一个个子集;也可以以看作是是模式的的一个窗窗口。一一个数据据库系统统可以有有多个子子模式。两级映射射可保证证三种模模式之间间的相互互独立性性。数据库管管理系统统DatabaseManagement System,DBMS在数据库库管理系系统中,应用程程序不能能直接从从存储介介质获得得所需的的数据。它必须须先将请请求提交交给DBMS,由DBMS负负责从存存储介质质检索数数据并提提供给应应用程序序使用基于数据据库方法法的优点点减

10、少数据据冗余,更有效效利用存存储空间间并增强强数据的的完整性性。也为为组织提提供了更更大地利利用数据据的灵活活性。两个文件件中的数数据放在在了同一一个数据据库,可可以多种种方法定定位数据据并获得得要处理理的数据据共享数据据和信息息资源第二节数数据据库与数数据库管管理系系统环境境数据库及及其特征征数据库管管理系统统数据库查查询语言言数据的逻逻辑视图图和物理理视图数据库及及其特征征数据库的的定义数据库(Database)是一个个信息的的集合,在这个个集合中中可以按按照信息息的逻辑辑结构对对其进行行组织与与存取。数据库由由两部分分组成信息本身身信息的逻逻辑结构构数据库特特征信息的集集合数据库特特征逻

11、辑结构构数据字典典包含信信息的逻逻辑结构构数据库的的特征信息中的的逻辑联联系建立信息息间的联联系或关关系意味味着找出出文件之之间的相相互关系系.主关键字字数据库文文件中的的一个字字段,唯唯一描述述一个记记录产品文件件中的产产品ID,供应应商文件件中的供供应商编编号外部关键键字一个文件件中的主主关键字字出现在在另一个个文件中中就是外外部关键键字,比比如产品品文件中中的供应应商文件件.数据库的的特征内在的完完整性约约束完整性约约束是保保证信息息质量的的一种规规则比如产品ID不能重重复产品文件件中的供应商ID不应该是是供应商商文件中中没有的的供应商ID数据库管管理系统统DatabaseManagem

12、ent System是一组软软件,允允许组织织集中并并有效地地管理数数据以供供应用程程序访问问相当与应应用程序序和物理理数据文文件之间间的接口口数据库管管理系统统的组成成数据定义义语言数据操作作语言数据字典典数据库管管理系统统组成数据定义义语言描述数据据库内容容和结构构的正式式语言数据操作作语言操作数据据库中的的数据,提供了了一组提提取数据据的命令令数据字典典自动生成成或者手手工生成成的文件件,用来来存储数数据元素素的定义义和特性性。如用用途,物物理表现现,所属属关系,授权和和安全.被动的的,主动动的.数据字典典给数据流流程图中中每个成成分以定定义和说说明的工工具。在在数据流流程图中中仅对系系

13、统逻辑辑功能的的总体框框架作了了描述,缺乏详详细具体体的说明明。数据据字典的的作用是是对数据据流程图图中的各各种成分分,包括括数据项项、数据据结构、数据流流、数据据存储、处理功功能、外外部项等等的逻辑辑内容与与特征予予以详细细说明。数据字字典中有有关系统统的详细细信息是是以后系系统设计计、系统统实施与与维护的的重要依依据。数据字典典编写的的基本要要求如下下:对数据流流程图中中各种成成分的定定义必须须明确、易理解解、唯一一;命名、编编号与数数据流程程图一致致;符合一致致性与完完整性的的要求,对数据据流程图图上的成成分定义义与说明明无遗漏漏项,无无同名异异义或异异名同义义;格式规范范、文字字精炼与

14、与符号正正确。财务管理理第三层层工资管管理数据据流程图图数据字典典中的条条目数据项:是数据据处理中中不可分分割的基基本逻辑辑单位。包括数数据项编编号、名名称、取取值范围围、数据据项类型型、长度度等。数据结构构:描述述数据流流/数据据存储的的逻辑组组成。数数据结构构条目内内容包括括:数据据结构名名称、编编号、包包含该结结构的数数据流/数据存存储的编编号、该该数据结结构中包包含的数数据项名名称等。数据字典典中的条条目数据流:定义数数据流程程图中的的数据流流,内容容为数据据流的编编号、名名称来源源、去向向、包含含数据结结构的名名称以及及单位时时间(如如年月日日)传输输次数等等。数据存储储:存储储条目

15、的的内容有有数据存存储的名名称、编编号、组组成(即即数据存存储包含含的数据据结构)、最大大记录数数等。处理功能能:条目目内容有有处理功功能的名名称、编编号、输输入数据据流、输输出数据据流、处处理逻辑辑概括等等。外部实体体:条目目内容有有外部实实体名称称、编号号、输入入数据流流、输出出数据流流等。数据库查查询语言言属于数据据操作语语言自然语言言自然语言言查询命命令LIST THENAMESANDADDRESSES OF ALLSUPPLIERSWHO LIVEINSHANGHAIQBEQueryByExample通过拖曳曳数据项项等方法法来查询询数据数据库查查询语言言SQLStructured

16、Query Language结构化查查询语言言标准利用SQL可以以查询不不同数据据库管理理系统下下的数据据.基本形式式SELECTFROMWHERE数据视图图和逻辑辑视图DBMS把数据据的逻辑辑视图和和物理视视图分开开逻辑视图图以最终终用户所所使用的的直观的的方式来来显示数数据物理视图图则显示示了数据据的实际际组织形形式以及及它在物物理存储储介质上上的结构构一个物理理视图可可支持多多个逻辑辑视图DBMS使用专专门的数数据库管管理软件件,使得得物理数数据库可可用于不不同应用用程序所所需的不不同的逻逻辑视图图。第三节关关系数数据库模模型四种数据据库模型型层次型网状型关系型目前使用用最为广广泛面向对

17、象象层次型数数据库层次模型型:实体体之间按按层次关关系来定定义。实实体用记记录表示示,实体体的属性性对应记记录的数数据项。层次模模型以每每个实体体为结点点,上层层结点叫叫“父结结点”,下层结结点叫“子结点点”。如如下图所所示仅有一个个无双亲亲的根结结点;根根结点叶叶子结点点根结点以以外的子子结点,向上仅仅有一个个父结点点,向下下有若干干子结点点。网状模型型数据库库网状模型型:可表表达比较较复杂的的实体间间关系(多对多多),但但当需要要对系统统扩展时时,对原原有数据据结构及及应用程程序的修修改,需需要花费费更多的的代价,甚至带带来严重重的后果果。主要要特征如如下:有一个以以上的结结点无双双亲;至

18、少有一一个结点点有多个个双亲;关系数据据库模型型利用一系系列的二二维表或或文件存存储信息息.在关系模模型中,每个二二维表都都描述一一种关系系.关系是表表的数学学术语每一个表表或关系系所保存存的信息息都与一一个特定定的实体体有关.二维表使使描述信信息间的的关系十十分便利利,容易易处理二二维表所所包含的的信息.可以灵活活地查询询数据库库和建立立报表关系数据据库模型型可以灵活活地查询询数据库库和建立立报表查询单个个表和多多个表不必建立立数据项项之间的的所有连连接,随随时可以以建立.关系数据据库模型型关系模型型:以表表格形式式作为基基本的存存储结构构,通过过相同关关键字段段来实现现表格间间的数据据联系

19、。结构简简单、易易学易用用是其主主要特点点,很受受用户欢欢迎,是是目前的的主流。由于系统统中实体体包括许许多属性性,而这这些属性性又会被被不同用用户的用用户使用用,所以以将这些些属性一一起放在在一个数数据表中中显然是是不合理理的,需需要进行行分类与与汇总,以编制制不同的的、且相相关联的的表,这这就是所所谓的关关系。表具有以以下四个个性质:在表中的的任意一一列上,数据项项应属于于同一个个属性;表中所有有行都是是不相同同的,不不允许有有重复行行出现;行的顺序序无关;列的顺序序无关,但不能能重复;第四节关关系数数据库的的建立确定实体体和关键键字确定实体体之间联联系利用E_R图得得到关系系为每个关关系

20、确定定信息(字段)用数据定定义语言言创建数数据库学生修课课管理学生选修修样本报报表确定实体体和关键键字三个实体体学生专业课程关键字学号专业号课程号确定实体体之间的的联系-画画实体联联系图实体联系系图(Entity-Relationship Diagram, E-R图)矩形表示示实体菱形表示示实体之之间的联联系直线表示示连接1代表出出现一次次,M代代表多次次确定实体体之间的的联系-画画实体联联系图确定实体体之间的的联系-画画实体联联系图先画上矩矩形填上实体体名判断是否否有联系系有联系画画上菱形形,判断断联系是是1还是是M利用E-R图得得到关系系将每一个个实体都都转化为为一个关关系学生、课课程、专

21、专业将每一个个多对多多的联系系都转换换为一个个关系联联系的名名称为关关系的名名称选修将每一个个一对多多的联系系都转换换为一个个关系分配合并具有有相同关关键字的的关系:学生与分分配合并并为每个关关系确定定信息(字段)确保每个个关系中中所含的的信息确确实处于于正确的的关系之之中这组信息息只依赖赖于所属属关系的的主关键键字专业名称称信息不能能从其他他的信息息中派生生出来用数据定定义语言言创建数数据库根据前面面四步的的结果来来,运用用数据定定义语言言来创建建关系数据库三三范式在建立数数据库表表时,如如何使数数据结构构合理有有效,需需要遵守守一定的的法则,即五大大“范式式”,其其中常用用的为前前三个“范式”第一范式式:在同同一表中中没有重重复项出出现,即即不能将将同一属属性定义义两次;第二范式式:每个个表必须须有(仅仅有)一一个数据据元素作作为主关关键字,其他数数据元素素与主关关键字一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论