第三章 数据管理_第1页
第三章 数据管理_第2页
第三章 数据管理_第3页
第三章 数据管理_第4页
第三章 数据管理_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章数据管理第一节数据管理概述数据与信息是密切相关联的,数据是信息的具体表现形式,它反映了信息的内容。二、数据组织的层次一、信息与数据数据项(Field):是具有确定逻辑意义的数据的最小单位。用于说明事物的某方面性质。数据库(DataBase):存储起来的相关数据的集合。记录(Record):具有一定关系的数据项的一个有序集合。用于说明一个客观存在的事物(或事物之间的联系)。文件(File):同类记录的有序集合。如图关键字(Keyword):能唯一标识一条记录的数据项的最小集合。数据库中的数据由数据库管理系统(DBMS)统一管理。三、数据管理技术的发展1.人工管理阶段数据管理的特点:没有软件系统对数据进行管理;数据和程序结合为一个不可分割的整体;一组数据对应于一个应用程序。20世纪50年代中期以前。应用程序1应用程序2应用程序n数据组1数据组2数据组n数据1数据2数据n.........人工管理下数据与应用程序的联系2.文件管理阶段20世纪在50年代后期~60年代中期数据管理的特点:有了软件系统对数据进行管理,程序与数据之间有了一定的独立性;文件系统是用户应用程序与数据文件间的接口;各文件相互独立,分散保管,数据的一致性不易控制。缺点:数据仍然是面向应用的、文件不易扩充、数据共享有限等。应用程序1应用程序2应用程序n......文件系统中数据与应用程序的联系文件2文件1文件n文件系统数据库在数据管理方面的特点:3.数据库系统阶段20世纪60年代末期1.数据面向整体系统而不是面向某个应用2.数据冗余度(dataredundancy)小4.数据共享性好3.具有较好的数据独立性物理独立性:数据的物理组织发生变化不影响数据的逻辑结构。逻辑独立性:数据库的逻辑结构改变时,无需改变应用程序。5.数据的一致性好6.数据安全性、完整性和并发性保障第二节数据库及其管理系统一、概述现实世界(RealWorld):存在于人们头脑之外的客观世界。信息世界(InformationWorld):现实世界在人们头脑中的反映,人们把它用文字和符号记载下来。数据世界(DataWorld):信息世界的信息在机器世界中以数据形式存储。客观事物信息数据

认识形象化、具体化信息模型:实体、属性、联系事物:对象性质联系数据模型:实体文件、记录属性数据项(字段)联系三个世界的关系:现实世界信息世界数据世界例子全体事物间关系实体集联系(m:n)文件某厂全体职工的个人数据资料设备与零部件的加工关系个体实体记录职工张三的数据特征事物间关系属性联系(1:1和1:n)数据项张三,男,25,工程师班级和学生的所属关系三个世界术语对应表客观事物的关系与性质实体联系属性数据库文件记录数据项转换认识抽象信息世界现实世界数据世界二、信息模型实体(Entity):是指客观存在的事物。

Entity:Aperson,place,thing,oreventaboutwhichinformationmustbekept.属性(Attribute):是指实体具有的性质或特性。

Attribute:Apieceofinformationdescribingaparticularentity.1.信息模型的要素例如:学生,课程,班级等。

实体个体:是指能相互区分的,特定的单个实体。实体集:同类个体的集合。

例如:学生(学号、姓名、性别等)

主码:能唯一地标识一个实体的一个属性或属性组。

属性由属性名和属性值来描述。例如:学生(学号、姓名)990001王丹实体与属性的区分是相对的。实体型:属性名的组合。一个实体型就代表了一个实体集。

联系(Relationship)联系是指客观存在的事物之间的相互联系。Relationship:arelationbetweenvariousentities.2.两个实体集之间的联系方式一对一联系(1:1)实体集A中的任一个体至多与实体集B中的一个个体有联系,实体集B中的任一个体也至多与实体集A中的一个个体有联系,则称实体集A与实体集B的联系为一对一的联系。

。。。。。。。。。。。。。。BA例如:班级与班长;车间与车间主任。一对多联系(1:N)

。。。。。

。。。。。。。BA

如果实体集A中至少有一个个体与实体集B中的一个以上个体有联系,且实体集B中的任一个体至多与实体集A中的一个个体有联系,则称实体集A与实体集B的联系为一对多的联系。例如:班级与学生;车间与工人。多对多联系(M:N)。。。。。。。

。。。。。。。AB

如果实体集A中至少有一个个体与实体集B中的一个以上个体有联系,且实体集B中至少有一个个体与实体集A中的一个以上个体有联系,则称实体集A与实体集B的联系为多对多的联系。例如:课程与学生;车间与零部件。3.建立信息模型的方法

建立信息模型就是要找出其实体集、实体集的属性、实体集的联系。E—RmodelAmethodologyfordocumentingDatabaseillustratingtherelationshipbetweenvariousentitiesinthedatabase.

1)实体—联系方法(Entity—RelationshipApproach简称:E—R法)应用E—R法建立的信息模型称E—R模型。学生学号属性实体集联系2)E—R模型中

使用的符号:3)画E—R图步骤确定或者设计主码

确定实体集

建立联系对调查的组织进行认真的、仔细的分析和归纳,形成一个个实体集。在有关的实体集之间建立联系,然后仔细进行分析和判断,确定联系的类型。标注各个实体集(或联系)的属性,并认真分析,确定每个实体的主码,若不存在主码,则设计一代码作主码。确定单一的父子关系结构将M:N类型的联系作为一个实体,这个联系实体至少有两个属性,一般还具有自己的属性。学生成绩管理系统的E—R模型MN1N班级学生课程从属选课班级人数名称课程课号课名学时学生姓名学号性别……选课学号课程号成绩练习题1、在生产车间管理数据库的设计中,根据以下描述画出实体——关系图(E-R图);各实体属性列出三个即可。每个车间有一个车间主任,多名职工,可以加工使用多个零件;而每个车间主任只可管理一个车间,每个职工只属于一个车间,有些零件可被多个车间加工使用。M11N零部件加工车间车间主任管理N11职工工作职工工号学历姓名……车间代号面积名称……零部件代号材料名称……车间主任代号学历姓名……数量加工车间代号数量零部件号……4)E—R图特点一个联系可定义在两个以上的实体集上。如图一个联系可以定义在一个集合自身之上。如图对给定的实体集,可以有两个以上的联系,他们必须给予不同的联系名称。如图联系的类型必须标注清楚。各实体的属性可以不在E-R图中描述,单独进行描述。如图5)如何区分实体与属性尽量减少实体集,能作为属性时不要作为实体集。作为属性的事物,不能再有需要描述的性质(属性),也不能与其它事物有联系。如图作为属性的事物与所描述的实体间只能是1:N(1:1)的对应关系。如图练习试按以下描述画出实体——关系图(E-R图)。每种商品只能存放在某一仓库中,每个仓库却可以存放不同的商品;每种商品可由多个销售人员销售给多个零售商,每个销售人员也可以销售多种商品给多个零售商,每个零售商可从多个销售人员购买多种商品。各实体属性列出三个即可。商品单价商品号名称工龄姓名库号大小位置N1MN销售储存销售人员商品仓库工号数量数量零售商号名称地址L零售商三、数据模型1.数据模型与信息模型的关系数据模型是数据组织中各层次内部、外部之间联系的描述。是面向数据库中数据的逻辑结构。实体-实体型-实体集-个体-属性-属性名-属性值-记录;文件;数据项;特定记录;

记录型;数据项型;数据项值;数据库不仅要描述数据项、记录之间的联系,而且要描述记录型之间,也就是各种文件之间的联系。2.常见数据模型概述网状模型(networkmodel)层次模型(hierarchicalmodel)层次模型的数据结构是一种树型结构。层次模型是有且仅有一个节点无双亲节点,这个节点即为树根,而其它有且仅有一个双亲节点。如图特点:处理效率较低,难以描述N:M的联系。网状模型是可以有一个以上的节点无父节点,且至少有一个节点的父节点多于一个。如图网状模型中,允许两个记录型间有两种以上的联系。如图缺点:数据库结构复杂,因为记录型之间的联系是通过存取路径实现的,加重应用程序编写的负担。

关系模型(RelationalModel)关系模型是把数据的逻辑结构归结为满足一定条件的二维表的模型,每一个关系为一个二维表,相当于一个文件。实体集及实体集间联系,通过关系进行描述。如表关系模型的特点:用人们最熟悉的表格数据的形式,描述数据记录之间的联系。班号人数班级关系框架姓名年龄性别学生关系框架课号课名学时课程关系框架关系由关系框架和若干元组组成。如表姓名性别职称教师关系框架关系模型的数据结构在关系模型中,无论是对实体集还是实体集之间的联系,均可以用关系来描述。例如从E-R图导出关系数据模型把E-R图转换为一个个关系框架关键问题:怎样建立不同联系的关系模型。

对应E-R图中联系,要根据联系方式的不同,采取不同手段以使被它联系的实体所对应的关系彼此实现某种联系。E-R图中每一个实体,都相应地转换为一个关系,该关系应包括对应实体的全部属性,并确定关键字。具体方法:1)如果两个实体间是1:N联系,就将“1”方的关键字纳入“N”方实体对应的关系中作为外部关键字,同时把联系的属性也一并纳入“N”方的关系中。例如从E-R图导出关系数据模型3)如果两个实体间是1:1联系,联系本身并无属性,转换时只要在某个实体的关系中增加另一实体的关键字作为属性即可,就能实现彼此间1:1

联系。2)如果两个实体间是M:N联系,则需对联系单独建立一个关系,用来联系双方实体,该关系的属性中至少要包括被它所联系的双方实体的关键字,如果联系有属性,也要纳入这个联系中。例如例如例题按照如下的实体联系图,完成关系数据库逻辑模式的设计。M11N零部件加工联系车间车间主任管理联系N11职工工作联系职工号学历姓名……车间号面积名称……零件号材料名称……职工号学历姓名……数量职工职工号,姓名,……,学历,车间号车间车间号,车间名,……,面积零部件零部件号,零部件名,……,材料加工

车间号,零部件号,……,数量车间主任职工号,姓名,……,学历,车间号零部件零部件号零部件名规格数量组成零部件(零部件号,零部件名,规格)组成(零部件号,子零部件号,数量)

一个联系定义在一个集合自身之上MN职工领导1N学历性别姓名工号职工(工号,姓名,性别,学历,经理工号)仓库商品商店仓库号仓库名地址数量商店号商品名商品号商店名日期进货MNP仓库(仓库号,仓库名,地址)商店(商店号,商店名)商品(商品号,商品名)进货(商店号,商品号,仓库号,日期,数量)

一个联系定义在两个以上的实体集上关系的规范化第一范式(1NF):①关系中每个数据项(元组中每个分量)必须是一个不可分的数据项,且要求数据项没有重复组。②列是同质的,即每一列中所有数据项类型相同。各列指定一个相异的名字,列的次序任意。③各行相异,不允许有重复的行,行的次序任意。第二范式(2NF):指每个表必须有一个(且仅有一个)数据元素为主关键字,其它数据元素完全依赖于主关键字。第三范式(3NF):指表中的所有数据元素不但要能够唯一地被主关键字所标识,而且它们之间还必须相互独立,不存在其它的函数关系。如表如表如表第二节数据库及其管理系统三、数据模型关系模式规范化练习车间考核职工完成生产定额关系W:W(日期,工号,姓名,工种,定额,超额,车间,车间主任)[分析]1.确定主关键字

因每个职工,每个月超额情况不同,而定额一般很少变动,因此为了识别不同职工以及同一职工不同月份超额情况,确定主关键字为“日期+工号”。

“超额”完全依赖于主关键字;“姓名”、“工种”和“车间”部分依赖于主关键字中的“工号”;“定额”直接依赖于“工种”;“车间主任”直接依赖于“车间”。[分析]

2.用箭头标出各数据元素的函数依赖情况:工号日期超额车间工种姓名完全决定部分决定车间主任定额直接直接间接间接W(日期,工号,姓名,工种,超额,定额,车间,车间主任)[结论]

规范化后的表:(工号,姓名,工种,车间)(工种,定额)(日期,工号,超额)(车间,车间主任)范式化1、选课关系(学号,姓名,年龄,课程号,成绩,学分)学生(学号,姓名,年龄);

课程(课程号,学分);

选课(学号,课程号,成绩)。

2、学生关系(学号,姓名,年龄,所在学院,学院地点,学院电话)学生(学号,姓名,年龄,所在学院);

学院(学院,地点,电话)。将下列表转化为符合范式关系的表

关系数据库模型2014503/01/0101/13/0140585013702/29/0101/12/01203812015202/22/0102/02/014058数量零件号发货日期订货日期供应商编号145137152零件号铁70.00压缩机铝22.50门把手钢26.25门锁材质单价零件名称112520384058供应商编号智远公司先锋公司光明公司供应商名称112324海滨路51号114321五四路32号116044人民路44号邮编供应商地址零件表供应商表订货表10013705/01/0103/13/0140581014505/23/0104/05/011125从光明公司购进了哪些零件,数量?关系数据库基本操作关系数据库的三种基本操作:选择:在表中找出符合指定条件的记录;连接:把相关的表合并起来,向用户提供比单个表更多的信息;投影:在已有表的基础上,选定所需的列建立一个新表。在关系数据库中,用户需要用多个相关联的表中的信息来生成管理所需要的报表,通过关系运算,可以将任何两个有共同数据项的表关联起来,这就是关系数据库的威力所在。四、数据库的结构2.模式(Schema)内模式是数据库的存储模式。具体描述了数据如何组织并存储。内模式一般由系统程序员根据计算机系统的软硬件配置决定数据存取方式,并编制程序实现存取。模式又称概念模式,它是全局逻辑级的,是数据库的整体逻辑结构,这种模式是数据库管理员DBA看到的数据库。此模式的设计与维护由专家和DBA实施。1.外模式(ExternalSchema)外模式又称子模式,它是局部逻辑级的结构,是用户可以看到和使用的数据库。3.内模式(InternalSchema)4.物理数据库指数据库在物理存储设备上的组织。将下表进行范式化处理教师代码姓名职称研究课题号研究课题名教师代码姓名职称研究课题号研究课题名非2NF关系1.教师关系:(教师代码,姓名,职称)2.课题关系:(研究课题号,研究课题名)3.教师与课题关系:(教师代码,研究课题号)将下表进行范式化处理产品代码产品名生产厂名生产厂地址非3NF关系2.生产厂关系:(生产厂名,生产厂地址)1.产品关系:(产品代码,产品名,生产厂名)产品代码产品名生产厂名生产厂地址练习题试按以下描述画出实体——关系图(E-R图):每种零件只能由一种材料构成,每种材料却可以构成不同的零件;每种产品可由多个零件组成,每种零件又可以组成多种产品。各实体属性列出三、四个即可。再根据E-R图,完成关系数据库逻辑模式的设计。产品产品号,产品名,产品单价零件零件号,零件名,零件单价,重量,材料号材料材料号,材料名,单位价格,计量单位组成产品号,零件号,零件数零件单价重量产品单价产品名材料号材料名单位价格N1MN组成构成计量单位零件名产品零件材料产品号零件数零件号2、某汽配公司的配件信息一览表,把它转化为符合范式关系的表。练习配件编号配件名称型号规格供应商名称供应商地址单价数量班号学生课程成绩考试时间学号姓名性别课号课名学时A01011王红女A5数学808699.1012李军男B3英语908899.6011王红女B3英语909299.6………………………1、将下表进行范式化处理,使其满足第三范式。五、用户存取数据库数据的过程DBMS用户应用程序用户工作区①模式③用户应用程序外(子)模式②OS⑤存储模式④⑧⑦日志⑨系统缓冲区数据库⑥数据库的结构第三节关系数据库系统及其应用结构化查询语言SQL(StructuredQueryLanguage)特点集数据描述语言(DDL,DataDescriptionLanguage)、数据操纵语言(DML,DataManipulationLanguage)、数据控制语言(DCL,DataControlLanguage)为一体,可实现DB生命周期的全部活动。高度非过程化,用户只要提干什么,不需指示怎么干。语言简洁,接近英语口语。常用动词:create,select,insert,update,delete,grantSQL支持C/S结构。关系数据库是目前最流行的数据库。几种常用的数据库管理系统第四节数据仓库一、定义Adatawarehouseisasubject-oriented,integrated,time-variant,andnonvolatilecollectionofdatainsupportofmanagement’sdecision-makingprocess.数据仓库(DataWarehouse)是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合,用以支持管理决策问题。数据仓库是一个综合的解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程,它主要用来帮助有关主管部门做出更符合业务发展规律的决策。第四节数据仓库1.DW的数据是面向主题的。一、定义数据仓库主要有以下四个特征4.DW的数据是随时间不断变化的。3.DW的数据是不可更新的。2.DW的数据是集成的。

操作型数据库中的数据组织面向事务处理任务,各业务系统之间各自分离;

DW关注决策者的数据建模与分析,而不是组织机构的日常操作和事务处理;

DW中数据按照一定的主题进行组织,如顾客、供应商、产品和销售来组织;一个主题通常与多个操作型数据库相关。

操作型数据库之间相互独立,可能异构;

DW中数据是对原有分散的数据库数据作抽取的基础上,经过系统的加工、汇总和整理得到。

操作型数据库中的数据通常实时更新;

DW中数据主要用于决策分析,对数据的操作主要是数据查询;

操作型数据库主要关心某一个时间段内的数据;

DW中记录了一段时间的数据,对单位发展历程和未来趋势做出定量分析和预测;

DW中数据通常包含较久远的历史数据,因此总包含一个时间维,便于研究趋势和变化。第四节数据仓库如图三、数据仓库的体系结构二、数据仓库的应用数据仓库的应用非常广,如:证卷、税务、保险业、银行业、营销业、保健业等。例如:银行业务数据库与数据仓库的比较数据库DB数据仓库DW建立目的储存处理、操作性数据分析数据,发现潜在信息组织方式按事务处理组织数据按主题组织数据开发技术联机事务处理OLTP联机分析处理OLAP用户及其规模业务人员,大量决策者,少数据来源当前近期数据历史、汇总数据冗余度小大量冗余四、数据挖掘(DataMining)数据挖掘也称数据库中的知识发现(KnowledgeDiscoveryinDatabaseKDD):是从大量数据中提取可信、新颖、有效并能被人理解的模式的高级处理过程。第四节数据仓库四、数据挖掘(DataMining)例如:美国加洲一个超级市场连锁店数据挖掘的用途很多,如:可用在客户关系管理中、医学领域、市场营销领域等。第四节数据仓库数据仓库与数据挖掘的关系:若将数据仓库比作矿井,那么数据挖掘就是深入矿井采矿的工作.

数据挖掘是从数据仓库中找出有用信息的一种过程与技术。三个实体集联系的E—R图供应商工程项目零部件供应联系MLN树型结构A1B2B1B3C9C2C13C16C5C14树型结构示例工厂地址厂长名称工作车间/科室职工设备类别名称编号名称代号使用从属...年龄姓名...1N1L1M层次模型实例名称厂长地址代号名称……编号名称类别姓名年龄……车间/科室厂长设备职工网状模型产品1产品2部件1部件2部件3零件1零件2零件3零件4零件5零件6两个记录型间两种以上的联系示例维护使用工人设备NM11丁一…马二…王三…设备A

…设备B

…设备C

…维护使用定义在一个集合自身之上的联系定义在两个实体上的不同联系维护使用N工人设备MKL职工领导1N职工姓名工种性别发放劳动用品价格品名级别名称职工姓名性别发放劳动用品价格品名级别名称工种工作职工年龄工种……1N学生情况学生姓名班级选修课程任课教师成绩丁江101911计算机基础刘红90王吉102931计算机基础黎明92冯凡103963会计学张扬86...............MN1N班级学生教师从属教学人数班号课程课号课名学时职称年龄姓名性别性别姓名L5元关系表学生班级选修课程任课教师成绩关系二维表关系的框架若干个元组五个分量(域)学生与班级、学生选课学习的情况联系MN1N班级学生教师从属教学人数班号课程课号课名学时职称年龄姓名性别性别姓名L成绩任职“班级”实体集

班号人数1019112510293140......学号姓名年龄性别20…01丁江18男20…02王吉17女.........课号课名学时C01计算机基础54B05会计学36.........“学生”实体集“课程”实体集“教师”实体集职工号姓名性别职称1998…刘红女教授1995…黎明男讲师.........“从属”联系“教学”联系班号学号任职10191120…01班长10293120…02普通.........学号所选课号职工号成绩20…01C011998…9020…02C011995…92.........关系的非规范形式示例厂名生产情况(每月)产品名称数量F1P1300P2200P3400P4200P5100P6100F2P1300P2400F3P2200F4P2200P3300P4400关系的第一范式示例厂名产品名称每月产量F1P1300F1P2200F1P3400F1P4200F1P5100F1P6100F2P1300F2P2400F3P2200F4P2200F4P3300F4P4400人事劳资关系表职工号姓名级别工资学历毕业时间001张三技1083中专1957001张三技1083大学1968001张三技1083研究生1981002李四技1262大学1970此关系数据库缺点:

1.冗余度高

2.维护困难

3.容易造成数据的矛盾各属性间的依赖关系职工号学历毕业时间工资级别姓名完全决定部分决定职工号姓名级别工资学历毕业时间001张三技1083中专1957001张三技1083大学1968001张三技1083研究生1981002李四技1262大学1970人事工资关系表职工号姓名级别工资001张三技1083002李四技1262职工号学历毕业时间001中专1957001大学1968001研究生1981002大学1970人事学历关系表职工号学历毕业时间工资级别姓名完全决定部分决定间接直接人员级别关系表职工号姓名级别001张三技10002李四技12级别工资技1083

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论