技术基础篇数据处理(第三讲)_第1页
技术基础篇数据处理(第三讲)_第2页
技术基础篇数据处理(第三讲)_第3页
技术基础篇数据处理(第三讲)_第4页
技术基础篇数据处理(第三讲)_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章数据处理一、数据处理的概念所谓数据处理,就是把来自科学研究、生产实践和社会经济活动等领域中的原始数据用一定的设备和一定的手段按一定的使用要求加工成另一种形式的数据,以便获得对人们决策有价值的信息的过程。二、数据处理的发展阶段

1.手工处理

2.机械设备处理

3.计算机系统处理由算盘、计算尺、手摇计算机等进行处理由卡片、制表设备等进行处理完全由计算机系统进行处理三、数据处理的基本内容1.数据收集(数据采集)(1)定义:数据收集就是按照用户的需要和系统的要求收集必要的原始数据(2)收集方式人工收集联机方式收集比较:人工方式及时性差,出错率高;联机方式快速、准确,但投资较大。

联机方式是数据采集的发展方向由人通过一定的中间环节获得数据(如档案文件、帐册、票据凭证等)

。要对数据的来源和数据本身的准确性充分了解,以保证引用资料的准确性。将某种计算机装置、测试装置等直接与电子数据处理系统相联接,将所需数据直接送入计算机处理系统,由计算机直接处理。2.数据加工处理(1)数据的转换和录入数据转换:也叫数据的预处理,是将采集到的原始数据通过一定手段转换成适合于计算机处理的形式,使数据代码化。

原始数据的分类:数值型数据:由数字字符组成,可直接进行数据录入文字信息或特定符号:必须预先经过“编码”处理才能录入数据录入方法:①传统手工方法;②源数据自动化方法。(2)数据分类和合并分类:根据一定顺序将无序的数据元素序列调整成为一个有序序列,也就是将数据元素按某一关键字进行排序,形成一个有序文件。合并:将两个或多个简单有序集合中的数据项目按同样的顺序连接成一个有序集合。3.数据传输数据传输有两层含义实现数据资源的共享与交换数据处理结果的输出如:利用计算机通信网络共享各网点的数据资源。常以报告、文件图表等形式输出给各用户,并传送到各部门。4.数据存储数据存储:是对原始待加工的数据及已加工的各种信息的储存

涉及的两个问题物理存储:将数据存储在适当的介质上逻辑组织:按数据逻辑内在联系和使用方式,把数据组成合理的结构5.数据管理数据管理就是对数据的更新和维护,也就是指对原文件中的记录或数据项进行修改、插入(增加)、删除及数据存储的调整,数据正确性的检查和安全性的保证等。更新过程录入更新更新新文件更新文件旧文件6.数据检索数据检索即从计算机存储数据中查找和选取所需要的数据采用何种方式检索,取决于数据存储的形式数据处理的核心是数据收集和数据管理三、文件组织

只有将数据有序地组织起来,才能对数据进行有效地处理。1.数据组织的层次数据按照层次方式进行组织由(位、字节、)字段、记录、文件、数据库(、数据仓库)组成位(Bit):是计算机中最小的数据单位,其值为0或1,是一个二进位,表示一个导通或未通的电(光)路。字节(Byte):是由若干位组成的,代表一个字符。字符是信息的最基本构架。字段(Field,也称数据项)。★多个字符组成一个词或者一个完整的数字(如人名或年龄)★字段是数据的最小单位,它不能再分成有意义的单位记录(Record):由与某个特殊对象或活动有关的所有字段组成。文件(File)★同一类型的所有记录组成一个文件★文件就是与某个特定主题相关的数据记录的集合。

数据库(Database):逻辑相关文件的集合。数据仓库(Datawarehouse):由多个数据库中的信息抽取组合构成。(字母J的ASCII码)数据的层次举例文件字节字段记录01001010900811刘汉云2000-9-4位0,1数据库刘汉云项目数据库包含:职员编号、姓名、聘用日期职员文件(名字字段)职员文件部门文件财务文件900811刘汉云2000-9-4900206李卓宇2002-7-2910810张昕阳2001-8-22.文件的组织方式

文件是数据库组织的基础,任何对数据库的操作最终均转化为对数据文件的操作。文件的组织方式直接影响整个信息系统的效率。(1)概念文件的组织方式是指文件中的记录或数据在存储介质上的排列方式。一般按其内部结构大致分为串行组织、顺序组织、随机组织、索引组织、倒排组织和链表组织等方式。(2)分类串行组织是最简单的一种文件组织形式,它将记录按出现的顺序一个接一个地存放在存储器的某个区中,取用某个记录时只能顺序扫描整个文件。较多用于计算机运行过程中产生的暂时文件以及存档文件。适用于磁带存储器。串行组织文件简称为串行文件。顺序组织指文件中各记录根据关键字(值)以升序或降序的形式存放在存储介质上的组织形式。是经过整理的串行文件。数据记录的逻辑顺序和物理顺序是一致的。其存取只能以顺序方式进行,不能任意对某个记录进行直接存取。适用于拥有大量记录,且变化不频繁的文件;也适用于成批数据顺序存取的场合。可存储在顺序介质和随机存取介质上。顺序组织文件简称顺序文件。随机组织指文件中各个记录与其在存储介质上的存放位置之间毫无关系的组织方式。用一种算法将记录的键值转换为一个近乎随机的数,根据这个确定记录在存储器上的位置。只要确定了某个记录的存储地址(记录键),就可以直接对其进行存取,不必考虑与其他记录之间的顺序关系。只能存储在磁盘等随机存储设备上,不能存储在磁带等顺序存储设备上。可用于联机处理的场合,实现快速地对数据进行随机存取及查询;不适用于文件中大部分记录都需要处理的情况。随机组织文件简称为随机文件。索引组织是把文件中识别各个记录的关键字集中在一起组成一个目录文件(即索引表)的组织方式。由索引表(简称索引)与主文件两个部分组成。适用于批处理及联机处理。优点是既可用于顺序操作,也可用于随机操作缺点是当文件量较大时,目录文件增多,所占存储空间增大。索引组织文件简称索引文件倒排文件是对每个辅关键字都设立一个索引,每种关键字值对应一个索引项,将具有相同关键字值记录地址都保存在相应的索引项中的组织方式。倒排组织中,记录有多个键值,根据这些键值来确定一个记录。可以把倒排组织文件视为“多键值索引文件”。倒排组织文件简称倒排文件链表组织是记录之间互相用指针连接的组织方式。指针是特殊的数据项,指出另一记录在存储器上的位置,同时也反映了数据记录之间的联系,它不代表任何属性。一组记录可提供几组指针,形成不同的逻辑文件,存取记录十分方便。链表组织文件简称链表文件。第七章数据库技术一、数据库系统的产生

1.人工处理阶段(50S中期以前)没有软件支持,程序员直接管理数据。数据保存在处理程序中或随程序执行人机交互地输入,数据处理后将结果输出,最后数据和程序占据的内存空间被一起释放。只有程序文件的概念,数据的组织方式由程序自行设计和安排。问题:编程效率低,程序依赖数据,不灵活,容易出错。人工管理方式应用程序A文件A应用程序B文件B应用程序C文件C

2.文件管理阶段(50S后期)程序与数据具有设备独立性,可长期保存在外存储器上,构成程序文件和数据文件。数据不属于某个特定的程序,允许重复使用。数据文件的结构仍取决于特定的应用,程序与数据间的依赖关系并未根本改变。缺点:数据冗余,数据文件间缺乏联系,修改时容易导致数据的不一致性;数据文件面向应用,当数据结构改变时,程序维护便成为系统的主要矛盾。文件管理方式程序A程序C程序B文件管理系统文件B文件C文件A1文件A2

3.数据库阶段(60S后期)数据库技术的出现标志着数据资源管理进入数据库阶段。数据库系统的出现,使数据管理进入了一个新阶段。由于使用数据库管理系统来专门管理数据,实现了数据与程序的真正独立性,并且最大限度地降低了数据的冗余度。充分实现数据在不同应用中的共享,且能并发地使用数据,对数据的安全保密和完整性也有了保证措施。数据库管理方式程序A程序C程序B数据库管理系统数据库数据库系统数据库系统:数据库与数据库管理系统的有机结合;

1.数据库:逻辑上相关的记录和文件的集合。

2.数据库管理系统:是一组计算机程序,控制并组织用户的数据库的生成、维护和使用。由数据、硬件、软件和用户四部分组成;用户可通过数据库管理系统对数据进行添加、修改、删除、检索、存储、统计等多种操作。二、数据库系统的结构美国国家标准学会(ANSI)于1975年规定了数据库按三级体系结构组织的标准,也就是有名的SPARC分级结构(standardplanningandrequirementcommittee)。三级结构以内层(内模式)、中间层(模式)和外层(外模式)三个层次描述数据库。数据库的三级结构数据库管理系统中的模式物理模式:也称内模式,描述数据的物理存储形式,直接与操作系统或硬件相联系。逻辑模式:也称模式,数据库数据的完整表示,是所有用户的公共数据视图。模式仅仅涉及数据类型的描述,不涉及具体的数据值。用户模式:也称子模式或叫外模式,针对每一个用户或应用,又由模式导出若干个子模式。子模式是直接面向用户的,用户能够看见并使用的是逻辑结构的局部数据描述。每一个子模式都是模式的一个子集;也可以看作是模式的一个窗口。一个数据库系统可以有多个子模式。两级映射可保证三种模式之间的相互独立性模式与子模式之间的映射把概念数据库与用户级数据库联系起来模式与内模式之间的映射把概念数据库与物理数据库联系起来三、数据模型模型:对现实世界事物特征的模拟和抽象就是这个事物的模型。

计算机不能直接处理现实世界中的具体事物,所以必须先把具体事物转换为抽象的模型,然后再将其转换为计算机可以处理的数据,从而以模拟的方式实现对现实世界事物的处理。

模型应满足以下要求:

真实地反映现实世界;易被人理解;便于在计算机上实现;数据模型:是用来描述数据及数据间关系的一组概念,数据描述包括两个方面:⑴数据的基本结构、数据间的联系和数据的约束等静态属性;⑵数据上的操作之类的动态属性。

数据模型分为三级:

⑴概念数据模型:是面向用户、面向现实世界的数据模型,与DBMS无关,它描述一个组织的概念化结构,如实体关系模型。

⑵逻辑数据模型:是用户从数据库中看到的数据模型,与所选用的DBMS相关,也称数据库模型。常见的有:层次模型、网状模型、关系模型。

⑶物理数据模型:反映数据存储结构的模型,不仅与DBMS有关,而且还与操作系统有关。具体描述数据如何组织、如何存储在物理介质上。数据库模型分为三级:(P180)

⑴层次模型:以树状结构描述数据,数据元素组成的记录称为节点,最上层的节点称为根,上下层节点之间的关系为父-子关系,一个父节点可有多个子节点,而一个子节点只能有一个父节点。

⑵网状模型:描述多对多的数据逻辑关系,即父节点可以有多个子节点,节点也可以有多个父节点。

⑶关系模型:用二维表格(关系)来表示数据库中的所有数据。三类数据库模型的优缺点:

⑴层次模型的主要优点在于其处理效率,但在数据组织上缺乏灵活性,修改困难,且不易安装。

⑵网状模型灵活性很大,但数据关系复杂,很难开发和使用。

⑶关系模型是应用最广泛的数据模型,数据组织直观,查询方便,主要缺点是处理效率低。四、实体、属性和联系实体(entity):客观存在、并且可以互相区别的事物称为实体。实体是相关的一类事物,可以是物、人、实际的东西、或者具体的东西。例:员工、库存、客户、订单实体集:某个实体型下的全部实体,称为实体集。属性(Property):实体所具有的每一个特性都称为一个属性。属性有“型”和“值”的概念,属性的名称就是属性的“型”;对型的具体赋值就是属性的“值”。学生的姓名、学号、年龄、性别、成绩是学生的属性库存号、说明、现有数量、在仓库中的位置等是库存的属性主关键字:在众多属性中能够唯一标识实体的属性或属性组。例:学生实体中的学号,产品实体中的产品号,订单实体中的订单号辅助关键字:不能唯一表示一个记录的字段。联系:一个实体集内部各实体之间的相互联系,叫做实体内部联系。在实体集之间的联系,称为实体的外部联系。联系的种类和方式一对一(1:1)联系在两个实体集中,一方的一个实体最多与另一方对应的一个实体相联系。如:已婚男性集合和已婚女性集合一对多(1:m)联系在两个实体集中,一方的一个实体与另一方对应的若干个实体相联系;反之,另一方的一个实体最多对应一方的一个实体。如:组织中的部门和职工,一个职工只属于一个部门,一个部门有多个职工多对多(m:n)联系两个实体集中,任何一方的一个实体都对应另一方的若干个实体。如:教学管理中的课程和学生,一个学生可选多门课,一门课也可被多个学生选五、关系模型由于系统中实体包括许多属性,而这些属性又会被不同的用户使用,所以将这些属性一起放在一个数据表中显然是不合理的,需要进行分类与汇总,以编制不同的、且相关联的表,这就是所谓的关系。1、表具有以下四个性质:在表中的任意一列上,数据项应属于同一个属性;表中所有行都是不相同的,不允许有重复行出现;行的顺序无关列的顺序无关,但不能重复;2、表具有以下四个特点:利用一系列的二维表存储信息。在关系模型中,每个二维表都描述一种关系。关系是表的数学术语二维表也称作“关系表”每一个表(关系)所保存的信息都与一个特定的实体有关。二维表使描述信息间的关系十分便利,处理二维表所包含的信息也容易。3、表的主要术语:二维表中,一个竖列反映实体的某一属性,称之为字段。表中的一行形成一个实体,称之为记录(元组),由各个数据项(字段值)所组成,反映某一实体的所有有关特性。关系模式:对关系的描述,用关系名(属性1,属性2,…,属性n)来表示。对于关系模型来说,其数据模型就是一系列用二维表表示的关系。4、关系模型的基本操作

关系模型有三种基本操作:投影、筛选和连接

投影:从关系表格中选取指定的某些属性,以形成新的关系;筛选:从关系表格中选取满足某种条件的记录,以建立新的关系;连接:把两个关系中属性满足一定条件的记录接合在一起形成新的关系。

1.数据需求分析:

信息的转换现实世界信息世界(概念世界)计算机世界(数据世界)

客观事物类:事物相关性质集合现实世界人认识选择描述实体实体集合及实体联系相关属性集合E-R模型信息世界加工、转换存储二进制数据集合结构数文件据记录库相关数据项集合加工、转换DBMS的数据模型

DBMS计算机世界(数据世界)六、数据库的分析与设计三个不同世界术语对照表客观世界信息世界数据世界组织(事物及其联系)事物类(总体)事物(对象、个体)特征(性质)实体联系(概念模型)实体集实体属性数据库(数据模型)文件记录数据项对现实世界进行需求分析具体做法:

①了解组织机构情况,为分析信息流做准备;

②了解各部门业务情况,调查各部门输入和使用的数据及处理数据的方式与算法;

③确定数据库的信息组成及计算机系统应实现的功能

⒉概念结构设计:在需求分析的基础上,从各个用户出发,进行实体、实体的属性和实体之间联系的分析,建立概念数据模型。工具:实体联系图(E-R图)

P185

图10-14

有实体、关系、属性三种图素,关系有一对一、一对多、多对多。实体联系图(E-R图)的设计方法学生选修样本报表①确定实体和关键字:三个实体学生专业课程关键字学号专业号课程号②确定实体之间的联系--画实体联系图:Ⅰ.先画上矩形,填上实体名;Ⅱ.画上椭圆形,填上属性名;Ⅲ.判断实体间是否有联系;Ⅳ.有联系画上菱形,再判断联系是1还是M。矩形表示实体椭圆形表示属性菱形表示实体之间的联系直线表示连接1代表出现一次,M代表多次学号姓名专业名专业号课程名课程号学分成绩厂长厂长号地点厂名厂号姓名年龄管理工厂11厂长与工厂一对一联系数量仓库仓库号价格品名货号地点面积存放产品1n仓库与产品一对多联系成绩学生学号学时数课程名课程号姓名性别学习课程mn学生与课程多对多联系助学金实际案例

①建立局部E-R图;②综合局部E-R图,产生总E-R图。例:假定某企业的信息系统,要求适应以下不同用户的应用要求:人事科处理职工档案,供应科处理采购业务,生产科处理产品组装业务,总务科处理仓储业务。

企业各部门局部E-R图:部门从属职工1n人事科职工领导1n职工承包产品1n供应商供应产品mn供应科产品使用材料mn零部件k

企业各部门局部E-R图:生产科零部件装配mn产品仓库mn总务科材料产品mn零部件组装产品mn存放生产企业综合E-R图:装配mn组装仓库mn存放mn保管mn部门从属职工1n领导1n承包产品1n供应商供应mn消耗材料nn零部件k参加mn合同n注:①在综合中,同一实体只出现一次。

②总体E-R图中未反映“产品”与“材料”之间的联系,即供应科视图中出现的“产品”与“材料”之间的联系,在总体E-R图中被除去了。因为这种联系是多余的,它可从“零件”所“消耗”的“材料”一种更为基本的联系中推导出来。

③总体E-R图中“供应商”与“材料”之间被增加了新的联系“合同”,该联系并未出现于任何局部E-R图中,增加它是允许的,表示该信息系统能支持“材料”合同处理。

⒊逻辑结构设计:将概念数据模型转换为所选用的DBMS所支持的逻辑数据模型,然后进行数据的规范化处理。

例:从E-R图导出关系数据模型

①E-R图中每个实体,都相应转换为一个关系,并确定主关键字;

②对于E-R图中联系,联系方式不同,处理方法不同:

●1:N联系:将“1”方的主键纳入“n”方实体对应的关系中,同时将联系的属性也一并纳入“n”方关系中。

M(D):仓库(仓库号,地点,面积)产品(货号,品名,价格,仓库号,数量)

●M:N联系:对联系单独建立关系,用来联系双方。

M(D):学生(学号,姓名,性别,助学金)课程(课程号,课程名,学时数)学习(学号,课程号,成绩)

●1:1联系:联系本身无属性,在任意方关系中加入对方主键均可。

M(D):厂长(厂长号,厂号,姓名,年龄)工厂(厂号,厂名,地点)或:厂长(厂长号,姓名,年龄)工厂(厂号,厂长号,厂名,地点)⑷物理设计:是数据库在物理设备上的存储结构和存取方法的设计。主要由数据库专业人员或DBA根据DBMS所提供的技术支持进行设计。⒋数据字典:是描述数据、处理、实体、存储等定义、格式、内容、联系的一个文件。是关于数据的数据库,它对系统内的各元素作出详细的定义和说明。

在IS建设过程中数据字典是必不可少的工具,它是工作的依据、统一的标准,它可确保数据的完整性和一致性。

数据字典的作用:①按各种要求提供列表

据数据字典可把所有数据元素、数据结构、数据流、数据存储、外部实体、处理逻辑按一定的顺序全部列出以保证系统设计时不会遗漏。②相互参照,便于系统修改数据流图与数据字典可以相互参照、验证,以避免系统修改时的遗漏和不一致。③由描述内容检索名称

便于系统分析员的工作。④一致性检验和完整性检验

可检验如下问题:

⑴是否存在没有指明来源或去向的数据流;

⑵是否存在没有指明数据存储或所属数据流的数据元素;

⑶处理逻辑与输入的数据元素是否匹配;

⑷是否存在没有输入或输出的数据存储。

人工方式数据字典的使用方式

计算机方式把各类条目按一定的格式写在卡片上或纸上,并分类建立一览表。在人工方式的基础上,将内容整理存入计算机。附:数据字典的条目数据元素条目总编号:1-101编号:101名称:学号有关编码说明:别名:S-NO*******说明:本校学生编码编号数据值类型:连续班号类型:字符专业代码长度:7系代号有关数据结构:学生成绩、学生卡入学年号附

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论