数据库和数据仓库技术概述-课件_第1页
数据库和数据仓库技术概述-课件_第2页
数据库和数据仓库技术概述-课件_第3页
数据库和数据仓库技术概述-课件_第4页
数据库和数据仓库技术概述-课件_第5页
已阅读5页,还剩117页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章数据库和数据仓库技术6.1企业数据处理方式6.2文件组织6.3数据库系统6.4数据仓库和商业智能第6章数据库和数据仓库技术6.1企业数据处理方式6.1企业数据处理方式以联机事务处理形式处理信息以联机分析处理形式处理信息,并利用信息进行决策在信息应用过程中管理信息6.1企业数据处理方式以联机事务处理形式处理信息图6-1 联机事务处理与联机分析处理

图6-1 联机事务处理与联机分析处理数据项,记录,文件,数据库数据库文件3文件2文件1记录3记录2记录1数据项3数据项2数据项16.2文件组织6.2.1文件组织术语和概念数据项,记录,文件,数据库数据库文件3文件2文件1字段记录某个数据库中的一份表文件,该文件存储了选修《管理信息系统》课程的10级物流专业的同学名单。每列是一个字段,每行为一个记录。从数据库原理的角度来看,表中反映了“学生”这一类实体集(EntitySet),表中的每一行是该类型中的一个具体的实体,每个实体都具有学号、姓名、专业名称等属性字段记录某个数据库中的一份表文件,该文件存储了选修《管理信息6.2.2数据的物理组织和逻辑组织图6-2信息的物理组织与逻辑组织6.2.2数据的物理组织和逻辑组织图6-2信息的物理图6-4逻辑数据元素之间的关系6.2.3文件的组织方式学生数据库学生情况文件学生成绩文件记录数据项学生1┅┅学生n学号姓名性别┅┅学号姓名性别9608101张勇男┅┅9608138王英女图6-4逻辑数据元素之间的关系6.2.3文件的组记录1记录4记录3记录2记录2图6-5磁盘顺序文件

1顺序文件组织记录1记录4记录3记录2记录2图6-5磁盘顺序文件1顺2索引文件记录地址学号姓名数学物理Basic

主关键字(学号)记录地址A870701张╳687472

870701AB870705李╳958792

870705BC870707赵╳778384

870707CD870712周╳858188

870712DE870721陈╳626461

870721EF870724王╳828892

870724FG870736黄╳757477

870736G记录地址学号姓名数学物理Basic

主关键字(学号)记录地址A870712周╳858188

870701DB870724王╳828892

870705GC870707赵╳778384

870707CD870701张╳687472

870712AE870736黄╳757477

870721FF870721陈╳626461

870724BG870705李╳958792

870736E(b) 非索引顺序文件 索引(a) 索引顺序文件 索引2索引文件记录地址学号姓名数学物理Basic

主关键字(学3链表文件记录地址职工号姓名部门编号部门指南工作年限DT入口→A1111-DTC-NW入口→B1121-NWE-C1981-DTD-D2014-DTH-E2084-NWF-F2918-NW∧-EA入口→G3001-EAI-H3101-DTJ-I3241-EA∧-J3358-DT∧-NE入口→K3861-NEL-L3871-NE∧-部门代码(辅关键字符)链表长度(记录个数)链头指针(入口地址)部门代码(辅关键字符)链表长度(记录个数)链头指针(入口地址)DT5AEA2GNW3BNE2K3链表文件记录地址职工号姓名部门编号部门指南工作年限DT入4倒排文件辅关键字指针表辅关键字值指针

部门编号

DT11111981201431013358

NW112120842918

EA30013241

NE38613871

工作年限N

N≤51111201420842918

5<N≤1031013861

15<N≤2030013871

N>201981

透支现额%

011112014208429183101386110011213001324133583871

2001981

4倒排文件辅关键字指针表辅关键字值指针

部门编号

InquiryCustomerTransactionProcessingSavingInstallDatabaseManagementSystemCheckCustomerDatabaseADatabaseManagementSystem(DBMS)isasetofcomputerprogramsthatcontrolsthecreation,maintenanceanduseoftheDatabaseofaorganizationandit’senduser.6.3.2数据库管理系统InquiryCustomerTransactionSav图6-8DBMS的主要功能

数据库管理操作系统数据库管理系统应用程序数据库数据词典图6-8DBMS的主要功能数据库操作系统数据库应用程序数DatabaseManagementOperatingSystemDBMSApplicationPrograms*Datadevelopment*Datainterrogation*DatabaseMaintenance*ApplicationdevelopmentDatabaseDatadictionaryDatabaseOperatingDBMSApplicat*DataDevelopment

由DatabaseAdministrator(DBA)开发用DatadictionaryLanguage去开发.ADatadictionaryisacomputer-basedcatalogordirectorycontainingmetadatathatisdataaboutdata.*DataDevelopment数据库查询Databaseinterrogationquerylanguage,reportgeneratorCorporatePayrollReportingSystemHighlightyourselectionandpressEnterMainMenu.EmployeeFileMaintenanceTaxReportPrinter数据库查询DatabaseinterrogationCoSQL(StructuredQueryLanguage)SELECTNAME,SSNO,DEPARTMENT,SALARYFROMEMPLOYEE,PAYROLLWHEREEMPLOYEE.SSNO=PAYROLL.SSNOAND

CLASSIFICATION=“FINANCIALANALYST”SQL(StructuredQueryLanguag*数据库的维护在DBMS的支持下,用UTILITY等*应用开发程序用DataManipulationLanguageDML

不必用通常程序设计语言,如COBOL*数据库的维护图6-9数据模型

6.3.3数据库系统S1R2R4R3S6S7S9S8S5S4S3S2学号姓名年龄性别学生关系框架:学号姓名年龄性别课程关系框架:学号姓名年龄性别学习关系框架:(a)网络模型(b)层次模型(c)关系模型图6-9数据模型6.3.3数据库系统S1R2R4图6-10数据库的三级体系结构

用户A1工作区用户A2工作区用户B工作区外模式A(子模式A)外模式B(子模式B)子模式/概念模式映射A子模式/概念模式映射B概念模型(模式)模式(内模式映射)DBMSOS………..图6-10数据库的三级体系结构用户A1工作区用户A2工图6-11三个不同的世界

客观世界信息世界(概念世界)数据世界组织(事物及其联系)实体及其联系(概念模型)数据库(数据模型)事物类(总体)实体集文件事物(对象、个体)实体记录特征(性质)属性数据项表6-7三个不同世界术语对照表

客观事物事物类:相关性质集合人实体及联系实体集合实体相关属性集合数据库文件记录相关数据项集合存储结构二进制数据集合加工转换加工转换E-R模型DBMS的数据模型DBMS的计算机世界现实世界认识选择描述信息世界图6-11三个不同的世界客观世界信息世界(概念世界)数6.3.4.2数据库设计步骤对现实世界进行需求分析了解组织机构情况,为分析信息流做准备;了解各部门业务情况,调查各部门输入和使用的数据,及处理数据的方式与算法;确定数据库的信息组成及计算机系统应实现的功能。建立信息世界中E-R(概念)模型建立分E-R图;综合分E-R图,产生总E-R图。从E-R图导出计算机世界的关系数据模型E-R图中每个实体,都相应地转换为一个关系将联系转换成一个关系6.3.4.2数据库设计步骤对现实世界进行需求分析某学院“教学管理”数据库模型设计“系和教师关系”的分E-R图设计“学生和课程关系”的分E-R图设计“教师与课程关系”的分E-R图将上述三个分综合,建立学院教学管理总E-R图将学院“教学管理E-R图”所描述的信息(概念)世界中的概念模型转化为计算机上由关系型DBMS支持的关系数据模型。某学院“教学管理”数据库模型设计“系和教师关系”的分E-R图设计“系和教师关系”的分E-R图该学院下设四个系:管理工程系、会计系、市场营销系和信息管理系。每个系有一个系主任主管该系工作。将“系”设为一个实体,该实体具有以下属性:系代号、系名称、系主任姓名、办公地点、电话。其中系代号是主关键字设计“系和教师关系”的分E-R图该学院下设四个系:管理工程系该学院聘请了一定数量的专职教师。将“教师”设为一个实体,该实体具有以下属性:教师编号、教师姓名、专业特长。其中教师编号是主关键字。该学院聘请了一定数量的专职教师。学院聘请教师后,分配到各系。一个系有多个教师;一个教师只能属于一个系。“教师”实体与“系”实体之间发生一对多(1:M)的“分配”联系。学院聘请教师后,分配到各系。教学管理总E-R图

图6-13 “教学管理”E-R图教学管理总E-R图

28业务流程调查举例——教学管理学籍处理1学生登记表学生学生档案招生办各院系教务处制定教学计划2教师基本信息管理3教室管理4教学计划教师信息教学计划教师信息教室信息教师任课情况教学秘书人事处统计报表处理8制定教学计划5成绩管理7学生选课6学生成绩学生档案统计报表课表教务处学生教师各院系校领导上级主管各院系教务处教务处28业务流程调查举例——教学管理学籍处理1学生登记表学生学6.3.5数据库技术的发展趋势数据管理方式:集中式分布式数据模型:关系数据库多媒体数据库、面向对象数据库

(a)(b)

图6-14分布式数据库的结构形式

6.3.5数据库技术的发展趋势数据管理方式:集中式数据库的分布左图:集中式数据库右图:分布式数据库数据库的分布左图:集中式数据库右图:分布式数据库6.4.1数据仓库数据仓库之父W.H.Inmon:“数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrated)、非易失的(Non-Volatile)、随时间变化的(TimeVariant)的数据集合,用于支持管理决策”。

图6-15 数据仓库源于业务数据库

6.4.1数据仓库数据仓库之父W.H.Inmon:“数6.4.2联机分析处理联机分析处理(On-LineAnalyticalProcessing,OLAP):主要是对大量多维数据的动态综合、分析和归纳。OLAP中的一个主要操作是“多维分析”,即通过对信息的多种可能的观察形式进行快速、稳定、一致和交互性的存取,允许管理决策人员对数据进行深入分析。6.4.2联机分析处理联机分析处理(On-LineAn

图6-16多维视图示例

切片和切块(SliceandDice)钻取(Drill)旋转(Rotate)/转轴(Pivot)

切片和切块(SliceandDice)从OLTP到OLAP从OLTP到OLAPOLAP和数据仓库OLAP应用构建于数据仓库而非数据库之上,主要是由于以下三个技术方面的原因:计算机处理速度阶跃式增长,单位字节的存储和处理成本大幅度降低,是保证数据仓库有效运行的物理基础;决策分析理论的完善和应用使得数据仓库中的分析技术能够有效实现,使得决策人员可以直接从系统中获得需要的决策支持信息;数据仓库系统中,数据用于支持各种分析任务,并生成多角度,多层次和不同粒度上的分析结果.OLAP和数据仓库OLAP应用构建于数据仓库而非数据库之上OLAP中的基本概念⑴变量:从现实系统中抽象出来,用于描述数据的实际含义。维:人们观察数据的特定角度维的层次类别:构成一个维的独立的数据元素,是存在于层里每一个数据。维、层和类别的关系示意图OLAP中的基本概念⑴变量:从现实系统中抽象出来,用于描述OLAP中的基本概念⑵维的取值:也称为维的成员度量:企业收集和存储的用于评价业务状况的数值性数据,以监测和评估企业成效。多维数组数据单元(单元格)多维数组的取值称为数据单元多维数据立方体OLAP中的基本概念⑵维的取值:也称为维的成员多维数据立方OLAP的基本操作-切片(Slice)在多维数组的某一维上选定其维成员的动作称为切片在多维数组(维1,维2,…维n,度量)中选中某一维,如维i,并取其某一维成员(设为维成员Vi),所得的多维数组的子集(维1,维2,…维成员Vi,…维n,度量)称为在维i上的一个切片。OLAP的基本操作-切片(Slice)在多维数组的某一维OLAP的基本操作-切块(Dice)数据切块就是将完整的数据立方体切取一部分数据而得到的新的数据立方体。选取多维数组(维1,维2,…,维n,度量)中若干维度(通常是3个维度便于图形显示)的取值范围,从而形成了多维数据的子集(维1,维2,…,Ai<维i<Bi,…,Bj<维j<Bj,…,维度n,度量),这个多维数据子集被称为切块。OLAP的基本操作-切块(Dice)数据切块就是将完整的OLAP的基本操作-

下钻/上卷(DrillDown/RollUp)数据下钻(向下钻取)是从较高的维度层次下降到较低的层次上来观察多维数据数据上卷是下钻的逆向操作,是对数据进行高层次聚合的操作。OLAP的基本操作-

下钻/上卷(DrillDown/OLAP的基本操作-旋转(Rotate)数据旋转是改变维度的位置关系,使最终用户可以从其他视角来观察多维数据。不同维度间的旋转维层次间的旋转OLAP的基本操作-旋转(Rotate)数据旋转是改变维OLAP的准则(Codd1993)准则1:多维概念视图准则2:透明性准则3:存取能力准则4:稳定的报表功能准则5:客户机/服务器体系结构准则6:维的等同性准则7:动态稀疏矩阵处理准则8:支持多用户准则9:非限定的跨维操作准则10:直观的数据处理准则11:柔性报表准则12:不受限的维与层次聚类OLAP的准则(Codd1993)准则1:多维概念视图准6.4.3商业智能商业智能(BusinessIntelligence)是指通过对数据的收集、管理、分析以及转化,使数据成为可用的信息,并在企业中共享传递,从而帮助企业获得必要的洞察力和理解力,更好地辅助决策和指导行动。6.4.3商业智能商业智能(BusinessIntel6.4.4数据挖掘数据挖掘(DataMining)是从大量数据中自动发现隐藏的有用知识的过程,是从大量数据中挖掘“宝藏”的过程。分类(Classification)聚类(Clustering)关联规则发现(AssociationRuleDiscovery)时序模式发现(SequentialPatternDiscovery)6.4.4数据挖掘数据挖掘(DataMining)是从商务智能、多维数据分析和数据挖掘博彩业的Harrahs(哈拉斯)借助于商业智能,判断高价值客户,并制定鼓励他们更多投资的方案通过联系分析处理(OLAP)和多维数据分析,用户可以不同方法分析同一数据,从而得到对该数据从不同层面进行解释的结果商务智能、多维数据分析和数据挖掘博彩业的Harrahs(哈拉商务智能商务智能知识发现、数据挖掘与商务智能20世纪80年代末,机器学习方法在数据分析中的应用导致数据库知识发现(KDD,KnowledgeDiscoveryinDatabase)的产生。20世纪90年代以来,以数据挖掘技术为核心的商务智能(知识发现在商业的应用)受到了学术界和业界的广泛关注。知识发现、数据挖掘与商务智能20世纪80年代末,机器学习方数据挖掘(DataMining)数据挖掘/知识发现(从海量数据中淘“金”)数据挖掘(DataMining)数据挖掘/知识发现(数据挖掘的特点传统的决策分析技术中,都是决策人员事先给出逻辑假设和模型,而后在数据中进行检验和参数评估。数据挖掘是数据驱动,始于纷繁复杂的海量数据,利用强大的数据分析工具和特定的知识提取方法,从数据出发,挖掘中其中有效的模式,从而获得潜在的、新颖的以及有用的知识。数据挖掘的特点传统的决策分析技术中,都是决策人员事先给出逻辑数据挖掘的任务数据挖掘的基本任务是预测(prediction)和描述(description)预测就是利用数据中已知的变量和字段来确定一些感兴趣的未知或未来的值,如分类等。描述则集中于寻找一种人类能够理解和解释的模式对数据进行刻画,如聚类、关联规则等。数据挖掘的任务数据挖掘的基本任务是预测(predictio数据挖掘的分类按所挖掘的模式的类型将数据挖掘划分为:概念描述(归纳或简约)分类和预测聚类关联规则其它的一些模式识别和统计方法数据挖掘的分类按所挖掘的模式的类型将数据挖掘划分为:数据挖掘-概念描述(归纳)概念描述与数据概化密切相关以简洁的形式在更一般的(而不是在较低的)抽象层描述数据是很有用的允许数据集在多个抽象层概化,便于用户考察数据的一般行为与OLAp的区别更为复杂的数据类型用户控制与自动处理数据挖掘-概念描述(归纳)概念描述与数据概化密切相关数据挖掘-分类和预测分类:给定已有的数据和类别,通过分类算法得到描述和区分数据类或概念的模型。预测:将上述分类模型应用到要进行测试的数据上,对未来或者未知的数据进行预测。贷款分类模型数据挖掘-分类和预测分类:给定已有的数据和类别,通过分类算数据挖掘-聚类分析聚类是将一个数据集按照某个标准分成几个簇的过程。每个簇内部的数据按照该标准具有很高相似性,而簇之间的数据的相似性很低。聚类与分类不同分类中,类标记事先给出,是一种监督学习的方法;聚类没有事先给定类别,属于一种非监督的学习。客户的聚类分析数据挖掘-聚类分析聚类是将一个数据集按照某个标准分成几个簇数据挖掘-关联规则挖掘关联规则挖掘,就是对业务的所有不同类型的信息进行全面的处理,得到不同类型信息之间的相互关系,从而进一步分析不同信息之间潜在的逻辑规律,为业务运作提供参考和决策支持。技术层面讲,关联规则挖掘是在给定的事务数据库中找到所有满足最小支持度和最小置信度的形如X=>Y的规则数据挖掘-关联规则挖掘关联规则挖掘,就是对业务的所有不同类商务智能应用系统目前商务智能和数据挖掘工具分为三类:通用单任务类通用多任务类面向专门领域类商务智能应用系统目前商务智能和数据挖掘工具分为三类:IBM商业智能解决方案IBM商业智能解决方案

BI的数据挖掘解决方案

IntelligentMinerBI的数据挖掘解决方案

Intellige在sybase数据库窗口直接操作下列命令:1、创建数据表createtableperformance(codechar(8)notnull,attitudedecimal(3,1)null,abilitydecimal(3,1)null,Performancedecimal(3,1)null,notechar(24)null)6.5、SQL结构查询语言在sybase数据库窗口直接操作下列命令:6.5、SQL结构2、其他SQL命令Select*fromperformancewherecode=’001’Insertintoperformance(code,attitude,ability,performance)values(’001’,’8.8’,’9.5’,’9.6’)Updateperformancesetperformancecode=’001’,attitude=’8.8’,ability=’9.5’,performance=’9.6’Deleteperformancewherecode=’001’2、其他SQL命令AnyotherQuestions?AnyotherComments?AnyotherQuestions?第6章数据库和数据仓库技术6.1企业数据处理方式6.2文件组织6.3数据库系统6.4数据仓库和商业智能第6章数据库和数据仓库技术6.1企业数据处理方式6.1企业数据处理方式以联机事务处理形式处理信息以联机分析处理形式处理信息,并利用信息进行决策在信息应用过程中管理信息6.1企业数据处理方式以联机事务处理形式处理信息图6-1 联机事务处理与联机分析处理

图6-1 联机事务处理与联机分析处理数据项,记录,文件,数据库数据库文件3文件2文件1记录3记录2记录1数据项3数据项2数据项16.2文件组织6.2.1文件组织术语和概念数据项,记录,文件,数据库数据库文件3文件2文件1字段记录某个数据库中的一份表文件,该文件存储了选修《管理信息系统》课程的10级物流专业的同学名单。每列是一个字段,每行为一个记录。从数据库原理的角度来看,表中反映了“学生”这一类实体集(EntitySet),表中的每一行是该类型中的一个具体的实体,每个实体都具有学号、姓名、专业名称等属性字段记录某个数据库中的一份表文件,该文件存储了选修《管理信息6.2.2数据的物理组织和逻辑组织图6-2信息的物理组织与逻辑组织6.2.2数据的物理组织和逻辑组织图6-2信息的物理图6-4逻辑数据元素之间的关系6.2.3文件的组织方式学生数据库学生情况文件学生成绩文件记录数据项学生1┅┅学生n学号姓名性别┅┅学号姓名性别9608101张勇男┅┅9608138王英女图6-4逻辑数据元素之间的关系6.2.3文件的组记录1记录4记录3记录2记录2图6-5磁盘顺序文件

1顺序文件组织记录1记录4记录3记录2记录2图6-5磁盘顺序文件1顺2索引文件记录地址学号姓名数学物理Basic

主关键字(学号)记录地址A870701张╳687472

870701AB870705李╳958792

870705BC870707赵╳778384

870707CD870712周╳858188

870712DE870721陈╳626461

870721EF870724王╳828892

870724FG870736黄╳757477

870736G记录地址学号姓名数学物理Basic

主关键字(学号)记录地址A870712周╳858188

870701DB870724王╳828892

870705GC870707赵╳778384

870707CD870701张╳687472

870712AE870736黄╳757477

870721FF870721陈╳626461

870724BG870705李╳958792

870736E(b) 非索引顺序文件 索引(a) 索引顺序文件 索引2索引文件记录地址学号姓名数学物理Basic

主关键字(学3链表文件记录地址职工号姓名部门编号部门指南工作年限DT入口→A1111-DTC-NW入口→B1121-NWE-C1981-DTD-D2014-DTH-E2084-NWF-F2918-NW∧-EA入口→G3001-EAI-H3101-DTJ-I3241-EA∧-J3358-DT∧-NE入口→K3861-NEL-L3871-NE∧-部门代码(辅关键字符)链表长度(记录个数)链头指针(入口地址)部门代码(辅关键字符)链表长度(记录个数)链头指针(入口地址)DT5AEA2GNW3BNE2K3链表文件记录地址职工号姓名部门编号部门指南工作年限DT入4倒排文件辅关键字指针表辅关键字值指针

部门编号

DT11111981201431013358

NW112120842918

EA30013241

NE38613871

工作年限N

N≤51111201420842918

5<N≤1031013861

15<N≤2030013871

N>201981

透支现额%

011112014208429183101386110011213001324133583871

2001981

4倒排文件辅关键字指针表辅关键字值指针

部门编号

InquiryCustomerTransactionProcessingSavingInstallDatabaseManagementSystemCheckCustomerDatabaseADatabaseManagementSystem(DBMS)isasetofcomputerprogramsthatcontrolsthecreation,maintenanceanduseoftheDatabaseofaorganizationandit’senduser.6.3.2数据库管理系统InquiryCustomerTransactionSav图6-8DBMS的主要功能

数据库管理操作系统数据库管理系统应用程序数据库数据词典图6-8DBMS的主要功能数据库操作系统数据库应用程序数DatabaseManagementOperatingSystemDBMSApplicationPrograms*Datadevelopment*Datainterrogation*DatabaseMaintenance*ApplicationdevelopmentDatabaseDatadictionaryDatabaseOperatingDBMSApplicat*DataDevelopment

由DatabaseAdministrator(DBA)开发用DatadictionaryLanguage去开发.ADatadictionaryisacomputer-basedcatalogordirectorycontainingmetadatathatisdataaboutdata.*DataDevelopment数据库查询Databaseinterrogationquerylanguage,reportgeneratorCorporatePayrollReportingSystemHighlightyourselectionandpressEnterMainMenu.EmployeeFileMaintenanceTaxReportPrinter数据库查询DatabaseinterrogationCoSQL(StructuredQueryLanguage)SELECTNAME,SSNO,DEPARTMENT,SALARYFROMEMPLOYEE,PAYROLLWHEREEMPLOYEE.SSNO=PAYROLL.SSNOAND

CLASSIFICATION=“FINANCIALANALYST”SQL(StructuredQueryLanguag*数据库的维护在DBMS的支持下,用UTILITY等*应用开发程序用DataManipulationLanguageDML

不必用通常程序设计语言,如COBOL*数据库的维护图6-9数据模型

6.3.3数据库系统S1R2R4R3S6S7S9S8S5S4S3S2学号姓名年龄性别学生关系框架:学号姓名年龄性别课程关系框架:学号姓名年龄性别学习关系框架:(a)网络模型(b)层次模型(c)关系模型图6-9数据模型6.3.3数据库系统S1R2R4图6-10数据库的三级体系结构

用户A1工作区用户A2工作区用户B工作区外模式A(子模式A)外模式B(子模式B)子模式/概念模式映射A子模式/概念模式映射B概念模型(模式)模式(内模式映射)DBMSOS………..图6-10数据库的三级体系结构用户A1工作区用户A2工图6-11三个不同的世界

客观世界信息世界(概念世界)数据世界组织(事物及其联系)实体及其联系(概念模型)数据库(数据模型)事物类(总体)实体集文件事物(对象、个体)实体记录特征(性质)属性数据项表6-7三个不同世界术语对照表

客观事物事物类:相关性质集合人实体及联系实体集合实体相关属性集合数据库文件记录相关数据项集合存储结构二进制数据集合加工转换加工转换E-R模型DBMS的数据模型DBMS的计算机世界现实世界认识选择描述信息世界图6-11三个不同的世界客观世界信息世界(概念世界)数6.3.4.2数据库设计步骤对现实世界进行需求分析了解组织机构情况,为分析信息流做准备;了解各部门业务情况,调查各部门输入和使用的数据,及处理数据的方式与算法;确定数据库的信息组成及计算机系统应实现的功能。建立信息世界中E-R(概念)模型建立分E-R图;综合分E-R图,产生总E-R图。从E-R图导出计算机世界的关系数据模型E-R图中每个实体,都相应地转换为一个关系将联系转换成一个关系6.3.4.2数据库设计步骤对现实世界进行需求分析某学院“教学管理”数据库模型设计“系和教师关系”的分E-R图设计“学生和课程关系”的分E-R图设计“教师与课程关系”的分E-R图将上述三个分综合,建立学院教学管理总E-R图将学院“教学管理E-R图”所描述的信息(概念)世界中的概念模型转化为计算机上由关系型DBMS支持的关系数据模型。某学院“教学管理”数据库模型设计“系和教师关系”的分E-R图设计“系和教师关系”的分E-R图该学院下设四个系:管理工程系、会计系、市场营销系和信息管理系。每个系有一个系主任主管该系工作。将“系”设为一个实体,该实体具有以下属性:系代号、系名称、系主任姓名、办公地点、电话。其中系代号是主关键字设计“系和教师关系”的分E-R图该学院下设四个系:管理工程系该学院聘请了一定数量的专职教师。将“教师”设为一个实体,该实体具有以下属性:教师编号、教师姓名、专业特长。其中教师编号是主关键字。该学院聘请了一定数量的专职教师。学院聘请教师后,分配到各系。一个系有多个教师;一个教师只能属于一个系。“教师”实体与“系”实体之间发生一对多(1:M)的“分配”联系。学院聘请教师后,分配到各系。教学管理总E-R图

图6-13 “教学管理”E-R图教学管理总E-R图

89业务流程调查举例——教学管理学籍处理1学生登记表学生学生档案招生办各院系教务处制定教学计划2教师基本信息管理3教室管理4教学计划教师信息教学计划教师信息教室信息教师任课情况教学秘书人事处统计报表处理8制定教学计划5成绩管理7学生选课6学生成绩学生档案统计报表课表教务处学生教师各院系校领导上级主管各院系教务处教务处28业务流程调查举例——教学管理学籍处理1学生登记表学生学6.3.5数据库技术的发展趋势数据管理方式:集中式分布式数据模型:关系数据库多媒体数据库、面向对象数据库

(a)(b)

图6-14分布式数据库的结构形式

6.3.5数据库技术的发展趋势数据管理方式:集中式数据库的分布左图:集中式数据库右图:分布式数据库数据库的分布左图:集中式数据库右图:分布式数据库6.4.1数据仓库数据仓库之父W.H.Inmon:“数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrated)、非易失的(Non-Volatile)、随时间变化的(TimeVariant)的数据集合,用于支持管理决策”。

图6-15 数据仓库源于业务数据库

6.4.1数据仓库数据仓库之父W.H.Inmon:“数6.4.2联机分析处理联机分析处理(On-LineAnalyticalProcessing,OLAP):主要是对大量多维数据的动态综合、分析和归纳。OLAP中的一个主要操作是“多维分析”,即通过对信息的多种可能的观察形式进行快速、稳定、一致和交互性的存取,允许管理决策人员对数据进行深入分析。6.4.2联机分析处理联机分析处理(On-LineAn

图6-16多维视图示例

切片和切块(SliceandDice)钻取(Drill)旋转(Rotate)/转轴(Pivot)

切片和切块(SliceandDice)从OLTP到OLAP从OLTP到OLAPOLAP和数据仓库OLAP应用构建于数据仓库而非数据库之上,主要是由于以下三个技术方面的原因:计算机处理速度阶跃式增长,单位字节的存储和处理成本大幅度降低,是保证数据仓库有效运行的物理基础;决策分析理论的完善和应用使得数据仓库中的分析技术能够有效实现,使得决策人员可以直接从系统中获得需要的决策支持信息;数据仓库系统中,数据用于支持各种分析任务,并生成多角度,多层次和不同粒度上的分析结果.OLAP和数据仓库OLAP应用构建于数据仓库而非数据库之上OLAP中的基本概念⑴变量:从现实系统中抽象出来,用于描述数据的实际含义。维:人们观察数据的特定角度维的层次类别:构成一个维的独立的数据元素,是存在于层里每一个数据。维、层和类别的关系示意图OLAP中的基本概念⑴变量:从现实系统中抽象出来,用于描述OLAP中的基本概念⑵维的取值:也称为维的成员度量:企业收集和存储的用于评价业务状况的数值性数据,以监测和评估企业成效。多维数组数据单元(单元格)多维数组的取值称为数据单元多维数据立方体OLAP中的基本概念⑵维的取值:也称为维的成员多维数据立方OLAP的基本操作-切片(Slice)在多维数组的某一维上选定其维成员的动作称为切片在多维数组(维1,维2,…维n,度量)中选中某一维,如维i,并取其某一维成员(设为维成员Vi),所得的多维数组的子集(维1,维2,…维成员Vi,…维n,度量)称为在维i上的一个切片。OLAP的基本操作-切片(Slice)在多维数组的某一维OLAP的基本操作-切块(Dice)数据切块就是将完整的数据立方体切取一部分数据而得到的新的数据立方体。选取多维数组(维1,维2,…,维n,度量)中若干维度(通常是3个维度便于图形显示)的取值范围,从而形成了多维数据的子集(维1,维2,…,Ai<维i<Bi,…,Bj<维j<Bj,…,维度n,度量),这个多维数据子集被称为切块。OLAP的基本操作-切块(Dice)数据切块就是将完整的OLAP的基本操作-

下钻/上卷(DrillDown/RollUp)数据下钻(向下钻取)是从较高的维度层次下降到较低的层次上来观察多维数据数据上卷是下钻的逆向操作,是对数据进行高层次聚合的操作。OLAP的基本操作-

下钻/上卷(DrillDown/OLAP的基本操作-旋转(Rotate)数据旋转是改变维度的位置关系,使最终用户可以从其他视角来观察多维数据。不同维度间的旋转维层次间的旋转OLAP的基本操作-旋转(Rotate)数据旋转是改变维OLAP的准则(Codd1993)准则1:多维概念视图准则2:透明性准则3:存取能力准则4:稳定的报表功能准则5:客户机/服务器体系结构准则6:维的等同性准则7:动态稀疏矩阵处理准则8:支持多用户准则9:非限定的跨维操作准则10:直观的数据处理准则11:柔性报表准则12:不受限的维与层次聚类OLAP的准则(Codd1993)准则1:多维概念视图准6.4.3商业智能商业智能(BusinessIntelligence)是指通过对数据的收集、管理、分析以及转化,使数据成为可用的信息,并在企业中共享传递,从而帮助企业获得必要的洞察力和理解力,更好地辅助决策和指导行动。6.4.3商业智能商业智能(BusinessIntel6.4.4数据挖掘数据挖掘(DataMining)是从大量数据中自动发现隐藏的有用知识的过程,是从大量数据中挖掘“宝藏”的过程。分类(Classification)聚类(Clustering)关联规则发现(AssociationRuleDiscovery)时序模式发现(SequentialPatternDiscovery)6.4.4数据挖掘数据挖掘(DataMining)是从商务智能、多维数据分析和数据挖掘博彩业的Harrahs(哈拉斯)借助于商业智能,判断高价值客户,并制定鼓励他们更多投资的方案通过联系分析处理(OLAP)和多维数据分析,用户可以不同方法分析同一数据,从而得到对该数据从不同层面进行解释的结果商务智能、多维数据分析和数据挖掘博彩业的Harrahs(哈拉商务智能商务智能知识发现、数据挖掘与商务智能20世纪80年代末,机器学习方法在数据分析中的应用导致数据库知识发现(KDD,KnowledgeDiscover

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论