版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据仓库与OLAP随着数据库技术的应用普及和发展,人们不随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更再仅仅满足于一般的业务处理,而对系统提出了更高的要求高的要求提供决策支持提供决策支持决策支持系统决策支持系统(Decision Support Systems,DSS)什么是数据仓库(什么是数据仓库( data warehouse)?一种面向分析的环境一种面向分析的环境一种把相数据转换成有商业价值的信息的技术一种把相数据转换成有商业价值的信息的技术分析型处理分析型处理的数据的数据操作型处理操作型处理的数据的数据分离分离DSS环境环境OLTP环境环境
2、数据仓库数据仓库数据库数据库1. 从数据库到数据仓库从数据库到数据仓库OLTPOLAP操作型数据操作型数据分析型数据分析型数据比较项比较项操作型数据操作型数据分析型数据分析型数据关注点关注点细节细节综合综合数据状态数据状态不断变化不断变化相对恒定相对恒定能否更新能否更新能能不能不能操作操作事先已知事先已知完全未知完全未知生命周期生命周期符合符合SDLCSDLC完全不同完全不同对性能要求对性能要求高高无所谓无所谓操作对象操作对象一个单元一个单元一个集合一个集合驱动形式驱动形式事务事务分析分析操作数据量操作数据量小小大大DSSDSS支持工具支持工具(1)OLAP工具工具 :分组和聚集:分组和聚集(
3、2)DBMS查询工具:优化查询工具:优化RDBS(3)数据挖掘()数据挖掘(Data Mining)工具:发现有意义)工具:发现有意义的数据趋势或模式的数据趋势或模式2. 数据仓库的定义及特征数据仓库的定义及特征 数据仓库理论的创始人数据仓库理论的创始人W.H.Inmon在其在其Building the Data Warehouse一书中,给出了一书中,给出了数据仓库的四个基本特征:数据仓库的四个基本特征:面向主题,数据集成,数据不可更新,数面向主题,数据集成,数据不可更新,数据随时间不断变化据随时间不断变化采购子系统采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,订单(订单号
4、,供应商号,商品号,类别,单价。数量,总金额,日期,总金额,日期, ) 供应商(供应商号,供应商名,地址,电话,供应商(供应商号,供应商名,地址,电话,)销售子系统:销售子系统: 客户(客户号,姓名,地址,电话,客户(客户号,姓名,地址,电话, ) 销售(客户号,商品号,数量,单价,日期,销售(客户号,商品号,数量,单价,日期, )库存子系统:库存子系统: 进库单(编号,商品号,数量,单价,日期,进库单(编号,商品号,数量,单价,日期, ) 出库单(编号,商品号,数量,单价,日期,出库单(编号,商品号,数量,单价,日期, ) 库存(商品号,库存(商品号, 库房号,类别,单价,库存数量,库房号,
5、类别,单价,库存数量,总金额,日期,总金额,日期, ) 商品固有信息:商品号,类别,单价,颜色,商品固有信息:商品号,类别,单价,颜色, 商品采购信息:商品号,类别,供应商号,供应日期,单商品采购信息:商品号,类别,供应商号,供应日期,单价,数量,价,数量, 商品销售信息:商品号,客户号,数量,单价,销售日商品销售信息:商品号,客户号,数量,单价,销售日期,期, 商品库存信息:商品号,商品库存信息:商品号, 库房号,库存数量,日期,库房号,库存数量,日期, )商品主题域:商品主题域:采购子系统采购子系统销售子系统销售子系统库存子系统库存子系统3. 数据仓库中的数据组织数据仓库中的数据组织数据仓
6、库中数据的四个级别:数据仓库中数据的四个级别:早期细节级、当前细早期细节级、当前细节级、轻度综合级、高度综合级节级、轻度综合级、高度综合级19852005年年销售明细表销售明细表20002005年年销售明细表销售明细表20002005年年季度销售表季度销售表20002005年年月销售表月销售表4. 数据仓库系统结构数据仓库系统结构 综合数据综合数据 当前数据当前数据 历史数据历史数据 元数据元数据 其它其它RDBMS数据文件数据文件抽取、转换、装载抽取、转换、装载数据仓库数据仓库OLAP工具工具 DM工具工具 查询工具查询工具分析工具分析工具 数据仓库设计数据仓库设计数据仓库建模数据仓库建模u
7、 分析主题域分析主题域u 确定粒度层次确定粒度层次u 确定数据分割策略确定数据分割策略 构建数据仓库构建数据仓库u 数据的存储结构与存储策略数据的存储结构与存储策略DSS应用编程应用编程 数据仓库工具有:数据仓库工具有:u 数据预处理工具数据预处理工具u 数据分析(数据分析( OLAP )工具)工具u 数据挖掘工具数据挖掘工具u OLAP服务器服务器6. 数据仓库的实现数据仓库的实现维:维:人们观察数据的特定角度。人们观察数据的特定角度。维的层次:维的层次:人们观察数据的特定角度可能存在细节人们观察数据的特定角度可能存在细节程度不同的多个描述方面,我们称其为维的层次。程度不同的多个描述方面,我
8、们称其为维的层次。数据仓库和数据仓库和OLAP工具工具基于多维数据模型基于多维数据模型(在数(在数据仓库中,数据以多据仓库中,数据以多维维方式来存储)。方式来存储)。多维分析的基本动作多维分析的基本动作 切片、旋转、上卷、下钻切片、旋转、上卷、下钻lSales volume as a function of product, month, and regionProductRegionMonthDimensions: Product, Location, TimeHierarchical summarization pathsIndustry Region YearCategory Count
9、ry QuarterProduct City Month Week Office DayTotal annual salesof TV in U.S.A.DateProductCountrysumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosumAll,all,all 产品销售产品销售 情况情况某年某月产某年某月产品销售情况品销售情况选定两个维:产品维和地区维选定两个维:产品维和地区维时间维时间维数据切片数据切片产品维产品维地区维地区维产品维产品维地区维地区维基于基于RDBMSRDBMS的数据仓库实现的数据仓库实现 关系数据库将多维数据库中的多维结构
10、分为两关系数据库将多维数据库中的多维结构分为两类:一类是事实表,用来存储事实的度量值以及各类:一类是事实表,用来存储事实的度量值以及各个维的码值;另一类是维表。个维的码值;另一类是维表。 数据仓库的设计也可以理解为数据仓库的设计也可以理解为面向面向OLAP的的数据库设计数据库设计星型模式:主要数据存储在事实表中,没有冗余,星型模式:主要数据存储在事实表中,没有冗余,并符合并符合3NF或或BCNF。 维值信息存储在维表中。维表一般不需要规范维值信息存储在维表中。维表一般不需要规范化。主要原因是维表是静态的,是否会产生因更新化。主要原因是维表是静态的,是否会产生因更新而导致异常也就不重要了。而导致
11、异常也就不重要了。数据仓库的设计模型有:数据仓库的设计模型有:星型模式、雪花模式、混合模式星型模式、雪花模式、混合模式定单号定单号销售员号销售员号客户号客户号产品号产品号日期标识日期标识地区名称地区名称数量数量总价总价定单号定单号定货日期定货日期客户号客户号客户名称客户名称客户地址客户地址销售员号销售员号姓名姓名城市城市产品号产品号产品名称产品名称单价单价日期标识日期标识日日月月年年地区名称地区名称省省事实表事实表星型模式星型模式定单号定单号销售员号销售员号客户号客户号产品号产品号日期标识日期标识地区名称地区名称数量数量总价总价定单号定单号定货日期定货日期客户号客户号客户名称客户名称客户地址客
12、户地址销售员号销售员号姓名姓名城市城市产品号产品号产品名称产品名称单价单价日期标识日期标识日日月月年年地区名称地区名称省省事实表事实表雪花模式雪花模式产品号产品号公司代码公司代码公司代码公司代码公司名称公司名称地址地址数据库新技术数据库新技术n1.1.数据库新技术数据库新技术 n2.2.数据库新技术范畴数据库新技术范畴n3.3.数据库新技术应用的实现途径数据库新技术应用的实现途径n4.4.现代数据库应用的主要特征现代数据库应用的主要特征n5.5.数据库技术发展趋势数据库技术发展趋势初级阶段:人工与文初级阶段:人工与文件管理阶段件管理阶段 第一代:层次与网状第一代:层次与网状数据库系统数据库系统
13、 第二代:关系数据库系第二代:关系数据库系统(关系模型)统(关系模型) 新一代数据库(第三代数据库宣言:关系模型新一代数据库(第三代数据库宣言:关系模型扩展、对象模型、相关新技术结合扩展、对象模型、相关新技术结合) 代表:代表:IBM IMS(1961) CODASYL DBTG(70s 初初) Codd:关系模型:关系模型 早期早期代表:代表:IBM System R; Berkeley Ingres CODASYL DBTG(70s 初) 1960 1970 1980 1990 2000 n数据类型多样化:除数字、字符、文本外,还需要数据类型多样化:除数字、字符、文本外,还需要视频、音频、
14、图形、图像、动画,视频、音频、图形、图像、动画,HTML/XMLHTML/XML、流流数据等数据等n数据结构需求:结构化,半结构化、非结构化数据结构需求:结构化,半结构化、非结构化n数据存储需求:海量,多维性等数据存储需求:海量,多维性等n数据操作需求:互操作(视频快进操作)、主动性数据操作需求:互操作(视频快进操作)、主动性操作、领域搜索浏览、时态查询、自定义操作操作、领域搜索浏览、时态查询、自定义操作n其他需求:领域需求其他需求:领域需求(1)数据库应用新需求)数据库应用新需求n1990年,美国的高级年,美国的高级DBMS功能委员会会员,功能委员会会员,RDB的著名学者发表了第三代数据库系
15、统宣的著名学者发表了第三代数据库系统宣言,提出了第三代数据库管理系统应具有的言,提出了第三代数据库管理系统应具有的特征,包括三条基本原则和特征,包括三条基本原则和 13 个命题。个命题。(2)第三代数据库宣言)第三代数据库宣言n 三个基本特征三个基本特征n支持数据管理、对象管理、知识管理支持数据管理、对象管理、知识管理n保持或继承第二代数据库系统的技术保持或继承第二代数据库系统的技术n对其他系统开放对其他系统开放q第三代数据库的概念并没有得到普遍认同第三代数据库的概念并没有得到普遍认同n第第1 1、2 2代有明确的数据模型,特别是第代有明确的数据模型,特别是第2 2代数据库有关系代数据库有关系
16、代数等相关理论支持代数等相关理论支持n第三代数据库:面向对象?第三代数据库:面向对象?q新一代数据库:采用新技术的数据库应用(笼统)新一代数据库:采用新技术的数据库应用(笼统)q数据库新技术范畴?数据库新技术范畴?第三代数据库第三代数据库 VS VS 新一代数据库新一代数据库n1.1.数据库新技术数据库新技术 n2.2.数据库新技术范畴数据库新技术范畴n3.3.数据库新技术应用的实现途径数据库新技术应用的实现途径n4.4.现代数据库应用的主要特征现代数据库应用的主要特征n5.5.数据库技术发展趋势数据库技术发展趋势n数据库新技术是一个不断发展的范畴数据库新技术是一个不断发展的范畴(数据管理无处
17、不在)(数据管理无处不在)q数据模型的改进数据模型的改进q相关技术融合相关技术融合 面向应用领域面向应用领域(1 1)数据模型改进)数据模型改进q面向对象数据模型面向对象数据模型q时态数据库系统时态数据库系统q实时数据库系统实时数据库系统q主动数据库系统主动数据库系统n(2 2)相关技术融合)相关技术融合q与分布处理技术与分布处理技术分布式数据库系统分布式数据库系统q与并行处理技术与并行处理技术并行数据库系统并行数据库系统q与人工智能技术与人工智能技术知识库系统知识库系统/主动数据库主动数据库q与多媒体技术与多媒体技术多媒体数据库多媒体数据库q与模糊技术与模糊技术模糊数据库模糊数据库q与移动通
18、信技术与移动通信技术移动数据库移动数据库q与与Web技术技术Web数据库系统数据库系统q与传感器网络与传感器网络传感器网络管理数据库传感器网络管理数据库qn(3 3)面向应用领域)面向应用领域qCAD/CAM/CIM工程数据库工程数据库q科学计算科学计算科学数据库科学数据库q计划计划/统计统计统计数据库统计数据库qGIS空间数据库空间数据库qDSS数据仓库数据仓库 u TDBu RTDBu OODMRDB数据模型数据模型 u GIS、u CADu 科学计算科学计算u 应用领域应用领域分布式分布式并行处理并行处理人工智能人工智能多媒体多媒体模糊技术模糊技术新技术新技术 n1.1.数据库新技术数据
19、库新技术 n2.2.数据库新技术范畴数据库新技术范畴n3.3.数据库新技术应用的实现途径数据库新技术应用的实现途径n4.4.现代数据库应用的主要特征现代数据库应用的主要特征n5.5.数据库技术发展趋势数据库技术发展趋势n继承关系数据库系统的技术继承关系数据库系统的技术n数据库技术和多学科的有机结合数据库技术和多学科的有机结合q内容不断扩展内容不断扩展q某些概念、技术、领域、原理发生了重大变化某些概念、技术、领域、原理发生了重大变化n吸收和借鉴面向对象的方法和技术吸收和借鉴面向对象的方法和技术n面向应用领域开发面向应用领域开发q工程数据库、统计数据库、科学数据库、空间数据工程数据库、统计数据库、
20、科学数据库、空间数据库、地理数据库库、地理数据库n1.什么是数据库新技术什么是数据库新技术n2.数据库新技术范畴数据库新技术范畴n3.数据库新技术应用的实现途径数据库新技术应用的实现途径n4.现代数据库应用的主要特征现代数据库应用的主要特征 n5.数据库技术发展趋势数据库技术发展趋势n多维性(支持时间、空间等属性)多维性(支持时间、空间等属性)n智能化(知识表达与推理能力)智能化(知识表达与推理能力)n网络化(基于网络环境)网络化(基于网络环境)n协同性(支持多系统融合)协同性(支持多系统融合)姓名姓名 出生年月出生年月 职务职务张兰张兰 1964年年1月月 讲师讲师 张兰张兰 1964年年1
21、月月 副教授副教授张兰张兰 1964年年1月月 副处长副处长(1)时间作为信息的维度)时间作为信息的维度有效时间有效时间1994-19981998-now1999-now时间作为数据时间作为数据时间作为自然属性时间作为自然属性q时间数据时间数据时间作为一种数据类型时间作为一种数据类型q时态信息时态信息时间作为一个信息维度时间作为一个信息维度元组属性时间n更复杂的时间维度(四维)更复杂的时间维度(四维)n有效时间有效时间n事务时间事务时间n时态数据库技术时态数据库技术q快照数据库快照数据库q历史数据库历史数据库q回滚数据库回滚数据库q双时态数据库双时态数据库n时间相关数据库技术时间相关数据库技术
22、n时空数据库时空数据库n实时数据库实时数据库n数据仓库数据仓库n主动数据库主动数据库n(2)知识处理是主要特征)知识处理是主要特征摄氏摄氏39度度数据、信息、知识?数据、信息、知识?n数据数据是对事实的一种表达形式,可以人工或是对事实的一种表达形式,可以人工或自动化装置进行处理。自动化装置进行处理。n信息信息是对人有用的、能够影响人们行为的数是对人有用的、能够影响人们行为的数据。通过数据加工处理而产生。据。通过数据加工处理而产生。n知识知识是人类对客观规律的认识,是系统的有是人类对客观规律的认识,是系统的有条理的信息。条理的信息。知识是数据经过加工,如归纳、综合、比较、分知识是数据经过加工,如
23、归纳、综合、比较、分类、联想等得到的上层信息。类、联想等得到的上层信息。n知识库基本问题知识库基本问题n知识表达知识表达n知识推理知识推理n知识获取知识获取用户界面用户界面知识库管理系统知识库管理系统知识库管理员知识库管理员知识获取机构知识获取机构知识库知识库知识库工程师知识库工程师n基于知识的数据库技术基于知识的数据库技术n知识数据库知识数据库n主动数据库主动数据库n决策支持系统决策支持系统n数据挖掘技术数据挖掘技术n信息检索信息检索nn网络化数据库技术基础网络化数据库技术基础q分布式数据库技术qWeb数据库技术qXML数据库技术(3)网络是基本平台)网络是基本平台n分布式数据库基本特征分布式数据库基本特征q物理分布性物理分布性q逻辑整
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论