2章-数据仓库环境_第1页
2章-数据仓库环境_第2页
2章-数据仓库环境_第3页
2章-数据仓库环境_第4页
2章-数据仓库环境_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章数据仓库环境数据仓库库的定义义以1992年W.H..Inmon出版《BuildingtheDataWarehouse》》为标志,,数据仓仓库速度度发展起起来,Inmon也被誉为为“数据仓库库之父”。W.H..Inmon对数据仓库库的定义是是:“数据仓库库是支持持决策过过程的、、面向主主题的、、集成的的、随时时间变化化的、持持久的数数据集合合。数据仓库库是体系系结构化化环境的的核心,是决策支支持系统统DSS处理的基基础数据仓库库的特征征数据仓库库是面向主题题(Subject-Orientation)的;数据仓库库是集成(Integration))的;数据仓库库是稳定/非非易失性性(Nonvolatile))的;数据仓库库是随时间变变化(TimeVagrancy)的;数据仓库库是信息的概概括和聚聚集。面向主题题汽车人寿健康意外伤亡亡操作型环环境应用用顾客保险单保险费索赔数据仓库库主题题集成操作型环环境应用Am,,f应用B1,,0应用Cx,,y应用D男,女数据仓库库

m,f编码应用A管道cm应用B管道inches应用C管道mcf应用D管道yds管道cm属性度量量应用A描述应用B描述应用C描述应用D描述应用Achar((10))应用Bdecfixed(9,2))应用Cpic‘9999999’应用Dchar((12)多重信息息源描述char(12)冲突的键键码集成?操作型环环境数据仓库库JJones女1945年7月月20日日。。。。。。JJones去年有两两张罚单单一次大事事故。。。。。。JJonesMain大街123号已婚。。。。。。JJones两个孩子子高血压。。。。。。人寿保险险汽车保险险房产保险险健康保险险JJones女1945年7月月20日日出生去年两张张罚单一次大事事故已婚两个孩子子高血压。。。。。。。顾客非易失性性插入删除插入修改删除访问修改访问数据的逐逐个记录录方式处处理数据的批批量载入入/访问问操作型环环境数据仓库库随时间变变化操作型环环境数据仓库库时间期限限:当前前到60—90天记录更新新键码结构构可能包包括也可可能不包括时间间元素时间期限限:5——10年年数据的复复杂快照照关键字结结构包括括时间元元素数据仓库库的结构构元数据高度综合级轻度综合级(数据集市)销售细节级2000-2001操作型转换早期细节级每月销售1994-2001每周销售1994-2001当前细节级销售细节级1994-1999面向主题题数据仓库库面向在在高层企企业数据据模型中中已定义义好的企企业主题题域每个主要要主题域域都是以一组相相关的表表来具体体实现的,一般通过过一个公公共关键键字联系系起来数据仓库库中可能有多多个DBMS对数据进进行管理理,或根本没没有DBMS管理GIS中表现为为:河流、宗宗地、土土地利用用图斑、、地形等等面向主题题---“顾客”主题主题可能能包含不不同介质质上的数数据每个表都都有时间间元素粒度粒度———是指数数据仓库库的数据据单位中中保存数数据的细细化或综综合程度度的级别别。粒度是设设计数据据仓库最最重要的的方面。。细化程度度越高,,粒度级级就越小小;细细化程度度越低,,粒度级级就越大大。粒度———细节的的级别粒度的划划分决定了数数据仓库库中数据据量的大大小和查查询的详详细程度度。多重粒度度:图幅比例例尺大小小、投影影方式、、数据采采集的精精度、数数据的时时间和空空间分辨辨力、系系统功能能等来合合理划分分不同的的粒度。。粒度———细节的的级别高细化———低粒粒度例如:一一个顾客客一个月月内的每个电电话的细细节低细化———高粒粒度例如:一一个顾客客一个月月内的电话的的综合数据仓库库中粒度度化的数数据是重重用性的的关键可利用数数据仓库库对数据据一致性性进行协协调粒度数据据包含了了整个企企业的活活动和事事件历史史可以预测测将来未未知的需需求低粒度化化数据的的优点:可由多个个用户以以不同的的方式使使用低级别粒粒度具有有更高的的灵活性性不足:粒度级别别低会占占用更多多的存储储空间粒度级别别低会降降低数据据的访问问能力粒度级别别低需要要更多的的索引项项高粒度化化数据的的优点:如果数据据仓库空空间有限限,高粒度表表示数据据将比用用低粒度度级表示示效率高高很多高粒度级级只需要要较少的的字节表表示,而且只需需较少的的索引数据压缩缩在数据据仓库中中很有用用不足:高粒度的的数据回回答细节节查询的的能力较较低DSS中对单个个事件查查询很少少数据仓库库设计必必须满足足实体需需要的最最低粒度度级鉴于费用用,效率,访问的便便利和能能够回答答任何可可以回答答的查询询的能力力,数据双重重粒度级级是大多数数机构建建造数据据仓库细细节级的的最好的的体系结结构选择择.只有当一一个机构构的数据据仓库环环境中数数据相对对较少时时,才能尝试试采用数数据粒度度的单一一级别多重粒度度级在该时间间仓库中中包括两两种类型型数据::轻度综综合数据据和细节节数据大部分处处理针对对轻度综综合数据据针对更大大细节数数据可以以深入真真实档案案层(<5%)活样本数数据库活样本数数据库是从数据据仓库中中取得的的真实档档案数据据或轻度度综合数数据的一一个子集.“活”是指指这个数数据库需需要进行行周期性的的刷新.在某些情情况下,使用活样样本数据据库可以以节约大大量资源源活样本数数据库不不是通用用的数据据库,主要适于于作统计计分析和和观察发发展趋势势数据装载载—用一个抽抽取/选择程序序搜索一一个大规规模的数数据库,选择其中中部分记记录送到到活样本本数据库库对活样本本中记录录的选取取一般是是随机的的,必要要时可采采用一个个判断样样本最大的好好处—存取效率率非常高高,误差差在可接接受范围围在活样本本数据库库中要想想取得高高精度的的统计结结果,需要将要要求形式式化,并在活样样本数据据库上进进行反复复处理分区设计计方法数据分区区是指把数数据分散散到可独独立处理理的分离离物理单单元中.数据分区区的优点:数据装载载数据访问问数据存档档数据删除除数据监控控数据存储储分区的目的—把数据划划分成小小的可管管理的物物理单元元任何给定定的数据据单元属属于且仅仅属于一一个分区区分区设计计方法数据分区区的标准准:时间业务范围围地理位置置组织单位位所有上述述标准其中,日期几乎乎总是分分区标准准中的一一个必然然组成部部分分区方式式:系统层上上分区—一定程度度上指某某些DBMS和操作系系统的功功能应用层上上分区—由设计的的应用程程序完成成,并由开发发者和程程序员严严格控制制应用层上上分区相相对更有有意义,因为每年年的数据据可以有有不同的的定义,而且数据据从一个个物理设设备转到到另一个个物理设设备不会会有问题题数据仓库库的数据据组织简单堆积积数据轮转综合合数据简化直接接数据连续数据据简单堆积积文件1月1日日1月2日日1月3日日……2月1日日2月2日日2月月3日……3月1日日3月2日日3月3日日……………………轮转综合合文件星期一星星期二……星期天第一周第第二二周……第五周一月二二月……十二月………………轮转综合合文件与与简单堆堆积结构构的比较较简单直接接文件数据库快快照姓名顾顾客号号地地址张平C960100北京王珂C960101上海刘辉C960102天津李强C960103成都...一月份顾顾客表操作型数数据生成简化化直接文文件连续文件件姓名顾顾客号号地地址张平C020100北京王珂C020101上海张顺C020102天津李强C020103成都姓名顾顾客号号地地址张平C020100北京王珂C020101上海张顺C020101广州李强C020103成都刘诚C020105杭州姓名顾顾客号号日日期地地址张平C0201001-2月北北京京王珂C0201011-2月上上海海张顺C0201031月天天津津张顺C0201032月广广州州李强C0201031-2月成成都都刘诚C0201052月杭杭州州1月份顾顾客表2月份顾顾客表1-2月月份顾客客表审计与数数据仓库库能对数据据仓库进进行审计计,但不该审审计,原因在于于:原先在数数据仓库库中没有有的数据据会突然然出现当需要审审计能力力时,数据进入入数据仓仓库的时时间标定定过程会会发生急急剧变化化当需要审审计能力力时,数据仓库库的备份份和恢复复限制会会发生急急剧变化化会使数据据粒度处处于最低低的级别别上数据的同同构/异构数据仓库库中的数数据是异构的第一次划划分是按按企业主主要主题题进行的的,但每每一个主主题域还还有更细细的划分分,主题题域中的的数据又又划分到到多个表表中。数据的同同构/异构数据仓库库中的数数据按下下列标准划分分:主题域表数据在表表中的位位置基于数据据仓库数数据建立立的体系系结构,,数据的的各个部部分非常常容易理理解和访访问。数据仓库库中的错错误数据据数据仓库库中的数数据出错错时,具有多种种解决方方案.但每种方方法都是是优势与与劣执共共存,没有一种种是绝对对正确或或错误的的.只是在某某种条件件下一种种占优.例:假设设7月1日在操作作型系统统中,账账户ABC加入了一一条5000美元的账账目。7月2日在数据据仓库中中为账户户ABC产生了这这5000美元账目目的一个个快照。。接着,,在8月15日发现错错误。这这个账目目不是5000美元,而而是750美元。那那么,该该如何纠纠正这个个错误呢呢?数据仓库库中的错错误数据据修正方法法一:直接将将7月2日的数据据5000修改为750,问题::数据集成成破坏更新必须须在数据据仓库环环境中进进行许多时候候不是要要修正一一个条目目,而是是很多修正方法法二:加入修修正条目目。在8月16日加入两两个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论