数据仓库(Data Warehouse)简介_第1页
数据仓库(Data Warehouse)简介_第2页
数据仓库(Data Warehouse)简介_第3页
数据仓库(Data Warehouse)简介_第4页
数据仓库(Data Warehouse)简介_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库(Data Warehouse)交流 数据仓库简介 数据仓库的设计 数据仓库的要素数据仓库简介 什么是数据仓库数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。数据仓库简介 数据仓库的目的构建数据仓库环境是为了有组织地存储来自源系统的历史数据。业务系统是为了特定需求构建的,比如销售点处理、计费系统、库存控制等待。这些系统往往不是企业的基础系统,不是为了数据分析或数据挖掘而构建的。因此,为了企业整体使用,必须创建一个新的环境把这

2、些系统的数据汇集到一个集中式区域,即数据仓库系统。数据仓库简介 如果没有数据仓库数据仓库简介 具备了数据仓库数据仓库简介 数据仓库的主要特点1. 数据仓库是面向主题的,操作型数据库的数据面向事务的,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。2. 集成性:数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不

3、一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。3. 稳定性和时变性:存量的历史数据不会被频繁的更新,数据仓库不断接受增量的数据。数据仓库的设计 零售业数据仓库样例数据仓库的设计 数据仓库的第一层Landing层 一般进入数据仓库的数据源是来自各个事实操作性系统,数据源类型可以是不同格式的文本数据文件、存于不同后台库的表数据、以及现在大数据要解决的一些非结构化数据(比如图片、视频)等。 数据源导入到数据仓库的第一层,叫Landing层,也可以叫做贴源层。 Landing层一般可以理解为数据缓冲层,用来接收源数据,在一定时间里Hold住源数据,一边后续处理,甚至重复处理,这些处理可

4、以完全独立于源系统。数据仓库的设计 数据仓库的第一层Landing层 这一步的要点: a)数据落地前后要保持一致性,避免对数据进行复杂的处理,以保证数据的快速导入而尽量减少对业务系统的压力,这就要求做好相应的审计工作。 b)landing表里要标明数据的来源库。数据仓库的设计 数据仓库的第二步Staging层 Landing层到Staging层主要是对数据进行必要的清洗工作。 数据从landing流入staging后数据要在landing层清除。数据仓库的设计 数据仓库第三层Integration DW 该层作为数据仓库的集成部分,可以叫中央数据仓库,包含两种实体数据:事实数据(fact en

5、tity)、维度数据(dimension entity)。 Fact entity:它是对某个事物(可能是某一笔交易,某一个项目,如一笔到货明细,某一个任务令)的各方面信息的描述,描述行的属性包括:该事物各方面的度量信息,相关度量信息的维度信息。 Dimension entity:维度数据。这里的维度要支持业务上的最细粒度。要保证可以在最细粒度级别实现多维的分析。即能够支持汇总数据以及明细数据的多维查询。数据仓库的设计数据仓库第四层数据集市(Data Mart) 它是面向主题领域的专业的多维数据区。实现某一特定主题领域的多维查询需求。这个部分也包括两个实体(FACT ENTITY和DIMENS

6、ION ENTITY)两部分,但是与中央数据仓库不同的是这部分的FACT ENTITY和DIMENSION ENTITY都是为某一主题服务的。 什么是主题? 主题和技术无关,是从业务角度出发,定义你分析的某个专业方向,例如产品营销、物流、财务、HR、CRM等,这些业务板块就是主题。数据仓库的设计 数据的原子性数据的原子性(atomic):数据的原子性指数据的细化水平和粒度。数据的细化水平是原子性数据水平,粒度是数据采集水平。数据仓库的设计 数据仓库的服务目标用户业务层 数据仓库最底层的数据集市所形成的数据维度一般是直接面向于业务需求的。比如某个报表的数据已经在某个表中被统计好,可直接从表中获取

7、,不必通过多个表之间的关联而取得目标数据。这样就大大提升了报表的性能。 数据集市的数据能具备良好的颗粒度,能极好的支持商业决策、数据分析、数据挖掘等工作。 报表技术的应用,比如Cube。数据仓库的要素维度、模型 主要模型:星型模型、雪花模型 维度变化的维护:直接覆盖、保留旧值 最底层数据要跟报表维度一致,以提高数据的提取性能 时间戳的应用血缘关系、元数据 不同层次的数据之间的血缘关系要明了,要具备优良的任务调度机制(Control-M),方便问题数据的追踪;元素据描素要清楚明了。数据冗余、一致性 不同维度上的数据统计存在冗余现象,为了提高查询性能 不同维度表中的数据要保持一致 有时候数据的冗余为问题数据的查找提供了良好的条件。数据仓库的要素 历史数据的维护 根据用户的业务需求,对历史数据做合理的维护,对不必要的历史数据进行清理,以节省存储空间 增量的问题数据的处理 当某条增量数据所在的维度值未能在数据仓库中找到时,将此增量数据HOLD,待下一次导数据的时候再验证。 可拓展性 针对新的业务需求,可在现有模型上扩展出新的模块点 主要技术 并行、分区、数据压缩数据仓库的要素 具备

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论