版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一讲
数据仓库基础姓名:陈令江QQ:453579383电话mail:chenlingjiang@内容1、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型3、数据仓库系统的体系结构5、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理数据仓库4、数据仓库的实施问题什么是数据仓库?为什么要建数据仓库?建数据仓库能带来哪些好处?1.1什么是数据仓库数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策和信息的全局共享。——数据仓库之父[WilliamH.Inmon]1.1.1数据仓库特点(面向主题的)生产系统操作型数据库数据仓库操作型数据库是面向特殊处理任务,各个系统之间各自分离数据仓库是按照一定的主题域进行组织。一个主题通常与多个操作型信息系统相关销售系统财务系统客户1.1.2数据仓库特点(集成的)面向特定应用集成的每一个数据库面向特定的应用,各类应用(包括其相关的数据库)之间相互独立数据仓库中的数据面向整个企业的分析处理,经营分析系统中的数据是已经集成了的,消除了数据的不一致性操作型数据库数据仓库1.1.3数据仓库特点(相对稳定的)实时更新,数据根据需要及时发生变化定期加载,加载后的数据极少更新,在某个时间段内保持相对稳定操作型数据库数据仓库modifydeleteinsertupdateLoad/Update1.1.4数据仓库特点(反应历史变化的)主要关心当前数据通常包含历史数据操作型数据库数据仓库1.2对数据仓库系统的理解数据仓库系统用于支持管理和决策,面向分析型数据处理,它不同于企业现有的面向交易的操作型数据库;数据仓库系统是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。1.3数据仓库的组成数据仓库数据库;数据抽取工具;
OLAP服务器;元数据(Metadata);数据展现工具;数据集市(DataMarts);数据仓库管理;信息发布系统。1.3.1数据仓库数据库数据仓库数据库是整个数据仓库的核心,是数据信息存放的地方,对数据提供存取和检索支持。相对于传统数据库来说,其突出的特点是对海量数据的支持和快速的检索技术。数据库OracleDB2SQLServerSybaseMySQL……数据库内部性能参数有一些差异:传统数据库:注重增、删、改、查的综合性能。数据仓库:以查询、统计性能为优先重点。1.3.2数据抽取工具数据抽取工具是把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据的存储方式的访问能力是数据抽取工具的关键,可以运用高级语言编写的程序、操作系统脚本、批命令脚本或SQL脚本等方式,访问不同的数据环境。数据转换通常包括如下内容:删除对决策分析没有意义的数据。转换到统一的数据名称和定义。计算统计和衍生数据。填补缺失数据。统一不同的数据定义方式。1.3.3OLAP服务器OLAP服务器是用于存储多“维”数据的,存储结构类似与立方体的结构,提供给用户快速的数据分析支持。1.3.4元数据元数据是描述数据仓库数据的结构和建立方法的数据,全面描述了数据仓库中有什么数据,这些数据是怎么得到,数据的来源是哪里等。简言之:元数据就是数据的数据。元数据分为技术元数据和业务元数据。技术元数据是面向设计和管理人员的,包括数据源信息、数据结构定义、数据转换规则等。业务元数据是面向业务使用人员的,主要是从业务的视角来描述业务主题。1.3.5数据展现工具数据展现工具为用户访问数据仓库提供的手段,如:数据查询和报表工具、应用开发工具、数据分析工具、数据挖掘工具等。数据分析工具报表展现工具1.3.6数据集市数据展现工具为用户访问数据仓库提供的手段,如:数据查询和报表工具、应用开发工具、数据分析工具、数据挖掘工具等。数据集市的划分有很多中,如按照时间划分(07年、08年、09年等)按照地域划分(广州、深圳、珠海等)按照业务划分(生产、销售、财务等)……1.3.7数据仓库管理数据仓库管理包括安全与权限的管理、数据更新的跟踪、数据质量的检查、元数据的管理和更新、数据仓库使用状态的监测与审计、数据复制与删除、数据分割与分发、数据备份与恢复、数据存储管理等。数据仓库1.3.8信息发布系统信息发布系统是把数据仓库中的数据,或其他相关的数据发送给不同的地点或用户。基于Web的信息发布系统是当前比较流行的多用户访问的最有效方法。数据仓库问题什么是数据仓库?为什么要建数据仓库?数据集成问题数据动态集成问题历史数据问题数据的综合问题
建数据仓库能带来哪些好处?公司领导层:了解公司全貌,辅助进行战略决策中间管理层:掌控部门业务情况,协助制定管理策略基层管理人员:掌握基层单位或个人绩效,实施有效管理内容1、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型3、数据仓库系统的体系结构5、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理数据仓库4、数据仓库的实施2.1什么是OLAP
OLAP(OnlineAnalysisProcess)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。对OLAP的理解OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。2.2OLAP基础概念(一)维度(Dimension)人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。量度(Measure)具体的指标值,如客户数、收入等层次(Hierarchy)人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:年->季度->月份->日期)。成员(Member)维的一个取值。是数据项在某维中位置的描述。2.2OLAP基础概念(二)多维分析多维分析是只对以“维”形式组织起来的数据(多维数据集)采取切片(slice)、切块(dice)、钻取(drilldown和drillup)和旋转(pivot)等各种分析操作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。2.3OLTP与OLAP的比较OLTPOLAP用户操作人员、基层管理人员决策人员、高级管理人员功能日常操作型事务处理分析决策设计目标面向应用面向主题数据特点当前的、最新的、细节的、二维的、分立的历史的、聚集的、维多的、集成的、统一的存取规模通常一次读或写数十条记录可能读取百万条以上记录工作单元一个事务一个复杂查询用户数通常是成千上万个用户可能只有几十个或上百的用户数据库大小通常在GB级(100MB~1GB)在TB级(100GB~100TB)2.4OLAP特性快速性用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。可分析性OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。多维性多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。2.5OLAP类型ROLAP结构MOLAP结构
ROLAP(RelationOLAP):关系型OLAP,数据存储在数据库中,查询方便灵活。
MOLAP(Multi-dimensionOLAP):多维OLAP,数据采用立方体的方式,独立存储,查询效率高。
HOLAP(HyperOLAP):混合型OLAP,也就是ROLAP和MOLAP的联合体。分为三种类型:ROLAP、MOLAP、HOLAPHOLAP结构2.6ROLTP与MOLAP的比较ROLTPMOLAP优点
没有大小限制现有的关系数据库的技术可以沿用可以通过SQL实现详细数据与概要数据的存储现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL
的OLAP扩展(cube,rollup)等大大提高ROALP的速度
性能好、响应速度快专为OLAP所设计持高性能的决策支持计算复杂的跨维计算多用户的读写操作行级的计算
缺点
一般比MDD响应速度慢不支持有关预计算的读写操作SQL无法完成部分计算无法完成多行的计算无法完成维之间的计算
增加系统复杂度,增加系统培训与维护费用受操作系统平台中文件大小的限制,难以达到TB
级(只能10~20G)需要进行预计算,可能导致数据爆炸
无法支持维的动态变化缺乏数据模型和数据访问的标准
内容1、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型3、数据仓库系统的体系结构5、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理数据仓库4、数据仓库的实施3.1数据仓库系统的体系结构独立的数据仓库体系结构独立的数据集市体系结构数据仓库+数据集市体系结构实时数据仓库体系结构3.2独立的数据仓库体系结构3.2独立的数据集市体系结构3.3数据仓库+数据集市体系结构3.4实时数据仓库体系结构3.5某实际项目的数据仓库体系结构3.6数据仓库与数据集市的比较数据仓库数据集市范围应用独立特定的DSS应用集中式、企业级用户域的离散化规划的可能是临时组织的(无规划)数据历史的、详细的、概括的一些历史的、详细的、概括的轻微不规范化高度不规范化主题多个主题用户关心的某一个中心主题源多个内部和外部源很少的内部和外部源其它特征面向数据的、长期的、大的面向工程的、短期的、有小到达单一的复杂结构多、半复杂性结构内容1、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型3、数据仓库系统的体系结构5、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理数据仓库4、数据仓库的实施4.1数据仓库系统的实施数据仓库实施中的三个关键环节数据抽取;数据存储与管理数据表现4.2数据仓库实施方法论数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导致项目实施失败4.3数据仓库实施步骤项目启动原型应用需求分析LDM设计系统体系结构设计PDM设计ETL实现前端展现定制项目关闭环境构建系统测试系统应用需求变更分析设计实现4.4数据仓库的构建方法——自顶向下建造企业数据仓库建设中心数据模型一次性的完成数据的重构工作最小化数据冗余度和不一致性存储详细的历史数据从企业数据仓库中建造数据集市得到大部分的集成数据直接依赖于数据仓库的可用性问题:建设中心数据模型的必要性和可能性?投资效益的时间?初始费用?4.5数据仓库的构建方法——自底向上建立部门数据集市限制在一个主题区域快速投资收益区域自治–设计的可伸缩性强对相关部门的应用容易复制对每个数据集市需要数据重构存在一定的冗余及不一直性逐步扩展到企业数据仓库(EDW)把建造EDW作为一个长期的目标问题:数据集市的数据都是可用的吗?能生成数据模型吗?如何解决不一致性?4.6常用数据仓库产品比较能够提供完整数据仓库解决方案的厂商主要包括:IBM、Oracle、NCR、Microsoft等。另外,如果考虑到成本因素的话,也可以考虑采用开源方案,但这需要对开源产品非常的熟悉,自行完成解决方案的制定。4.6.1数据库产品比较OracleDB2TeradataSQLServerMySQL硬件平台兼容性高中低(专用主机)高高软件平台兼容性高高低(专用系统)低(微软平台)高开放性高中高低高极高(开源)性能高高极高中中数据规模大大超大中中小易用性高中高低高高安全性高高高中中建设成本高高高中极低升级成本低低高低极低市场占有率高中高低低4.6.2ETL产品比较SSISDataStagePowerCenterOWBKettel平台兼容性低高高高高开放性高高高中(Oracle平台较高)极高(开源)性能高高中高中高易用性高中高中高使用成本中高高中低自定义函数/脚本支持中中中高高调试/监控/断点/日志高中高中高断点续传支持不支持支持不支持支持Email通知支持支持支持支持支持市场占有率低高高低中服务支持中高高中中4.6.3报表产品比较CrystalBrioSSRSReportNetBirt平台兼容性高高中高高开放性高中高高高(开源)性能高中高高高易用性高低高中高报表类型BandBandBandBandBand图表支持好较好好-好脚本支持好好高较好好输出格式丰富中高丰富丰富使用成本高高中高低市场占有率高中中低中4.6.4OLAP产品比较EssbaseExpressCognosSSASMondrian平台兼容性高高中中高OLAP类型MOLAPHOLAPMOLAPROLAP/MOLAPROLAP开放性高高中高高(开源)性能高中高中中易用性高低高高高安全性高中高中中使用成本高高高中低市场占有率高低中高中-4.6.5展前产品比较BOBrioCognosMicroStrategyPanteho平台兼容性高高中中高功能高中高中中高开放性高中中中高(开源)性能高高高中中易用性高低高高高安全性高高高高高使用成本高高高中低市场占有率高中中低-4.6.6其它数据挖掘工具
目前市场上数据挖掘工具非常多,世界上各大BI厂商都提供了自己的数据挖掘工具,不过,从在挖掘领域的影响力和市场占有率来讲,无疑是SAS和SPSS两家独大,产品也非常丰富,各种常用的挖掘算法和挖掘手段都能提供,主要还是看使用人员的熟练程度以及对业务的理解力。另外,开源领域也有一些挖掘工具,如WEKA,是新西兰大学的数据挖掘产品,具体完整和先进的算法,不足在对于大数据量的处理比较慢和对非专业人员的可用性不好2个方面。
元数据管理工具
目前市场上主流的元数据管理工具包括:DAG公司的MetaCenter、CA公司的Repository以及Ascential公司的MetaStage等,这些产品的功能都不错,对日常数据管理的绝大部分要求都可以满足。另外,开源领域有Panteho的Metadata等,功能相对简单,不过与Panteho平台结合的不错。
内容1、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型3、数据仓库系统的体系结构5、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理数据仓库4、数据仓库的实施5.1数据仓库的产生联机事务处理系统(业务系统)刚上线时,查询不到数据是因为数据太少了,而几十年后查询不到有关数据是因为数据太多了。针对这一问题,人们设想专门为业务数据的统计分析建立一个数据中心,它的数据从联机事务处理系统中来、从异构的外部数据源来、或从脱机的历史业务数据中来,这个数据中心也是一个联机系统,它专门为分析统计和决策支持应用服务,通过它可获取决策支持和联机分析应用所需要的一切数据。这个数据中心就叫做数据仓库。简单地说,数据仓库就是一个作为决策支持和联机分析应用系统数据源的结构化数据环境,数据仓库要研究和解决的问题就是从数据库中获取信息的问题。报表为主分析为主预测模型为主营运导向为主实时数据仓库、自动决策应用为主
1996年
1999年
2003年
2006年
2008年5.2数据仓库的发展5.1数据仓库的未来在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备。内容1、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型3、数据仓库系统的体系结构5、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理数据仓库4、数据仓库的实施6.1数据仓库的三层数据结构6.2数据仓库(EDW)内部结构早期细节数据当前细节数据轻度汇总数据高度汇总数据6.3数据仓库的数据特征状态数据与事件数据当前数据与周期数据数据仓库中的元数据
6.4数据仓库的数据ETLETL:即数据抽取(Extraction)、转换(Transformation)和装载(Loading),是数据仓库实现过程中,进行数据由数据源系统向数据仓库加载的重要环节。从功能上看,整个ETL包括三个部分:数据抽取,从数据源系统抽取数据仓库系统需要的数据;数据转换,将从数据源获取的数据转换成数据仓库要求的形式,对数据进行变换;数据加载,将数据装入数据仓库。6.4.1数据抽取(Extract)抽取接口典型的数据抽取接口包括数据库接口和文件接口。对于不同数据平台、不同源数据形式、不同性能要求和业务量的业务系统以及不同数据量的源数据,将采取不同的数据抽取接口。在数据抽取时需要重点考虑数据抽取的效率,以及对现有业务系统性能及安全的影响。抽取策略数据的抽取必须能够充分满足数据仓库系统分析及决策支持的需要,同时必须保证不能影响业务系统的性能,所以进行数据抽取时必须充分考虑这些因素,制定相应的策略,包括抽取方式、抽取时机、抽取周期等内容。
抽取方式:增量抽取、完全抽取等。抽取时机:尽可能避开业务系统的高峰时段,比如在夜间业务系统比较闲时。抽取周期:对不同类型的数据源,应综合考虑业务需求和系统代价,制定合理的抽取周期。6.4.2数据转换(Transformation
)主要功能数据转换主要完成由于以下原因造成的数据不一致性问题:源数据系统同数据仓库系统在模型上的差异性;源数据系统平台不一致:数据仓库系统的数据源可能包括基于不同平台的数据库的数据;源数据结构的不一致:有些数据源由于历史的原因,导致同一个表在不同的时期数据结构不一致;源数据定义不规范导致错误数据;对数据的约束不严格,导致无意义数据;存在重复记录;由于平台系统的不同,可能会存在大量的转码工作。转换策略根据实际情况,数据转换工作一般会在以下几个环节中具体实现:在抽
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024学校聘用门卫合同
- 2024防水施工合同(简单的)
- 2024建立劳动合同应当订立书面合同的原因
- 保险公司财产保险合同范本(2篇)
- 关于新学期学习计划范文集锦十篇
- 文化绿化工程施工合同样本
- 质量控制程序规章
- 小型物品储存合同
- 物联网与RFID技术
- 大型展览策划塔吊租赁合同
- 2024年地下水监测打井施工合同
- 2023年江门市基层公共就业创业服务岗位招聘考试真题
- 图解《黑神话悟空》微课件
- 期中模拟测试卷3(试题)-2024-2025学年三年级上册数学(福建)
- 电子产品回收处理协议
- 矿石交易居间合同模板
- 期中测试卷(试题)-2024-2025学年人教版数学四年级上册
- LNG(天然气)供气站(气化站)安全应急救援预案
- 信息技术咨询服务合同5篇
- 卫生纸购销合同书
- 16G362钢筋混凝土结构预埋件(详细书签)图集
评论
0/150
提交评论