数据仓库联机分析处理与数据挖掘_第1页
数据仓库联机分析处理与数据挖掘_第2页
数据仓库联机分析处理与数据挖掘_第3页
数据仓库联机分析处理与数据挖掘_第4页
数据仓库联机分析处理与数据挖掘_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库、联机分析处理与数据挖掘08广义概念上的数据仓库是一种帮助企业做决策的体系化解决方案,它包括了三个方面的内容:数据仓库技术(DataWarehouse,DW联机分析处理技术(On-lineAnalyticalProcessing,OLAP数据挖掘技术(DataMining,DM数据仓库、联机分析处理和数据挖掘作为信息处理技术是独立出现的。数据仓库用于数据的存储和组织;联机分析处理则侧重于数据的分析;数据挖掘则致力于知识的自动发现。因此这三种技术之间并没有内在的依赖关系,可以独立地应用到企业信息系统的建设之中,以提高信息系统相应的能力。但是,这三种技术之间确实存在着一定的联系性和互补性,

2、把它们结合起来,就可以使它们的能力更充分地发挥出来。这样就形成了一种决策支持系统的架构,即DW+OLAP+DM1、数据仓库技术概述数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。它从大量的事务性数据库中抽取数据、并将其清理、转换为新的存储格式,即为了决策目标而把数据聚合在一种特殊的格式中。数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。其中,“主题”是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。“面向主题”就是指数据仓库中的信息是按主题组织的,按主题来提供信息。“集成

3、的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总,而是经过系统的加工整理,是相互一致的、具有代表性的数据。“随时间变化”是指数据仓库中存储的是一个时间段的数据,而不仅仅是某一个时间的数据,所以主要用于进行时间趋势分析。一般数据仓库内的数据时限为5到10年,数据量也比较大。“信息本身相对稳定”是指数据一旦进入数据仓库,一般情况下将被长期保留,变更很少。数据仓库组织和管理数据的方法与普通数据库的不同点主要表现在三个方面:它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。数据仓库是多维的,即数据仓库中数据的组织方式有多层的行和列。它支持决策处理,不同于普通的事务处理。数据

4、仓库需要的数据库技术的支持:并行数据库技术:数据仓库中的数据量很大,一般要达到GB级,有的甚至要到TB级。对于处理如此大规模的数据,使用并行技术对提高运行效率是很有帮助的。高性能的数据库服务器:传统数据库的应用是操作型的,而数据仓库的应用是分析性的,它需要有高性能的数据库服务器配合工作,对DBM骸心的性能也有更高的要求。数据库互操作技术:数据仓库的数据来源多种多样,可能来自数据库,也可能来自文件系统。即使都来自数据库,这些数据库也往往是异构的。为了从这些异构数据源中定期抽取、转换和集成所需要的数据存入库中,异构数据源之间的互操作技术是必需的。2、联机分析处理技术联机分析处理是针对特定问题的联机

5、数据访问和分析,通过对信息进行快速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳的分析结果。联机分析处理是一种自上而下、不断深入的分析工具,在用户提出问题或假设之后,它负责提取出关于此问题的详细信息,并以一种比较直观的方式呈现给用户。联机分析处理技术的发展速度很快,在数据仓库的概念提出不久,联机分析处理的理论及相应工具就被相继推出了。联机分析处理要求按多维方式组织企业的数据。多维数据库的发展使决策分析中的数据结构和分析方法相分离,才有可能研制出通用而灵活的分析工具,并使分析工具产品化。决策分析需要从不同的角度观察分析数据,以多维数据为核心的多维数据分析是决策的主

6、要内容。多维数据库是以多维方式组织数据的。目前,联机分析处理的工具可分为两类:一类是基于多维数据库的,另一类是基于关系数据库的。两者的相同点是基本数据源仍是数据库和数据仓库,都是基于关系数据模型的,都向用户显示多维数据视图;不同点在于,前者把分析所需的数据从数据仓库中抽取出来,物理地组织成多维数据库,而后者则是利用关系表来模拟多维数据,并不是物理地生成多维数据库。3、数据挖掘技术数据挖掘的基本思想是从数据中抽取有价值的信息,其目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些对预测趋势和决策行为也许是十分有用的。从数据库的角度看,数据挖掘就是这样一个过程,它从数据库的数据中识别出有

7、效的、新颖的、具有潜在效用的并最终可理解的信息(如规则、约束等)的非平凡过程。非平凡是一个数学概念,即数据挖掘既不是把数据全部抽取,也不是一点儿也不抽取,而是抽取出隐含的、未知的和可能有用的信息。从决策支持的角度看,数据挖掘是一种决策支持的过程,主要基于人工智能、机器学习、统计学和数据库技术等多种技术,能高度自动地分析企业原有的数据,进行归纳推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业决策者调整市场策略,从而减少风险、辅助做出正确的决策。它是提高商业和科学决策过程中的质量和效率的一种新方法。数据挖掘和联机分析处理都可以在数据仓库的基础上对数据进行分析,以辅助决策。其中,联机分析处理还是

8、一种传统的决策支持方法,即,在某个假设的前提下通过数据查询和分析来验证和否定这个假设,所以联机分析处理是一种验证性的分析。与联机分析处理不同,数据挖掘是数据驱动的,是一种真正的知识发现方法。使用数据挖掘工具,用户不必提出确切的要求,系统能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型,帮助决策者调整市场策略,并找到正确的决策,这显然有利于发现未知的事实。从数据分析深度的角度看,联机分析处理位于较低的层次,而数据挖掘则处于较深的层次。所以,联机分析处理和数据挖掘的主要差别就在于是否能自动地进行数据分析。4、决策支持系统在传统的决策支持系统中,数据库、模型库和知识库

9、往往被独立地设计和实现,因而缺乏内在的统一性。而以数据仓库为中心、事务处理和数据挖掘为手段的新方案很好地解决了这个问题。如图4.18所示1N据为的支统4数阵心仪条图以仓-3闻持数据仓库解决了数据不统一的问题。数据仓库自底层数据库收集大量事务级数据的同时,对数据进行集成、转换和综合,形成面向全局的数据视图,形成整个系统的数据基础。联机分析处理从数据仓库中的集成数据出发,构建面向分析的多维数据模型,利用这个带有普遍性的数据分析模型,用户可以使用不同的方法,从不同的角度对数据进行分析,实现了分析方法和数据结构的分离。数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这

10、种模式为基础自动做出预测。数据挖掘反过来又可以为联机分析处理提供分析的模式。正是由于数据仓库、联机分析处理和数据挖掘这三种技术的联系性和互补性,使他们从不同的角度为决策支持服务。随着企业竞争的日益加剧,这种新型的决策支持系统解决方案将受到越来越多的企业的青睐。4.5.3数据库技术与电子荀务数据库技术对电子商务的支持是全方位的,从底层的数据基础到上层的应用都涉及到数据库技术。其结构如图4.19所示。决策i持系统管理信息系统图4.L9电子商务中姓及的数据座技术从图中可以看出,数据库技术对于电子商务的支持可以概括为以下几部分:1、数据的收集、存储和组织这是传统数据库系统的主要功能,对于参与电子商务的

11、企业而言,数据的来源不仅仅是企业内部管理信息系统,还包括大量的外部数据。数据是企业的重要资源,是决策的依据,是进行各种生产经营活动的基础和结果。2、决策支持这就要用到前面所提到的数据仓库解决方案。这时数据库中存储的数据依然是决策的依据。决策关系到企业未来成败的关键。电子商务系统如果缺少好的决策支持功能,一方面是对电子商务海量数据资源的一种浪费,另一方面也是对从事电子商务的企业的一种损失。3、对EDI的支持EDI是电子商务重要的组成部分,要想成功地实现EDI,企业的基础设施建设是关键,而数据库系统的建设是其中重要的一环。如果有良好的数据库系统的支持,就可以实现应用到应用的EDI过程。这一过程是企

12、业内部的管理信息系统依据业务情况自动产生EDI订单,并传输给贸易伙伴;而对方传来的EDI单证也可以由系统自动解释,并存入相应的数据库,整个过程无需人工干预。因此,业务数据库和EDI系统之间的接口就变得非常重要。这个接口的功能可以概括为:提供标准的信息格式定义。与数据库管理系统的无关性。自动抽取数据库中的相关数据转换为Edi单证格式。自动抽取EDI单证的关键数据存储到数据库中。在这一过程中,可以设立一个EDI数据库专门用于有关EDI数据的处理。这样的管理方式简单明了,但如果数据库之间的沟通不顺畅,就可能产生数据不一致的现象。4、We跋据库随着WW随不断发展,越来越多的企业加入到Web中来。当前许

13、多企业纷纷在Web上开发自己的主页来介绍自己的产品和服务。有的网页不仅有琳琅满目的产品信息和优惠的价格,还配有详细的专家评论,牢牢抓住了网上用户的心理。企业不仅可以通过Web发布自己的信息,同时也可以收集顾客的需求信息。这样给双方都带来了好处。对于企业而言,它不仅可以用相对低的成本介绍和展示其产品和服务,也可以获得准确的客户需求信息。对于顾客而言,浏览网页省时省力,而且可以及时把要求反映给厂家,定制出自己喜欢的产品。而且,访问Web都是通过浏览器,这样就统一了界面,有利于行业标准化。Web数据库是一个新兴事物,WeW数据库的结合,主要是源于两者各自的优势和缺陷。Web的特点Web上数据量大、类型多、缺乏组织和管理。目前Web中字节量的增长速度达到每月15%以上。因为Web的链接资源是非官方的,所以Web的数据缺少规范。目前Web上的数据主要由静态HTML达,其优点是表现能力强,链点跳车专灵活,与平台无关。但由于Web页面结构自由性大,致使Web上的信息又多又混乱。就管理角度而言,Web的数据管理只相当于20世纪70年代的文件管理水平。而且HTML文件动态更新特性差,用户很难得到最新的消息反馈。数据库技术的特点当前的数据库管理系统已发展到相当成熟的阶段,能高效、高质、安全地管理数据。与Web相比,数据库管理系统显得严谨而灵活不足。Web

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论