了解数据仓库及其应用-刘悦华_第1页
了解数据仓库及其应用-刘悦华_第2页
了解数据仓库及其应用-刘悦华_第3页
了解数据仓库及其应用-刘悦华_第4页
了解数据仓库及其应用-刘悦华_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

了解数据仓库及其应用--刘悦华第一页,共66页。数据仓库与数据库的对比对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主题域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只定时添加数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位第二页,共66页。OLTP与OLAP的比较OLAP所用数据来自OLTP数据库进行了预综合和多维化处理OLAP更强调界面的可视化和灵活性可视化:多维报表,各种统计图形,…灵活性:切片、切块、旋转;逐层细化,…第三页,共66页。

OLAP&OLTP的主要区别(1)

不同的性能需求联机事务处理(OLTP):快速的相应时间非常重要(<1second)在任何时候,数据随时更新,必须保持数据的一致性和完整性联机分析处理(OLAP):查询可能耗费大量的资源可能使得CPUs和磁盘处于紧张的工作状态操作通常基于某一个时间点的静态的数据“快照”OLAP与OLTP必须实现环境分离OLAP可能导致OLTP系统性能的降低,甚至崩溃例如:分析查询需要计算所有的销售量为保证数据的一致性,防止脏数据的读出,对销售表进行“加锁”新的销售事务无法提交第四页,共66页。

OLAP&OLTP的主要区别(2)

不同的数据建模需求联机事务处理(OLTP):为保证数据的一致性,需要设计规范化的模式复杂的数据模型,包含大量的数据表查询和修改操作相对比较受限联机分析处理(OLAP):简单的数据模型非常重要允许业务人员执行各类即席查询通常采用非规范化的模型更少的连接操作→提高查询性能更少的数据表→易于理解数据模式第五页,共66页。OLAP&OLTP的主要区别(3)分析需要综合多个不同的数据源OLTP系统主要服务于某一个特定的应用系统例如:在线商场的订单管理系统OLAP需要集成多个不同的数据源包含销售、订单、采购等OLAP包含历史数据确定长时间范围内的一些模式发现一段时间内的变化情况数据集成是OLAP系统的重点之一第六页,共66页。数据仓库的体系结构

数据仓库的概念结构从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。

数据源业务系统外部数据源数据准备区数据仓库数据库应用工具管理工具数据集市/知识挖掘库应用工具数据集市/知识挖掘库图1.1数据仓库的概念结构第七页,共66页。虚拟数据仓库结构

虚拟数据仓库利用描述了业务系统中数据位置和抽取数据算法的元数据直接从业务系统中抽取查询的数据进行概括、聚合操作后,将最终结果提供给用户

用户图1.2虚拟数据仓库结构数据仓库查询管理服务器业务系统数据库第八页,共66页。数据集市结构

数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库。系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。第九页,共66页。单一数据仓库结构

将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。

数据仓库查询管理服务器业务系统数据库数据仓库数据集市1数据集市2第十页,共66页。分布式数据仓库结构

在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据

站点A站点B

站点C站点D全局数据仓库局部数据仓库局部数据仓库局部数据仓库局部数据仓库总部第十一页,共66页。数据仓库的参照结构

数据仓库的基本功能包含:数据抽取,数据筛选、清理,清理后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理。数据仓库环境支持层包含数据传输和数据仓库基础两部分。数据仓库基本功能层数据仓库管理层数据仓库环境支持层第十二页,共66页。数据仓库基本功能层数据源数据准备区数据仓库结构数据集市/知识挖掘库存取与使用数据来源主要包含:业务数据、历史数据、办公数据、Web数据、

外部数据以及数据源元数据数据准备区的功能结构部分由数据标准化处理、数据的过滤与匹配、

数据的净化处理、标明数据的时间戳、确认数据质量与元数据抽

取和创建等操作组成数据仓库的功能结构部分由数据重整和数据仓库创建以及元数据管

理组成数据集市/知识挖掘库的功能结构与数据仓库的功能结构极为相似

数据仓库的数据存取与使用结构主要为数据仓库的最终用户提供

进行决策分析和挖掘知识的功能。数据仓库的数据存取与使用结构应该包含数据仓库存取与检索、元数据管理以及数据仓库分析与报告第十三页,共66页。数据仓库的管理层数据管理层中的数据抽取、新数据需求与查询管理主要负责完成从数据源中抽取数据的管理。数据仓库中的数据加载、存储、刷新和更新系统则负责对从数据源中所抽取的数据在完成筛选、净化处理以后,将这些数据加载、存储到数据仓库中;捕获数据源中的数据变化,用最新数据充实数据仓库;根据用户的需求和数据仓库管理的要求对数据仓库进行更新等工作。安全性与用户授权管理系统主要负责数据仓库的安全管理工作。数据仓库的数据归档、恢复及净化系统主要负责定期对数据仓库中的数据进行归档、备份。净化系统则负责对从数据源所抽取的数据进行数据的筛选、数据标准的统一、数据内容的统一等各种求精、重整净化工作的管理。数据抽取与新数据需求与查询管理数据加载、存储、刷新和更新系统安全性与用户授权管理系统数据归档、恢复及净化系统第十四页,共66页。数据仓库的元数据管理层负责管理数据仓库所使用的元数据,其中包括:数据仓库、数据集市/知识挖掘库和词汇表管理元数据抽取、创建、存储和更新管理预定义的查询和报表以及索引管理刷新与复制管理,登录、归档、恢复与净化管理数据仓库、数据集市和词汇表管理元数据抽取、创建、存储和更新管理预定义的查询、报表和索引管理刷新与复制管理登录、归档、恢复与净化管理第十五页,共66页。数据仓库的环境支持层

数据传输和传送网络客户/服务器代理和中间件复制系统数据传输的安全保障系统数据传输和传送网络客户/服务器代理和中间件复制系统安全和保障系统第十六页,共66页。数据挖掘概述挖掘过程确定挖掘对象准备数据建立模型数据挖掘结果分析知识应用阶段业务对象

源数据

集成数据

目标数据

预处理数据

商业模式

知识应用方案第十七页,共66页。业务分析人员数据分析人员数据管理人员数据挖掘的用户第十八页,共66页。知识挖掘系统的体系结构

知识发现的定义

知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。

知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规则。

知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。

知识发现系统的结构

知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描述等部分组成(下图)。第十九页,共66页。

第二十页,共66页。OLAP技术概念在线分析处理或联机分析处理(线分析的处理上的OLAP,)是一个应用广泛的数据仓库使用技术。两个特点,在线性(On_Line),多维分析(Multi_Analysis)OLAP的发展针对特定问题的联机数据查询和分析对原始数据按照用户的观点进行转换处理反映用户眼中问题某一真实方面(“维”)快速、稳定、一致和交互式的存取允许用户对这些数据按照需要进行深入的观察第二十一页,共66页。OLAP的特性快速性系统能在数秒内对用户的多数分析要求做出反应可分析性用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告多维性提供对数据分析的多维视图和分析信息性能及时获得信息,并且管理大容量信息第二十二页,共66页。OLAP与数据仓库关系从OLAP使用的效率角度考虑,设计数据仓库时考虑因素。尽可能使用星型架构,如果采用雪花结构,就要最小化事实表底层维度表以后的维度表数量。为用户设计包含事实表的维度表。维度表的设计应该符合通常意义上的范式约束,维度表中不要出现无关的数据。事实表中不要包含汇总数据,事实表中所包含的用户需要访问的数据应该具有必需的粒度。对事实表和维度表中的关键字必须创建索引;同一种数据尽可能使用一个事实表。保证数据的参考完整性,避免事实表中的某些数据行在立方体进行聚集运算时没有参加进来。第二十三页,共66页。OLAP应用举例不同时间段的比较(同期比)各种商品本周(本月、本年)的销售情况与以往相比,有何变化?今后趋势?排序和统计分类(topN/bottomN)统计每天销售量、销售额和利润最高的10个商场?客户特定的即席分析(市场分割、即席分组的情况)按照季度统计一下东北地区前四个季度的收入情况?第二十四页,共66页。多维数据模型多维数据模型又称多维概念视图,通常用Cube来表示。多维数据模型可以更加直观的表示现实中的复杂关系多维数据模型的基本组成:维、度量(变量、指标)第二十五页,共66页。举例:计算每一个商场、每个产品的销售额ProductAreaSales第二十六页,共66页。多维数据模型举例第二十七页,共66页。多维数据模型的组成维(Dimension)维层次路径、维层次、维成员(维实例)、维层次属性事实(Fact)度量(Measure)数据立方体(Cube)第二十八页,共66页。维维:对数据进行分类的一种结构,以用于从特定的角度观察数据。(例如:时间、地区、产品)维的两个用途选择针对期望详细程度的层次的数据分组对细节数据综合(聚集)到相应的详细程度的数据层次第二十九页,共66页。维维的组织方式:维层次路径(HIERARCHY)维层次路径由代表不同详细程度的维层次(Level)组成。维的层次:特定角度的不同细节程度第三十页,共66页。维维层次中包含维成员(DIMENSIONVALUES),维成员树维的一个取值(称为该维的一个成员),每一个维成员属于某一个特定的维层次。例如:时间维:三个层次,日、月、年,维成员:1999年5月20日、1999年5月;1999年维成员是数据在该维上的位置描述例如:1999年5月20日销售额表示销售额数据在时间维上的位置(相当于时间轴上的某一点或某一区间)不同维层次的取值的组合(对多层次情况),例如:5月20日维层次属性(ATTRIBUTES):维层次上的描述属性,例如产品的“规格”、“颜色”、“销地”、“产地”…第三十一页,共66页。维层次关系定义维层次的聚集和钻取关系简单维层次关系第三十二页,共66页。复杂的维层次关系较为复杂的维层次关系一个维包含拥有同一底层数据的多条维层次路径维成员树可能是一棵高度不平衡树。在维层次属性不仅分类属性,同时还拥有描述属性在某些维层次结构中还包含复杂数据类型的维成员第三十三页,共66页。为什么需要维层次关系不支持层次关系带来的问题增加维的数目,变成非常“稀疏”的状况第三十四页,共66页。维成员属性(维成员的“类”)维成员属性,维成员的描述属性,维成员的“类”按一定的划分标准对维成员全集的一个(分类)划分划分:即把全集分成了若干子集各子集的和(并)等于全集子集间的交为空第三十五页,共66页。维成员属性划分标准一般是实体(维成员)的属性(特征),称为类属性例如(产品的)“规格”、“颜色”、“销地”、“产地”…一个类属性,对应一个划分;不同类属性,得到不同类划分第三十六页,共66页。维层次和类的区别表达的含义不同维层次表达变量在该维的综合的级别例:销售额在时间维上按三个级别(日、月、年)进行综合称为三个维层次父层次的值由其子层次的值综合得到维成员的类表达某一子集维成员的共同特征即:对应的类属性取相同值例如:颜色为红色的产品,不同颜色的产品为不同的类同一层次的维成员可划分为类:例如产品大类中的“家电”、“服装”、“文具”等不同层次的维成员之间不存在类的关系第三十七页,共66页。维层次和类的区别(续1)分析动作不同按维层次进行分析逐层向上综合数据;逐层向下细化数据;按维成员的类进行分析

选择类属性对维成员全集进行分类对同类维成员归纳出共同的特性按类进行分析不能跨维层次,只在同层次(兄弟结点)进行将维层次与类交叉组合进行分析(见下图)第三十八页,共66页。维层次和类的区别(续2)第三十九页,共66页。事实(度量)度量(指标):数据的实际意义,一般是一个数值度量指标例如:销售量、销售额,……而具体数据(如“10000”)是变量的一个值事实:存储一个多维数据表达期望分析的主题(目的、感兴趣的事情、事件或者指标等)具有一定的粒度,粒度的大小与维层次相关一个事实中通常包含一个或者多个度量一个度量的两个组件数字型指标聚集函数第四十页,共66页。Cubes按照一定维层次结构和度量(事实)的逻辑上的组织其逻辑上相当于一个多维数组第四十一页,共66页。多维数组多维数组:一个多维数组表示为:(维1,维2,...,维n,变量)例如:(时间、地区、销售渠道、销售额)可扩展维数:如(时间、地区、销售渠道、商品类型销售额)第四十二页,共66页。数据单元(Cell)数据单元(单元格):多维数组的取值可表示为:(维1维成员,维2维成员,...,维n维成员,变量的值)例如:(1997年1月,北京,批发,10000)第四十三页,共66页。多维分析的基本分析动作切片(Slice)从多维数组选定一个二维子集,切出一个“平面”切块(Dice)从多维数组选定一个三维子集,切出一个“立方体”旋转改变一个报告(或页面)显示的维方向钻取根据维层次,改变数据的粒度第四十四页,共66页。切片的定义(Ⅰ)定义1:在多维数组的某一维上选定一个维成员,即从n维数组选取n-1维子集,设多维数组(维1,维2,…,维n,变量),在维i上,选定维成员Vi则:多维数组的n-1维子集(维1,…,维i-1,维成员Vi,维i+1,…,维n,变量)为在维i上的一个切片第四十五页,共66页。切片举例(Ⅰ)第四十六页,共66页。切片的定义(Ⅱ)定义2

选定多维数组的一个二维子集设多维数组(维1,维2,…,维n,变量)除维i,维j外,每个维都取定一个维成员Vk(1≤k≤n且k≠i,k≠j)则:多维数组的二维子集(V1,…,Vi-1,维i,Vi+1,…,Vj-1,维j,Vj+1,…,Vn,变量)简单表示为:(维i,维j,变量)为维i和维j上的一个切片按定义2进行切片,所得切片是一个二维“平面”(其它维的维成员都已确定)。

二维“平面”易想象,易观察。第四十七页,共66页。切片举例(Ⅱ)多维数组:(地区、时间、产品、销售渠道、销售额)选取地区维与产品维,其它维选定维成员时间:2006年1月销售渠道:零售得:(地区、“2006年1月”,产品,“零售”,销售额)即为:2006年1月零售的产品销售情况(各地区各种产品的销售额)第四十八页,共66页。切块的定义(Ⅰ)定义1在多维数组的某一维上选定某一区间的维成员,即限制某一维的取值区间切片是切块的特例,即限制的取值区间只取一个维成员切块可看作由多个邻接的切片迭合而成例如:多维数组(地区,时间,产品,销售额)在时间维上选定一区间:“2006年1月至2006年10月”得:(地区,“2006年1月至2006年10月”,产品,销售额)为一切块第四十九页,共66页。切块的定义(Ⅱ)定义2选定多维数组的一个三维子集设多维数组(维1,维2,…,维n,变量)选定三个维:维i,维j,维k,(该三个维上可取任意维成员或某一空间),其他维上都取定一个维成员得:(维i,维j,维k,变量)为一个切块。第五十页,共66页。切片和切块在一个或多个维度上的投影操作第五十一页,共66页。旋转的含义旋转:改变一个报告或页面显示的内容第五十二页,共66页。旋转的含义(续Ⅰ)第五十三页,共66页。旋转的含义(续Ⅱ)第五十四页,共66页。钻取操作第五十五页,共66页。OLAP的其它操作Drillthrough(穿透)钻取操作的进一步衍生,尤其对于ROLAP模式,直接得到最为底层的细节数据,数据通常以关系表的形式给出Ranking(排序)对数据单元的度量取值进行排序,获得top/bottom的若干数据取值。第五十六页,共66页。数据挖掘工具与传统数据分析工具的比较

传统数据分析工具(DSS/EIS)数据挖掘工具工具特点回顾型的、验证型的预测型的、发现型的分析重点已经发生了什么预测未来的情况、解释发生的原因分析目的从最近的销售文件中列出最大客户锁定未来的可能客户,以减少未来的销售成本数据集大小数据维、维中属性数、维中数据均是少量的数据维、维中属性数、维中数据均是庞大的启动方式企业管理人员、系统分析员、管理顾问启动与控制数据与系统启动,少量的人员指导技术状况成熟统计分析工

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论