数据仓库和数据挖掘的OLA技术_第1页
数据仓库和数据挖掘的OLA技术_第2页
数据仓库和数据挖掘的OLA技术_第3页
数据仓库和数据挖掘的OLA技术_第4页
数据仓库和数据挖掘的OLA技术_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库和数据挖掘的OLAP技术数据仓库-数据挖掘的有效平台数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤数据仓库提供OLAP工具,可用于不同粒度的数据分析很多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现分类预测关联聚集什么是数据仓库?数据仓库的定义很多,但却很难有一种严格的定义它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台,对信息处理提供支持数据仓库区别于其他数据存储系统“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W.H.Inmon数据仓库关键特征一——面向主题面向主题,是数据仓库显著区别于关系数据库系统的一个特征围绕一些主题,如顾客、供应商、产品等关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。排除对于决策无用的数据,提供特定主题的简明视图。数据仓库关键特征二——数据集成一个数据仓库是通过集成多个异种数据源来构造的。关系数据库,一般文件,联机事务处理记录使用数据清理和数据集成技术。确保命名约定、编码结构、属性度量等的一致性。当数据被移到数据仓库时,它们要经过转化。数据仓库关键特征三——随时间而变化数据仓库是从历史的角度提供信息数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统:主要保存当前数据。数据仓库:从历史的角度提供信息(比如过去5-10年)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。数据仓库关键特征四——数据不易丢失尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。操作数据库的更新操作不会出现在数据仓库环境下。不需要事务处理,恢复,和并发控制等机制只需要两种数据访问:数据的初始转载和数据访问(读操作)数据仓库的构建与使用数据仓库的构建包括一系列的数据预处理过程数据清理数据集成数据变换数据仓库的使用热点是商业决策行为,例如:增加客户聚焦产品重定位寻找获利点客户关系管理数据仓库与异种数据库集成异种数据库的集成方法传统的异种数据库集成:(查询驱动)在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators)查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器数据仓库:(更新驱动)将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析查询驱动方法和更新驱动方法的比较查询驱动的方法需要负责的信息过滤和集成处理与局部数据源上的处理竞争资源对于频繁的查询,尤其是涉及聚集(汇总)操作的查询,开销很大(决策支持中常见的查询形式)更新驱动的方法(带来高性能)数据经预处理后单独存储,对聚集操作提供良好支持不影响局部数据源上的处理集成历史信息,支持负责的多维查询数据仓库与与操作数据据库系统操作数据库库系统的主主要任务是是联机事务务处理OLTP日常操作:购买,,库存,银银行,制造造,工资,,注册,记记帐等数据仓库的的主要任务务是联机分分析处理OLAP数据分析和和决策支持持,支持以以不同的形形式显示数数据以满足足不同的用用户需要OLAPVS.OLTP(1)用户户和和系系统统的的面面向向性性面向顾顾客((事务务)VS.面面向向市场场(分分析))数据内内容当前的的、详详细的的数据据VS.历历史的的、汇汇总的的数据据数据库库设计计实体--联系系模型型(ER)和面面向应应用的的数据据库设设计VS.星星型型/雪雪花模模型和和面向向主题题的数数据库库设计计OLAPVS.OLTP(2)数据视图当前的、企企业内部的的数据VS.经经过演化的的、集成的的数据访问模式事务操作VS.只只读查询询(但很多多是复杂的的查询)任务单位简短的事务务VS.复杂的的查询访问数据量量数十个VS.数数百万个OLAPVS.OLTP(3)用户数数千个VS.数数百个数据库规模模100M-数GBVS.100GB-数TB设计优先性性高性能、高高可用性VS.高高灵活性性、端点用用户自治度量事务吞吐量量VS.查询吞吞吐量、响响应时间更多的区别别见教科书书P28,,表2-1为什么需要要一个分离离的数据仓仓库?提高两个系系统的性能能DBMS是是为OLTP而设计计的:存储储方式,索索引,并并发控制,恢复数据仓库是是为OLAP而设计计:复杂的的OLAP查询,多维视视图,汇总总不同的功能能和不同的的数据:历史数据:决策支支持需要历历史数据,,而这些数数据在操作作数据库中中一般不会会去维护数据汇总::决策支持持需要将来来自异种源源的数据统统一(如聚聚集和汇总总)数据质量:不同的的源使用不不一致的数数据表示、、编码和格格式,对这这些数据进进行有效的的分析需要要将他们转转化后进行行集成多维数据模模型(1)数据仓库和和OLAP工具基于于多维数据据模型在多维数据据模型中,,数据以数数据立方体体(datacube)的的形式存在在数据立方体体允许以多维维数据建模模和观察。。它由维和事实定义维是关于一个个组织想要要记录的视视角或观点点。每个维维都有一个个表与之相相关联,称称为维表。多维数据模模型围绕中中心主题组组织,该主主题用事实表表示事实表包括事实的的名称或度度量以及每每个相关维维表的关键键字事实指的是一些些数字度量量多维数据模模型(2)———示例time_keydayday_of_the_weekmonthquarteryeartime维维表location_keystreetcitystate_or_provincecountrylocation事事实表Sales事实表表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem维维表branch_keybranch_namebranch_typebranch维表表多维数据模模型(3)在数据仓库库中,数据据立方体是是n-D的的(n维))(关系表和和电子表格格是几维的的?)示例AllElectronics的销售售数据按维维time,item的2-D视图图(P30,表表2-2)AllElectronics的销售售数据按维维time,item和location的的3-D视视图(P30,表表2-3)AllElectronics的销售售数据按维维time,item和location的的3-D视视图的3-D数据立立方体表示示(P31,图图2-1)销售数据的的4-D立立方体表示示(P31,图图2-2)多维数据模模型为不同同角度上的的数据建模模和观察提提供了一个个良好的基基础多维数据模模型(4)在数据仓库的的研究文献中中,一个n维维的数据的立立方体叫做基本方体。给定一个维维的集合,我我们可以构造造一个方体的格,每个都在不不同的汇总级级或不同的数数据子集显示示数据,方体体的格称为数据立方体。0维方体存存放最高层的的汇总,称作作顶点方体;而存放最底底层汇总的方方体则称为基本方体。数据立方体———一个方体体的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(顶点点)方体1-D方体2-D方体体3-D方体体4-D(基本本)方体数据仓库的概概念模型最流行的数据据仓库概念模模型是多维数数据模型。这这种模型可以以以星型模式式、雪花模式式、或事实星星座模式的形形式存在。星型模式(Starschema):事实实表在中心,,周围围绕地地连接着维表表(每维一个个),事实表表含有大量数数据,没有冗冗余。雪花模式(Snowflakeschema):是是星型模式的的变种,其中中某些维表是是规范化的,,因而把数据据进一步分解解到附加表中中。结果,模模式图形成类类似于雪花的的形状。事实星座(Factconstellations):多个事实实表共享维表表,这种模模式可以看作作星型模式集集,因此称为为星系模式((galaxyschema),,或者事实星星座(factconstellation)星型模式实例例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch雪花模式实例例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity事实星座模式式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper一种数据挖掘掘查询语言:DMQLDMQL首先先包括定义数数据仓库和数数据集市的语语言原语,这这包括两种原原语定义:一一种是立方体体定义,一种种是维定义立方体定义(事实表)definecube<cube_name>[<dimension_list>]:<measure_list>维定义(维维表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊案例(共享维表的的定义)第一次作为维维表定义““cubedefinition”然后:definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>实例例::使使用用DMQL定定义义星星型型模模式式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)实例::使用用DMQL定义义雪花花模式式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))实例:使用用DMQL定义事实实星座模式式definecubesales[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshipping[time,item,shipper,from_location,to_location]:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales度量的分分类一个数据立方方体的度量是是一个数值函数,该函数数可以对数据据立方体的每每一个点求值值。(刚才的示例中中用的是什么么函数?)度量可以根据据其所用的聚聚集函数分为为三类:分布的(distributive):将函数数用于n个聚聚集值得到的的结果和将函函数用于所有有数据得到的的结果一样。。比如:count(),,sum(),min(),max()等代数的(algebraic):函函数可以由一一个带M个参参数的代数函函数计算(M为有界整数数),而每个个参数值都可可以有一个分分布的聚集函函数求得。比如:avg(),min_N(),standard_deviation()整体的(holistic):描述述函数的子聚聚集所需的存存储没有一个个常数界。比如:median(),mode(),rank()5-6王灿数据挖掘0703004概念分层(1)一个概念分层层(concepthierarchy)定定义一个映射射序列,将低低层概念映射射到更一般的的高层概念E.g.表表示location的的概念:杭州州浙江中国国亚洲概念分层允许许我们在各种种抽象级审查查和处理数据据概念分层可以以由系统用户户、领域专家家、知识工程程师人工的提提供,也可以以根据数据分分布的统计分分析自动的产产生概念分层(2):location维的一一个概念分层层allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity许多概念分层层的定义隐含含在数据库的的模式中。比比如:location维的定义,,office<city<country<region;这些属属性按一个个全序相关,,形成一个层层次结构:yeardayquartermonthweek维的属性也可可以组成一个个偏序,形成成一个格:概念分层(3)———使用概念分层为不不同级别上的的数据汇总提提供了一个良良好的基础综合概念分层层和多维数据据模型的潜力力,可以对数数据获得更深深入的洞察力力通过在多维数数据模型中,,在不同的维维上定义概念念分层,使得得用户在不同同的维上从不不同的层次对对数据进行观观察成为可能能。多维数据模型型(数据立方方体)使得从从不同的角度度对数据进行行观察成为可可能,而概念念分层则提供供了从不同层层次对数据进进行观察的能能力;结合这这两者的特征征,我们可以以在多维数据据模型上定义义各种OLAP操作,为为用户从不同同角度不同层层次观察数据据提供了灵活活性:多维数据模型型上的OLAP操作(1)上卷(roll-up):汇总数据据通过一个维的的概念分层向向上攀升或者者通过维规约约当用维归约进进行上卷时,,一个或多个个维由给定的的数据立方体体删除下钻(drill-down):上上卷的逆操作作由不太详细的的数据到更详详细的数据,,可以通过沿沿维的概念分分层向下或引引入新的维来来实现(为为给定数据添添加更多细节节)切片和切块(sliceanddice)切片操作在给给定的数据立立方体的一个个维上进行选选择,导致一一个子方切块操作通过过对两个或多多个维进行选选择,定义子子方P40图2-10多维数数据模模型上上的OLAP操操作(2)转轴(pivot)立方体体的重重定位位,可可视化化,或或将一一个3维立立方体体转化化为一一个2维平平面序序列转轴是是一种种可视化化操作,,通过过转动动当前前数据据的视视图来来提供供一个个数据据的替替代表表示其他OLAP操操作钻过(drill_across)::执行行涉及及多个个事实实表的的查询询钻透(drill_through):使使用关关系SQL机制制,钻钻到数数据立立方体体的底底层,,到后后端关关系表表其他OLAP操操作可可能包包括列列出表表中最最高或或最低低的N项,,以及及计算算移动动平均均值、、增长长率、、利润润、统统计函函数等等等P40图图2-10数据仓库库设计::一个商商务分析析框架(1)数据仓库库给商业业分析专专家提供供了什么么?通过提供供相关数数据与信信息,获获得竞争争优势通过有效效的收集集精确的的描述组组织的数数据,获获得生产产力的提提高通过提供供不同级级别(部部门、市市场、商商业)的的客户视视图,协协助客户户关系管管理通过追踪踪长期趋趋势、异异常等,,降低成成本有效构建建数据仓仓库的关关键:理理解和分分析商业业需求通过提供供一个商商业分析析框架,,综合各各种不同同的数据据使用者者的视图图数据仓库库设计::一个商商务分析析框架(2)数据仓库库设计的的四种视视图自顶向下下视图允许我们们选择数数据仓库库所需的的相关信信息数据源视视图揭示被操操作数据据库系统统所捕获获、存储储和管理理的信息息数据仓库库视图由事实表表和维表表所组成成商务查询询视图从最终用用户的角角度透视视数据仓仓库中的的数据数据仓库库设计::一个商商务分析析框架(3)数据仓库库的构建建与使用用涉及多多种技能能商业技能能理解系统统如何存存储和管管理数据据数据如何何提取数据如何何刷新技术方面面的技能能如何通过过使用各各种数据据或量化化的信息息,到处处可以提提供决策策支持的的模式、、趋势、、判断等等如何通过审审查历史数数据,分析析发展趋势势等计划管理技技能如何通过与与不同的技技术、厂商商、用户交交互,来及及时、有效效、经济的的提交结果果数据仓库的的设计过程程(1)自顶向下法法、自底向向上法或者者两者的混混合方法自顶向下法法:由总体体设计和规规划开始在技术成熟熟、商业理理解透彻的的情况下使使用自底向上法法:以实验验和原型开开始常用在模型型和技术开开发的初期期,可以有有效的对使使用的技术术和模型进进行评估,,降低风险险混合方法::上述两者者的结合从软件过程程的观点瀑布式方法法:在进行行下一步前前,每一步步都进行结结构化和系系统的分析析螺旋式方法法:功能渐渐增的系统统的快速产产生,相继继版本之间间间隔很短短数据仓库的的设计过程程(2)典型的数据据仓库设计计过程选取待建模模的商务过程找到所构建建的数据仓仓库的主题题,比如::销售、货货运、订单单等等选取商务过过程的颗粒度数据起始于于多细的颗颗粒度,比比如:记录录每条详细细订单,或或是开始于于每日的汇汇总数据选取用于每每个事实表表记录的维常用的维有有:时间、、货物、客客户、供应应商等选取将安放放在事实表表中的度量常用的数字字度量包括括:售价、、货物数量量等三层数据仓仓库架构(1)数据仓库提取清理转换装入刷新OLAP服服务器查询报告分析数据挖掘监控、整合元数据存储数据源前端工具输出数据集市操作数据库其他外部信息源数据仓库服服务器OLAP服服务器三层数据仓仓库架构(2)底层:数据据仓库的数数据库服务务器关注的问题题:如何从从这一层提提取数据来来构建数据据仓库(通通过Gateway(ODBC,JDBC,OLE/DB等)来来提取)中间层:OLAP服服务器关注的问题题:OLAP服务器器如何实施施(关系型型OLAP,多维OLAP等等)前端客户工工具层关注的问题题:查询工工具、报表表工具、分分析工具、、挖掘工具具等三种数据仓仓库模型从体系结构构的角度去去看,数据据仓库模型型可以有以以下三种::企业仓库搜集关于跨跨越整个组组织的主题题的所有信信息数据集市企业范围围数据的的一个子子集,对对于特定定的客户户是有用用的。其其范围限限于选定定的主题题,比如如一个商商场的数数据集市市独立的数数据集市市VS.非非独立的的数据集集市(数数据来自自于企业业数据仓仓库)虚拟仓库库操作数据据库上的的一系列列视图只有一些些可能的的汇总视视图被物物化数据仓库库开发::困难与与方法数据仓库库开发上上的困难难自顶向下下的开发发方法从从全系统统的角度度提供解解决方案案,使得得(模块块)集成成的问题题最小;;但是该该方法十十分昂贵贵,需要要对组织织进行长长期研究究和建模模分析。。自底向上上方法提提供了更更多的开开发灵活活性,价价格便宜宜;但往往往会遇遇到集成成问题((每个模模块单独独运行都都没有问问题,但但是一集集成就出出异常))解决方法法:使用递增增性、演演化性的的开发方方法高层数据据模型企业仓库库和数据据集市并并行开发发通过分布布式模型型集成各各数据集集市多层数据据仓库数据仓库库开发———一个个推荐的的方法定义高层层数据模模型数据集市市数据集市市分布式数数据集市市多层数据据仓库企业数据据仓库模型提炼炼模型提炼炼OLAP服务器器类型(1)逻辑上,,OLAP服务务器从数数据仓库库或数据据集市中中给商业业用户提提供多维维数据物理上,,OLAP的底底层数据据存储实实现可以以有多种种不同的的方式关系OLAP服服务器(ROLAP)使用关系系数据库库或扩展展的关系系数据库库存放并并管理数数据仓库库的数据据,而用用OLAP中间间件支持持其余部部分包括每个个DBMS后端端优化,,聚集导导航逻辑辑的实现现,附加加的工具具和服务务较大的可可扩展性性OLAP服务器器类型(2)多维OLAP服服务器(MOLAP)基于数组组的多维维存储引引擎(稀稀疏矩阵阵技术))能对预计计算的汇汇总数据据快速索索引混合OLAP服服务器(HOLAP)结合上述述两种技技术,更更大的使使用灵活活性特殊的SQL服服务器在星型和和雪花模模型上支支持SQL查询询数据仓库库的实现现———数据据立方体体的有效效计算数据仓库库中的OLAP查询是是一种海海量数据据计算((想象象一下对对过去10年各各地区的的软件产产品销售售的汇总总查询))用户却希希望这个个计算能能在数秒秒钟内完完成解决方法法在于给给出一种种有效的的计算数数据立方方体的方方法数据立方方体可以以被看成成是一个个方体的格格最底层的的方体是是基本方方体最顶端的的方体((顶点))只包含含一个单单元的值值一个n维维的数据据立方体体,每维维L层,,可能产产生的方方体总数数是多少少?(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)方体的操操作DMQL中的方方体定义义和计算算definecubesales[item,city,year]:sum(sales_in_dollars)computecubesales上述的computecube子子句可以以转化为为一个类类似于SQL的的语句SELECTitem,city,year,SUM(amount)FROMSALESCUBEBYitem,city,year这个相当当于SQL中以以下的groupby子句句(item,city,year)–3D(item,city),(itemyear),(city,year)—2D(item),(city),(year)—1D()--0D(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)数据立方方体的物物化数据立方方体的物化可以有以以下三种种选择::全物化预先计算算所有方方体不物化不预先计计算任何何“非基基本”方方体部分物化化有选择的的计算一一个所有有方体的的适当子子集考虑因素素:(1)确定要物物化的方方体;(2)在在查询时时利用物物化的方方体;(3)在在装载和和刷新时时,有效效的更新新物化的的方体确定定物物化化哪哪些些方方体体考虑虑工工作作负负荷荷下下的的查查询询、、它它们们的的频频率率和和它它们们的的开开销销等等等等方体体计计算算::ROLAPvs.MOLAP方体体计计算算的的挑挑战战::海量量数数据据,,有有限限的的内内存存和和时时间间基于于ROLAP的的方方法法((底底层层使使用用关关系系模模型型存存储储数数据据))将排排序序、、散散列列(hashing)和和分分组组操操作作应应用用于于维维的的属属性性,,以以便便对对相相关关元元组组重重新新排排序序和和聚聚类类在某某些些子子聚聚集集上上分分组组,,作作为为““部部分分分分组组步步骤骤””。。可以以由由以以前前计计算算的的聚聚集集计计算算新新的的聚聚集集,,而而不不必必有有基基本本事事实实表表计计算算基于于MOLAP方方法法((底底层层使使用用多多维维数数组组存存储储数数据据))多路路数数组组聚聚集集的的计计算算方方法法将数数组组切切成成块块((每每个个块块都都可可以以整整个个装装入入内内存存))通过过访访问问各各个个块块来来计计算算汇汇总总值值方体体计计算算的的多多路路数数组组聚聚集集方方法法(1)将数数组组分分成成块块((chunk,一一个个可可以以装装入入内内存存的的小小子子方方))通过过访访问问立立方方体体单单元元,,计计算算聚聚集集。。可可以以优优化化访访问问单单元元组组的的次次序序,,使使得得每每个个单单元元被被访访问问的的次次数数最最小小化化,,从从而而减减少少内内存存访访问问和和磁磁盘盘I/O的的开开销销。。A(month)40个个值值B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000个个值值B(city)400个个值值442856402452362060哪个是是多路路数组组聚集集的最最佳遍遍历次次序??方体计计算的的多路路数组组聚集集方法法(2)A(month)40B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000442856402452362060B(city)400方体计计算的的多路路数组组聚集集方法法(3)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B方体计算算的多路路数组聚聚集方法法(4)方法:各各平面要要按他们们大小的的升序排排列进行行排序和和计算详见书P50例例2.12(P52图图2-16有有误)思想:将将最小的的平面放放在内存存中,对对最大的的平面每每次只是是取并计计算一块块方体计算算的多路路数组聚聚集方法法(5)根据1到到64的的扫描次次序,在在块内存存中保存存所有相相关的2-D平平面所需需的最小小存储为为:40×400((用于整整个AB平面))+40×1000((用于AC平面面一行))+100×1000(用于于BC平平面一块块)=156,,000这种方法法的限制制:只有有在维数数比较小小的情况况下,效效果才比比较理想想(要计计算的立立方体随随维数指指数增长长)如果维的的数目比比较多,,可以考考虑使用用“自底底向上的的计算””或者时时“冰山山方体””计算算OLAP查询的的有效处处理确定哪些些操作应应当在可可利用的的方体上上执行::将查询中中的选择择、投影影、上卷卷和下钻钻等操作作转化为为对应的的SQL或/和和OLAP操作作,如::dice=selection+projection确定相关关操作应应当使用用哪些物物化的方方体找寻MOLAP中可以以利用的的索引结结构以及及压缩的的或是稠稠密的数数组结构构有效处理理OLAP查询询(示例例)立方体的的定义为为:sales[time,item,location]:sum(sales_in_dollar)time的维层层次day<week<month<quater<yearlocation的维维层次street<city<province_or_state<countryitem的维层层次item_name<brand<type现在要处处理一个个year=2000,定位位在brand和province_or_state级别的的查询,,现有四四个可用用的已经经物化的的方体::{item_name,city,year}{brand,country,year}{brand,province_or_state,year}{

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论