![Lecure数据仓库与OLA技术概述_第1页](http://file4.renrendoc.com/view/6ff02408f490307ad0f8a181936bf546/6ff02408f490307ad0f8a181936bf5461.gif)
![Lecure数据仓库与OLA技术概述_第2页](http://file4.renrendoc.com/view/6ff02408f490307ad0f8a181936bf546/6ff02408f490307ad0f8a181936bf5462.gif)
![Lecure数据仓库与OLA技术概述_第3页](http://file4.renrendoc.com/view/6ff02408f490307ad0f8a181936bf546/6ff02408f490307ad0f8a181936bf5463.gif)
![Lecure数据仓库与OLA技术概述_第4页](http://file4.renrendoc.com/view/6ff02408f490307ad0f8a181936bf546/6ff02408f490307ad0f8a181936bf5464.gif)
![Lecure数据仓库与OLA技术概述_第5页](http://file4.renrendoc.com/view/6ff02408f490307ad0f8a181936bf546/6ff02408f490307ad0f8a181936bf5465.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
17一月20231数据挖掘:概念与技术
—第三、四章—王家兵博士华南理工大学计算机科学与工程学院E-mail:jbwang@17一月20232Lecture3:数据仓库、OLAP及数据立方体计算什么是数据仓库(datawarehouse)?多维数据模型数据仓库体系结构数据仓库实施17一月20233什么是数据仓库?有多种但并不严格的定义与操作数据库相隔离并单独维护的一个用来支持决策过程的数据库一个用来对整理过的历史数据进行分析以便支持信息处理的固定平台.“数据仓库是面向主题的、集成的、时变的、非易失的数据集合,它用来支持管理部门的决策过程”—W.H.Inmon17一月20234数据仓库—面向主题的围绕主题组织,如消费者(customer)、产品(product),销售量(sales)等。主要目的是对数据建模与分析,以便于决策者的决策过程,而不是日常操作与事物处理。排出那些对决策过程没有用的数据,为决策者提供一个简明的有关特定主题的视图。17一月20235数据仓库-集成的集成多个、异构数据源关系数据库,普通文件,联机事物记录。应用了数据清洗与数据集成技术确保多个数据源命名惯例、编码结构、属性度量等的一致性。在数据移入数据仓库之前,对它进行转换。17一月20236数据仓库-时变的数据仓库跨越的时间比操作数据库要长的多.操作数据库:当前值数据。数据仓库:从历史的视角提供信息(如过去5-10的数据)数据仓库的健值属性隐式或显式地包含一个时间键。操作数据库可以也可以不包含时间键。17一月20237数据仓库-非易失的与操作数据库分隔存储。操作数据库的数据更新不在数据仓库环境出现。不需要事务处理,数据恢复以及并发控制机制。仅仅需要以下2种操作:数据的初始装载与数据访问。17一月20238数据仓库vs.数据库管理系统联机事物处理(OLTP,on-linetransactionprocessing)传统关系数据库的主要任务日常操作:购买,存货,财务等.联机分析处理(OLAP,on-lineanalyticalprocessing)数据仓库的主要任务数据分析与决策支持17一月20239OLTPOLAP用户员工,IT专业人员知识工作者功能每天的日常操作决策支持DB设计面向应用+ER面向主题+Star数据当前的,详细的数据历史的,汇总的,多维的集成的,整理过的使用重复的特定的访问读/写、索引多次扫描工作单元短的,简单的事务处理复杂查询记录数/查询几十百万用户数上千百DB规模100MB-GB100GB-TBmetrictransactionthroughputquerythroughput,response17一月202310为什么要建立隔离的数据仓库?使得操作数据库与数据仓库都获得高性能DBMS—OLTP:访问方法,索引,并发控制,数据恢复。Warehouse—OLAP:复杂OLAP查询,多维视图,整理。对数据与功能的要求不同:丢失的数据:决策支持需要历史数据,而传统数据库并不一定维护历史数据。数据整理:决策支持需要对异构数据源进行数据整理。数据质量:不同的数据源常常具有不一致的数据表示,编码结构与格式。04一月202311数据挖掘中的的数据仓库与与OLAP技术什么是数据仓仓库?多维数据模型型数据仓库体系系结构数据仓库实施施04一月月202312由表和电子子数据表到到数据立方方体I数据仓库基基于多维数数据模型,,以数据立立方体的形形式对数据据进行观察察。数据立方体体,如销售售,允许以以多维来对对数据进行行建模与观观察。维表:如维item(item_name,brand,type),或维time(day,week,month,quarter,year)。事实表包含含度量(measures)):如销售额以以及每个相相关维表的的关键字。。04一月月202313由表和电子子数据表到到数据立方方体II在数据仓库库的研究文文献中,一一个n维立方体((n-D)称为基本方体(basecuboid);0-D方体存放最最高层的汇汇总,称称为顶点方体(apexcuboid),方体的格格称作数据立方体体(datacube)。04一一月月202314立方方体体:方方体体格格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(apex)cuboid1-Dcuboids2-Dcuboids3-Dcuboids4-D(base)cuboid04一一月202315数据仓库库概念模模型建模数据据仓库:维&度量星型模式式(Starschema):一个事实实表以及及一组与与事实表表连结的的维表。。雪花模式式(Snowflakeschema):雪花模式式是星型型模式的的变种,,其中某某些维表表是规范范化的。。(normalized),因而把数数据进一一步分解解到附加加的表中中。事实星座座(Factconstellations):多个事实实表分享享共同的的维表,,这种模模式可以以看作星星型模式式的集合合,因此此称为星星系模式式(galaxyschema)或事实星星座。04一一月月202316星型模模式time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch04一一月月202317雪花模模式time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity04一月月202318事实星座time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper04一一月202319度量的分分类I分布式的的(distributive)):一个聚集集函数是是分布的的,如果果它能以以以下分分布式进进行计算算:如果果将函数数用于n个聚集值值得到的的结果,,与将函函数用于于所有数数据得到到的结果果一样,,则该函函数可以以用分布布式计算算。如,count(),sum(),min(),max().代数的((algebraic)):一个函数数是代数数的,如如果它能能够由一一个具有有M个参数的的代数函函数计算算(其中中M是一个有有界整数数),而而每个参参数都可可以用一一个分布布聚集函函数得到到。如,avg(),standard_deviation().04一一月月202320度量的的分类类II整体的的(holistic)):如果描描述它它的子子聚集集所需需的存存储没没有一一个常常数界界,即即不存存在一一个具具有M个参数数的代代数函函数进进行这这一计计算((其中中M是常数数)。。如,median()(中位位数)),mode()(出现现次数数最多多的数数,众众数))等。。04一一月202321一个概念念层次:维(location)allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity04一月202322多维数据销售立方体ProductRegionMonth维:Product,Location,Time概念层次图::IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay04一月202323示例:数据立立方体TV在美国的年销销售额DateProductCountryAll,All,Allsumsum
TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum04一月月202324对应立方的的立方体allproductdatecountryproduct,dateproduct,countrydate,countryproduct,date,country0-D(apex)cuboid1-Dcuboids2-Dcuboids3-D(base)cuboid04一月月202325典型的OLAP操作I上卷Rollup(上钻drill-up):通过一个维维的概念分分层向上攀攀升或通过过维规约,,在数据立立方体上进进行聚集。。下钻Drilldown(rolldown):上卷的逆操操作,它由由不太详细细的数据得得到更详细细的数据。。可以通过沿沿维的概念念分层向下下或引入新新的维实现现。04一月202326典型的OLAP操作II切片Slice与切块dice投影与选择。。转轴Pivot(rotate)是一种目视操操作,它转动动数据的视角角,提供数据据的替代表示示其它操作钻过drillacross:执行涉及多多个事实表的的查询。钻透drillthrough:使用SQL的机制,钻到到数据立方的的底层,到后后端关系表。。04一一月月202327数据据挖挖掘掘中中的的数数据据仓仓库库与与OLAP技术术什么么是是数数据据仓仓库库?多维维数数据据模模型型数据据仓仓库库体体系系结结构构数据据仓仓库库实实施施04一一月月202328多层层体体系系结结构构DataWarehouseExtractTransformLoadRefreshOLAPEngineAnalysisQueryReportsDataminingMonitor&IntegratorMetadataDataSourcesFront-EndToolsServeDataMartsOperational
DBsothersourcesDataStorageOLAPServer04一一月202329三个数据据仓库模模型企业仓库库(Enterprisewarehouse)搜集了关关于主题题的所有有信息,,跨越整整个组织织。数据集市市(DataMart))包含企业业范围数数据的一一个子集集,对于于特定的的用户是是有用的的,其范范围限于于选定的的主题。。虚拟仓库库(Virtualwarehouse)操作数据据库上视视图的一一组集合合。为了有效效处理查查询,只只有一些些可能的的汇总视视图被物物化。04一一月202330数据挖掘掘中的数数据仓库库与OLAP技术什么是数数据仓库库?多维数据据模型数据仓库库体系结结构数据仓库库实施04一月月202331数据立方的的有效计算算数据立方可可以看作是是由立方体体形成的格格结构最底层的立立方体称为为基本方体体(basecuboid)最上层的方方体称为顶顶点方体(apexcuboid)一个L层的n维立方有多多少立方体体呢?04一一月月202332数据据立立方方的的物物化化物化化每一一个个立方方体体,不物化化,或者者部分分物化化物化化每一一个个立方方体体?不物化化??部分分物化化!!选择择将将要要物物化化的的立立方方体体基于于尺尺寸寸大大小小,共享享,访问问频频率率等等。。04一一月月202333立方方计计算算的的多多路路数数组组聚聚集集方方法法I把数数组组划划分分成成块(chunks,,一个个子子方方,,其其大大小小能能够够放放入入立立方方体体计计算算时时可可用用的的内内存存)).采用用压压缩缩的的稀稀疏疏数数组组结结构构:(chunk_id,offset)通过过访访问问立立体体单单元元,,计计算算聚聚集集。。可可以以优优化化访访问问单单元元的的次次序序使使得得每每个个单单元元必必须须重重复复访访问问的的次次数数最最小小化化。。04一月202334立方计算的多多路数组聚集集方法IIAB2930313212345913141516646362
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- All Touch移动信息化管理平台介绍课件
- 2025年全球及中国超细玻璃棉行业头部企业市场占有率及排名调研报告
- 2025年全球及中国牵引型自动导引车行业头部企业市场占有率及排名调研报告
- 2025-2030全球经典拉线延长位置探头行业调研及趋势分析报告
- 算法与随机事件的概率复习题
- 餐饮店面租赁合同范本
- 矿泉水采购合同范本
- 2025合欢买卖合同
- 2025国际货物买卖合同的根本违约
- 2025三方装修合同
- 2025年新能源汽车销售佣金返点合同范本6篇
- 2025-2030年中国配电变压器市场未来发展趋势及前景调研分析报告
- GB/T 45120-2024道路车辆48 V供电电压电气要求及试验
- 2025年上海市嘉定区中考英语一模试卷
- 润滑油、润滑脂培训课件
- 2025年中核财务有限责任公司招聘笔试参考题库含答案解析
- 华中师大一附中2024-2025学年度上学期高三年级第二次考试数学试题(含解析)
- 健康管理-理论知识复习测试卷含答案
- 成人脑室外引流护理-中华护理学会团体 标准
- JGJ106-建筑基桩检测技术规范
- 高技能公共实训基地建设方案
评论
0/150
提交评论