数据仓库与数据挖掘_第1页
数据仓库与数据挖掘_第2页
数据仓库与数据挖掘_第3页
数据仓库与数据挖掘_第4页
数据仓库与数据挖掘_第5页
已阅读5页,还剩97页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1/1012023/1/19第六章数据仓库与数据挖掘2/1012023/1/19数据挖掘的发展动力

---需要是发明之母数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。我们拥有丰富的数据,但却缺乏有用的信息

解决方法:数据仓库技术和数据挖掘技术数据仓库(DataWarehouse)和在线分析处理(OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)3/1012023/1/19什么是数据挖掘?数据挖掘(从数据中发现知识)

从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识

挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)数据挖掘的替换词数据库中的知识挖掘(KDD)知识提炼数据/模式分析数据考古数据捕捞、信息收获等等。4/1012023/1/19数据挖掘:数据库中的知识挖掘(KDD)数据挖掘——知识挖掘的核心数据清理数据集成数据库数据仓库Knowledge任务相关数据选择数据挖掘模式评估5/1012023/1/19KDD的步骤从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识数据清理:(这个可能要占全过程60%的工作量)数据集成数据选择数据变换数据挖掘(选择适当的算法来找到感兴趣的模式

—狭义)6.模式评估7.知识表示(如图形等表示方法)6/1012023/1/19典型数据挖掘系统的体系结构数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成7/1012023/1/19并非所有的东西都是数据挖掘基于数据仓库的OLAP系统OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。机器学习系统,数据统计分析系统这些系统所处理的数据容量往往很有限。信息系统专注于数据的查询处理。相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合8/1012023/1/19在何种数据上进行数据挖掘9/1012023/1/19数据挖掘的主要功能

——可以挖掘哪些模式?一般功能描述性的数据挖掘预测性的数据挖掘通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括:概念/类描述:特性化和区分关联分析分类和预测聚类分析孤立点分析趋势和演变分析10/1012023/1/19概念/类描述:特性化和区分概念描述:为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述)特征化:提供给定数据集的简洁汇总。例:对AllElectronic公司的“大客户”(年消费额$1000以上)的特征化描述:40-50岁,有固定职业,信誉良好,等等区分:提供两个或多个数据集的比较描述。例:11/1012023/1/1关联分析关联规则挖掘掘:从事务数据库库,关系数据据库和其他信信息存储中的的大量数据的的项集之间发发现有趣的、、频繁出现的的模式、关联联和相关性。。广泛的用于购购物篮或事务务数据分析。。例:12/1012023/1/1分类和预测测1、分类在商商业上应用用最多,其目的是找找出一组能能够描述数据集集合典型特特征的模型型和函数。。2、数据分类类实际上就就是从数据据库对象中中发现共性性,并将数据对对象分成不不同类别的的过程。3、分类的目目标首先是对训训练数据进进行分析,,使用数据的某些特特征属性,,给出每个个类的准确确描述,然然后使用这些描描述,对数数据库中的的其他数据据进行分类类。4、分类通常常和预测联联系起来,,这是因为为分类可以以用来预测数据据对象的类类标记,也也可以用来来预测不知知道的数据值,,当被预测测的值是数数值数据时时,通常称称之为预测。13/1012023/1/1分类和预测测例:通过训练数数据获得了了如下规则则:IF年龄=“31..40”AND收入=“较高”THEN信用程程度=“优秀”规则的的含义义:年年龄在在31到40之间,,收入入较高高的情情况下下,这这类顾顾客群的信信用程程度被被认为为是“优秀”IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“fair”THENbuys_computer=“no”14/1012023/1/1聚类分分析聚类分分析::将物理理或抽抽象对对象的的集合合分组组成为为由类类似的的对象象组成成的多多个类类的过过程。。最大化类内的相相似性和最小化化类间的相相似性例:对WEB日志的数数据进行行聚类,,以发现现相同的的用户访访问模式式聚类分析析与分类类分析相相反,首先输入入的是一一组没有有被标记记的记录录,系统统按照一一定的规规则合理理地划分分记录集集合(相当于于给记录录打标记记,只不不过分类类标准不不是用户户指定的的),然后可以以采用分分类分析析法进行行数据分分析,并并根据分分析的结结果重新新对原来来的记录录集合((没有被被标记的的记录集集合)进进行划分分,进而再一一次进行行分类分分析,如如此循环环往复,,直到获获得满意意的分析析结果为为止。15/1012023/1/1孤立点分分析孤立点分分析孤立点:一些与数数据的一一般行为为或模型型不一致致的孤立立数据通常孤立立点被作作为“噪音”或异常被被丢弃,,但在欺欺骗检测测中却可可以通过过对罕见见事件进进行孤立立点分析析而得到到结论。。应用信用卡欺欺诈检测测移动电话话欺诈检检测客户划分分医疗分析析(异常常)16/1012023/1/1趋势和演演变分析析是针对事事件或对对象行为为随时间间变化的的规律或或趋势,,并以此此来建立立模型。。例如:对对股票市市场交易易数据进进行时序序演变分分析,则则可能得得到这样样的规则则:AT&T股票连续续上涨两两天且DEC股票不下下跌,那那么第三三天IBM股票上涨涨的可能能性为75%。趋势和偏偏差:回归分析析序列模式式匹配::周期性性分析基于类似似性的分分析17/1012023/1/1所有模式式都是有有趣的吗吗?数据挖掘掘可能产产生数以以千计的的模式或或规则,,但并不不是所有有的模式式或规则则都是令令人感兴兴趣的。。模式兴趣趣度的度度量一个模式式是有趣趣的,如如果(1)它易于被被人理解解;((2)在某种种程度上上,对于于新的或或测试数数据是有有效的;;(3)具有潜潜在效用用;(4)新颖的的;(5)符合用用户确信信的某种种假设模式兴趣趣度的客客观和主主观度量量客观度量量:基于所发发现模式式的结构构和关于于它们的的统计,,比如如:支支持度、、置信度度等等主观度量量:基于用户户对数据据的判断断。比如如:出乎乎意料的的、新颖颖的、可可行动的的等等18/1012023/1/1能够产生生所有有有趣模式式并且仅仅产生有有趣模式式吗?找出所有有有趣的的模式:数据挖掘掘算法的的完全性性问题数据挖掘掘系统能能够产生生所有有有趣的模模式吗?试探搜索索vs.穷举搜索索关联vs.分类vs.聚类只搜索有有趣的模模式:数据挖掘掘算法的的最优化化问题数据挖掘掘系统可可以仅仅仅发现有有趣的模模式吗??方法首先生成成所有模模式然后后过滤那那些无趣趣的.仅仅生成成有趣的的模式—挖掘查询询优化19/1012023/1/1数据挖掘:多个学科的的融合数据挖掘数据库系统统统计学其他学科算法机器学习可视化20/1012023/1/1数据据挖挖掘掘系系统统的的分分类类(1)数据据挖挖掘掘的的多多学学科科融融合合的的特特性性,,决决定定了了数数据据挖挖掘掘的的研研究究将将产产生生种种类类繁繁多多的的数数据据挖挖掘掘系系统统。。根据据所所挖挖掘掘的的数数据据库库分分类类关系系数数据据库库,,事事务务数数据据库库,,流流式式数数据据,,面面向向对对象象数数据据库库,,对对象象关关系系数数据据库库,,数数据据仓仓库库,,空空间间数数据据库库,,时时序序数数据据库库,,文文本本数数据据库库,,多多媒媒体体数数据据库库,,异异构构数数据据库库,,历历史史数数据据库库21/1012023/1/1数据挖挖掘系系统的的分类类(2)根据挖挖掘的的知识识类型型特征分分析,区分,关联分分析,分类聚聚类,孤立点点分析析/演变分分析,偏差分分析等等等.多种方方法的的集成成和多多层机机挖掘掘根据挖挖掘所所用的的技术术面向数数据库库的挖挖掘、、数据据仓库库、、OLAP、机器器学习习、统统计学学、可可视化化等等等.根据挖挖掘所所用的的应用用金融,电信,银行,欺诈分分析,DNA分析,股票市市场,Web挖掘等等等.第二节节:数数据仓仓库和和数据据挖掘掘的OLAP技术23/1012023/1/1数据据仓仓库库--数数据据挖挖掘掘的的有有效效平平台台数据据仓仓库库中中的的数数据据清清理理和和数数据据集集成成,,是是数数据据挖挖掘掘的的重重要要数数据据预预处处理理步步骤骤数据据仓仓库库提提供供OLAP工具具,,可可用用于于不不同同粒粒度度的的数数据据分分析析很多多数数据据挖挖掘掘功功能能都都可可以以和和OLAP操作作集集成成,,以以提提供供不不同同概概念念层层上上的的知知识识发发现现分类类预测测关联联聚集集24/1012023/1/1数据据仓仓库库的的定定义义与与基基本本特特性性1.数据据仓仓库库的的定定义义WilliamH.Inmon在1993年所所写写的的论论著著《BuildingtheDataWarehouse》》首先先系系统统地地阐阐述述了了关关于于数数据据仓仓库库的的思思想想、、理理论论,,为为数数据据仓仓库库的的发发展展奠奠定定了了历历史史基基石石。。文文中中他他将将数数据据仓仓库库定定义义为为:adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.一个面向主主题的、集集成的、非非易失性的的、随时间间变化的数数据的集合合,以用于于支持管理理层决策过过程。25/1012023/1/1数据仓库关关键特征一一——面向主题面向主题表表示了数据据仓库中数数据组织的的基本原则则,数据仓仓库中的数数由数据都都是围绕着着某一主题题组织展开开的。由于于数据仓库库的用户大大多是企业业的管理决决策者,这这些人所面面对的往往往是一些比比较抽象的的、层次较较高的管理理分析对象象。例如,企业业中的客户户、产品、、供应商等等都可以作作为主题看看待。从信息管理理的角度看看,主题就是在在一个较高高的管理层层次上对信信息系统的的数据按照照某一具体体的管理对对象进行综综合、归类类所形成的的分析对象象。从数据组织织的角度看看,主题是是一些数据据集合,这这些数据集集合对分析析对象作了了比较完整整的、一致致的描述,,这种描述述不仅涉及及到数据自自身,而且且涉及到数数据之间的的关系。26/1012023/1/1数据仓库库关键特特征二——数据集成成一个数据据仓库是是通过集集成多个个异种数数据源来来构造的的。关系数据据库,一一般文件件,联机事务务处理记记录(OLTP)使用数据据清理和和数据集集成技术术。确保命名名约定、、编码结结构、属属性度量量等的一一致性。。当数据被被移到数数据仓库库时,它它们要经经过转化化。27/1012023/1/1数据仓库库关键特特征三——随时间而而变化数据仓库库是从历历史的角角度提供供信息数据仓库库的时间间范围比比操作数数据库系系统要长长的多。。操作数据据库系统统:主要保存存当前数数据。数据仓库库:从历史的的角度提提供信息息(比如如过去5-10年)数据仓库库中的每每一个关关键结构构都隐式式或显式式地包含含时间元元素,而而操作数数据库中中的关键键结构可可能就不不包括时时间元素素尽管数数据仓仓库中中的数数据并并不像像业务务数据据库那那样反反映业业务处理理的实实际状状况,,但是是数据据也不不能长长期不不变,,如果果依据10年前的的数据据进行行决策策分析析,那那决策策所带带来的的后果果将是十分分可怕怕的。。28/1012023/1/1因此,,数据仓仓库必必须能能够不不断捕捕捉主主题的的变化化数据据,将将那些些变化化的数数据追追加到到数据据仓库库中去去,也就是是说在在数据据仓库库中必必须不不断的的生成成主题题的新新快照照,以以满足足决策策分析析的需需要。。数据据新快快照生生成的的间隔隔,可可以根根据快快照的的生成成速度度和决决策分分析的的需要要而定定。例如,,如果果分析析企业业近几几年的的销售售情况况,那那快照照可可以以每隔隔一个个月生生成一一次;;如果果分析析一个个月的的畅销销产品品,那那快照照生成成间隔隔就需需要每每天一一次。。29/1012023/1/1数据仓库库的非易易失性是是指数据据仓库的的数据不不进行更更新处理理,而是一旦旦数据进进入数据据仓库以以后,就就会保持持一个相相当长的的时间。。因为数据据仓库中中数据大大多表示示过去某某一时刻刻的数据据,主要用于于查询、、分析,,不像业业务系统统中的数数据库那那样,要要经常进进行修改改、添加加,除非非数据仓仓库中的的数据是是错误的的。数据仓库库关键特特征四——数据不易易丢失30/1012023/1/1数据仓库库关键特特征四——数据不易易丢失尽管数据据仓库中中的数据据来自于于操作数数据库,,但他们却却是在物物理上分分离保存存的。操作数据据库的更更新操作作不会出出现在数数据仓库库环境下下。不需要事事务处理理,恢复复,和并并发控制制等机制制(大大大提高了了处理速速度)只需要两两种数据据访问:数据的初初始转载载和数据据访问((读操作作)31/1012023/1/1数据据仓仓库库的的构构建建与与使使用用数据据仓仓库库的的构构建建包包括括一一系系列列的的数数据据预预处处理理过过程程数据据清清理理数据据集集成成数据据变变换换数据据仓仓库库的的使使用用热热点点是是商商业业决决策策行行为为,,例例如如::增加加客客户户聚聚焦焦产品品重重定定位位寻找找获获利利点点客户户关关系系管管理理32/1012023/1/1数据据仓仓库库与与操操作作数数据据库库系系统统操作作数数据据库库系系统统的的主主要要任任务务是是联机机事事务务处处理理OLTP日常常操操作作:购买买,,库库存存,,银银行行,,制制造造,,工工资资,,注注册册,,记记帐帐等等数据据仓仓库库的的主主要要任任务务是是联机机分分析析处处理理OLAP数据据分分析析和和决决策策支支持持,,支支持持以以不不同同的的形形式式显显示示数数据据以以满满足足不不同同的的用用户户需需要要33/1012023/1/1OLAPVS.OLTP(1)用户户和和系系统统的的面面向向性性面向向顾顾客客((事事务务))VS.面向向市市场场((分分析析))数据据内内容容当前前的的、、详详细细的的数数据据((如如超超市市一一个个月月的的数数据据))VS.历史史的的、、汇汇总总的的数数据据数据据库库设设计计实体体--联联系系模模型型(ER)和面面向向应应用用的的数数据据库库设设计计VS.星型型/雪花花模模型型和和面面向向主主题题的的数数据据库库设设计计34/1012023/1/1OLAPVS.OLTP(2)数据视图当前的、企企业内部的的数据VS.经过演化的的、集成的的数据访问模式事务操作((如查询、、写入、修修改)VS.只读查询((但很多是是复杂的查查询)任务单位简短的事务务VS.复杂的查询询访问数据量量数十个VS.数百万个35/1012023/1/1OLAPVS.OLTP(3)用户数数千个VS.数百个(复杂查询询,消耗资资源)数据库规模模100M-数GB(因此一般般关注近期期数据)VS.100GB-数TB设计优先性性高性能、高高可用性VS.高灵活性、、端点用户户自治度量事务吞吐量量VS.查询吞吐量量、响应时时间36/1012023/1/1为什么需要一一个分离的数数据仓库?“既然操作数据据库存放了大大量数据”,,“为什么不直直接在这种数数据库上进行行联机分析处处理,而是另另外花费时间间和资源去构构造一个分离离的数据仓库库?”分离的主要原原因是提高两两个系统的性性能DBMS是为OLTP而设计的:存储方式,索引,并发控制,恢复(OLAP不需要)数据仓库是为为OLAP而设计:复杂的OLAP查询,多维视图,汇汇总为什么需要一一个分离的数数据仓库?两个系统提供供不同的功能能和处理不同同的数据:历史数据:决策支持需要要历史数据,,而这些数据据在操作数据据库中一般不不会去维护数据汇总:决策支持需要要将来自异种种源的数据统统一(如聚集集和汇总)数据质量:不同的源使用用不一致的数数据表示、编编码和格式,,对这些数据据进行有效的的分析需要将将他们转化后后进行集成由于两个系统统提供很不相相同的功能,,需要不同类类型的数据,,因此需要维维护分离的数数据库。然而,许多关关系数据库管管理系统卖主主正开始优化化这种系统,,使之支持OLAP查询。随着这这一趋势的继继续,OLTP和OLAP系统之间的分分离可望消失失。OLAP与OLTP对比总结39/1012023/1/1OLAP的几个个基本本概念念1、维::维是关关于一一个组组织想想要记记录的的视角角或观观点。。每个维都都有一一个表表与之之相关关联,,称为为维表表。同一个个问题题可以以从不不同维维度进进行观观察分分析。。如::超市分析析某一一个时时期内内营业业额的的变化化,是是从时时间维维角度分析析。按按所处处地区区对连连锁店店的营营业额额分析析,是是从地理维维角度度分析析。2、维的的层次次:在在同一一维度度上存存在多多个程程度不不同的的细节。3、维的的成员员:是是指某某个维维的某某个具具体取取值。。4、多维维数组组:如如果一一个数数据集集合可可以从从多个个角度度进行行观察,,则根根据这这些维维度将将数据据组织织所构构成的的数组组,就就是多维数数组.多维数数组可可以用用图形形化来来表示示,也也可以以用表表格表示示OLAP的几个个基本本概念念当维度度的数数量不不超过过3时,采采用图图形的的方法法可以以很直直观的的表达达出该该数组组的内内涵,,但超超三维维的结结构,,图形形方式式无能能为力力。如如增加加客户户类别别维。。OLAP的几个个基本本概念念超三维维数据据的表表格表表示42/1012023/1/1多维数数据模模型(1)数据仓仓库和和OLAP工具基基于多多维数数据模模型(OLTP基于什什么??)在多维维数据据模型型中,,数据据以数数据立立方体体(datacube)的形式存在在数据立方体体允许以多多维数据建建模和观察察。它由维维和事实定定义维是关于一一个组织想想要记录的的视角或观观点。每个个维都有一一个表与之之相关联,,称为维表表。多维数据模模型围绕中中心主题组组织,该主题用事事实表表示示事实表包括括事实的名名称或度量量以及每个个相关维表表的关键字字事实指的是是一些数字字度量43/1012023/1/1多维数据模模型(2)———示例time_keydayday_of_the_weekmonthquarteryeartime维表location_keystreetcitystate_or_provincecountrylocation维表Sales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem维表branch_keybranch_namebranch_typebranch维表数据仓库的的概念模型型最流行的数数据仓库概概念模型是是多维数据据模型。这这种模型可可以以星型模式、、雪花模式式、或事实实星座模式式的形式存存在。星型模式((Starschema):事实表在中中心,周围围围绕地连连接着维表表(每维一一个),事事实表含有有大量数据据,没有冗冗余。雪花模式((Snowflakeschema):是星型模式式的变种,,其中某些维表是是规范化的的,因而把数据据进一步分分解到附加加表中。结结果,模式式图形成类类似于雪花花的形状。。事实星座((Factconstellations):多个事实表表共享维表表,这种模式可可以看作星星型模式集集,因此称称为星系模模式(galaxyschema),或者事事实星座((factconstellation)45/1012023/1/1time_keydayday_of_the_weekmonthquarteryeartime维表location_keystreetcitystate_or_provincecountrylocation维表Sales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem维表branch_keybranch_namebranch_typebranch维表星型模式实例例46/1012023/1/1雪花花模模式式实实例例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity47/1012023/1/1雪花花模模型型是是在在星星形形模模型型的的基基础础上上发发展展起起来来的的,,它在在事事实实表表和和维维度度表表的的基基础础上上,,增增加加了了一一类类新新的的表表———详细细类类别别表表。。在星星形形表表中中事事实实表表的的规规范范化化程程度度较较高高,,但但是是对对于于维维度度表表的的冗冗余余度度未未加加限限制制,,雪花花模模型型引引入入详详细细类类别别表表就就是是为为了了将将维维度度表表的的数数据据进进一一步步分分解解,,以以提提高高数数据据模模型型的的规规范范化化程程度度,,具具有有较较低低的的粒粒度度。。在实实际际运运用用中中使使用用星星形形模模型型较较多多雪花花模模式式实实例例48/1012023/1/1事实星座模模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper49/1012023/1/1概念分分层(1)一个概概念分分层((concepthierarchy)定义义一个个映射射序列列,将将低层层概念念映射射到更更一般般的高高层概概念E.g.表示location的概念念:杭杭州浙江江中中国亚洲洲概念分分层允允许我我们在在各种种抽象象级审审查和和处理理数据据概念分分层可可以由由系统用用户、、领域域专家家、知知识工工程师师人工工的提提供,,也可可以根根据数数据分分布的的统计计分析析自动动的产产生50/1012023/1/1概念念分分层层(2):location维的的一一个个概概念念分分层层allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity许多概念念分层的的定义隐隐含在数数据库的的模式中中。比如如:location维的定义义,office<city<country<region;这些属属性按按一个全全序相关关,形成成一个层层次结构构:yeardayquartermonthweekTime维的属性性也可以以组成一一个偏序序,形成成一个格格。例如如,维time基于属性性day,week,month,quarter和year就是一个个偏序“day<{month<quarter;week}<year”51/1012023/1/1概念分层(3)———使用概念分层为为不同级别别上的数据据汇总提供供了一个良良好的基础础综合概念分分层和多维维数据模型型的潜力,,可以对数数据获得更更深入的洞洞察力通过在多维维数据模型型中,在不不同的维上上定义概念念分层,使得用户在在不同的维维上从不同同的层次对对数据进行行观察成为为可能。多维数据模模型(数据据立方体))使得从不不同的角度度对数据进进行观察成成为可能,,而概念分层层则提供了了从不同层层次对数据据进行观察察的能力;;结合这两者者的特征,,我们可以以在多维数数据模型上上定义各种种OLAP操作,为用用户从不同同角度不同同层次观察察数据提供供了灵活性性:52/1012023/1/1多维数据模模型上的OLAP操作(1)上卷(roll-up):汇总数据((实例图))通过一个维维的概念分分层向上攀攀升或者通通过维规约约当用维归约约进行上卷卷时,一个个或多个维维由给定的的数据立方方体删除下钻(drill-down):上卷的逆逆操作由不太详细细的数据到到更详细的的数据,可以通过沿沿维的概念念分层向下下或引入新新的维来实实现(为给定数据据添加更多多细节)切片和切块块(sliceanddice)切片操作在在给定的数数据立方体体的一个维维上进行选选择,导致致一个子方方切块块操操作作通通过过对对两两个个或或多多个个维维进进行行选选择择,,定定义义子子方方53/1012023/1/1多维数据模型型上的OLAP操作(2)转轴(pivot)立方体的重定定位,可视化化,或将一个个3维立方体转化化为一个2维平面序列转轴是一种可视化操作,通过转转动当前数据据的视图来提提供一个数据据的替代表示示54/1012023/1/1知识点回顾顾1、试比较较OLAP与OLTP的区别别。2、数据仓仓库的概念念模型有哪哪些?各有有什么特点点?3、多维数数据模型上上的OLAP操作有有哪些?55/1012023/1/1数据仓库的结结构数据仓库的数数据级别(粒粒度)早期细节数据据存储过去的详详细数据,反反映真实的历历史情况,这类数据随着着时间增加,,数据量很大大,使用频率率低,一般存存储在转换介介质中。(例例如磁带中))当前细节数据据存储储最最近近时时期期的的业业务务数数据据,,反反映映当当前前业业务务的的情情况况,,数数据据量量大大,,是是数数据据仓仓库库用用户户最最感感兴兴趣趣的的部部分分。。随着着时时间间的的推推移移,,当当前前细细节节数数据据由由数数据据仓仓库库的的时时间间控控制制机机制制转转为为早早期期细细节节数数据据。。轻度度综综合合数数据据从当当前前基基本本数数据据中中提提取取出出来来,,通通常常以以较较小小的的时时间间段段((粒粒度度))统统计计而而成成的的数数据据,其其数数据据量量较较细细节节及及数数据据少少得得多多。。高度度综综合合数数据据这这一一层层的的数数据据十十分分精精炼炼,,是是一一种种准准决决策策数数据据。。57/1012023/1/1数据仓库设设计:一个个商务分析析框架(1)数据仓库给给商业分析析专家提供供了什么??通过提供相相关数据与与信息,获得竞争优优势通过有效的的收集精确确的描述组组织的数据据,获得生产力的提提高通过提供不不同级别((部门、市市场、商业业)的客户户视图,协助客户关关系管理通过追踪长长期趋势、、异常等,,降低成本本有效构建数数据仓库的的关键:理理解和分析析商业需求求通过提供一一个商业分分析框架,,综合各种种不同的数数据使用者者的视图58/1012023/1/1数据仓库设计计:一个商务务分析框架(2)数据仓库设计计的四种视图图自顶向下视图图使得我们可以以选择数据仓仓库所需的相相关信息。数据源视图图揭示被操作作数据库系系统所捕获获、存储和和管理的信信息数据仓库视视图由事实表和和维表所组组成商务查询视视图从最终用户户的角度透透视数据仓仓库中的数数据59/1012023/1/1数据仓库设设计:一个个商务分析析框架(3)数据仓库的的构建与使使用涉及多多种技能商业技能理解系统如如何存储和和管理数据据数据如何提提取数据如何刷刷新技术术方方面面的的技技能能如何何通通过过使使用用各各种种数数据据或或量量化化的的信信息息,,导导出出可可以以提提供供决决策策支支持持的的模模式式、、趋趋势势、、判判断断等等如何何通通过过审审查查历历史史数数据据,,分分析析发发展展趋趋势势等等计划划管管理理技技能能如何何通通过过与与不不同同的的技技术术、、厂厂商商、、用用户户交交互互,,来来及及时时、、有有效效、、经经济济的的提提交交结结果果数据据仓仓库库的的设设计计过过程程(1)自顶顶向向下下法法、、自自底底向向上上法法或或者者两两者者的的混混合合方方法法自顶向向下法法:由由总体体设计计和规规划开开始当技术术成熟熟并已已掌握握,对对必须须解决决的商商务问问题清清楚并并已很很好理理解时时,这这种方方法是是有用用的。。自底向向上法法:以以实验验和原原型开开始在商务务建模模和技技术开开发的的早期期阶段段,这这种方方法是是有用用的。。这样样可以以以相相当低低的代代价前前进,,在作作出重重要承承诺之之前评评估技技术的的利益益。混合方方法::上述述两者者的结结合从软件件过程程的观观点瀑布式式方法法:在在进行行下一一步前前,每每一步步都进进行结结构化化和系系统的的分析析螺旋式式方法法:功功能渐渐增的的系统统的快快速产产生,,相继继版本本之间间间隔隔很短短。对对于数数据集集市的的开发发,这这是一一个好好的选选择。。61/1012023/1/1数据仓仓库的的设计计过程程(2)典型的的数据据仓库库设计计过程程选取待待建模模的商商务过过程找到所构建的的数据仓库的的主题,比如:销售、、货运、订单单等等选取商务处理理的粒度。对于处理,该该粒度是基本本的、在事实实表中是数据据的原子级。。例如,单个个事务、一天天的快照等。。选取用于每个个事实表记录录的维。典型的维是时时间、商品、、顾客、供应应商、仓库、、事务类型和和状态。选取将安放在在事实表中的的度量常用的数字度度量包括:售售价、货物数数量等62/1012023/1/1三层层数数据据仓仓库库架架构构(1)数据据仓仓库库提取清理转换装入刷新OLAP服务务器器查询询报报告告分析析数据据挖挖掘掘监控控、、整合合元数数据据存储储数据据源源前端端工工具具输出出数据据集集市市操作数据库其他外部信息源数据据仓仓库库服服务务器器OLAP服务务器器63/1012023/1/1三层数据据仓库架架构(2)底层:数数据仓库库的数据据库服务务器关注的问问题:如如何从这这一层提提取数据据来构建建数据仓仓库(通通过Gateway(ODBC,JDBC,OLE/DB等)来提提取)中间层::OLAP服务器关注的问问题:OLAP服务器如如何实施施(关系系型OLAP(ROLAP),多维维MOLAP(MOLAP)等))前端客客户工工具层层关注的的问题题:查查询工工具、、报表表工具具、分分析工工具、、挖掘掘工具具等三种数数据仓仓库模模型从体系系结构构的角角度去去看,,数据据仓库库模型型可以以有以以下两两种::企业仓仓库搜集了了关于于主题题的所所有信信息,,跨越越整个个组织织数据集集市企业范范围数数据的的一个个子集集,对对于特特定的的客户户是有有用的的。其范围围限于于选定定的主主题,,比如如一个个商场场的数数据集集市独立的的数据据集市市VS.非独立立的数数据集集市((数据据来自自于企企业数数据仓仓库))与企业业仓库库的差差异在在于数数据集集市应应采用用星形形模式式,而而企业业仓库库应采采用事事实星星座模模式65/1012023/1/1数据仓仓库开开发::困难难与方方法数据仓仓库开开发上上的困困难自顶向向下开开发企企业仓仓库是是一种种系统统的解解决方方法,,并能能最大大限度度地减减少集集成问问题。。但它费费用高高,需需要长长时间间开发发,并并且缺缺乏灵灵活性性,因因为整整个组组织的的共同同数据据模型型达到到一致致是困困难的的。自底向向上设设计、、开发发、配配置独独立的的数据据集市市方法法提供供了灵灵活性性、低低花费费,并并能快快速回回报投投资。。然而,,将分分散的的数据据集市市集成成,形形成一一个一一致的的企业业数据据仓库库时,,可能能导致致问题题。解决方法::使用递增性性、演化性性的开发方方法(见后后图)高层数据模模型企业仓库和和数据集市市并行开发发通过分布式式模型集成成各数据集集市多层数据仓仓库66/1012023/1/1数据据仓仓库库开开发发———一个个推推荐荐的的方方法法定义义高高层层数数据据模模型型数据集集市数据集集市分布式式数据据集市市多层数数据仓仓库企业数数据仓仓库模型提提炼模型提提炼67/1012023/1/1OLAP服务器器类型型(1)OLAP服务器器为商商务用用户提提供来来自数数据仓仓库或或数据集市市的多多维数数据,,而不不必关关心数数据如如何存存放和和存放放在何何处。。然而,,OLAP服务器器的物物理结结构和和实现现必须须考虑虑数据据存放放问题题。关系OLAP服务器器(ROLAP)使用关系数数据库库或扩扩展的的关系系数据据库存放并并管理理数据据仓库库的数数据,,而用用OLAP中间件件支持持其余余部分分。数据和和聚合合表都都存在在关系系数据据库。。包括每每个DBMS后端优优化,,聚集集导航航逻辑辑的实实现,,附加加的工工具和和服务务Microstrategy的DSS和Informix的Metacube都采用用ROLAP方法68/1012023/1/1OLAP服务器类类型(2)多维OLAP服务器(MOLAP)通过基于于数组的多多维存储储引擎,支持数数据的多多维视图图。Arbor的Essbase是一个MOLAP服务器。。数据和聚聚合表都都存在多多维数据据结构中中。混合OLAP服务器(HOLAP)结合ROLAP和MOLAP技术,得益于ROLAP较大的规规模性和和MOLAP的快速计计算。例如,HOLAP服务器允允许将大大量详细细数据存存放在关关系数据据库中,,而聚集保持持在分离离的MOLAP存储中。。微软的SQLServer7.0OLAP服务支持持混合OLAP服务器。。数据保存存在关系系数据库库,聚合合存在多多维结构构中。特殊的SQL服务器在星型和和雪花模模型上支支持SQL查询69/1012023/1/1元数据存储储在数据仓库库中,元数据就是是定义数据据仓库对象象的数据。。有以下几种种:数据仓库结结构的描述述仓库模式、、视图、维维、层次结结构、导出出数据的定定义,以及及数据集市市的位置和和内容操作元数据据包括数据血统统(datalineage)、数据类别(currencyofdata),以及监视信信息汇总用的算法法由操作环境到到数据仓库的的映射关于系统性能能的数据索引,profiles,数据刷新、、更新或复制制事件的调度度和定时商务元数据商务术语和定定义、数据拥拥有者信息、、收费政策等等70/1012023/1/1元数据据的使使用元数据据与数数据一一起,,构成成了数数据仓仓库中中的数数据模模型,,元数数据所所描述述的更更多的的是这这个模模型的的结构构方面面的信信息。。在数据据仓库库中,,元数数据的的主要要用途途包括括:用作目目录,,帮助助决策策支持持系统统分析析者对对数据据仓库库的内内容定定义作为数数据仓仓库和和操作作性数数据库库之间间进行行数据据转换换时的的映射射标准准用于指导当前前细节数据和和稍加综合的的数据之间的的汇总算法,,指导稍加综综合的数据和和高度综合的的数据之间的的汇总算法。。71/1012023/1/1数据仓库后后端工具和和程序数据仓库后后端工具主主要指的是是用来装入和刷新新数据的工具具,包括::数据提取::通常,由多多个、异种种、外部数数据源收集集数据。数据清理检测数据种种的错误并并作可能的的订正数据变换将数据由历历史或主机机的格式转转化为数据据仓库的格格式装载排序、汇总总、合并、、计算视图图,检查完完整性,并并建立索引引和分区刷新将数据源的的更新传播播到数据仓仓库中72/1012023/1/1数据据仓仓库库的的应应用用数据据仓仓库库的的三三种种应应用用信息息处处理理支持持查查询询和和基基本本的的统统计计分分析析,,并并使使用用交交叉叉表表、、表表、、图图标标和和图图进进行行报报表表处处理理联机机分分析析处处理理对数数据据仓仓库库中中的的数数据据进进行行多多维维数数据据分分析析支持持基基本本的的OLAP操作作,,切切块块、、切切片片、、上上卷卷、、下下钻钻、、转转轴轴等等数据据挖挖掘掘从隐隐藏藏模模式式中中发发现现知知识识支持持关关联联分分析析,,构构建建分分析析性性模模型型,,分分类类和和预预测测,,并并用用可可视视化化工工具具呈呈现现挖挖掘掘的的结结果果73/1012023/1/1数据据仓仓库库的的应应用用三种种应应用用间间的的差差别别::1、信息息处处理理基基于于查查询询,,可以以发发现现有有用用的的信信息息。。它它不不反反映映复复杂杂的的模模式式,,或或隐隐藏藏在在数数据据库库中中的的规规律律。。因此此,,信信息息处处理理不不是是数数据据挖挖掘掘。。2、联机机分分析析处处理理向向数数据据挖挖掘掘走走近近了了一一步步,,OLAP和数数据据挖挖掘掘的的功功能能可可以以视视为为不不交交的的::OLAP是数数据据汇汇总总/聚集集工工具具,,它它帮帮助助简简化化数数据据分分析析;;而而数数据据挖挖掘掘自自动动地地发发现现隐隐藏藏在在大大量量数数据据中中的的隐隐含含模模式式和和有有趣趣知知识识。。OLAP工具的的目标标是简简化和和支持持交互互数据据分析析;而而数据据挖掘掘的目目标是是尽可可能自自动处处理。。74/1012023/1/1数据仓库的的应用3、数据挖掘的的涵盖面要要比简单的的OLAP操作宽得多多,因为它不仅仅执行数据据汇总和比比较,而且且执行关联联、分类、、预测、、聚类、时时间序列分分析和其它它数据分析析任务。4、数据挖掘不不限于分析析数据仓库库中的数据据。它可以以分析现存存的、比数数据仓库提提供的汇总总数据粒度度更细的数数据。它也可以分分析事务的的、文本的的、空间的的和多媒体体数据,这这些数据很很难用现有有的多维数数据库技术术建模。在这种意义义下,数据据挖掘涵盖盖的数据挖挖掘功能和和处理的数数据复杂性性要比OLAP大得多。从联机分析析处理到联联机分析挖挖掘OLAM联机分析挖挖掘(OLAM,也称OLAP挖掘)将联机分析处处理与数据据挖掘以及及在多维数数据库中发发现知识集集成在一起起,为什么要联联机分析挖挖掘数据仓库中中有高质量量的数据数据仓库中中存放着整整合的、一一致的、清清理过的数数据围绕数据仓仓库的信息息处理结构构存取、集成成、合并多多个异种数数据库的转转换,ODBC/OLEDB连接,Web访问和访问问工具等基于OLAP的探测式数数据分析使用上卷、、下钻、切切片、转轴轴等技术进进行数据挖挖掘数据挖掘功功能的联机机选择多种数据挖挖掘功能、、算法和任任务的整合合联机分析挖挖掘的体系系结构数据仓库元数据多维数据库库OLAM引擎OLAP引擎用户图形界界面API数据方体API数据库API数据清理数据集成第三层OLAP/OLAM第二层多维数据库库第一层数据存储第四层用户界面数据的过滤滤、集成过滤数据库基于约束的的数据挖掘掘挖掘结果77/1012023/1/1第三节::大型数数据库中中的关联联规则挖挖掘78/1012023/1/1什么是关关联规则则挖掘??关联规则则挖掘::从事务数数据库,,关系数数据库和和其他信信息存储储中的大大量数据据的项集集之间发发现有趣趣的、频频繁出现现的模式式、关联联和相关关性。应用:购物篮分分析、分分类设计计、捆绑绑销售等等79/1012023/1/1“尿布与啤酒””——典型关联分析析案例采用关联模型型比较典型的的案例是“尿布与啤酒”的故事。在美美国,一些年年轻的父亲下下班后经常要要到超市去买买婴儿尿布,,超市也因此此发现了一个个规律,在购购买婴儿尿布布的年轻父亲亲们中,有30%~40%的人同时要买买一些啤酒。。超市随后调调整了货架的的摆放,把尿尿布和啤酒放放在一起,明明显增加了销销售额。同样样的,我们还还可以根据关关联规则在商商品销售方面面做各种促销销活动。80/1012023/1/1购物篮篮分析析如果问问题的的全域域是商商店中中所有有商品品的集集合,,则对每种种商品品都可可以用用一个个布尔尔量来来表示示该商商品是是否被被顾客客购买买,则每个个购物物篮都都可以以用一一个布布尔向向量表表示;;而通通过分分析布布尔向向量则则可以以得到到商品品被频频繁关关联或或被同同时购购买的的模式式,这这些模模式就就可以以用关关联规规则表表示。。关联规规则的的两个个兴趣趣度度度量支持度度置信度度81/1012023/1/1购物篮篮分析析以上关关联规规则的的支持持度2%,意味味分析析事务务的2%同时购购买计计算机机和财财务管管理软软件。。置信度度60%意味购购买计计算机机的顾顾客60%也购买买财务务管理理软件件。82/1012023/1/1关联规规则::基本本概念念关联规规则挖挖掘对对象主主要是是事务务型数数据库库,也也可以以是其其它领领域内内的关关系型型数据据库。。关联规规则挖挖掘涉涉及到到以下下几个个基本本概念念。1、项。。对于一一个数数据表表而言言,表表的每每个字字段都都具有有一个个或多多个不不同的的值,,字段段的每每种取取值都都是一一个项项。2、项集集。项项的集集合称称为项项集。。包含含K个项的的项集集被称称为K项集,,K表示项项集中中项的的数目目。由所有有的项项所构构成的的集合合是最最大的的项集集,一一般用用符号号I表示示。。I={i1,i2,...,in}83/1012023/1/1关联联规规则则::基基本本概概念念3、事事务务。。事事务务是是项项的的集集合合。。一一个个事事务务就就是是事事实实表表中中的的一一条条记记录录。。事务务的的集集合合称称为为事事务务集集,,也也就就是是事事务务数数据据库库,,一一般般用用D表示示。。对对销销售售数数据据而而言言,,事事务务数数据据库库的的记记录录一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论