7-数据仓库与数据挖掘_第1页
7-数据仓库与数据挖掘_第2页
7-数据仓库与数据挖掘_第3页
7-数据仓库与数据挖掘_第4页
7-数据仓库与数据挖掘_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1/1012023/3/25第六章数据仓库与数据挖掘2/1012023/3/25数据挖掘的发展动力

---需要是发明之母数据爆炸问题自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。我们拥有丰富的数据,但却缺乏有用的信息

解决方法:数据仓库技术和数据挖掘技术数据仓库(DataWarehouse)和在线分析处理(OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)3/1012023/3/25什么是数据挖掘?数据挖掘(从数据中发现知识)

从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识

挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)数据挖掘的替换词数据库中的知识挖掘(KDD)知识提炼数据/模式分析数据考古数据捕捞、信息收获等等。4/1012023/3/25数据挖掘:数据库中的知识挖掘(KDD)数据挖掘——知识挖掘的核心数据清理数据集成数据库数据仓库Knowledge任务相关数据选择数据挖掘模式评估5/1012023/3/25KDD的步骤从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识数据清理:(这个可能要占全过程60%的工作量)数据集成数据选择数据变换数据挖掘(选择适当的算法来找到感兴趣的模式

—狭义)6.模式评估7.知识表示(如图形等表示方法)6/1012023/3/25典型数据挖掘系统的体系结构数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成7/1012023/3/25并非所有的东西都是数据挖掘基于数据仓库的OLAP系统OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。机器学习系统,数据统计分析系统这些系统所处理的数据容量往往很有限。信息系统专注于数据的查询处理。相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合8/1012023/3/25在何种数据上进行数据挖掘9/1012023/3/25数据挖掘的主要功能

——可以挖掘哪些模式?一般功能描述性的数据挖掘预测性的数据挖掘通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括:概念/类描述:特性化和区分关联分析分类和预测聚类分析孤立点分析趋势和演变分析10/1012023/3/25概念/类描述:特性化和区分概念描述:为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述)特征化:提供给定数据集的简洁汇总。例:对AllElectronic公司的“大客户”(年消费额$1000以上)的特征化描述:40-50岁,有固定职业,信誉良好,等等区分:提供两个或多个数据集的比较描述。例:11/1012023/3/25关联分析关联规则挖掘:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。广泛的用于购物篮或事务数据分析。例:12/1012023/3/25分类和预测1、分类在商业上应用最多,其目的是找出一组能够描述数据集合典型特征的模型和函数。2、数据分类实际上就是从数据库对象中发现共性,并将数据对象分成不同类别的过程。3、分类的目标首先是对训练数据进行分析,使用数据的某些特征属性,给出每个类的准确描述,然后使用这些描述,对数据库中的其他数据进行分类。4、分类通常和预测联系起来,这是因为分类可以用来预测数据对象的类标记,也可以用来预测不知道的数据值,当被预测的值是数值数据时,通常称之为预测。13/1012023/3/25分类和预测例:通过训练数据获得了如下规则:IF年龄=“31..40”AND收入=“较高”

THEN信用程度=“优秀”规则的含义:年龄在31到40之间,收入较高的情况下,这类顾客群的信用程度被认为是“优秀”IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“fair”THENbuys_computer=“no”14/1012023/3/25聚类分析聚类分析:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。最大化类内的相似性和最小化类间的相似性例:对WEB日志的数据进行聚类,以发现相同的用户访问模式聚类分析与分类分析相反,首先输入的是一组没有被标记的记录,系统按照一定的规则合理地划分记录集合(相当于给记录打标记,只不过分类标准不是用户指定的),然后可以采用分类分析法进行数据分析,并根据分析的结果重新对原来的记录集合(没有被标记的记录集合)进行划分,进而再一次进行分类分析,如此循环往复,直到获得满意的分析结果为止。15/1012023/3/25孤立点分析孤立点分析孤立点:一些与数据的一般行为或模型不一致的孤立数据通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。应用信用卡欺诈检测移动电话欺诈检测客户划分医疗分析(异常)16/1012023/3/25趋势和演变分析是针对事件或对象行为随时间变化的规律或趋势,并以此来建立模型。例如:对股票市场交易数据进行时序演变分析,则可能得到这样的规则:AT&T股票连续上涨两天且DEC股票不下跌,那么第三天IBM股票上涨的可能性为75%。趋势和偏差:回归分析序列模式匹配:周期性分析基于类似性的分析17/1012023/3/25所有模式都是有趣的吗?数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。模式兴趣度的度量一个模式是有趣的,如果(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设模式兴趣度的客观和主观度量客观度量:基于所发现模式的结构和关于它们的统计,比如:支持度、置信度等等主观度量:基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等18/1012023/3/25能够产生所有有趣模式并且仅产生有趣模式吗?找出所有有趣的模式:数据挖掘算法的完全性问题数据挖掘系统能够产生所有有趣的模式吗?试探搜索vs.穷举搜索关联vs.分类vs.聚类只搜索有趣的模式:数据挖掘算法的最优化问题数据挖掘系统可以仅仅发现有趣的模式吗?方法首先生成所有模式然后过滤那些无趣的.仅仅生成有趣的模式—挖掘查询优化19/1012023/3/25数据挖掘:多个学科的融合数据挖掘数据库系统统计学其他学科算法机器学习可视化20/1012023/3/25数据挖掘系统的分类(1)数据挖掘的多学科融合的特性,决定了数据挖掘的研究将产生种类繁多的数据挖掘系统。根据所挖掘的数据库分类关系数据库,事务数据库,流式数据,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时序数据库,文本数据库,多媒体数据库,异构数据库,历史数据库21/1012023/3/25数据挖掘系统的分类(2)根据挖掘的知识类型特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析等等.多种方法的集成和多层机挖掘根据挖掘所用的技术面向数据库的挖掘、数据仓库、OLAP、机器学习、统计学、可视化等等.根据挖掘所用的应用金融,电信,银行,欺诈分析,DNA分析,股票市场,Web挖掘等等.第二节:数据仓库和数据挖掘的OLAP技术23/1012023/3/25数据仓库-数据挖掘的有效平台数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤数据仓库提供OLAP工具,可用于不同粒度的数据分析很多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现分类预测关联聚集24/1012023/3/25数据仓库的定义与基本特性1.数据仓库的定义

WilliamH.Inmon在1993年所写的论著《BuildingtheDataWarehouse》首先系统地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。文中他将数据仓库定义为:adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.

一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。25/1012023/3/25数据仓库关键特征一——面向主题

面向主题表示了数据仓库中数据组织的基本原则,数据仓库中的数由数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。例如,企业中的客户、产品、供应商等都可以作为主题看待。从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。26/1012023/3/25数据仓库关键特征二——数据集成一个数据仓库是通过集成多个异种数据源来构造的。关系数据库,一般文件,联机事务处理记录(OLTP)使用数据清理和数据集成技术。确保命名约定、编码结构、属性度量等的一致性。当数据被移到数据仓库时,它们要经过转化。27/1012023/3/25数据仓库关键特征三——随时间而变化数据仓库是从历史的角度提供信息数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统:主要保存当前数据。数据仓库:从历史的角度提供信息(比如过去5-10年)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素尽管数据仓库中的数据并不像业务数据库那样反映业务处理的实际状况,但是数据也不能长期不变,如果依据10年前的数据进行决策分析,那决策所带来的后果将是十分可怕的。28/1012023/3/25因此,数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,也就是说在数据仓库中必须不断的生成主题的新快照,以满足决策分析的需要。数据新快照生成的间隔,可以根据快照的生成速度和决策分析的需要而定。

例如,如果分析企业近几年的销售情况,那快照可以每隔一个月生成一次;如果分析一个月的畅销产品,那快照生成间隔就需要每天一次。29/1012023/3/25数据仓库的非易失性是指数据仓库的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间。因为数据仓库中数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。数据仓库关键特征四——数据不易丢失30/1012023/3/25数据仓库关键特征四——数据不易丢失尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。操作数据库的更新操作不会出现在数据仓库环境下。不需要事务处理,恢复,和并发控制等机制(大大提高了处理速度)只需要两种数据访问:数据的初始转载和数据访问(读操作)31/1012023/3/25数据仓库的构建与使用数据仓库的构建包括一系列的数据预处理过程数据清理数据集成数据变换数据仓库的使用热点是商业决策行为,例如:增加客户聚焦产品重定位寻找获利点客户关系管理32/1012023/3/25数据仓库与操作数据库系统操作数据库系统的主要任务是联机事务处理OLTP日常操作:购买,库存,银行,制造,工资,注册,记帐等数据仓库的主要任务是联机分析处理OLAP数据分析和决策支持,支持以不同的形式显示数据以满足不同的用户需要33/1012023/3/25OLAPVS.OLTP(1)用户和系统的面向性面向顾客(事务)VS.面向市场(分析)数据内容当前的、详细的数据(如超市一个月的数据)VS.历史的、汇总的数据数据库设计实体-联系模型(ER)和面向应用的数据库设计VS.星型/雪花模型和面向主题的数据库设计34/1012023/3/25OLAPVS.OLTP(2)数据视图当前的、企业内部的数据VS.经过演化的、集成的数据访问模式事务操作(如查询、写入、修改)VS.只读查询(但很多是复杂的查询)任务单位简短的事务VS.复杂的查询访问数据量数十个VS.数百万个35/1012023/3/25OLAPVS.OLTP(3)用户数数千个VS.数百个(复杂查询,消耗资源)数据库规模100M-数GB(因此一般关注近期数据)

VS.100GB-数TB设计优先性高性能、高可用性VS.高灵活性、端点用户自治度量事务吞吐量VS.查询吞吐量、响应时间36/1012023/3/25为什么需要一个分离的数据仓库?“既然操作数据库存放了大量数据”,“为什么不直接在这种数据库上进行联机分析处理,而是另外花费时间和资源去构造一个分离的数据仓库?”分离的主要原因是提高两个系统的性能DBMS是为OLTP而设计的:存储方式,索引,并发控制,恢复(OLAP不需要)数据仓库是为OLAP而设计:复杂的OLAP查询,多维视图,汇总为什么需要一个分离的数据仓库?两个系统提供不同的功能和处理不同的数据:历史数据:

决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)数据质量:

不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成由于两个系统提供很不相同的功能,需要不同类型的数据,因此需要维护分离的数据库。然而,许多关系数据库管理系统卖主正开始优化这种系统,使之支持OLAP查询。随着这一趋势的继续,OLTP和OLAP系统之间的分离可望消失。OLAP与OLTP对比总结39/1012023/3/25OLAP的几个基本概念1、维:维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。同一个问题可以从不同维度进行观察分析。如:超市分析某一个时期内营业额的变化,是从时间维角度分析。按所处地区对连锁店的营业额分析,是从地理维角度分析。2、维的层次:在同一维度上存在多个程度不同的细节。3、维的成员:是指某个维的某个具体取值。4、多维数组:如果一个数据集合可以从多个角度进行观察,则根据这些维度将数据组织所构成的数组,就是多维数组.多维数组可以用图形化来表示,也可以用表格表示OLAP的几个基本概念

当维度的数量不超过3时,采用图形的方法可以很直观的表达出该数组的内涵,但超三维的结构,图形方式无能为力。如增加客户类别维。OLAP的几个基本概念超三维数据的表格表示42/1012023/3/25多维数据模型(1)数据仓库和OLAP工具基于多维数据模型(OLTP基于什么?)在多维数据模型中,数据以数据立方体(datacube)的形式存在数据立方体允许以多维数据建模和观察。它由维和事实定义维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。多维数据模型围绕中心主题组织,该主题用事实表表示事实表包括事实的名称或度量以及每个相关维表的关键字事实指的是一些数字度量43/1012023/3/25多维数据模型(2)——示例

time_keydayday_of_the_weekmonthquarteryeartime维表location_keystreetcitystate_or_provincecountrylocation维表Sales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem维表branch_keybranch_namebranch_typebranch维表数据仓库的概念模型最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。星型模式(Starschema):事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。雪花模式(Snowflakeschema):是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。事实星座(Factconstellations):

多个事实表共享维表,这种模式可以看作星型模式集,因此称为星系模式(galaxyschema),或者事实星座(factconstellation)45/1012023/3/25

time_keydayday_of_the_weekmonthquarteryeartime维表location_keystreetcitystate_or_provincecountrylocation维表Sales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem维表branch_keybranch_namebranch_typebranch维表星型模式实例46/1012023/3/25雪花模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity47/1012023/3/25雪花模型是在星形模型的基础上发展起来的,它在事实表和维度表的基础上,增加了一类新的表——详细类别表。在星形表中事实表的规范化程度较高,但是对于维度表的冗余度未加限制,雪花模型引入详细类别表就是为了将维度表的数据进一步分解,以提高数据模型的规范化程度,具有较低的粒度。在实际运用中使用星形模型较多雪花模式实例48/1012023/3/25事实星座模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper49/1012023/3/25概念分层(1)一个概念分层(concepthierarchy)定义一个映射序列,将低层概念映射到更一般的高层概念E.g.表示location的概念:杭州浙江中国亚洲概念分层允许我们在各种抽象级审查和处理数据概念分层可以由系统用户、领域专家、知识工程师人工的提供,也可以根据数据分布的统计分析自动的产生50/1012023/3/25概念分层(2):location维的一个概念分层allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity许多概念分层的定义隐含在数据库的模式中。比如:location维的定义,office<city<country<region;这些属性按一个全序相关,形成一个层次结构:yeardayquartermonthweekTime维的属性也可以组成一个偏序,形成一个格。例如,维time基于属性day,week,month,quarter和year就是一个偏序“day<{month<quarter;week}<year”51/1012023/3/25概念分层(3)——使用概念分层为不同级别上的数据汇总提供了一个良好的基础综合概念分层和多维数据模型的潜力,可以对数据获得更深入的洞察力通过在多维数据模型中,在不同的维上定义概念分层,使得用户在不同的维上从不同的层次对数据进行观察成为可能。多维数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力;结合这两者的特征,我们可以在多维数据模型上定义各种OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性:52/1012023/3/25多维数据模型上的OLAP操作(1)上卷(roll-up):汇总数据(实例图)通过一个维的概念分层向上攀升或者通过维规约当用维归约进行上卷时,一个或多个维由给定的数据立方体删除下钻(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现(为给定数据添加更多细节)切片和切块(sliceanddice)切片操作在给定的数据立方体的一个维上进行选择,导致一个子方切块操作通过对两个或多个维进行选择,定义子方53/1012023/3/25多维数据模型上的OLAP操作(2)转轴(pivot)立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列转轴是一种可视化操作,通过转动当前数据的视图来提供一个数据的替代表示54/1012023/3/25知识点回顾1、试比较OLAP与OLTP的区别。2、数据仓库的概念模型有哪些?各有什么特点?3、多维数据模型上的OLAP操作有哪些?55/1012023/3/25数据仓库的结构

数据仓库的数据级别(粒度)早期细节数据

存储过去的详细数据,反映真实的历史情况,这类数据随着时间增加,数据量很大,使用频率低,一般存储在转换介质中。(例如磁带中)当前细节数据

存储最近时期的业务数据,反映当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分。随着时间的推移,当前细节数据由数据仓库的时间控制机制转为早期细节数据。轻度综合数据

从当前基本数据中提取出来,通常以较小的时间段(粒度)统计而成的数据,其数据量较细节及数据少得多。高度综合数据

这一层的数据十分精炼,是一种准决策数据。57/1012023/3/25数据仓库设计:一个商务分析框架(1)数据仓库给商业分析专家提供了什么?通过提供相关数据与信息,获得竞争优势通过有效的收集精确的描述组织的数据,获得生产力的提高通过提供不同级别(部门、市场、商业)的客户视图,协助客户关系管理通过追踪长期趋势、异常等,降低成本有效构建数据仓库的关键:理解和分析商业需求通过提供一个商业分析框架,综合各种不同的数据使用者的视图58/1012023/3/25数据仓库设计:一个商务分析框架(2)数据仓库设计的四种视图自顶向下视图使得我们可以选择数据仓库所需的相关信息。数据源视图揭示被操作数据库系统所捕获、存储和管理的信息数据仓库视图由事实表和维表所组成商务查询视图从最终用户的角度透视数据仓库中的数据59/1012023/3/25数据仓库设计:一个商务分析框架(3)数据仓库的构建与使用涉及多种技能商业技能理解系统如何存储和管理数据数据如何提取数据如何刷新技术方面的技能如何通过使用各种数据或量化的信息,导出可以提供决策支持的模式、趋势、判断等如何通过审查历史数据,分析发展趋势等计划管理技能如何通过与不同的技术、厂商、用户交互,来及时、有效、经济的提交结果数据仓库的设计过程(1)自顶向下法、自底向上法或者两者的混合方法自顶向下法:由总体设计和规划开始当技术成熟并已掌握,对必须解决的商务问题清楚并已很好理解时,这种方法是有用的。自底向上法:以实验和原型开始在商务建模和技术开发的早期阶段,这种方法是有用的。这样可以以相当低的代价前进,在作出重要承诺之前评估技术的利益。混合方法:上述两者的结合从软件过程的观点瀑布式方法:在进行下一步前,每一步都进行结构化和系统的分析螺旋式方法:功能渐增的系统的快速产生,相继版本之间间隔很短。对于数据集市的开发,这是一个好的选择。61/1012023/3/25数据仓库的设计过程(2)典型的数据仓库设计过程选取待建模的商务过程找到所构建的数据仓库的主题,比如:销售、货运、订单等等选取商务处理的粒度。对于处理,该粒度是基本的、在事实表中是数据的原子级。例如,单个事务、一天的快照等。选取用于每个事实表记录的维。典型的维是时间、商品、顾客、供应商、仓库、事务类型和状态。选取将安放在事实表中的度量常用的数字度量包括:售价、货物数量等62/1012023/3/25三层数据仓库架构(1)数据仓库提取清理转换装入刷新OLAP服务器查询报告分析数据挖掘监控、整合元数据存储数据源前端工具输出数据集市操作数据库其他外部信息源数据仓库服务器OLAP服务器63/1012023/3/25三层数据仓库架构(2)底层:数据仓库的数据库服务器关注的问题:如何从这一层提取数据来构建数据仓库(通过Gateway(ODBC,JDBC,OLE/DB等)来提取)中间层:OLAP服务器关注的问题:OLAP服务器如何实施(关系型OLAP(ROLAP),多维MOLAP(MOLAP)等)前端客户工具层关注的问题:查询工具、报表工具、分析工具、挖掘工具等三种数据仓库模型从体系结构的角度去看,数据仓库模型可以有以下两种:企业仓库搜集了关于主题的所有信息,跨越整个组织数据集市企业范围数据的一个子集,对于特定的客户是有用的。其范围限于选定的主题,比如一个商场的数据集市独立的数据集市VS.非独立的数据集市(数据来自于企业数据仓库)与企业仓库的差异在于数据集市应采用星形模式,而企业仓库应采用事实星座模式65/1012023/3/25数据仓库开发:困难与方法数据仓库开发上的困难自顶向下开发企业仓库是一种系统的解决方法,并能最大限度地减少集成问题。但它费用高,需要长时间开发,并且缺乏灵活性,因为整个组织的共同数据模型达到一致是困难的。自底向上设计、开发、配置独立的数据集市方法提供了灵活性、低花费,并能快速回报投资。然而,将分散的数据集市集成,形成一个一致的企业数据仓库时,可能导致问题。解决方法:使用递增性、演化性的开发方法(见后图)高层数据模型企业仓库和数据集市并行开发通过分布式模型集成各数据集市多层数据仓库66/1012023/3/25数据仓库开发——一个推荐的方法定义高层数据模型数据集市数据集市分布式数据集市多层数据仓库企业数据仓库模型提炼模型提炼67/1012023/3/25OLAP服务器类型(1)OLAP服务器为商务用户提供来自数据仓库或数据集市的多维数据,而不必关心数据如何存放和存放在何处。然而,OLAP服务器的物理结构和实现必须考虑数据存放问题。关系OLAP服务器(ROLAP)使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而用OLAP中间件支持其余部分。数据和聚合表都存在关系数据库。包括每个DBMS后端优化,聚集导航逻辑的实现,附加的工具和服务Microstrategy的DSS和Informix的Metacube都采用ROLAP方法68/1012023/3/25OLAP服务器类型(2)多维OLAP服务器(MOLAP)通过基于数组的多维存储引擎,支持数据的多维视图。Arbor的Essbase是一个MOLAP服务器。数据和聚合表都存在多维数据结构中。混合OLAP服务器(HOLAP)结合ROLAP和MOLAP技术,得益于ROLAP较大的规模性和MOLAP的快速计算。例如,HOLAP服务器允许将大量详细数据存放在关系数据库中,而聚集保持在分离的MOLAP存储中。微软的SQLServer7.0OLAP服务支持混合OLAP服务器。数据保存在关系数据库,聚合存在多维结构中。特殊的SQL服务器在星型和雪花模型上支持SQL查询69/1012023/3/25元数据存储在数据仓库中,元数据就是定义数据仓库对象的数据。有以下几种:数据仓库结构的描述仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容操作元数据包括数据血统(datalineage)、数据类别(currencyofdata),以及监视信息汇总用的算法由操作环境到数据仓库的映射关于系统性能的数据索引,profiles,数据刷新、更新或复制事件的调度和定时商务元数据商务术语和定义、数据拥有者信息、收费政策等70/1012023/3/25元数据的使用元数据与数据一起,构成了数据仓库中的数据模型,元数据所描述的更多的是这个模型的结构方面的信息。在数据仓库中,元数据的主要用途包括:用作目录,帮助决策支持系统分析者对数据仓库的内容定义作为数据仓库和操作性数据库之间进行数据转换时的映射标准用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。71/1012023/3/25数据仓库后端工具和程序数据仓库后端工具主要指的是用来装入和刷新数据的工具,包括:数据提取:通常,由多个、异种、外部数据源收集数据。数据清理检测数据种的错误并作可能的订正数据变换将数据由历史或主机的格式转化为数据仓库的格式装载排序、汇总、合并、计算视图,检查完整性,并建立索引和分区刷新将数据源的更新传播到数据仓库中72/1012023/3/25数据仓库的应用数据仓库的三种应用信息处理支持查询和基本的统计分析,并使用交叉表、表、图标和图进行报表处理联机分析处理对数据仓库中的数据进行多维数据分析支持基本的OLAP操作,切块、切片、上卷、下钻、转轴等数据挖掘从隐藏模式中发现知识支持关联分析,构建分析性模型,分类和预测,并用可视化工具呈现挖掘的结果73/1012023/3/25数据仓库的应用三种应用间的差别:1、信息处理基于查询,可以发现有用的信息。它不反映复杂的模式,或隐藏在数据库中的规律。因此,信息处理不是数据挖掘。2、联机分析处理向数据挖掘走近了一步,OLAP和数据挖掘的功能可以视为不交的:OLAP是数据汇总/聚集工具,它帮助简化数据分析;而数据挖掘自动地发现隐藏在大量数据中的隐含模式和有趣知识。OLAP工具的目标是简化和支持交互数据分析;而数据挖掘的目标是尽可能自动处理。74/1012023/3/25数据仓库的应用3、数据挖掘的涵盖面要比简单的OLAP操作宽得多,因为它不仅执行数据汇总和比较,而且执行关联、分类、预测、聚类、时间序列分析和其它数据分析任务。4、数据挖掘不限于分析数据仓库中的数据。它可以分析现存的、比数据仓库提供的汇总数据粒度更细的数据。它也可以分析事务的、文本的、空间的和多媒体数据,这些数据很难用现有的多维数据库技术建模。在这种意义下,数据挖掘涵盖的数据挖掘功能和处理的数据复杂性要比OLAP大得多。从联机分析处理到联机分析挖掘OLAM联机分析挖掘(OLAM,也称OLAP挖掘)将联机分析处理与数据挖掘以及在多维数据库中发现知识集成在一起,为什么要联机分析挖掘数据仓库中有高质量的数据数据仓库中存放着整合的、一致的、清理过的数据围绕数据仓库的信息处理结构存取、集成、合并多个异种数据库的转换,ODBC/OLEDB连接,Web访问和访问工具等基于OLAP的探测式数据分析使用上卷、下钻、切片、转轴等技术进行数据挖掘数据挖掘功能的联机选择多种数据挖掘功能、算法和任务的整合联机分析挖掘的体系结构数据仓库元数据多维数据库OLAM引擎OLAP引擎用户图形界面API数据方体API数据库API数据清理数据集成第三层OLAP/OLAM第二层多维数据库第一层数据存储第四层用户界面数据的过滤、集成过滤数据库基于约束的数据挖掘挖掘结果77/1012023/3/25第三节:大型数据库中的关联规则挖掘78/1012023/3/25什么是关联规则挖掘?关联规则挖掘:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。应用:购物篮分析、分类设计、捆绑销售等79/1012023/3/25“尿布与啤酒”——典型关联分析案例采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。80/1012023/3/25购物篮分析如果问题的全域是商店中所有商品的集合,则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示。关联规则的两个兴趣度度量支持度置信度81/1012023/3/25购物篮分析

以上关联规则的支持度2%,意味分析事务的2%同时购买计算机和财务管理软件。置信度60%意味购买计算机的顾客60%也购买财务管理软件。82/1012023/3/25关联规则:基本概念

关联规则挖掘对象主要是事务型数据库,也可以是其它领域内的关系型数据库。关联规则挖掘涉及到以下几个基本概念。1、项。对于一个数据表而言,表的每个字段都具有一个或多个不同的值,字段的每种取值都是一个项。2、项集。项的集合称为项集。包含K个项的项集被称为K项集,K表示项集中项的数目。由所有的项所构成的集合是最大的项集,一般用符号I表示。I={i1,i2,...,in}83/1012023/3/25关联规则:基本概念3、事务。事务是项的集合。一个事务就是事实表中的一条记录。事务的集合称为事务集,也就是事务数据库,一般用D表示。对销售数据而言,事务数据库的记录一般由事物处理时间,一组顾客购买的物品,顾客标示号几部分组成。每个事务都有一个唯一的标示,记作TID。84/1012023/3/25基本概念——示例项的集合I={A,B,C,D,E,F}每个事务T由事务标识符TID标识,它是项的集合比如:TID(2000)={A,B,C}任务相关数据D是数据库事务的集合D规则度量:支持度和置信度CustomerbuysdiaperCustomerbuysbothCustomerbuysbeer对所有满足最小支持度和置信度的关联规则支持度s是指事务集D中包含的百分比置信度c是指D中同时包含A和B的事务数与只包含A的事务数的比值假设最小支持度为50%,最小置信度为50%,则有如下关联规则AC(50%,66.6%)CA(50%,100%)86/1012023/3/25知识点回顾1、何为企业仓库、数据集市?二者有何区别?2、请分析数据仓库、OLAP、数据挖掘的关系。3、请解释如下关联规则:87/1012023/3/25知识点回顾2、请分析数据仓库、OLAP、数据挖掘的关系联机分析处理和数据挖掘是数据仓库之上的增值技术。OLAP侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息。OLAP的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。

88/1012023/3/25大型数据库关联规则挖掘(1)1、项的集合称为项集。包含k个项的项集称为k-项集。集合{computer,financial_management_software}是一个2-项集。2、项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数。3、同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。4、支持度大于等于支持度阈值的项集称为频繁项集。含有K个项的项集称为K-项集,或频繁K-项集。89/1012023/3/25最小支持度和最小可信度

为了发现有意义的关联规则,通过由用户或数据挖掘系统给定两个阈值:最小支持度和最小可信度。最小支持度表示了项集在统计意义上须满足的最低程度。最小可信度反应了关联规则需满足的最低程度。如果不考虑关联规则的支持度和可信度,那么在D中则存在过多的关联规则。人们一般只对满足一定的支持度和置信度的关联规则感兴趣。因此,使用两个阈值的作用可以限制数据挖掘系统输出的关联规则的数量,尽可能给用户提供有意义的关联规则。90/1012023/3/25大型数据库关联规则挖掘(2)

“如何由大型数据库挖掘关联规则?”关联规则的挖掘是一个两步的过程:1.找出所有频繁项集:根据定义,这些项集出现的频繁性至少和预定义的最小支持计数一样。(最小支持度)2.由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。如果愿意,也可以使用附加的兴趣度度量。这两步中,第二步最容易。挖掘关联规则的总体性能由第一步决定。关联规则挖掘分类(1)关联规则有多种分类:根据规则中所处理的值类型布尔关联规则如果规则描述的是量化的项或属性之间的关联,则它是量化关联规则。在这种规则中,项或属性的量化值划分为区间。92/1012023/3/25关联规则挖掘分类(1)根据规则中涉及的数据维单维关联规则:如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则。(仅涉及buys这个维)多维关联规则:如果规则涉及两个或多个维,如维buys,time_of_transaction和customer_category,则它是多维关联规则。93/1012023/3/25关联规则挖掘分类(2)根据规则集所涉及的抽象层单层关联规则多层关联规则(在不同的抽象层发现关联规则)由事务数据库挖掘单维布尔关联规则最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。最小支持度50%最小置信度50%对规则AC, 其支持度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论