大三复习-第三学期商务智能_第1页
大三复习-第三学期商务智能_第2页
大三复习-第三学期商务智能_第3页
大三复习-第三学期商务智能_第4页
大三复习-第三学期商务智能_第5页
免费预览已结束,剩余18页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据 lookforpatternslookforhiddenpatternsDSSDecisionSupportSystem特DBE-R当前的、总体的,读/写(可变的读(稳定的DB100MB~有关的事务处理所需的数据不尽相同。在该例中,可以抽取出三个不同的(即分析对象)及其相关的数据:源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。 数据仓库是度多层次

见效快、启动参加ppt426决策者(高级管理一般操作员(管理维层1998年,1月,19981月,199811日,11数据单元(单元格OLAP事实表(fact它存放表中的主要事实,称其为量

切片,切块,上钻,下钻(参见书切片切块数据概括数据细化面向原面向原仓库的设计,这种设计方法被称为“数据驱动”方法E-R是一种较次的抽象,对它的认识与表示是一个逐步完善的过程。因此,在开始时不妨先确定一个初步将E-R图转换成关系数据库的二维表物理模型设计–合并以减低表的连接操作的代价。这样的技术称为合并表。修改关系模式把某些属性到多个不同的表中去,从而减少一次分析过程需要的表的数量。可以由外关键字的组合构成事实表的主关键字(Primary维度表的定义通常包括???行尽可能少的行(相对于事实表节省空历史一致性0747???而库存事实表则需要记录每天、每种商品、在每个商场的库存情况(不管是否发生了实际的销售事实3(Semiadditive不能简单地利用SQLAVG数据仓库总线结数据仓库总线矩阵一致性维这样的维度表在物理上可能是同一张表,也可能是不同的表,但它们应该具有属性、相同的属性定义与相同的属性值。在最佳粒度层次上的维度定义(最小的粒度(roll-up在较次上的维度定义(较大的粒度 快照vs.每周快一致性事 三种类型事特事务粒周期快照粒累积快照粒代表的时间时间规律性可预见间是短期粒每个事务事件一每段一每个生命期一事实表加与更事实行更不重新存不重新存行为发生任何时候都要重新存取日期维事务发生日时间段终止日标准关键环节的多个事事务活预定时间间隔的性给定生命期的性事务粒度–当天的记录(并非统计结果––可以考虑在维度表中增加两个日期属性:维度的生效日期和截止定义一:数据挖掘就是对数据库(数据仓库)中蕴涵的、未知的、非平凡的、有潜在应用价值的模式(规则)的提定义二:数据挖掘就是从大型数据库()感的知识这隐含的、事先未知的潜在有用信息。数据挖掘中模式置信度度非平凡性有效性模 知模 R1:在面包和黄油的顾客中,大部分的人同时也买了牛如果没有足够的置信度,模式不能成为知识。因此在数据挖掘过程中,通常要规定模式的最小置信度例如:模式R1的支持度为“同时‘面包,黄油和牛奶’的顾客人数占总顾客人数的百分比”,即因此,在数据挖掘过程中也要规定模式的‘最小支持度’,以淘汰哪些在极少情况下才会出现的模式非平凡在数据挖掘中,知识的发现过程都应具有某种不确定性和一定的度,也就是要发现不平凡的知识。有效性常用的数据

面向属性归约方数据立方方法数据概括(roll_up上翻如:从‘基本关系表’‘概括关系表一’‘概括关系表二’数据细化(drill_down下翻如:从‘概括关系表二’‘概括关系表一’‘基本关系表’支持度同时A和B的客户人数占总客户数的百分比称为规则R1的支持度Support(A→B)=Probability(AB)则表示顾客同时商品A和商品B的概率,即置信度同时A和B的客户人数占A的客户人数的百分比称为规则R1的置信度Confidence(A→B)=Probability(B/AProbability(B/A)表示在发生事件A的情况下事件B出现的可能性。在这里表示顾客商品的同时也商品B的条件概率,即Apriori算法的前因关系。被分析对象具有前后的时序关下 洪电 电分类分数据分类是一个两个步骤的过程第1步:建立一个模型,描述给定的数据类集或概念集(简称训练集。通过分析由属性描述的数据库元组来构造模导的学习(聚类。学习模型可用分类规则、决策树和数学公式的形式给出。训练数 步:使用模型对数据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行训练数分分类规分类算学模模型评数据分分类规测试数新数分使用决策树进行分类分为两步聚类分聚类分析分为距离聚类和相似系数聚数据挖掘一般可由下面5个步骤组成,它挖评表1 数据立方体,举例,说明维和层,说明切片,切块,上钻,下钻时间日月季日周周周季日年月月数据立方体数据仓库的数据模式通常可以看成是定义在多个数据源上的数据视图,其中的分析型数据通常是一些获取这些总结性数据的常用方法是在视图中用统计函数进行计算,但这种方法的缺点是显见的:时间开销太物化视为了高对统计信息查询速度,可以预先计算数视图中的统计信息并保存在数据仓库中,这称为‘物化视图’,即将虚的视图转变成实际的视图。存放物化视图的三维数据模型叫‘数据立方体方体格 date,product,date,

0-D(x)cuboid1-Dcuboids2-D3-D(base)n维方体称为0维方体代表最次的抽象,称作顶点方方体格构成数切片广数据分析旋转操电冰 时数据分析钻取操作(细化对时间维进行下钻操作,获得新表如上钻操作(概化例如,1995年各季度销售收入表如DimensionS_LIMITFACTSSNSALE_NUMDATE01/01/0202/25/02DimensionFACT123-12-123-12-123-12-123-12-123-12-123-12-

01/01/02 03/13/023、Apriori物理模型设合并建立数据序引入冗表的物理分生成导出数建立广义索规范化/物理模型设–表的物理分割(1/2)类似于在逻辑设计阶段的数据分可以根据表中每个属性数据的频率和稳定性程度对表的结构进行分割对于频率较高的属性,可以单独考虑其物理存织方式。对于需要频繁更新的属性,也可以单独组织其物理,以免因数据更新而带来的空间重组、重构等工作。物理模型设–建立广义索引(1/2)用于记录数据仓库中数据与有关的统计结果的索引被称为广义索引:当月销售额最高的商当月销售情况的商品这样的广义索引的数据量是非常小的,可以在每次进行数据仓库数据加载工作时生成或刷新这样的广义索户可以从已经建立的广义索引里直接获取这些统计信息,而不必对整个On-LineTransaction通常仅仅是对一个或一组记录的查询或修改查询简单,但执行频率高分析型处 也叫做信息型处理,主要用于企业管理的需要大量的历史数据-典型的的分析型处(DSS--DecisionSupportSystem描述了数据的结构、内容、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论