版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Word资料,仅供参考,下载后可编辑OLAP融合于数据挖掘之模型构建论文数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。以下是小编今天为大家精心准备的:olap融合于数据挖掘之模型构建相关论文。内容仅供阅读与参考!olap融合于数据挖掘之模型构建全文如下:1olam模型本文提出的olam模型对olap中数据立方体和星型模式的概念分别进行了拓展,涵盖问题的整个搜索空间,能够比较全面地反映多维数据挖掘的实质.下面描述相应的理论方法、根本权标和
2、数据结构.1.1从数据立方体到影响域本文在olam模型中引进根本权标:影响域(influencedomain).影响域与多维空间的数据立方体在逻篇上是等价的.但立方体上计算的是聚合(aggregation),而影响域上计算的是蕴涵(implication),即数据中隐藏的模式.影响域同立方体一样具有属性和值,不同点在于它具有置信度(confidence).立方体将维映射至度量,而影响域将维和度量映射至置信而影响域将度.一个影响域可视为一个函数,其映射关系从维和度量映射至一置信度级别.影响域可视为是广义概念上的数据立方体空间,因为影响域的大小通常比数据立方体要大得多,olam分析常常在更细的粒度
3、上分析更多的维,或对多个特性之间的关系进行探索.由于每次重新计算的代价太昂贵,所以需要在比星型模式存储有更多的聚合的模式上进行,即采用下一节所提出的旋转模式.为了“遍历”整个影响域,需要将olap运算与影响性分析交叉.可以看出,影响域的操作可在多维和多层次的抽象空间中进行,有利于灵活地挖掘知识.而文献3,4,5的操作是基于数据立方体的多维数据挖掘,包含在基于影响域的操作之内,是其中的特例.影响域概念可用面向对象的思想描述,这样有助于生成一个较好的结构化的框架.影响域包含六个主要特性:(1)根本维(类);(2)属性;(3)对象或实例;(4)层次;(5)度量;(6)蕴涵.其中,根本维是一种高层次的
4、类型划分,如产品、客户等.每个类/维具有一属性集合,如产品维具有属性价格、颜色等.每个类/维有对象或要素作为实例,对象的每个属性具有一个值.在类和属性内存在层次,例如,对类来讲,商标类是产品的父类;对属性来讲,属性集合地区,城市,省是一个层次.度量是在维形成的空间上的计算.蕴涵是在维和度量形成的立方体空间上的计算.1.2从星型模式到旋转模式从面向对象的角度来看,数据立方体与影响域的特性不尽相同,包含根本维(类)、属性、对象或实例、层次以及度量这五个特性,olap的星型模式通常直接映射在该对象结构中.星型模式每个维表都可看成一个对象,对象的属性代表在维表中的列,度量在各个维构成的空间上进行计算.
5、图1给出一个星型模式的例子,包含四个根本维:商店维、客户维、产品维和定货维,中央的事实表中存有度量和各个根本维的码值.星型模式是用来处理聚合运算的,该模式能很好地用于olap,但它本身不带数据挖掘功能,不能用于olam,因此需要将星型模式作相应扩展.在对影响域进行分析的过程中,通常将分析焦点聚焦在星型模式中的维表上(如产品或商店,如图1所示).由于在分析中要用附加的聚合或选择的数据项以丰富维表内容,因此对于每个库表来说,需要比星型模式存储更多的数据.分析的焦点在各个维表之间不断转换,例如从客户维转换至商店维再到产品维等等,可以看作是焦点在绕着星型模式旋转,因此,本文引入“旋转模式”的概念,将o
6、lam的分析结构命名为旋转模式.图2显示出与图1中星型模式所对应的旋转模式的例子.旋转模式的中心存储的是影响域的蕴涵,外围是各个维表的码值以及聚焦度量和其它度量,四周呈辐射状的是各个维表.在执行影响域分析时,焦点沿着不同的根本维(或类)旋转,在维和度量形成的广义数据立方体空间上执行蕴涵运算对应于图1的旋转模式的例子如图3所示,旋转模式中的库表具有五个主要局部:(1)中的库表具有五个主要局部聚焦维;(2)聚焦度量;(3)内部属性;(4)外部属性;(5)非聚焦度量.聚焦维代表当前分析焦点所在的根本维,如图2所示的客户维;聚焦度量代表用户关心的度量,如利润;内部属性是聚焦维中的属性,如客户年龄等;外
7、部属性是非聚焦维中的属性,如某客户最喜爱的产品颜色等;非聚焦度量是用于辅助决策的度量,如某客户平均一次购置的商品的数目.由此可以看出影响域中的存储模式与olap是不同的.2实现olam机制的讨论olam机制具有交互的特性,而且求蕴涵函数的计算代价比较昂贵,因此在大型数据库或数据仓库中实现olam机制的关键是解决快速响应和有效实现的问题.必须考虑如下因素:2.1快速响应和高性能挖掘olam若想获得快速响应和高的性能,会比olap困难,因为数据挖掘的计算代价通常比olap昂贵.快速响应对于交互式挖掘是致关重要的,有时为了得到快速响应甚至可以牺牲精度,因为交互式挖掘能一步步引导挖掘者聚焦在搜索空间并
8、查找越来越多重要的模式.一旦用户能限定小的搜索空间,就可调用更高级的而速度较慢的挖掘算法进行细致分析.可考虑采用逐渐精化数据挖掘质量的olam方法:首先在大数据集上用快速挖掘算法标识出感兴趣的模式/区域,然后用代价较高但较精确的算法进行详细分析.2.2基于数据立方体的挖掘方法基于数据立方体的挖掘方法应该是olam机制的核心.基于立方体的数据挖掘已经有很多研究,包括概念描述、分类、关联、预测、聚类等.基于立方体的挖掘继承了关系型或事务型数据挖掘方法的思想,并具有许多特性.在基于立方体的有效挖掘算法领域需要更多的研究.高性能数据立方体技术对olam很重要.由于一个挖掘系统需要计算大量维之间的关系或
9、详细细节,这样的数据不可能都预先实体化,有必要联机动态计算数据立方体的一局部.另外,多特性数据立方体的有效计算,以及支持具有复杂维和度量的非传统的数据立方体,对有效地数据挖掘都很重要.因此,需进一步开发数据立方体技术.2.3选择或添加数据挖掘算法关系型查询处理能用不同的处理途径对同一查询生成相同的答案,但是采用不同的数据挖掘算法可能会生成显著不同的挖掘结果.因此,提供多种可选的数据挖掘算法很重要.另外,用户也许想自己开发一个算法,如果提供标准开放的api,而且olam系统经过很好地模块化,用户就有可能增加或修改数据挖掘算法.用户定义的数据挖掘算法可以较好地利用一些开发良好的系统构件以及知识可视
10、化工具,并与已有的数据挖掘功能合成.因存在有多个数据挖掘功能,如何在某一具体应用中选定适合的数据挖掘功能是一个问题,必须熟悉应用问题、数据特征以及数据挖掘功能的作用,有时需要执行交互探索式分析来选择适合的功能.因此,建造探索式分析工具以及构建面向应用的语义层是两个重要的解决方案.olam提供探索式分析工具,进一步的研究应该放在为具体应用自动选择数据挖掘功能上.2.4在多个数据挖掘功能之间交互olam的优势不仅仅在于选择一系列的数据挖掘功能,也在于在多个数据挖掘和olap功能之间交互.例如首先切割立方体的一局部,基于一指定的类属性将该局部分类并查找关联规则,然后下挖在更细2.5可视化工具为了有效
11、地显示olap挖掘结果并与挖掘处理交互,开发多种知识和数据可视化工具很重要.图表、曲线、决策树、规则图、立方体视图、boxplot图等是描述数据挖掘结果的有效工具,帮助用户监测数据挖掘的过程并与挖掘过程交互.2.6可扩展性olam系统与用户及知识可视化软件包在顶端通讯,与数据立方体在底端通讯.它应该高度模块化,并具有可扩展性,因为它可能会与多个子系统合成并以多种方式扩展.应该扩展olap挖掘技术至高级的和/或特殊用途的数据库系统,包括扩展的关系型、面向对象的、文本、空间、时间、多媒体和异种数据库以及internet信息系统.对复杂类型的数据,包括结构化、半结构化和非结构化数据的olap挖掘也是
12、一重要的研究方向.2.7做书签和回溯技术olam借助于数据立方体导航,提供应用户充分的自由,运用任一数据挖掘算法序列来探索和发现知识.当从一个数据挖掘状态转换至另一状态时常常可有很多项选择择.可做个书签,如果发现一个路径无意义,就回到原先的状态并探索其它的方法.这种做标记和回溯机制防止用户“迷失在olam空间”中.3结论利用olam模型沿着多个维进行挖掘,观察沿着这些维的模式,进行合并,并以智能的方式与用户进行交互,可以在多维数据库的不同的部位和不同的抽象级别交互地执行挖掘.它有如下优点:(1)便于交互式探索性的数据分析.有效的数据挖掘需要探索性的数据分析功能6.用户常希望灵活地遍历数据库,选择任一局部的相关数据,在不同的抽象级别上分析,并以不同的形式表示知识/结果.olam便于对不同的数据子集在不同抽象级别上进行数据挖掘,这连同数据/知识可视化工具将大大加强探索性数据挖掘的能力和灵活性.(2)联机选择数据挖掘功能.事先预测挖掘何种类型的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度专利实施许可及技术转让合同2篇
- 足疗店技师合作协议1
- 医药销售协议
- 科普知识课件
- 国际磋商2024年度市场准入条件
- 2024版钢筋混凝土施工安全防护用品采购合同3篇
- 激励高二的教学课件教学课件教学
- 挖掘机买卖合同书范本
- 配电自动化系统设计与实施2024年度合同
- 个人承包2024年度库房消防演练合同3篇
- 中学生养成良好学习习惯和行为习惯的主题班会
- 上海市莘庄中学等四校联考2025届高二物理第一学期期中检测试题含解析
- 能源审计与管理
- 施工承包合同(包工包料)(30篇)
- 2024年学期辅导员工作计划(四篇)
- 第5单元 圆 单元测试(含答案)2024-2025学年六年级上册数学人教版
- 自考《13180操作系统》考前强化练习试题库及答案
- 2024年P气瓶充装理论考试题及答案
- 2024年中国儿童呼吸道合胞病毒感染诊疗及预防指南(实践版)解读课件
- 北京高校物业管理服务人员配置及费用测算指导意见
- DB42∕T 2232-2024 湖北省水利工程护坡护岸参考设计图集
评论
0/150
提交评论