数据挖掘工具简介_第1页
数据挖掘工具简介_第2页
数据挖掘工具简介_第3页
数据挖掘工具简介_第4页
数据挖掘工具简介_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SEMINAR题目题目:数据挖掘工具和应用中的问题发表杂志发表杂志:东北大学学报(2001.04)作者作者:郝先臣,张德干,高光来,赵海所属机构所属机构:东北大学信息科学与工程学院题目题目:国内数据挖掘工具研究综述发表杂志发表杂志:情报杂志(2008年第10期)作者作者:钱峰所属机构所属机构:南京大学商学院题目题目:国外先进数据挖掘工具的比较分析发表杂志发表杂志:计算机工程(2003第16期)作者作者:张海英所属机构所属机构:南京农业大学信息科技学院题目题目:Web数据挖掘技术及工具研究发表杂志发表杂志:计算机工程与应用2001年第20期作者作者:邓 英 李 明所属机构所属机构:甘肃工业大学电

2、气工程与信息工程学院SEMINAR题目题目:数据挖掘工具和应用中的问题发表杂志发表杂志:东北大学学报(2001.04)作者作者:郝先臣,张德干,高光来,赵海所属机构所属机构:东北大学信息科学与工程学院SEMINAR论文结构 一、数据挖掘方法论 数据取样 数据探索 数据调整 数据分析 结果评价 二、数据挖掘工具 三、应用性能比较分析 四、待解决的问题SEMINAR1 1 数据挖掘方法论数据挖掘方法论 1、数据挖掘方法论数据挖掘的过程一般由三个主要的阶段组成: (1)、数据准备 数据采样(集成)、数据探索(选择)、数据调整(预处理) (2)、数据分析(挖掘操作) 首先决定如何产生假设; 选择合适的

3、工具; 发掘知识 的操作; 证实发现的知识 (3)、 结果评价(表达和解释) 这个阶段根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分开来,并且通过决策支持工具提交给决策者SEMINAR1 1 数据挖掘方法论数据挖掘方法论 1. 1数据取样数据取样(Sample) 当进行数据挖掘时,首先要从企业大量数据中取出一个与要探索问题相关的样板数据子集,而不是动用全部企业数据。 通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使想要它反映的规律性更加凸现出。 如果是要进行过程的观察控制,这时可进行随机取样,然后根据样本数据对企业或其中某个过程的状况作出估计。

4、 若想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以使其有代表性。SEMINAR1 1 数据挖掘方法论数据挖掘方法论 1. 2数据探索数据探索(Explore) 当拿到了一个样本数据集后,它是否达到原来设想的要求;其中有没有什么明显的规律和趋势;有没有出现从未设想过的数据状态;因素之间有什么相关性;它们可区分成怎样一些类别这都是要首先探索的内容。 进行数据特征的探索、分析,最好是能进行可视化的操作。这里的数据探索,就是通常所进行的深入调查的过程。最终要达到的目的可能是要搞清多因素相互影响的、十分复杂的关系。 但是,这种复杂的关系不可能一下子建立起来。一开始

5、,可以先观察众多因素之间的相关性;再按其相关的程度,以了解它们之间相互作用的情况。SEMINAR 1. 3数据调整数据调整(Modify) 通过上述两个步骤的操作,对数据的状态和趋势可能有了进一步的了解。对原来要解决的问题可能会有了进一步的明确;这时要尽可能对问题解决的要求能进一步的量化。问题越明确,越能进一步量化,问题就向它的解决更前进了一步。这是十分重要的。 在问题进一步明确化的基础上,就可以按照问题的具体要求来审视数据集了,看它是否适应问题的需要。Gartner Group在评论当前一些数据挖掘产品时特别强调指出:在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和所将建立模型处于

6、十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的进行。1 1 数据挖掘方法论数据挖掘方法论SEMINAR 1. 41. 4数据分析数据分析(Analysis)(Analysis) 这一步是数据挖掘工作的核心环节。正如Gartner Group评论中所指出的:数理统计方法是数据挖掘工作中最常用的主流技术手段。各种不同类型模型、不同特点数据的回归分析,如正交回归、响应面回归、Logistic回归、非线性回归等,且有多种形式模型化的方法选择。 在数据挖掘中使用哪一种方法,这主要取决于数据集的特征和要实现的目标。1 1 数据挖掘方法论数据挖掘方法论SEMINAR 1. 5结果评价结果评价(As

7、sess) 从上述过程中将会得出一系列的分析结果、模式或模型。若能得出一个直接的结论当然很好。但更多的时候会得出对目标问题多侧面的描述。这时就要能很好的综合它们的影响规律性提供合理的决策支持信息。 评价的办法之一是直接使用原来建立模型的样板数据来进行检验。假如这一关就通不过的话,那末决策支持信息的价值就不太大了。 另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的。 再一种办法是在实际运行的环境中取出新鲜数据进行检验。如在一个应用实例中,就进行了一个月的现场实际检验。1 1 数据挖掘方法论数据挖掘方法论SEMINAR 2数据挖掘工具 数据挖掘工具主要有两类 (1)、特定领域的数据

8、挖掘工具 特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案。在设计算法的时候,充分考虑到数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。 特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。2 2数据挖掘工具数据挖掘工具SEMINAR 例如,IBM公司的AdvancedScout 系统针对NBA的数据,帮助教练优化战术组合;加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,帮助天文学家发现遥远的类星体;芬兰赫尔辛基大学计算机科学系开发的TASA

9、,帮助预测网络通信中的警报。 (2)、通用的数据挖掘工具 通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,一般提供六种模式。 通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。 例如,IBM公司Almaden研究中心开发的QUEST系统, SGI 公司开发的MineSet 系统,加拿大SimonFraser大学开发的DBMiner 系统。2 2数据挖掘工具数据挖掘工具SEMINAR 3应用性能比较分析 基于沈阳东宇电子商务平台,本文针对IBM公司的QUEST、SGI公司和美国Standford大学联合开发的MineSet

10、、加拿大Simon Fraser大学开发的DBMiner进行了应用性能比较分析。 QUEST QUEST是一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件,所以系统具有如下特点:提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。 可适用于任意大小的数据库;算法具有找全性,即能将所有满足指定类型的模式全部寻找出来;为各种发现功能设计了相应的并行算法。3应用性能比较分析应用性能比较分析SEMINAR MineSet MineSet 也是一个多任务数据挖掘系统。MineSet 集成多种数据挖掘算法

11、和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。 MineSet 2. 6有如下特点:以先进的可视化显示方法闻名于世; 使用了6种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调整最终效果,以便更好地理解。 DBMiner DBMiner同样是一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。3应用性能比较分析应用性能比较分析SEMINAR DBMiner 系统具有如下特色:能完成多种知识的发现:泛化规则、特性规则、关联规则、

12、分类规则、演化知识、偏离知识等;综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法;提出了一种交互式的类SQL语言数据开采查询语言DMQL;能与关系数据库平滑集成;实现了基于客户/ 服务器体系结构的Unix和PC(Windows/ NT)版本的系统。3应用性能比较分析应用性能比较分析SEMINAR 4待解决的问题 (1) 由于数据挖掘是一门涉及面很广的交叉性新兴学科,它涉及到数据库、人工智能、数理统计、可视化、并行计算等多个领域的知识和技术,因此要把多种方法结合起来使用,目前还很困难。 (2) 为高效、完备、准确地实现数据挖掘,目前的工具还需不断地改进

13、。 (3) 急需智能专家系统式的新数据挖掘工具和方法。 (4) 通用工具集或工具包的开发。4待解决的问题待解决的问题SEMINAR总结总结 论文的主要贡献及结论:论文的主要贡献及结论:本文详细分析了数据挖掘中对数据的处理,和对数据挖掘工具的简单介绍。 论文的主要缺点:论文的主要缺点:论文说针对工具没用实际应用的数据支持,只是简单的理论分析。SEMINAR题目题目:国内数据挖掘工具研究综述发表杂志发表杂志:情报杂志(2008年第10期)作者作者:钱峰所属机构所属机构:南京大学商学院SEMINAR论文结构论文结构 一、数据挖掘工具研究的文献计量分析 二、数据挖掘工具研究的内容分析 三、数据挖掘工具

14、研究的方向 四、结束语SEMINAR1 1、数据挖掘工具研究的文献计量分析、数据挖掘工具研究的文献计量分析 数据挖掘工具研究的文献计量分析 CNKI中共收录相关论文35篇。这35篇论文按时间和学科的分布分别如表1、表2所示: 表1显示:自1998年起,CNKI中“数据挖掘工具”的相关论文数量呈递增趋势。这表明数据挖掘工具逐渐成为学者们关注的对象。究其原因,主要在于数据挖掘在多个领域的广泛应用,而工具在数据挖掘的应用中必不可少,自然也越来越受关注。 SEMINAR 表2显示:从事数据挖掘工具研究的学者主要分布在四个专业领域,即计算机、图书情报学、遥感自动化、商学。 从论文数量上看,计算机领域发表

15、的相关论文数量最多(25篇) ,占71. 4%,其次为图书情报学领域与遥感自动化领域,均占11.4%,再次是商学领域,占5. 7%。究其原因,主要在于非计算机领域的学者通常只是将数据挖掘作为一种方法,从事研究工作时,会使用数据挖掘工具即可,而不会专门从事数据挖掘工具的研究。1 1、数据挖掘工具研究的文献计量分析、数据挖掘工具研究的文献计量分析SEMINAR 2数据挖掘工具研究的内容分析 笔者将数据挖掘工具的研究主题归纳为三个方面: (1)数据挖掘工具的分类; (2)数据挖掘工具的介绍与开发; (3)数据挖掘工具的比较与评价。 2. 1数据挖掘工具的分类 按照一般的分类方法,数据挖掘工具可以分为

16、:特定领域的数据挖掘工具和通用的数据挖掘工具。 按照软件所基于的平台划分,数据挖掘工具可分为:基于DOS的软件工具、基于Windows的软件工具、基于Linux的软件工具和基于Solaris的软件工具等。2数据挖掘工具研究的内容分析数据挖掘工具研究的内容分析SEMINAR2数据挖掘工具研究的内容分析数据挖掘工具研究的内容分析 根据应用领域将数据挖掘工具分为3类:通用单任务类、通用多任务类、专用领域类。 根据所采用的技术将数据挖掘工具分为6类:基于规则和决策树的工具、基于神经元网络的工具、数据可视化方法、模糊发现方法、统计方法和综合多方法。SEMINAR 2.2数据挖掘工具的介绍与开发 刘君强等

17、开发了智能型数据挖掘工具SmartMiner ,该工具是以在数据挖掘算法研究和专家系统研究中取得的成果为基础,提出了挖掘作业描述语言MDL和挖掘任务模型脚本语言,设计了挖掘向导、可视化向导和挖掘任务模型,集成了数据仓库管理功能,挖掘引擎具有智能性,体系结构开放并可扩展。 袁红春等将常用于关系数据库和事务数据库的面向属性的归纳和关联规则挖掘方法扩展应用于GIS数据库,开发了空间数据挖掘工具GISMiner。 何耀东等开发了DM-Tools,实现了基于数据库的知识发现(KDD) 的主要过程。2数据挖掘工具研究的内容分析数据挖掘工具研究的内容分析SEMINAR 2.3数据挖掘工具的比较与评价2数据挖

18、掘工具研究的内容分析数据挖掘工具研究的内容分析SEMINAR评价2数据挖掘工具研究的内容分析数据挖掘工具研究的内容分析SEMINAR 3数据挖掘工具研究的方向 根据学者与数据挖掘工具之间的关系,可将学者群体分为两类:开发者与使用者。 从开发者的角度而言,开发专业领域的数据挖掘工具将成为一个重要的研究方向,因为数据挖掘日益广泛地应用在过程中,必将有越来越专业化的需求,如Web挖掘中对于音频、视频等多媒体数据的挖掘。 从使用者的角度而言,数据挖掘工具的分类评价也将成为一个重要的研究方向,越来越多的专业领域的数据挖掘工具将使得数据挖掘工具的综合评价适用性降低,分类评价将成为关注的焦点。3数据挖掘工具研究的方向数据挖掘工具研究的方向SEMINAR 3.1专业领域数据挖掘工具的开发 数据挖掘的研究热点包括:Web挖掘(Web内容挖掘、Web结构挖掘、Web日志挖掘) 、生物信息挖掘、文本数据挖掘等。 数据库有规范的结构,其中数据有统一的格式,而且高度结构化,而Web上的数据结构性差,多为半结构化或非结构化,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论