版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘技术近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据 量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运 而生。1数据挖掘的应用与研究发展数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘 有用知识的过程。数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和 产业界的广泛关注。数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001 年,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五 年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数 据挖掘列为未来五年内投
2、资焦点的十大新兴技术前两位。美国麻省理工学院在 2001年1月份的科技评论(Technology Review)提出将在未来5年对人类产生 重大影响的10大新兴技术,其中第3项就是数据挖掘。数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学 院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现 遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一; 生物学研究中用数据挖掘技术对DNA进行分析;利用数据挖掘技术识别顾客的 购买行为模式,对客户进行了分析;利用数据挖掘技术识别顾客的购买行为模式, 对客户进行了分析;对银行或商业上经常发生的诈骗
3、行为进行预测;旧M公司开 发的AS(Advanced Scout)系统针对NBA的数据,帮助教练优化战术组合等。数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学以及管理信 息系统等学科的成果。多学科的相互交融和相互促进,使得数据挖掘这一新学科 得以蓬勃发展。1995年在加拿大召开了第一届知识发现和数据挖掘国际学术会议,由于数 据库中的数据被形象地比喻为矿床,数据挖掘一词很快流传开来。1995年以来, 国外在数据挖掘和知识发现方面形成了热门研究方向,其中发表论文比较集中的 期刊如:Data Mining and Knowledge Discovery(数据挖掘和知识发现)、Artific
4、ial Intelligence Review(人工智能评论)等。2数据挖掘技术的研究对数据挖掘的理论研究主要在以下六个方面:OLAP技术、面向属性的归纳 法、关联规则、分类和预测、聚类和与数据仓库的集成技术。2.1 OLAP 技术联机分析处理(On-Line Analytical Processing,OLAP)是关系数据库之父E.F.Codd博士在1993年提出的。OLAP可以在使用多维数据模型的数据仓库或数 据集市上进行,使用数据立方体结构,OLAP操作可以有效地实现。OLAP技术主要 是应用隐含在数据里的领域背景知识对数据进行操作,为用户在不同的抽象层上 提供数据。OLAP技术一般都是
5、集成在数据仓库中实现的。面向属性的归纳方法2.2面向属性的归纳方法1991年,Jiawei Han等提出了面向属性的归纳方法 (Attribute-Oriented,AO)10,这是一种有效的、完整的知识发现算法,算法的一个关 键就是攀升属性所对应的概念层次树,把原始数据集的数据泛化到用户感兴趣的 概念层上,减少数据集的大小,从而降低知识发现过程的计算复杂度。2.3关联规则关联规则的挖掘最早是由R.Agrawal等人于1993年提出。在关联规则算法 的研究中,生成所有的频繁项目集是核心问题。目前国内对关联规则的研究主要 集中在以下3方面:1)提高原有算法的效率在解决最大频繁项目集的生成问题上,
6、为了提高对空间和时间的利用效率, 对数据库的扫描次数进行了缩减,由最初的两次扫描减少为一次就可以生成最大 频繁集,提高了算 法的效率。2)结合其它理论对关联规则进行研究引入粗糙集概念,使关联规则发现的模式具有较高的解释能力和精确度。 为了解决数量关联规则提取过程中的连续属性离散化问题采用了聚类方法;通过 引入神经网络的概念,提出用相互激活与竞争网络来进行数据库中的关联规则的 发现等。可以看出通过引入其他领域的先进理论,丰富了关联规则研究的内容,提 高了算法的有效性。3)不同形式关联规则的研究关联规则最早是由购物篮分析开始的,但是随着研究的扩展和深入,关联规 则的应用范围不断扩大,因此出现了多种
7、形式关联规则的研究。由最简单的单维、 单层、布尔关联规则逐渐向复杂形式扩展。在基本失联规则的基础上提出了布尔 型加权关联规则和广义模糊型加权关联规则算法,由单层的关联规则扩展为多层 次关联规则的研究19,提出了基于多维标度关联规则算法20,其他类型的关联 规则如借助正态模糊数模型,软化数量属性的划分边界,生成语言值关联规则21, 引入正态云模型来替代对属性论域的划分,提出了挖掘正态云关联规则的方法,基 于关联规则的不足,还提出了转移规则及其算法。另外对于关联规则挖掘指导 思想也出现了变化,提出了概念指导的关联规则的挖掘算法和基于概念格的关联 规则的提取算法。2.4分类和预测分类和预测是两种数据
8、分析形式,可以用于提取描述重要数据类的模型或 预测未来的数据趋势。主要的分类方法有:决策树归纳分类法、贝叶斯分类法、 后向传播分类法等。国内的分类方法研究主要集中在以下内容:1)研究贝叶斯网络在分类方法中的应用利用贝叶斯网络可以找出数据之间潜在的关系,并且可以将简单贝叶斯方 法应用于增量分类中,这样可以增量地修正分类器参数和增量地分类测试样本。2)结合其他理论进行算法研究通过遗传算法,对单个分类器进行优化并对多个分类器进行组合优化。通 过不同的相似性度量方法,复用完全相似或者条件相似的历史序列,提出一种多策 略的基于CBR的趋势预测方法。分类及预测中,神经网络技术的优点是其对噪声数据具有较高的
9、承受能力, 对未经训练的数据具有分类识别的能力。但是它的主要缺点是可解释性差,这影 响了神经网络技术的使用。相对于神经网络技术,决策树技术的优点比较易于理 解和解释,而它受到的典型批评是由于递归划分方式导致数据子集变小,失去了进 一步划分的意义。贝叶斯分类方法从理论上讲具有最小的出错率,还可以用来为 不直接使用贝叶斯定理的其他分类算法提供理论判定。其缺点主要来自于贝叶斯 分类的假定,当假定成立时,与其它分类算法相比是最精确的,然而,在实践中,假定 不一定总是成立。2.5聚类聚类是一个活跃的研究领域,聚类就是将数据对象分组成为多个类或簇,在 同一个簇中的对象之间具有较高的相似度,而不同簇中的对象
10、则差别较大,聚类算 法具体可以分为:划分方法、层次方法、基于密度的方法、基于网格的方法以及 基于模型的方法等。聚类分析可以用作独立的数据挖掘工具,来获得对数据分布 的了解,也可以作为其它数据挖掘算法的预处理步骤。目前聚类研究主要集中在对复杂聚类方法上,如对高维数据的可视化聚类 方法,以及基于大规模交易数据库的二次聚类聚类算法CATD。该算法只需扫描一次数据库,聚类过程在内存中进行,因此能处理大规模的数据库。聚类的各 种方法的主要区别在于实现算法的思想不同,聚类的各种方法各有其优缺点,算法 的选择取决于数据的类型、聚类的目的和应用。一些聚类算法可能集成了多种聚 类算法的思想,此外,某些应用可能有
11、特定的聚类标准,要求综合使用多种聚类技 术。2.6与数据仓库的集成技术研究比较通用的对数据仓库的定义是W.H.Inmon在1996年提出的,他认为数据仓 库一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过 程。数据仓库为数据挖掘提供了更广阔的活动空间。数据仓库完成了数据的收集、 集成、存储、管理等工作,数据挖掘面对的是经初步加工的数据,使得数据挖掘能 更专注于知识的发现。数据仓库具有不同于数据库的新特点,并对数据挖掘技术 提出了更高的要求,数据挖掘技术要充分发挥潜力,就必须和数据仓库的发展结合 起来。目前数据仓库的供应商很多,比较著名的有IBM、Oracle、Sybase
12、、微软等。 旧M和Oracle等公司的数据仓库技术中含有不同的策略和算法,以IBM和Oracle 为例,IBM在其数据仓库系统中集成了 IntelligentMiner能够进行典型数据集自动 生成、关联发现、序列规律发现、概念性分类和可视化呈现,它可以自动实现数 据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作。Oracle集成了 Oracle Darwin系统,这是基于数据仓库的数据挖掘工具,具有简单易用的图形化界 面,能够提供决策树、神经网络等多种数据挖掘方法,支持海量数据的并行处理, 分析结果可以和现有系统集成应用。这些表明了数据挖掘技术集成应用是十分必 要的,也是今后发展的大趋
13、势。3云计算环境下的数据挖掘技术云计算已成为当前的一个研究热点Google,Amazon,IBM等主流信息技术公 司先后提出了各自的云计算体系架构多家研究机构也提出了各种云计算实践平 台如芝加哥大学和佛罗里达大学开发的用于科研教育的弹性云计算平台nimbus cloud和florida cloud。云计算是借助高速带宽和虚拟化技术”在分布式计算,并 行计算,网格计算和效用计算基础上的进一步发展。目前云计算还处于研究与 应用的初级阶段尚未形成统一的标准和定义,分析和综合众多云计算定义可以 得出其基本特点,云环境具有超大规模的存储和计算能力资源和结构具有动态 伸缩性并且通过虚拟化技术和庞大的资源池
14、按需提供服务,云计算的这些特点 使数据存储,分析和应用的商业化成为可能也使云计算环境下的数据挖掘成为 一个具有理论和应用价值的研究领域。随着业务量的增长和业务范围的扩展企业数据库中积累了海量的商业数 据传统的数据挖掘模式无法满足海量数据挖掘对计算能力的需求因而需要建 立具有高性能计算能力的新型数据挖掘模式,同时网络环境下为了适应数据量 的增长和跨地区的业务操作企业的数据多存储在分布式的数据仓库或数据中心 上现有的大量数据管理软件和商业决策软件不支持网络环境下的分布式挖掘技 术因而需要构建一个能够处理分布式数据存储,分布式执行数据分析任务的数 据挖掘模式,云计算为网络环境下的数据挖掘提供了良好的
15、解决方案解决了传 统数据挖掘方法在网络数据分析中存在的问题,云计算环境下的资源以分布式的 形式存储数据挖掘任务的执行模式有别于传统的本地单机挖掘模式符合网络 环境下数据挖掘的要求,云计算超大规模的服务器集群具备超强的计算能力云 存储具备强大的存储能力,数据分析能力和数据管理能力其共同构成了海量数 据挖掘开发和应用的有利基础,现有的数据挖掘解决方案大多以系统为中心特 别重视算法和系统工程没有从用户的角度探讨数据挖掘技术的应用使系统难 于操作和使用。一些数据挖掘工具只适合专业技术人员,如果对算法不了解!则 难以得出好的模型,这也增加了企业纵向开发数据挖掘平台的技术成本阻碍了数 据挖掘的企业应用。云
16、计算环境从面向服务的角度为数据挖掘提供了良好的解决 方案。在云平台中,存储,平台,应用都是可共享的资源。这些资源被封装成具 有统一接口的组件,以服务的形式提供给用户和开发者。此外,作为一种商业计 算模式,云计算的软件即服务(software as a service,软件即服务)模式将数据挖 掘程序作为服务按需出售,降低了中小企业的数据挖掘成本,为数据挖掘商业应用 的推广提供了良好的平台。在传统的分布式数据挖掘和网格数据挖掘的基础上,结合现有的云计算相 关研究,国内外的专家学者们对云计算环境下的数据挖掘进行了开拓性的探索, 提出了初步的设计构想。现有的研究成果主要集中在3个方面:一是云计算环境
17、 下的数据挖掘算法研究,即通过算法在云计算环境下的移植或改进,来提高算法 的性能。二是云计算环境下数据挖掘的体系架构研究!即分析设计数据挖掘平台 的体系结构。三是云计算在数据挖掘应用中的研究,亦即将云计算平台作为数据 挖掘商业应用的解决方案。云计算环境通过基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务 (SaaS)3种服务模式,将数据存储、计算设备、开发平台、应用软件等软硬件 资源以服务的形式提供给用户,形成一种按需获得的计算服务。在这种计算服务 的模式下,用户使用云计算环境下的数据挖掘,关心的不是各种数据挖掘应用在 云平台中的实现,而是根据数据挖掘任务的需求,最大限度地使用云
18、平台中服务 于数据挖掘的各种资源。包括计算资源#存储资源#应用程序资源等,云计算环境 下的数据挖掘是一种网络计算资源的应用,其实质是一种服务模式。用户向云端 提出的数据挖掘任务就是一种云服务,执行数据挖掘运算的处理器和存储空间均 视为服务的资源,与任务相关的数据库、数据仓库、数据挖掘算法等可看作是支 持数据挖掘服务的专用资源。3.1云计算数据挖掘服务的优势1)基于云计算的模式可以进行分布式并行数据挖掘,实现高效实时的挖掘。 同时可以适应规模不同的组织,为中小企业带来新型低成本计算环境,大企业云 计算平台对某些特定数据的计算对大型高性能机的依赖性会得到减轻。2)基于云计算的数据挖掘开发方便,底层
19、被屏蔽掉了。对于用户来说,无 需考虑数据的划分、数据分配、加载到节点以及计算任务调度等。3)在并行化条件下利用原先的设备,可以在很大程度上提高大规模处理数 据能力。在增加结点方面也比较自由和方便,同时容错性得到了提高。4)基于云计算的数据挖掘保证了挖掘技术的共享,降低了数据挖掘应用的 门槛,使海量数据挖掘需求得到了满足。3.2基于云计算的海量数据挖掘模型基于云计算的海量数据挖掘服务的主要目标是利用云计算的并行处 理和海量存储能力,解决数据挖掘面临的海量数据处理问题。图1给出基 于云计算的海量数据挖掘模型的层次结构图。图1基于云计算的海量数据挖掘模型的层次结构图基于云计算的海量数据挖掘模型大体上
20、可以分为三层。位于最底层的是云计算服 务层,提供分布式和并行数据处理及数据的海量存储,云计算环境中对海量数据 的存储既要考虑数据的高可用性,又要保证其安全性。云计算采用分布式方式对 数据进行存储,为数据保存多份副本的冗余存储方式保证了当数据发生 灾难时不影响用户的正常使用。目前常见的云计算数据存储技术有非开源的GFS 和开源的HDFS,其中GFS是由Google开发的,HDFS是由Hadoop团队开发的。 此外,云计算使用并行工作模式,能够在大量用户同时提出请求时,迅速给予回 应并提供服务。位于云计算服务层之上的是数据挖掘处理层,这一层又包括海量数据预处 理和海量数据挖掘算法并行化。海量数据预
21、处理主要是对海量不规则数据事先进 行处理。没有好的数据就没有好的数据挖掘结果。由于云计算环境下的 Mapreduce计算模型适用于结构一致的海量数据,因此,面对形态各异的海量数 据,首先就要对它们进行预处理。数据预处理方法包括数据抽取、数据转换、数 据清洗和集成、数据规约、属性概念分层的自动生成等。经过预处理的数据能提 高数据挖掘结果的质量,使挖掘过程更有效、更容易。海量数据挖掘的关键是数据挖掘算法的并行化由于云计算采用的是 Mapreduce等新型计算模型,需要对现有的数据挖掘算法和并行化策略进行一定 程度的改造,才有可能直接应用在云计算平台上进行海量数据挖掘任务。因此需 要在数据挖掘算法的
22、并行化策略上进行更为深入的研究,从而使云计算并行海量 数据挖掘算法的高效性得以实现。并行海量数据挖掘算法包括并行关联规则算法、 并行分类算法和并行聚类算法,用于分类或预测模型、数据总结、数据聚类、关 联规则、序列模式、依赖关系或依赖模型、异常和趋势发现等。基于此,针对海 量数据挖掘算法的固有的特点对已经存在的云计算模型进行优化升级以及适当 扩充,使其对海量数据挖掘的适用型得到最大程度的提升。最顶层是面向用户的用户层,该层主要接收用户的请求,并将传递给下面 两层,并将最终的数据挖掘结果展示给用户。用户通过友好的可视化界面管理和 监视任务的执行,并且可以很方便地查看任务执行结果。用户的数据挖掘请求
23、通过用户输入模块传递到系统内部,系统根据用户提 交的一些数据挖掘参数和基本数据,在算法库中选择合适的数据挖掘算法,然后 调用经过预处理阶段的数据,分配到MapReduce平台上进行并行数据挖掘,挖 掘出的结果通过结果展示模块传递给用户。海量数据的存储和并行化处理都依赖 于云计算环境。3.3基于云计算的数据挖掘服务过程云计算环境下的数据挖掘从管理角度看$是一个服务过程。从技术角度看, 是一种软件产品。结合软件的生命周期,在云计算的分布式开发过程中,探讨云 数据挖掘的服务过程。将基于云计算的数据挖掘服务过程定义为分析、设计、开 发、维护和衰亡4个阶段,如图2所示。图2云数据挖掘服务的过程1)分析阶
24、段:根据需求发现或识别服务,定义相应的服务描述,标志着 服务生命周期的开始。2)设计阶段:根据服务定义和描述,生成服务的说明书,设计服务的接 口和契约,包括服务的语义和非功能性特性,以及服务提供商、服务消费者和服 务代理之间的契约。3)开发阶段:实现服务的功能性特性,在服务定义的范围内进行低耦合、 高内聚的功能集成,最终形成独立的服务组件,并通过服务接口进行功能的沟通 与调用。4)维护阶段:服务处于运行状态时,在不影响服务设计的前提下修复开 发的缺陷,或根据服务的需求更新已有的服务版本。服务的开发与维护是同时进 行的,使服务的生命周期处于不断成长、成熟的循环发展状态。5)衰亡阶段:当服务的功能
25、无法通过维护满足服务需求时,必须撤销该 服务,防止使用中服务的数量出现急剧膨胀。3.4基于云计算的数据挖掘问题海量数据在存储、管理、处理与挖掘这一流程中,其本身就是一项严峻的 任务。主要体现在:1)海量数据的存储与管理应保障其可靠性与可拓展性。管理中要保证服 务的可信问题以及安全问题;存储的方式还应该满足不同用户的需求,因此可扩 展性也是一个不可忽略的问题。2)海量数据处理!数据规模过大,复杂情况出现的概率有所增加;软硬件 的标准相应地提高;算法的优质性逐渐得到重视。3)海量数据挖掘!如何针对海量的数据提取数据、归纳数据、挖掘知识, 最后形成人们便于理解的供使用的知识,相应算法的选取和优化是极
26、具挑战性的 问题。云计算的海量数据挖掘能力更加高效,然而也存在众多问题。首先是云环 境下从海量数据中获取用户满意的信息,这一核心目标直接导致云环境下用户对 数据挖掘功能的需求有所变更。用户对海量数据挖掘效用的变更主要体现为个性 化需求与多样性需求的增加。其次海量数据的挖掘除了要处置其数量级,还要处 理高维的、动态的数据。因此,云环境下对海量数据进行数据挖掘从而提供云服 务也存在一些挑战。1)数据挖掘过程各个环节的不确定性。数据挖掘从其本质的目的来说, 就是为了从不确定性的数据中分析挖掘出确定的信息,克服不确定性带来的影响。 然而海量数据挖掘在克服不确定性方面还有待加强:首先表现在数据挖掘任务 的描述具有不确定性,数据采集对象与数据预处理粒度的不确定性;其次表现在 数据挖掘方法的不确定性;最后表现在数据挖掘结果评价的不确定性。2)数据挖掘算法的选取!海量数据挖掘云服务过程中,数据挖掘云服务提 供商需要根据数据挖掘的任务选择合适的算法!数据挖掘算法的设计、参数的调 节直接影响到数据挖掘任务结果的精确度和用户的满意程度。3)数据挖掘云服务的可信问题。数据挖掘云服务模式得以推广到企业, 充分发挥其商业价值,首要任务是解决隐私数据的保护问题。云环境下隐私安全 问题历来都是学者与企业研究的热点问题之一。数据挖掘云服务的提供商在其服 务的过程中,还应该尽量使云服务的计算模式与云用户需求相匹配
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能安防与视频监控技术投资合同三篇
- abaqus长方体课程设计
- 一建建筑课程设计
- 青岛大学《敦煌舞》2023-2024学年第一学期期末试卷
- 2024年中国拖拉机内燃机配件市场调查研究报告
- 2024建筑装饰工程施工合同(共享)
- 防治废水课程设计
- 发电厂课程设计仿真软件
- 防水造价实训课程设计
- 单片机课程设计思政案例
- 热控专业施工工艺标准手册
- 古典诗词鉴赏学习通超星期末考试答案章节答案2024年
- 2024年黑龙江牡丹江林口县招聘社区工作者23人历年高频500题难、易错点模拟试题附带答案详解
- 第二单元分数的混合运算(单元测试)-2024-2025学年六年级上册数学北师大版
- 中学生心理压力调查报告
- 7.2 共建美好集体 课件-2024-2025学年道德与法治七年级上册 统编版2024
- 小学一年级劳动教育全册教案
- 物业服务水电维修方案
- 2024年一致行动人协议书范本正规范本
- 基础模块2 Unit8 Green Earth单元测试-2025年中职高考英语一轮复习讲练测(高教版2023修订版·全国用)
- 2024年高素质农民职业技能大赛(农业经理人)赛项考试题库-上(单选题)
评论
0/150
提交评论