基于云计算的数据挖掘技术探讨_第1页
基于云计算的数据挖掘技术探讨_第2页
基于云计算的数据挖掘技术探讨_第3页
基于云计算的数据挖掘技术探讨_第4页
基于云计算的数据挖掘技术探讨_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第第页基于云计算的数据挖掘技术探讨毫无疑问,21世纪10年月,已经是不折不扣的信息时代,或者也可以称之为数据时代。随着计算机的进展,网络的快速普及,尤其是移动互联网在近年来的蓬勃进展,数据量、信息量无时无刻不在海量增长着。目前,面对海量的信息,找出自己真正感爱好的内容已经成为用户最为头疼的事情,数据挖掘已经成为当前最为热门的技术领域。近年来,云计算成为广受关注的技术领域,也使得数据挖掘平台有了新的进展方向,构建新一代的数据挖掘平台来应对数据的日趋冗杂浩大成为可能。云计算实为传统计算机技术与网络技术融合的产物。云计算并非简洁的计算,它是新型计算方式、数据存储方式、备份方式、网络资源安排方式的综合体,是基于互联网的相关效劳的增加、使用和交付模式。传统的数据挖掘技术是建立在数据库之上的,是通过对已收集数据信息的计算,找出隐蔽在不同数据中的相关信息。传统的数据挖掘技术需要在海量数据的根底上进展大量的数据访问与统计计算,在对数据进展挖掘的过程中需要消耗及占用大量的计算以及存储资源,面对规模不断增长的海量数据,需要消耗及占用大量计算及存储资源的传统数据挖掘技术显得越来越力不从心,难以胜任。而云计算独特的计算模式,为海量数据的挖掘供给了一种新的解决方案。

2、云计算与数据挖掘

2.1云计算。云计算是基于互联网的一种商业计算模式,对于云计算的定义,目前并没有一个统一的说法,现阶段广为人承受的是美国国家标准与技术讨论院对云计算所做出的定义,即:云计算是一种按使用量付费的模式,这种模式供给可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池〔资源包括网络,效劳器,存储,应用软件,效劳〕,这些资源能够被快速供给,只需投入很少的管理工作,或与效劳供给商进展很少的交互。从云计算的定义我们可以知道,云计算拥有可配置的、大型的计算资源共享池,这种资源共享池包括了网络、效劳器、存储器、应用软件以及效劳。那也就是说,云计算就是对计算资源共享池的一种资源安排技术或效劳,它的特点是可以快速供给这些计算资源,可以削减客户的管理工作。云计算将计算任务分布在了由大量计算机或效劳器构成的共享资源池上,大大提高了资源的有效利用,使计算处理力量以及存储力量等得到了提高,并且具有更好的扩展性。云计算具有虚拟化的特点,用户不再受到地理位置以及终端设备的限制,只要接入互联网,即可猎取所恳求的`应用效劳,也就是说,用户只需要拥有一台可以接入互联网的终端设备,即可获利所需要的各种应用效劳;云计算拥有通用性的特点,云平台可以构造出千万种应用,用户没有应用限制,在同一个云平台即可运行不同的应用;云计算具有超大规模以及高扩展性的特点,对于云计算来说,云的规模扩展不会影响用户应用效劳的质量,而目前,云计算的规模已经进展出了超大型,如谷歌的云计算已经拥有了上百万台的效劳器;云计算拥有高牢靠性以及经济性好的特点,多副本容错、多计算节点同构可互换等技术确保了效劳的高牢靠性,而云计算采纳廉价的节点构成云,自动化集中式管理相较于企业传统的数据中心管理本钱来说,经济性能非常优越。

2.2数据挖掘。数据挖掘是数据库学问觉察中的一个步骤,数据挖掘又被称为数据采矿,顾名思义,数据挖掘就是在已有的海量数据中通过特定的算法来挖掘、觉察有用信息或学问的过程。数据挖掘是为了解决需求的问题,也是为了解决数据管理的问题。数据挖掘对于信息产业界来说,是产生价值的关键环节,只有将数据转冯波换成具有应用价值的信息或是学问,才能具有实在商业价值。传统的数据挖掘技术是建立在数据库的根底之上的,需要数据库系统供给有效的存储、索引和查询处理支持,而高性能的计算技术是对海量数据进展处理的关键支撑,在处理效率方面具有重要影响。随着互联网规模的不断扩大以及移动互联网的爱好,数据规模呈现更快的增长速度,而对于数据挖掘的需求也日益增多,这使得传统的数据挖掘技术暴露出一些问题,首先是数据挖掘效率的问题,传统的基于数据库的数据挖掘技术在面对如今海量数据的增长规模已经很难高效的完成计算分析任务;其次,面对海量数据规模的增长,传统的数据挖掘技术需要更高的软硬件本钱的支持,这种本钱的支撑面对数据量的大规模增长是长期性的;第三,传统的基于数据系统的数据挖掘技术平台架构,已经无法为挖掘算法力量的提升供给更多支持,算法受限于系统架构影响了数据挖掘技术的进展。

3、基于云计算的数据挖掘关键技术

云计算的消失为数据挖掘技术的进展供给了新的方向,数据挖掘技术基于云计算可以进展出新的模式,就详细的实现来说,其中几个关键技术的进展至关重要。

3.1云计算技术。分布式计算是云计算平台的关键技术,是目前应对海量数据挖掘任务,提高数据挖掘效率的有效手段之一。分布式计算包含分布式存储和并行计算两方面内容,分布式存储有效解决了海量数据的存储问题,实现了数据存储高容错、高平安、高性能等关键功能。目前,谷歌提出的分布式文件系统理论是业界流行的分布式文件系统的根底,谷歌文件系统〔GFS〕就是为了解决其海量数据的存储、搜寻与分析等问题而研发的,其它如Hadoop分布式文件系统〔HDFS〕、Kosmos文件系统〔KFs〕是基于Goolgle分布式文件系统理论进展研发的开源系统。分布式并行计算框架是高效完成数据挖掘计算任务的关键。目前流行的一些分布式并行计算框架都对分布式计算的一些技术详情进展了封装,这样用户只需要考虑任务间的规律关系,而不用再过多的关注这些技术详情,不仅大大提高了研发的效率,而且还可以有效的降低系统维护的本钱。典型的分布式并行计算框架如谷歌提出的MapReduce并行计算框架、Pregel迭代处理计算框架等。目前业界开源的云计算平台Hadoop平台,包含HDFS和MapReduce,为海量数据挖掘平台供给完备的云计算平台支撑平台。

3.2数据集合调度技术。数据集合调度技术需要实现的是对接入云计算平台的不同类型数据的集合与调度。数据集合与调度需要支持不同格式的源数据,还要供给多种数据同步方式。解决不同数据的规约问题是数据集合调度技术的任务,技术解决方案需要考虑对网络上不同系统生成的数据格式的支持,如联机事务处理系统(0LTP)数据、联机分析处理系统(0LAP)数据、各种日志数据、爬虫数据等,如此才能实现数据的挖掘与分析。

3.3效劳调度和效劳管理技术。为了能够让不同的业务系统使用本计算平台,平台必需要供给效劳调度和效劳管理功能。效劳调度依据效劳的优先级以及效劳和资源的匹配状况等进展调度,解决效劳的并行互斥、隔离等,保证数据挖掘平台的云效劳是平安、牢靠的,并依据效劳管控进展调度掌握。效劳管理实现统一的效劳注册、效劳暴露等功能,不仅支持本地效劳力量的暴露,也支持第三方数据挖掘力量的接入,很好地扩展

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论