基于云计算的海量数据挖掘-_第1页
基于云计算的海量数据挖掘-_第2页
基于云计算的海量数据挖掘-_第3页
基于云计算的海量数据挖掘-_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于云计算的海量数据挖掘摘要在一个信息爆炸的时代,基于云计算的海量数据挖掘技术很好地满足了用户对于数据库中可理解知识的精准认识。依靠网络资源,云计算提供了一种动态可伸缩的虚拟性资源模式,实现了用户按使用率付费。云计算在节约资源和提高信息化上具有应用价值。MapReduce是一种云计算环境下的并行计算模型,在数据挖掘方面具有很大技术优势。此外,要很好地应用基于云计算的海量数据挖掘技术,我们还需关注虚拟机迁移、服务器整合、能耗管理、流量管理与分析、软件框架和存储技术与数据管理等的关键问题。【关键词】云计算海量数据挖掘研究1 前言我们正处于一个信息爆炸的时代,现在大约每隔十八个月的时间全球的数据量就

2、会翻一倍,而且数据总量还呈现不断增加的趋向。海量的数据为企业或者个人带来了各种便利,但是也带来了甄别、选择有价值数据的难度。而云计算平台正好契合了对此类高效挖掘数据的要求,它拥有高度虚拟化和高可用化的优势,可以对资源进行动态的调度和分配。因此,融合云计算技术和数据挖掘技术无疑是一套很好的解决方案。目前,基于云计算的海量数据挖掘技术已经开始走向商业应用阶段,其中以谷歌实验室提出的MapReduce 并行计算模型最具代表性。它具有显著的数据处理效率,可以为各类企业提供有效的数据挖掘服务,能为企业提高增效节支提供助力。2 云计算2.1 云计算的定义云计算是一种依靠互联网提供动态可伸缩的虚拟性资源的模

3、式,它充分发挥了互联网的资源优势,把互联网上暂时闲置的资源加以了合理配置。它是一种全新的理念,是按照使用量付费的新型模式。通过设立计算资源的共享池,它整合了互联网上的各种计算资源,实现了快速、按需和廉价地提供服务。因此,对于用户而言,完全不必知道谁是真正的服务提供者,也无需关心支持云计算的服务器等基础设施是如何工作和管理的。目前,云计算主要存在三种主要的商业模式,它们是软件即服务(SaaS,平台即服务(Paas和基础架构即服务(IaaS。2.2 云计算的应用价值云计算具有很大的使用价值。首先,云计算通过对互联网上的服务器的集群,对各类资源进行筛选整理并根据客户的实际需求加以有针对性的提供,从而

4、极大地节约了资源。这对于用户和云计算运营商来讲都能节省大量的资源,提供了很大的便利。同时,相比大型计算机的单独运作,云计算在大数据处理,特别是深层数据挖掘和整合方面具有无与伦比的优势。以计算资源池为依托,云计算可以处理海量数据和超大型文件资料。2.3 云计算环境下的并行计算模型谷歌实验室提出的MapReduce概念是一个分布式并行编程的模型或者说是技术框架,可用于并行处理大规模的数据。它的主要技术思路是先将一个MapReduce的数据处理作业分解为若干个能够独立运行的Map任务,把任务分配给不同的计算机去执行,生成各自独立的统一格式的某种中间文件,然后由Reduce任务合并这些Map任务,并最

5、终获得一个输出文件。3 基于云计算的海量数据挖掘3.1 数据挖掘简单地说,数据挖掘就是对数据库中的知识发现过程。它是在海量的数据中找到新型的、有效的或是可能有用的并能被人类理解的模式的一个过程。对于企业用户而言,他们希望获得看似混沌的海量数据中可理解的那部分知识,而且希望这类知识是非常精准的,比如一些电商用户希望了解他们服务的客户群体的行为模式和偏好等。3.2 云计算数据挖掘服务的优势总体而言,基于云计算的海量数据挖掘具有四方面的优势。(1基于云计算的海量数据挖掘采用分布式数据挖掘的方式,效率非常高,而且是实时动态开展的。因此,它的应用面非常广泛,能够满足不同类型、不同规模的组织形态的需求。它

6、既能为中小型用户节约大量的资金成本,提高工作效率,又能帮助大型企业用户缓解特定数据处理的需求对于大型计算机的技术依赖性。(2对于用户而言,基于云计算的海量数据挖掘使用起来非常简便。由于云计算分布式的数据处理模式,用户不必考虑数据划分和数据分配等繁琐的数据挖掘处理的过程。(3基于云计算的海量数据挖掘提高了原有机器设备的利用率水平,通过服务器集成和协同工作提高了处理大数据的能力。而且,它的资源利用的可伸缩性非常灵活,并具有很高的容错能力。(4基于云计算的海量数据挖掘把应用的门槛放得很低,实现了数据挖掘技术上的资源共享,回应了市场的急切需求。3.3 云计算技术在海量数据挖掘过程中的关键问题要很好地实

7、现云计算技术在海量数据挖掘中的作用,还需要妥善解决虚拟机迁移、服务器整合、能耗管理、流量管理与分析、软件框架和存储技术与数据管理这六方面的关键问题。(1实现虚拟机迁移是为了回避热点,减轻数据负载,使数据处理处于减压平衡的状态。但是,由于目前的技术水平限制,系统的灵活性还尚显不足,回避热点有时较难做到。此外,一些服务器的数据负载能力无法与高效的迁移需要相匹配。(2通过服务器整合,让高频与低频错位配置,能够把能耗压缩到最低。但是,这种理想的状况常常会被资源利用的动态性所打断,从而出现瞬时的信息拥堵情况的发生。(3能耗成本在云计算运营中的占比非常高,大致超过了一半的成本支出。4 结语?之,传统的数据挖掘方式已经无法满足用户的需求,而云计算技术对于海量数据挖掘和数据处理方面具有极大的优势。通过对云计算关键技术问题的解决,云计算在海量数据挖掘上必能有更大的作为。参考文献1巴济慈.基于云计算的海量数据挖掘处理与研究D.长春:长春理工大学,2013.2贺瑶,王文庆,薛飞.基于云计算的海量数据挖掘研究J.计算机技术与发展

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论