搭建基于云计算的开源海量数据挖掘平台_第1页
搭建基于云计算的开源海量数据挖掘平台_第2页
搭建基于云计算的开源海量数据挖掘平台_第3页
搭建基于云计算的开源海量数据挖掘平台_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 总第 198期 5 开源 EM R 架构优势分析 数据挖掘是适应信息社会从海量数据中 提取有用 信息的需要而产生的。现在, 政府、 企业都把 数据看成 宝贵 的财富, 纷纷利 用数据挖 掘技术 发现其中 隐藏的 信息。亚马逊在 2010年的 H adoop峰 会上表明 其目前 的数据挖掘业务比重非常大, 并为提升其 E M R 服务将 有显著 的 持 续投 入 16 2010年 第 10期 参考文献: 1 2010 D igital U n iverse Study EB /OL . 2010 - 09 - 27 . http : / / gigaom. files . wordpress

2、. com / 2010 / 05 / 2010 - digital - u niverse- iview _5- 4- 10 . pd. f 2 Am azon In troduces E lasticM apR educe ( H adoop F ram ew ork Serv ice EB /OL . 2010 - 09 - 27 . h ttp: / /www. byteon ic. com / 2009 / am azon - in trodu ces - elastic - m apreduce - H adoop fram ew ork - serv ice /. 3 Am az

3、on E last ic M apR educe EB /OL . 2010 - 09 - 26 . 。总 体 来 说, 除 了 数 据 保密 性 外, 信息机构内部的开源 EMR 架构的应用很 好地解决 了如下几方面的问题: ( 1 高 效的 网络 存储 和计 算资 源的 控制 利 用, 有 效防 止服务 器蔓延, 推动机构 内部数 据中心的 绿色节 能建设。通过虚拟技术将具有相类似的应用 服务器整 合到 相对集 中的资源 池中, 提 高应用 的稳定性 和可用 性, 同时通过可视化监控界面动态配置、 调整 调度服务 器及存储设备, 提高计算资源的利用效率。 ( 2 加速分布 式数据挖 掘服务

4、 部署能力。通 过分 布式 服务应 用映像模 板, 用户 可以根 据数据挖 掘的任 务和数据规模, 简单、 灵活 地创 建和 增减 Hadoop 服务 器节点, 形成 规模合 适的 容错 性强 的 H adoop 集群, 低 成本快速完成数据挖掘任务。任务完成后, 还可以快速 收回 计算资 源给其他 应用使 用, 深层 次挖掘计 算资源 的可利用空间。 ( 3 大 数据 处 理的 简单 化, 开发 方便。 通过 图形 化 H adoop平台管理界面, 海量数据处理对专 业数据分 析人 员来说 不再是复 杂的服 务器集群 软、 硬件 和数据 挖掘算法的整合过程, 系统屏蔽掉底层, 数据 分析师可

5、 以将主要精力放到数据挖掘算法上。这种大 数据处理 过程的简单化趋势将推动知识挖掘、 发现的快速发展。 http : / / aw s . am azon . com / elasticm apredu ce/. 4 C loudera En terp rise EB /OL . 2010 - 09 - 27 . h ttp: / /www. C loudera. com / produ cts- services / en terp rise /. 5 H adoop中 国 2009 云 计算 大 会 EB /OL . 2010 - 09 - 27 . http : / /L inux. c

6、h inaun ix. net /n ew s /2009 / 11 /15 /1144192. sh t m. l 6 D evelop ing A pp lications for HU E EB /OL . 2010 - 09 - 27 . http : / /www. C loudera. com / b log/ 2010 /07 /develop ing - app lica t ion s- for- hue /. 7 Pratt I , F raserK, H and S , et a. l X en 3. 0 and the A rt of V irtualiza t ion

7、 EB /OL . 2010 - 09 - 27 . h ttp : / /www. L inuxsym pos iu m. org / 2005 /L inuxsym pos ium _procv2. pd . f 8 Techn ical and Comm ercial C om parison of C it rix X enServer and VM w are EB /OL . 2010 - 09 - 27 . h ttp: / /www. citrix. com / s ite / resources / dynam ic/ salesdocs/X S _ vs _VM w are

8、 _ com parison . pd. f 9 VM w are vSph ere EB /O L . 2010 - 09 - 27 . http : / /www. vm w are . com /p roducts / esx /. 10 X enServer In sta llation G u ide EB /OL . 2010 - 09 - 26 . http : / / support . citrix. com / servlet /K bS erv let / down load /18052 102 - 19049 / installat ion. pd . f 11 H

9、adoop C luster Setup EB /OL . 2010 - 09 - 26 . h ttp : / / ha doop. apach e . org / common / docs / r0 . 20 . 0 / clus ter_ setup. h t m. l 12 H adoop 5 _m inu te Q u ick S tart EB /OL . 2010 - 09 - 26 . http : / / n igh tly. cloudera . com / docs - b ackup / hadoop _5 _m inu te_ 6 结 语 quick_s tart

10、. ht m .l 13 H adoop 添加节点的方法 EB /OL . 2010 - 09 - 26 . http : / 本文通 过分析亚 马逊 EM R 海量数 据处理平 台构 架, 针对信息分析机构内部数据处理的迫 切需求, 提出 通过开源技术 X enS erver和 C loudera 版 H adoop 平台构 建信息机构自己的动态可伸缩的海量数据处 理平台并 给出实施方案和文本 数据处 理案例。目 前, 开源 E MR 平台在算法、 多 节点计 算速 度、 实时 数据处 理、 中 文支 持等 方面还 有很多限 制和不 足, 这也 是笔者下 一步改 进的方向。 w enku .

11、 baidu . com / view / e57f fe3 e0912 a2161479291e. h t m. l 14 赵华茗 , 李春旺 , 周强 . 基 于 X enServer 的数字 图书馆云 服务平 台实现研究 J. 电信科学 , 2010, 26( 8A : 33- 38 . 15 H adoop M ap /R educe Tu torial EB /OL . 2010 - 09 - 27 . http : / /H adoop. apache. org / comm on / docs / r0. 18. 2 /m apred _ tu toria. l ht m. l 16 Am azon E last ic M apR educe U pdates from H adoop Summ it 2010 EB /O L . 2010 - 09 -

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论