基于YARN的数据挖掘系统的设计与实现的任务书_第1页
基于YARN的数据挖掘系统的设计与实现的任务书_第2页
基于YARN的数据挖掘系统的设计与实现的任务书_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于YARN的数据挖掘系统的设计与实现的任务书任务书题目:基于YARN的数据挖掘系统的设计与实现任务背景:近年来,随着数据量的不断增加,数据挖掘技术越来越受到关注。YARN作为Hadoop生态系统的重要组成部分,已经成为许多大数据处理平台的首选。因此,基于YARN的数据挖掘系统的设计与实现具有重要意义。任务目标:本次任务主要目标是设计一种基于YARN的数据挖掘系统,并实现系统的关键部分。系统能够对海量数据进行分布式处理,实现多种数据挖掘算法,并支持用户灵活配置算法参数。任务要求:1.系统设计与实现(1)系统架构设计:任务分配、数据通信、结果合并等。(2)数据挖掘算法的实现:通过MapReduce或Spark等分布式计算工具实现K-means算法、Apriori算法等多种数据挖掘算法。(3)算法参数配置:提供用户界面以方便用户设置K-means算法中K的值、Apriori算法中支持度和置信度等参数设置。(4)结果展示:将数据挖掘结果以可视化的方式展示给用户。2.系统性能评估(1)数据集选择:选择不同规模的数据集,如10GB、100GB、1TB等。(2)性能测试:测试系统在不同数据规模下的运行时间和资源消耗情况,如CPU、内存、磁盘等。(3)优化措施:根据测试结果分析系统的瓶颈,提出针对性的优化措施,如算法改进、资源分配优化、并行调度等。3.文档撰写与演示(1)系统设计文档:包括系统架构设计、关键技术实现、算法参数配置等内容。(2)系统测试文档:包括数据集选择、性能测试结果、优化措施等内容。(3)系统演示:以演示的方式展示系统的实现和性能优势。4.其他要求(1)认真阅读相关文献,掌握分布式系统、数据挖掘算法等方面的基础知识。(2)独立完成任务,遵守学术诚信的规范和道德规范。(3)按时完成任务,认真参加讨论和汇报。参考文献:[1]ZhangY,WangJ,LiuX,etal.BuildingaBigDataplatformfordatamining,analysisandvisualization[J].AppliedIntelligence,2018,48(1):127-138.[2]ChenY,MaoS,XuL,etal.Thinkbig:aframeworkforminingbigdata[J].ACMSIGKDDExplorationsNewsletter,2014,16(1):1-10.[3]黄勇,范川珂.基于Hadoop的数据挖掘建模技术与方法[M].人民邮电出版社,2016.[4]黄晓阳,杨振松,欧阳明亮.基于Spark的分布式数据挖掘算法研究[J].计算机应用研究,2018,35(5):1359-1363.[5]DeBoniL,FumarolaF,MatteucciM,etal.AnalyzingApacheSparkworkloadperformanceonaprivatecloud[J].JournalofCloudComputing,2017,6(1):14.[6]ShiJ,WeiW,YuanyuanK,etal.AMapReduce-basedparallelalgorithmforassociationruleminingusingnondistributedFP-tree[J].JournalofAppliedMathematics,2014,2014:1-12.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论