暨南大学并行计算实验室MapReduce研究现状_第1页
暨南大学并行计算实验室MapReduce研究现状_第2页
暨南大学并行计算实验室MapReduce研究现状_第3页
暨南大学并行计算实验室MapReduce研究现状_第4页
暨南大学并行计算实验室MapReduce研究现状_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

暨南大学并行计算实验室MapReduce研究现状

摘要MapReduce研究调试、监控等优化、扩展等常用APIHadoop改造数据挖掘项目RedpollCanopy,k-meansNaivebayes,SVM调试标准输出,标准出错Web显示(50030,50060,50070)NameNode,JobTracker,DataNode,TaskTracker日志本地重现:LocalRunnerDistributedCache中放入调试代码Profiling

目的:查性能瓶颈,内存泄漏,线程死锁等工具:jmap,jstat,hprof,jconsole,jprofilermat,jstack对JobTracker的Profile对各slave节点TaskTracker的Profile对各slave节点某Child进程的Profile(可能存在单点执行速度过慢)监控目的:监控集群或单个节点I/O,内存及CPU工具:Ganglia调优点(1)I/OShuffle…调优点(2)数据压缩推测性执行(同时执行同一Task,杀死运行慢的)同一节点的Child重用jvm重写Partitioner,使分布到各Reducer的数据均匀设置堆空间大小常用APIMapper,ReducerWritable,ComparableWritableInputFormat,OutputFormatPartitionerComparatorDistributedCacheStreaming(bash/python)Hadoop改造JobTracker与作业调度耦合性太强JobHistory应独立为一个jvm进程,逻辑不应与JobTracker耦合太强在HDFS之上整合MPI,统一作业调度Shuffle过程只需一次I/O单块磁盘失效导致整个节点失效问题(改DFSClient)Hadoop改造文件系统兼容posix使Map的key输出不排序,只分区NameNode单点故障问题RPC支持大数据(如文件)传输集群资源分配权限管理大规模数据挖掘:Redpoll文本数据挖掘分布式分词分布式向量空间模型距离度量语料搜狗新闻20newsgroupwikipedia前提:假定一个属性值对分类的影响独立于其他属性的值。(类条件独立)朴素贝叶斯分类工作过程每个数据样本用一个n维特征向量表示,分别描述对n个属性样本的n个度量假设有m个类。给定一个未知的数据样本X,分类法将预测具有最高后验概率(条件X下)的类。即是找最大化的。根据贝叶斯定理有朴素贝叶斯分类P(X)对所有类为常数,最大化,对的考虑分析:等概率,或类条件独立的朴素假定:, (k=1,2,n)可以由训练样本估值是分类属性,则根据样本估值是连续值属性,则通常假定其服从高斯分布,因而朴素贝叶斯分类(续)Canopy大容量,高维数据集聚类使用两步聚类不同的距离度量节省计算时间适用范围较广K-meansEMGAC大规模支持向量机解的稀疏性及问题的凸性将大规模的原问题分解成小规模的子问题,迭代求解子问题,直到收敛至原问题的解.选块算法分解算法序列最小最优化法(sequentialminimaloptimization,SMO)并行实现ThinkinginMapReduce

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论