




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、暨南大学并行计算实验室MapReduce研究现状 专 业:计算机软件与理论姓 名:周敏 丁光华指导教师:周继鹏 教授摘要MapReduce研究 调试、监控等优化、扩展等常用APIHadoop改造数据挖掘项目RedpollCanopy, k-meansNaive bayes, SVM调试标准输出,标准出错Web显示(50030, 50060, 50070)NameNode,JobTracker, DataNode, TaskTracker日志本地重现: Local RunnerDistributedCache中放入调试代码Profiling目的:查性能瓶颈,内存泄漏,线程死锁等工具: jmap,
2、 jstat, hprof,jconsole, jprofiler mat,jstack对JobTracker的Profile对各slave节点TaskTracker的Profile对各slave节点某Child进程的Profile(可能存在单点执行速度过慢)监控目的:监控集群或单个节点I/O, 内存及CPU工具: Ganglia调优点(1)I/Oio.sort.mbio.sort.percentio.sort.record.percentio.sort.spill.percentShuffletasktracker.http.threadsmapred.reduce.parallel.cop
3、iesmapred.job.shuffle.input.buffer.percent调优点(2)数据压缩推测性执行(同时执行同一Task,杀死运行慢的)同一节点的Child重用jvm重写Partitioner,使分布到各Reducer的数据均匀设置堆空间大小常用APIMapper, ReducerWritable, ComparableWritableInputFormat, OutputFormatPartitionerComparatorDistributedCacheStreaming(bash/python)Hadoop改造JobTracker与作业调度耦合性太强JobHistory应
4、独立为一个jvm进程,逻辑不应与JobTracker耦合太强在HDFS之上整合MPI,统一作业调度Shuffle过程只需一次I/O单块磁盘失效导致整个节点失效问题(改DFSClient)Hadoop改造文件系统兼容posix使Map的key输出不排序,只分区NameNode单点故障问题RPC支持大数据(如文件)传输集群资源分配权限管理大规模数据挖掘:Redpoll文本数据挖掘分布式分词分布式向量空间模型距离度量语料搜狗新闻20 news groupwikipedia前提:假定一个属性值对分类的影响独立于其他属性的值。(类条件独立)朴素贝叶斯分类工作过程1. 每个数据样本用一个n维特征向量 表示
5、,分别描述对n个属性 样本的n个度量2. 假设有m个类 。给定一个未知的数据样本X,分类法将预测具有最高后验概率(条件X下)的类。即是找最大化的 。根据贝叶斯定理有nxxxX,21nAAA,21mCCC,21)|(XCPi XPCPCXPXCPiii|)|(朴素贝叶斯分类3. P(X)对所有类为常数,最大化 ,对 的考虑分析:等概率,或4. 类条件独立的朴素假定: , (k = 1,2,n)可以由训练样本估值5. 是分类属性,则根据样本估值6. 是连续值属性,则通常假定其服从高斯分布,因而)()|(iiCPCXP)(iCPnkikiCxPCXP1)|()|()|(ikCxPkAkAssCPii
6、/iikjkssCxP/|22221,|iCiCkiiixCCCkikexgCxP的平均值和标准差分别为属性kA,iiCC朴素贝叶斯分类(续)Canopy大容量,高维数据集聚类使用两步聚类不同的距离度量节省计算时间适用范围较广K-meansEMGAC大规模支持向量机解的稀疏性及问题的凸性将大规模的原问题分解成小规模的子问题,迭代求解子问题,直到收敛至原问题的解.选块算法分解算法序列最小最优化法(sequential minimal optimization, SMO) 并行实现convergednotwhilehilokxxKyyGhilokxxKyyGscomputeji networkj i,jisetworkingfindjidohiloiGlipllolhiplqlokjkjkkikikjjiijiqqqqii j)data_io(i, .),(.),(,),max(),(_,., 1.1, 0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河道垃圾清理施工方案
- 外墙保温真石漆劳务分包合同
- 房屋居间租赁服务合同
- 嘉兴拆烟囱施工方案
- 合同协议生产合同
- 心理学认知过程与个性发展题库
- 人力资源行业数据统计表一览(按职位类型)
- 个人学习成长记录表
- 吉林压花地坪施工方案
- 建筑劳务木工班组合同
- 人教版PEP五年级下册英语unit1单元复习课件
- 心肌炎病人的护理
- 四川麻将业余一级考级题库
- 【人教版】三年级下册数学课件《口算乘法》两位数乘两位数优秀(第1课时)
- 《小小理财家》课件PPT
- 《相交线与平行线》复习课一等奖课件
- 部编版四年级语文下册第3单元大单元整体教学设计课件(教案配套)
- q gw2sjss.65金风风力发电机组防腐技术rna部分归档版
- 廉政建设监理实施细则
- 健康证体检表
- LY/T 3263-2021澳洲坚果栽培技术规程
评论
0/150
提交评论