第讲:eclise与Hadoo集群连接_第1页
第讲:eclise与Hadoo集群连接_第2页
第讲:eclise与Hadoo集群连接_第3页
第讲:eclise与Hadoo集群连接_第4页
第讲:eclise与Hadoo集群连接_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6讲eclipse与Hadoop集群连接

Eclipse(集成开发环境)

2001年11月诞生(比ITPUB还晚2个月)最初是IBM的产品,后来IBM无偿捐献给了开源组织EEclipse的研发人员大部分来自VisualAge项目组,早年和Jbuilder苦苦竞争,但今天Jbuider早已日薄西山,但Eclipse却如日中天Eclipse是一种开源IDE,设计思想:一切皆插件核心非常小,其它功能都是围绕核心写成的插件:SWT、JDT、CDT、PDE等等常用于开发Java程序,但使用相应插件后也可以开发其它语言程序,事实上几乎适合开发一切程序。商业IDE自从有了Eclipse后就逐渐没了活路

Eclipse体系架构图

插件结构图

Eclipse安装

Ubuntu中下载安装Eclipse,执行sudoapt-getinstalleclipse

Hadoop下编译eclipse插件

可以自己编译,也可以下载别人编译好的

实际移动项目

从交换机端口摘下数据,经过协议分析简化为可供分析的文本数据原先使用Oracle数据库,先用Sqlloader入库。单机跑任务,由于PL/SQL书写质量不高,做一个简单分析计算理论上也需要3个月时间首先通过分析函数简化了OraclePL/SQL书写,使其能在4小时内完成建议甲方使用Hadoop,用淘汰的办公机组成了集群书写Map-Reduce程序代替原有的OracleSQL和PL/SQL几个分析主题:1分析用户的移动路径和停留时间最长的区域;2建模预测用户流失的可能性;3用户号码重叠分析。

热门职位

HadoopJava程序员主要工作:SQL或PL/SQL改写为Map-Reduce程序

HadoopAPI开发步骤

Ec缠li馋ps姓e的Ha由do我op插件专愚门对琴于Ha峡do敏op的插午件提君供一赤个目叔录树元用于垂管理HD徐FS文件肉系统–可以践创建佩和删甲除目味录–可以震直接叫上传绘文件吓而不毛需输迟入命份令提喘供良寺好的钩编程志环境–自动颗提示–能够残直接仔在Ec戒li温ps遣e上测聪试程根序而羽不需傻要输衰入命汁令安装用方法Ub杂un吗tu中下慰载安谁装Ec充li盼ps症e,执匙行su嗓do瓜a晋pt翁-g模et猪i相ns蒜ta描ll泊e销cl鸣ip缸se在Ec木li亏ps气e下安清装ha泰do咸op输-e予cl念ip在se型-p壤lu取gi虽n(插服件ja姻r包已殿提供姓)。利复制棒此插惯件ja筛r包到ec帅li须ps营e安装显目录/p叶lu吓gi语ns扮/下。安装政方法打愧开Wi坐nd绞ow友--幻玉>P蕉re万fe稻re疾nc太e选择Ha稼do认op谷M旁ap鱼/R的ed东uc砍e选项安装席方法在Wi震nd悟ow君--梯>S民ho娃w衬Vi颤ew中打优开Ma昨p/跃Re渴du廉ce载L吗oc茶at膨io号ns。在蚊下方龙点选亲右键--控>N习ew签H云ad亭oo室p者Lo炸ca迟ti唱on安装新方法对着差左边必的DF森S另Lo迫ca喂ti茫on圆s下面张的主静机点箱选右扁键刷叮新成房诚功安南装的芬话就折可以栽看得睛到HD滔FS目录殖树上传骡文件对左疼侧的凶目录冷树中页的目扮录点降选右得键,扣选择up虽da胜te编f质il进es选t算o戒DF纺S,然后孤把上歉述路丈由日弱志文臂本上猜传HD最FS也可概以采胀用传富统的炸命令扰行上族传方姑法创建矛Ma马pR虾ed役uc核e怒Pr眨oj节ec略t安装钞插件丑之后漫,可纸以在建Ne悉w娃Pr些oj颗ec绿t页酒面建灰立M递/R刺P纹ro术je素ct领,便陷能自伟带编匪程所铁需A系PI数据捧筛选滥程序任务匆要求华:现有爷一批司路由是日志切(有抢删减充),芝需要扶提取MA棋C地址笨和时扑间,堤删去警其他嫌内容数据叶筛选搬程序输廉出结讯果如疯下图垃所示兔,分眯别是滚时间滴和Ma旋c地址算法嚼思路程序沃解析M塞ap工Re霜du序ce程序端包括蚊一个Ma身p函数麻,一蹈个Re征du莲ce函数约,以符及Ma旋in函数Re任du啦ce函数深是可户选的谱,当株不指末定Re铁du贸ce的实拌现时恭,系批统自横动使榨用缺盖省的Re锐du割ce函数部峡分程受序代排码不树赘述间,如鹿以下Co刚un抓te刮rCo荣un嫂te针r即是贿一个芹计数兼器滥可以留记录亦这个私程序溜的一钳些数才据用稻于统傻计Ma染p函挂数Ma冲p函帖数Ru转n方法Ru途n方法架是运稿行程矛序的育一种赢实现在Ru扬n方法素可以佣设定字一些灯基本姑数据启,从咱而让地系统贡了解怒该如考何运兼行整筹个任压务为了柳更好场理解柄任务涂,此Ru巨n方法脏在屏味幕上耻输出睬了一麦些基狼本信妄息Ru锅n方法Ma冰in函数只需想在M钱ai参n函霜数调殊用R裙un凳方法患,系壳统就往会启轰动一东个M内ap凑Re旋du俘ce翅任务运行互程序程序拌输出倒排家索引任务臂要求–现有远一批别电话问通信吹清单苍,记脖录了仍用户A拨打还用户B的记治录–需要旗做一年个倒盼排索预引,具记录铲拨打广给用斜户B的所皱有用档户A倒排宴索引任务貌输出俊必须稻如下率所示纠,主忙叫以妻‘|’分割算法刘思路带有并Re裕du倾ce既的任径务示博例程喘序1辅不带号Re鞠du铃ce眠任务拢,系鹿统自暑动把喂Ma慕p函榨数的筝输出撇发送餐到输浪出文领件,钟Ma复p函逗数的粪输出设格式尸必须奶与程研序输晚出格改式一路致示孕例程遵序2舟带有诉Re弊du你ce倍任务斗,系刘统首兰先把哨Ma沿pp轧er浓的输阳出中艘Ke姐y相换同的题部分玩都发雨送到具同一缝个R列ed燥uc绿er寨,然僻后再劣把R融ed烈uc莫e函归数的成结果毯输出穿,M肌ap伟函数兰的输栽出格事式必候须

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论