基于弹性云计算的开源海量数据处理平台 毕业论文.doc_第1页
基于弹性云计算的开源海量数据处理平台 毕业论文.doc_第2页
基于弹性云计算的开源海量数据处理平台 毕业论文.doc_第3页
基于弹性云计算的开源海量数据处理平台 毕业论文.doc_第4页
基于弹性云计算的开源海量数据处理平台 毕业论文.doc_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西 安 邮 电 大 学毕 业 设 计(论 文)题 目:基于弹性云计算的开源海量数据处理平台院 (系): 计算机学院专 业: 软件工程班 级: 软件0901学生姓名: 导师姓名: 职称: 教授起止时间:2012年9月17日至2013年 5 月31日毕业设计(论文)诚信声明书本人声明:本人所提交的毕业论文基于弹性云计算的开源海量数据处理平台是本人在指导教师指导下独立研究、写作的成果,论文中所引用他人的文献、数据、图件、资料均已明确标注;对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式注明并表示感谢。本人完全清楚本声明的法律后果,申请学位论文和资料若有不实之处,本人愿承担相应的法律责任。论文作者签名: 时间: 年 月 日指导教师签名: 时间: 年 月 日西 安 邮 电 大 学毕业设计(论文)任务书学生姓名 指导教师 李晓戈职称教授院(系)计算机学院专业软件工程题目基于弹性云计算的开源海量数据处理平台 任务与要求1. 分析研究亚马逊弹性map reduce平台构架。2. 运用云计算开源技术框架,搭建动态虚拟的云计算环境。3.运用hadoop 开源技术;安装制作hadoop虚拟服务器模板。4.运用wordcount算法进行map reduce海量文本数据测试。开始日期2012年9月17日完成日期2013年5月31日院(系)主任(签字)2012年9月20日西 安 邮 电 大 学毕 业 设 计 (论文) 工 作 计 划 学生姓名_ _指导教师_ 李晓戈_职称_教授院(系)_计算机学院_专业_软件工程题目 基于云计算的开源海量数据处理平台_ 工作进程起 止 时 间工 作 内 容2012.9.17 2012.11.1查阅资料文献,完成开题报告2012.11.2 2012.12.1阅读了解hadoop亚马逊弹性map reduce 平台架构 。2012.12.2 2013.02.1搭建多节点的hadoop,并研究相关算法,实施方案2013.02.2 2013.03.1 提交中期汇报表,编写代码2013.03.2 2013.04.1进行测试,分析结果2013.04.2 2013.05.31编写论文,修改装订主要参考网站1,/elasticmapreduce/2,http:/wwwc/products-services/enterprise/3 /servlet/lbservlet/download/18052-102-19049/ installation.pdf4,hadoop cluster setup 主要仪器设备及材料 服务器4台,pc机论文(设计)过程中教师的指导安排每两周学生提交进度报告,并开会讨论。对计划的说明西安邮电大学毕业设计(论文)开题报告 计算机 院(系) 软件工程 专业 09 级 01 班课题名称: 基于弹性云计算的开源 海量数据处理平台 学生姓名: 学号: 04095004指导教师: 李晓戈报告日期: 2012年11月5日1 本课题所涉及的问题及应用现状综述 当今时代,互联网高速发展,上网人群急剧上升,必然会出现信息大爆炸。对提供网络服务的互联网公司来说,这些海量信息的存储,实时处理,数据检索,数据挖掘与智能应用等信息处理能力将面临新的挑战。技术架构也迫切需要以动态可伸展为特点的支持海量数据处理的新的存储计算模式。 这种存储计算模式因为弹性可伸缩的特性,现在受到谷歌,亚马逊、ibm等为代表的众多高科技公司的重视,成为各公司应对海量数据处理的利器。比如说,应用在线服务托管领域的亚马逊弹性云,zoho在线办公,著名的谷歌搜索等。本文的主要目的是构建一个分布式海量数据处理系统来存储和处理这些数据。2 本课题需要重点研究的关键问题、解决的思路及实现预期目标的可行性分析搭建开源emr系统。利用xenserver/xencenter搭建开源emr系统,在xenserver上安装三台虚拟机,一个充当namenode,两个充当datanode。然后在该系统上运行wordcount作为测试。分析亚马逊emr架构。在亚马逊平台上免费注册一个账号,然后先体验下亚马逊的ec2。然后分析和我所搭建的emr系统做一些异同点的分析。分析emr计算模式的优势,并用具体的实例数据证明emr计算模式的优势。在单机上运行某个大数据应用。然后将相同的应用放在hadoop上运行,然后分析一些计算机的性能。3完成本课题的工作方案2012.9.17 2012.11.1查阅资料文献,完成开题报告2012.11.2 2012.12.1阅读了解hadoop亚马逊弹性map reduce 平台架构 。2012.12.2 2013.02.1搭建多节点的hadoop,并研究相关算法,实施方案2013.02.2 2013.03.1 提交中期汇报表,编写代码2013.03.2 2013.04.1进行测试,分析结果2013.04.2 2013.05.31编写论文,修改装订4指导教师审阅意见指导教师(签字): 年 月 日说明: 本报告必须由承担毕业论文(设计)课题任务的学生在毕业论文(设计) 正式开始的第1周周五之前独立撰写完成,并交指导教师审阅。 西安邮电大学毕业设计 (论文)成绩评定表学生姓名 王哲性别 男学号 04095004专 业班 级 0901班课题名称 基于弹性云计算的开源海量数据处理平台课题类型软件开发难度适中毕业设计(论文)时间2012年9月17日2013年 5月31 日指导教师李晓戈(职称 教授 )课题任务完成情况论文 11 (千字); 设计、计算说明书 (千字);图纸 21 (张);其它(含附件):指导教师意见分项得分:开题调研论证 分; 课题质量(论文内容) 分; 创新 分;论文撰写(规范) 分; 学习态度 分; 外文翻译 分指导教师审阅成绩:指导教师(签字): 年 月 日评阅教师意见分项得分:选题 分; 开题调研论证 分; 课题质量(论文内容) 分; 创新 分;论文撰写(规范) 分; 外文翻译 分评阅成绩: 评阅教师(签字): 年 月 日验收小组意见分项得分:准备情况 分; 毕业设计(论文)质量 分; (操作)回答问题 分验收成绩:验收教师(组长)(签字): 年 月 日答辩小组意见分项得分:准备情况 分; 陈述情况 分; 回答问题 分; 仪表 分答辩成绩: 答辩小组组长(签字): 年 月 日成绩计算方法(填写本院系实用比例)指导教师成绩 () 评阅成绩 () 验收成绩 () 答辩成绩 ()学生实得成绩(百分制)指导教师成绩 评阅成绩 验收成绩 答辩成绩 总评 答辩委员会意见毕业论文(设计)总评成绩(等级): 院(系)答辩委员会主任(签字): 院(系)(签章) 年 月 日备注西安邮电大学毕业论文(设计)成绩评定表(续表)目 录摘 要iabstractii1 引言12 云计算概论22.1 什么是云计算22.2 云计算背景及平台结构22.3 云计算的优势33 亚马逊emr分析43.1 亚马逊ec243.2 亚马逊 s353.3 亚马逊 aws64 开源系统设计与实现74.1 系统概要设计74.2 搭建动态虚拟的云计算环境84.3安装制作hadoop虚拟服务器模板104.4 分布式环境运行144.5 运行wordcount测试系统154.6 hadoop常见问题及其解决方案175 用 hadoop 进行分布式并行编程195.1 hadoop简介195.2 map/reduce计算模型195.3 hadoop上c语言开发215.4 hadoop平台上编写map/reduce分布式并行计算程序226 结论25结束语26致 谢27参考文献28附录a29附录b30附录c31摘 要首先简述云计算和云计算背景,然后通过分析亚马逊弹性emr云计算平台架构,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术xen和hadoop平台构建基于云计算的动态可伸缩的海量处理平台并给出实施方案、海量数据处理案例和开源emr平台优势分析。实施方案主要分三部分:搭建动态虚拟云计算环境、安装制作hadoop虚拟服务器模板、配置运行hadoop。通过emr架构,可以有效解决服务器蔓延的问题,提供网络计算资源的利用效率和分布式数据挖掘服务的快速部署能力和灵活性。最后,利用传统的储存计算模式和hadoop的储存计算模式同时处理海量数据,比较得出hadoop的储存计算模式应对处理海量具有更多的优势。关键字:云计算,虚拟化,海量数据处理,分布式计算,xen,hadoopiabstractfirstly, sketch cloud computing and background of cloud computing, later aiming to meet the internal data processing needs of information organizations,this paper,by analyzing the frameworks of amazon elastic map/reduce(emr) platform,puts forward to build the dynamic and elastic open source mass data mining platform based on cloud computer,and provides a roadmap of sucessful implementation,an example of massive text data processing and the analysis of advantages of open source emr platform. this implement plan includes three parts:building dynamic virtual envirment of cloud computing,creating the virtual server template of hadoop,and deploying and running hadoop,the utilization ratio of network computing resource is improved,and the rapid deployment capability and agility of distributed data processing services are enhanced.finally, using the traditional storage mode and the hadoop storage calculation mode to handle huge amounts of data at the same time, comparison of hadoop storage calculation mode to process mass has more advantages.key words :cloud computing,virtualization,mass data mining,distributed computing,xen,hadoopii基于弹性云计算的开源海量数据处理平台1 引言互联网高速发展和上网人群急剧增长带来了信息的爆炸式增长,最新的idc研究报告指出2010年全球信息量将进入zb时代,并且每年以60的速度在上升,这标志着每18个月全球信息数据量将被翻倍。面对数据规模的不断拓展,海量信息的存储与管理,实时处理,数据挖掘,数据搜索,以及智能应用等信息处理能力面临新的挑战,信息技术架构也迫切需要以动态可伸缩为特点的支持海量数据处理的新的存储计算模式。这种海量数据的存储计算计算模式在外国已经用的比较多了,技术也比较成熟,亚马逊就已经用该储存计算模式开发的云平台进行了商用。2008年之后,国内企业界和学术界就逐渐对该技术关注起来。应用和研究hadoop的企业也越来越多,包括淘宝、百度、腾讯、网易、金山等。淘宝是国内最先使用hadoop的公司之一。同样的,很多科研院所也投入到hadoop的应用和研究中,包括中科院、清华大学、浙江大学和华中科技大学等。本课题就是利用开源的hadoop框架搭建出一个支持弹性计算的云平台。利用传统的储存计算模式和hadoop的储存计算模式同时处理海量数据,比较得出hadoop的储存计算模式应对处理海量具有更多的优势。2 云计算概论2.1 什么是云计算到底什么是云计算,剖析云计算背后所采用的具体技术.首先看一下在ibm 的技术白皮书“cloud computing”中的云计算定义: “云计算一词用来同时描述一个系统平台或者一种类型的应用程序.一个云计算的平台按需进行动态地部署zoho在线办公、配置、重新配置以及取消服务等.在云计算平台中的服务器可以是物理的服务器或虚拟的服务器.高级计算云通常包含一些其他的计算资源,例如:存储区域网络,网络设备,防火墙以及其他安全设备等.云计算在描述应用方面,它描述了一种可以通过互联网进行访问的可扩展的应用程序.“云应用”使用大规模的数据中心以及功能强劲的服务器来运行网络应用程序与网络服务.任何一个用户可以通过合适的互联网接入设备以及一个标准的浏览器就能够访问一个云计算应用程序.”上述定义给出云计算两个方面的含义:一方面描述了基础设施,用来构造应用程序,其地位相当于pc机上的操作系统;另一方面描述了建立在这种基础设施之上的云计算应用.2.2 云计算背景及平台结构计算机软件与硬件技术的快速发展也导致了计算模型的不断变化。继分布式计算,并行计算,网络计算,效用计算等计算概念与模型的不断被推出以后,计算机工业界与学术界又提出云计算模型,在某种意义上实现对这些计算概念与模型的泛化与商业化。总体上讲,云计算通过互联网将超大规模的计算与存储资源整合起来,并以可信服务的形式按需提供给用户。图2-1云平台结构图图2-1给出了一个典型的云计算平台结构。用户通过简单的终端,如笔记本,pda,甚至手机,使用简单的客户端软件甚至web就能访问超大规模的计算与存储资源。基于这种计算模型的诱人商业前景,目前各大主流it公司vmware,microsoft,amazon,google, emc, oracle等纷纷推出自己的云计算平台。2.3 云计算的优势2.3.1 可靠,安全的数据储存云计算提供了最为可靠,安全的储存,用户可以把数据储存在云端,不要担心数据丢失,病毒入侵等问题。因为那儿有世界上最专业的团队在为你维护这些数据。同时,严格的权限管理可以帮助你放心地与你指定的人共享数据。2.3.2 方便,快捷的云服务在云计算时代中,用户不需要安装和升级电脑上的各种软件,只需要使用浏览器就可以方便,快捷地使用云提供的各种服务。这也将有效地降低了技术应用的难度,进一步推动了web服务发展。2.3.3 强大的计算能力云计算为网络提供了强大的计算能力,可以为普通用户每秒10万亿次的运算能力,完成用户的各种业务需求。这种超计算能力在普通的pc环境下是很难实现的。3 亚马逊emr分析图3-1亚马逊emr结构图亚马逊的emr分为三个部分(见图3-1所示):aws控制接口,s3(simple storage service)存储服务和ec2(elastic compute cloud)弹性计算。3.1 亚马逊ec2ec2是amazon提供云计算环境的基本平台。通过使用ec2,可以在任何时间根据个人或企业的需要很方便,快捷地创建、启动和供应虚拟实例。根据实例的类型和每小时的实际使用量来支付费用。ec2的服务特征:可靠性: ec2能够轻松地供应实例并在不需要实例时销毁它们。安全性: ec2能提供很高的安全水平。所有实例都在亚马逊的数据中心运行,还可 以通过配置防火墙规则把访问限制在你信任的组。简单性: ec2基于简单的概念,为系统设计提供很强的灵活性。亚马逊所需要的 所有构建块。低成本: ec2 服务以非常低廉的费率满足您的所有服务器需求。ec2的框架: 介绍ec2的框架首先要理解一个概念:amazon machine imagesamazon machine images(ami):an amazon machine image is an encrypted file stored in amazon s3. it contains all the information necessary to boot instances of your software.目前有三种类型机器映像(ami)表3-1亚马逊机器映像种类私有的你创建的映像,在默认情况下是私有的。可以授权其他用户启动你的私有映像。公有的用户创建并发布到 amazon web services 社区的映像,任何用户都可以基于它们启动实例,按照自己喜欢的方式使用它们。付费的可以创建提供特殊功能的映像,其他用户可以启动它们,但是要按照使用时间向你支付费用。3.2 亚马逊 s3amazon s3 是面向internet的存储服务。它提供给用户一个简明的web服务界面,用户可通过它随时在web界面上的任何位置存储和检索的任意大小的数据。此服务让所有开发人员都能访问同一个具备可靠性、高扩展性、安全性和性价比的基础设施,而 amazon 正是使用此种基础设施来运行其全球的网站网络的。s3内置的功能集:a 写入、读取和删除数据元,每个数据元包含1个字节到5tb的数据。你 可以存储的数据元数量没有限制。b 每个数据元存储在存储段中,通过开发人员分配的唯一密钥进行检索。c 身份验证机制旨在确保数据的安全,防止未授权访问。数据元可以设置 为私有或公有,也可以向特定的用户授予权限。d 另外s3还提供安全数据上传/下载及静态数据加密的选项以便进一步保 护数据。e 使用基于标准的rest和soap接口,它们可与任何 internet 开发工具 包搭配使用。f 灵活构建,以便能够轻松添加协议或功能层。默认的下载协议是 http 提供 bittorrent协议接口,以便降低大规模分配的成本。3.3 亚马逊 awsaws(amazon web services) : 提供一整套基础设施以及应用程序服务,使你几乎能够在云中运行一切应用程序,从企业应用程序和大数据项目,到社交游戏和移动应用程序。通过在 amazon 提供的可靠且经济有效的服务上构建功能,可以实现复杂企业应用程序。这些web服务本身驻留在你的环境之外的云中,具备极高的可用性。只需根据使用的资源付费,不需要提前付费。因为硬件由amazon维护和服务,所以你也不需要承担维护费用。amazon提供几个web服务,但是本系列只关注满足大多数系统的核心需求的基本服务:计算、存储、消息传递和数据集。亚马逊推出aws已经超过5年,该服务可以为用户提供远程计算能力和存储空间,amazon也因此成为云计算领域的先驱。尽管该服务在亚马逊总收入中的占比仅为2%,但增速却非常迅猛。这个虚拟的基础设施大大降低了当今web环境中的 “贫富差异”。你可以在几分钟内快速地获得一个基础设施,而这在真实的 it工作室中可能会花费几周时间。要点在于这个基础设施是弹性的,可以根据需求扩展和收缩。世界各地的公司都可以使用这个弹性的计算基础设施。4 开源emr系统设计与实现4.1 系统概要设计 图4-1搭建开源结构体系该课题是要利用开源软件搭建一个海量数据处理平台,其整体框架图如图4-1所示。在服务器上安装xenserver,在xenserver上安装一个虚拟机vm1,然后再克隆出两个相同的两个虚拟机vm2,vm3系统的网络体系:图4-2搭建开源网络结构在xenserver上虚拟机网络链接方式是使用的网络桥接方式。虚拟主机domu和dom0处于同一个网段。4.2 搭建动态虚拟的云计算环境通过xenserver和xencenter搭建虚拟云计算环境有些注意事项如下:(1) xenserver安装在硬件上,而且对硬件有一些要求,xenserver要求安装在64位x86服务器上,且不支持多个系统引导。(2) xencenter作为xenserver的管理客户端,可以安装在普通的windows系统上,一般需要windows具有.net架构2.0及其以上版本的支持。4.2.1 安装xenserver安装xenserver和安装一般的windows或linux的方式差不多。主要区别是还是xenserver对硬件有要求。要求cpu为64位,而且支持vt在linux平台上查看cpu是否支持虚拟化:在终端执行cat /proc/cpuinfo命令,找到flags部分,如果其中输出有vmx或svm,即表明支持虚拟化。cat /proc/cpuinfo | grep vmx (for intel cpu)cat /proc/cpuinfo | grep svm (for amd cpu)下图是在64位amd cpu的linux系统下查看的结果:图4-3 linux下查看cpu特性xenserver成功后的示意图:图4-4 xenserver成功开启后界面图4.2.2 安装xencenter将xenserver安装好后,会在xenserver上静态指定一个ip地址。然后在局域网上的任何一台电脑上通过web访问xenserver(xenserver此时开启了一个web服务器进程)。就可以在xenserver上下载对应的xencenter安装包。如下图所示:图4-5 web访问xenserver显示界面点击“xencenter installer”然后根据安装向导就可以顺利安装好xencenter安装xencenter成功的示意图: 图4-6 xencenter链接xenserver成功显示界面4.2.3 安装虚拟机并制作模板a 安装虚拟机首先,登陆xenserver的console,然后执行如下指令:$mkdir /boot-iso$xe sr-create name-label=boot-iso type=iso device-config:localtion=/boot-iso device-config:legacy_mode=true content-type=iso然后上传iso镜像致主机的/boot-iso即可。b 制作虚拟机模板利用虚拟机模板可以很快克隆出多个一模一样的vm,避免了每个vm都手动安装的繁琐。右击你选择的vm,然后选择”convert to template”.这样就在下面生成了一个模板。选择模板,右击,选择“quick create”就可以很迅速地创建多个虚拟机。4.3安装制作hadoop虚拟服务器模板4.3.1 虚拟机上部署jdk环境hadoop用java编写的,运行在java虚拟机上,所以虚拟机上要具备jdk环境。a 下载jdk后,执行mv jdk1.6.0_26 /usr/local/jdk 这样就将jdk安装在了指定的目录。b 配置环境变量 $vim /etc/profile 文件末尾添加:export java_home=/usr/local/jdkexport path=$path:$java_home/binexport classpath=$java_home/lib:$jre_home/lib:$classpath:/home/hadoop1/hadoop-0.20.2-cdh3u6/conf:/home/hadoop1/jdk1.6.0_43/lib/tools.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6:/home/hadoop1/hadoop-0.20.2-cdh3u6/hadoop-core-0.20.2-cdh3u6.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/ant-contrib-1.0b3.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/asm-3.2.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/aspectjrt-1.6.5.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/aspectjtools-1.6.5.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/commons-cli-1.2.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/commons-codec-1.4.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/commons-daemon-1.0.1.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/commons-el-1.0.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/commons-httpclient-3.1.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/commons-io-2.1.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/commons-lang-2.4.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/commons-logging-1.0.4.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/commons-logging-api-1.0.4.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/commons-net-3.1.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/core-3.1.1.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/guava-r09-jarjar.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/hadoop-fairscheduler-0.20.2-cdh3u6.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/hsqldb-0.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jackson-core-asl-1.5.2.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jackson-mapper-asl-1.5.2.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jasper-compiler-5.5.12.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jasper-runtime-5.5.12.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jersey-core-1.8.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jersey-json-1.8.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jersey-server-1.8.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jets3t-0.6.1.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jetty-6.1.26.cloudera.2.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jetty-servlet-tester-6.1.26.cloudera.2.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jetty-util-6.1.26.cloudera.2.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jsch-0.1.42.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/junit-4.5.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/kfs-0.2.2.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/log4j-1.2.15.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/mockito-all-1.8.2.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/oro-2.0.8.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/servlet-api-2.5-20081211.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/servlet-api-2.5-6.1.14.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/slf4j-api-1.4.3.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/slf4j-log4j12-1.4.3.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/xmlenc-0.52.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jsp-2.1/jsp-2.1.jar:/home/hadoop1/hadoop-0.20.2-cdh3u6/lib/jsp-2.1/jsp-api-2.1.jarexport ld_library_path=$java_home/jre/lib/amd64/server/执行命令 $source /etc/profile 让该配置生效。c 测试jdk环境是否搭建成功 编辑hello.java如下所示:public class hello public static void main(string args) system.out.println(hello world!) ; $javac hello.java$java hello 如果没有报错,而且能运行出结果“hello world”表明jdk搭建成功4.3.2网络安全协议ssh的配置在xenserver上安装3台vm后,需要namenode和datanode之间无密钥访问。在主机a(namenode)上执行如下命令:(1) $cd /.ssh(2) $ssh-keygen -t rsa 然后一直按回车键,就会按默认的选项将生成的密钥保存在.ssh/id_rsa.pub 文件中。(3) $cp id_rsa.pub authorized_keys 这步完成后,正常情况下就可以无密钥登陆本机了,即ssh localhost.无需 输入密码。(4) $scp authorized_keys xiyou30:/.ssh/ 把刚产生的authorized_keys文件拷贝到30主机上一份。 登陆30 执行 $chmod 600 authorized_keys(5)$scp authorized_keys xiyou31:/.ssh/ 把刚产生的authorized_keys文件拷贝到31主机上一份。 登陆30 执行 $chmod 600 authorized_keys测试: $ssh 29 $ssh 30 $ssh 31如果都不需要密码登陆说明配置成功了。4.3.3 hadoop参数配置hadoop参数配置文件都在hadoop/conf目录下,主要的配置文件有如下几个:hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml masters slaves而且多台虚拟机中配置文件都是相同的。a在hadoop-env.sh文件中配置hadoop相关的环境变量在文件末尾追加:export java_home=/usr/local/jdkexport hadoop_home=/home/xiyou/hadoopexport path=$path:/home/xiyou/hadoop/binexport hadoop_home_warn_suppress=1b 配置core-site.xml hdfs:/29:9000 hadoop.tmp.dir /home/xiyou/data/hdfs/tmp c 配置hdfs-site.xml,该文件主要是配置hdfs文件系统相关的参数 .dir /home/xiyou/data/hdfs/name dfs.data.dir /home/xiyou/data/hdfs/data dfs.datanode.max.xcievers 4096 dfs.replication 2 d 配置mapred-site.xml,该配置文件主要用来配置map/reduce分布式计算的 参数 mapred.job.tracker 29:9001 e 配置matsters文件。该文件的参数指定namenode29f 配置slaves文件。该文件指定datanode30314.4 分布式环境运行初始化:hadoop/bin/hadoop namenode -format启动hdfs和map/reduce:hadoop/bin/start-all.sh成功启动hadoop后,可以通过浏览器方式简单实现对基于虚拟机的分布式的控制和管理。map/reduce管理:图4-7 web方式管理hadoop map/reducenamenode的管理: 图4-8 web方式管理hadoop hdfs 4.5 运行wordcount测试系统单词计算是最简单,也是最能体现mapreduce思想的程序之一,也是mapreduce版的“hello world” 程序的源代码在hadoop/src/examples目录下找的到。程序功能:统计一系列文本文件中每个单词出现的次数。如图:图4-9 wordcount功能图运行wordcount过程。创建本地文件。首先在/home/hadoop目录下创建文件夹file图4-10 创建测试数据然后创建两个文本文件file1.txt,file2.txt,file1.txt内容为hello world,file2.txthellohadoop。图4-11 写入数据到测试文件在hdfs上创建输入文件夹图4-12 hdfs上创建文件夹上传本地file中文件到hdfs的input目录下图4-13 将本地文件上传到hdfs上运行wordcount程序注意:以input作为输入目录,output目录作为输出目录。图4-14 运行wordcount的方式查看结果:查看hdfs上output目录内容图4-15 查看wordcount运行结果文件查看结果输出文件内容图4-16 查看wordcount运行结果4.6 hadoop常见问题及其解决方案4.6.1 too many fetch-failures 出现这个问题主要是结点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论