版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、计算机学院实验报告课程名称: 分布式计算环境 实验项目名称: Hadoop安装以及执行WordCount程序 学 院: 计算机学院 专业班级: 网络1101班 姓 名: 赵亚娟 学 号: 指导教师: 蔡涛 2014年 12 月 18 日目录一、实验目的3二、实验仪器3三、实验内容及步骤3 实验内容3 实验步骤中遇到的难点3 四、安装ssh服务3五、建立ssh无密码登录本机4六至九阶段5四、实验小结11一、 实验目的在虚拟机Ubantu上安装Hadoop单机模式并且执行WordCount程序。二、 实验仪器硬件:虚拟机Ubantu软件: Windows 7操作系统三、实验内容实验内容:一、安装L
2、inux操作系统二、在Ubuntu下创建Hadoop用户组和用户三、在Ubuntu下安装JDK四、安装ssh服务五、建立ssh无密码登录本机六、安装Hadoop七、在单机上运行Hadoop八、Hadoop执行WordCount程序实验步骤中遇到的难点:四、安装ssh服务这里的ssh和三大框架:spring,struts,hibernate没有什么关系,ssh可以实现远程登录和管理,具体可以参考其他相关资料。1、安装openssh-server(注:自动安装openssh-server时,可能会进行不下去,可以先进行如下操作:如图(17))更新过程可能会比较长,需要耐心等待。然后输入如图(18)
3、此处也是比较慢,需要等待2、更新的快慢取决于您的网速了,如果中途因为时间过长您中断了更新(Ctrl+z),当您再次更新时,会更新不了,报错为:“Ubuntu无法锁定管理目录(/var/lib/dpkg/),是否有其他进程占用它?“需要如下操作,如图(19)操作完成后继续执行第1步。这时假设您已经安装好了ssh,您就可以进行第六步了。五、建立ssh无密码登录本机ssh生成密钥有rsa和dsa两种生成方式,默认情况下采用rsa方式。1、创建ssh-key,这里我们采用rsa方式,如图(20)(注:回车后会在/.ssh/下生成两个文件:id_rsa和id_rsa.pub这两个文件是成对出现的)2、进
4、入/.ssh/目录下,将id_rsa.pub追加到authorized_keys授权文件中,开始是没有authorized_keys文件的,如图(21)完成后就可以无密码登录本机了。3、登录localhost,如图(22)(注:当ssh远程登录到其它机器后,现在你控制的是远程的机器,需要执行退出命令才能重新控制本地主机。)4、执行退出命令,如图(23)六到九阶段由于是实验重点,所以这期间,着重看了并总结了一下。阶段一:创建虚拟机VMware,安装ubuntu版本的Linux系统。出现问题: 启动虚拟机受阻,弹跳框显示启动失败。解决:打开BIOS管理界面,找到 “virtualbox”,使其处于
5、使能状态enabled。成果展现:阶段二:安装Hadoop软件(本实验下载安装的是Hadoop-0.20.2),并配置相关文件。 由于是网上找的教程,这部分倒是配置的挺顺畅。hadoop软件保存在usr/local文件夹内。我采用的Hadoop版本是从 这个网站中的资源下载中的hadoop-0.20.2.tar.gz1、假设hadoop-0.20.2.tar.gz在桌面,将它复制到安装目录/usr/local/下,如图(24)2、解压hadoop-0.20.2.tar.gz,如图(25)3、将解压出的文件夹改名为Hadoop,如图(
6、26)4、将该hadoop文件夹的属主用户设为hadoop,如图(27)5、打开hadoop/conf/hadoop-env.sh文件,如图(28)配置相关文件: (1)修改hadoop-env.sh配置(配置文件在hadoop文件下的conf文件夹里)将Java环境的配置进行修改后,并取消注释“#”,修改后的行为:(2)配置hdfs-site.xml(3)配置core-site.xml至此检验运行:bin/start-all.sh启动Hadoop相关后台进程,安装成功。阶段三:在Hadoop软件上实例化运行wordcount 程序。(注释 wordcount:这个程序用于统计一批文本文件中单
7、词出现的频率,完整的代码可在下载的Hadoop 安装包中得到(在src/examples目录中)出现问题:安装网上教程完成一个实例后,不管怎么修改本地文件夹里的内容,再上传至HDFS的输入文件夹input,输出目录output的统计内容显示总是第一次实例的结果。解决:实例化只能在相对应的input和output目录中,若是想要完成第二个实例测试,最好新建一个本地文件夹,然后上传至HDFS(Hadoop分布式文件系统(HDFS),是被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。)上新建一个文件夹,如zyjInput文件夹,将本地文件上传至HDFS文件系统集
8、群的zyjInput目录下,最后以zyjOutput文件夹作为输出目录。具体操作:1、 格式化HDFS ,命令语句为: bin/hadoop namenode -format 此时选择 y 2、 启动Hadoop相关后台进程 bin/start-all.sh(由于前面已呈图,此处不做重复)3、 新建文件夹,取名为file,并添加file1.txt,file2.txt两个文本内容。命令语句为: mkdir file cd file echo “Hello World” file1.txt echo “Hello Hadoop” file2.txt可用命令语句 more file1.txt来查看t
9、xt文本内容同时也可以在本地文件查看file文件夹。4、 在HDFS上创建文件夹,取名为zyjInput。命令语句为: bin/hadoop fs-mkdir zyjInput另外可用命令 bin/hadoop ls 查看是否建好。5、 将本地文件file上传至HDFS文件系统集群的zyjInput目录下。命令语句为:bin/hadoop fs put file/file*.txt zyjInput6、 运行wordcount 程序,输入目录为zyjInput,输出目录为zyjOutput。命令语句为:bin/hadoop jar hadoop-0.20.2-examples.jar word
10、count zyjInput zyjOutput7、 查看统计结果。查看hdfsOutput 目录内容。 bin/hadoop fs ls zyjOutput查看统计 bin/hadoop fs cat zyjOutput/part-r-000008、 记得停止运行hadoop.命令语句为: bin/stop-all.sh至此,我们已经完全验证完如何在Hadoop的单机模式下运行WordCount.java程序。四、实验小结:我觉得我在做这个实验的时候,完全按照老师要求来做了安装虚拟机VMware,并在虚拟机里启动Linux系统,安装Hadoop软件,并在上面跑个程序。老实讲,这里的程序我是采
11、用的Hadoop软件里自带的example里的程序wordcount,但是关于wordcount程序代码,没有学过JAVA,所以具体的代码没怎么看懂,只是大概了解了程序的作用这个程序用于统计一批文本文件中单词出现的频率。 WordCount 例子读取文本文件,并统计文件中单词出现的频数。WordCount对于hadoop的重要性,相当于HelloWorld对于JAVA的重要性。如果你想学习MapReduce变成模型,那么学习WordCount是一个最好的开始。输入输入包含一组文件,文件中含有很多单词输出输出是一个文本文件,文件的每一行包含一个单词和这个单词在所有输入文件中出现的次数。输入样例i
12、nput1:hello world bye worldinput2:hello hadoop bye hadoop输出样例:bye 2hadoop 2hello 2world 2 期间百度了不少资料,之前确实不太懂分布式计算。分布式计算是近年提出的一种新的计算方式。所谓分布式计算就是在两个或多个软件互相共享信息,这些软件既可以在同一台计算机上运行,也可以在通过网络连接起来的多台计算机上运行。分布式计算比起其它算法具有以下几个优点:1、稀有资源可以共享。2、通过分布式计算可以在多台计算机上平衡计算负载。3、可以把程序放在最适合运行它的计算机上。其中,共享稀有资源和平衡负载是计算机分布式计算的核心
13、思想之一。而分布式计算里面有一项很重要的概念就是HDFS。Hadoop主要由HDFS(HadoopDistributedFileSystem)和MapReduce引擎两部分组成。最底部是HDFS,它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。Hadoop 分布式文件系统 (HDFS) 是运行在通用硬件上的分布式文件系统。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS 已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为各大网站等在线服务公司的海量存储事实标准,多年来为网站客户提供了可靠高效的服务。我私心里认为Hadoop一个存储设备或存储环境。确实,它是一个能够在其上创建应用的平台,有存储PB级数据的能力。此外,它能够处理并分析数据;提供越来越多的“大数据”应用结果。因为有学习了一下教程,之后想自己实践的时候,总是提示output已经存在,我做的是另外新创建了一个文件作为输入目录,后来跟同学交流的时候有学习到,其实还有另外一种方法。虽然也有学习到是输入./hadoop fs rmr output删除output文件夹即可,但是忽略了所在的文件目录,usr/local/hadoop/bin 很重要,而且一定要输入“-rmr”而不能是“-rm”。(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年江苏省中等职业学校学生学业水平考试机械CAD绘图试卷(含5张图)
- 2024届襄樊市重点中学高三下学期第一次诊断性考试数学试题试卷
- 蝴蝶舞会小班课件
- 轮胎行业可行性报告
- 2024年蚌埠大客车从业资格证考试
- 2024年客运资格证考试实际操作试题答案
- 2024年安徽驾驶员客运从业资格证模拟考试题答案
- 2024年湖南驾驶员客运从业资格证考试题库
- 2024年呼伦贝尔道路客运输从业资格证培训资料
- 2025届湖南省湘西土家族苗族自治州高三生物第一学期期末达标检测模拟试题含解析
- 函数的单调性与最值-完整课件
- s和m关系协议书
- 空分装备安全检查表
- 安全风险隐患排查表国家隐患排查导则版
- 停车场施工方案及技术措施范本
- 分居声明告知书范本
- 【基于杜邦分析的企业财务现状探究国内外文献综述5200字】
- 工程图学(天津大学)智慧树知到答案章节测试2023年
- 江苏省民用建筑施工图绿色设计专篇参考样式2021年版
- GB/T 17853-2018不锈钢药芯焊丝
- 初中生离父母有多远
评论
0/150
提交评论