Chaer厦门大学林子雨大数据技术原理与应用第二章大数据处理架构Hadoo_第1页
Chaer厦门大学林子雨大数据技术原理与应用第二章大数据处理架构Hadoo_第2页
Chaer厦门大学林子雨大数据技术原理与应用第二章大数据处理架构Hadoo_第3页
Chaer厦门大学林子雨大数据技术原理与应用第二章大数据处理架构Hadoo_第4页
Chaer厦门大学林子雨大数据技术原理与应用第二章大数据处理架构Hadoo_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

厦门大学计算机科学系2015年版林子雨厦门大学计算机科学系E-mail:ziyulin@主页:/linziyu

第二章大数据处理架构Hadoop

(PPT版本号:2015年6月第1.0版)

《大数据技术原理与应用》/post/bigdata温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字提纲2.1概述2.2Hadoop项目结构2.3Hadoop的安装与使用欢迎访问《大数据技术原理与应用》教材官方网站:/post/bigdata本PPT是如下教材的配套讲义:21世纪高等教育计算机规划教材《大数据技术原理与应用——概念、存储、处理、分析与应用》(2015年6月第1版)厦门大学林子雨编著,人民邮电出版社ISBN:978-7-115-39287-92.1概述2.1.1 Hadoop简介2.1.2 Hadoop发展简史2.1.3 Hadoop的特性2.1.4 Hadoop的应用现状2.1.1Hadoop简介

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduceHadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop2.1.2Hadoop发展简史

Hadoop最初是由ApacheLucene项目的创始人DougCutting开发的文本搜索库。Hadoop源自始于2002年的ApacheNutch项目——一个开源的网络搜索引擎并且也是Lucene项目的一部分

在2004年,Nutch项目也模仿GFS开发了自己的分布式文件系统NDFS(NutchDistributedFileSystem),也就是HDFS的前身2004年,谷歌公司又发表了另一篇具有深远影响的论文,阐述了MapReduce分布式编程思想2005年,Nutch开源实现了谷歌的MapReduceHadoop的标志2.1.2Hadoop发展简史

到了2006年2月,Nutch中的NDFS和MapReduce开始独立出来,成为Lucene项目的一个子项目,称为Hadoop,同时,DougCutting加盟雅虎2008年1月,Hadoop正式成为Apache顶级项目,Hadoop也逐渐开始被雅虎之外的其他公司使用2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统,它采用一个由910个节点构成的集群进行运算,排序时间只用了209秒在2009年5月,Hadoop更是把1TB数据排序时间缩短到62秒。Hadoop从此名声大震,迅速发展成为大数据时代最具影响力的开源分布式开发平台,并成为事实上的大数据处理标准2.1.3Hadoop的特性

Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:

高可靠性

高效性

高可扩展性

高容错性

成本低

运行在Linux平台上

支持多种编程语言2.1.3Hadoop的应用现状

Hadoop凭借其突出的优势,已经在各个领域得到了广泛的应用,而互联网领域是其应用的主阵地2007年,雅虎在Sunnyvale总部建立了M45——一个包含了4000个处理器和1.5PB容量的Hadoop集群系统Facebook作为全球知名的社交网站,Hadoop是非常理想的选择,Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面

国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等,其中,淘宝的Hadoop集群比较大2.2Hadoop项目结构经过多年的发展,Hadoop项目不断完善和成熟,目前已经包含多个子项目(如图2-2所示)除了核心的HDFS和MapReduce以外,Hadoop项目还包括Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子项目,它们提供了互补性服务或在核心层上提供了更高层的服务图2-2Hadoop项目结构图2.3 Hadoop的安装与使用Hadoop基本安装配置主要包括以下几个步骤:创建Hadoop用户Java安装SSH登录权限设置单机安装配置伪分布式安装配置2.3.1创建Hadoop用户添加用户-----useradd删除用户-----userdel更改密码-----passwd在本次实验中,创建的用户名为hadoop2.3.2Java安装使用CentOS自带的java版本安装Oracle官方java版本2.3.3SSH登录权限配置SSH的原因:Hadoop名称节点(NameNode)需要启动集群中所有机器的Hadoop守护进程,这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密码登录的形式,因此,为了能够顺利登录每台机器,需要将所有机器配置为名称节点可以无密码登录它们。SSH是什么?SSH

SecureShell

的缩写,是建立在应用层和传输层基础上的安全协议。SSH是由客户端和服务端的软件组成,服务端是一个守护进程(daemon),他在后台运行并响应来自客户端的连接请求,客户端包含ssh程序以及像scp(远程拷贝)、slogin(远程登陆)、sftp(安全文件传输)等其他的应用程序。2.3.4安装单机HadoopHadoop版本:1.2.1下载地址:/apache/hadoop/common/hadoop-1.2.1/实验步骤:解压缩hadoop-1.2.1.tar.gz修改hadoop-env.sh查看hadoop版本信息:./hadoopversion运行hadoop实例2.3.5Hadoop伪分布式安装文件名称格式描述hadoop-env.shBash脚本记录配置Hadoop运行所需的环境变量,以运行Hadoopcore-site.xmlHadoop配置XMLHadoopcore的配置项,例如HDFS和MapReduce常用的I/O设置等hdfs-site.xmlHadoop配置XMLHadoop的守护进程的配置项,包括NameNode、SecondaryNameNode和DataNode等mapred-site.xmlHadoop配置XMLMapReduce守护进程的配置项,包括JobTracker和TaskTrackermasters纯文本运行SecondaryNameNode的机器列表(每行一个)slaves纯文本运行DataNode和TaskTracker的机器列表(每行一个)pertiesJava属性控制metrics在Hadoop上如何发布的属性Hadoop配置文件2.肥3.斧5Ha攻do啦op伪分涛布式在安装实验薯步骤爷:修改卵配置量文件曲:co按re殃-s锅it毕e.亚xm融l,hd书fs墙-s堵it称e.婚xm赤l,ma津pr石ed弹-s笛it柜e.永xm谦l初始缎化文哄件系缩慧统ha凭do铁op搬n斤am罪en职od眨e龙-f厘or咐ma莲t启动鹿所有似进程st签ar衣t-钢al及l.龟sh访问we列b界面帮,查愤看Ha担do艺op信息运行盟实例本章脖小结Ha旧do馒op被视盟为事像实上赏的大筝数据坛处理辈标准封,本装章介圣绍了Ha颠do迅op的发款展历陷程,苦并阐愤述了Ha传do亡op的高脉可靠境性、瘦高效循性、射高可蓝扩展鹊性、雀高容债错性将、成亦本低谨、运隐行在Li坛nu宁x平台看上、止支持冻多种睁编程喊语言核等特剂性Ha述do彩op目前绑已经火在各饰个领减域得齿到了牛广泛充的应廉用,凉雅虎犁、Fa漆ce雕bo普ok、百绕度、似淘宝浇、网夺易等揉公司拼都建谱立了链自己董的Ha泽do孔op集群经过摘多年封发展卫,Ha鸡do昼op项目仇已经矩变得津非常隶成熟攀和完王善,崭包括Co排mm餐on、Av骡ro、Zo娱ok坊ee参pe晌r、HD反FS、Ma解pR盗ed栗uc衬e、HB烧as刮e、Hi皱ve、Ch断uk小wa、Pi匙g等子充项目答,其糟中,HD骡FS和Ma僻pR锁ed厨uc杀e是Ha槽do仓op的两啦大核差心组街件本章丈最后注介绍歉了如沸何在Li贞nu白x系统啄下完革成Ha套do秋op的安脑装和阵配置碑,这命个部旷分是日后续堆章节辞实践赤环节柄的基拍础主讲博教师昌和助圈教欢迎关访问《大数禽据技胞术原虹理与阔应用——概念弓、存辛储、恒处理宝、分院析与狐应用》教材奏官方冠网站丢:ht注tp题:/失/d雁bl要ab秀.x妙mu刺.e限du货.c善n/惭po纸st鉴/b根ig帝da绍ta单位辽:厦罢门大赏学计窗算机呼科学烛系E-泊ma钻il捕:蛙zi葛yu谣li凉n@纲xm个u.牢ed两u.锤cn个人番网页匙:ht昼tp楚:/侮/w御ww闸.c瘦s.敬xm破u.炊ed盒u.晴cn倘/l问in魔zi恼yu数据蔑库实潮验室连网站龄:ht毯tp女:/储/d筛bl便ab沿.x备mu置.e掀du降.c孕n主讲侧教师女:林骗子雨单位蚂:厦妄门大躲学计虽算机班科学扬系数膊据库气实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论