Hadoop大数据基础实训教程_第1页
Hadoop大数据基础实训教程_第2页
Hadoop大数据基础实训教程_第3页
Hadoop大数据基础实训教程_第4页
Hadoop大数据基础实训教程_第5页
已阅读5页,还剩189页未读 继续免费阅读

付费阅读全文

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高等学校大数据技术与应用规划教材

Hadoop大数据基础实训教程

彭梅胡必波李满◎主编

刘晓娟左文涛蔡敏刘钟凌冯毅鹏◎副主编

内容简介

本书以Hadoop大数据技术生态圈主流框架的应用为主线,介绍了数据处理与分析中典型软

件的使用和基础编程方法。

全书共包含七个基础实训和两个综合案例,内容涵盖操作系统(Linux)、开发工具(IDEA和

Maven)以及大数据相关软件(Hadoop、HDFS、HBase、Hive、MapReduce、Spark、MySQL)

等,可以较好地满足大数据实践教学需求。

本书适合作为高等学校大数据技术及相关专业的教材,也可作为教学辅助用书与其他大数据

教材配套使用。

图书在版编目(CIP)数据

Hadoop大数据基础实训教程/彭梅,胡必波,李满主编.—北京:

中国铁道出版社有限公司,2022.2

高等学校大数据技术与应用规划教材

ISBN978-7-113-28752-8

Ⅰ.①H…Ⅱ.①彭…②胡…③李…Ⅲ.①数据处理软件-高等

学校-教材Ⅳ.①TP274

中国版本图书馆CIP数据核字(2022)第000791号

书名:Hadoop大数据基础实训教程

作者:彭梅胡必波李满

策划:唐旭编辑部电话:(010)51873202

责任编辑:刘丽丽徐盼欣

封面设计:穆丽

封面制作:刘颖

责任校对:苗丹

责任印制:樊启鹏

出版发行:中国铁道出版社有限公司(100054,北京市西城区右安门西街8号)

网址:/51eds/

印刷:国铁印务有限公司

版次:2022年2月第1版2022年2月第1次印刷

开本:787mm×1092mm1/16印张:12字数:269千

书号:ISBN978-7-113-28752-8

定价:39.80元

版权所有侵权必究

凡购买铁道版图书,如有印制质量问题,请与本社教材图书营销部联系调换。电话:(010)63550836

打击盗版举报电话:(010)63549461

前言

前言

近年来,大数据已成为国家和企业的重要战略资源,大数据相关产业已成为我国

未来科技创新和经济结构转型的战略性支柱产业之一,在国民经济的方方面面发挥着

重要的作用。大数据技术的广泛应用也带来了巨大的人才缺口,各行各业都亟需大量

掌握大数据处理技术的人才。要培养大数据人才,建设和完善大数据课程体系成为各

高校的迫切任务。面对这种情况,高校需及时建立和完善大数据课程体系。

Hadoop作为开源的大数据平台是大数据课程教学和企业大数据应用中的重要

内容。从实践教学的教学过程和反馈来看,Hadoop大数据技术课程具备较强的应

用性和综合性特征,学生反映实践难度较大。为推进高校大数据课程体系的完善,

满足高校实践教学的需求,加强课程中Hadoop大数据实践环节的训练,减少学生

搭建大数据实训环境的障碍,我们组织编写了本书。

本书以Hadoop大数据技术生态圈主流框架的应用为主线,从搭建初始化的Linux

集群到Hadoop完全分布式集群入手,重点阐述分布式文件系统HDFS、分布式并行计

算框架MapReduce基础编程方法,详细介绍分布式数据库HBase、数据仓库Hive的安

装和部署方法,拓展介绍基于内存的分布式并行计算框架Spark安装和部署方法以及

Hadoop应用开发环境配置过程,便于学生为后续大数据开发学习做好准备。

通过学习本书,学生即使没有任何大数据基础,也可以对照书中的步骤成功

搭建属于自己的大数据集群并独立完成项目开发,从而降低学习大数据的门槛。

本书共九个实训,包括七个基础实训和两个综合案例。基础实训部分详细介

绍系统和软件的安装、使用以及基础编程方法。综合案例部分侧重于系统培养学

生大数据处理设计开发、编程测试、部署调优等能力,使学生加深对知识的理解。

各实训主要内容如下:

实训1介绍Linux系统的安装。

实训2介绍分布式计算框架Hadoop的安装和配置。

实训3介绍分布式文件系统HDFS的操作方法和基础编程。

实训4介绍分布式数据库HBase和基于Hadoop的数据仓库Hive的安装和配置。

实训5介绍如何编写基本的MapReduce程序。

实训6介绍基于内存的分布式并行计算框架Spark的安装和部署。

实训7介绍Hadoop应用开发环境的安装和部署。

实训8为综合案例——电信流量大数据分析统计,介绍电信流量大数据分析统

计,让学生掌握Hadoop+Spark数据分析处理的实战应用。

实训9为综合案例——基于Hadoop的云盘信息管理系统的设计与实现,介绍

基于Hadoop的云信息管理系统的设计与实现,让学生掌握Hadoop结合JavaWeb

技术的实战应用。

下图展示了本书中大数据软件之间的相互关系,由底向上简要说明如下:

I

Hadoop大数据基础实训教程

Hive

数据仓库Spark

基于内存的

MapReduce分布式计算框架

分布式计算框架IDEA

HBase开发工具

分布式数据库

HDFS

分布式文件系统

Linux操作系统

①操作系统层,采用Linux操作系统作为基础平台。

②数据存储与管理层,主要包括分布式文件系统HDFS、分布式数据库HBase

等,其中HBase借助HDFS作为底层存储。

③数据处理与分析层,主要包括分布式计算框架MapReduce、数据仓库Hive、

基于内存的分布式计算框架Spark等,其中数据仓库Hive既可以作为数据分析工

具,也可以作为数据存储和管理工具。用户可以直接编写MapReduce程序,也可

以先编写HiveSQL查询语句再自动转换成MapReduce程序执行,实现对数据存储

与管理层中的数据的处理和分析。

④Hadoop应用开发环境,与Java应用开发环境类似。IDEA作为一种集成化

开发工具,支持Java、Scala等面向对象语言,让用户既可以编写MapReduce、Spark

等应用程序,实现数据分析和处理,也可以编写HadoopJavaAPI程序实现数据存

储与管理操作。

本书由广州粤嵌科技股份有限公司一线工程师和广州工商学院多年从事大数

据专业教学和科研的一线教师合作编写而成,其中彭梅、胡必波、李满任主编,

刘晓娟、左文涛、蔡敏、刘钟凌、冯毅鹏任副主编。

本书实践内容由浅到深,循序渐进,凸显学习的认知规律,着重介绍当前最

新的知识和主流技术,保证学生所学知识和技术都与行业联系密切,让学生能够

学以致用。

本书适合作为高等学校大数据技术及相关专业的教材,也可作为教学辅助用

书与其他大数据教材配套使用。

尽管我们力求精益求精,但由于编者水平有限,书中难免存在不足及疏漏之

处,敬请广大读者批评指正。

编者

2021年9月

II

目录

目录

实训1Linux操作系统的安装1

1.1实训目的1

1.2实训要求1

1.3实训原理1

1.3.1虚拟化技术1

1.3.2Linux4

1.3.3Xmanager6

1.3.4JDK6

1.3.5SSH免密登录7

1.3.6同步时钟8

1.4实训步骤8

1.4.1安装和配置Linux虚拟机9

1.4.2安装和配置Linux系统17

1.4.3搭建Linux集群24

实训2Hadoop的安装和配置31

2.1实训目的31

2.2实训要求31

2.3实训原理31

2.3.1Hadoop31

2.3.2Ambari32

2.3.3Docker33

2.4实训步骤34

2.4.1手工搭建方式35

2.4.2Ambari自动化搭建方式45

2.4.3使用Docker搭建Hadoop分布式集群50

实训3HDFS操作方法和基础编程55

3.1实训目的55

3.2实训要求55

I

Hadoop大数据基础实训教程

3.3实训原理55

3.3.1HDFS55

3.3.2HDFSShell56

3.3.3HDFSJavaAPI57

3.3.4HDFS运行原理58

3.4实训步骤60

3.4.1HDFSShell基本操作60

3.4.2JavaAPI基本操作61

3.4.3JavaAPI读写数据66

实训4HBase与Hive的安装和配置69

4.1实训目的69

4.2实训要求69

4.3实训原理69

4.3.1HBase69

4.3.2Hive70

4.4实训步骤71

4.4.1安装Zookeeper71

4.4.2安装HBase72

4.4.3安装Hive75

实训5MapReduce基础编程81

5.1实训目的81

5.2实训要求81

5.3实训原理81

5.3.1MapReduce编程思想81

5.3.2单词频数统计83

5.3.3YARN框架84

5.4实训步骤86

实训6Spark的安装和配置93

6.1实训目的93

6.2实训要求93

6.3实训原理93

6.3.1Zookeeper94

6.3.2Spark94

II

目录

6.3.3Spark编程原理95

6.4实训步骤96

6.4.1搭建Zookeeper分布式集群96

6.4.2搭建Spark分布式集群99

6.4.3运行Spark分布式集群103

实训7Hadoop开发环境的安装和部署106

7.1实训目的106

7.2实训要求106

7.3实训原理106

7.3.1IntelliJIDEA106

7.3.2Eclipse108

7.3.3Maven108

7.3.4Tomcat109

7.3.5MySQL109

7.4实训步骤109

7.4.1部署IDEA109

7.4.2部署Eclipse127

7.4.3部署ScalaSDK131

7.4.4部署Maven133

7.4.5部署Tomcat服务器137

7.4.6部署MySQL服务器142

实训8综合案例1——电信流量大数据分析统计151

8.1案例背景151

8.2优化词频统计项目151

8.3使用Spark的local模式进行数据清洗ETL实战153

实训9综合案例2——基于Hadoop的云盘信息管理系统的设计与实现158

9.1案例背景159

9.2系统开发工具与技术159

9.2.1HDFS159

9.2.2JSP技术159

9.2.3ApacheTomcat服务器160

9.2.4MySQL数据库160

III

Hadoop大数据基础实训教程

9.3搭建开发环境161

9.3.1搭建Hadoop开发环境161

9.3.2安装和配置开发工具170

9.4系统分析172

9.5系统设计173

9.6部分模块代码实现179

IV

实训1Linux操作系统的安装

实训1

Linux操作系统的安装

Linux操作系统作为多用户、多任务的网络操作系统,有着开放、稳定、安全、费

用低廉等其他操作系统无可比拟的优势,具有越来越广泛的应用前景。本实训通过虚拟

机软件安装Linux操作系统并进行系统配置,以此为基础完成Linux集群搭建与配置。

1.1实训目的

◆熟悉VMwareWorkstation的安装及使用。

◆熟悉Xmanager的安装及使用。

◆熟悉Linux虚拟机,了解如何搭建Linux集群。

◆熟悉Linux基本命令及FTP服务器配置。

◆熟悉Java基本命令及JDK安装方法。

◆掌握SSH免密码登录配置方法。

◆掌握同步时钟配置方法。

1.2实训要求

本次实训完成后,要求学生能够:

◆使用VMware创建Linux虚拟机。

◆通过Linux虚拟机安装Linux系统。

◆通过Xmanager远程登录Linux系统。

◆通过Linux系统安装JDK。

◆Linux集群配置SSH免密码登录。

◆Linux集群配置同步时钟。

1.3实训原理

本实训在Windows操作系统下使用虚拟机软件安装Linux操作系统,并通过虚拟

机软件模拟一个虚拟的实训环境来实现Hadoop集群搭建。

1.3.1虚拟化技术

虚拟化技术是一种计算机资源管理技术,通过一个特殊虚拟化软件虚拟机管理器

1

Hadoop大数据基础实训教程

(VirtualMachineManager,VMM)在一台计算机上模拟出一个或多个虚拟化环境,而

用户察觉不到其与真实计算机的差别。目前,市场上有很多虚拟化软件:有适合个人

使用的VMwareWorkstation、MicrosoftVirtualPC和SunVirtualBox等;有适合企业使

用的Hyper-V和VMwareESXServer等;有基于Linux内核的虚拟机(Kernel-based

VirtualMachine,KVM);还有基于半虚拟化技术的Xen等,用户可以根据需求来选

择相应的虚拟化软件。常用虚拟化软件介绍见表1-1。

表1-1常用虚拟化软件介绍

开发产生

名称Logo当前版本特点适用范围

公司时间

使用Vmware,可以同时运

行Linux各种发行版、DOS、

VMware几乎使用

VMwareWindows各种版本、UNIX等,

EMC1999年Workstation任何设备都

Workstation甚至可以在同一台计算机上

16Pro能访问

安装多个Linux发行版、多个

Windows版本

KVM是轻量级的虚拟化管

自Linux

理程序模块,该模块主要来

Kernel-based2.6.20之后

自Linux内核;KVM的虚拟化只能在具有

VirtualRed集成在

2007年需要硬件支持,如具有VT功虚拟化支持的

MachineHatLinux的各

能的IntelCPU和具有AMD-VCPU上运行

(KVM)个主要发行

功能的AMDCPU,目前不支

版本中

持准虚拟化

直接运行在计算机硬件之Xen可以运

上的用以替代操作系统的软行在x86、

英国

件层,Xen能够在计算机硬件x86_64和ARM

Xen剑桥2003年Xen4.12

上并发运行多个客户操作系系统上,并正

大学

统(GuestOS),同时支持全在向IA64、PPC

虚拟化和准虚拟化移植

采用微内核的架构,兼顾了处理器必须

安全性和性能的要求,可以支持AMD-V

Hyper-V微软2008年Hyper-V1.13

采用半虚拟化和全虚拟化两或者IntelVT

种模拟方式创建虚拟机技术

基于Linux内核和作业系统OpenVZ的

SWsoft的操作系统级虚拟化技术,主机与客户

OpenVZ2005年OpenVZ7

公司允许物理服务器运行多个操系统都必须

作系统是Linux

虚拟机能够让用户在一台物理主机上模拟出多个可以独立运行的机器,每个虚拟

机中可以安装不同的操作系统,每个操作系统的磁盘分区、数据配置都是独立的,应

用软件在各自操作系统内运行互相不受影响,而且多台虚拟机可以构建一个局域网。

物理主机与虚拟机体系结构如图1-1所示(APP:应用程序;VM-A:虚拟机A;VM-B:

虚拟机B)。

虚拟化常见的类型有系统虚拟化、服务器虚拟化、桌面虚拟化、存储虚拟化、网

络虚拟化以及应用虚拟化等。

2

实训1Linux操作系统的安装

图1-1物理主机与虚拟机体系结构

①系统虚拟化是指使用虚拟化软件如VMwareWorkstation在个人计算机上虚拟

出一个逻辑系统,用户可以在这个虚拟的系统上安装和使用另一个操作系统及其应用

程序,如同在使用另一台独立的计算机。该虚拟系统就是上文提到“虚拟机”。

②服务器虚拟化是指将多台服务器整合到一台服务器中,运行多个虚拟环境,

最终将节省物理空间。

③桌面虚拟化是指将计算机的终端系统(也称桌面)进行虚拟化,以达到桌面

使用的安全性和灵活性。可以通过任何设备,在任何地点、任何时间通过网络访问属

于个人的桌面系统。

④存储虚拟化是指通过存储虚拟化的技术方法,将系统中各种异构的存储设备

映射为一个单一的存储资源,对用户完全透明,达到互操作性的目的。

⑤网络虚拟化将网络抽象化为一个广义的网络容量池,并将统一网络容量池以

最佳的方式分割成多个逻辑网络,用户可以创建跨越物理边界的逻辑网络,从而实现

跨集群和单位的计算资源优化。

⑥应用虚拟化是基于应用/服务器(A/S)的架构,采用类似虚拟终端的技术,把

应用程序的人机交互逻辑(应用程序界面、键盘及鼠标的操作、音频输入/输出、读卡

器、打印输出等)与计算逻辑隔离开。从本质上说,应用虚拟化是把应用对低层的系

统和硬件的依赖抽象出来,可以解决版本不兼容的问题。

要实现Hadoop集群安装,至少要使用四台计算机。本实训以四台虚拟机节点为例

来组建Hadoop分布式集群,考虑虚拟机兼容性选择VMware11,系统版本采用CentOS7。

根据表1-2所示资源配置来组建大数据基础平台。

表1-2Hadoop集群主机资源配置

主机名(FQDN)内存/GB硬盘/GBIP地址角色

88040NameNode

44041DataNode、SecondaryNameNode

44042DataNode

44043DataNode

3

Hadoop大数据基础实训教程

为节省安装虚拟机操作系统的时间,使用VMwareWorkstation的虚拟机模板功能

和克隆功能,只新建一台虚拟机,安装一次操作系统即可。虚拟机安装完操作系统以

后,制作它的“快照”,并把它设置为“模板”。再使用“克隆”的方式,从模板虚

拟机的快照状态复制得到三台新的虚拟机,如图1-2所示。新虚拟机的环境与模板虚

拟机的快照状态一致,节省了设置虚拟机硬件和安装操作系统的时间。

图1-2通过模板克隆虚拟机过程

VMware提供了三种网络工作模式:Bridged(桥接)、NAT(NetworkAddressTranslation,

网络地址转换)、Host-Only(仅主机)。桥接模式:选择桥接模式,虚拟机和宿主机

在网络上是平级的关系,相当于连接在同一交换机上。NAT模式:选择NAT模式,虚

拟机若要联网需先通过宿主机,才能和外面进行通信。仅主机模式:选择仅主机模式,

虚拟机与宿主机直接连起来。其中,桥接与NAT模式访问互联网过程如图1-3所示。

图1-3桥接与NAT模式访问互联网过程

本实训中把虚拟机的网络连接设置为“NAT模式”。这样虚拟机可以通过主机的

网络连接访问外部网络,为需要联网安装的软件提供了便利。通过设置NAT映射,虚

拟机还可以为外部网站提供服务。此外,因为是在宿主机上运行虚拟化软件VMware

Workstation创建虚拟机安装Linux系统,所以对宿主机的配置有一定的要求,建议宿

主机配置CPUi5双核及以上、硬盘500GB及以上、内存4GB及以上。

1.3.2Linux

Linux全称GNU/Linux,是一种免费使用和自由传播的类UNIX操作系统,其内核

由林纳斯·本纳第克特·托瓦兹于1991年10月5日首次发布。它主要受到Minix和

UNIX思想的启发,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多

CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32

位和64位硬件设备。Linux继承了UNIX以网络为核心的设计思想,是一个性能稳定

4

实训1Linux操作系统的安装

的多用户网络操作系统。Linux有上百种不同的发行版,如基于社区开发的Debian、

ArchLinux,和基于商业开发的RedHatEnterpriseLinux、SUSE、OracleLinux等,它

们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,例如手机、平板电脑、

路由器、视频游戏控制台、台式计算机、大型计算机和超级计算机。

Linux的文件系统采用的是层级式的树状目录结构来组织文件,最上层是根目录

“/”,然后在此目录下再创建其他目录,如图1-4所示。

图1-4Linux文件系统树

CentOS(CommunityEnterpriseOperatingSystem,社区企业操作系统)是Linux发

行版之一,每两年发行一次,每个版本的系统会提供10年的安全维护支持。CentOS

源于RedHatEnterpriseLinux(RHEL)依照开放源代码(大部分是GPL开源协议)规

定释出的源码编译而成。自2004年3月以来,CentOSLinux一直是社区驱动的开源项

目,旨在与RHEL在功能上兼容。本实训推荐安装的CentOS7系统于2014年7月7

日正式发布,实训中涉及一些Linux常用操作命令,见表1-3。

表1-3Linux系统常用命令及含义

命令含义

pwd用于显示当前目录

cd用于切换目录

ls用于查看文件与目录

cp用于复制文件,若复制的对象为目录,则需要使用-r参数

mv用于移动文件,在实际使用中,也常用于重命名文件或目录

rm用于删除文件,若删除的对象为目录,则需要使用-r参数

ps用于查看系统的所有进程

tar用于文件压缩与解压,参数中的c表示压缩,x表示解压缩

cat用于查看文件内容

ipaddr用于查看服务器IP配置

5

Hadoop大数据基础实训教程

Linux提供了类似Windows操作系统记事本程序的vi文本编辑器程序,可以执行

输出、删除、查找、替换、块操作等众多文本操作。通过在命令行嵌入“vi/vim文件

名”后,默认进入“命令模式”,不可编辑文档,需按【I】键,方可编辑文档;编辑

结束后,需按【Esc】键,先退回命令模式,再按【:】键进入末行模式,接着嵌入“wq”

方可保存退出。vi编辑器的三种模式切换如图1-5所示。

图1-5vi编辑器的三种模式切换

1.3.3Xmanager

实训中,需要从Windows机器登录到集群中的Linux服务器上,而绝大多数Linux

服务器采用的是SSH(SecureShell)登录方式,因此需要在Windows机器上安装一个

SSH登录工具。常用的SSH工具包括XShell、SecureCRT、putty等。在UNIX/Linux

和Windows网络环境中,本实训推荐XManager作为连通解决方案。

XManager全称XmanagerEnterprise,是一个简单易用的高性能的运行在Windows

平台上的XServer软件。就像运行在PC上的任何Windows应用程序一样,它可以无

缝拼接到UNIX应用程序中。XManager安装完以后会包含以下产品:Xbrowser、Xconfig、

Xftp、Xlpd、Xmanager–Broadcast、Xmanager-Passive、Xshell、Xstart,如图1-6所示。

其中,Xshell是一个用于Windows平台的强大的SSH、Telnet、和RLOGIN终端仿真软

件。它使得用户能轻松和安全地从WindowsPC上访问UNIX/Linux主机。Xftp是一个

用于Windows平台的强大的FTP和SFTP文件传输程序。Xftp让用户能安全地在

UNIX/Linux和WindowsPC之间传输文件。

图1-6XmanagerEnterprise系列产品组件

1.3.4JDK

JDK(JavaDevelopmentKit,Java开发包或Java开发工具)是一个编写JavaApplet

小程序和应用程序的开发环境。JDK是整个Java的核心,包括JRE(JavaRuntime

Environment,Java运行环境)、一些Java工具和JavaAPI(Java的核心类库)等。主

流的JDK是Sun公司(已被甲骨文公司收购)发布的,除此之外,还有很多公司和组

织开发了自己的JDK,例如,IBM公司开发的JDK,BEA公司开发的JRocket,GNU

6

实训1Linux操作系统的安装

组织开发的JDK。

JRE是支持Java程序运行的标准环境,是运行环境,而JDK是开发环境。因

此,写Java程序的时候需要JDK,而运行Java程序的时候需要JRE。JDK里面已经包

含了JRE,因此只要安装了JDK,就可以编辑和正常运行Java程序。但由于JDK包含

了许多与运行无关的内容,占用的空间较大,因此运行普通的Java程序无须安装JDK

而只需要安装JRE即可。本实训推荐JDK1.8以上。在安装Java环境后,可以使用

Java命令来编译、运行或者打包Java程序,实训中涉及一些Java基本命令,见表1-4。

表1-4Java基本命令及含义

命令含义

java-version用于查看Java版本

javac用于编译Java程序

Java用于运行Java程序

Jar用于打包Java程序,打包时,加入-m参数,并指定manifest文件名

1.3.5SSH免密登录

集群中的计算机之间需要频繁通信,但是Linux系统在相互通信中需要进行用户

身份认证,也就是输入登录密码。在集群规模不大的情况下,可以适用,但是,如果

集群有几十台、几百台甚至几千台计算机,频繁地认证(输入密码)会增加任务负担,

降低工作效率。因此,实际的集群需要进行免密登录。Hadoop的基础是分布式文件系

统HDFS,HDFS集群有两类节点以管理者—工作者的模式运行,即一个NameNode(管

理者)和多个DataNode(工作者)。在Hadoop启动以后,NameNode通过SSH来启动

和停止各个节点上的各种守护进程,在这些节点之间执行指令时采用无须输入密码的

认证方式,因此,需要将SSH配置成使用无须输入root密码的密钥文件认证方式。SSH

免密登录原理如图1-7所示。

图1-7SSH免密登录原理

7

Hadoop大数据基础实训教程

1.3.6同步时钟

在一台计算机上有两个时钟:一个称为硬件时间时钟(RTCRealTimeClock,又

称实时时钟);还有一个称为系统时钟(SystemClock)。硬件时钟是指嵌在主板上的

特殊的电路,它的存在就是平时关机之后还可以计算时间的原因。RTC的英文全称是

Real-TimeClock,译为实时时钟芯片。RTC是PC主板上的晶振及相关电路组成的时

钟电路的生成脉冲。RTC经过8254电路的变频产生一个频率较低的OS(系统)时钟

TSC,系统时钟每一个CPU周期加一,每次系统时钟在系统初起时通过RTC初始化。

8254电路本身工作也需要有自己的驱动时钟(PIT)。

系统时钟就是操作系统的kernel所用来计算时间的时钟。它记录从1970年1月1日

00:00:00UTC时间到目前为止秒数总和的值。在Linux下,系统时间在开机的时候会和硬

件时间同步(Synchronization),之后各自独立运行。在Linux运行过程中,系统时间和

硬件时间以异步的方式运行,互不干扰。硬件时间的运行靠BIOS电池来维持,而系统时

间是用CPUtick来维持,这也是系统时间长时间运行时会产生时间偏差的原因。

大数据系统是对时间敏感的计算处理系统,时间同步是大数据能够得到正确处理

的基础保障,是大数据得以发挥作用的技术支撑。大数据时代,整个处理计算系统内

的大数据通信都是通过网络进行。时间同步也是如此,利用大数据的互联网络传送标

准时间信息,实现大数据系统内时间同步。

在集群中,随着集群节点数的增加,集群各节点之间时间不一致的问题会越来越严

重,经常会引发故障。为避免类似问题出现,需要假设独立的时间同步服务器,并设置

所有节点定时与时间服务器进行同步。例如,master作为时间同步服务器,其他机器如

slave1、slave2、slave3向该服务器通过内网请求时间同步,来保证集群间系统时间一致。

Linux系统可以配置网络时间同步,网络时间协议(NetworkTimeProtocol,NTP)是用

于互联网中时间同步的标准互联网协议。NTP的用途是把计算机的时间同步到某些时间

标准。目前采用的时间标准是世界协调时(UniversalTimeCoordinated,UTC)。

1.4实训步骤

完成本实训,需要下载VMwareWorkstation。本实训知识导图如图1-8所示。

图1-8实训知识导图

8

实训1Linux操作系统的安装

1.4.1安装和配置Linux虚拟机

1.安装VMware

Windows系统下,按照VMware11安装向导步骤,完成VMware安装过程。VMware

安装成功后,将显示VMwareWorkstation工作界面,如图1-9所示。

图1-9VMwareWorkstation工作界面

2.安装Xmanager

Windows系统下,按照Xmanager安装向导步骤,完成Xmanager安装过程。在安

装好的Xmanager工具里双击打开Xshell,将显示Xshell工作界面,如图1-10所示。

图1-10Xshell工作界面

9

Hadoop大数据基础实训教程

在安装好的Xmanager工具里双击Xftp图标,将显示Xftp工作界面,如图1-11所示。

图1-11Xftp工作界面

3.创建Linux虚拟机

打开VMware后进入VMwareWorkstation工作界面,单击“创建新的虚拟机”按

钮,打开“新建虚拟机向导”对话框。

步骤1:选择安装类型。典型安装:VMware会将主流的配置应用在虚拟机的操作

系统上,对于新手很友好。自定义安装:可以针对性地把一些资源加强,把不需要的

资源移除,避免资源的浪费。本实训推荐选择“自定义(高级)”单选按钮,如图1-12

所示,单击“下一步”按钮。

图1-12新建虚拟机向导步骤1

10

实训1Linux操作系统的安装

步骤2:选择虚拟机硬件兼容性。这里要注意兼容性,如果是VMware11创建的

虚拟机复制到VMware10或者更低的版本会出现不兼容的现象。如果是用VMware10

创建的虚拟机在VMware11中打开则不会出现兼容性问题。如图1-13所示,单击“下

一步”按钮。

图1-13新建虚拟机向导步骤2

步骤3:选择安装客户机操作系统。为了让VMwareTools更好地兼容,这里选择

“稍后安装操作系统”单选按钮,如图1-14所示,单击“下一步”按钮。

图1-14新建虚拟机向导步骤3

11

Hadoop大数据基础实训教程

步骤4:选择客户机操作系统。这里选择“Linux”单选按钮,“版本”处选择“CentOS

64位”选项,如图1-15所示,单击“下一步”按钮。

图1-15新建虚拟机向导步骤4

步骤5:虚拟机位置与命名。虚拟机名称就是一个名字,方便在虚拟机多的时候

进行快速查找。在“虚拟机名称”处填写“master”。VMware的默认位置是在“C”

盘下,本实训在“位置”处改成“D”盘,后续路径可以自行定义,如图1-16所示,

单击“下一步”按钮。

图1-16新建虚拟机向导步骤5

12

实训1Linux操作系统的安装

步骤6:分配处理器。处理器要根据自己的实际需求来分配。如果在使用过程中

CPU不够,还可以再增加,因此,在“处理器数量”与“每个处理器的核心数量”处

都选择“1”,如图1-17所示,单击“下一步”按钮。

图1-17新建虚拟机向导步骤6

步骤7:分配内存。内存也是要根据实际的情况进行分配,例如宿主机内存是32GB,

本实训给虚拟机master分配4GB内存,因此,在“此虚拟机的内存”处填写“4096”,

如图1-18所示,单击“下一步”按钮。

图1-18新建虚拟机向导步骤7

13

Hadoop大数据基础实训教程

步骤8:选择网络连接类型。这里选择“使用网络地址转换(NAT)”单选按钮,

如图1-19所示,单击“下一步”按钮。

图1-19新建虚拟机向导步骤8

步骤9:接下来三项按虚拟机默认选项即可。

第一项“选择I/O控制器类型”中,BusLogic是很老的技术,I/O性能比LSI差不

少,但对一些老的系统有效,比如Windows2000。LSILogicSAS仅适用于具有硬件版

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论