




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、银河麒麟服务器操作系统Hadoop 软件适配手册银河麒麟服务器操作系统 V4 hadoop 软件适配手册I目录 HYPERLINK l _bookmark0 目录I HYPERLINK l _bookmark1 概述2 HYPERLINK l _bookmark2 系统概述2 HYPERLINK l _bookmark3 环境概述2 HYPERLINK l _bookmark4 HADOOP 软件简介2 HYPERLINK l _bookmark5 HDFS 架构原理2 HYPERLINK l _bookmark6 MAPREDUCE 介绍3 HYPERLINK l _bookmark7 YA
2、RN 介绍4 HYPERLINK l _bookmark8 HADOOP 软件适配4 HYPERLINK l _bookmark9 解压 HADOOP 软件4 HYPERLINK l _bookmark10 配置文件修改4 HYPERLINK l _bookmark11 配置 HADOOP-ENV.SH4 HYPERLINK l _bookmark12 配置 YARN-ENV.SH5 HYPERLINK l _bookmark13 配置 CORE-SITE.XML5 HYPERLINK l _bookmark14 配置 HDFS-SIZE.XML5 HYPERLINK l _bookmark1
3、5 配置 MAPRED-SITE.XML6 HYPERLINK l _bookmark16 配置 YARN-SITE.XML6 HYPERLINK l _bookmark17 配置 SLAVES7 HYPERLINK l _bookmark18 格式化并启动集群7 HYPERLINK l _bookmark19 格式化 NAMENODE7 HYPERLINK l _bookmark20 启动 NAMENODE 和 DATANODE 守护进程7 HYPERLINK l _bookmark21 启动 RESOURCEMANAGER 和 NODEMANAGER 守护进程7 HYPERLINK l _
4、bookmark22 执行 WORDCOUNT 测试用例7 PAGE 7概述系统概述银河麒麟服务器操作系统主要面向军队综合电子信息系统、金融系统以及电力系统等国家关键行业的服务器应用领域,突出高安全性、高可用性、高效数据处理、虚拟化等关键技术优势,针对关键业务构建的丰富高效、安全可靠的功能特性,兼容适配长城、联想、浪潮、华为、曙光等国内主流厂商的服务器整机产品,以及达梦、金仓、神通等主要国产数据库和中创、金蝶、东方通等国产中间件,满足虚拟化、云计算和大数据时代,服务器业务对操作系统在性能、安全性及可扩展性等方面的需求,是一款具有高安全、高可用、高可靠、高性能的自主可控服务器操作系统。环境概述服
5、务器型号长城信安擎天 DF720 服务器CPU 类型飞腾 2000+处理器操作系统版本Kylin-4.0.2-server-sp2-2000-19050910.Z1内核版本4.4.131hadoop 版本2.7.7Hadoop 软件简介 HYPERLINK /item/Hadoop Hadoop 是一个由 Apache 基金会所开发的 HYPERLINK /item/%E5%88%86%E5%B8%83%E5%BC%8F%E7%B3%BB%E7%BB%9F/4905336 分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hado
6、op 实现了一个 HYPERLINK /item/%E5%88%86%E5%B8%83%E5%BC%8F%E6%96%87%E4%BB%B6%E7%B3%BB%E7%BB%9F/1250388 分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS 有高 HYPERLINK /item/%E5%AE%B9%E9%94%99%E6%80%A7/9131391 容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问 HYPERLINK /item/%E5%BA%94%E7%94%A
7、8%E7%A8%8B%E5%BA%8F/5985445 应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS 放宽了(relax)POSIX 的要求, 可以以流的形式访问(streaming access)文件系统中的数据。Hadoop 的框架最核心的设计就是:HDFS 和 MapReduce。HDFS 为海量的数据提供了存储,而 MapReduce 则为海量的数据提供了计算。HDFS 架构原理HDFS 是 Hadoop 分布式文件系统(Hadoop Distributed File System)的缩写, 为分布式计算存储提供了底层支持。采用 Java
8、语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。HDFS 采用 master/slave 架构。一个 HDFS 集群包含一个单独的 NameNode和多个 DataNode。NameNode 作为 master 服务,它负责管理文件系统的命名空间和客户端对文件的访问。NameNode 会保存文件系统的具体信息,包括文件信息、文件被分割成具体 block 块的信息、以及每一个 block 块归属的 DataNode 的信息。对于整个集群来说,HDFS 通过 NameNode 对用户提供了一个单一的命名空间。DataNode 作为 slave 服务,在集群中可以存在
9、多个。通常每一个 DataNode 都对应于一个物理节点。DataNode 负责管理节点上它们拥有的存储,它将存储划分为多个 block 块,管理 block 块信息,同时周期性的将其所有的 block 块信息发送给 NameNode。MapReduce 介绍MapReduce 是一种计算模型,该模型可以将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务,而这些任务的计算结果可以合并在一起来计算最终的结果。简而言之,Hadoop Mapreduce 是一个易于编程并且能在大型集群(上千节点)快速地并行得处理大量数据的软件框架,以可靠,容错的方式部署在商用机器上。MapRedu
10、ce 这个术语来自两个基本的数据转换操作:map 过程和 reduce 过程。map:map 操作会将集合中的元素从一种形式转化成另一种形式,在这种情况下, 输入的键值对会被转换成零到多个键值对输出。其中输入和输出的键必须完全不同,而输入和输出的值则可能完全不同。reduce:某个键的所有键值对都会被分发到同一个 reduce 操作中。确切的说,这个键和这个键所对应的所有值都会被传递给同一个 Reducer。reduce过程的目的是将值的集合转换成一个值(例如求和或者求平均),或者转换成另一个集合。这个 Reducer 最终会产生一个键值对。需要说明的是,如果 job 不需要 reduce 过
11、程的话,那么 reduce 过程也是可以不用的。task:Hadoop 提供了一套基础设计来处理大多数困难的工作以保证任务可以成功执行,比如 Hadoop 决定如果将提交的 job 分解为多个独立的 map 和 reduce 任务(task)来执行,它就会对这些 task 进行调度并为其分配合适的资源,决定将某个 task 分配到集群中哪个位置(如果可能,通常是这个 task 所要处理的数据所在的位置,这样可以最小化网络开销)。Hadoop 会监控每一个 task 确保其成功完成,并重启一些失败的 task。YARN 介绍YARN 是 Hadoop 2.0 中的资源管理系统,它的基本设计思想是
12、将 MRv1 中的JobTracker 拆分成了两个独立的服务:一个全局的资源管理器 ResourceManager 和每个应用程序特有的 ApplicationMaster。其中 ResourceManager 负责整个系统的资源管理和分配,而 ApplicationMaster 负责单个应用程序的管理。YARN 总 体 上 仍 然 是 master/slave 结 构 , 在 整 个 资 源 管 理 框 架 中 ,resourcemanager 为 master,nodemanager 是 slave。Resourcemanager 负责对各个nademanger 上资源进行统一管理和调度
13、。当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的 ApplicationMaster,它负责向 ResourceManager 申请资源, 并要求 NodeManger 启动可以占用一定资源的任务。由于不同的ApplicationMaster 被分布到不同的节点上,因此它们之间不会相互影响。YARN 的基本组成结构, YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等几个组件构成。ResourceManager 是 Master 上一个独立运行的进程,负责集群统一的资源管理、调度、分配等等;N
14、odeManager 是 Slave 上一个独立运行的进程,负责上报节点的状态;App Master 和 Container 是运行在 Slave 上的组件,Container 是 yarn 中分配资源的一个单位,包涵内存、CPU 等等资源, yarn 以 Container 为单位分配资源。Client 向 ResourceManager 提交的每一个应用程序都必须有一个 ApplicationMaster,它经过 ResourceManager 分配资源后,运行于某一个 Slave 节点的 Container中,具体做事情的 Task,同样也运行与某一个 Slave 节点的 Contain
15、er 中。RM,NM,AM 乃至普通的 Container 之间的通信,都是用 RPC 机制。Hadoop 软件适配$ tar -xvf hadoop-2.7.7.tar.gz -C /usr/local/$ cd /usr/local/hadoop-2.7.7/etc/hadoop/解压 hadoop 软件配置文件修改$ vim hadoop-env.sh配置 hadoop-env.sh修改 JAVA_HOME:export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-arm64$ vim yarn-env.sh配置 yarn-env.sh修改:export
16、JAVA_HOME=/usr/lib/jvm/java-8-openjdk-arm64$ vim core-site.xml配置 core-site.xml内容如下:hdfs:/Kylin:8020HDFS 的 URI,文件系统:/namenode 标识:端口号hadoop.tmp.dir/usr/local/hadoop-2.7.7/tmpnamenode 上本地的 hadoop 临时文件夹配置 hdfs-size.xml.dir/usr/local/hadoop-2.7.7/hdfs/namenamenode 上存储 hdfs 名字空间元数据 dfs.data.dir/usr/local/
17、hadoop-2.7.7/hdfs/data内容如下:datanode 上数据块的物理存储位置dfs.replication1副本个数,配置默认是 3,应小于 datanode 机器数量$ cp mapred-site.xml.template mapred-site.xml$ vim mapred-site.xml配置 mapred-site.xml内容如下:yarn$ vim yarn-site.xml配置 yarn-site.xml内容如下:yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.resourcemanager.webapp.addressKylin:8099yarn.resourcemanager.hostnameKylin$ vim slaves配置 slaves内容如下:Kylin格式化并启动集群$ cd /usr/local/hadoop-2.7.7/$ bin/hdfs namenode -format格式化 namenode启动 namenode 和 datanode 守护进程$ sbin/start-dfs.sh$ sbin/start-yarn.sh启动 ResourceManager 和 NodeManager 守护进程执行 wordc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国进出口代理合同
- 商品混凝土外加剂购销合同
- 养殖场转让合同协议书
- 大庆医学高等专科学校《电路理论B》2023-2024学年第二学期期末试卷
- 9《心中的“110”》 (教学设计)-部编版道德与法治三年级上册
- 泉州工程职业技术学院《双碳概论》2023-2024学年第二学期期末试卷
- 必修3 第三单元 全面依法治国-高中政治单元教学设计
- 江苏卫生健康职业学院《跆拳道教学与训练》2023-2024学年第二学期期末试卷
- 第14课《诗词三首-水调歌头》教学设计 2024-2025学年统编版语文九年级上册
- 湖北第二师范学院《产品设计速写》2023-2024学年第二学期期末试卷
- 2025年北京交通职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 心理健康七个一主题活动方案
- 多元化票务系统设计-深度研究
- 2024年菏泽职业学院高职单招语文历年参考题库含答案解析
- GB/T 22180-2024速冻裹衣鱼
- 《公路施工组织设计》课件
- 中医药防疫课件
- 统编版(2024新版)七年级下册历史教材习题答案
- 第10课《自定主题活动一:用养乐多瓶子做花瓶》(教学实录)-2023-2024学年三年级下册综合实践活动浙教版
- 热点主题作文写作指导:提出问题与解决问题(审题指导与例文)
- 糖尿病肌少症
评论
0/150
提交评论