版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
公司SparkJobserver增加安装方修改安装方CDH5用户权限 置手册文档目 安装条 网络配 硬 CPU和内 安装集 准备工 主机名配 关闭root用户的ssh无通 关闭 设置Linux最大文件打开数和进程 安装ClouderaManager 3.2.1.安 离线安 安装 3.3.1.安 离线安 配置集 功能配 配置方 角色组配 配置方 配 环境变 配置方 服务参 配置方 基本参 用户权 创建本地 升级集 JDK未安 错误描 解决方 错误描 解决方 安装ClouderaManagerAgent卡 错误描 解决方 服务器管理经验,熟悉基本的LINUX硬盘配置4*2T,根据需要保存的数据实际情况也可变动。(注意Hadoop的数据默认都是保存3份,占用3倍硬盘空间)多个硬盘的组合一般配置为Raid0RaidJBOD(JustaBunchOfDisks)形式。CPU使用类似DellR510,R710CPU内存一般应配置16G或32G。CentOS6.0以上版本。安装6.5CM5提供了对CDH5进行安装、配置、管理、的功能,使用CM5可以较方便地完成CDH5环境的部署。本文使用的CM版本为1,安装的CD本为5.0.0。CDHInstall.tar.gzCDHFile.tar.gzmasterCDHInstallCDHFile文件夹,请确保CDHFileextshCDHHostconfig.shhostlistntpconffiledir<ntphost>6restrictdefaultkodnomodifynotrapnopeernoqueryrestrictrestrictdefaultkodnomodifynotrapnopeernoqueryrestrict-6defaultkodnomodifynotrapnopeernoqueryrestrictHOSTmaskMASKnomodifyrestrictrestrict-6serverfudgestratum10driftfile/var/lib/ntp/driftkeysMasterntp时间同步的子网IP, 集群中各节点的root运行完成后重启Master节点。目的:系统安装完成后默认的主机名一般都为localhost.local #hostname解析配置目的:帮助主机进行DNS对应IP都应该写入hosts文件中。或者,在master主机上更改完以后,再将该hostsscpscp/etc/hostsslave1:/etc/##Donotremovethefollowingline,orvarious#thatrequirenetworkfunctionalitywill 6505152关闭#serviceiptablesstop#chkconfigiptablesoffroot用户的ssh无通#ssh-keygen-t之后会在/rootssh文件夹,里面包含文件id_rsaid_rsa.pub这里实际上只有master上该路径下的公钥和私钥文件有用,也可以在其余的主机上手动创建/root/.ssh700755,在此建议在每个主机上执行上述的ssh-keygen-trsassh并修改权限等容易出错的步骤。master/root/.ssh/id_rsa.pub同位置,并且重命名为aaa(任意取,目的是不要覆盖原来的文件)。master上的id_rsa.pubslave1#scp/root/.ssh/id_rsa.pub将公钥文件的内容添加到/root/.ssh/authorized_keys在master上执行:#cat/root/.ssh/id_rsa.pub#cat/root/.ssh/aaaauthorize_keys的权限,使除了root od600这样,master上的root用户就可以以root用户的无登陆到任意一台主机sshyes依次用ssh登陆各个节点,以验证ssh配置是否成功:$ssh$ssh…authorized_keys600rootmaster上的私钥文件id_rsa600目的:使集群中的所有主机的时间保持同步,这里将masterntp有主机与master保持时间同步。masterntp在master主机上执行:#vimrestrictdefaultkodnomodifynotrapnopeernoqueryrestrictrestrictdefaultkodnomodifynotrapnopeernoqueryrestrict-6defaultkodnomodifynotrapnopeernoqueryrestrictmasknomodifyrestrictrestrictrestrict-6serverfudgestratum10driftfile/var/lib/ntp/driftkeys-54都可以使用此NTP服务器来同步时间,请根据集群的具体规划mastermaster器同步,可以在文件中添加一行:serverip_of_uper_server。ntpdmaster#servicentpdrestart#chkconfigntpdonntpntp在别的主机上用ntpdate命令同步的话,会出现同步失败,稍等一段时间即可。contab#crontab-0****usr/sbin/ntpdatemaster>/dev/nullcrondservicecrondstatus未启动,手动启动:#servicecrondstart关闭文件,将设置LinuxLinuxLinux#cat/proc/sys/fs/file-echo2048000(修改值,随情况而定)/proc/sys/fs/file-max#vi/etc/sysctl.conf增加一行:fs.file-max#vi*** nproc nofile“*”#以上各参数修改的依据:用户最大打开文件数的默认值为1024,fs.epoll.max_user_instances12832安装ClouderaManagerClouderaManager可通过安装、离线安装和手动离线安装三种方式完成,masterroot.cloudera-manager-到https: /cm5/installer/latest/,cloudera-manager-installer.bin的版本到任意下。.依赖由于自动安装过程中会使用yum自动依赖的,而在网速不好的情况下,往到/cm5/redhat/6/x86_64/cm/5/RPMS/x86_64/,下 对应CM5版本,其他版本可打开/cm5/后根据操作系统和对应版本找到所需的)。 ,使用yum本地安装,执行命令:#yumlocalinstall--nogpgcheck3.启动cloudera-manager-cloudera-manager-installer.bin一路点击NextYes1cloudera-manager-installer面2cloudera-manager-installer面3cloudera-manager-installer面4cloudera-manager-installer面5cloudera-manager-installer面6cloudera-manager-installer面7cloudera-manager-installer面8cloudera-manager-installer面9cloudera-manager-installer面10cloudera-manager-installer面11cloudera-manager-installer面netstattnlp7182,718012ClouderaManager状CM5行,请参考9.x节进行调试。3.2.2.离线安3.1.1CDHInstallmasterrootshCDHInstall.shfiledirhostlist3iphostname3.1.1节中的hostlisteth0ifconfig安装完成后转到节,安装CDH5。masterrootyum#cd./(硬盘)#cpmnt/usb/repo.tar.gz#tar-zxvfrepo.tar.gz#cd.//./parcels#cd(服务器)#scprroot@50:/opt/parcels(硬盘)#cprmnt/usb/parcels配置yumyumyum#mv/etc/yum.repos.d//etc/yum.repos.d.bak#mkdir/etc/yum.repos.d/ od777/etc/yum.repos.d/#vi/etc/yum.repos.d/cdh.repo运行cloudera-manager-#cd一路点击NextAccept图netstattnlp7182,718014ClouderaManager安装CDH5.0.0master,Windows或Linux打开并初始化”,打开admin,admin,登录。(需配置host文件,或直接输入master节点的15ClouderaManager
16版
17IP,可点击模式查看输入方式,如“172.16.8.[150-152]”表示50、51、52三台主机,之后点击搜索。18主机1920版本选择SSH
21版本22安装ClouderaManager23CloudraManagerAgent过程24CloudraManagerAgent过程安装过程中需要在其他节点上安装JDK、oracle-j2sdk1.7、cloudera-manager-agentcloudera-manager-daemons,如果网速慢的话,可能要等待很长在master主机上跳转到存放中存放的包的 #cd#rm–fcloudera-manager-server-*#scp*root@slave1:/opt/cm/#cd#yumlocalinstall--nogpgcheck安装完成后,回到Web25CloudraManagerAgent成安装点击继续后,开始选定的Parcel,等待并分配完成,鼠标放在进度条上可以26Parcel如果速度过慢,同样可以到/手动在/opt/cloudera/parcel-repo中查看要的文件名,在此为“CDH-5.0.0-在/cdh5/parcels/上根据CD本找到。最新版本路径为/cdh5/parcels/latest/,在此为/cdh5/parcels/5.0.0/。 下的manifest.json文件,保存到/opt/cloudera/parcel-repoparcel名,此parcel的hash值到新建的.sha文件中 点击左侧的Parcel 点击左侧的Parcel128Parcel置
29Parcel
30界HBase、HDFS、Hive、HUE、Oozie、YARN、31界面
32界面NameNodeSecondaryNameNnode在Master节点上,同时Master节点还承担客户端的角色,作为整个集群的。1JobHistoryHBaseThriftHiveMetastore无Server(2Oozie无Hue无Activity无AlertEventHostNavigatorAuditReportsService2JobHistoryHBaseHive无Server(2点无Oozie无无Hue无无Activity无无AlertEventHostNavigatorReportsService33界34界35界
36成安装Apachehttpdweb服务器#yuminstallhttpd#servicehttpd发布源文od-Rugo+rx修改yum#vi配置NFSmasteretc/yum.repos.dNFS在master主机上执行命令:#servicenfsstart#vi/etc/exports#exportfs#mount-tnfs-ointrmaster:/etc/yum.repos.d/nfsnfs#tar–zxvfnfs.tar.gz#cdnfs#yumlocalinstall--nogpgcheck打开并初始化”,打开 37ClouderaManager
38版
39IP,可点击模式查看输入方式,如“172.16.8.[150-152]”表示50、51、52三台主机,之后点击搜索。40主机4142输入parcels出现图43选择CDClouderaManagerAgent特定版本选择自定义库,输44输入ClouderaManagerAgent选择SSHroot45安装ClouderaManager46CloudraManagerAgent过程
47CloudraManagerAgent过程48CloudraManagerAgent成安装
49Parcel50界HBase、HDFS、Hive、HUE、Oozie、YARN、51界面
52界面NameNodeSecondaryNameNnode在Master节点上,同时Master节点还承担客户端的角色,作为整个集群的。3JobHistoryHBaseThriftHiveMetastore无Server(2Oozie无Hue无Activity无AlertEventHostNavigatorAuditReportsService4JobHistoryHBaseHive无Server(2点无Oozie无无Hue无无Activity无无AlertEventHostNavigatorReportsService53界54界55界56成创建Hive为了使用HUE编辑和管理Hive应用,需要在HDFS上创建Hive仓 CMHive
57创建Hive$hadoopfs-ls出现 图58确认创建Hive仓 成安装OozieHUEOozieHDFSOozie更改HDFS的 权限为$hadoopfs od771CM59安装Oozie享库
60安装Oozie享库$hadoopfs-ls出现 61确认安装Oozie安装SparkJobServer(可选HUESparkSparkJobServer,具体安装方法可参考。以下为实际安装过程,要求可以连接HUESpark登录CM,进入HUE服务,点击配置->查看和编辑->服务范围->高级->hue_safety_valve.iniHue(安全阀),写入如下配置内容:master
61HUESpark辑htt /sbt/rpm/sbt-0.13.5.rpm到master节点的/opt 使用root用户执行命令:#cd#rpm-ivhsbt-#cd#gitclone #cdspark-server# 的对应路径下,再重新执行sbt命令和re-start命4SparkJobSerever动,但当退出sbt时会自动关闭。62spark-jobserver已修正此问题图63spark-jobserver启动错误classpath#cd/opt/spark-server/lib_managed/jars#mvslf4j-log4j12-1.7.2.jar../##project64spark-jobserver(CDH5.0.2)HUESparkJobServer没有启动,查看jobserver8090CMHostMonitor8090端口。在ClouderaManagermgmt服务页面下,点击配置->查看和编辑->HostMonitorDefaultGroup->端口和地址,将HostMonitor调试端口修改为8091,保存后重启jobserver、mgmt和HUE服务,问题解决。可以在HUE界面的Spark编辑器中编辑Spark任务。65HUEspark修改YARN服务的JavaHBase和PigJavaAPI,HBaseJarYARNCLASSPATH(根据版本不同,jar同,此处以5.0.0版本为例)CM修改YARNGateway登录CM,YARN服务,点击配置->查看和编辑->GatewayDefaultGroup->高级->hadoop-env.shGateway(安全阀),写入如下配CM修改YARNCM,进入YARNYARNCMMRCM,进入YARNGatewayDefaultGroupMR应用程序Classpath,添加/opt/cloudera/parcels/CDH/lib/hbase/lib/*、在客户端上htrace-core-HBase/opt/cloudera/parcels/CDH/lib/hbase/lib/htrace-core-2.01.jar到/opt/cloudera/parcels/CDH/lib/hbase/下。加入是由于相同jar包的版本,详见8.5CDH5角色组机制CDH所有配置相同的DataNode角色就属于同一个DataNode角色组。当首次创建服务时,ClouderaManager色组,或根据需要创建新的角色组。自动创建的角色组名为DefaultGroup,如DataNodeDefaultGroup。此外,首次创建服务时,ClouderaManager点上配置的角色进行分组。例如,Slave1和Slave2节点分配了DataNode、NodeManager和ZookeeperServer三个角色;Slave3和Slave4节点只分配了DataNode、NodeManager两个角色;那么Slave3和Slave4的DataNode角色会属于DataNodeDefaultGroup,而Slave1和Slave2的DataNode角色会属于DataNodeGroup1。6667方法
68方法
69成
7071方法
72方法4.2.3.配
73成为了方便,在硬件配置差别不大的情况下,将所有角色都移动至对应的DefaultGroup中。CDH5环境变量机制CDH5自动为各 服务器进行了部分配置,将Hadoop、Hive、Impala、HBase、Spark、Zookeeper服务的bin 下的内容加入到了/usr/bin路径下,并且使用alternatives对版本进行了控制,其他服务的环境变量需要手动增加。使用alternatives--configxxx命令,可以查看对应的绝对路径,并进行多个版本间的切换。以hadoop为例,执行alternatives--confighadoop命令,结果如下:74alternativesconfigexportexportexportCLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libexportexportCLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libexportPATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HOME/binexportHADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoopexportHIVE_HOME=/opt/cloudera/parcels/CDH/lib/hiveexportexportZOOKEEPER_HOME=/opt/cloudera/parcels/CDH/lib/zookeeper#sourceClouderaManager修改配置文件ClouderaManager的WebCDH5CM
75ClouderaManager
76菜
77YARN78界.修
79菜CDH5Hadoop、Hive、HBase、Zookeeperetc录下,并且使用了alternatives对版本进行了控制。--80alternativesconfighadoop-hadoopetc/hadoop/conf.cloudera.yarn。说明:Hadoop1GB。包括NameNode、JobHistoryServer等Java进程的堆栈大小。CM(假设所有角色都属于对应的默认角色组,角色组概念见4.2节)。5分属性(参数值(字节NameNodeNameNodeJava大小(字节DataNodeDataNodeJava小(字节DefaultGroupJava(字节JobtrackerJobTrackerJava大小(字节TaskTrackerTaskTrackerJava大小(字节ResourceManagerJava(字节NodeManagerNodeManagerJava栈大小(字节JobHistoryServerJobHistoryServerJava(字节MasterDefaultGroup-HBaseMasterJava栈大小(字节RegionServerHBaseRegionServerJava(字节HBaseThriftDefaultGroupHBaseThriftServerJava(字节HiveMetastoreDefaultGroupHiveMetastoreJava(字节HiveServer2HiveServer2Java大小(字节ServerDefaultGroupZooKeeperServerJava(字节OozieDefaultGroupOozieServerJava栈大小(字节tServiceActivityMonitorActivityMonitor堆栈大小(字节AlertPublisherAlertPublisher堆栈大小(字节EventServerEventServerJava大小(字节HostMonitorHostMonitorJava栈大小(字节HostMonitorJavaNavigatorAuditDefaultGroupAuditingServer堆栈大小(字节ReportsManagerReportsManagerJava(字节ServiceMonitorServiceMonitor堆栈大小(字节ServiceMonitorJava保证每个节点上运行的守护进程加上分配给YARN上表中的值适用于,Master节点配置16~32G内存,Slave节点配置32~64G14.5G(YARNMapReduce),Slave内存最小值为4~5G(至少有两个Slave节点需要启动ZooKeeperServer)。当内存资源比较充裕时,应适量增加NameNode和RegionServerYARN容器资源分配说明:CDH5使用YARNCM5,按节所述方法依次更改表6中各选项(假设所有角色都属于对应的默认角色4.2)6YARN分属性(参数值NodeManagerDefaultNodeManagerDefault容器虚拟CPUResourceManagerDefaultResourceManagerDefaultCPU1ResourceManagerDefault ResourceManagerDefaultCPU 4GatewayDefaultGroup-MapGatewayDefaultGroup-ReduceGatewayDefaultGroup-MapGatewayDefaultGroup-Reduce上面的值以的Slave服务器硬件配置为例,即64GB内存、16块磁盘和CPU例如:以节的守护进程内存配置为例,YARN容器的总物理内存应小于等于64-5=59GB。YARN容器的总虚拟CPU核数执行以下命令获得CPU逻辑核数:#cat/prouinfo|grep"processor"|wc-例如:以的Slave服务器硬件配置为例,YARN容器的虚拟CPU核数应为24Container1-2Container11CPU例如:的Slave服务器硬件配置为16块磁盘和24个CPU逻辑核,则并每个Container的内存和CPUCPUContainern,等于所有分配给YARNn=min
𝑦𝑎𝑟𝑛.𝑛𝑜𝑑𝑒𝑚𝑎𝑛𝑎𝑔𝑒𝑟.𝑟𝑒𝑠𝑜𝑢𝑟𝑐𝑒.𝑚𝑒𝑚𝑜𝑟𝑦−𝑦𝑎𝑟𝑛.𝑠𝑐ℎ𝑒𝑑𝑢𝑙𝑒𝑟.𝑚𝑖𝑛𝑖𝑚𝑢𝑚−𝑎𝑙𝑙𝑜𝑐𝑎𝑡𝑖𝑜𝑛−
,𝑦𝑎𝑟𝑛.𝑛𝑜𝑑𝑒𝑚𝑎𝑛𝑎𝑔𝑒𝑟.𝑟𝑒𝑠𝑜𝑢𝑟𝑐𝑒.𝑐𝑝𝑢−𝑣𝑐𝑜𝑟𝑒𝑠𝑦𝑎𝑟𝑛.𝑠𝑐ℎ𝑒𝑑𝑢𝑙𝑒𝑟.𝑚𝑖𝑛𝑖𝑚𝑢𝑚−𝑎𝑙𝑙𝑜𝑐𝑎𝑡𝑖𝑜𝑛−n=24,yarn.nodemanager.resource.memory-mb=48GB,yarn.nodemanager.resource.cpu-vcores=24时,可算出最小物理内存(yarn.scheduler.minimum-allocation-mb)=总物理内存/最大并发数=48/24=2GB,最小虚拟核数(yarn.scheduler.minimum-allocation-vcores)=总虚拟/最大并发数CPUyarn.scheduler.um-allocation-mb<=YARN容器的总物理内存yarn.scheduler.um-allocation-vcores<=YARN容器的总虚拟CPU核数例如:最大物理内存可设为8GB,最大CPU核数可设为4。Map和ReduceTask(mapreduce.map|reduce.memory.mb)Container存,并且小于等于每个Container的最大物理内存。例如:每个Container的最小物理内存为2GB,最大物理内存为8G时,可设置MapTask(mapreduce.map.memory.mb)2GB,ReduceTask最大物理内存(mapreduce.reduce.memory.mb)为4GB。Map和ReduceTaskJVMHeapSize(JVMContainerMap或ReduceTaskJVMJVMHeap(mapreduce.map|reduce.java.opts)5Task例如:MapTask的最大物理内存为2GB,ReduceTask的最大物理内存为4GBMapTaskJVMHeapSize(mapreduce.map.java.opts)1.5GB,ReduceTask的JVMHeapSize(mapreduce.reduce.java.opts)为3GB。Map和ReduceTaskContainer(yarn.nodemanager.vmem-pmem-ratio)决定,使用默认值2.1即可。HDFS最大传输线程数DataNode4096,建议加倍增长,为了以防多次修改,首次修改,增长4倍,变为4096*4=16384。7HDFS程属性(参数值DataNodeDefault8属性(参数值Gateway启用UberTask优化说明:Hadoop2.xJVMUberTask9启用UberTask属性(参数值GatewayDefaultUbertaskUbertaskUbertask最大Reduce1Ubertask本地源是为离线安装ClouderaManager和CDH而准备的,为了保证版本不滞 版本的Cloudera到/cm5/installer/latest/版本的cloudera- 到/cm5/redhat/6/x86_64/cm/5.0.0-beta-2/RPMS/x86_64/CentOS6适用的版本的rpm,保存到/opt/repo 到/cdh5/parcels/latest/版本的CDH,包括适合的parcel文件和manifest.json文件,保存到/opt/parcels yum#vi安装的rpm,依赖的#cd#yumlocalinstall–nogpgcheck和/var/cache/yum/x86_64/6/updates/packages下的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学年级组长个人工作计划
- 大班下学期社会教案《户外活动计划及总结》
- 计划生育家庭奖励扶助年终总结
- 化工企业2025年上半年工作总结及下半年年工作计划
- 员工年度工作总结及明年工作计划的内容
- 妇幼医院某年年度工作计划
- 学校2025年消防安全工作计划
- 《大学英语听力应用教程(第1册)》课件-Unit 2 Private Schools
- 工会劳动合同法题目
- 《ERP的成本管理》课件
- 小学生预防早婚早育主题班会
- 上海市虹口区2023-2024学年八年级下学期期末考试语文试题
- W -S-T 433-2023 静脉治疗护理技术操作标准(正式版)
- 【经济学基础课程案例探析报告:“双十一”的经济学探析5100字】
- 时尚流行文化解读智慧树知到期末考试答案章节答案2024年天津科技大学
- 读书课件分享(认知觉醒)
- 供电所星级班组创建方案
- 剪叉式升降工作平台作业专项施工方案24
- 海康雷达区间测速卡口专项方案
- 长安大学毕业设计方案开题报告
- 内镜逆行冲洗治疗阑尾炎
评论
0/150
提交评论