鲲鹏智能计算导论 课件 第9章 鲲鹏计算平台基础管理_第1页
鲲鹏智能计算导论 课件 第9章 鲲鹏计算平台基础管理_第2页
鲲鹏智能计算导论 课件 第9章 鲲鹏计算平台基础管理_第3页
鲲鹏智能计算导论 课件 第9章 鲲鹏计算平台基础管理_第4页
鲲鹏智能计算导论 课件 第9章 鲲鹏计算平台基础管理_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章

鲲鹏通用计算平台基础管理鲲鹏智能计算导论9.1鲲鹏通用计算平台基础管理实践9.2深度学习平台安装与调试学习要点9.1鲲鹏通用计算平台基础管理实践鲲鹏通用计算平台主要指基于集成鲲鹏处理器的服务器,包括华为的TaiShan、湘江鲲鹏、神州鲲泰等服务器。TaiShan服务器是华为新一代数据中心服务器,基于华为鲲鹏处理器,适合为大数据、分布式存储、原生应用、HPC和数据库等应用高效加速,旨在满足数据中心多样性计算、绿色计算的需求。TaiShan服务器包含计算密集型、存储密集型、均衡型、适用于IoT场景的边缘计算型服务器,为各类不同应用场景提供支持。什么是鲲鹏通用计算平台9.1鲲鹏通用计算平台基础管理实践配置TaiShan服务器的BIOS、RAID及iBMC的方法BIOS是在通电引导阶段运行硬件初始化,以及为操作系统提供运行时服务的固件。BIOS的作用是初始化和测试硬件组件,以及从大容量存储设备(如硬盘)中加载引导程序,并由引导程序加载操作系统;加载操作系统后,BIOS通过系统管理模式为操作系统提供硬件抽象。RAID利用虚拟化存储技术把多个硬盘组合起来,形成一个或多个硬盘阵列组,目的是提升性能或资源冗余,或同时提升这两者。常见的RAID级别有RAID0、RAID1、RAID5、RAID6及RAID10。BIOSRAIDiBMC是面向服务器全生命周期的服务器嵌入式管理系统,提供硬件状态监控、部署、节能、安全等系列管理工具,通过标准化接口构建更加完善的服务器管理生态系统。iBMC9.1.1 任务概述某学校购入一批型号为TaiShan2002280的华为服务器。在安装操作系统之前,需要确认并完成以下工作。服务器上电,待服务器上电后开机,进入BIOS界面,查看CPU、内存及硬盘信息,对服务器的基本信息进行了解。设置启动方式,因为需要使用光盘安装操作系统,而服务器的默认启动方式为硬盘启动,所以需要通过BIOS界面将服务器的默认启动方式由硬盘启动改为数字通用光盘(DigitalVersatileDisc,DVD)启动,以便加载光盘内容,安装操作系统。设置RAID级别,由于此批服务器用于学校的教务管理系统,校方老师希望承载教务管理系统的服务器所使用的硬盘在主机层面上具备一定的可靠性,与学校IT部门沟通后,决定将所有硬盘均设置为RAID5。因此,这里需要将硬盘的冗余级别设置为RAID5。9.1.1 任务概述通过BIOS界面对其相关网络信息进行配置,如通过BIOS界面修改服务器的IP地址。登录iBMC。①使用iBMC完成设备信息查看,包括处理器、内存、存储、操作系统版本、iBMC版本等基础信息。②通过iBMC的电子邮件通知功能配置告警信息,以便设备出现故障后将告警信息发送给相关人员,进行进一步排查与处理。③由于在安装操作系统前,已经通过BIOS界面将服务器的启动方式设置为DVD启动,操作系统完成安装后,服务器需要通过硬盘启动的方式来启动操作系统,因此这里需要使用iBMC将服务器启动项改回为硬盘启动。9.1.2 BIOS及RAID的查看与配置查看BIOS基本信息并修改系统启动方式01OPTION(1)设置BIOS密码(2)BIOS主界面(3)BIOS的Advanced界面9.1.2 BIOS及RAID的查看与配置查看BIOS基本信息并修改系统启动方式01OPTION(4)BIOS的Boot界面9.1.2 BIOS及RAID的查看与配置配置硬盘级别02OPTION(1)选择RAID配置工具(2)选择“MainMenu”选项(3)选择“ConfigurationManagement”选项9.1.2 BIOS及RAID的查看与配置配置硬盘级别02OPTION(4)选择“CreateVirtualDrive”选项(5)选择RAID级别完成iBMC的配置后,即可使用浏览器登录iBMC的管理网页。前文介绍过,iBMC具备远程控制、告警处理、状态检测及设备信息管理等多项功能。除此之外,iBMC良好的可视化界面使运维操作更加简洁明了。9.1.3 iBMC的查看与配置在使用iBMC之前,需要在BIOS中进行iBMC配置。在BIOS的Advanced界面中选择“IPMIiBMCConfiguration”选项,进入iBMC配置界面,可以对iBMC登录用户及密码进行设置,同时可以对登录地址进行修改配置,设置完成后保存并退出该界面即可。iBMC配置界面9.1.3 iBMC的查看与配置使用之前在BIOS中设置的用户名、密码登录iBMC的管理网页,可以在首页中看到服务器的基本信息,如主机型号、BIOS固件版本、iBMC的第4版互联网协议(InternetProtocolversion4,IPv4)地址及其他相关信息。与此同时,在该网页中可以直接看到当前服务器的告警统计信息,该功能可以协助管理员在第一时间确认服务器是否有严重告警,从而进一步定位及处理故障。iBMC的管理网页9.1.3 iBMC的查看与配置在该网页顶部的菜单栏中,选择“维护诊断”→“告警上报”选项即可进入iBMC的告警上报配置页面。告警上报的方式可以根据用户的需求进行选择,一般情况下选择电子邮件通知方式,配置相应的简单邮件传送协议(SimpleMailTransferProtocol,SMTP)服务器地址,并输入收件人的电子邮箱地址即可。配置完成后,一旦服务器出现告警,收件人就会收到相关告警信息,从而进行消息转发或问题处理。

iBMC的告警上报配置页面9.1.3 iBMC的查看与配置完成iBMC相关查看及设置后,需要通过iBMC的管理网页将服务器启动项设置为硬盘启动。在iBMC的管理网页的菜单栏中,选择“系统管理”选项,在左侧导航栏中选择“BIOS配置”选项,右侧会显示“启动项设置”相关信息。在“引导介质”下拉列表中选择“硬盘”选项,并单击“保存”按钮。启动项设置9.1鲲鹏通用计算平台基础管理实践9.2深度学习平台安装与调试学习要点9.2.1 任务概述某高校购买了一套Atlas800(9000)服务器(注意:9000为该服务器的型号)。该服务器硬件配置如下。CPU:鲲鹏920(48Core@2.6GHz)处理器×4。

内存:DDR4RDIMM内存-32GB-2933×16。

硬盘:480GB-SATASSD硬盘×2、1.92TBNVMeSSD硬盘×1。

网口:4×10GE光口-SFP28+4×GE。

昇腾计算卡:AtlasAscend910B32GB(220TFLOPS)×8。学校老师希望完成该服务器的环境搭建后,用于AI相关的科研,并作为AI专业学生的实验环境。服务器上架后,已经完成了BIOS配置并安装了Ubuntu18.04操作系统。接下来需要完成以下任务。(1)对深度学习平台进行基本配置,完成相关驱动及固件安装。(2)搭建深度学习平台的开发及运行环境。9.2.2 深度学习平台基本配置系统环境准备01OPTION在安装驱动与固件之前,要先更新/etc/apt/sources.list文件,再安装dkms包及其相关依赖包。使用root用户身份进行以下操作。9.2.2 深度学习平台基本配置驱动及固件安装02OPTION首先,进行系统环境检查,使用lsmod|grepdrv命令查询是否安装了驱动和固件软件包。若为首次安装,则可以跳过此步骤。若无内容,则表示未安装过软件包,可以直接升级系统内核版本;若有内容,则表示安装过软件包,需要先卸载软件包,再升级系统内核版本。其次,使用root用户身份登录运行环境,将*.run软件包(驱动及固件)上传至运行环境任意路径下,如/opt下。使用chmod+x*.run命令增加安装用户对软件包的可执行权限。接下来检查软件包文件的一致性和完整性,如图所示。很多软件安装前需要进行软件包的完整性检查,常见的有信息摘要算法5(Message-DigestAlgorithm5,MD5)、pkgchk等,一方面可以用来验证文件传输的完整性,另一方面可以确认软件包通过网络传输后是否被篡改。9.2.2 深度学习平台基本配置驱动及固件安装02OPTION使用带--check选项的命令对驱动以及固件进行检查后,即可进行软件安装。首先需要安装驱动,命令如下所示。驱动安装无报错后,进行固件安装。在安装固件时要注意版本号与驱动版本号应保持一致。使用root用户身份进行操作,结果如图所示。#安装驱动命令./A800-9000-npu-driver_20.1.0.spc200_ubuntu18.04-aarch64.run--full#安装固件命令./A800-9000-npu-firmware_1.75.22.3.220.run–full安装驱动结果安装固件结果9.2.2 深度学习平台基本配置驱动及固件安装02OPTION完成驱动及固件安装后,按照提示信息,使用reboot命令进行操作系统重启操作。待重启完成之后,需要使用npu-smiinfo命令查看驱动及固件安装是否成功。若出现下图所示的类似信息,则说明安装成功;否则安装失败。至此,驱动和固件安装完成。屏幕回显信息9.2.3 搭建深度学习平台的开发及运行环境完成驱动和固件安装后,进行开发及运行环境的搭建,此处需要特别说明的是,Atlas800(9000)服务器的运行环境完全包含在开发环境中,因此,本节只介绍开发环境的安装。开发环境的安装思路与驱动类似。首先,需要对环境进行配置,并完成软件依赖包的安装;其次,进行软件安装;最后,完成验证以确保软件安装成功。在安装驱动时已经配置了apt数据源,可直接执行依赖包安装。使用root用户身份进行以下操作。apt-getinstall-ygccg++makecmakezlib1gzlib1g-devlibbz2-devopenssllibsqlite3-devlibssl-devlibxslt1-devlibffi-devunzippciutilsnet-toolslibblas-devgfortranlibblas3libopenblas-devUbuntu18.04自带的Python版本过低,需要升级到Python3.7.5及以上版本。升级完成后,可进行Python和pip版本确认,如图所示。9.2.3 搭建深度学习平台的开发及运行环境确认Python及pip工具升级版本后,需要使用pip命令进行开发环境软件的依赖包的安装。安装前请先使用pip3.7.5list命令检查是否安装了相关依赖。若已经安装,则跳过该步骤;若未安装,则进行安装,命令如下(如果只有部分软件未安装,则将如下命令修改为只安装尚未安装的软件即可)。使用root用户身份进行以下操作。pip3.7.5installnumpypip3.7.5installdecoratorpip3.7.5installsympy==1.4pip3.7.5installcffi==1.12.3pip3.7.5installpyyamlpip3.7.5installpathlib2pip3.7.5installpsutilpip3.7.5installprotobufpip3.7.5installscipypip3.7.5installrequests9.2.3 搭建深度学习平台的开发及运行环境同样地,与安装驱动和固件类似,开发环境软件的依赖包安装完毕后,可以使用带--check选项的命令对该依赖包进行一致性与完整性验证。确保依赖包的正确性后进行开发环境软件的安装,使用root用户身份进行操作。开发环境安装命令及安装过程如图所示。#开发环境安装命令./Ascend-cann-toolkit_20.1.spc200_linux-aarch64.run--install#框架插件包安装命令./Ascend-cann-tfplugin_20.1.spc200_linux-aarch64.run--install9.2.3 搭建深度学习平台的开发及运行环境接下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论