谷歌TPU3.0深度揭秘,它的神奇之处是什么_第1页
谷歌TPU3.0深度揭秘,它的神奇之处是什么_第2页
谷歌TPU3.0深度揭秘,它的神奇之处是什么_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

谷歌TPU3.0深度揭秘,它的神奇之处是什么在今年的年度I/O大会上,谷歌给人留下深刻印象。它不仅推出了一系列基于TPUv2芯片的云计算TPU实例的基准测试,还透露了一些有关其下一代TPU芯片即TPU3.0,以及其系统架构的简单细节。TIRIASResearch的顶尖技术专家和首席分析师PaulTeich近日在nextplatform发文,对谷歌TPU3.0进行了深度揭秘。谷歌将TPUv2版本升级为TPU3.0,但讽刺的是,据我们所知的种种细节表明,从TPUv2到TPU3.0(下文称之为TPUv3)的跨度并没有那么大;或许称其为TPUv2r5或类似的东西会更合适。如果你对TPUv2还不太熟悉,可以了解一下我们去年所做的关于TPUv2的评测来增加这方面的知识结构。我们使用谷歌对云TPU(CloudTPU)的定义,云TPU是一块包含四个TPU芯片的主板。谷歌目前的云TPU测试程序只允许用户访问单个云TPU。除了其内部开发人员,其他人无法以任何方式将云TPU联合使用。去年我们了解到,谷歌已经在其TensorFlow深度学习(DL)框架下抽取出云TPU。除了谷歌内部的TensorFlow开发团队和GoogleCloud之外,没有人可以直接访问云TPU硬件,可能永远也不能。我们还认为,谷歌已经资助了一项庞大的软件工程和优化工作,以实现其当前测试云TPU的部署。这促使谷歌在TPUv3中尽可能多地保留TPUv2的系统接口和行为,即硬件抽象层和应用程序编程接口(API)。关于何时提供TPUv3服务、将其置于云TPU或多机架pod配置中,谷歌没有提供任何信息。它的确展示了基于TPUv3的云TPU板的照片和一些pod照片,并作出以下声明:TPUv3芯片运行温度非常高,以致谷歌首次在其数据中心引入液体冷却技术每个TPUv3pod的功率将是TPUv2pod的八倍每个TPUv3pod性能将为每秒钟运算100多千万亿次(petaflops)不过,谷歌也重申,TPUv2pod的时钟频率为11.5千万亿次每秒。8倍的改进应该会使TPUv3pod的基本频率达到92.2千万亿次,但100千万亿次的运算意味着这几乎是TPUv2的9倍了。谷歌的营销人员应该四舍五入取整了,所以这个数字可能不太准确。POD从TPUv3pod的两张完整照片中可以明显看出,谷歌的下一代产品已经升级:每个pod的机架数量是原来的两倍。每个机架的云TPU数量是原来的两倍如果没有其他变化,光这两点足以使TPUv2pod的性能提高4倍。

pod:TPUv2(上)和TPUv3(下)机架TPUv3pod机架的间隔比TPUv2机架的间隔更小。但是,与TPUv2pod一样,TPUv3pod中仍然没有明显的储存组件。TPUv3的机架也更高,以适应添加的水冷装置。

机架:TPUv2(左)和TPUv3(右)谷歌将不间断电源从TPUv2机架底部移到TPUv3机架顶部。我们假设现在机架底部的大体积金属盒中包含水泵或其他水冷相关装置。

TPUv2机架顶部、底部(左)和TPUv3机架顶部(右)现代超大规模数据中心不使用活动地板。谷歌的机架在加水之前就很重了,所以它们被直接置于混凝土板上,水从机架顶部进出。谷歌的数据中心有很多高架空间,如TPUv3pod的照片所示。然而,悬挂重水管道和确定路径一定是额外的操作挑战。

TPUv3的水连接(左上)、水泵(左下,猜测)和机架上的数据中心基础架构(右)注意地板上机架前的绞合线,就在机架底部的大金属盒前面,可能是湿度传感器。架子和主板谷歌不仅将计算机架密度提高了一倍,还将服务器主板与云TPU的比率从一对一降到了一对二。这将影响功耗估计,因为TPUv3pod的服务器和云TPU将从同一机架电源中获取电力。谷歌将当前云TPUbeta实例所使用的服务器主板作为计算引擎n1-standard-2实例计入其云平台公共云中,该云平台公共云具有两个虚拟CPU和7.5GB内存。我们认为这很可能是一款主流双插槽X86服务器。回想一下,TPUv2pod包含256个TPUv2芯片和128个服务器处理器。TPUv3pod将使服务器处理器增加一倍,TPU芯片数增加三倍。

我们认为谷歌在其TPUv2pod中过度调配了服务器。这对于新的芯片和系统架构来说是可以理解的。在对pod软件进行了至少一年的调整并对芯片进行了一次小的修订以后,把服务器的数量减少一半对pod性能的影响可能微不足道。其中可能有诸多原因,或许是服务器没有计算或带宽限制,又或者谷歌可能部署了新一代具有更多核的IntelXeon或AMDEpyc处理器。通过将服务器主板集成到云TPU机架中,谷歌可以用相同的机架配置使机架数量增加一倍。在一个机架上标准化配置必然有助于降低硬件部署的成本和复杂性。

电脑架:TPUv2(左)和TPUv3(右)但是,为了实现更高的密度,谷歌必须从4U云TPU外形规格转变为2U高密度外形规格。其数据中心温度很高(公布的数据在80°F到95°F之间),因此TPUv2风冷散热器必须很大。谷歌使用开放式机架,所以利用风来冷却密集外形规格的热插槽变得非常昂贵,使得水冷成为可行的替代方案。特别是对于像深度学习这样的高

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论