ARM上的OpenBLAS性能优化技术_第1页
ARM上的OpenBLAS性能优化技术_第2页
ARM上的OpenBLAS性能优化技术_第3页
ARM上的OpenBLAS性能优化技术_第4页
ARM上的OpenBLAS性能优化技术_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、ARM上的OpenBLAS性能优化技术什么是BLAS?lBasic Linear Algebra Subprogramsl基本线性代数子程序BLAS3级:矩阵-矩阵BLAS2级:矩阵-向量BLAS1级:向量-向量BLAS与深度学习lAlexnetOpenBLASl2011年,forked from Gotoblas2l全球最好的开源矩阵计算库l2016 中国计算机学会科技进步二等奖l进入主流Linux发行版l进入OpenHPC套件OpenBLASl支持主流CPU处理器Intel,AMDARM,AArch64MIPS,龙芯IBM Powerl支持常见操作系统LinuxWindowsMac OSX

2、FreeBSDAndroidOpenBLAS用户OpenBLAS性能lIntel Sandy BridgeOpenBLAS性能l龙芯3AGEMM算法GEMM算法GEMM算法GEMM算法GEMM算法GEMM算法GEMM算法GEMM算法GEMM算法l核心汇编代码寄存器分块指令流水线SIMD,循环展开,预取BLAS性能优化流派l自动调优 Auto- tuningATLAS快速开发和移植性能一般l手工核心汇编GotoBLAS/Ope nBLAS性能好新架构?Auto-tuning生存高效代码?AUGEMlAutomatically Generate Efficient Matrix kernell目标

3、:自动生成BLAS中高效汇编l支持x86 ISASSE,AVX,AVX 2.0l支持ARMv7 ISANeonAUGEMl输入类似C代码片段l输出高性能汇编l基于模版Template隐含手工优化知识C级别Kernel优化Input simple C code of gemm kernelOutput Optimized C code of gemm kernelTemplate识别Output Optimized C code of gemm kernelLoad: Load:tmp0 = ptr_A0; tmp1 = ptr_B0;Multiply: tmp2 = tmp0 * tmp1;

4、Add:res0 = res0 + tmp2;Load: tmp0 = Cj*LDC+i; Add:res0 = res0 + tmp0; Store: Cj*LDC+i = res0;Template识别l预定义6种Template2组Template优化lSIMD向量化mmUnrolledCOMP(ptr_A,0,2,ptr_B,0,2,(res0,res1,res2,res3) mmCOMP(ptr_A,0,ptr_B,0,res0)1.tmp0 = ptr_A0; 2.tmp1 = ptr_B0; 3.tmp2 = tmp0 * tmp1; 4.res0 = res0 + tmp2;m

5、mCOMP(ptr_A,1,ptr_B,0,res1) 1.tmp0 = ptr_A1;2.tmp1 = ptr_B0; 3.tmp2 = tmp1 * tmp1; 4.res1 = res1 + tmp2;mmCOMP(ptr_A,0,ptr_B,1,res2) 1.tmp0 = ptr_A0;2.tmp1 = ptr_B1; 3.tmp2 = tmp0 * tmp1; 4.res2 = res2 + tmp2;mmCOMP(ptr_A,1,ptr_B,1,res3) 1.tmp0 = ptr_A1;2.tmp1 = ptr_B1; 3.tmp2 = tmp0 * tmp1; 4.res3

6、= res3 + tmp2;Vld ptr_A, 0, vec0Vdup ptr_B, 0, vec1Vmul vec0, vec1, vec2Vadd vec2, vec3, vec3Vld ptr_A, 0, vec4Vdup ptr_B, 1, vec5Vmul vec4, vec5, vec6Vadd vec6, vec7, vec7Template优化l寄存器分配根据用途分组ABC中间结果不考虑寄存器溢出临时保存到堆栈 XVld ptr_A, 0, vec0Vdup ptr_B, 0, vec1Vmul vec0, vec1, vec2Vadd vec2, vec3, vec3Vld

7、 ptr_A, 0, vec4Vdup ptr_B, 1, vec5Vmul vec4, vec5, vec6Vadd vec6, vec7, vec7Template优化l汇编指令映射Vld ptr_A, 0, reg0Vdup ptr_B, 0, reg1Vmul reg0, reg1, reg2Vadd reg2, reg3, reg3Vld ptr_A, 0, reg4Vdup ptr_B, 1, reg5Vmul reg4, reg5, reg6Vadd reg6, reg7, reg7InstructionsSSEAVXVld array, offset, regVld offse

8、t(array),regVld offset(array),regVst reg, array, offsetVst offset(array),regVst offset(array),regVmul reg0,reg1,reg2Vadd reg2,reg3,reg3Vmov reg1,reg2Vmul reg0,reg1 Vadd reg1,reg3Vmul reg0,reg1,reg2Vadd reg2,reg3,reg3Vld 0(ptr_A), reg0Vdup 0(ptr_B), reg1Vmov reg1,reg2Vmul reg0, reg1Vadd reg1, reg3 6.

9、Vld 0(ptr_A), reg0Vdup 0(ptr_B), reg1Vmul reg0, reg1, reg2Vadd reg2, reg3, reg3 5.汇编生成l将剩余代码生成汇编循环控制l保持寄存器分配的一致性引入reg_table全局记录表Algorithm of Template OptimizerAUGEM性能测试AUGEM性能测试lDGEMM on Intel Sandy BridgeAUGEM性能测试lDGEMM on AMD PiledriverAUGEM性能测试lDGEMV (BLAS2级)AUGEM性能测试lDAXPY (BLAS1级)PerfSGEMM on ARMl单精度SGEMMNeon SIMD指令与IEEE 754标准不一致Round mode (Flush to Zero)不影响深度学习的精度l AUGEM生成汇编代码支持ARM特殊指令vmla.f32c, a, bdPerfSGEMM on

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论