版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、报告内容2背景:集成电路与人工智能破局:AI硬件的挑战和存算一体技术突破:忆阻器存算一体的发展展望:其他趋势和方向摩尔定律下的集成电路发展集成电路芯片上所集成的晶体管数量,每隔18个月翻一番Wiki: ENIAC3SALAHUDDIN S, Nat. Electronics, 2018, 1(8): 442信息时代的基石集成度与算力的提高1971,Intel 40042250个晶体管1978,Intel 80863万个晶体管1982,Intel 8028613万个晶体管1989,Intel 80486118万个晶体管1999,AMD K72200万个晶体管2007,IBM POWER68亿个晶
2、体管2017,Apple A11 43亿个晶体管2019,华为麒麟990103亿个晶体管4信息时代的新趋势智能化自动驾驶智能机器人人机对弈人脸识别56人工智能的发展:算法-算力耦合Rosenblatt和Mark1 感知机第一台基于感知机的神经计算机Mark 1,包含512个计算单元195619651980Nvidia GeForce 256 首个名义上的GPU 算力:50 GFLOPs199920122016AlexNetAlex KrizhevskyAlpha Go176 GPUs, 1202 CPUs在围棋上战胜人类专家系统LISP Machine专家系统的投入使用, 成为一个新的里程碑G
3、ordon Moore摩尔定律的提出:集成电路芯片上所集成的晶体管数量,每隔18个月翻一番GPU加速,开启深度 学习的黄金时代算力与人工智能相互促进77报告内容背景:集成电路与人工智能破局:AI硬件的挑战和存算一体技术突破:忆阻器存算一体的发展展望:其他趋势和方向8年份10-810-610-410-2100102104Nvida GPUIntel 386LeNet-5AlphaGoZero单芯片算力 (GFLOPs)Perceptron19501960197019801990200020102020NETtalkENIACIntel 4004Intel CoreIntel Pentium10-
4、1210-910-3100103106训练算力需求 (GFLOPs-day)AlexNetVGG芯片算力发展无法满足人工智能的需求ENIAC, 5000次加法/秒 (1947)Intel Core i7, 20.8 GFLOPS (2019)NVIDIA Tesla T4, 8.1 TFLOPs (2019)数据来源: Intel, NVIDIA, OpenAI 2018功耗瓶颈导致多核时代开启每3.4个月翻一番!10-69原因(1):摩尔定律和传统架构进入瓶颈摩尔定律发展缓慢,甚至停滞传统架构下的性能提升达到极限SALAHUDDIN S, Nat. Electronics, 2018, 1(
5、8): 442J. Hennessy & D. Patterson, A New Golden Age forcomputer Architecture原因(2):“存算分离”架构的瓶颈传统冯诺依曼架构中存储和运算分离,存在“存储墙”与“功耗墙” 瓶颈,严重制约了系统算力和能效的提升, 更无法满足AI应用。冯诺依曼架构“存储墙”:速度、带宽失配“功耗墙”:能量失配M. Horowitz. ISSCC, 201410做大并没有真正解决问题1.2 万亿 晶体管46,225 mm218GB SRAM11忆阻器:“遗失”的电路基本单元?蔡少棠1971年,预测了忆阻器的存在Wiki: memristor
6、12阻变型忆阻器(Memristor)两端器件,结构简单,可大规模集成,操作电压小,速度快,成本低,具有非易失性在外加电场作用下,阻值发生连续且可逆的变化与生物神经突触有着非常类似的特性,因此也被称为电子突触器件又称阻变存储器(RRAM),国际半导体路线图多次将忆阻器列为最有竞争力的新型存储器技术之一SETRESET电导连续可调生物神经突触忆阻器件13基于忆阻器存算一体技术存算一体架构冯诺依曼架构1. 发展存算一体的新器件忆阻器具有非易失、多比特、低功耗的优势基于物理定律的矩阵向量乘法2.研究存算一体新计算范式向量矩阵12121121112222211 2 11 12 121 22 21 2
7、1 2 =处理器内存外存输 入输 出存算 一体 阵列存算 一体 阵列输入输出存算 一体 阵列存算 一体 阵列14目标:存算一体计算系统151616报告内容背景:集成电路与人工智能破局:AI硬件的挑战和存算一体技术突破:忆阻器存算一体的发展展望:其他趋势和方向前期研究进展总结在忆阻器件开发和存算一体新计算范式两个方面都取得了进展。 然而,在完整存算一体芯片和系统方面却仍需突破。OutputWeightsInputsRegs DACsRRAM ArrayADCs/S&AXBW/R从单阵列到多阵列从简单网络到复杂网络从Macro集成到全系统集成17器件优化阵列演示完整集成芯片和系统18器件优化:高性
8、能忆阻器制备电极阻变层电极电极热交换层电极叠层结构阻变层阻值阻值器件器件W. Wu, et al. IEEE EDL 1019 (2017);Wei Wu, et al. Journal of Applied Physics (2018): 152108.热交换层和叠层结构,抑制了忆阻器离散性,改进了模拟阻变特性和线性度,提高了器件的一致性。器件可靠性分析和优化M. Zhao et al., IEDM, 2017 M. Zhao et al., IEDM, 2018对系统的影响,设计优化方法不同电导状态的保持特性的测试分析器件连续阻变特性在耐久性测试过程中退化在阵列规模下,面向存算一体应用对器
9、件可靠性进行表征、分析和建模,进而评估19集成工艺开发前端工艺后端工艺示意图制备的8英寸wafer课题组开发了整套后端工艺,与Foundary 厂工艺兼容。经过流片验证,器件良率可以超过99.9%20忆阻阵列设计及集成核心挑战:源线上累加电流过大,导致导线电阻上的电压降落变得显著解决思路:提出新型2T2R的融合型阵列架构,解决IR drop问题,将阵列集成 规模提升一个数量级,同时大幅减小位线电流2T2R融合型阵列架构阵列规模优化21架构与算法设计85%90%95%100%普通训练压力训练混合训练框架片外压力训练片上自适应训练系统器件误差模型-A 误差电路误差模型-B 模型阵列间误差模型-C矩
10、阵 向量乘 激活 + + Y ()Yi ()90.7%普通训练压力训练95.6%提出由片外压力训练和片上自适应训练组成的混合训练框架。在片外压力训练中引入 系统误差模型,构建具有误差耐受性的网络模型,提升实际硬件系统中的精度。函数Yi Yi + C(Yi)MNIST任务2223系统设计方法探索Algorithm/ComplierArchitecture/ChipArray/MacroMemristor deviceHardware non-ideal effectsMapping开发了跨层次的端到端协同仿真工具,覆盖器件、电路、架构、算法的具体方案建立不同抽象级别的仿真描述,覆盖算法仿真、时序
11、验证、性能评估W. Zhang, DAC. 201824成果:完整的存算一体芯片160K 忆阻器集成;78.4 TOPS/W; 40 mW; 准确率 95% .Qi Liu,ISSCC 2020, 50025成果:多阵列忆阻器存算一体系统首次研制出多阵列忆阻器存算一体系统,完成多层卷积神经网络,证明多阵 列存算一体技术的可行性和能效、算力优势。Peng Yao,Nature, 577, 641 (2020)7月9日,在2020年世界 人工智能大会上获得最 高奖项SAIL奖(卓越人 工智能引领者奖),是唯 一的论文获奖。2626报告内容背景:集成电路与人工智能破局:AI硬件的挑战和存算一体技术突破:忆阻器存算一体的发展展望:其他趋势和方向总结:存算一体技术发展趋势27展
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论