人工智能芯片技术的发展与应用课件_第1页
人工智能芯片技术的发展与应用课件_第2页
人工智能芯片技术的发展与应用课件_第3页
人工智能芯片技术的发展与应用课件_第4页
人工智能芯片技术的发展与应用课件_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、人工智能芯片技术的发展与应用我们从这里来在56亿年前的寒武纪,大量较高等物种出现,物种多样性大幅提升。 这个现象被称为寒武纪物种大爆发。先进的智能技术已呈大爆发之势,我们希望为智能技术的大爆发提供核 心物质载体。Cambricon = Cambrian + Silicon从1950年至今,人工智能历经三次发展热潮,从诞生到机器学习再到深度学习智能第三次热潮深度学习基本理论框 架得到验证19701990感知机模型 被提出神经网络:离散Hopfield网络2013深度学习算法在语 音和视觉识别上取 得突破达特茅斯 会议195619822006寒武纪萌芽创始团队成员开始从 事处理器架构和人工能的交叉

2、研究2008深度学习的崛起与AI的第三次热潮1956 AI诞生1982第一次热潮神经网络相关基础 理论被提出1957 第一次热潮第二次热潮 算法应用升级1986 第二次热潮2006 第三次热潮第一次热潮第一次低谷ARTIFICIAL INTELLIGENCE 萌芽期第二次热潮第二次低谷MACHINE LEARNING 突破期第三次热潮DEEP LEARNING 发展期“深度学习“神 经网络使得AI性 能大幅提升BP算法出现核心要素核心产品技术人工智能发展三大要素资源突破:大数据不断被收集的 大量数据数据集结构化标定数据量算法突破:深度学习不断优化的 人工智能算法FPGAASIC算力突破:智能芯

3、片高性能芯片组成的 计算能力CPUGPU人工智能的三大要素智能芯片算法大数据各类终端应用结构化数据非结构化数据文本为主网络日志、音频、视 频、图像、地理位置 等等上游中游下游深度学习机器学习。人工智能为什么需要专门的处理器?CPU-通用计算GPU-图形计算MLU-智能计算智能终端处理器IPVS智能云服务器芯片感知智能 增强学习认知智能 决策判断虚拟场景理解 人机交互智能终端,VR、AR设备机器人、无人驾驶互联网、数据中心是的先行者智能创新的物质载体:智能芯片DianNaoDaDianNaoShiDianNaoPuDianNaoCambricon-XCambriconTPUCnvlutinRed

4、EyeStripesEIESCNNScaleDeepPRIMEFused CNNEyerissFlexFlowPipelayerBit-Pragmatic前期学术工作DianNao, 2014201420152016*数据from ISCA,HPCA,ASPLOS,MICRO,20102017DianNao系列学术研究由来自法国Inria等机构的国际学术合作者共同完成2017寒武纪:智能芯片的先行者人工智能发展态势端云联系亲密化云端承载训练任务和高吞吐量的 复杂计算推理任务终端承载需快速判断实时响应的 推理任务终端设备智能化5G及物联网技术推动嵌入式AI技 术发展智能终端独立实时完成环境感知、

5、 人机交互、决策控制等功能AIIoTCPUGPUFPGAASIC5G云+边缘计算新的计算架构+新的部署模式承担新的工作负载需求未来的趋势云 . 端变化更大量的 数据高速的信 息传输AI算力的 大幅提升大数据分析处理需求增长终端设备更加轻便和智能 关键业务型应用飞速发展未来的趋势:智能云数据中心1X100XAI芯片赋能云端训练和推理,数据中心智能化升级Speed Up20X500025050Servers(pcs)CPU onlyHPCAI智能手机、智能音箱、智能可穿 戴设备等终端实现多样化的智能应用,增 强客户体验惠及民生智能移动终端关键业务应用无人驾驶,无人机等终端实现数据实时处理与零误差

6、响应,保障生命安全智能物联网智能家居、智慧城市等终端实现数据本地化处理,保护隐 私数据的安全性在智能化同时 保证数据的安全性实现数据实时处理 与零误差响应让智能便利在生活中 更加触手可及未来的趋势:万物互联的智慧化终端5G+物联网推动了智能终端的迅速发展普及自动驾驶移动消费电子移动电话AR/VR及娱乐设备智能可穿戴设备智慧城市智能视觉设备其他生物识别设备数据中心及云智能物联网智能家居智慧农牧工业物联网5G+物联网+海量数据零差错型关键应用云/关键/高性能计算1 TOPS1-8 TOPS4-20 TOPS车载嵌入式设备边缘计算设备20-200 TOPS智能芯片适用千广泛应用场景云端超大规模数据中

7、心边缘端小型数据中心POPS-EOPS分析和抽取应 用负载特征设计灵活 的指令集设计可扩展性 强、高效的架构提供灵活的 运算器方案支持主流 编程框架在大规模商用中 得到反馈和修正智能芯片如何做到通用和好用?智能处理器设计的三大矛盾有限规模的硬件 vs 任意规模的算法 结构固定的硬件 vs 千变万化的算法 能耗受限的硬件 vs 计算量大的算法传统ASIC(将一个特定算法硬件化)的思路 无法解决深度学习处理的需求传统思路片外内存算法硬件运算单元和 算法神经元一一对应把数据从内存搬运到 硬件运算单元,甚至 比运算本身更耗能量硬件运算单元数量稍微一多, 访存带宽就供应不上数据对硬件运算单元分时复用片外

8、内存片上存储片上存储算法小尺度但支持大规模神经网络速度:把访存带宽用起来,尽可能提高性能能耗:通过优化片上存储层次尽量减少访存次数寒武纪思路有限规模的硬件 vs 任意规模的算法单芯片只能集成 数千硬件神经元通过对硬件神经元时分复用,可虚 拟化出千亿级别超大规模神经网络Tianshi Chen, Zidong Du, Ninghui Sun, Jia Wang, Chengyong Wu, Yunji Chen, and Olivier Temam, DianNao: A Small- Footprint High-Throughput Accelerator for Ubiquitous Ma

9、chine-Learning, In Proceedings of 19th International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS14), 2014. (Best Paper Award)神经元虚拟化结构固定的硬件 vs 千变万化的算法设计通用智能指令集来高效处理千变万化的智能算法抽取和提炼各种智能算法共性基本运算FetchScalar Register FileScalarFunc.UnitoemMryL1 CacheVector Fu

10、nc. Unit (Vector DMAs)Matrix Func. Unit (Matrix DMAs)Reorder Buffer Vector Scratchpad MemoryMatrix Scratchpad MemoryIssue QueueDecodeIO InterfaceIO DMAAGUShaoli Liu, Zidong Du, Jinhua Tao, Dong Han, Tao Luo, Yuan Xie, Yunji Chen, and Tianshi Chen, Cambricon: An Instruction Set Architecture u, for Ne

11、ural Networks, In Proceedings of the 43rd ACM/IEEE International Symposium on Computer Architecture (ISCA16), 2016. (Highest Score in Peer Review)通用智能指令集Daofu Liu, Tianshi Chen, Shaoli Liu, Jinhong Zhou, Shengyuan Zhou, Olivier Temam, Xiaobing Feng, Xuehai Zhou, and Yunji Chen, PuDianNao: A Polyvale

12、nt Machine Learning Accelerator, In Proceedings of 20th International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS15), 2015.硬件架构举例能耗受限的硬件 vs 计算量大的算法Shijin Zhang, Zidong Du, Lei Zhang, Huiying Lan, Shaoli Liu, Ling Li, Qi Guo, Tianshi Chen, and Yunji Che

13、n, Cambricon-X: An Accelerator for Sparse Neural Networks, In Proceedings of 49th IEEE/ACM International Symposium on Microarchitecture (MICRO16), 2016.权值只存储非0元素及其index信息, 可以节省存储容量和访存带宽,index 还可用作判断是否跳过计算的辅助信息。稀疏化包括权值稀疏化和神经元稀疏 化,只要二者之一为0,相应乘加运算即可被跳过以达到加速计算的目的。稀疏化模型处理端云结合,端云一体/ 人工智能 /&/ 大数据 /&/ 云计算 /

14、智能终端处理器IP以IP授权形式集成千智能手机、智能视觉设备等 终端的SoC芯片中具备超强的片上推理能力,完美兼顾面积、性能 与功耗智能云服务器芯片以板卡形式面向云数据中心服务器集群,提供计算加 速功能是面向深度学习/机器学习的专用处理器,适用千云端 推理+训练等应用寒武纪1A世界首款终端智能专用处理器应用千数千万智能手机中寒武纪1H16处理器更高性能、更完备的深度学习处理器IP寒武纪1H8处理器面向计算机视觉领域的专用处理器IP寒武纪1M处理器面向智能驾驶的处理器IP智能终端处理器IP寒武纪MLU100智能处理卡寒武纪推出的第一款通用智能处理 卡,侧重推理寒武纪MLU200智能处理卡支持训练和推理,侧重训练(预计2019年上市)寒武纪智能处理卡MLU1002018年5月3日在中国上海正式发布,标志着寒武纪已 成为中国第一家(也是世界上少数几家)同时拥有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论