CPU研究框架-方正证券课件

上传人：d*** IP属地：贵州上传时间：2023-01-03 格式：PPTX 页数：216 大小：8.51MB 积分：30 举报 版权申诉

已阅读5页，还剩211页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

证券研究报告电子行业2021年1月6日CPU研究框架——行业深度报告证券研究报告电子行业2021年1月6日CPU研究框架——1目录一、CPU投资逻辑框架从指令集架构看CPU市场格局CPU产业链：先进制程数字芯片产业链当前国产CPU发展的三大路线我们如何看待国产CPU未来格局二、详解CPU：IC产业中的“珠穆朗玛峰”三、知己知彼：CPU的全球格局与行业龙头四、国产CPU自主之路：详解六大国产CPU目录一、CPU投资逻辑框架从指令集架构看CPU市场格局2从指令集架构看CPU市场格局资料来源：方正证券研究所RISCCISCAlphaX86RISC-VPower

PCMIPSARM\嵌入式、桌面、服务器服务器、桌面服务器IOT、手机服务器、桌面嵌入式、服务器、桌面90%

RISC90%

CISCCPU按指令集架构分类国外企业国内企业应用领域从指令集架构看CPU市场格局资料来源：方正证券研究所RISC3资料来源：方正证券研究所国产CPU产业链—先进制程数字芯片产业链CPU是数字芯片，基于制程越小，性能越好的规律，CPU产业链是先进制程数字芯片产业链。

当前国产CPU产业链进口替代：设计环节，华为鲲鹏，飞腾等龙头已经跻身世界一流水平，封测环节，通富承接AMD7nmCPU封测，14nm及以下结点的先进制程，设备、材料、EDA/IP、制造等环节与国外领先龙头差距较大，目前仍采用

“外循环为主+内循环为辅”的模式。北方华创华海清科华峰测控屹唐盛美中微万业企业至纯科技精测电子设备材料EDA/IP沪硅产业江丰电子神工股份安集鼎龙金宏气体雅克科技寒武纪芯原股份芯华章芯动科技制造封测中芯国际长电科技通富微电设计华为飞腾兆芯申威龙芯海光华天科技资料来源：方正证券研究所国产CPU产业链—先进制程数字芯片产4资料来源：方正证券研究所海外CPU产业链—先进制程数字芯片产业链CPU产业链的巨头大多集中在海外，它们位居产业链各个环节核心，

对全球CPU行业起着决定性的作用。设计环节：英特尔和AMD几乎垄断通用型CPU的市场；设备、材料、EDA/IP等环节国内龙头与国外龙头差距较大，国产化率较低；制造环节：目前只有台积电和三星有5nm制程生产能力，但均需使用美国设备；封测环节：目前中国台湾、中国大陆、美国三分天下。设备材料EDA/IP信越化学SUMCO卡博特陶氏住友化学新思科技铿腾电子明导国际ARM设计英特尔AMD苹果三星IBM高通联发科制造台积电英特尔三星格罗方德封测日月光安靠矽品精密英特尔三星应用材料阿斯麦东京电子LAM科天爱德万泰瑞达资料来源：方正证券研究所海外CPU产业链—先进制程数字芯片产5国产CPU发展的三大路线IP内核授权指令集架构授权授权+自主研制指令集指令集授权方式技术路线核心代表厂商自主化程度自主化程度：极高，申威已基本实现完全自主可控缺点：生态构建极其困难自主化程度：较高，安全基础相对牢靠、拥有自主发展权缺点：生态构建较为困难自主化程度：低，未来扩充指令集难度较大，但生态迁移成本小、性能高缺点：安全基础不牢靠基于指令系统进行SOC集成设计X86内核授权基于指令集架构授权自主设计CPU核心ARM指令集授权自主研制指令集MIPS架构+自研Alpha架构+自研资料来源：华经情报网，方正证券研究所整理国产CPU发展的三大路线IP内核授权指令集架构授权授权+自主6我们如何看待国产CPU未来格局除了先进制程某些环节缺失以外，国产CPU还存在一个严重的短板，即来自于国内CPU生态建设的落后。生

态对于CPU产业影响极大。上世纪90年代，以复杂指令集为代表的英特尔凭借着与微软的Wintel体系，在通用CPU领域占据了绝大多数份额，至今仍牢不可破。精简指令集则被逐渐挤压到嵌入式市场，后来智能手机兴起后才获得新生：ARM通过构筑与Android的生态合作（AA体系），占据了全球95%的移动芯片授权市场。对

于X86内核授权的厂商：生态最为完善，但发展存在

安全可控和技术授权两大壁垒，海光自去年被美国政府列入实体清单后，AMD表示最新的架构不再进行授权，兆芯使用威盛电子的x86早期授权，性能相对落后。对

于Arm指令集授权厂商：生态体系与安全可控最为平衡，且通过架构授权把握主动权，随着Arm生态愈发繁荣，若不考虑美国实体清单的负面影响，前景最为光明。对

于自研架构厂商：完全自主可控的引领者，厚积而薄发，其最大的瓶颈在于生态壁垒。总

结：目前国产CPU主要需求来自服务器、政企、工业等市场，鲜少出现在消费级市场。我们认为基于安全的自

主可控是推动国产CPU成长的主要力量，且基于架构的差异性带来的应用不同，我们认为指令集架构不会直接消亡，

不同架构都会衍生出行业龙头，考虑通用CPU等格局极为稳固，可关注物联网以及汽车等新兴领域。芯片及网络应用软件终端企业中间件及数据库资料来源：电子工程专辑，方正证券研究所整理我们如何看待国产CPU未来格局除了先进制程某些环节缺失以外，7目录一、CPU投资逻辑框架二、详解CPU：IC产业中的“珠穆朗玛峰”CPU的定义及内部结构CPU的指令集与微架构CPU发展历程与未来趋势剖析CPU的需求侧与供给侧分析三、知己知彼：CPU的全球格局与行业龙头四、国产CPU自主之路：详解六大国产CPU目录一、CPU投资逻辑框架二、详解CPU：IC产业中的“珠穆8

中央处理器（Central

Processing

Unit）作为计算机系统的运算和控制核心，是信息处理、程序运行的最

终执行单元。CPU核心主要是由大量的运算器、控制器、寄存器组成。运算器负责算术运算和逻辑运算。控制器负责应对所有的信息情况，调度运算器把计算做好。寄存器既要承接控制器的命令，传达命令给运算器；还要帮运算器记录已处理或者将要处理的数据。几乎所有的CPU的运作可以简要概括为“取”,“解码”和“执行”三大步骤，此三个步骤统称为指令周期。通常，CPU核心从存储单元或内存中提取指令。然后，根据指令集由指令解码器执行解码，将指令转换为控制CPU其他部份的信号。最后通过运算器中的微架构进行运算得到结果。CPU内核的基础就是指令集和微架构。CPU定义和内部结构进程代码段数据段指令1指令2指令3……指令n数据1数据2……数据n内存CPU指令计数器指令寄存器控制单元指令指令地址存储单元运算单元

控制指令数据操作数地址资料来源：中国电子网，PCWORLD，方正证券研究所整理CPU的内部组成部份和工作原理英特尔CPU内核图内核数据中央处理器（CentralProcessingUnit9CPU指令集概述CPU指令集（Instruction

Set）是CPU中计算和控制计算机系统所有指令的集合。指令集包含了基本数据类型，指令集，寄存器，寻址模式，存储体系，中断，异常处理以及外部I/O，一系列的opcode即操作码（机器语言），以及由特定处理器执行的基本命令。指令集一般被整合在操作系统内核最底层的硬件抽象层中。指令集属于计算机中硬件与软件的接

口，它向操作系统定义了CPU的基本功能。

现阶段的指令集可以被划分为复杂指令集（CISC）与精简指令集（RISC）两类。资料来源：太平洋电脑网，方正证券研究所整理CISCRISCSPARCPower

PCALPHAMIPSRISC-VARMX86主流CPU指令集划分及设计机构英特尔X86指令集PA-RISCCPU指令集概述CPU指令集（InstructionSet10资料来源：英特尔，CSDN，方正证券研究所整理CPU指令集：CISC剖析复

杂指令集诞生于1960年代，在精简指令集之前，被用来解决语义鸿沟。当时的复杂指令集经过高度编码，支持汇编语言，拥有很高的代码密度，有助于缩小程序，减少主存储器的访问次数，极大地节省了计算机存储器和磁盘存储成本，并且速度更快。复杂指令集是相对精简指令集而言的，所有除了精简指令集之外的都可以划归到复杂指令集之中。复杂指令集和精简指令集的显著差异是大多数的精简指令集采用等长结构，并且严格区分存储和读取。复杂指令集通常出现在读取和存储通过算法相连的计算机中，

如服务器和个人电脑中的X86指令集。复杂指令集的单一指令可以执行数个低阶操作程序，例如存储读取，算法运行和记忆存储，或者可以用单一指令来实现多步操作或寻址。随

着个人计算机的普及和计算机分工的细化，复杂指令集在低算力需求的计算机中出现了“过度设计”的

现象，造成了寄存器一定程度上的浪费，精简指令集由此孕育而生，二者并行发展了近50年。嵌入式CISC模拟机英特尔X86指令集和相关专利发展史资料来源：英特尔，CSDN，方正证券研究所整理CPU指令集：11资料来源：台湾WORD，中科微知，方正证券研究所整理CPU指令集：RISC剖析

精简指令集采用小型，高度优化的指令集而非更复杂和特定化的指令。精简指令集的主要特点是通过大量寄存器和高度规则的指令流水线优化了指令集，从而使每条指令的时钟周期数减少。精简指令集的另一个特点是读取/存储结构，在该指令集中存储访问必须通过完整的特定指令，而不是特定指令中的一部分。

精简指令集的思想成立于1970年代，成熟于1980年代。斯坦福大学的MIPS指令集和伯克利分校的SPARC指令集是当时的先驱。随着2010年RISC-V的推出，精简指令集进入了开源的第五世代。目前，精简指令集被广泛地运用于各个领域。以ARM为代表的精简指令集被广泛地运用于手机、平板等移

动终端。日本富岳超算也运用精简指令集，登顶2020年6月的超算排行榜。基于RISC技术的8位微控制器设计RISC发展历程19811983198419882010201320142015201720182019RISC-V商业软件、英伟达采用RISC-VRISC-V首个商业许可首个RISC-V峰会、红帽采用RISC-VRISC-V基金会和SiFive公司成立RISC-1RISC-2RISC-3RISC-4RISC-5EOS14

45nm首个Linux移植资料来源：台湾WORD，中科微知，方正证券研究所整理CPU指12CPU指令集：CISC与RISC特点的对比CISC与RISC无论哪一方都没有绝对的优势或劣势。

从硬件角度分析：CISC采用的是不等长指令集，因此在执行单条指令时需要较多的处理工作，但是它的优势往往在于部份特定专业领域的应用。而RISC执行的是等长精简指令集，CPU在执行指令的时候速度较快且性能稳定，因此RISC适合采用流水线方式运作，且在并行处理方面明显优于CISC。

从性能角度分析：CISC阵营的Intel和AMD在提升芯片性能上做出了持续的努力，CISC芯片的功耗被放在了性能后的第二位；而RISC-ARM本身出现时间较CISC-X86晚十年左右（ARM诞生于1985年，X86诞生于1978年），ARM、MIPS在创始初期缺乏与Intel产品对抗的实力，专注于以低功耗为前提的高性能芯片。资料来源：CSDN，方正证券研究所整理CISC与RISC特点对比CISC复杂指令集RISC精简指令集指令系统使用频率差别大，可变长格式使用频率接近，定长格式，大部分为单周期指令，操作寄存器，只有Load、Store操作内存指令数目一般大于200条一般小于100条通用寄存器数量较少多寻址方式支持多种，一般大于4支持方式少，一般小于4实现方式微程序控制技术增加了通用寄存器；硬布线逻辑控制为主；适合采用流水线控制方式主要为微程序控制主要为硬布线控制应用场景95%以上的PC和服务器市场95%以上的移动计算市场其他研制周期长优化编译，有效支持高级语言CPU指令集：CISC与RISC特点的对比CISC与RISC13CPU指令集：CISC与RISC发展趋势与阵营对比CISC与RISC从上世纪后期已经在逐步走向融合，并且该趋势持续至今。例如2005年苹果通过引入Rosetta将原先IBM的Power

PC指令集转译为英特尔处理器接受的X86指令集。2020年苹果发布基于ARM指令集的M1处理器后，将Rosetta更新为Rosetta2以便将原英特尔的X86指令集快速转译为M1的ARM指令集。

整体来看，以高通骁龙，联发科，三星Exynos，苹果A系列为代表的ARM架构RISC处理器占据了移动

处理器的市场。而在个人电脑领域以Wintel联盟为基础的X86架构CISC处理器占据了该市场。MIPS，Power，Alpha等架构虽然已经不是市场的主流，但在特定领域内仍然在被使用。资料来源：eefocus，方正证券研究所整理CPU类型优势劣势海外公司中国大陆公司X86高性能个人计算机市场产业规模大高功耗ARM低功耗、低费用、小体积、高性能定位精准，聚焦移动端市场授权模式早，配套IP完善早期芯片性能无法与X86抗衡X86与ARM对比苹果Rosetta2指令集转译X86ARMCPU指令集：CISC与RISC发展趋势与阵营对比CISC与14CPU指令集的软件生态对比

软件生态方面，X86运行的主要为DOS，非ARM版Windows，旧版MacOS等操作系统，起步早，基

于Wintel联盟，生态完善。全世界有65%以上的软件开发商都为X86提供生态服务。ARM方面运行的主要有安卓，iOS，iPadOS，Windows10移动版，MacOS

Big

Sur等。原先适应X86指令集的软件需要经过翻译后才可运行，如苹果的Rosetta2可以将X86指令转换为ARM指令，所以运行速度会减慢。ARM成本低，迭代快，其软件生态正在加速追赶X86的软件生态。苹果应用商店软件数量从2008年7月的5万个发展到2020年的342万个。同年Google

Play商店有270万款可供下载的软件。资料来源：Statista，Statcounter，方正证券研究所整理苹果APP商店应用软件数量 X86与ARM操作系统对比指令集操作系统各操作系统占比X86ARMCPU指令集的软件生态对比软件生态方面，X86运行的主要为15CPU微架构定义资料来源：维基，Extreme

Tech，方正证券研究所整理微架构是（Micro

Architecture）一种给定的指令集架构在处理器中执行的方法。相同的指令集可以在不同的微架构中执行，但实施的目的和效果可能不同。优秀的微架构对CPU性能和效能提升发挥着至关重要的作用。计算机体系是微架构和指令集的结合。

众多的算数单元、逻辑单元和寄存器文件在三态总线和单向总线，以及各个控制线的连接下组成了CPU的

微架构。计算机的总线组织由CPU的复杂程度决定，二者常同向变化。CPU微架构中常见的单元有执行端口、缓冲单元、整数运算单元、矢量运算单元等。英特尔Core

2微架构 IBMPower

8微架构CPU微架构定义资料来源：维基，ExtremeTech，方16资料来源：ResearchGate，方正证券研究所整理CPU微架构工作流程概述CPU的每个核心有独占的L1指令缓存、L1数据缓存和L2缓存，多数核心共享L3缓存。所有缓存中L1缓存通过虚拟地址空间寻址，L2/L3通过线性地址空间寻址。CPU非核心部分主要是System

Agent（系统代理）：包含PCU（电源控制单元）、DMI控制器与ICH连接、QPI控制器与其他CPU连接、内存控制器。微架构工作流程概述：以英特尔的SandyBridge（右图）为例，CPU先使用取指令单元（右图紫色部份），将代码段从内存中取出;通过解码单元（右图橘色部份），将机器码按序转化为定长的uop（微操作），发射到uop

Decoder

Queue（微操作解密等候区）；乱序单元（右图黄色部份）从微操作解密等候区中取出微操作，根据执行条件，依赖关系，重新排序后，发送到Scheduler（调度器）；调度器将计算指令发送到计算单元（右图蓝色部份），得到计算结果；将内存读写指令发送给访存单元（右图绿色部份），完成内存读写。英特尔

SandyBridge

处理器核心部份资料来源：ResearchGate，方正证券研究所整理CPU17资料来源：ResearchGate，Stackoverflow，方正证券研究所整理CPU微架构：取指单元英特尔

Sandy

Bridge

的编译过程

英特尔

Sandy

Bridge

的取指优化微架构通过执行指令“exec（）“，

执行某个二进制数时，该二进制数首先

被kernel

（

核心）

从硬盘加载到内存。InstructionFetchUnit（执行获取单元）

会按照执行顺序将bin的代码段，从内存中读入到CPU。当遇到分支代码时,需要查询BranchPredictors（分支预测）。执行获取单元增加访问电路，可以并发地访问内存、寄存器，解决流水线气泡问题。在Precoded（预解码）中解码的X86指令集，会被保存到Instruction

Queue（指令等候区），等待解码。

现在的CPU均使用超标量的

结构。例如Sandy

Bridge是16条。每个CPU

cycle有16个操作在并行执行，需要一系列设计来保证流水线不被中断。资料来源：ResearchGate，Stackoverflo18资料来源：ResearchGate，方正证券研究所整理CPU微架构：译指单元和乱序执行单元英特尔

Sandy

Bridge

的译指单元英特尔

SandyBridge

的乱序执行单元Instruction

Queue（执行等候区）中取指单元获得的x86

CISC指令，会通过译指单元翻译，以提高CPU流水的整体能力。一个周期有4条指令进入译指单元不同的模块，Complex

Decode（复杂解码器）翻译单指令多数据流指令，一个周期最大可以产生4个uops（微操作），Simple

Decode（简单解码器）翻译普通指令，一个周期产生1个微操作，

得到的微操作会保存到uopDecoder

Queue（微操作解码等候区）中。微架构的乱序执行会选择当前可执行的指令优先执行，减少处理器闲置。译指单元每个周期发送4个微操作到乱序执行单元。

乱序执行单元使用Register

Alias

Table（虚拟寄存器到物理寄存器的映射表）修改微指令，把修改后的指令部分保存。Scheduler

（调度器）会将整数操作数和浮点操作数分别保存，把映射表存入Reorder

Buffer（重新编序缓存）。最后统一调度器选择有执行条件的微操作发送给执行单元，没有执行能力的微操作先缓存，待条件具备后发送。资料来源：ResearchGate，方正证券研究所整理CPU19资料来源：ResearchGate，方正证券研究所整理CPU微架构：计算单元和访存单元英特尔Sandy

Bridge

的计算单元英特尔

SandyBridge

的访存单元乱序执行单元每个周期发送4个微操作到计算单元。port0、port5可以执行整数、浮点数、整数SIMD（单指令多数据流）所有指令，port1只能执行整数、整数SIMD乘法、移位指令，每个周期最多执行3条指令。port2，port3，port4每个周期可以执行2个load（读取），1个store（存储）指令。Sandy

Bridge在运算单元上，通过AVX指令，大幅提升了浮点数以及SIMD的效率。Address

GenerationUnit（地址产生单元）产生读写内存的虚拟地址；Load

Store

Unit（存取单元）通过地址，实现读取、存储。存取单元包含Load

buffer（读取缓冲）、Store

buffer（存储缓冲）、prefetch（预读逻辑）、一致性的逻辑。存取单元读内存时，先要查询缓冲中的是否有缓存，如果命中，直接返回。当不命中时，需要发起对内存的读取，由于读取内存大概需要200周期，代价很高，存取单元实现了预读逻辑。资料来源：ResearchGate，方正证券研究所整理CPU20CPU核心是指控制和信息处理功能的核心电路，把一个CPU核心和相关辅助电路封装在一个芯片中，即为传统的单核心CPU芯片，简称单核CPU。把多个CPU核心和相关辅助电路封装在一个芯片中，为多核

心CPU芯片，简称多核CPU。下图即为ARM的单核心CPU和多核心CPU。图中红色虚线框标出的部分为CPU核心，分别为基于ARMv7微架构的单核心CPU芯片以及ARM

Cortex-A9

MPCore用2个和4个Cortex-A9构成的2核心和4核心CPU芯片。

目前我们能见到的4核心CPU大多都是属于Cortex-A9系列。ARM

Cortex-A9的应用案例有联发科MT6577、三星Exynos

4210、华为K3V2等，另外高通APQ8064、MSM8960、苹果A6、A6X等都可以看作是在A9架构基础上的改良版本。单核CPU与多核CPUArm单核CPUArm双核CPUArm四核CPU1个CPU核心（Core) 2个CPU核心4个CPU核心ARM单核心与多核心CPU芯片资料来源：半导体行业观察，方正证券研究所整理CPU核心是指控制和信息处理功能的核心电路，把一个CPU核心21资料来源：维基，方正证券研究所整理“考古”CPU：CPU发展历程CPU发展史简单来说就是Intel、IBM、ARM的发展历史，CPU已经有四十多年的发展历史。CPU的发展史，按照其处理信息的字长，可以分为：四位微处理器、八位微处理器、十六位微处理器、

三十二位微处理器以及六十四位微处理器等等。英特尔在大部分时间处于领先地位CPU发展史“史前时代”（1971年以前）1904年电子管被发明1946年人类第一台计算机“ENIAC”1947年晶体管被发明英特尔（X86)IBM（Power

PC）ARM（ARM）4位CPU（1971-1972）Intel

4004Intel

4040\\8位CPU（1972-1978）Intel

8008Intel

8080Intel

8085\\16位CPU（1978-1994）Intel

80386Intel

80486\\32位CPU（1985-2014）奔腾奔腾2奔腾3奔腾4酷睿Power

2Power

3CortexA5

Cortex

A12CortexA7

CortexA15CortexA8

CortexA17Cortex

A964位CPU（1998至今）奔腾4酷睿2酷睿i系列Power

4Power

5Power

6Power

7Power

8Power

9CortexA34

Cortex

A55CortexA35

Cortex

A75CortexA53

Cortex

A76CortexA57

Cortex

A77CortexA72

Cortex

A78CortexA73

Cortex

X1资料来源：维基，方正证券研究所整理“考古”CPU：CPU发展22CPU发展史：英特尔微架构回顾2004-2020英特尔CPU微架构进化时间Sandy

BridgeCoreHaswellSkylakeNehalemSunny

CoveWillow

CovePrescott2004 2006资料来源：维基，方正证券研究所整理20082011 2013 20152019 2020性能末代奔腾4微架构31级流水线超线程技术800MT/S前端总线基于奔腾M架构取消超线程技术精简流水线级数1333MT/S前端总线初代Core

i超线程技术回归TurboBoost三级缓存QPI总线第二代Core

i集成核显TurboBoost2.0256位环形总线第四代Corei1.5K微操作缓存原生支持DDR3内存16条PCIE

3.0第六代Core

iDDR4内存支持MPX技术SGX技术第十代Core

i18%

IPC提升4K核显输出L2缓存翻倍第11代Core

iL2/L3缓存加大全RAM加密50%核显升级

随着2005年以Prescott为内核的奔腾4处理器在性能和效能上被AMD的K8速龙超越，英特尔采取了

“Tick-Tock”的钟摆模式，“Tick”年升级处理器的制程，“Tock”年升级处理器的微架构。以两年为周期的钟摆模式，从“Nehalem”开始让CPU交替发展，一方面避免了同时革新可能带来的失败风险，同时持续的发展也可以降低研发的周期，并可以对市场造成持续的刺激，并最终提升产品的竞争力。2008-2015年的钟摆模式使英特尔CPU年均有15%左右的提升，维护了英特尔X86领域的霸主地位，并

诞生了诸如Skylake这样经典的架构，沿用至今。CPU发展史：英特尔微架构回顾2004-2020英特尔CPU23CPU发展史：英特尔指令集回顾资料来源：Objectcomputing，Notebookcheck，方正证券研究所整理过去23年，英特尔X86指令集中的单指令多数据流指令集可以划分为MMX、SSE、AVX三块。英特尔的指令集采用叠加的方式向前发展，从奔腾的MMX到Skylake的AVX512，指令集的位数从64位升级至了512位。单次指令的负载能力提升了8倍。MMX指令集是多媒体拓展、多数学拓展和矩阵数学拓展的简称。初代的MMX仅提供整数运算，而不兼容浮点运算，而且当年MMX的软件支持进展缓慢。SSE是流式单指令多数据流的简称，该指令集创建了新的128位宽的寄存器文件（XMM0–XMM7）和新的单指令多数据流指令，解决了MMX的核心缺点（无法将整数SIMD操作与任何浮点操作混合使用）。AVX是高级矢量拓展指令集的简称，该指令集使用16个YMM寄存器对多条数据执行单个指令。1997-2015英特尔CPU指令集进化 2020年Tigerlake中的指令集CPU发展史：英特尔指令集回顾资料来源：Objectcomp24资料来源：英特尔，方正证券研究所整理CPU发展史：英特尔制程回顾英特尔的创始人戈登·摩尔是摩尔定律的提出者。摩尔定律的核心内容为：集成电路芯片上所集成的电路的数目，每隔18个月就翻一番；微处理器的性能每隔18个月提高一倍，而价格下降一半；用一美元所能买到的计算机性能，每隔18个月翻两番。CPU的制程通常表示晶体管或栅极长度等特征尺寸。在门间距（CPP)和最小金属间距(MMP)都缩小30%的情况下，晶体管的面积就能减小一半，那么就能放入2倍数量的晶体管，摩尔定律也随之成立。

在过去的40多年的摩尔定律时代，英特尔通过将CPU的制程由4004的10微米提升至了Skylake的14纳米，

运用FinFET等先进技术，遵守“钟摆战略”，在CPU

Die中放入更多的晶体管，提升处理器性能。1971-2015英特尔CPU的摩尔定律演化英特尔Tick-Tock战略下CPU的制程进化资料来源：英特尔，方正证券研究所整理CPU发展史：英特尔制程25资料来源：英特尔，pcbuildersclub，方正证券研究所整理CPU的发展趋势：微架构升级概述CPU微架构的提升往往伴随着指令集的更新与优化。微架构的提升可以分为两部分的改进，一个是通用性能的提升，往往称其为IPC（Instruction

Per

Clock，即CPU每一时钟周期内所执行指令的多少）；另一个是专用性能的提升，往往需要优化代码，进行改写和重新编译才能获得收益。CPU的通用计算性能是由IPC、主频、指令数三者共同决定。IPC的提升是CPU通用性能提升的必要条件。主频的提升通常由CPU制程的进步产生。微架构通用性能的提升的宏观思路是“更宽，更深，更智能”。“更深”：为平行计算找出更大的机会；“更宽”：在平行计算中执行更多的操作；“更智能”：用更新和更好的算法来减少延迟。IPC的提升就发生在处理器的前端（取指译码）、缓冲区（调度和暂存乱序执行下的微操作）和后端（执行指令、获取操作数、记录结果）。IceLake处理器的SunnyCove微架构是英特尔2015年以来首次使用的全新微架构，它的IPC相较于上代Skylake提

升了18%。CPU的通用性能计算公式SunnyCove相较于Skylake的IPC提升资料来源：英特尔，pcbuildersclub，方正证券研究26资料来源：英特尔，

pcbuildersclub，方正证券研究所整理CPU微架构的通用性能发展：更深、更宽、更智能Sunny

Cove的概述和“更智能”升级Sunny

Cove的“更深”升级Sunny

Cove的“更宽”升级微架构的“更深”方面：SunnyCove相较于Skylake在乱序重排缓冲区、下载缓冲区、存储缓冲区、保留站、一级数据缓存、二级缓存、微指令缓存、二级转译后备缓冲区缓存等关键结构进行了扩充。微架构的“更智能”方面：SunnyCove相较于Skylake提高了分支预测的准确性、减小了有效读取的延迟、以客户使用为导向。微架构的“更宽”方面：SunnyCove相较于Skylake在宽分配、执行端口、一级存储位宽、每个执行端口的处理能力（

例如SIMD

shuffle，LEA）都得到了提升。资料来源：英特尔，pcbuildersclub，方正证券研27资料来源：英特尔，Jaist，方正证券研究所整理CPU微架构的专用性能提升CPU微架构专用性能的提升通常涉及新的指令集（二者不可完全割裂），需要优化代码，进行改写和重新编译才能获得收益，往往是一些专用计算单元或SIMD指令和执行单元的改进。SIMD（单指令多数据流）是代码现代化中的重要组成部分—矢量化的标志性指令，SunnyCove微架构继承并改进了Skylake的半吞吐的AVX512处理器，SIMD的支持从256位的AVX2

FMA来到512位的AVX512

FMA。同时，SunnyCove后端新增的Shuffle（洗牌）单元可以快速地洗牌矢量寄存器中的数据，为下一次的矢量运算做好准备，有效减小延迟。Sunny

Cove的Skylake的微架构的矢量单元对比 SunnyCove洗牌单元的洗牌指令X3X2X1X0Y3Y2Y1Y0Y3…Y0Y3…Y0X3…X0X3…X0资料来源：英特尔，Jaist，方正证券研究所整理CPU微架构28资料来源：Wikichip，Techpowerup，方正证券研究所整理CPU指令集的发展趋势：更多、更全指令集升级的“更多”：指令集总数的上升以及指令集的二进制位数上升。纵观CPU指令集的发展史，新指令集的产生不会废除原有的指令集。指令集的发展是采用叠加的方式进行的，以保证整个系统的兼容性。例如第11代酷睿Tigerlake比上代的Icelake，多了虚拟化的VT-X指令集。指令集升级的“更全”：新CPU相较于旧CPU对单一大类下的指令集子类支持更全面。英特尔AVX512（512位高级矢量指令集）指令集相较于上代AVX2（256位高级矢量指令集）指令集，理论每周期的单精度和双精度浮点运算翻倍，在保持功耗下将的前提下，综合性能有80%以上的提升，效能也大幅升级。英特尔第十代Icelake酷睿在第六代Skylake酷睿的基础上，支持IFMA(整数融合乘加）、VBMI（矢量位操作）、4FMAPS（包装单精度融合乘法累加）、VNNI（矢量神经网络指导）。这些指令集加强了Icelake在人工智能—神经网络方面的算力。

英特尔AVX512指令集的支持范围英特尔AVX512指令集的性能和效能提升资料来源：Wikichip，Techpowerup，方正证券29CPU指令集的发展趋势：ARM奋起直追X86资料来源：Anandtech，21ic中国电子网，方正证券研究所整理微架构是指令集在CPU中的执行方法。指令集和微架构共同构成了CPU内核，它们决定了CPU每个周期内的指令数，并最终影响CPU的性能。所以指令集从根部支撑CPU的运作，处于核心的地位。ARM于2011年进入64位时代，比X86-64晚了十年。但是ARM凭借开源、异构运算、可定制化等一系列优势，在苹果、高通、三星、华为、英伟达等方面的努力下，ARM架构立足于低功耗的移动市场，紧抓云化和移动计算的时代红利，不断向高性能台式和服务器领域冲击。在移动计算领域，苹果A系列和M1处理器逐步赶超英特尔的X86处理器。苹果A13在晶体管密度与1165g7相近，线程数少于对方1/4，主频低于对方1/2的情况下，在性能方面领先英特尔1年，我们强烈看好Arm未来前景。并且苹果在软件生态上通过Rosetta

2和Universal2，使原先基于X86的软件可以无缝地运行在M1芯片中，软件生态已经不再成为ARM的阻碍了。在服务器领域，ARM的新星架构“Neoverse”，在单核心方面追平AMD和Intel的服务器CPU的同时，凭借ARM并行计算、能耗控制、易拓展性的优势，在多核性能方面超过对手60%以上。ARM的性能已经不再成为短板。英特尔与苹果处理器性能对比服务器领域的X86与ARM多核性能对比CPU指令集的发展趋势：ARM奋起直追X86资料来源：Ana30CPU制程的发展趋势：先进制程为导向资料来源：英特尔，

eetimes

，CNX，方正证券研究所整理CPU性能的三大决定因素为主频、IPC、指令数。这些因素中主频通常是由CPU的制程决定的。制程在过去通常表示晶体管或栅极长度等特征尺寸，不过出于营销的需要，现在的制程已经偏离了本意，因此单纯比较纳米数没有意义。按英特尔的观点，每平方毫米内的晶体管数（百万）更能衡量制程。据此，台积电和三星的7nm工艺更接近英特尔的10nm工艺。先进的制程可以降低每一个晶体管的成本，提升晶体管密度，在CPU体积不变下实现更高的性能；先进制程可以提升处理器的效能，在性能不变的情况下，减少发热或在发热不变的情况下，通过提升主频来拉高性能。先进制程的主要目的是降低平面结构带来的漏电率问题，提升方案可以通过改变工艺，如采用FinFET（鳍式场效应晶体管）或GAA（环绕式栅极）；或采用特殊材料，如FD-SOI（基于SOI的超薄绝缘层上硅体技术)。先进制程工艺之FinFET 英特尔10nm先进制程带来的性能和效能提升CPU制程的发展趋势：先进制程为导向资料来源：英特尔，ee31资料来源：Semi

Engineering，只谈科技，方正证券研究所整理CPU制造的发展趋势：Fab+Fabless为导向CPU制造可分为IDM和Fab+Fabless。IDM集芯片设计、芯片制造、芯片封装和测试等多个产业链环节于一身。英特尔为IDM的代表。Fabless只负责芯片的电路设计与销售，将生产、测试、封装等环节外包。苹果和AMD为Fabless的代表。Foundry只负责制造，不负责芯片设计，可以同时为多家设计公司服务，但受制于公司间的竞争关系。台积电为Foundry的代表。目前英特尔CPU落后的主要原因是CPU制程的落后，根本原因是英特尔受困于IDM运作模式。随着28纳米以下先进制程的发展，芯片的制造成本和设计成本成指数级上升。同时，一条12英寸晶圆的生产线从建设到生产的周期约2年，投资至少30-50亿美元，资本支出占比80%，整体风险非常大。英特尔以有限的资源不支持它持续的设计和生产的的两线作战。Fab+Fabless的模式通过充分发挥比较优势，分散了CPU设计和制造的风险，符合半导体分工的大趋势。CPU制造优势劣势海外公司中国大陆公司IDM设计和制造协同优化规模过大成本高回报率低\Fab+Fabless设计和制造分开，发挥比较优势多样化制造和设计组合，风险分散沟通成本大协作难度大IDM与Fab+Fabless对比芯片设计费用趋势（亿美元）资料来源：SemiEngineering，只谈科技，方正证32资料来源：百度百科，方正证券研究所整理CPU需求概述冯诺依曼计算机体系冯诺依曼于1945年发表了《FirstDraftofaReportonthe

EDVAC》（EDVAC初稿），在这篇报告中，冯诺依曼提出了“冯诺依曼体系结构”，明确指出了计算机必须具备的5大部件：运算器、控制器、存储器、输入设备、输出设备。CPU作为控制器、运算器、存储器的结合体，提供通用算力，能处理不同的数据类型，成为了计算机的刚需。CPU作为硬件层，支撑着Windows、IOS、安卓等系统软件层的启动，进而推进汽车电子、服务器、PC等应用层的发展，所以CPU的价值不可取代。各个应用领域的CPU标准是不同的。例如，在一些高可靠性应用场景，如汽车电子的CPU需要满足AEC-Q100车规认证；服务器的CPU特别看重多核表现和并行处理的能力；个人电脑的CPU注重单核表现，同时需要平衡体积、性能、效能表现；移动设备和智能穿戴的CPU把便携和节能放在第一位。CPU对行业的底层支撑应用层汽车智能手表手机游戏主机电脑服务器Windows、安卓、IOS、Linux等CPU系统软件硬件层输入设备输出设备外存储器运算器内存储器控制器CPU资料来源：百度百科，方正证券研究所整理CPU需求概述冯诺依曼33资料来源：方正证券研究所CPU供给概述CPU产业链全球CPU设计厂商全球CPU制造厂商全球CPU封测厂商CPU的供给涉及设计、制造、封测三个主要环节，整体供给模式有IDM和Fab+Fabless两种。IDM模式将设计、制造和封测集中在一起，代表厂商有X86阵营的英特尔，ARM阵营的三星。Fab+Fabless模式的代表有X86阵营的AMD设计，台积电制造，通富微电封测；ARM阵营的苹果设计，台积电制造，日月光封测。

目前CPU的先进设计、先进制造主要被美系、韩系和中国台湾所控制。中国大陆企业华为和中芯国际遭到美国实体清单限制，未来发展艰难。封测方面，长电科技和通富微电已经掌握先进封测技术，已经有能力为苹果、AMD提供封测技术支持。资料来源：方正证券研究所CPU供给概述CPU产业链全球CPU34资料来源：博世，Cypress官网，方正证券研究所整理CPU的需求侧推动：汽车CPU概述随着汽车的含硅量上升、功能的多样化，汽车的电子工程架构也将随之从分布式向中心化发展。同时，由于自动驾驶需要对整车进行控制，因此计算资源势必要集中化，自动驾驶芯片应运而生。以新能源车的标杆特斯拉为例，下代HW4.0将同时集成ADAS（先进辅助驾驶）、电动汽车动力传动、车载信息娱乐系统和车身电子四大功能。由此可见，自动驾驶芯片不仅是自动驾驶领域的计算中心，而且是整车的核心。所以汽车CPU对未来整个汽车行业具有决定性作用。目前自动驾驶芯片的供应商可以简单分为2派。其一，是以特斯拉为代表的“自主”派，采用类似于苹果公司的模式，自主设计芯片，不对外开放技术，软硬件的整合在公司内部完成。其二，是以英伟达、华为为代表的“开放”派，采用类似于安卓的模式，对外开放技术，服务其他车企，自己不造整车。具体模式的选择需要综合地权衡灵活性和契合度。汽车电子工程中心化车载ADAS系统的CPU资料来源：博世，Cypress官网，方正证券研究所整理CPU35政策方面，中国发布了《“十三五”汽车工业发展规划意见》，对智能网联汽车发展设定目标：具有驾驶辅助功能的网联汽车当年新车渗透率达50%，有条件自动化的汽车当年新车渗透率达10%，到2020年我国初步建立能够支撑驾驶辅助及低阶自动驾驶的网联汽车标准体系。汽车制造商自2015年起开始整合L2自动驾驶。L2自动驾驶包括若干硬件传感器（多个摄像头、超声波和雷达）及能够支持ADAS功能（如自适应巡航控制、车道居中控制和自动转向）的软件组合而成。预计，在2020年全球出售的汽车中，约有8%配置L2及以上自动驾驶功能。到2025年，在全球售出的汽车中，预计约有30%将支持L2或以上自动驾驶功能。到2030年，该比例将超过50%，届时全自动驾驶汽车将超过50%。根据IDC预测，全球L1及以上自动驾驶汽车数量将由2019年的3140万辆，上涨至2024年的5420万辆，5年复合增长率为11.5%。CPU的需求侧推动：汽车CPU市场汽车自动驾驶等级稳步上升 2020造车新势力的无人驾驶竞争格局10月20日，小鹏汽车第10000量P7正式下线。资料来源：西部数据公司，新浪汽车，易车，方正证券研究所整理10月21日，蔚来成立独立硬件团队，内部叫做“Smart

HW（hardware）”10月13日特斯拉签约落户海南设立新能源汽车创新中心项目。政策方面，中国发布了《“十三五”汽车工业发展规划意见》，对智36资料来源：维基，方正证券研究所整理汽车CPU需求—特斯拉FSD特斯拉FSD内核特斯拉FSD示意图2019年特斯拉发布了自研芯片Tesla

FSD（全自主驾驶），通过了AEC-Q100车规级认证，支持L3级别的自动驾驶。FSD采用了三星14纳米FinFET工艺。一块自动驾驶电路板会集成两颗FSD芯片，执行双神经网络处理器冗余模式，两颗处理器相互独立，即便一个出问题另一个也能照常执行。特斯拉FSD芯片中的每颗NPU有一个96*96的MAC矩阵，单颗NPU工作在2GHz，算力最高达36.86

TOPS，远超GPU。同时芯片中有专用的COU负责安全系统，具有最终控制权。

每颗NPU有32MB的SRAM用以存储暂时的网络数据，减少数据流向主内存。NPU每个周期有256位字节的激活数据和128位字节的权重数据从SRAM中被读取后进入MAC阵列被加以计算。每个周期结束有128位字节的结果数据被重新写入SRAM。特斯拉与博通合作开发新一代的HW4.0硬件，将采用台积电7nm工艺生产，它将被用于多种功能，包括Autopilot、自动驾驶以及信息娱乐功能。资料来源：维基，方正证券研究所整理汽车CPU需求—特斯拉FS37资料来源：NVIDIA，Wccftech，方正证券研究所整理汽车CPU需求—英伟达XavierNVIDIA

DRIVE™AGX嵌入式超级计算平台处理来自摄像头，雷达和激光雷达传感器的数据，来感知周围环境，将汽车定位在地图上，并规划和执行安全的前进路线。该AI平台以紧凑，节能的包装支持自动驾驶、车内功能、驾驶员监控、其他安全功能。NVIDIADRIVEAGXXavier™可以为2级、3级自动驾驶带来每秒30万亿次的运算。DRIVE

AGX

Xavier包含6种不同的SoC，它们包括CPU、GPU、深度学习加速器（DLA)、可编程视觉加速器（PVA）、影像信号处理器（ISP）、立体/光学流加速器。英伟达Xavier内核英伟达Xavier参数核心8-core“Carmel”CPUsbasedonARMv8

ISA深度学习加速器5TOPS(FP16)|10

TOPS(INT8)GPU20TOPS(INT8)|

1.3TFLOPS(FP32)可编程视觉加速器1.6

TOPSISP1.5

Gigapixels/s内存带宽136

GB/s相机I/O90Gb/sover16x

GMSL(R)portsTDP30

W资料来源：NVIDIA，Wccftech，方正证券研究所整理38资料来源：MDC智能驾驶计算平台白皮书，华为官网，方正证券研究所整理汽车CPU需求—华为智能驾驶2020年10月30日，华为发布智能汽车解决方案新品牌“HI”。据官方介绍，“HI”是全栈智能汽车解决方案，包括智能座舱、智能驾驶、智能网联、智能电动、智能车云、以及激光雷达等整套零部件，帮助车商快速开发智能汽车。华为智能驾驶涉及到感知、融合、定位、决策、规划、控制等多个环节。激光雷达的点云数据处理需要大量CPU算力，摄像头数据需要AI算力；定位、决策、规划、控制等强逻辑处理的环节需要CPU算力。集合了鲲鹏CPU芯片和昇腾AI芯片的MDC平台为多样化的智能驾驶提供了算力支撑。计算核ARM8.2、最高主频3.0Ghz，单处理器最高64核缓存L1:64KBinstructioncacheand64KBdatacacheL2:512KBprivateper

coreL3:24–64MBsharedforall（1MB/

core）内存8DDR4channelspersocket,upto3200

MHz互联华为HCCS互联协议，支持最高4路互联I/O40PCIeGen4.0

lanes2x100GE,RoCEv2/RoCEv1,CCIXx4USB3.0,x16SAS3.0,x2SATA

3.0功耗TDP：100-200

W鲲鹏920架构达芬奇性能320

TFLOPS@FP16640

TOPS@INT8高位宽缓存4xHBM2E，1.2TB/s

bandwidthSRAM3D-SRAMstackedbelowAISoC

dieOn-chipbuffer32

MB最大功耗310W昇腾910华为MDC

SoC的组成资料来源：MDC智能驾驶计算平台白皮书，华为官网，方正证券研39资料来源：中国产业信息网，边缘计算IT基础设施白皮书1.0，方正证券研究所整理CPU的需求侧推动：服务器CPU概述服务器CPU，即在服务器中使用的CPU，它从底层支持着这个服务器产业链。不过服务器是网络中的重要设备，要接受少至几十人、多至成千上万人的访问，因此对服务器具有大数据量的快速吞吐、超强的稳定性、长时间运行等严格要求。按指令集划分，通常分为CISC型CPU和RISC型CPU两类，后来又出现了一种64位的VLIW(Very

LongInstructionWord超长指令集架构）指令系统的CPU。按CPU路数划分，服务器可分为单路、双路、四路服务器等，路数增加，性能也增加。一般来说，单路、双路服务器是中低端产品；四路及以上或大型机属于高端产品。架构ARM（华为、飞腾、Ampere、Marvell）X86（Intel、AMD)MIPS、Power、Alpha特点众核架构，适合高并发、高带宽的计算场景；高主频、高功耗，覆盖高性能和通用计算场景部分特定的应用场景：桌面（MIPS），超算（Alpha、Power）价值提升计算效率，节能、省空间。高效能计算带来高性价比驱动性能增长的工艺改进边际成本激增，摩尔定律难以为继Power、Alpha性能强劲，在小型机、超算应用领域有长期的成功应用生态IP授权商业模式，生态开放和融合，数据中心应用生态逐步完善数据中心应用生态完善，但产业被垄断、把控，无法合作共赢应用生态匮乏，参与者较少，长期商业和技术路线不明确服务器CPU按指令集划分服务器产业链应用层基础设施基础软件硬件层芯片层云计算、大数据、人工智能、（移动互联网、物联网传统数据中心、云计算数据中心存储介质HDD、SSD、DRAM计算芯片CPU、GPU基础软件光电芯片服务器存储阵列网络设备路由器、交换机SDN、NFV操作系统、虚拟化、数据库、HCI资料来源：中国产业信息网，边缘计算IT基础设施白皮书1.0，40资料来源：英特尔，方正证券研究所整理CPU的需求侧推动：服务器CPU鉴于服务器CPU对数据的吞吐量、系统稳定性、拓展性要求高，相配套的主板及周边设施在这些方面也需要强化。服务器主板上常配备统一的中央芯片组，可以连接多个服务器CPU、内存插槽、PCIE插槽、USB、网卡。通常在硬件成本构成上，CPU、芯片组、内存、外部存储占比都很高。以一

台普通的服务器生产成本为例，CPU及芯片组大致占比50%左右，内存大致占比15%左右，外部存储大致占比10%左右，其他硬件占比25%左右。服务器CPU及周边设施在新一代协议标准也具有带头作用。伴随着新一代的PCIE5.0标准、DDR5内存，服务器的理论传输速度将翻倍。英特尔至强可拓展处理器微架构英特尔至强C612芯片组架构资料来源：英特尔，方正证券研究所整理CPU的需求侧推动：服务41资料来源：IDC，Quora，ITjungle，方正证券研究所整理CPU的需求侧推动：服务器CPU市场格局2020

全球服务器供应商市场份额英特尔与AMD服务器CPU份额对比X86与非X86服务器收入趋势和对比当前的全球服务器CPU市场是一个由寡头英特尔

和X86处理器控制的格局，不过随着AMD服务器CPU

EPYC的强势崛起，英特尔的份额开始下降。2020年Q3全球服务器市场的供应商收入同比增长2.2%，增速缓慢。X86服务器CPU在同期的收入为209.3亿美元，占所有服务器收入的92.8%。非X86

服务器CPU

同期收入为16.4

亿美元，

占比7.2%。在所有的X86服务器CPU中，英特尔占比超过90%。

预计未来5年，整个服务器市场将保持12%的同比

增速。2025

年全球服务器供应商收入有望达到280亿美元。中国大陆服务器供应商浪潮、华为、联想有望取得更大的市场份额。资料来源：IDC，Quora，ITjungle，方正证券研究42资料来源：英特尔，方正证券研究所整理CPU的需求侧推动：服务器CPU龙头英特尔英特尔服务器CPU产品线英特尔在服务器CPU领域的布局，自首款产品Pentium

Pro推出以来，已经有25年之久。近12年来，英特尔服务器CPU的平台包括：Thurley、Romley、Grantley、Purley和Whitley，公司预计2021年发布

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CPU研究框架-方正证券课件

文档简介

温馨提示

最新文档

评论

CPU研究框架-方正证券课件

文档简介

温馨提示

最新文档

评论

相关文档