关于A15架构的深度解析 他强在哪里_第1页
关于A15架构的深度解析 他强在哪里_第2页
关于A15架构的深度解析 他强在哪里_第3页
关于A15架构的深度解析 他强在哪里_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于A15架构的深度解析他强在哪里今年的新手机趋势无异是全面向四核靠拢,不过同样是四核,在实际的性能上其实是千差万别。例如针对入门级主流市场的四核手机普遍采用的都是Cortex-A7以及Cortex-A9级别的CPU内核,这类内核性能、成本以及发热都会较低,因此在入门市场上大行其道。而在高端智能手机中则出现了一些新的变化,除了去年就已经崭露头角的高通Krait系列架构四核外,ARM正统的Cortex-A15也开始走上了四核手机的舞台,例如三星的Exynos5Octa、NVIDIA的Tegra4.Cortex-A15是ARMCortex-A家族中目前最强劲的CPU内核架构,发布时间为2010年,德州仪器是最早(2011年)投产基于该架构处理器(型号为OMAP5)的授权厂商。和ARM的Cortex-A7、Cortex-A9等微架构相比,Cortex-A15有很大的不同。A15和A9同样具备乱序执行,但是Cortex-A15具备(两倍)的指令发射端口和执行资源,指令解码能力也要高出50%,动态分支预测能力更强(采用了多层级分支表缓存),指令拾取带宽更强(128bitvs64bit),这些都能让A15的流水线执行具备更高的效率。除此以外,A15采用了VFPv4浮点单元设计,能执行FMA指令以及硬件除法指令,相较而言A9的峰值向量浮点性能基本上只有A15的一半。不过在现实中,A15的对手应该是高通自行设计的ARMv7A兼容处理器架构Krait.高通对Krait的架构细节透露并不是很多,大致上就是3个指令解码端口(和A15一样)、7个指令发射端口(A15是8个)、4个发射端口(A15是8个),具备4KB+4KB的单周期时延L0Cache设计。如果采用老掉牙的DhrystoneDMIPS/MHz作为性能衡量指标,Krait是3.3,A9是2.5,而A15则是3.5,从纸面上看Krait的确非常适合作为A15的对手。不过Dhrystone的缺点是显而易见,它是完全可以塞进CPU的L1cache里执行,这就意味着无法以此对L2cache(A15是一体化设计,Krait是分离式设计,一体化设计可以减少内存交换导致的大量时延)、乱序执行的硬件效率/复杂性、内存子系统单元(A15的内存单元可以实现在一定条件下预执行一条加载指令,而Krait能否具备这样的能力尚不清楚)等诸多体系架构区别对实际性能的影响作出有价值评估。当然,ARM采用的DMIPS指标实际上并非28年前的那个Dhrystone,而是来自EEBMCCoremark(其实Coremark就是前者的改善版本,主要是为了减少预优化、对测试有比较严格的规则),但是CoreMark同样可以塞进现今大多数处理器的L1cache里,Dhrystone不能反映现今移动设备真实应用的问题在这里依然存在。由于应用环境日趋复杂,要正确评估一个移动设备处理器的性能变得越来越复杂,因为现在的移动设备跑的网页浏览、三维游戏、音视频、人工智能等都不可能可以完全塞进L1Cache里,因为这些应用牵涉到大量的数据处理。这时候,人们在台式机性能评估上学到的经验和测试办法就可以在移动设备上采用了。对CPU测试来说,最合理的测试方式是采用多种计算规模的真实应用源代码以本机代码进行编译再进行测试,在这样的情况下移动设备的计算单元、内存单元都得以充分考验,测试结果最具参考价值。能够获得业界(计算机工业、学术科研)官方认可的CPU测试当属SPEC.org的SPECCPU,它就是采用源代码方式,让测试人员可以编译为本机代码来测试,许多处理器在研发伊始就采用SPECCPU作为最重要的性能评估指标。SPECCPU的最新版本为CPU2006,但是CPU2006针对的是当前的台式机、工作站、服务器处理器应用环境,内存容量(CPU2006支持多线程测试,因此要求的内存容量相当高,8线程处理器用16GB内存也是有点勉强)和自身存储空间(未编译时就要数GB空间,编译后就要占用1xGB了)要求都较高,因此采用CPU2006对目前的移动设备来说是不太现实的。SPECCPU是每隔几年就更新一次,在CPU2006之前的旧版本为CPU2000,它的speed整数性能测试完全可以在1GB级别的移动设备上运行,在以前甚至有一些CPU2000的测试被移植到GPU上做加速性能测试。ARM阵营极少公布SPECCPU测试结果,这当然也是有原因的,因为在过去的不少时间里,ARM针对的设备大都只有几百兆内存空间,塞进操作系统后,留给程序运行的空间就更少,此外由于省电先决的考量ARM处理器的性能其实真的不怎么样。不过有意思的是,今年ARM阵营里的NVIDIA在发布Tegra4的时候公布了CPU2000INT的测试结果:在1.9GHz频率设定的NVIDIA参考平台里,Tegra4的SPECPU2000int_base为1168.这个测试结果相当于2003年第四季度SPEC.org上公布的AMDK8Sledgehammer2GHz测试结果。NVIDIA还进行了在小米手机2(采用高通SnapdragonS4Pro即APQ80641.7GHz)上的CPU2000测试,并且根据高通公布的S800相对S600在IPC(每周期指令)和频率上的变化幅度而估算出来的S800的CPU2000测试结果:从图表来看,S600的CPUINT2000_base测试结果相当于Tegra4的一半不到,这在很大程度上反映了Cortex-A15相对Krait系处理器的真实应用差别。需要指出的是,双方的测试平台本身也是有一些影响的,例如小米手机2执行这个测试的时候,CPU频率是否存在降频现象,NVIDIA对此没有说明。一般来说,像APQ8064在四核全速运行的时候,会在一段时间内由于过热而导致频率从最高的1.7GHz开始下降。当然,NVIDIA在这里公布的是speed模式下的CPU2000INT测试结果,这个模式下是单线程的测试,只有一个CPU内核会被使用。比较遗憾的是高通对这个测试结果尚未提出异议(据说高通对于处理器性能的孰高孰低并不十分看重,他们戏称是卖基带送CPU),而CPU2000的配置对一般人来说是相当复杂的事情,所以这个测试暂时没有第三方使用同样的平台测试佐证。威盛电子在发布NanoX2处理器的时候曾经公布过一份文件,里面也有采用CPU2000对NanoX21.2+GHz和AtomD525进行测试,其中gcc编译器出来的CPU2000INT成绩分别为799和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论