




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲流水线介绍BIT/TI1a第二讲流水线介绍BIT/TI1a学习内容描述C62xx流水线操作定义:取指包、执行包、延迟间隙观察串联、部分串联和并行代码流过流水线情况比较VeiociTI和标准VLIWBIT/TI2a学习内容描述C62xx流水线操作BIT/TI2a题目一、为什么使用流水线?二、C62xx流水线各级介绍三、取指包四、代码通过流水线的过程举例五、串行、部分并行和完全并行代码通过流水线的过程举例六、VelociTI与标准VLIWBIT/TI3a题目一、为什么使用流水线?BIT/TI3a一、为什么使用流水线?
BIT/TI4a一、为什么使用流水线?
BIT/TI4a非流水与流水的CPUBIT/TI5a非流水与流水的CPUBIT/TI5a二、C62xx流水线各级介绍BIT/TI6a二、C62xx流水线各级介绍BIT/TI6a流水线基本级描述BIT/TI7a流水线基本级描述BIT/TI7a程序取指(PF-级)程序取指(PF)分为4个节拍:PG:程序地址产生PS:程序地址发送PW:程序访问等待PR:程序接收BIT/TI8a程序取指(PF-级)程序取指(PF)分为4个节拍:BIT/T译码(D—级)译码分成2个节拍:DP:确定指令到功能单元路线(指令分配)DC:指令在功能单元译码BIT/TI9a译码(D—级)译码分成2个节拍:BIT/TI9aC62xx指令类型和执行周期C62xx所有指令仅需要1个周期执行,但有些指令的结果被延迟。BIT/TI10aC62xx指令类型和执行周期C62xx所有指令仅需要1个周期执行(E—级)BIT/TI11a执行(E—级)BIT/TI11a取指令(LD)执行节拍虽然取指令只需一个周期执行操作(E1),但结果延迟4个周期BIT/TI12a取指令(LD)执行节拍虽然取指令只需一个周期执行操作(E1)C62xx总流水线节拍E2-E6结果延迟节拍BIT/TI13aC62xx总流水线节拍三、取指包BIT/TI14a三、取指包BIT/TI14a取指包
BIT/TI15a取指包
BIT/TI15aC62xx系统方框图256-bit片内程序数据总线BIT/TI16aC62xx系统方框图256-bit片内程序数据总线BIT/T四、代码通过流水线过程举例BIT/TI17a四、代码通过流水线过程举例BIT/TI17a点积代码BIT/TI18a点积代码BIT/TI18a程序取指开始BIT/TI19a程序取指开始BIT/TI19a程序取指结束BIT/TI20a程序取指结束BIT/TI20a指令分配BIT/TI21a指令分配BIT/TI21a指令译码BIT/TI22a指令译码BIT/TI22a执行(E1)BIT/TI23a执行(E1)BIT/TI23aMVK完成,LD→E1
BIT/TI24aMVK完成,LD→E1
BIT/TI24a指令类型和延迟间隙(delayslots)BIT/TI25a指令类型和延迟间隙(delayslots)BIT/TI25第二个LD进入E1BIT/TI26a第二个LD进入E1BIT/TI26aMPY到达E1BIT/TI27aMPY到达E1BIT/TI27aADD到达E1BIT/TI28aADD到达E1BIT/TI28aMPY/ADD指令完成BIT/TI29aMPY/ADD指令完成BIT/TI29a使ADD延迟执行BIT/TI30a使ADD延迟执行BIT/TI30aADD进入E1BIT/TI31aADD进入E1BIT/TI31aNOP与延迟间隙BIT/TI32aNOP与延迟间隙BIT/TI32a添加NOPBIT/TI33a添加NOPBIT/TI33a使用多周期NOPBIT/TI34a使用多周期NOPBIT/TI34a代码性能内核循环:第一个LD1第二个LD5MPY2ADD/SUB2B6总周期数:16*40=640+2=642优化后BIT/TI35a代码性能内核循环:第一个LD1优化后五、串行、部分并行和完全并行代码通过流水线的过程举例BIT/TI36a五、串行、部分并行和完全并行代码通过流水线的过程举例BIT/串行代码BIT/TI37a串行代码BIT/TI37a串行执行BIT/TI38a串行执行BIT/TI38a部分并行代码BIT/TI39a部分并行代码BIT/TI39a部分并行执行BIT/TI40a部分并行执行BIT/TI40a部分并行执行(第一执行包进入DC)BIT/TI41a部分并行执行(第一执行包进入DC)BIT/TI41a部分并行执行(第一执行包进入E1)BIT/TI42a部分并行执行(第一执行包进入E1)BIT/TI42a部分并行执行(第二执行包进入E1)BIT/TI43a部分并行执行(第二执行包进入E1)BIT/TI43a完全并行代码BIT/TI44a完全并行代码BIT/TI44a完全并行执行BIT/TI45a完全并行执行BIT/TI45a完全并行执行BIT/TI46a完全并行执行BIT/TI46a记住:
B:5个延迟间隙LD:4个延迟间隙MPY:1个延迟间隙BIT/TI47a记住:B:5个延迟间隙BIT/TI47a六、VelociTI与标准VLIW
BIT/TI48a六、VelociTI与标准VLIW
BIT/TI48aVelociTI与标准VLIWBIT/TI49aVelociTI与标准VLIWBIT/TI49aVelociTI(定义)定义:取指包:8个32-bit指令VLIW:甚长指令字(256-bit)EP:执行包指令:32-bit操作码VelociTI:TI的VLIW结构BIT/TI50aVelociTI(定义)定义:BIT/TI50aVelociTI与标准VLIW比较VelociTI可减小代码尺寸达到8:1较少的程序取指较少的功耗较低的存储器成本BIT/TI51aVelociTI与标准VLIW比较VelociTI可减小代VelociTI的EP/FP编排执行包不能超出取指包边界汇编器在编排执行包时,对于不够8条指令的取指包,用NOP填充。BIT/TI52aVelociTI的EP/FP编排执行包不能超出取指包边界BI总结C62xx流水线操作取指包、执行包、延迟间隙串行、部分并行和完全并行代码通过流水线VelociTI结构BIT/TI53a总结C62xx流水线操作BIT/TI53a第二讲流水线介绍BIT/TI54a第二讲流水线介绍BIT/TI1a学习内容描述C62xx流水线操作定义:取指包、执行包、延迟间隙观察串联、部分串联和并行代码流过流水线情况比较VeiociTI和标准VLIWBIT/TI55a学习内容描述C62xx流水线操作BIT/TI2a题目一、为什么使用流水线?二、C62xx流水线各级介绍三、取指包四、代码通过流水线的过程举例五、串行、部分并行和完全并行代码通过流水线的过程举例六、VelociTI与标准VLIWBIT/TI56a题目一、为什么使用流水线?BIT/TI3a一、为什么使用流水线?
BIT/TI57a一、为什么使用流水线?
BIT/TI4a非流水与流水的CPUBIT/TI58a非流水与流水的CPUBIT/TI5a二、C62xx流水线各级介绍BIT/TI59a二、C62xx流水线各级介绍BIT/TI6a流水线基本级描述BIT/TI60a流水线基本级描述BIT/TI7a程序取指(PF-级)程序取指(PF)分为4个节拍:PG:程序地址产生PS:程序地址发送PW:程序访问等待PR:程序接收BIT/TI61a程序取指(PF-级)程序取指(PF)分为4个节拍:BIT/T译码(D—级)译码分成2个节拍:DP:确定指令到功能单元路线(指令分配)DC:指令在功能单元译码BIT/TI62a译码(D—级)译码分成2个节拍:BIT/TI9aC62xx指令类型和执行周期C62xx所有指令仅需要1个周期执行,但有些指令的结果被延迟。BIT/TI63aC62xx指令类型和执行周期C62xx所有指令仅需要1个周期执行(E—级)BIT/TI64a执行(E—级)BIT/TI11a取指令(LD)执行节拍虽然取指令只需一个周期执行操作(E1),但结果延迟4个周期BIT/TI65a取指令(LD)执行节拍虽然取指令只需一个周期执行操作(E1)C62xx总流水线节拍E2-E6结果延迟节拍BIT/TI66aC62xx总流水线节拍三、取指包BIT/TI67a三、取指包BIT/TI14a取指包
BIT/TI68a取指包
BIT/TI15aC62xx系统方框图256-bit片内程序数据总线BIT/TI69aC62xx系统方框图256-bit片内程序数据总线BIT/T四、代码通过流水线过程举例BIT/TI70a四、代码通过流水线过程举例BIT/TI17a点积代码BIT/TI71a点积代码BIT/TI18a程序取指开始BIT/TI72a程序取指开始BIT/TI19a程序取指结束BIT/TI73a程序取指结束BIT/TI20a指令分配BIT/TI74a指令分配BIT/TI21a指令译码BIT/TI75a指令译码BIT/TI22a执行(E1)BIT/TI76a执行(E1)BIT/TI23aMVK完成,LD→E1
BIT/TI77aMVK完成,LD→E1
BIT/TI24a指令类型和延迟间隙(delayslots)BIT/TI78a指令类型和延迟间隙(delayslots)BIT/TI25第二个LD进入E1BIT/TI79a第二个LD进入E1BIT/TI26aMPY到达E1BIT/TI80aMPY到达E1BIT/TI27aADD到达E1BIT/TI81aADD到达E1BIT/TI28aMPY/ADD指令完成BIT/TI82aMPY/ADD指令完成BIT/TI29a使ADD延迟执行BIT/TI83a使ADD延迟执行BIT/TI30aADD进入E1BIT/TI84aADD进入E1BIT/TI31aNOP与延迟间隙BIT/TI85aNOP与延迟间隙BIT/TI32a添加NOPBIT/TI86a添加NOPBIT/TI33a使用多周期NOPBIT/TI87a使用多周期NOPBIT/TI34a代码性能内核循环:第一个LD1第二个LD5MPY2ADD/SUB2B6总周期数:16*40=640+2=642优化后BIT/TI88a代码性能内核循环:第一个LD1优化后五、串行、部分并行和完全并行代码通过流水线的过程举例BIT/TI89a五、串行、部分并行和完全并行代码通过流水线的过程举例BIT/串行代码BIT/TI90a串行代码BIT/TI37a串行执行BIT/TI91a串行执行BIT/TI38a部分并行代码BIT/TI92a部分并行代码BIT/TI39a部分并行执行BIT/TI93a部分并行执行BIT/TI40a部分并行执行(第一执行包进入DC)BIT/TI94a部分并行执行(第一执行包进入DC)BIT/TI41a部分并行执行(第一执行包进入E1)BIT/TI95a部分并行执行(第一执行包进入E1)BIT/TI42a部分并行执行(第二执行包进入E1)BIT/TI96a部分并行执行(第二执行包进入E1)BIT/TI43a完全并行代码BIT/TI97a完全并行代码BIT/TI44a完全并行执行BIT/TI98a完全并行执行BIT/TI45a完全并行执行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 潍坊医学院《汽车液压系统与装置》2023-2024学年第二学期期末试卷
- 松原职业技术学院《循环流化床机组运行与事故分析》2023-2024学年第一学期期末试卷
- 山西中医药大学《销售管理》2023-2024学年第二学期期末试卷
- 石家庄理工职业学院《工程法学》2023-2024学年第二学期期末试卷
- 辽宁省本溪市本溪满族自治县2024-2025学年三下数学期末质量跟踪监视模拟试题含解析
- 南京邮电大学《西南联大历史文化》2023-2024学年第二学期期末试卷
- 疫苗接种在减少传染病跨境传播中的作用考核试卷
- 皮革制品的塑料替代品与环境友好材料考核试卷
- 仁果类果树种植园气候变化应对考核试卷
- 疗养院护理临床教学效果评估考核试卷
- 物业经理面试:问题和答案大全
- 2023年高考生物全国通用易错题13致死类的遗传题(解析版)
- 余华读书分享名著导读《文城》
- 中建项目装饰装修工程施工方案
- 大学生心理健康教育(第3版)PPT完整全套教学课件
- 2021年上海市中考二模化学试卷汇编多选题
- GB/T 18323-2022滑动轴承烧结轴套尺寸和公差
- 新概念二册课文电子版
- 高速公路单位、分部 分项工程划分
- 危险废物清单
- ISO9001管理体系实战案例 质量目标
评论
0/150
提交评论