计算机系统结构考试计算题
- 格式:doc
- 大小:397.44 KB
- 文档页数:12
)分; CRT,_C_A,超大规模集成电路B,集成电路C,晶体管D,电子管3.微型计算机中控制总线提供的完整信息是_D__A,存储其和I/O设备的地址码B,所有存储其和I/O设备的时序信号和控制信号C,来自I/O设备和存储器的响应信号D,上述各项4.某计算机字长是32位,它的存储容量是356KB,按字编址,它的寻址范围是__B__。
A,128K B,64K C,64KB D,128KB5.主机与I/O设备传送数据时,采用_A__,CPU 的效率最高。
A,DMA方式B,程序查询方式C,中断方式D,以上都可以6.DMA方式中,周期窃取是窃取一个__A___。
A,存取周期B,指令周期C,CPU 周期D,总线周期7.两个十六进制数7E5和4D3相加,得__C___。
A,(BD8)16 B,(CD8)16 C,(CB8)16 D,以上都不对8.运算型指令的寻址和转移型指令的寻址不同点在于_B___A,前者是短指令,后者是长指令B,前者取操作数,后者决定程序转移地址C,后者是短指令,前者是长指令D,后者取操作数,前者决定程序转移地址9.某机有四级中断,优先级从高到低依次为1,2,3,4。
若将优先级顺序修改,改后1级中断的屏蔽字是1011,2级中断的屏蔽字是1111,3级中断的屏蔽字是0011,4级中断的屏蔽字是0001,则修改后的优先顺序从高到低为_D_。
A,3,2,1,4B,1,3,4,2C,4,2,1,3D,2,1,3,410.在中断周期中,将允许中断触发器置“0”的操作由__A___完成。
A,硬件B,软件C,关中断指令D,开中断指令三,判断题(1*10=10分)1,控制器能理解、解释并执行所有的指令及存储结果。
(错)2,Zilog Z80是16位微处理器。
(错)3,总线的半同步通信方式既采用时钟信号,又采用握手信号。
(对)4,可编程的只读存储器不一定是可改写的。
(对)5,大多数个人计算机中可配置的最大主存容量受指令中地址码位数的限制。
计算机系统结构考试试题一、选择题(每题 2 分,共 40 分)1、以下关于计算机系统结构的说法中,错误的是()A 计算机系统结构是指计算机系统的软、硬件的界面B 计算机系统结构是对计算机系统中各级界面的定义及其上下的功能分配C 计算机系统结构是指计算机系统的概念性结构和功能特性D 计算机系统结构与计算机组成和计算机实现无关2、提高并行性的技术途径不包括()A 时间重叠B 资源重复C 资源共享D 增加指令3、指令流水线中出现数据相关时,通常采用的解决办法不包括()A 停顿B 分支预测C 数据旁路D 指令预取4、以下关于存储系统的说法中,正确的是()A Cache 是为了弥补主存速度的不足B 虚拟存储器是为了扩大主存容量C 相联存储器是按地址访问的D 主存是按内容访问的5、以下关于中断的说法中,错误的是()A 中断是指计算机在执行程序过程中,遇到突发事件而中断当前程序的执行B 中断响应的过程包括关中断、保存断点、识别中断源、保护现场等C 中断向量是中断服务程序的入口地址D 中断处理的过程包括恢复现场、开中断、返回原程序等6、以下关于总线的说法中,错误的是()A 总线是连接计算机各部件的公共信息传输线B 总线可以分为数据总线、地址总线和控制总线C 同步总线的传输效率高于异步总线D 总线的带宽等于总线的时钟频率乘以总线的宽度7、以下关于输入输出系统的说法中,正确的是()A 程序查询方式的效率最高B 中断方式需要 CPU 不断查询设备状态C DMA 方式可以直接在内存和外设之间传输数据D 通道方式的功能比 DMA 方式强大8、以下关于多处理机系统的说法中,错误的是()A 多处理机系统是指由两个或两个以上的处理机组成的计算机系统B 多处理机系统的并行性比单处理机系统高C 多处理机系统的通信方式包括共享存储器和消息传递D 多处理机系统的性能只取决于处理机的数量9、以下关于流水线的说法中,正确的是()A 流水线的段数越多,流水线的效率越高B 流水线的吞吐率与流水线的段数无关C 流水线的加速比等于流水线的段数D 流水线的效率与任务的类型有关10、以下关于 RISC 指令集的说法中,错误的是()A RISC 指令集的指令长度固定B RISC 指令集的指令格式种类少C RISC 指令集的寻址方式简单D RISC 指令集的指令功能强大11、以下关于 CISC 指令集的说法中,正确的是()A CISC 指令集的指令长度可变B CISC 指令集的指令格式种类多C CISC 指令集的寻址方式复杂D 以上都是12、以下关于超标量技术的说法中,错误的是()A 超标量技术是指在一个时钟周期内同时发射多条指令B 超标量技术可以提高指令的并行度C 超标量技术需要增加硬件的复杂度D 超标量技术可以在任何指令集架构上实现13、以下关于向量处理机的说法中,正确的是()A 向量处理机是专门用于处理向量数据的计算机B 向量处理机的运算速度比标量处理机快C 向量处理机的并行性主要体现在指令级并行D 以上都是14、以下关于存储层次的说法中,错误的是()A 存储层次的目的是为了提高存储系统的性能价格比B 存储层次的性能由命中率、访问时间和失效开销决定C 增加 Cache 的容量可以提高命中率D 降低主存的访问时间可以提高存储层次的性能15、以下关于虚拟存储器的说法中,正确的是()A 虚拟存储器的容量等于主存容量加上辅存容量B 虚拟存储器的页面大小是固定不变的C 虚拟存储器的地址转换是由硬件完成的D 虚拟存储器的页面替换算法对系统性能有很大影响16、以下关于多总线结构的说法中,错误的是()A 多总线结构可以提高系统的性能B 多总线结构可以增加系统的可靠性C 多总线结构可以减少系统的成本D 多总线结构可以提高系统的可扩展性17、以下关于 I/O 接口的说法中,正确的是()A I/O 接口是 CPU 与外设之间的桥梁B I/O 接口可以实现数据格式的转换C I/O 接口可以实现数据缓冲和锁存D 以上都是18、以下关于 DMA 控制器的说法中,错误的是()A DMA 控制器可以接管总线控制权B DMA 控制器可以在内存和外设之间直接传输数据C DMA 控制器可以减少 CPU 的干预D DMA 控制器可以提高系统的并行性19、以下关于通道的说法中,正确的是()A 通道是一种具有特殊功能的处理器B 通道可以实现对 I/O 设备的统一管理C 通道可以提高系统的 I/O 性能D 以上都是20、以下关于计算机系统性能评价的说法中,错误的是()A MIPS 是衡量计算机性能的常用指标之一B MFLOPS 是衡量浮点运算性能的指标C 基准测试程序可以用来评价计算机系统的性能D 计算机系统的性能只取决于硬件的性能二、填空题(每题 2 分,共 20 分)1、计算机系统结构的经典定义是由提出的。
计算机科学技术:计算机体系结构真题1、问答题简述自上而下的设计方法?答案:从用户的需求出发,先确定应用级虚拟机所具有的基本功能特性,然后逐级向下设计。
对于以下的每一级,都必须考虑使上一级优化实现。
2、填空题根据指令系统功能结构的不同,计算机体系结构发展趋势呈现()和()两种截然不同的方向,相同的指令系统可以通过“()”或“()”的方法来实现。
答案:复杂指令集计算技术;精简指令集计算技术;微程序控制器;硬布线3、问答题多机系统的耦合度可以分为哪几类?答案:(1)最低耦合:除通过某种中间存储介质之外,各计算机之间没有物理连接,也无共享的联机硬件资源。
(2)松散耦合:通过通道或通信线路实现计算机间互连,共享某些外围设备,机间的相互作用是在文件或数据集一级进行。
(3)紧密耦合:机间物理连接的频带较高,往往通过总线或高速开关实现互连,可以共享主存。
4、问答题在分布式存储器结构的机器中,对应于两种地址空间的组织方案,分别有哪两种通信机制?它们是怎么实现的?答案:(1)共享地址空间的机器:可利用1oad和StOre指令中的地址隐含地进行数据通信,因而可称为共享存储器机器。
(2)多个地址空间的机器:根据简单的网络协议,通过传递消息来请求某些服务或传输数据,从而完成通信。
因而这种机器常称为消息传递机器。
5、问答题请叙述设计一个I/O子系统的步骤。
答案:A、列出将要链接到计算机的I/O设备的类型,或者列出机器将要支持的标准总线。
B、列出每种I/O设备的物理要求,包括:容量、电源、连接器、总线槽、扩展机箱等等。
C、列出每种I/O设备的开销,包括设备所需要的控制器的开销。
D、记录每种I/O设备对CPU资源的要求。
E、列出每种I/O设备对存储器和总线资源的要求。
F、按照不同的方法组织I/O设备,并计算其性能和开销。
6、填空题对于采用预取技术来降低失效率的方法,目的是要使O,预取优化的主要对象是()。
答案:执行指令和读取数据能重叠执行;循环7、问答题什么是“程序的动态定位方式”?答案:利用类似变址寻址方法,有硬件支持完成。
计算机体系结构试题及答案一、简答题1、请你简述冯·诺依曼结构的工作原理。
指出:它的结构特点是什么?冯·诺依曼结构是指计算机采用存储程序的工作方式,包含五个部分:算术逻辑单元(ALU)、控制单元(CU)、存储器(Memory)、输入/输出设备(I/O)、数据通路(Bus)。
它的工作原理是,程序从存储器中读取指令,指令分解成操作码和地址,控制单元根据操作码控制算术逻辑单元完成运算,然后将结果存储到存储器中或输出到I/O设备中。
其结构特点是:CPU与存储器采用同一总线,存储程序的方式,将数据和指令存储在同一存储器中,指令操作码和地址采用相同位数的二进制代码表示。
2、请你简述计算机的指令周期,以及每个阶段的作用。
指令周期是指计算机执行一条指令所经历的若干个阶段,一般包括取指令(Fetch)、指令译码(Decode)、执行指令(Execute)、存储结果(Write Back)四个阶段。
具体作用如下:取指令:从存储器中读取指令。
指令译码:对指令进行解析,确定指令的类型和操作数。
执行指令:根据指令类型和操作数进行相应的运算。
存储结果:将执行结果存储到指定的地址中,或者输出到I/O设备中。
3、请你简述计算机CPU的主要组成部分及其作用。
计算机CPU包含三个主要组成部分:算术逻辑单元(ALU)、控制单元(CU)、寄存器组。
具体作用如下:算术逻辑单元(ALU):执行算术和逻辑运算,例如加、减、乘、除、与、或、非等运算。
控制单元(CU):控制计算机的运行,包括指令译码、节拍发生、中断处理、目标跳转等操作。
寄存器组:存储一些特殊的数据,例如程序计数器(PC)、指令寄存器(IR)、通用寄存器等。
4、请你简述计算机的系统总线及其作用。
计算机的系统总线是一种用于传送信息的共享通信通路,分为三类:地址总线(Address Bus)、数据总线(Data Bus)、控制总线(Control Bus)。
其主要作用是实现各个组件之间的数据传输和控制信号传送,如CPU向存储器读写数据、I/O设备访问存储器等。
1. 将计算机系统中某一功能的处理速度加快10倍,但该功能的处理时间仅为整个系统运行时间的40%,则采用此增强功能方法后,能使整个系统的性能提高多少?根据Amdahl 定律可知: 系统加速比 = ==由题可知: 可改进比例 = 40% = 部件加速比 = 10 系统加速比 =采用此增强功能方法后,能使整个系统的性能提高倍。
2. 假设一台计算机的I/O 处理占10%,当其CPU 性能改进到原来的10倍时,而I/O 性能仅改进为原来的两倍时,系统总体性能会有什么改进?加速比=1/(10%/2+90%/10)=本题反映了Amdahl 定律,要改进一个系统的性能要对各方面性能都进行改进,不然系统中最慢的地方就成为新系统的瓶颈。
3. 双输入端的加、乘双功能静态流水线有1、2、3、4四个子部件,延时分别为Δt, Δt, 2Δt, Δt ,“加”由1→2→4组成,“乘”由1→3→4组成,输出可直接返回输入或锁存。
现执行∑=*+41])[(i iiic b a(1) 画出流水时空图,标出流水线输入端数据变化情况。
(2) 求运算全部完成所需的时间和流水线效率。
(3) 找出瓶颈子过程并将其细分,重新画出时空图并计算流水时间和效率。
(1)(2)由上图可知,全部运算完的时间是23Δt 。
923723437=∆⨯∆=t t η(3)部件 ① ② ③ ④ ⑤ ⑥ 结果输入 a 1 a 2 a 3 a 4 a 1+b 1 a 2+b 2 a 3+b 3 a 4+b 4 ① ③ ⑤ b 1 b 2 b 3 b 4 c 1 c 2 c 3 c 4 ② ④ ⑥Δt4 3 2 1由上图可知,流水时间为20Δt 。
1003720537=∆⨯∆=t t η4. 有一条流水线如下所示。
50ns50ns100ns200ns(1) 求连续输入5指令,该流水线的实际吞吐率和效率;(2) 该流水线的瓶颈在哪一段?请采取两种不同的措施消除此“瓶颈”。
系统架构设计师真题解析(计算题)第一章计算机组成与体系结构流水线吞吐率、加速比2017年下半年1.某计算机系统采用5级流水线结构执行指令,设每条指令的执行由取指令(2t ∆)、分析指令(1t ∆)、取操作数(3t ∆)、运算(1t ∆)和写回结果(2t ∆)组成,并分别用5个子部件完成,该流水线的最大吞吐率为();若连续向流水线输入10条指令,则该流水线的加速比为()。
【解析】理论流水线执行时间=(2t ∆+1t ∆+3t ∆+1t ∆+2t ∆)+max(2t ∆,1t ∆,3t ∆,1t ∆,2t ∆)*(n-1)=9t ∆+(n-1)*3t ∆;第一问:最大吞吐率:Δt 31Δt 6t nΔ3n Δt31)(n-Δt+9n n =+=⨯∞→lim 第二问:10条指令使用流水线的执行时间=9t ∆+(10-1)*3t ∆=36t ∆。
10条指令不用流水线的执行时间=9t ∆*10=90t ∆。
加速比=使用流水线的执行时间/不使用流水线的执行时间=90t ∆/36t ∆=5:2。
2.例:某计算机系统,一条指令的执行需要经历取指(2ms )、分析(4ms )、执行(1ms )三个阶段,现要执行100条指令,利用流水线技术需要多长时间?(教材1.3.1)理论上来说,1条指令的执行时间为:2ms+4ms+1ms=7ms 。
所以:理论流水线执行时间=2ms+4ms+1ms+(100-1)*4=403ms 。
而实际上,真正做流水线处理时,考虑到处理的复杂性,会将指令的每个执行阶段的时间都统一为流水线周期,即1条指令的执行时间为:4ms+4ms+4ms=12ms 。
所以:实际流水线执行时间=4ms+4ms+4ms+(100-1)*4=408ms扩展:上述题目中,如果采用3级操作,2级流水,等价于将3级操作变成2级操作。
最合理的划分是由取指(2ms )、分析(4ms )、执行(1ms )相连划分为指(2ms )、分析(4ms )+执行(1ms )={2,5}。
例1.1 将计算机系统中某一功能的处理速度加快15倍,但该功能的处理时间仅占整个系统运行时间的40%,则采用此增强功能方法后,能使整个系统的性能提高多少? 解 由题可知: F e = 40% = 0.4 S e = 15根据Amdahl 定律可知:采用此增强功能方法后,能使整个系统的性能提高到原来的1.6倍。
例1.2 某计算机系统采用浮点运算部件后,使浮点运算速度提高到原来的25倍,而系统运行某一程序的整体性能提高到原来的4倍,试计算该程序中浮点操作所占的比例。
解 由题可知: S e = 25 S n = 4 根据Amdahl 定律可知:6.1154.0)4.01(1)1(1≈+-=+-=SeFeFe Sn()25114FeFe +-=由此可得:Fe = 78.1%即程序中浮点操作所占的比例为78.1%。
例1.3 假设FP 指令的比例为25%,其中,FPSQR 占全部指令的比例为2%,FP 操作的CPI 为4,FPSQR 操作的CPI 为20 ,其他指令的平均CPI 为1.33。
现有两种改进方案,第一种是把FPSQR 操作的CPI 减至2,第二种是把所有的FP 操作的CPI减至2,试比较两种方案 对系统性能的提高程度。
解 没有改进之前,每条指令的平均时钟周期CPI 为:(1)采用第一种方案FPSQR 操作的CPI 由CPI FPSQR =20减至CPI’FPSQR =2,则整个系统的指令平均时钟周期数为:()()2%7533.1%2541=⨯+⨯=⎪⎭⎫ ⎝⎛⨯=∑=ni i i IC IC CPI CPICPI1=CPI―(CPIFPSQR―CPI’FPSQR)×2%=2―(20―2) ×2%=1.64(2)采用第二种方案所有FP操作的CPI由CPIFP =4减至CPI’FP=2,则整个系统的指令平均时钟周期数为:CPI2=CPI―(CPIFP―CPI’FP)×25%=2―(4―2) ×25%=1.5从降低整个系统的指令平均时钟周期数的程度来看,第二种方案优于第一种方案。
计算机组成原理期末考试试题及答案一、选择题(每题2分,共20分)1. 计算机硬件系统主要由哪两部分组成?A. 控制器和运算器B. 输入设备和输出设备C. 中央处理器和外部设备D. 存储器和输入输出设备答案:C2. 下面哪个不是计算机的五大组成部分?A. 控制器B. 运算器C. 输入设备D. 电源答案:D3. 下面哪个寄存器用于存放将要执行的下一条指令的地址?A. 指令寄存器B. 程序计数器C. 地址寄存器D. 数据寄存器答案:B4. 下面哪个不是计算机的数据表示方法?A. 二进制B. 十进制C. 八进制D. 十六进制答案:B5. 下面哪个不是计算机的存储器层次结构?A. 寄存器B. 高速缓存C. 主存储器D. 硬盘答案:D6. 下面哪个不是计算机的输入设备?A. 鼠标B. 键盘C. 扫描仪D. 显示器答案:D7. 下面哪个不是计算机的输出设备?A. 显示器B. 打印机C. 扬声器D. 键盘答案:D8. 下面哪个不是计算机的总线类型?A. 数据总线B. 地址总线C. 控制总线D. 通信总线答案:D9. 下面哪个不是计算机的指令类型?A. 数据传输指令B. 算术运算指令C. 逻辑运算指令D. 中断指令答案:D10. 下面哪个不是计算机的并行计算技术?A. 流水线技术B. 向量处理技术C. 多线程技术D. 分布式计算技术答案:D二、填空题(每题2分,共20分)1. 计算机硬件系统主要由______和______组成。
答案:中央处理器,外部设备2. 计算机的五大组成部分包括:控制器、运算器、______、______和______。
答案:存储器,输入设备,输出设备3. 计算机的数据表示方法有:二进制、八进制、十六进制等,其中计算机内部使用的是______。
答案:二进制4. 计算机的存储器层次结构包括:寄存器、高速缓存、______和______。
答案:主存储器,硬盘5. 计算机的指令分为:数据传输指令、算术运算指令、逻辑运算指令和______。
计算机体系结构习题三一、(10分)某台主频为400MHz的计算机执行标准测试程序,程序中指令类二、(10分)计算机系统中有三个部件可以改进,这三个部件的改进加速比为:部件加速比1=30;部件加速比2=20;部件加速比3=10 (1)如果部件1和部件2在整个系统运行时间中所占的比例均为30%,那么当部件3的比例为多少时,系统加速比才可以达到10?(2)如果三个部件的所占比例分别为30%、30%和20%,三个部件同时改进,那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少?三、(5分)根据CPU中保存操作数的存储器类型,可以把指令集结构分为哪些类型?四、(10分)在MIPS流水线上运行如下代码序列:LOOP:LW R1,0(R2)DADDIU R1,R1,#1SW R1,0(R2)DADDIU R2,R2,#4DSUB R4,R3,R2BNEZ R4,LOOP其中:R3的初值是R2+396。
假设:在整个代码序列的运行过程中,所有的存储器访问都是命中的,并且在一个时钟周期中可对同一个寄存器在前半周期写,而在后半周期读。
那么:(1)在没有任何其它定向(或旁路)硬件的支持下,请画出该指令序列执行的流水线时空图。
假设采用暂停流水线的策略处理分支指令,且所有的存储器访问都命中Cache,那么执行上述循环需要多少个时钟周期?(2)假设该流水线有通常的定向路径,请画出该指令序列执行的流水线时空图。
假设采用预测分支失败的策略处理分支指令,且所有的存储器访问都命中Cache,那么执行上述循环需要多少个时钟周期?(3)假设该流水线有通常的定向路径和一个时钟周期的延迟分支,请对该循环中的指令进行调度,你可以重新组织指令的顺序,也可以修改指令的操作数,但是注意不能增加指令的条数。
请画出该指令序列执行的流水线时空图,并计算执行上述循环所需要的时钟周期数。
五、(10分)假设某程序各种分支指令数占所有指令数的百分比如下:现有一条段数为4的流水线,无条件分支在第2个时钟周期结束时就被解析出来,而条件分支要到第3个时钟周期结束时才能够被解析出来。
福建师大网络教育学院《计算机体系结构》期末复习题系别_________ 班级_________ 姓名__________ 学号__________一、填空题(每空1分)1.按照弗林(Flynn)分类法,计算机系统可以分为4类:SISD计算机、______计算机、_______计算机和_______计算机。
2. 改进之后的冯•诺依曼计算机的只要特点是__________。
3. 当前计算机系统中的存储系统是一个层次结构,其各层分别为__________。
4.高速缓冲存储器的地址映象方式有三种,它们分别是:__________、__________、__________。
5.虚拟存储器的三种管理方式是__________,__________和__________6.目前计算机中常用数据有__________,__________和__________三种类型。
7.通常可能出现的流水线的相关性有__________。
8.解决中断引起的流水线断流的方法有_______和________。
9.目前向量处理机的系统结构有两种:__________和__________。
10.通用计算机基本指令分为5类,它们分别是:__________。
11.执行指令x1=x2+x3;x4=x1-x5会引起__________类型的数据相关,执行指令x5=x4*x3;x4=x0+x6会引起__________类型的数据相关,执行指令x6=x1+x2;x6=x4*x5会引起__________类型的数据相关。
12.多计算机网络中,通常出现的4种通信模式是__________。
13.传统的冯•诺依曼计算机是以控制驱动方式工作,以数据驱动方式工作的典型计算机是_______,以需求驱动方式工作的典型计算机是_______,以模式匹配驱动方式工作的典型计算机是_______。
二、名词解释(每题2分)1.计算机体系结构:2.系列机:3.模拟:4.程序的局部性原理:5.MIPS:6.高速缓冲存储器:7.虚拟存储器:8.快表:9.程序定位:10.延迟转移技术:11.窗口重叠技术:12.流水线技术:13.动态流水线:14.静态流水线:15.线性流水线:16.非线性流水线:17.流水线的吞吐率:18.超流水线计算机:19.向量的分段开采技术:20.基准测试程序:三、简答题(每题5分)1.什么是存储系统?2.简述全相联映象规则。
3.12 有一指令流水线如下所示(1) 求连续输入10条指令,该流水线的实际吞吐率和效率;(2) 该流水线的“瓶颈”在哪一段?请采取两种不同的措施消除此“瓶颈”。
对于你所给出的两种新的流水线,连续输入10条指令时,其实际吞吐率和效率各是多少? 解:(1)2200(ns)2009200)10050(50t )1n (t T maxm1i i pipeline =⨯++++=∆-+∆=∑= )(ns 2201T nT P 1pipeline-==45.45%1154400T P mtT P E m1i i≈=⋅=∆⋅=∑= (2)瓶颈在3、4段。
⏹ 变成八级流水线(细分)850(ns)509850t 1)(n t T maxm1i i pipeline =⨯+⨯=∆-+∆=∑=)(ns 851T nT P 1pipeline-==58.82%17108400T P mtiT P E m1i ≈=⋅=∆⋅=∑= ⏹ 重复设置部件出50ns 50ns 100ns 200ns)(ns 851T nT P 1pipeline-==58.82%1710885010400E ≈=⨯⨯=3.134段组成,3段时,一次,然4段。
如果需要的时间都是,问:(1) 当在流水线的输入端连续地每时间输入任务时,该流水线会发生什么情况?(2) 此流水线的最大吞吐率为多少?如果每输入一个任务,连续处理10个任务时的实际吞吐率和效率是多少?(3) 当每段时间不变时,如何提高该流水线的吞吐率?仍连续处理10个任务时,其吞吐率提高多少?(2)t ∆t ∆254.35%925045T P E 2310T nT p 23T 21T P pipelinepipeline max ≈=∆⋅=∆∆==∆=∆=t tt t(3)重复设置部件tt ∆⋅=∆⋅==751410T nT P pipeline吞吐率提高倍数=tt ∆∆231075=1.643.14 有一条静态多功能流水线由5段组成,加法用1、3、4、5段,乘法用1、2、5段,第3段的时间为2△t ,其余各段的时间均为△t ,而且流水线的输出可以直接返回输入端或 )(41i i i B A +∏=23段t∆ 14暂存于相应的流水寄存器中。
现要在该流水线上计算 ,画出其时空图,并计算其吞吐率、加速比和效率。
解:首先,应选择适合于流水线工作的算法。
对于本题,应先计算A 1+B 1、A 2+B 2、A 3+B 3和A 4+B 4;再计算(A 1+B 1) ×(A 2+B 2)和(A 3+B 3) ×(A 4+B 4);然后求总的结果。
其次,画出完成该计算的时空图,如图所示,图中阴影部分表示该段在工作。
由图可见,它在18个△t 时间中,给出了7个结果。
所以吞吐率为:tTP ∆=817如果不用流水线,由于一次求积需3△t ,一次求和需5△t ,则产生上述7个结果共需(4×5+3×3)△t =29△t 。
所以加速比为:该流水线的效率可由阴影区的面积和5个段总时空区的面积的比值求得:3.15 动态多功能流水线由6个功能段组成,如下图:乘法加法乘法 加法时间段输 入A 1B 1 A 2 B 2 A 3 B 3 A 4 B 4A B CDA ×BC ×D61.18192=∆∆=tt S 223.01853354=⨯⨯+⨯=E其中,S1、S4、S5、S6组成乘法流水线,S1、S2、S3、S6组成加法流水线,各个功能段时间均为50ns ,假设该流水线的输出结果可以直接返回输入端,而且设置有足够的缓冲寄存器,若以最快的方式用该流水计算:∑=51i i i i z y x(1) 画出时空图;(2) 计算实际的吞吐率、加速比和效率。
解:机器一共要做10次乘法,4次加法。
3.16 在MIPS 流水线上运行如下代码序列:LOOP : LW R1,0(R2) DADDIU R1,R1,#1 SW R1, 0(R2) DADDIU R2,R2,#4 DSUB R4,R3,R2 BNEZ R4,LOOP其中:R3的初值是R2+396。
假设:在整个代码序列的运行过程中,所有的存储器访问都是命中的,并且在一个时钟周期中对同一个寄存器的读操作和写操作可以通过寄存器文件“定向”。
问:(1) 在没有任何其它定向(或旁路)硬件的支持下,请画出该指令序列执行的流水线时空图。
假设采用排空流水线的策略处理分支指令,且所有的存储器访问都命中Cache ,那么执行上述循环需要多少个时钟周期?(2) 假设该流水线有正常的定向路径,请画出该指令序列执行的流水线时空图。
假设采用预测分支失败的策略处理分支指令,且所有的存储器访问都命中Cache ,那么执行上述循环需要多少个时钟周期?(3)假设该流水线有正常的定向路径和一个单周期延迟分支,请对该循环中的指令进行调度,你可以重新组织指令的顺序,也可以修改指令的操作数,但是注意不能增加指令的条数。
请画出该指令序列执行的流水线时空图,并计算执行上述循环所需要的时钟周期数。
解:寄存器读写可以定向,无其他旁路硬件支持。
排空流水线。
指令12345678910111213141516171819202122 LW IF ID EX M WBDADDIU IF S S ID EX M WBSW IF S S ID EX M WBDADDIU IF ID EX M WBDSUB IF S S ID EX M WBBNEZ IF S S ID EX M WBLW IF S S IF ID EX M WB第i次迭代(i=0..98)开始周期:1+(i×17)总的时钟周期数:(98×17)+18=1684有正常定向路径,预测分支失败。
指令12345678910111131415LW IF ID EX M WBDADDIU IF ID S EX M WBSW IF S ID EX M WBDADDIU IF ID EX M WBDSUB IF ID EX M WBBNEZ IF ID EX M WBLW IF miss miss IF ID EX M WB第i次迭代(i=0..98)开始周期:1+(i×10)总的时钟周期数:(98×10)+11=991有正常定向路径。
单周期延迟分支。
LOOP: LW R1,0(R2)DADDIU R2,R2,#4DADDIU R1,R1,#1DSUB R4,R3,R2BNEZ R4,LOOPSW R1,-4(R2)第i次迭代(i =0..98)开始周期:1+(i ×6 )总的时钟周期数:(98×6)+10=598指令1234567891011LW IF ID EX M WBDADDIU IF ID EX M WBDADDIU IF ID EX M WBDSUB IF ID EX M WBBNEZ IF ID EX M WBSW IF ID EX M WBLW IF ID EX M WB3.17 假设各种分支指令数占所有指令数的百分比如下:出来,而条件分支要到第三个时钟周期结束时才能够被解析出来。
第一个流水段是完全独立于指令类型的,即所有类型的指令都必须经过第一个流水段的处理。
请问在没有任何控制相关的情况下,该流水线相对于存在上述控制相关情况下的加速比是多少?解:没有控制相关时流水线的平均CPI=1存在控制相关时:由于无条件分支在第二个时钟周期结束时就被解析出来,而条件分支要到第3个时钟周期结束时才能被解析出来。
所以:(1)若使用排空流水线的策略,则对于条件分支,有两个额外的stall,对无条件分支,有一个额外的stall:CPI = 1+20%*2+5%*1 = 1.45加速比S=CPI/1 = 1.45(2)若使用预测分支成功策略,则对于不成功的条件分支,有两个额外的stall,对无条件分支和成功的条件分支,有一个额外的stall 1:CPI = 1+20%*(60%*1+40%*2) +5%*1 = 1.33加速比S=CPI/1 = 1.33(3)若使用预测分支失败策略,则对于成功的条件分支,有两个额外的stall;对无条件分支,有一个额外的stall;对不成功的条件分支,其目标地址已经由PC 值给出,不必等待,所以无延迟:CPI = 1+20%*(60%*2 + 40%*0) +5%*1 = 1.29加速比S=CPI/1 = 1.295.10 假设对指令Cache的访问占全部访问的75%;而对数据Cache的访问占全部访问的25%。
Cache的命中时间为1个时钟周期,失效开销为50 个时钟周期,在混合Cache中一次load或store操作访问Cache的命中时间都要增加一个时钟周期,32KB的指令Cache的失效率为0.39%,32KB的数据Cache的失效率为4.82%,64KB的混合Cache的失效率为1.35%。
又假设采用写直达策略,且有一个写缓冲器,并且忽略写缓冲器引起的等待。
试问指令Cache和数据Cache 容量均为32KB的分离Cache和容量为64KB的混合Cache相比,哪种Cache的失效率更低?两种情况下平均访存时间各是多少?解:(1)根据题意,约75%的访存为取指令。
因此,分离Cache 的总体失效率为:(75%×0.15%)+(25%×3.77%)=1.055%;容量为128KB 的混合Cache 的失效率略低一些,只有0.95%。
(2)平均访存时间公式可以分为指令访问和数据访问两部分: 平均访存时间=指令所占的百分比×(读命中时间+读失效率×失效开销)+ 数据所占的百分比×(数据命中时间+数据失效率×失效开销)所以,两种结构的平均访存时间分别为:分离Cache 的平均访存时间=75%×(1+0.15%×50)+25%×(1+3.77%×50)=(75%×1.075)+(25%×2.885)=1.5275 混合Cache 的平均访存时间=75%×(1+0.95%×50)+25%×(1+1+0.95%×50)=(75%×1.475)+(25%×2.475)=1.725因此,尽管分离Cache 的实际失效率比混合Cache 的高,但其平均访存时间反而较低。
分离Cache 提供了两个端口,消除了结构相关。
5.11 给定以下的假设,试计算直接映象Cache 和两路组相联Cache 的平均访问时间以及CPU 的性能。