流水线处理器

格式：ppt
大小：226.50 KB
文档页数：21

下载文档原格式

/ 21

Intel系列CPU流水线技术的发展与展望

Intel系列CPU流水线技术的发展与展望流水线技术是指在程序执行时多条指令重叠进行操作的一种准并行处理实现技术。

在计算机中，把一个重复的过程分解为若干子过程，每个子过程由专门的功能部件来实现。

将多个处理过程在时间上错开，依次通过各功能段，这样，每个子过程就可以与其他子过程并行进行。

其中，流水线中的每个子过程及其功能部件称为流水线的级或段，段与段相互连接形成流水线。

流水线的段数称为流水线的深度。

把流水线技术应用于指令的解释执行过程，就形成了指令流水线。

其中可以把指令的执行过程分为取指令、译码、执行、存结果4个子过程。

把流水线技术应用于运算的执行过程，就形成了运算操作流水线，也称为部件级流水线。

Inter Pentium 系列中采用的流水线技术流水线技术早在Intel的X86芯片中均得到了实现。

而Pentium系列CPU产品更是一个高级的超标量处理器。

奔腾处理器可以在一个时钟周期内完成两条指令，一个流水线完成一条指令。

具有MMX技术的奔腾处理器为整型流水线增加了一个额外的处理阶段。

在486芯片中，一条指令一般被划分为五个标准的部分，奔腾亦是如此，而在P6中，由于采用了近似于RISC的技术，一条指令被划分成了创纪录的十四个阶段，这极大地提高了流水线的速度。

P6系列处理器使用动态执行结构，该结构通过硬件寄存器重命名和分支预测的方法，将乱序执行和推测执行合成在一起。

奔腾Ⅲ处理器使用了P6中的动态执行技术，增加了超标量双流水线结构、分支预测技术、通过乱序来优化指令流水线、将指令划分为更细的阶段。

而奔腾Ⅳ新增的技术有使用高级动态执行、执行跟踪缓存、快速执行引擎、超长管道处理技术、超线程技术。

它基本的指令流水线长度达到了20级，更长的流水线可以使处理器运行在更高的主频下，从而提高处理器的性能，但有可能带来一些指令执行上的延迟。

提高流水线性能的方法及相关技术从不同的角度和观点，可以把流水线分成多种不同的种类。

按照流水线所完成的功能来分，可以分为单功能流水线和多功能流水线。

第8章中央处理器-流水线CPU

Load Ifetch Reg/Dec Exec Mem Wr
R-type Ifetch Reg/Dec Exec Wr
R-type Ifetch Reg/Dec Exec Wr
°上述流水线有个问题: 两条指令试图同时写寄存器，因为
• Load在第5阶段用寄存器写口 • R-type在第4 阶段用寄存器写口
• 每个周期有五个功能部件同时在工作 • 后面指令在前面完成取指后马上开始 • 每个load指令仍然需要五个周期完成 • 但是，吞吐率(throughput)提高许多，理想情况下，有：
• 每个周期有一条指令进入流水线 • 每个周期都有一条指令完成 • 每条指令的有效周期(CPI)为1
含R-type和 Load 指令的流水线
这样使流水线中的每条指令都有相同多个阶段!
Store指令的四个阶段
Cycle 1 Cycle 2 Cycle 3 Cycle 4 Store Ifetch Reg/Dec Exec Mem Wr
NOOP!
°Ifetch：取指令并计算PC+4 °Reg/Dec：从寄存器取数，同时指令在译码器进行译码 °Exec：12位立即数符号扩展后与寄存器值相加，计算主存地址 °Mem：将寄存器读出的数据写到主存
Delay through Control Logic New Value
PC+4 PC
Old Value
New Value
Old Value
New Value
Old Value Old Value
New Value New Value
Register Write Occurs
Old Value
Register File Access Time New Value

计算机组成_ 流水线处理器(Pipelined Processor)_

43;分钟
≈
5分钟
做四道菜
8+分钟
20分钟
连续工作
每1+分钟上一道菜＜每5分钟上一道菜 ≈5倍
“超级流水线”
“超级流水线”技术（Super Pipelining）
◦ 将五级流水线细分为更多的阶段，增加流水线的深度
◦ 提升时钟频率，从而提高指令吞吐率
五级流水线 S1
S2
S3
S4
S5
◦ 时钟周期：200ps+50ps=250ps
IMem Reg ALU DMem Reg
instruction 5
IMem Reg ALU DMem Reg
如果指令和数据放在同一个存储器中，则不能同时读存储器解决方案2：指令和数据放在不同的存储器中
结构冒险（示例2）
时间（ps）0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400
切菜
炒菜
装盘
1分钟
2分钟
1分钟
1分钟
不平衡的流水线流水线方式
非流水线方式
单独一道菜
8+分钟
＞
5分钟
做四道菜
14+分钟
20分钟
连续工作
每2+分钟上一道菜＜每5分钟上一道菜
≈2.5倍
流水线的调整
时钟周期=1分钟
洗菜
切菜1
切菜2
炒菜
装盘
1分钟
1分钟
1分钟
1分钟
1分钟
平衡的流水线流水线方式
非流水线方式
本节主题
流水线的优化
北京大学 · 慕课计算机组成
制作人：陆俊林

中央处理器CPU——指令流水线

中央处理器CPU——指令流⽔线指令流⽔线概念：⼀条指令的执⾏过程划分为不同阶段，占⽤不同硬件资源，多条指令重叠操作实现并⾏处理1.顺序执⾏：⼜称串⾏执⾏⽅式；传统的冯诺依曼机器优点:控制简单，硬件代价⼩缺点：速度慢，各功能部件利⽤率低2.⼀次重叠执⾏⽅式：优点：时间缩短三分之⼀，各功能部件利⽤效率提⾼缺点：控制复杂，硬件开销增⼤3.⼆次重叠执⾏⽅式：优点：时间缩短三分之⼆，理想状态指令执⾏过程图:⽤于分析指令执⾏过程和影响流⽔线因素时空图：⽤于分析流⽔线的性能吞吐率TP:单位时间内流⽔线完成的任务数量或输出结果的数量加速⽐S：同⼀任务下，不使⽤流⽔线⽤时与使⽤流⽔线⽤时之⽐效率E：流⽔线的设备利⽤率锁存器（缓冲寄存器）：作⽤是保存本流⽔段的执⾏结果，提供给下⼀流⽔段使⽤。

影响因素：结构相关（资源冲突）：多条指令同⼀时间争⽤同⼀资源解决：1.后⼀相关指令暂停⼀周期；2.资源重复配置（数据存储器+指令存储器）数据相关（数据冲突）：在⼀个程序中，上⼀条指令执⾏完才能执⾏下⼀条指令（这两条指令即为数据相关）解决：将数据相关的指令和后续指令暂停时钟周期到问题消失再执⾏；1.硬件阻塞stall和软件插⼊NOP；2.数据旁路技术；3.编译优化：通过编译器调整指令顺序控制相关（控制冲突）：转移指令和改变PC值的指令造成断流解决：1.尽早判别转移是否发⽣，尽早⽣成转移⽬标地址2．预取转移成功和不成功两个控制流⽅向上的⽬标指令3．加快和提前形成条件码4．提⾼转移⽅向的猜准率流⽔线的分类1.根据流⽔线使⽤级别:部件功能级、处理机级和处理机间级流⽔线部件功能级流⽔：将复杂的算术逻辑运算组成流⽔线⼯作⽅式处理机级流⽔：把⼀条指令解释过程分成多个⼦过程，如取指、译码、执⾏、访存及写回5个⼦过程。

处理机间流⽔：是⼀种宏流⽔，其中每⼀个处理机完成某⼀专门任务，各个处理机所得到的结果需存放在与下⼀个处理机所共享的存储器中2，按流⽔线可以完成的功能分为：单功能流⽔线和多功能流⽔线单功能流⽔线：指只能实现⼀种固定的专门功能的流⽔线；多功能流⽔线：指通过各段间的不同连接⽅式可以同时或不同时地实现多种能的流⽔线。

浅析处理器流水线冒险原因和解决方案

0 引言流水线技术一方面提升了处理器执行速率，另一方面单指令的执行和过程并没有缩减。

处理器在执行流水线作业时，还需要执行控制指令，从而增加系统的开销，所以单个指令平均执行时间会略有上升。

但就总体执行而言，CPU 执行指令的时间更短，吞吐量更大，这意味着程序整体运行得更快。

经典处理器采用五级流水线通路：IF(取指令） ID （指令译码，读寄存器堆） EX （指令执行或地址计算） MEM （数据内存访问）和WB （写回）。

指令执行时间方面：以五级流水线为例（如图1），假设每个时钟周期为t，总共需要执行n 条指令，那么所需时间为执行5*t （n-1）。

如果采用串行执行方式（如图2），执行时间为5*t*n。

这样当指令数较多时，理想状态下流水线方式的效率是串行的5倍。

CPU 流水线模式下,需要规避一些影响指令执行的问题：1）同一个时钟周期内，同一处理单元只能执行一个任务，如执行运算和内存访问不能由同一处理单元在同一时钟周期执行。

2）读取指令和操作数据需要使用各自独立的缓存，即哈弗结构，以避免二者同时访问存储单元。

3）译码与写回操作访问同一寄存器。

而流水线方式执行时，由于上述制约，以及时钟驱动偏差、软硬件延时等原因，有可能出现指令在该时钟周期无法顺利执行，延迟到下个时钟周期执行的情况，这就是流水线风险。

1 流水线冒险类型常见的冒险主要有结构冒险、数据冒险和控制冒险三种。

（1）结构冒险（structural hazard）是指由于资源争夺导致几条指令不能在同一时钟周期内执行，则称为处理器中含有结构性冒险。

如果流水线结构中有一个寄存器，访问内存和读取指令时都要访问同一个内存，流水线就会发生结构冒险。

（2）数据冒险：一个操作需要等待另一个操作完成后才能进行，这样流水线被迫停止，这种情况称为数据冒险。

Keywords: processor;branch prediction; processor pipeline design图2 串行执行方式图1 流水线执行方式2.2 数据冒险解决数据冒险的一个主流方法是转发（也叫旁路）：即前一条指令得到的结果不回写至寄存器，而直接转发至下一条指令。

MIPS指令五级流水CPU设计剖析

MIPS指令五级流水CPU设计剖析MIPS指令五级流水CPU设计是一种高性能的处理器设计架构，它将指令的执行过程拆分为五个阶段，并且在每个阶段中可以同时处理多条指令，实现了指令级并行处理。

在这种设计中，分别是取指（Instruction Fetch）、译码（Instruction Decode）、执行（Execute）、访存（Memory Access）和写回（Write Back）这五个阶段。

在MIPS指令五级流水CPU设计中，首先是取指（Instruction Fetch）阶段，这是整个处理器开始处理一条指令的阶段。

在这个阶段，处理器从指令存储器中读取即将执行的指令，并将其送入流水线中。

这个阶段还会包括对指令地址的计算和异常处理的操作。

当一条指令流入流水线后，处理器就会进行下一个阶段的操作。

接下来是译码（Instruction Decode）阶段，这个阶段主要是将取到的指令进行解码，确定指令的操作类型和需要操作的寄存器等信息。

在这个阶段，会根据指令的不同分支到不同的功能单元中处理。

同时还会识别指令之间的数据相关性，以便在后续阶段进行相应的控制。

第三个阶段是执行（Execute）阶段，在这个阶段，CPU执行指令的操作，进行算数运算或逻辑运算，或者进行跳转等控制操作。

在这个阶段，CPU还将从寄存器文件中读取数据，并进行相应的运算。

这个阶段涉及到的计算量比较大，所以需要比较多的时钟周期来完成。

接下来是访存（Memory Access）阶段，这个阶段主要是处理访问数据内存的操作，比如从数据内存中读取数据，或将结果写入数据内存等。

在这个阶段，处理器还会涉及到访存相关的操作，比如缓存机制的处理等。

这个阶段的操作通常是比较高速的存储器操作。

最后是写回（Write Back）阶段，这个阶段是处理器的最后一个阶段，处理器将执行结果写回到寄存器文件中，或进行其他相关的操作。

这个阶段可以认为是指令执行的结束阶段，对前面四个阶段产生的结果进行最终的处理。

处理器系列之CPU流水线科普

处理器系列之CPU流水线科普1989年推出的i486处理器引入了五级流水线。

这时，在CPU中不再仅运行一条指令，每一级流水线在同一时刻都运行着不同的指令。

这个设计使得i486比同频率的386处理器性能提升了不止一倍。

五级流水线中的取指阶段将指令从指令缓存中取出（i486中的指令缓存为8KB）；第二级为译码阶段，将取出的指令翻译为具体的功能操作；第三级为转址阶段，用来将内存地址和偏移进行转换；第四级为执行阶段，指令在该阶段真正执行运算；第五级为退出阶段，运算的结果被写回寄存器或者内存。

由于处理器同时运行了多条指令，大大提升了程序运行的性能。

处理器一般由如下功能单元组成：取指单元译码单元执行单元Load/store单元（load用于从内存中取数据，而STORE用于存数据到内存）例外/中断单元电源管理单元流水线通常由取指、译码、执行及Load/Store等单元组成。

各单元按图所示的几个步骤循环重复自身工作。

流水线的含义：与工厂生产线类似，将一件工作分成若干个固定的工序进行。

cpu流水线技术是一种将指令分解为多步，并让不同指令的各步操作重叠，从而实现几条指令并行处理，以加速程序运行过程的技术。

指令的每步有各自独立的电路来处理，每完成一步，就进到下一步，而前一步则处理后续指令。

（原理和生产流水线一样）CPU指令流水线根据之前描述的基础，指令进入流水线，通过流水线处理，从流水线出来的过程，对于我们程序员来说，是比较直观的。

I486拥有五级流水线。

分别是：取指(Fetch)，译码(D1, main decode)，转址(D2, translate)，执行(EX, execute)，写回(WB)。

某个指令可以在流水线的任何一级。

但是这样的流水线有一个明显的缺陷。

对于下面的指令代码，它们的功能是将两个变量的内容进行交换。

1 XOR a, b2 XOR b, a3 XOR a, b从8086直到386处理器都没有流水线。

超标量处理机和超流水线处理机——计算机系统结构

超标量处理机和超流⽔线处理机——计算机系统结构在表5.2中，基准标量处理机是⼀台普通的单流⽔线处理机。

为了便于进⾏⽐较，把基准标量处理机的机器流⽔线周期和指令发射等待时间都假设为1个时钟周期，同时发射的指令条数为⼀条，它的指令级并⾏度ILP（Instruction Level Parallelism）假设为1。

另外三种指令级并⾏处理机，即并⾏度为m的超标量处理机，并⾏度为n的超流⽔线处理机，以及并⾏度为（m，n）的超标量超流⽔线处理机，它们的性能都相对于基准标量处理机进⾏⽐较。

单流⽔线处理机只有⼀条指令流⽔线，只有⼀个多功能的操作部件，每个时钟周期"取指令"和"分析"完成⼀条指令。

在许多流⽔线处理机中，指令流⽔线的流⽔段数k＝4；它把⼀条指令的执⾏过程主要分解为"取指令"、"分析"、"执⾏"和"写结果"4个阶段。

指令所要执⾏的功能主要在多功能操作部件中，在"执⾏"这⼀流⽔段完成。

多数流⽔线处理机的多功能操作部件采⽤流⽔线结构。

有的简单指令，只要⼀个时钟周期就能够在"执⾏"流⽔段中完成，⽽⽐较复杂的指令往往需要多个时钟周期。

另外，还有条件转移等的影响；因此，⼀般流⽔线标量处理机每个时钟周期平均执⾏指令的条数⼩于1，即它的指令级并⾏度ILP＜1。

超标量、超流⽔线和超标量超流⽔线三种处理机在⼀个时钟周期内可以执⾏完成多条指令，即它们的指令级并⾏度ILP都⼤于1。

超标量处理机基本结构超标量处理机的典型结构是有多个操作部件，⼀个或⼏个⽐较⼤的通⽤寄存器堆，⼀个或两个⾼速Cache。

先进的超标量处理机⼀般都包含有三个处理单元，⼀个是定点处理单元，通常称为中央处理单元（CPU），它由⼀个或多个整数处理部件组成；第⼆个是浮点处理单元（FPU），它由浮点加减法部件和浮点乘除法部件等组成；第三个是图形加速部件，也称为图形处理单元（GPU），这是现代处理机中不可缺少的⼀个部分。

分析流水线处理器的中断和异常响应机制

分析流水线处理器的中断和异常响应机制——以ARM7系列3级流水线为例SC11011042-吴德云为增加处理器指令流的速度，ARM7系列使用3级流水线，允许多个操作同时处理，比逐条指令执行要快。

[1]图1ARM7流水线技术示意图PC 指向正被取指的指令，而非正在执行的指令。

ARM 流水线的一条指令只有在完全通过”执行”阶段才被处理。

这句话很重要，也就是说，当处理器开始取第四条指令时，第一条指令才完成执行。

我们如果不考虑流水线的设计，只看它的原理，其实是很简单的，他的复杂之处在于发生流水线冒险时，如何保证其工作得仍然很好。

流水线冒险一般分为控制冒险和数据冒险，而数据冒险一般可分为阻塞(即下一条指令依赖于前一条指令的结果)、分支和跳转、异常（异常和中断）。

由于ARM 是硬件flush 流水设计的，当发生冒险时，会暂停取指，然后清流水，(MIPS 解决冒险通常依赖于编译器，比如插入一条NOP 指令及重新排列指令序列)。

1.1ARM7的中断响应机制1.1.1中断延时从外部请求信号发出到取出对应的中断服务程序(ISR)的第一条指令，这期间的间隔时间。

1.1.2中断过程ARM 体系中通常在存储地址的低端固化了一个32字节的硬件中断向量表，用来指定各异常中断及其处理程序的对应关系。

当一个异常出现以后，ARM 微处理器会执行以下几步操作：1）保存处理器当前状态、中断屏蔽位以及各条件标志位；2）设置当前程序状态寄存器CPSR 中相应的位；3）将寄存器lr_mode 设置成返回地址；4）将程序计数器(PC)值设置成该异常中断的中断向量地址，从而跳转到相应的异常中断处从存储器中读取指令解码指令寄存器读（从寄存器Bank ）移位及ALU 操作寄存器写（到寄存器Bank ）PC PC PC -4PC-2PC -8PC -4ARM Thumb理程序处执行。

在接收到中断请求以后，ARM处理器内核会自动执行以上四步，程序计数器PC总是跳转到相应的固定地址。

数字系统设计-流水线CPU设计

实验报告课程名称：数字系统设计实验Ⅱ学院：信电系数字系统设计实验Ⅱ流水线MIPS微处理器设计ContentsPart 1实验目的 (3)Part 2实验任务 (3)Part 3实验原理 (4)Part 4实验步骤 (12)1.IF级设计 (12)2.ID级设计 (14)3.Decode单元设计 (16)4.ALU单元设计 (22)5.EX级设计 (27)6.顶层模块设计 (29)Part 5仿真和波形分析 (37)1.IF级仿真分析 (37)2.Decode单元仿真分析 (38)3.ALU仿真分析 (40)4.顶层仿真分析 (41)Part 6心得 (42)实验报告一、实验目的（1）了解提高CPU性能的方法。

（2）理解数据冒险、控制冒险的概念以及流水线冲突的解决方法。

（3）掌握流水线MIPS微处理器的工作原理。

（4）掌握流水线MIPS微处理器的测试方法。

二、实验任务设计一个32位流水线MIPS微处理器。

设计要求：（1）至少执行下列MIPS32指令。

①算数运算指令：ADD ADDU SUB SUBU ADDI ADDU②逻辑运算指令：AND OR NOR XOR ANDI ORI XORI SLT SLTI SLTU SLTIU③移位指令：SLL SLLV SRL SRLV SRA④条件分支指令：BEQ BNE BGEZ BGTZ BLEZ BLTZ⑤无条件跳转指令：J JR⑥数据传输指令：LW SW⑦空指令：NOP（2）在用5级流水线技术，对数据冒险实现转发或阻塞功能。

（3）在XUP Vietex-II Pro开发系统中实现MIPS微处理器，要求CPU的运行速度大于25MHz.三、实验原理1.流水线MIPS CPU总体设计与构建流水线是数字系统中一种提高系统稳定性和工作速度的方法，广泛应用在高档CPU的构建中。

根据MIPS处理器指令的特点，将整体的处理过程分为取指令（IF）、指令译码、执行、存储器访问和寄存器写回五级，对应多周期CPU的五个处理阶段。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

分析指令K+1 分析指令K+2 分析指令K+3
如果取指令、分析指令和执行指令的3段时间都相等，且每段时间都等于t，则执行n条指令的时间为：T= （2+n）t 。上述分析是针对在一条流水线有3个独立的功能部件而言的。若一条流水线有m个功能独立的部件S1 ， S2，……，Sm，这种流水线控制器的并行程度会显著提高。
1)指令相关在一个顺序执行的程序段中，当下一条指令（或若干条指令）本身的内容取决于当前指令的执行结果，就产生指令相关。解决指令相关的根本方法是程序设计时不允许修改指令，即后续指令的内容和前面指令的执行结果无关。当然，不允许修改指令还有更重要的原因，即现代计算机设计方法要求程序具有再入性，可以被递归调用等。另外，在程序执行过程中不修改指令也有利于程序的诊断和调试。
当遇到控制相关问题时，可以采用以下4种方法解决：（1）延迟转移技术。延迟转移技术是在遇到转移指令时，依靠编译器把一条或几条没有数据相关或控制相关的指令调度到转移指令的后面。当被调度的指令执行完成后，转移指令的有效目标地址也已经计算出来了。 2 （2）静态转移预测技术。所谓静态转移预测是指在处理器的硬件或软件设计完成后，转移预测的方向就已经确定了，预测的方向可能是转移成功的方向，也可能是转移不成功的方向。在程序实际执行过程中，转移预测的方向不能改变。如果在硬件上设置一个目标缓冲栈及相应的控制逻辑，静态转移预测技术还可以在转移成功和不成功两个方向都预取指令。这样，转移造成的损失可以减少一些。
分析指令
取操作数
执行指令
输出
指令流水线的原理图
2 、算术流水线对算术运算的各步骤实现并行操作，称为算术流水线。如流水线加法器、流水线乘法器、流水线快速傅里叶变换等。现代处理器中广泛采用算术流水线，如 STAR-100采用4级流水运算器，Pentium处理器采用8 级定点流水线和2级浮点流水线。 3 、处理器流水线在程序步骤上实现操作并行称为处理器流水线，有时称为宏流水线。这种流水线把两个或两个以上处理器通过存储器串行连接起来，每个处理器对同一数据流的不同部分分别进行并行处理。
4)变址相关在许多处理器中，把通用寄存器兼做变址寄存器使用。由于在变址寄存器中存放的变量在指令分析过程中用它来计算有效地址，因此与通用寄存器数据相关类似，有可能发生变址相关。因为计算有效地址在指令分析的一开始就进行，因此变址相关造成的后果要比通用寄存器数据相关更为严重。解决变址相关的方法可以采用推后分析和设置专用通路两种方法。采用专用通路实际上是通过增加硬件设备来换取提高指令执行速度的一种方法。
在串行执行方式中，n条指令的执行时间为：
T = ∑ (t 取指令i + t 分析指令i + t 执行指令i )
i =1
n
空间
指令执行部件指令分析部件取指部件
执行指令K 分析指令K 取指令K T1 0 取指令K+1 T2 T3 T4 分析指令K+1
执行指令K+1
T5
T6
指令串行执行空间图
如果取指令、分析指令和执行指令的3段时间都相等，每段时间都等于t ，则执行n条指令的时间为： T=3nt
二、流水线分类按并行等级技术分类，可以将流水线分为指令流水线、算术流水线和处理器流水线3种。 1 、指令流水线指令流的处理过程可分为取值、分析指令（译码）、取操作数、执行几个过程段，将这几个过程段并行处理的流水线称为指令流水线。目前，几乎所有的高性能控制器都采用指令流水线。
输入
取指令
输入功能处理器1 任务1 存储器处理器2 任务2 处理器流水线原理图存储器处理器n 任务n 存储器
三、流水线中的相关问题所谓相关，是指在一段程序的相近指令之间存在某种关系，这种关系影响指令的并行执行。通常把相关问题分为两大类：一类是数据相关，另一类是控制相关。
1、数据相关
输入高速缓冲器高速缓冲器高速缓冲器高速缓冲器高速缓冲器输出
S1
S2
Sm
流水线控制器的基本结构
为了充分发挥流水线的作用，流水线中的功能部件和任务必须满足以下条件：（1）在流水线中处理的任务必须是连续的，只有连续不断的任务才能充分发挥流水线的效率。（2）把一个任务（一条指令或一个操作）分解为几个有联系的子任务，每个子任务由一个独立的功能部件来完成。（3）在流水线中的每一个功能部件的后面都要有一个高速缓冲器用于保存本段的执行结果。（4）流水线中各段的执行时间应尽可能相等，否则将会引起“堵塞”或“断流”现象。（5）流水线需要有“装入时间”和“排空时间”。只有流水线完全充满时，整个流水线的效率才能得到充分发挥。
为了克服串行执行指令的缺点，提高指令的执行速度和控制器各部件和利用率，指令的执行过程可以采用类似于工厂中的流水线装配形式，使指令的3个执行阶段在控制器各部件实现流水作业，控制器各部件总处于“忙” 状态。
空间指令执行部件指令分析部件取指部件 0 执行指令K 分析指令K 取指令K T1 取指令K+1 取指令K+2 T2 指令流水线执行时空图 T3 执行指令K+1 执行指令K+2 取指令K+3 T4 取指令K+4 T5
在这种情况下，实际上不需要分析周期，在一个节拍就可以完成从通用寄存器中通过两个多路选择分别读两个操作数到运算器，操作数在运算器中完成运算，并把结果再写到通用寄存器中。
通用寄存器
多路选择器
多路选择器
运算器
一种典型的运算器结构
如果构成通用寄存器的不是D触发器，或者是在通用寄存器到运算器之间设置有缓冲寄存器或锁存器，则可能发生通用寄存器数据相关。在这种情况下，为了保证送入通用寄存器的数据是正确的，可以将“分析指令k+1”推后一个周期到“执行指令k”完成之后再开始，实际上是分析指令和执行指令串行进行。
采用串行执行指令的方式的优点是控制简单，节省硬件。缺点是： ①执行指令的速度慢。只有当上一条指令执行完毕后，才能开始下一条指令的执行，即在任何时刻，控制器中只有一条指令在执行。 ②功能部件利用率低。例如，在取指令时，取指部件是“忙”的，而指令分析部件和执行部件是“空闲”的。因此，串行执行指令并不能充分发挥控制器内各独立功能部件的作用。
分析指令K 执行指令K 求取指令K+1 分析指令K+1 执行指令K+1 “读主存A1单元”请求存控排队器先响应写主存请求 T
主存操作数相关及其处理方法
3)通用寄存器数据相关在寄存器—寄存器型（RR型）指令和寄存器—存储器型（RS型）指令的执行过程中，就可能发生通用寄存器数据相关。发生通用寄存器数据相关的情况与寄存器本身的结构和所采用的控制时序也有关系。如果通用寄存器是用D触发器构成，而且在通用寄存器到运算器之间建有直接数据通路，而不设置缓冲寄存器或锁存器，则不会发生通用寄存器数据相关。D触发器允许在同一节拍中实现寄存器之间的循环传送。
（3）动态转移预测技术。所谓动态预测技术是指控制器能够根据程序的执行过程动态地改变转移的预测方向，根据近期转移是否成功的历史记录来预测下一次的转移目标。（4）提前形成条件码。对于一般的条件转移指令，转移条件码是由上一条运算型指令产生的。对于大多数情况，不必等运算完成之后，而在运算实际开始之前或在运算中间就能产生条件码，这样，转移的目标就已确定了，从而可确保预取指令的正确性。对于循环控制指令，可能通过编译器将一般的循环控制指令转变为专门的循环控制指令，并设置一个专门的条件码寄存器，把产生条件码的运算型指令和使用这个条件码的条件转移指令分离开，只要循环体长度不是很短，循环体中所有指令再加上两条循环控制指令就可以充满流水线，流水线就不会有 “断流”的情况发生，因些流水线的效率就不受影响。
2 、控制在流水线中，控制相关对流水线的吞吐率和效率的影响比数据相关要大得多，而且条件转移指令在一般程序中所占的比例相当大。中断虽然在程序中所占的比例不大，但是中断发生在程序中的哪一条指令，发生在一条指令执行过程中的哪一个功能段都是不确定的，因此处理好条件转移和中断引起的控制相关很重要。其中的关键问题有两个：一是要确保流水线能正常工作，二是减少因“断流”引起的吞吐率和效率的下降。
第四节：第四节：流水线处理器
一、流水线原理一条指令的执行可以分为取值、分析和执行3个阶段，这3个阶段的执行分别由控制器内部的取值部件、指令分析部件和指令执行部件3个独立的功能部件完成。在传统的控制器中，这3个阶段在时间上是分时进行的，即指令的3个阶段在时间上是顺序执行的，指令的这种执行方式又称为串行执行。
对于条件转移指令，一般情况下都要在指令执行到流水线的最后功能段时，转移条件才能建立，因此在条件转移指令进入流水线后，到形成转移条件前，后续指令不能进入流水线。很显然，这会使流水线的吞吐率和效率严重下降。从相关的角度来看，条件转移指令或断点指令与后续指令存在着一种相关，使它们不能同时进入流水线中执行。这种相关是一种控制上的相关，因此被称为控制相关或全局相关。
2)主存操作数相关当当前指令的执行结果要写到主存，下一条指令的操作数也取自主存，并且这两个主存单元地址相同时，就发生了主存操作数相关。解决主存操作数相关一般采用推后处理法。处理方法如图所示。第k条指令的“结果写主存A1单元”发生在一个时钟周期接近末尾处，而第k+1条指令的
“读主存A1单元”请求出现在同一周期的开始位置。在设置有存储控制器的处理器中，只要把写结果的优先级安排得高于读操作数的优先级。由于存储控制器访问请求是定时进行的，它在一个时钟周期的最末尾处对这一周期的所有访问源进行排队。在一般处理器中，对访问主存的请求，排队的优先级从高到低分别为输入输出请求、写结果、读操作数和取指令。 “结果写主存A1单元”请 “ A1

计算机组成_ 流水线处理器(Pipelined Processor)_

页数:36
Verilog实现流水线CPU实验报告

页数:39
流水线MIPS CPU的设计—张玲松

页数:56
《流水线CPU技术》PPT课件

页数:1
计算机组成原理第五章第6讲流水CPU

页数:23
流水线处理器冲突问题

页数:13
流水线CPU技术讲解

页数:85
第7章流水线结构RISC CPU设计

页数:59
CPU流水线

页数:9
华科组成原理课程设计-MIPS流水线CPU

页数:22

流水线处理器

合集下载

Intel系列CPU流水线技术的发展与展望

第8章中央处理器-流水线CPU

计算机组成_ 流水线处理器(Pipelined Processor)_

中央处理器CPU——指令流水线

浅析处理器流水线冒险原因和解决方案

MIPS指令五级流水CPU设计剖析

处理器系列之CPU流水线科普

超标量处理机和超流水线处理机——计算机系统结构

分析流水线处理器的中断和异常响应机制

数字系统设计-流水线CPU设计

文档推荐

最新文档

流水线处理器

合集下载

Intel系列CPU流水线技术的发展与展望

第8章 中央处理器-流水线CPU

计算机组成_ 流水线处理器(Pipelined Processor)_

中央处理器CPU——指令流水线

浅析处理器流水线冒险原因和解决方案

MIPS指令五级流水CPU设计剖析

处理器系列之CPU流水线科普

超标量处理机和超流水线处理机——计算机系统结构

分析流水线处理器的中断和异常响应机制

数字系统设计-流水线CPU设计

文档推荐

最新文档

第8章中央处理器-流水线CPU