循环展开等

格式：ppt
大小：618.50 KB
文档页数：90

下载文档原格式

/ 90

强者恒强：x86高性能编程笺注之循环(下)

强者恒强：x86高性能编程笺注之循环(下)读者须知：《强者恒强：x86高性能编程笺注》是云杉网络推出的系列技术分享，该系列文章将分享x86高性能开发方面的实践和思考。

主要内容目录如下，欢迎各位业界同仁与我们讨论交流相关话题。

●什么是性能●流水线●分支●循环●缓存●预取●大页●锁●RCU●无锁●SIMD指令Loop Unrolling循环展开是一种应用最多，流传最广泛的循环性能优化技巧。

优化方式也很好理解，将多次循环的处理内容铺延到一次循环中处理，减少对迭代器值的判断和分支选择，就是循环展开。

循环展开之后可以成倍减少循环的overhead，让CPU资源能更专注于循环体的处理工作，推荐在循环体指令较少的时候操作——教科书上一般都是这么说的。

理论其实都没错，但我们在这里侧重一下实践。

用perf等工具去实际探究一下性能热点究竟产生在哪里，以及优化之后的效果。

虽然如今硬件和软件的发展速度已经开始让一些“奇技淫巧”加速过时，但我们在乎的也只是那一点点同时摆在时间和硅基处理器面前的禁脔而已。

使用-O0选项编译如下循环：loop 1:for (i = 0; i < 100000000; i++) {sum += array[i];}在我的机器上用perf stat观察一下大体情况，可以得到如下结果：SideNotes: perf stat可以添加repeat [N]参数指定重复执行次数，显示平均结果，添加-d显示更详细结果。

Performance counter stats for './loop10':348.773618 task-clock # 0.999 CPUs utilized5 context-switches # 0.014 K/sec0 cpu-migrations # 0.000 K/sec1,203 page-faults # 0.003 M/sec796,895,241 cycles # 2.285 GHz [83.37%]495,310,308 stalled-cycles-frontend # 62.16% frontendcycles idle [83.37%]44,325,164 stalled-cycles-backend # 5.56% backend cyclesidle [66.74%] 802,774,532 instructions # 1.01 insns per cycle# 0.62 stalled cycles per insn [83.37%]100,538,550 branches # 288.263 M/sec [83.37%]2,014 branch-misses # 0.00% of all branches [83.18%]0.349124017 seconds time elapsed在正常的终端显示里，perf很贴心地把62.16%的front-end stalledcycles 标成了难以抗拒的斩男色。

shader编译

shader编译摘要：1.编译简介2.编译过程3.编译原理4.编译工具5.编译优化6.总结正文：【编译简介】Shader 编译，是指将Shader 语言源代码转换为计算机可以执行的机器代码的过程。

Shader 语言是一种用于编写计算机图形学和图像处理的编程语言。

通过编译，源代码可以被转换为GPU 可执行的指令，从而实现图形渲染和图像处理等功能。

【编译过程】Shader 编译过程主要包括以下几个步骤：1.预处理：预处理器负责处理Shader 源代码中的预处理指令，例如宏定义、条件编译等。

2.词法分析：词法分析器将源代码中的字符序列转换为记号（token）序列。

记号是源代码中具有独立意义的最小单位，例如变量名、运算符、关键字等。

3.语法分析：语法分析器将记号序列转换为抽象语法树（AST）。

抽象语法树是源代码的层次结构表示，它包含了源代码的语法信息。

4.语义分析：语义分析器对抽象语法树进行语义分析，例如类型检查、变量声明和引用检查等。

5.中间代码生成：中间代码生成器将语义分析后的抽象语法树转换为中间代码。

中间代码是一种介于源代码和目标代码之间的表示形式，通常包括操作符、操作数和一些控制结构。

6.代码优化：代码优化器对中间代码进行优化，以提高代码的执行效率。

优化手段包括常量折叠、死代码消除、循环展开等。

7.目标代码生成：目标代码生成器将优化后的中间代码转换为目标平台所需的机器代码。

目标平台可以是CPU、GPU 等。

【编译原理】Shader 编译原理主要涉及编译器如何将高级编程语言（如Shader 语言）转换为低级机器代码。

编译原理关注的核心问题包括语法定义、语义定义、中间代码表示、代码优化等。

编译原理的目标是设计出高效、可靠的编译器。

【编译工具】常见的Shader 编译工具包括：1.glslangValidator：OpenGL Shading Language（GLSL）的验证和编译器。

2.HLSL Compiler：High-Level Shading Language（HLSL）的编译器，主要用于DirectX 中的图形渲染。

if多重嵌套计算

if多重嵌套计算（原创实用版）目录1.多重嵌套计算的概述2.多重嵌套计算的解决方案3.多重嵌套计算的实际应用正文一、多重嵌套计算的概述多重嵌套计算是指在编程或者数学计算过程中，出现多个循环或者条件语句嵌套的情况。

这种情况下，计算的复杂度会增加，导致计算过程变得繁琐，容易出现错误。

多重嵌套计算在各种编程语言和领域中都有广泛的应用，如在计算机图形学、数值计算、人工智能等领域。

二、多重嵌套计算的解决方案针对多重嵌套计算的问题，我们可以采用以下几种方法来简化计算过程：1.使用递归：递归是一种将复杂问题分解为简单问题的方法，通过将问题拆解为更小的子问题，可以降低计算的复杂度。

在多重嵌套计算中，我们可以尝试将部分计算过程用递归函数来实现，从而简化代码结构。

2.使用循环展开：循环展开是指将嵌套循环展开为一系列简单的循环，从而降低计算的复杂度。

这种方法适用于嵌套循环的计算过程，通过将嵌套循环展开，可以减少循环的层数，使计算过程更加直观。

3.使用矩阵计算：在多重嵌套计算中，有时会出现大量的矩阵运算。

针对这种情况，我们可以使用矩阵计算的方法来简化计算过程。

矩阵计算能够高效地处理大量矩阵运算，从而提高计算效率。

4.使用并行计算：在多重嵌套计算中，我们可以利用并行计算来提高计算效率。

通过将部分计算任务分配给多个处理器或者计算节点，可以有效地缩短计算时间。

三、多重嵌套计算的实际应用多重嵌套计算在实际应用中有很多例子，下面我们以计算机图形学中的光线追踪为例，介绍多重嵌套计算的应用。

在光线追踪中，我们需要计算光线与物体表面的交点，以确定光线在场景中的传播效果。

为了提高渲染效果，我们需要考虑物体表面的粗糙程度、光线的传播方向等多种因素。

在计算过程中，需要对物体表面进行多次采样，以获得更精确的结果。

这个过程中，就会涉及到多重嵌套计算。

针对这种情况，我们可以采用递归、循环展开等方法来简化计算过程，提高计算效率。

在实际应用中，多重嵌套计算的优化对于提高渲染效果、降低计算成本具有重要意义。

计算机系统结构习题课(2012)-万继光

• 计算机系统有三个部件可以改进，这三个部件的加速比如下：部件加速比1＝30；部件加速比2＝20；部件加速比3＝10； • (1) 如果部件1和部件2的可改进比例为30％，那么当部件3的可改进比例为多少时，系统的加速比才可以达到10？ • (2) 如果三个部件的可改进比例为30％、30％和20％，三个部件同时改进，那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少？
M W B S S S S S S E X M W B S S S E X I D I F M W B E X I D I F M W B S S S S E X I D I F M W B S S S E M W X B S S S I F
CPU时间 = IC ×CPI×时钟周期时间 n = （CPIi×ICi）×时钟周期时间
i=1
n （CPIi×ICi） n ICi 时钟周期数 i=1 CPI = = = （CPIi× IC ） IC IC i=1
f MIPS速率 CPI 10 6
▲ 2/101
习题1.7
对于一台400MHz计算机执行标准测试程序，程序中指令类型，执行数量和平均时钟周期数如下：
习题2.14
IEEE754
e N m rm
为便于软件的移植，浮点数的表示格式应该有统一标准（定义）。1985年IEEE提出了IEEE754标准。该标准规定基数为2，阶码E用移码表示，尾数M用原码表示，根据原码的规格化方法，最高数字位总是1，该标准将这个1缺省存储，使得尾数表示范围比实际存储的多一位。
采用定向技术消除数据相关
习题3.11（1）
1 LOOP: LW R1 0(R2) IF ADDI R1 R1 #1 SW 0(R2) R1 ADDI R2 R2 #4 SUB R4 R3 R2 BNZ R4 LOOP 2 ID IF 3 EX ID IF 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 1 1 1 1 5 6 7 8 9

北邮高级计算机系统结构实验二三四五

实验二指令流水线相关性分析·实验目的通过使用WINDLX模拟器，对程序中的三种相关现象进行观察，并对使用专用通路，增加运算部件等技术对性能的影响进行考察，加深对流水线和RISC 处理器的特点的理解。

·实验原理：指令流水线中主要有结构相关、数据相关、控制相关。

如何利用编译器优化技术减少代码大小(十)

如何利用编译器优化技术减少代码大小1. 引言在软件开发过程中，代码的大小对于软件性能和资源占用都有重要的影响。

大量冗余的代码不仅浪费存储空间，还增加了程序的加载和执行时间。

因此，利用编译器优化技术来减少代码的大小是非常重要的。

本文将探讨一些常见的编译器优化技术，以帮助开发人员提高代码效率。

2. 代码优化的基本原理代码优化的基本原理是通过消除冗余和不必要的指令，从而减少代码的大小。

常见的代码优化技术包括死代码消除、常数折叠、循环展开和函数内联等。

这些优化技术可以通过编译器的静态分析来实现。

编译器会根据程序的数据流和控制流信息进行分析，识别出可以优化的代码段，并进行相应的优化处理。

3. 死代码消除死代码消除是一种常见的代码优化技术，可以去除程序中从未被使用过的变量和语句，从而减少代码的大小。

编译器通过静态分析，确定哪些代码是死代码，然后将其删除。

这样一来，不仅减少了代码的大小，还提高了代码的可读性和可维护性。

4. 常数折叠常数折叠是利用编译器来计算表达式的结果，并将其替换为常数。

通过常数折叠，可以减少代码中的算术运算和函数调用，从而减少代码的大小。

编译器可以根据程序的静态特性和上下文信息，对代码进行常数折叠的优化。

5. 循环展开循环展开是一种将循环体内的代码复制多次，从而减少循环次数的优化技术。

通过减少循环的重复次数，可以降低代码的大小。

同时，循环展开还可以提高指令级并行度，进一步提高代码的执行效率。

6. 函数内联函数内联是将函数调用替换为函数体的一种优化技术。

通过减少函数调用的开销，可以大大减少代码的大小。

编译器会根据函数的复杂性和调用的频率来决定是否对函数进行内联优化。

7. 其他优化技术除了上述介绍的常见的优化技术外，还有一些其他的优化技术可以减少代码的大小。

例如：- 代码压缩：使用代码压缩工具可以将代码进行压缩，去除空格和注释，从而减小代码的体积。

- 数据压缩：将数据进行压缩，可以减少程序运行时所需的存储空间。

指令级并行中的循环展开和指令调度

限制的方法，第一，保持相关，避免发生冲突；第二，通过代码变换，消除相关。指令调度是一种用来避免冲突的方法，但它并不改变相关。由于相关的存在，必须保持程序的顺序，即由源程序确定的在串行方式下指令的执行顺序。然而，对于正确地执行程序来说，必须保持的关键属性是数据流和异常行为。１．实例当不执行指令调度时，程序的执行情况如下：
这里，把ＤＡＤＤＩＵ指令调度到Ｌ．Ｄ指令和ＡＤＤ．Ｄ指令之间的空转拍，把Ｓ．Ｄ指令放在分支指令的延迟槽中。经过这样的指令调度后，一个元素操作时间从１０个时钟周期减少到６个时钟周期，只有一个空转周期。参考文献：【１】李文龙，刘利．软件流水中的循环展开优化．北京航空航天大学学
Ｒ１。Ｒ１。＃，一８Ｐ４．ＰＯ．Ｆ２
１
２３
（空转）
ＢＮＥＲ１．Ｒ２，ＬＯＯＰ
４
５
Ｓ．Ｄ
Ｆ４，８（Ｒ１）
６
属性了。数据相关限制了开发指令级并行的程度，所以，我们需要找出克服这些
６
７
（空转）
ＢＮＥ
（空转）
１０
在用编译器对上述程序进行指令调度后，程序执行情况如下：指令流出时钟
Ｌｏｏｐ：Ｌ．Ｄ
ＤＡＤＤＩＵＡＤＤ．Ｄ
ＦＯ，０（Ｒ１）
报，２００４．
【２】连瑞琦，吴承勇．代码优化与指令调度的集成，计算机学报，２００１．

c语言矩阵乘法函数

c语言矩阵乘法函数C语言矩阵乘法函数矩阵乘法是线性代数中的一个重要概念，在计算机科学和工程领域也经常会用到。

C语言作为一种高效的编程语言，提供了丰富的数据类型和操作符，非常适合实现矩阵乘法函数。

本文将介绍如何使用C语言实现矩阵乘法函数，并对其进行详细的解析和优化。

1. 矩阵乘法的定义矩阵乘法是指两个矩阵相乘的运算。

给定两个矩阵A和B，如果A 的列数等于B的行数，则可以将A乘以B得到一个新的矩阵C。

C 的行数等于A的行数，列数等于B的列数。

矩阵乘法的定义如下：C[i][j] = sum(A[i][k] * B[k][j])，其中k的取值范围为0到A的列数-1。

2. C语言矩阵乘法函数的实现下面是一个简单的C语言矩阵乘法函数的实现：```cvoid matrix_multiply(int A[][N], int B[][M], int C[][M]){for(int i=0; i<N; i++){for(int j=0; j<M; j++){C[i][j] = 0;for(int k=0; k<L; k++){C[i][j] += A[i][k] * B[k][j];}}}}```在上述代码中，函数`matrix_multiply`接受三个参数：矩阵A、矩阵B和结果矩阵C。

其中，矩阵A的维度是N×L，矩阵B的维度是L×M，结果矩阵C的维度是N×M。

函数通过三层循环遍历A、B矩阵的元素，并根据矩阵乘法的定义计算出结果矩阵C的每个元素。

3. 矩阵乘法函数的优化上述的矩阵乘法函数实现了矩阵乘法的基本功能，但在实际应用中可能会遇到大规模的矩阵乘法运算，效率的提升是非常重要的。

下面介绍两种常见的矩阵乘法优化方法。

3.1. 矩阵转置优化矩阵转置优化是指将矩阵B进行转置，使得内存访问更加连续，从而提高缓存的命中率。

优化后的代码如下：```cvoid matrix_multiply(int A[][N], int B[][M], int C[][M]){int BT[M][L]; // 转置后的矩阵Bfor(int i=0; i<M; i++){for(int j=0; j<L; j++){BT[i][j] = B[j][i];}}for(int i=0; i<N; i++){for(int j=0; j<M; j++){C[i][j] = 0;for(int k=0; k<L; k++){C[i][j] += A[i][k] * BT[j][k];}}}}```在优化后的代码中，我们首先定义了一个转置后的矩阵BT，然后将矩阵B的元素按列复制到BT中。

循环展开优化原理

循环展开优化原理
循环展开优化原理
循环展开（Loop Unrolling）是一种用于改进程序性能的技术，它将循环拆分成多段分别运行，减少每次迭代的次数，从而提高程序的执行效率。

在循环展开优化中，循环体内的指令被“展开”指令集合形式，即拆分成一组相互独立的指令，每次执行一组指令替代每次执行循环体内一行指令（因此执行指令的次数变为原来的一半）。

循环展开优化有多种技术，主要有以下几种：
1. 循环无条件展开：该技术针对的是循环体没有分支转移、条件判断的情况，将循环体重复展开，减少每次循环执行的指令次数，从而提升程序执行效率。

2. 条件展开：该技术针对的是循环体有分支条件转移的情况，通过分析条件转移，将符合条件的分支前移，从而提升程序执行效率。

3. 分支缩减：该技术针对的是循环体有多个分支情况，根据条件并行展开分支，在确定某分支条件成立的情况下，其他分支不再执行，从而降低循环体指令执行次数，提升程序执行效率。

4. 内联：该技术通过将被调用函数的代码复制到调用函数中，让调用函数的指令直接执行，避免调用函数导致的保存状态及压栈等开销，提升程序执行效率。

综上，循环展开优化是一种有效的提高程序性能的技术，它可以通过减少指令执行次数、减少分支条件等操作提高程序的执行效率。

- 1 -。

应用局部性原理的技术

应用局部性原理的技术什么是局部性原理局部性原理是计算机科学中的一个重要概念。

它指的是在程序运行时，程序的某些部分将倾向于频繁使用，而其他部分则很少使用。

尽管程序可能会涉及大量的数据和指令，但真正被频繁访问和使用的数据和指令通常只是其中的一小部分。

通过充分利用和利用这种局部性原理，我们可以提高计算机程序的性能和效率。

缓存局部性的技术缓存是计算机系统中常见的存储设备，用于临时存储已访问过的数据和指令，以便在需要时能够快速检索。

缓存局部性是指在程序执行期间，程序的某些部分会频繁地访问缓存中的数据。

为了提高程序性能，我们可以采用以下技术来利用缓存局部性：1.局部变量优化：将常用的变量存储在局部变量中，可以减少对全局变量的访问，从而提高缓存命中率。

此外，对于循环中的迭代变量，也可以将其声明为局部变量，以便在每次迭代时都能够快速访问。

2.数据对齐：由于缓存一次可以读取多个字节的数据，如果数据没有正确对齐，可能会导致额外的缓存访问。

通过将数据对齐到缓存行的边界，可以最大程度地减少访问延迟。

3.空间局部性优化：在数组访问时，可以考虑合并多个连续的数组元素，以便将它们保存在缓存中的同一缓存行中。

这样可以减少缓存访问的次数，提高访问效率。

4.时间局部性优化：根据局部性原理，程序在执行过程中往往会多次访问同一块数据。

通过将最近使用的数据保留在缓存中，可以利用时间局部性，减少对主存的访问次数。

指令局部性的技术除了数据的局部性，程序的指令也存在局部性。

指令局部性是指在程序执行期间，程序执行的部分代码会被频繁地访问和执行。

为了提高程序性能，我们可以采用以下技术来利用指令局部性：1.指令预取：在程序执行期间，处理器可以根据程序的执行路径提前获取即将需要的指令。

这样可以减少指令缓存的访问延迟，并提高指令的访问速度。

2.指令缓存优化：指令缓存是存储已访问过的指令的高速缓存。

通过优化指令的排列和存储方式，可以提高指令的访问效率。

例如，指令的地址可以按照执行顺序进行排序，以提高连续执行的效率。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

注意Rj, Rk: No表示没准备好或已经读完, Yes表示准备好但没读
记分板例子
取自Patterson讲义延迟参数
浮点加：2个周期浮点乘：10个周期浮点除：40个周期
Scoreboard Example
Instruction status Instruction j k LD F6 34+ R2 LD F2 45+ R3 MULTD F0 F2 F4 SUBD F8 F6 F2 DIVD F10 F0 F6 ADDD F6 F8 F2 Functional unit status Time Name Integer Mult1 Mult2 Add Divide Register result status Issue Read Execution Write operandsomplete esult c R
Busy Op Yes Load No No No No
dest Fi F6
S1 Fj
S2 Fk R2
FU for j FU for k Fj? Qj Qk Rj
Fk? Rk Yes
Clock
2 FU
F0
F2
F4
F6 F8 F10
Integer
F12
...
F30
• Issue 2nd LD? 结构相关
Scoreboard Example Cycle 3
Instruction status Instruction j k LD F6 34+ R2 LD F2 45+ R3 MULTD F0 F2 F4 SUBD F8 F6 F2 DIVD F10 F0 F6 ADDD F6 F8 F2 Functional unit status Time Name Integer Mult1 Mult2 Add Divide Register result status Read Execution Write Issue operands complete Result 1 2 3
结构相关：资源冲突
通过增加资源解决结构相关
例外与流水线
把例外信息保存下来到WB阶段再处理
复习（3）
多功能部件及多拍操作
多功能部件
定点加、定点乘、浮点加、浮点乘、访存
多拍操作
不同功能部件延迟不一样，访存部件延迟不确定
结构相关
访存部件不流水、结果总线冲突
数据相关
WAW相关、RAW相关更突出，没有WAR相关
Busy No No No No No
Op
dest Fi
S1 Fj
S2 Fk
FU for j FU for k Fj? Qj Qk Rj
Fk? Rk
Clock
FU
F0
F2
F4
F6
F8
F10
F12
...
F30
Scoreboard Example Cycle 1
Instruction status Instruction j k LD F6 34+ R2 LD F2 45+ R3 MULTD F0 F2 F4 SUBD F8 F6 F2 DIVD F10 F0 F6 ADDD F6 F8 F2 Functional unit status Time Name Integer Mult1 Mult2 Add Divide Register result status Issue 1 Read Execution rite W operands complete Result
乱序执行
指令进入是有序的执行可以乱序，只要没有相关就可执行，多条指令同时执行结束可以乱序，也可以有序（主要是精确中断的需要），乱序结束会导致WAR相关（静态流水线中只有RAW和WAW相关）
与静态调度相比
有些相关编译无法检测、编译器更加简单、程序性能对机器依赖少
CDC6600的记分板技术
DIVD f0,f2,f4
动态调度
基本思想
把相关的解决尽量延迟到马上就会出错的时候前面指令的stall不影响后面指令继续前进
ADDD f10,f0,f8 SUBD f8,f8,f14
把译码分成两个阶段：发射和读操作数
发射：指令译码，检查结构相关读操作数：检查操作数是否准备好，准备好就读数，否则等待当一条指令在读操作数阶段等待时，后面指令的发射可以继续进行
功能部件状态
Busy: 忙位 OP: 操作码 Fi: 目标寄存器号 Fj, Fk: 源寄存器号 Qj, Qk: 当前把源寄存器Fj, Fk当作目标寄存器的功能部件号 Rj, Rk: 指示Fj, Fk是否可用以及是否已用
Detailed Scoreboard Pipeline Control
静态控制解决相关
在译码阶段，如果发现前面指令的目标寄存器号与当前指令的源或目标寄存器号相等，则停止发射结构相关通过反馈机制解决
动态流水线技术
指令级并行技术动态调度技术记分板循环展开技术名字依赖性与寄存器重命名 Tomasulo算法
指令级并行技术
影响RISC CPU性能的因素
Iron Rule: Run time=程序指令数*CPI Pipeline CPI=Ideal pipeline CPI + Structural stalls + RAW stalls + WAR stalls + WAW stalls + Control stalls
作用 Control stalls 循环展开 Ideal CPI and data stalls 编译相关性分析 Ideal CPI and data stalls 软件流水技术 RAW stalls 简单流水线 RAW stalls 记分板动态调度 WAR and WAW 寄存器重命名 Control stalls 动态转移预测 Ideal CPI 多发射 All data and control stalls 猜测执行 Memory Disambiguation RAW stall involving memory 技术
为了做到每拍一个结果，CDC6600有16个功能部件指令有序进入、乱序执行、乱序结束
不精确中断由于乱序结束引起WAR及WAW相关
把ID, EX, WB细分成四个流水级
Issue, read operand, execution, write back
记分板记录保存指令执行过程中的有关信息用以解决相关
WAW相关：发射时判断是否有前面指令写相同寄存器，有就阻塞 RAW相关：读数阶段判断所读的数是否前面指令的结果并未写回 WAR相关：写回时判断指令队列中是否有前面指令没读被写寄存器
记分板的流水级
发射(ID1)：译码并检查结构相关
如果指令所需的功能部件有空且当前指令与队列中已发射指令的目标寄存器不同，则把该指令发射到相应功能部件并在记分板中记录该指令，否则阻塞。
处理器指令级并行关键技术
指令流水线: 时间重叠多发射: 空间重复乱序执行（有序结束）: 充分利用资源
动态调度: 前面指令因相关而等待时，后面的可继续前进。寄存器重命名: 指令结果产生后不能立即修改寄存器（结束时改），因为该指令可能被取消（由于转移猜测错误或由于前面指令发生例外）。转移猜测: 在转移条件确定前，猜测某个分支取指并执行。平均6-7条指令中有一条转移指令，简单的猜测方法可以猜到90%左右。乱序执行可以提高性能1.5-2倍。
Busy Op Yes Load No No No No
dest Fi F6
S1 Fj
S2 Fk R2
FU for j FU for k Fj? Qj Qk Rj
Fk? Rk Yes
Clock
3 FU
F0
F2
F4
F6 F8 F10
Integer
F12
...
F30
•
Issue MULT? 既然前面有指令没发射,就难以判断相关关系
Issue
Not busy (FU) and not result(D)
Read operands Execution complete
Rj and Rk Functional unit done
Write result
f((Fj( f )≠Fi(FU) f(if Qj(f)=FU then Rj(f) Yes); or Rj( f )=No) & f(if Qk(f)=FU then Rj(f) Yes); (Fk( f ) ≠Fi(FU) or Result(Fi(FU)) 0; Busy(FU) No Rk( f )=No))
写回(WB)：指令结束
记分板得知运算结束后，检查是否存在WAR相关，若不存在， DIVD f0,f2,f4 则把结果写回到寄存器，否则阻塞。 ADDD f10,f0,f8
SUBD f8,f8,f14
记分板的组成部分
指令状态
指令队列中每条指令当前所属的状态
寄存器状态
记录每个寄存器的当前被哪个功能部件作为目标寄存器
Busy Yes No No No No
Op Load
dest Fi F6
S1 Fj
S2 Fk R2
FU for j FU for k Fj? Qj Qk Rj
Fk? Rk Yes
Clock
1 FU
F0
F2
F4
F6 F8 F10
Integer
F12mple Cycle 2
Instruction status Instruction j k LD F6 34+ R2 LD F2 45+ R3 MULTD F0 F2 F4 SUBD F8 F6 F2 DIVD F10 F0 F6 ADDD F6 F8 F2 Functional unit status Time Name Integer Mult1 Mult2 Add Divide Register result status Read Execution Write Issue operands complete Result 1 2