当前位置:文档之家› 计算机系统结构_第六章练习 答案

计算机系统结构_第六章练习 答案

计算机系统结构_第六章练习 答案
计算机系统结构_第六章练习 答案

第六章向量处理机

1.在大型数组的处理中常常包含向量计算,按照数组中各计算相继的次序,我们可以把向量处理方法分为哪三种类型?

横向处理方式,纵向处理方式,纵横处理方式

横向处理方式:向量计算是按行的方式从左至右横向的进行

纵向处理方式:向量计算是按列的方式自上而下纵向的进行

纵横处理方式:横向处理和纵向处理相结合的方式

2.解释下列与向量处理有关的术语。

(1)向量和标量的平衡点:为了使向量硬件设备和标量设备的利用率相等,一个程序中向量代码所占的百分比(2)用户代码的向量化比值:用户代码可向量化的部分占全部的比重

(3)向量化编译器或量化器:将标量运算进行向量化或者将向量运算进行适当的修改使之能够进入向量处理进行向量处理的编译器

AHA12GAGGAGAGGAFFFFAFAF

3.简要叙述提高向量处理机性能的常用技术

(1)链接技术

(2)向量循环或分段开采技术

(3)向量递归技术

(4)稀疏矩阵的处理技术

4.下述的几个需要解决的问题中,那个是向量处理机所最需要关心的?

A.计算机指令的优化技术

B.设计满足运算器带宽要求的存储器

C.如何提高存储器的利用率,增加存储器系统的容量

D.纵横处理方式的划分问题

5.假设系统在向量模式下面能够达到9Mflops,在标量模式下能够达到1Mflops速度,而代码的90%是向量运算,10%是标量运算,这样花在两种模式上的计算时间相等。那么向量平衡点是:

A.0.1

B.0.9 一个程序中向量代码所占的百分比

AHA12GAGGAGAGGAFFFFAFAF

C.0.5

D.以上都不是

6.查看下面三条指令:

V3←A

V2←V0+V1

V4←V2*V3

假设向量长度小于64,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间,假设向量的长度为N。三条指令全部采用串行的方法,那么执行的时间是:

A.3N+20

B.3N+21

C.3N+22

D.3N+23

7.下面一组向量操作能分成几个编队?假设每种流水功能部件只有一个。

LV V1,Rx ;取向量

MULTSV V2,F0,V1;向量和标量相乘

LV V3,Ry ;取向量Y

AHA12GAGGAGAGGAFFFFAFAF

ADDV V4,V2,V3;加法

SV Ry,V4;存结果

可以划分成四个编队:

(1)LV (2)MULTSV LV (3)ADDV (4)SV

8.在一台向量处理机上实现A=B×s操作,其中A和 B 是长度为200的向量,s是一个标量。向量寄存器长度为64。功能部件的启动开销为:取数和存数部件为12个时钟周期,乘法部件为7个时钟周期,加法部件为6个时钟周期。总的执行时间是?

A.784

B.783

C.785

D.780

9.简述三种向量处理方式,他们对向量处理机结构要求有什么不同。

解:水平处理方式:向量长度为N,则水平处理方式相当

AHA12GAGGAGAGGAFFFFAFAF

于执行N次循环。不适合对向量进行流水处理。(或者叫做横向处理方式)

垂直处理方式:将整个向量按相同的运算处理完毕之后,再去执行其他的运算,适合对向量进行流水处理,向量运算指令的源/目向量都放在存储器内,使得流水线运算部件的输入输出端直接与存储器相联,构成M-M型的运算流水线。

分组处理方式:把长度为N的向量分为若干组,每组按照纵向处理

10.解释下列与向量处理有关的术语。

(1)向量规约指令

(2)收集和散播指令

解:(1)将向量化转化为标量的指令

(2)收集指令可以把非连续存储单元的内容传送到向量寄存器组中若干个连续的寄存器;散播指令与此相反。他们用于稀疏矩阵的存储与运算,可以节省空间。

11. 查看下面三条指令:

AHA12GAGGAGAGGAFFFFAFAF

V3←A

V2←V0+V1

V4←V2*V3

假设向量长度小于64,且前后其他的指令均没有相关

性,数据进入和流出每个功能部件,包括访问存储器都需要

一拍的时间,假设向量的长度为N。三条指令采用链接的方

法,那么执行的时间是:

A.3N+22

B.2N+15

C.N+16

D.N+17

12.在一台向量处理机上实现A=B×s操作,其中A和 B

是长度为200的向量,s是一个标量。向量寄存器长度为64。

功能部件的启动开销为:取数和存数部件为12个时钟周期,

乘法部件为7个时钟周期,加法部件为6个时钟周期。那么

一个结果元素的平均执行时间(包括启动开销)为:

A.3.7

B.3.9

C.4.1

D.4.3

AHA12GAGGAGAGGAFFFFAFAF

13.某向量处理机有16个向量寄存器,其中V0-V5种分别存放有向量A,B,C,D,E,F,向量的长度是8,向量各元素均为浮点数;处理部件采用两个单功能流水线,加法功能部件时间为2拍,乘法功能部件时间为3拍。采用类似CRAY-1的链接技术,先计算(A+B)*C,在流水线不停的情况下,接着计算(D+E)*F。求此链接流水线的通过时间是多少拍?(设寄存器出入各需1拍)

AHA12GAGGAGAGGAFFFFAFAF

A.8

B.9

C.17

D.18

14.名词解释

向量流水处理机

解:处理机具有向量数据表示,并通过向量指令对向量

的各元素进行处理。

15.某向量处理机有16个向量寄存器,其中V0-V5种

分别存放有向量A,B,C,D,E,F,向量的长度是8,向量各元素

均为浮点数;处理部件采用两个单功能流水线,加法功能部

件时间为2拍,乘法功能部件时间为3拍。采用类似CRAY-1

的链接技术,先计算(A+B)*C,在流水线不停的情况下,接着

计算(D+E)*F。每拍时间是50ns,完成这些计算并且把结果存

进相应的寄存器,此处理部件实际吞吐率是多少MFLOPS?(设

寄存器出入各需1拍)

A.26.67

B.29.

C.24.6

D.25.83

16.一台单处理机可以以标量方式运行,也可以以向量

AHA12GAGGAGAGGAFFFFAFAF

方式运行。在向量方式情况下,计算可比标量方式快9倍。设某基准程序在此计算机上运行的时间是T。另外,已知T 的25%用于向量方式,其余机器时间则以标量方式运行。请计算在上述条件下与完全不用向量方式条件下相比的加速比,并计算上述程序中向量化代码所占的百分比。

加速比=(0.25T*9+0.75T*1)/T=3

由于T中向量化代码所占的时间为0.25T,则串行代码用时=T-0.25T=0.75T,所以完全不用向量方式执行该段代码用时= 0.75T+9*0.25T=3T, 因此加速比=3T/T=3.

根据Amdahl定律.

17.一台向量计算机一次只能以下述两种方式中的一种运行:一种是向量方式,执行速度

v

R为10Mflops;另一种是

标量方式,执行速度

s

R为1Mflops。设α是该计算机的典型程序代码中可以向量化部分的百分比。如果要使平均执行的速度达到7.5Mflops,那么向量化百分比应该多大?

1/[a/Rv+(1-a)/Rs]=7.5

AHA12GAGGAGAGGAFFFFAFAF

所以a=0.963

18.在CARY1机器上,设向量长度均为32,s是标量寄存器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入寄存器及启动功能部件(包括寄存器)各需要1拍。则下面的指令组完成所需要的拍数是:

V3←存储器打入1,启动1,读数6

V2←V0+V1

s0←s2+s3

V3←V1×V4

A.111

B.110

C.78

D.79

8+31+9+31

19.在CRAY-1机器上,链接方式执行下面4条向量指令(括号中给出相应功能部件的时间),如果向量寄存器和功能部件之间的数据传输需要1拍,试求此链接流水线的流过时间为多少拍?

AHA12GAGGAGAGGAFFFFAFAF

V0←存储器(存储器取数7拍)9

V1←V0+V1 (向量加3拍)5

V3←V2

V5←V3∧V4 (向量逻辑乘2拍)4

A.23

B.24

C.30

D.31

20. 一台单处理机可以以标量方式运行,也可以以向量方式运行。在向量方式情况下,计算可比标量方式快18倍。设某基准程序在此计算机上运行的时间是T。另外,已知T 的25%用于向量方式,其余机器时间则以标量方式运行。那么在上述条件下与完全不用向量方式的条件下相比的加速比是:

A.3

B.3.43

C.3.33

AHA12GAGGAGAGGAFFFFAFAF

D.以上均不正确

1/[0.75/18+0.25/1]

21.一台向量计算机一次只能以下述两种方式中的一种运行:一种是向量方式,执行速度

R为10Mflops;另一种是

v

标量方式,执行速度

R为1Mflops。设α是该计算机的典型

s

程序代码中可以向量化部分的百分比。求平均执行速度的计算公式。

1/[a/Rv+(1-a)/Rs]=10/(10-9a)

22.向量处理机有那两种最基本的结构?

存储器--存储器结构

寄存器--寄存器结构

23.研制高性能的向量处理机主要需要解决哪几个问题?

(1)较好的维持向量/标量性能平衡

(2)可扩展性随处理机数目的增加而提高

(3)增加存储器系统的容量和性能

(4)提供高性能的I/O和易访问的网络

AHA12GAGGAGAGGAFFFFAFAF

24.为了提高向量处理机的性能,会采用一些特殊的技术,下面那一项不是提高向量处理机性能而采用的技术?

A.链接技术

B.向量递归技术

C.cache缓存技术

D.稀疏矩阵的处理技术

25.在CARY1机器上,设向量长度均为32,s是标量寄存器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入寄存器及启动功能部件(包括寄存器)各需要1拍。则下面的指令组完成所需要的拍数是:

V0←存储器

V2←V0+V1

AHA12GAGGAGAGGAFFFFAFAF

V3←V2×V1

V5←V3×V4

26.若要进行向量运算D=A×(B+C),假设向量长度N<64,且B和 C已经存至V0和V1,则下面三条指令就可以完成上述的运算。

V3←A (6拍)

V2←V0+V1 (6拍)

V4←V2×V3 (7拍)

分别求三条指令全部用串行的方法和链接技术执行的时间(读写各需1拍)。

27.在某台向量处理机上执行DAXPY代码,即完成Y=a ×X+Y,其中X和Y是向量,最初存放在内存,a是一个标量,他们的向量指令如下:

LV V1,Rx ;取向量

MULTSV V2,F0,V1 ;标量和向量相乘

LV V2,Ry ;取向量Y

ADDV V4,V2,V3 ;相加

AHA12GAGGAGAGGAFFFFAFAF

SV Ry,V4 ;存结果

求总的执行时间。假设其中存取数需要12拍,乘法需

要7拍,加法需要6拍,向量长度是n。

28.假设某向量处理机上执行DAXPY代码所需要的时钟

周期是4n+64,其中n是向量长度,时钟频率是200MHz,那么

最大性能是多少?

A. 90MFLOPS

B. 80MFLOPS

C.50 MFLOPS

D. 100MFLOPS

29.假设某向量处理机上执行DAXPY代码所需要的时钟

周期是4n+64,其中n是向量长度,时钟频率是200MHz,那么

半性能向量长度是:

A.12.8

B.10.7

C.12

D.13

30.日本FOCOM向量处理机VP-200具有流水线链接和并

行化功能。它有2条存储流水线到向量寄存器,两者可以并

行工作。此外尚有加法和乘法流水线。各流水线间均可以链

AHA12GAGGAGAGGAFFFFAFAF

接操作。若现在要在Vp-200向量机上实现以下的向量操作:A(I)=B(I) ×C(I)+D(I) ×E(I)+F(I) ×G(I)

I=1,2,…,N。假定所有流水线的延迟时间都相等,取/存操作转换时将有t的流水线重构延迟时间。求完成操作所需要的时间。

AHA12GAGGAGAGGAFFFFAFAF

所以时间为:4N+t

31. 在CARY1机器上,设向量长度均为32,s是标量寄

存器,加法需要6拍,乘法需要7拍,从存储器读数需要6

拍,打入寄存器及启动功能部件(包括寄存器)各需要1拍。

则下面的指令组完成所需要的拍数是:

V3←存储器

V2←V0+V1

V4←V2×V3

存储器←V4

A.87

B.88

C.89

D.86

32.

n表示向量流水方式的工作速度优于标量串行方式

v

工作时间时所需要的向量长度的临界值。请问该参数主要衡

量那些标准?

衡量建立时间,也衡量标量向量的速度比对性能的影

响。

33.有关半性能向量长度,下面哪种说法正确?

AHA12GAGGAGAGGAFFFFAFAF

A.该值是最大性能的一半

B.该值越大说明向量计算机性能越好

C.该值是为达到一半最大性能所需要的向量长度

D.该值必须是整数,计算的时候应该向下取整

34.考虑一个如图所示的4级加法流水线,其中X和Y 为流水线输入线,Z为输出线。流水线输出端有一个寄存器R,他用来暂时存储中间结果并且在适当时刻反馈带S1。输入X和Y分别与输出R,Z经相应多路开关接到S1和2个输入端。假设向量A的所有元素以每个周期一个元素速率,通过输入端送入流水线。如果需要计算N个元素的向量累加和,则最少需要多少个时钟周期?约定无操作数输入,就认为是将1个0值送入,而且流水线的设置时间可以忽略不计。

Z

N+11

如图所示, 当进行完第4个周期, 开始第5个周期时,

AHA12GAGGAGAGGAFFFFAFAF

暂存在寄存器R中的A(1)将和Y输入端输入的A(5)相加, 其和放入S1, 当进入下一个周期, A(1)+A(5)进入S2, 而A(2)+A(6)放入S1, …… 依次递推。

当第N个周期完成时, S1中放的是A(1)+A(5)+A(9)+A(13)+…; S2中放的是A(2)+A(6)+A(10)+A(14)+…; S3中放的是A(3)+A(7)+A(11)+A(15)+…; S4中放的是A(4)+A(8)+A(12)+A(16)+…;

然后该计算这四段的总和, 不妨设这四段分别为Y1,Y2,Y3,Y4, 又经过4个周期, S1中做Y1+Y2, 再经过4个周期, S1中做(Y1+Y2)+(Y3+Y4), 然后还需要3个周期将最终结果由Z输出。

故最小时间为Nτ+4τ+4τ+3τ=(N+11)τ。即N+11个时钟周期。

35.下列那一项不是可扩展性的目标?

A.延时可扩展性

AHA12GAGGAGAGGAFFFFAFAF

B.规模可扩展性

C.换代可扩展性

D.问题可扩展性

36. 查看下面三条指令:

V3←A

V2←V0+V1

V4←V2*V3

假设向量长度是32,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间。三条指令采用链接的方法,那么执行的时间是多少?

A.46

B.47

C.48

D.49

8+9+31

37.一台机器向量处理速度是标量的10倍。如果想将一

AHA12GAGGAGAGGAFFFFAFAF

计算机体系结构实验报告二

实验二结构相关 一、实验目得: 通过本实验,加深对结构相关得理解,了解结构相关对CPU性能得影响。 二、实验内容: 1、用WinDLX模拟器运行程序structure_d、s 。 2、通过模拟,找出存在结构相关得指令对以及导致结构相关得部件。 3、记录由结构相关引起得暂停时钟周期数,计算暂停时钟周期数占总执行 周期数得百分比。 4、论述结构相关对CPU性能得影响,讨论解决结构相关得方法。 三、实验程序structure_d、s LHI R2, (A>>16)&0xFFFF 数据相关 ADDUI R2, R2, A&0xFFFF LHI R3, (B>>16)&0xFFFF ADDUI R3, R3, B&0xFFFF ADDU R4, R0, R3 loop: LD F0, 0(R2) LD F4, 0(R3) ADDD F0, F0, F4 ;浮点运算,两个周期,结构相关 ADDD F2, F0, F2 ; < A stall is found (an example of how to answer your questions) ADDI R2, R2, #8 ADDI R3, R3, #8 SUB R5, R4, R2 BNEZ R5, loop ;条件跳转 TRAP #0 ;; Exit < this is a ment !! A: 、double 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 B: 、double 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 四、实验过程 打开软件,load structure_d、s文件,进行单步运行。经过分析,此程序一 次循环中共有五次结构相关。(Rstall 数据相关Stall 结构相关) 1)第一个结构相关:addd f2,,f0,f2 由于前面得数据相关,导致上一条指令addd f0,f0,f4暂停在ID阶段,所以下一条指令addd f2,,f0,f2发生结构相关,导致相关得部件:译码部件。

北邮高级计算机系统结构实验二三四五

实验二指令流水线相关性分析 ·实验目的 通过使用WINDLX模拟器,对程序中的三种相关现象进行观察,并对使用专用通路,增加运算部件等技术对性能的影响进行考察,加深对流水线和RISC处理器的特点的理解。 ·实验原理: 指令流水线中主要有结构相关、数据相关、控制相关。相关影响流水线性能。·实验步骤 一.使用WinDLX模拟器,对做如下分析: (1)观察程序中出现的数据/控制/结构相关。指出程序中出现上述现象的指令组合。 (2)考察增加浮点运算部件对性能的影响。 (3)考察增加forward部件对性能的影响。 (4)观察转移指令在转移成功和转移不成功时候的流水线开销。 ·实验过程 一.使用WinDLX模拟器,对做如下分析: } 浮点加、乘、除部件都设置为1,浮点数运算部件的延时都设置为4,如图1: 图1 初始设置 将和加载至WinDLX中,如图2示。

图2 加载程序 1.观察程序中出现的数据/控制/结构相关;指出程序中出现上述现象的指令组合。 1)数据相关 点击F7,使程序单步执行,当出现R-Stall时停止,运行过程中出现下图3所示,输入整数6。 图3 输入整数6 @ 打开Clock Diagram,可以清楚的看到指令执行的流水线如图4所示。 图4 指令流水线 双击第一次出现R-Stall的指令行,如图5所示。

图5 指令详细信息 对以上出现的情况分析如下: 程序发生了数据相关,R-Stall(R-暂停)表示引起暂停的原因是RAW。 lbu r3,0×0(r2) 要在WB周期写回r3中的数据;而下一条指令 & seqi r5,r3,0×a 要在intEX周期中读取r3中的数据。 上述过程发生了WR冲突,即写读相关。为了避免此类冲突, seq r5,r4,0×a的intEX指令延迟了一个周期进行。 由此,相关指令为: 2)控制相关 由图6可以看出,在第4时钟周期:第一条指令处于MEM段,第二条命令处于intEX段,第三条指令出于aborted状态,第四条命令处于IF段。 图 6 指令流水线 }

计算机系统结构三四章作业及答案

3.1 简述流水线技术的特点。(1) 流水线把一个处理过程分解为若干个子过程,每个子过程由一个专门的功能部件来实现。因此,流水线实际上是把一个大的处理功能部件分解为多个独立的功能部件,并依靠它们的并行工作来提高吞吐率。(2) 流水线中各段的时间应尽可能相等,否则将引起流水线堵塞和断流。(3) 流水线每一个功能部件的前面都要有一个缓冲寄存器,称为流水寄存器。(4) 流水技术适合于大量重复的时序过程,只有在输入端不断地提供任务,才能充分发挥流水线的效率。(5) 流水线需要有通过时间和排空时间。在这两个时间段中,流水线都不是满负荷工作。 3.2 解决流水线瓶颈问题有哪两种常用方法?答:细分瓶颈段与重复设置瓶颈段 3.3 有一条指令流水线如下所示: (1 用两给出条指 (1) (24? 变八级流水线(细分) ? 重复设置部件 )(ns 85 1 T n TP 1pipeline -== 3.4 有一个流水线由4段组成,其中每当流过第三段时,总要在该段循环一次,然后才能流到第4段。如果每段经过一次所需的时间都是△t ,问: (1)当在流水线的输入端连续地每△t 时间输入一个任务时,该流水线会发生什么情况? (2)此流水线的最大吞吐率为多少?如果每2△t 输入一个任务,连续处理10个任务时,其实际吞吐率和效率是多少? (3)当每段时间不变时,如何提高流水线的吞吐率?人连续处理10个任务时,其吞吐率提高多少? 解:(1)会发生流水线阻塞情况。

(2) (3)重复设置部件 吞吐率提高倍数= t t ??2310 75 =1.64 3.5 有一条动态多功能流水线由5段组成,加法用1、3、4、5段,乘法用1、2、5段,第2段的时间为2△t ,其余各段的时间均为△t ,而且流水线的输出可以直接返回输入端或暂存于相应的流水线寄存器中。现在该流水线上计算 ∏=+4 1 )(i i i B A ,画出时空图,并计算其吞吐率、加速比和效率。 +B 4;再计算由图可见,它在18个△t 时间中,给出了7个结果。所以吞吐率为: 如果不用流水线,由于一次求积需3△t ,一次求和需5△t ,则产生上述7个结果共需(4×5+3×3)△t =29△t 。所以加速比为: 该流水线的效率可由阴影区的面积和5个段总时空区的面积的比值求得: 3.6 在一个5段流水线处理机上,各段执行时间均为△t,需经9△t 才能完成一个任务,其预约表如下所示。 段23 时间 入 A 1 B 1 A 2 B 2 A 3 B 3 A 4 B 4 A B C D A × B C ×D

计算机系统结构网上作业

计算机系统结构作业参考答案 一、 1、试述现代计算机系统的多级层次结构。 计算机系统具有层次性,它由多级层次结构组成。从功能上计算机系统可分为五个层次级别:第一级是设计级。这是一个硬件级,它由机器硬件直接执行。 第二级是一般机器级,也称为机器语言级。它由微程序解释系统.这一级是硬件级。 第三级是操作系统级,它由操作系统程序实现。这些操作系统由机器指令和广义指令组成,这些广义指令是操作系统定义和解释的软件指令。这一级也称混合级。 第四级是汇编语言级。它给程序人员提供一种符号形式的语言,以减少程序编写的复杂性。这一级由汇编程序支持执行。 第五级是高级语言级。这是面向用户为编写应用程序而设置的。这一级由各种高级语言支持。 2、试述RISC设计的基本原则和采用的技术。 答:一般原则: (1)确定指令系统时,只选择使用频度很高的指令及少量有效支持操作系统,高级语言及其它功能 的指令,大大减少指令条数,一般使之不超过100条; (2)减少寻址方式种类,一般不超过两种; (3)让所有指令在一个机器周期内完成; (4)扩大通用寄存器个数,一般不少于32个,尽量减少访存次数; (5)大多数指令用硬联实现,少数用微程序实现; (6)优化编译程序,简单有效地支持高级语言实现。

基本技术: (1)按RISC一般原则设计,即确定指令系统时,选最常用基本指令,附以少数对操作系统等支持最有用的指令,使指令精简。编码规整,寻址方式种类减少到1、2种。 (2)逻辑实现用硬联和微程序相结合。即大多数简单指令用硬联方式实现,功能复杂的指令用微程序实现。 (3)用重叠寄存器窗口。即:为了减少访存,减化寻址方式和指令格式,简有效地支持高级语言中的过程调用,在RISC机器中设有大量寄存嚣,井让各过程的寄存器窗口部分重叠。 (4)用流水和延迟转移实现指令,即可让本条指令执行与下条指令预取在时间上重叠。另外,将转移指令与其前面的一条指令对换位置,让成功转移总是在紧跟的指令执行之后发生,使预取指令不作废,节省一个机器周期。 (5)优化设计编译系统。即尽力优化寄存器分配,减少访存次数。不仅要利用常规手段优化编译,还可调整指令执行顺序,以尽量减少机器周期等。 3、试述全相联映像与直接映像的含义及区别 (1)全相连映像 主存中任何一个块均可以映像装入到Cache中的任何一个块的位置上。主存地址分为块号和块内地址两部分,Cache地址也分为块号和块内地址。Cache的块内地址部分直接取自主存地址的块内地址段。主存块号和Cache块号不相同,Cache块号根据主存块号从块表中查找。Cache保存的各数据块互不相关,Cache必须对每个块和块自身的地址加以存储。当请求数据时,Cache控制器要把请求地址同所有的地址加以比较,进行确认。 (2)直接映像 把主存分成若干区,每区与Cache大小相同。区内分块,主存每个区中块的大小和Cache 中块的大小相等,主存中每个区包含的块的个数与Cache中块的个数相等。任意一个主存块只能映像到Cache中唯一指定的块中,即相同块号的位置。主存地址分为三部分:区号、块号和块内地址,Cache地址分为:块号和块内地址。直接映像方式下,数据块只能映像到Cache中唯一指定的位置,故不存在替换算法的问题。它不同于全相连Cache,地址仅需比较一次。 (3)区别: 全相连映像比较灵活,块冲突率低,只有在Cache中的块全部装满后才会出现冲突,Cache 利用率高。但地址变换机构复杂,地址变换速度慢,成本高。 直接映像的地址变换简单、速度快,可直接由主存地址提取出Cache地址。但不灵活,块冲突率较高,Cache空间得不到充分利用。 4. 画出冯?诺依曼机的结构组成?

计算机系统结构课后答案

1、数据结构和机器的数据表示之间是什么关系?确定和引入数据表示的基本原则是什么? 答:数据表示是能由硬件直接识别和引用的数据类型。数据结构反映各种数据元素或信息单元之间的结构关系。数据结构要通过软件映象变换成机器所具有的各种数据表示实现,所以数据表示是数据结构的组成元素。不同的数据表示可为数据结构的实现提供不同的支持,表现在实现效率和方便性不同。数据表示和数据结构是软件、硬件的交界面。 除基本数据表示不可少外,高级数据表示的引入遵循以下原则:(1)看系统的效率有否提高,是否养活了实现时间和存储空间。(2)看引入这种数据表示后,其通用性和利用率是否高。 2、标志符数据表示与描述符数据表示有何区别?描述符数据表示与向量数据表示对向量数据结构所提供的支持有什么不同? 答:标志符数据表示指将数据类型与数据本身直接联系在一起,让机器中每个数所都带类型樗位。其优点是:(1)简化了指令系统和程序设计;(2)简化了编译程序;(3)便于实现一致性校验;(4)能由硬件自动变换数据类型;(5)支持数据库系统的实现与数据类型无关;(6)为软件调试和应用软件开发提供支持。缺点是:(1)会增加程序所点的主存空间;(2)在微观上对机器的性能(运算速度)不利。 数据描述符指数据的描述与数据分开存放,描述所访问的数据是整块还是单个的,及访问该数据块或数据元素的地址住处它具备标志符数据表示的优点,并减少了标志符数据表示所占的空间,为向量和数组结构的实现提供支持。 数据描述符方法优于标志符数据表示,数据的描述与数据分开,描述所访问的数据是整块还是单个的,及访问该数据块或数据元素的地址信息,减少了樗符数据表示所占的窨。用描述符方法实现阵列数据的索引比用变址方法实现要方便,且便于检查出程序中的阵列越界错误。但它不能解决向量和数组的高速运算问题。而在有向量、数组数据表示的向量处理机上,硬件上设置有丰富的赂量或阵列运算指令,配有流水或阵列方式处理的高速运算器,不仅能快速形成向量、数组的元素地址,更重要的是便于实现把向量各元素成块预取到中央处理机,用一条向量、数组指令流水或同时对整个向量、数组高速处理.如让硬件越界判断与元素运算并行。这些比起用与向量、阵列无关的机器语言和数据表示串行实现要高效的多。 3、堆栈型机器与通用寄存器型机器的主要区别是什么?堆栈型机器系统结构为程序调用的哪些操作提供了支持? 答:有堆栈数据表示的机器称为堆栈机器。它与一般通用寄存器型机器不同。通用寄存器型

华科专升本计算机系统结构-作业全

第一章作业 简答题 1、简述什么是计算机系统结构。 2、答:计算机系统结构是程序员所看到的计算机属性,即概念性结构与功能性结构。 3、 4、计算机系统的层次从下到上包括哪些? 5、答:计算机系统的层次从上到下包括微程序机器级、机器语言、操作系统虚拟机、汇编 语言虚拟机、高级语言虚拟机、应用语言虚拟机。 6、 7、Flynn分类法是以什么对计算机系统进行分类分成哪几类? 8、答:Flynn分类法是以指令流和数据流的多倍性对计算机系统进行分类。Flynn分类法 把计算机系统的结构分为以下4类:单指令流单数据流、单指令多数据流、多指令流单数据流、多指令流多数据流。 9、 10、简述Amdahl定律及加速比计算公式。 答:Amdahl定律指出加快某部件执行速度所能获取得系统性加速比,受限于该部件的执行时间占系统中总执行时间的百分比。 加速比计算公式=系统性能(改进后)/系统性能(改进前)=总执行时间(改进前)/总执行时间(改进后) 计算题 5、如果某一些计算任务用向量方式求解比用标量方式求解快20倍。为达到加速比2,可用向量方式求解所花费时间占总的时间的百分比为多少 解:由题可知,系统加速比=2,部件加速比=20,通过向量方式求解可改进比例未知,可设为X。 根据Amdahl定律可知 系统加速比=1/[(1-X)+X/20]=2 求解得X=10/19 由此可得,可用向量方式求解所花费时间占总的时间的百分比魏53% 第二章作业 1、简述指令集结构设计的基本原则。 完整性、规整性、高效性和兼容性 2、简述RISC结构的设计原则。 1)选取使用频率最高的指令,并补充一些最有用的指令; 2)每条指令的功能应尽可能简单,并在一个机器周期内完成; 3)所有指令长度均相同; 4)只有Load和Store操作指令才访问存储器,其它指令操作均在寄存器之间进行; 5)以简单有效的方式支持高级语言。 3

(完整版)计算机系统结构试题及答案

计算机系统结构复习题 单选及填空: 计算机系统设计的主要方法 1、由上往下的设计(top-down) 2、由下往上的设计(bottom-up) 3、从中间开始(middle-out) Flynn分类法把计算机系统的结构分为以下四类: (1)单指令流单数据流 (2)单指令流多数据流 (3)多指令流单数据流 (4) 多指令流多数据流 堆栈型机器:CPU 中存储操作数的单元是堆栈的机器。 累加器型机器:CPU 中存储操作数的单元是累加器的机器。 通用寄存器型机器:CPU 中存储操作数的单元是通用寄存器的机器。 名词解释: 虚拟机:用软件实现的机器叫做虚拟机,但虚拟机不一定完全由软件实现,有些操作可以由硬件或固件(固件是指具有软件功能的固件)实现。 系列机:由同一厂家生产的具有相同系统结构、但具有不同组成和实现的一系列不同型号的计算机。 兼容机:它是指由不同公司厂家生产的具有相同系统结构的计算机。 流水线技术:将一个重复的时序过程,分解成为若干个子过程,而每一个子过程都可有效地在其专用功能段上与其它子过程同时执行。 单功能流水线:指流水线的各段之间的连接固定不变、只能完成一种固定功能的流水线。 多功能流水线:指各段可以进行不同的连接,以实现不同的功能的流水线。 顺序流水线:流水线输出端任务流出的顺序与输入端任务流入的顺序完全相同。 乱序流水线:流水线输出端任务流出的顺序与输入端任务流入的顺序可以不同,允许后进入流水线的任务先完成。这种流水线又称为无序流水线、错序流水线、异步流水线。 吞吐率:在单位时间内流水线所完成的任务数量或输出结果的数量。 指令的动态调度:

是指在保持数据流和异常行为的情况下,通过硬件对指令执行顺序进行重新安排,以提高流水线的利用率且减少停顿现象。是由硬件在程序实际运行时实施的。 指令的静态调度: 是指依靠编译器对代码进行静态调度,以减少相关和冲突。它不是在程序执行的过程中、而是在编译期间进行代码调度和优化的。 超标量: 一种多指令流出技术。它在每个时钟周期流出的指令条数不固定,依代码的具体情况而定,但有个上限。 超流水:在一个时钟周期内分时流出多条指令。 多级存储层次: 采用不同的技术实现的存储器,处在离CPU不同距离的层次上,各存储器之间一般满足包容关系,即任何一层存储器中的内容都是其下一层(离CPU更远的一层)存储器中内容的子集。目标是达到离CPU最近的存储器的速度,最远的存储器的容量。 写直达法: 在执行写操作时,不仅把信息写入Cache中相应的块,而且也写入下一级存储器中相应的块。写回法: 只把信息写入Cache中相应块,该块只有被替换时,才被写回主存。 集中式共享多处理机: 也称为对称式共享存储器多处理SMP。它一般由几十个处理器构成,各处理器共享一个集中式的物理存储器,这个主存相对于各处理器的关系是对称的, 分布式共享多处理机: 它的共享存储器分布在各台处理机中,每台处理机都带有自己的本地存储器,组成一个“处理机-存储器”单元。但是这些分布在各台处理机中的实际存储器又合在一起统一编址,在逻辑上组成一个共享存储器。这些处理机存储器单元通过互连网络连接在一起,每台处理机除了能访问本地存储器外,还能通过互连网络直接访问在其他处理机存储器单元中的“远程存储器”。 多Cache一致性: 多处理机中,当共享数据进入Cache,就可能出现多个处理器的Cache中都有同一存储器块的副本,要保证多个副本数据是一致的。 写作废协议: 在处理器对某个数据项进行写入之前,它拥有对该数据项的唯一的访问权 。 写更新协议: 当一个处理器对某数据项进行写入时,它把该新数据广播给所有其它Cache。这些Cache用该新数据对其中的副本进行更新。 机群:是一种价格低廉、易于构建、可扩放性极强的并行计算机系统。它由多台同构或异构

吉大14秋学期《计算机系统结构》在线作业二答案

吉大14秋学期《计算机系统结构》在线作业二 单选题判断题 一、单选题(共15 道试题,共60 分。) 1. 关于非专用总线三种控制方式中,下列叙述错误的是()。 A. 集中式定时查询,所有部件共用同一条“总线忙”线 B. 集中式定时查询,所有部件都用同一条“总线请求”线 C. 集中式独立请求,所有部件都用同一条“总线请求”线 D. 集中式串行链接,所有部件都用同一条“总线请求”线 -----------------选择:C 2. 汇编语言源程序变换成机器语言目标程序是经( ) 来实现的。 A. 编译程序解释 B. 汇编程序解释 C. 编译程序翻译 D. 汇编程序翻译 -----------------选择:D 3. 计算机使用的语言是( )。 A. 专属软件范畴,与计算机体系结构无关 B. 分属于计算机系统各个层次 C. 属于用以建立一个用户的应用环境 D. 属于符号化的机器指令 -----------------选择:B 4. 多端口存储器适合于连接()。 A. 紧耦合多处理机 B. 松耦合多处理机 C. 机数很多的处理机 D. 机数可变的多处理机 -----------------选择:A 5. 在系统结构设计中,提高软件功能实现的比例会( )。 A. 提高解题速度 B. 减少需要的存贮容量 C. 提高系统的灵活性 D. 提高系统的性能价格比 -----------------选择:C 6. 用户高级语言源程序中出现的读写(I/O) 语句,到读写操作全部完成,需要通过( )共同完成。 A. 编译系统和操作系统 B. I/O 总线、设备控制器和设备 C. 操作系统和I/O 设备硬件 D. 编译系统、操作系统软件和I/O 总线,设备控制器、设备硬件等 -----------------选择:D

计算机系统结构 课后习题答案(第2版)

习题一 1、解释下列术语 计算机系统的外特性:通常所讲的计算机系统结构的外特性是指机器语言程序员或编译程序编写者所看到的外特性,即由他们所看到的计算机的基本属性(概念性结构和功能特性)。 计算机系统的内特性:计算机系统的设计人员所看到的基本属性,本质上是为了将有关软件人员的基本属性加以逻辑实现的基本属性。 模拟:模拟方法是指用软件方法在一台现有的计算机上实现另一台计算机的指令系统。 可移植性:在新型号机出台后,原来开发的软件仍能继续在升级换代的新型号机器上使用,这就要求软件具有可兼容性,即可移植性。可兼容性是指一个软件可不经修改或只需少量修改,便可由一台机器移植到另一台机器上运行,即同一软件可应用于不同环境。 Amdahl定律:系统中对于某一部件采用某种更快的执行方式所能获得的系统性能改进程度,取决于这种执行方式被使用的频度或占总执行时间的比例。 虚拟机(Virtual Machine):指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。 6、 7、假定求浮点数平方根的操作在某台机器上的一个基准测试程序中占总执行时间的20%,为了增强该操作的性能,可采用两种不同的方法:一种是增加专门的硬件,可使求浮点数平方根操作的速度提高为原来的20倍;另一种方法是提高所有浮点运算指令的速度,使其为原来的2倍,而浮点运算指令的执行时间在总执行时间中占30%。试比较这两种方法哪一种更好些。 答:增加硬件的方法的加速比Sp1=1.23, 另一种方法的加速比Sp2= 1.176,经计算可知Sp1=方法更好些。 Sp2>Sp2第一种 9、假设高速缓存Cache的工作速度为主存的5倍,且Cache被访问命中的概率 T=为90%,则采用Cache能使整个存储系统获得多高的加速比?答: 加速比

计算机系统结构实验报告

计算机系统结构实验报告 一.流水线中的相关 实验目的: 1. 熟练掌握WinDLX模拟器的操作和使用,熟悉DLX指令集结构及其特点; 2. 加深对计算机流水线基本概念的理解; 3. 进一步了解DLX基本流水线各段的功能以及基本操作; 4. 加深对数据相关、结构相关的理解,了解这两类相关对CPU性能的影响; 5. 了解解决数据相关的方法,掌握如何使用定向技术来减少数据相关带来的暂停。 实验平台: WinDLX模拟器 实验内容和步骤: 1.用WinDLX模拟器执行下列三个程序: 求阶乘程序fact.s 求最大公倍数程序gcm.s 求素数程序prim.s 分别以步进、连续、设置断点的方式运行程序,观察程序在流水线中的执行情况,观察 CPU中寄存器和存储器的内容。熟练掌握WinDLX的操作和使用。 2. 用WinDLX运行程序structure_d.s,通过模拟找出存在资源相关的指令对以及导致资源相 关的部件;记录由资源相关引起的暂停时钟周期数,计算暂停时钟周期数占总执行周期数的 百分比;论述资源相关对CPU性能的影响,讨论解决资源相关的方法。 3. 在不采用定向技术的情况下(去掉Configuration菜单中Enable Forwarding选项前的勾选符),用WinDLX运行程序data_d.s。记录数据相关引起的暂停时钟周期数以及程序执行的 总时钟周期数,计算暂停时钟周期数占总执行周期数的百分比。 在采用定向技术的情况下(勾选Enable Forwarding),用WinDLX再次运行程序data_d.s。重复上述3中的工作,并计算采用定向技术后性能提高的倍数。 1. 求阶乘程序 用WinDLX模拟器执行求阶乘程序fact.s。这个程序说明浮点指令的使用。该程序从标准 输入读入一个整数,求其阶乘,然后将结果输出。 该程序中调用了input.s中的输入子程序,这个子程序用于读入正整数。 实验结果: 在载入fact.s和input.s之后,不设置任何断点运行。 a.不采用重新定向技术,我们得到的结果

北邮计算机系统结构实验报告-实验一到五-WINDLX模拟器

北京邮电大学 实验报告 课程名称计算机系统结构 计算机学院03班 王陈(11)

目录 实验一WINDLX模拟器安装及使用......................................... 错误!未定义书签。 ·实验准备................................................................................ 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验内容及要求.................................................................... 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 ·实验总结............................................................................. 错误!未定义书签。实验二指令流水线相关性分析 ............................................... 错误!未定义书签。 ·实验目的............................................................................. 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 ·实验总结............................................................................. 错误!未定义书签。实验三DLX处理器程序设计 .................................................... 错误!未定义书签。 ·实验目的............................................................................. 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 A.向量加法代码及性能分析 ................................................... 错误!未定义书签。 B.双精度浮点加法求和代码及结果分析 .............................. 错误!未定义书签。 ·实验总结............................................................................. 错误!未定义书签。实验四代码优化 ....................................................................... 错误!未定义书签。 ·实验目的............................................................................. 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验原理................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 ·实验总结+实习体会........................................................... 错误!未定义书签。实验五循环展开 ....................................................................... 错误!未定义书签。 ·实验目的............................................................................. 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验原理................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 矩阵乘程序代码清单及注释说明........................................... 错误!未定义书签。 相关性分析结果........................................................................... 错误!未定义书签。 增加浮点运算部件对性能的影响........................................... 错误!未定义书签。 增加forward部件对性能的影响 ............................................ 错误!未定义书签。 转移指令在转移成功和转移不成功时候的流水线开销 .. 错误!未定义书签。 ·实验总结+实习体会+课程建议......................................... 错误!未定义书签。

计算机系统结构三四章作业及答案

简述流水线技术的特点。(1) 流水线把一个处理过程分解为若干个子过程,每个子过程由一个专门的功能部件来实现。因此,流水线实际上是把一个大的处理功能部件分解为多个独立的功能部件,并依靠它们的并行工作来提高吞吐率。(2) 流水线中各段的时间应尽可能相等,否则将引起流水线堵塞和断流。(3) 流水线每一个功能部件的前面都要有一个缓冲寄存器,称为流水寄存器。(4) 流水技术适合于大量重复的时序过程,只有在输入端不断地提供任务,才能充分发挥流水线的效率。(5) 流水线需要有通过时间和排空时间。在这两个时间段中,流水线都不是满负荷工作。 解决流水线瓶颈问题有哪两种常用方法?答:细分瓶颈段与重复设置瓶颈段 有一条指令流水线如下所示: (1 (? ? TP = 有一个流水线由4段组成,其中每当流过第三段时,总要在该段循环一次,然后才能流到第4段。如果每段经过一次所需的时间都是△t ,问: (1)当在流水线的输入端连续地每△t 时间输入一个任务时,该流水线会发生什么情况? (2)此流水线的最大吞吐率为多少?如果每2△t 输入一个任务,连续处理10个任务时,其实际吞吐率和效率是多少? (3)当每段时间不变时,如何提高流水线的吞吐率?人连续处理10个任务时,其吞吐率提高多少? 解:(1)会发生流水线阻塞情况。 (2)

(3)重复设置部件 吞吐率提高倍数= t t ??2310 75 有一条动态多功能流水线由5段组成,加法用1、3、4、5段,乘法用1、2、5段,第2段的时间为2△t ,其余各段的时间均为△t ,而且流水线的输出可以直接返回输入端或暂存于相应的流水线寄存器中。现在该流水线上计算 ∏=+4 1 )(i i i B A ,画出时空图,并计算其吞吐率、加速比和效率。 4+B 4;再计算(A 由图可见,它在18个△t 时间中,给出了7个结果。所以吞吐率为: 如果不用流水线,由于一次求积需3△t ,一次求和需5△t ,则产生上述7个结果共需(4×5+3×3)△t =29△t 。所以加速比为: 该流水线的效率可由阴影区的面积和5个段总时空区的面积的比值求得: △t,需经9△t 才能完成一个任务,其预约表如下所示。 (1)画出流水线任务调度的状态转移图。 时间 入 A 1 B 1 A 2 B 2 A 3 B 3 A 4 B 4 A B C D A × B C ×D

《计算机系统结构》与参考答案

2.以下各类中断中,属于自愿中断的是 C. A. 外部中断 B. I/O中断 C. 执行“访管”指令 D. 机器校验中断 3.高速外部设备磁盘机适合连接于 C. A. 选择通道或字节多路通道 B. 数组多路通道或字节多路通道 C.数组多路通道或选择通道 D.任意一种通道 4.页式虚拟存储器页表的作用是 A . A. 反映虚页在主存的存储情况 B.仅反映虚页是否调入主存 C. 反映主存实页与Cache 的对应关系 D. 反映虚页在辅存的存储情况5.软件和硬件的功能在逻辑上是C的 . A.固件优于软件 B.不等价 C.等价 D.软件优于固件 6.计算机中最优化的操作码编码方法是D. A.BCD 码 B.ASCII码 C.扩展操作码 D.哈夫曼编码 7.从计算机系统执行程序的角度看,并行性等级由低到高分为四级A. A .指令内部——指令之间——进程之间——程序之间 B .指令之间——指令内部——进程之间——程序之间 C.进程之间——指令之间——指令内部——程序之间 D .程序之间——进程之间——指令之间——指令内部 8.计算机系统多级层次结构中,操作系统机器级的直接上层是D. A .传统机器级 B .高级语言机器 C.应用语言机器级D.汇编语言机器级 9.全相联地址映像是指A. A. 任何虚页都可装入主存中任何实页的位置 B.一个虚页只装进固定的主存实页位置 C.组之间是固定的,而组内任何虚页可以装入任何实页位置 D.组间可任意装入,组内是固定装入 10.对于同一系列机,必须保证软件能够C. A .向前兼容,并向上兼容 B .向前兼容,并向下兼容C.向后兼容,力争向上兼容D .向后兼容,力争向下兼容11.设有 16 个处理单元的并行处理机系统, 采用共享主存的方式. 若同时存取16 个数据 , 为避免存储器访问冲突, 共享主存的多体数量应该为C才合理 . A. 15 B. 16 C. 17 D. 19 12.软件兼容的根本特征是C. A.向前兼容 B.向后兼容 C. 向上兼容 D. 向下兼容 13.在下列机器中,能够实现软件兼容的机器是 B. A.完全不同种类的机型 B.系统结构相同的机器 C. 宿主机和目标机 D.虚拟机 14.输入输出系统硬件的功能对C是透明的。 A. 操作系统程序员 B. 所有类别的程序员 C. 应用程序员 D. 系统结构设计师 15.在下列各项选择中,对于机器( 汇编 ) 语言程序员透明的是 D. A.通用寄存器 B. 条件码 C.中断字 D.主存储器地址寄存器 一、单项选择题 1.在流水机器中,全局性相关是指 B. A.指令相关 B. 由条件转移指令引起的相关 C “先读后写”相关 D.“先写后读”相关 2.以下不属于多处理机操作系统类型的是A. A .Windows 操作系统B.主从型操作系 C.浮动型操作系统 D .各自独立型操作系统 3.下列不是数据流计算特点的是D. A. 设置状态 B.没有指令计数器 C.没有变量的概念 D.操作结果不产生副作用 4.若输入流水线的指令既无局部性相关,也不存在全局性相关,则B. A. 可获得高的吞吐率和效率 B.出现瓶颈 C.流水线的效率和吞吐率恶化 D.可靠性提高 5.消除“一次重叠”中的“指令相关”最好方法是B. A. 不准修改指令 B.设置相关专用通路 C.推后分析下条指令 D.推后执行下条指令 6.流水线的技术指标不包括A. A. 数据宽度 B.吞吐率 C.加速比 D.效率 7.按照弗林对处理机并行性定义的分类原则,阵列机ILLIAC IV属于B. A.SISD B.SIMD C.MISD D.MIMD 8.设 8 个处理器编号分别为0,1, 2,?,7 用 Cube0 互联函数时,第7 号处理机可以与第D号处理机相联 . A. 0 B. 2 C. 4 D. 6 9.多端口存储器适合于连接 B. A .松耦合多处理机B.紧耦合多处理机C.机数很多的多处理机 D .机数可变的多处理机 10.以下不属于堆栈型替换算法的是A. A .先进先出法B.近期最久未用过法 C.近期最少使用法D.页面失效频率法 11.解决主存空间数相关的办法是C. A.基址值一次相关直接通路法 B.基址值二次相关直接通路法 C.通用寄存器组相关专用通路相关法 D. 推后读法 12. 一般来说 , 以下替换算法中 , 效果最优的替换算法是C. A. LRU 替换算法 B. FIFO 替换算法 C. OPT 替换算法 D. RAND替换算法

计算机系统结构实验1预习报告

计算机系统结构实验 实验1:MIPS指令系统和MIPS体系结构 (预习报告) 姓名: 学号: 班级:

大连理工大学实验预习报告 学院:______________________专业:_______________________班级:_____________________ 姓名:______________________学号:_______________________ 实验时间:__________________实验室:__________________实验台:__________________ 指导老师签字:_________________________________________成绩:____________________ 实验目的: 了解熟悉MIPSsim模拟器; 熟悉MIPS指令系统及其特点; 熟悉MIPS体系结构 实验平台: 指令级和流水线操作级模拟器MIPSsim 资料准备: MIPS64指令系统介绍 1.MIPS的寄存器 32个64位通用寄存器(GPRs整数寄存器):R0-R31。R0的值永远是0。 32个64位浮点数寄存器FPRs:F0-F31。它们可以存放32个单精度浮点数(32位),也可以存放32个双精度浮点数(64位)。 MIPS提供了单精度和双精度操作的指令,而且还提供了在FPRs和GPRs之间传送数据的指令。2.MIPS的数据表示

整数:字节(8位)、半字(16位)、字(32位)和双字(64位)。 浮点数:单精度浮点数(32位)和双精度浮点数(64位)。 MIPS64的操作是针对64位整数以及32位或64位浮点数进行的。字节、半字或字在装入64位寄存器时,用零扩展或者用符号位扩展来填充该寄存器的剩余部分。装入以后,对它们按照64位整数的方式进行运算。 3.MIPS的数据寻址方式 MIPS的数据寻址方式只有立即数寻址和偏移量寻址两种,立即数字段和偏移量字段都是16位。 寄存器间接寻址是通过把0作为偏移量来实现的,16位绝对寻址是通过把R0作为基址寄存器来完成的。 MIPS的存储器是按字节寻址的,地址是64位。由于MIPS是load-store结构,寄存器和存储器之间的数据传送都是通过load指令和store指令来完成的。所有存储器访问都必须边界对齐。 4.MIPS的指令格式 指令格式简单,其中操作码6位。按不同类型的指令设置不同的格式,共有3种格式,分别对应I指令、R指令和J指令。在这3种格式中,同名字段的位置固定不变。 I类指令 包括所有的load和store指令、立即数指令、分支指令、寄存器跳转指令、寄存器链接跳转指令。其中立即数字段位16位,用于提供立即数或偏移量。 1)load指令 2)store指令 3)立即数指令 4)分支指令 5)寄存器跳转、寄存器跳转并链接

计算机体系结构实验报告二

实验二结构相关 一、实验目的: 通过本实验,加深对结构相关的理解,了解结构相关对CPU性能的影响。 二、实验内容: 1. 用WinDLX模拟器运行程序structure_d.s 。 2. 通过模拟,找出存在结构相关的指令对以及导致结构相关的部件。 3. 记录由结构相关引起的暂停时钟周期数,计算暂停时钟周期数占总执行 周期数的百分比。 4. 论述结构相关对CPU性能的影响,讨论解决结构相关的方法。 三、实验程序structure_d.s LHI R2, (A>>16)&0xFFFF 数据相关 ADDUI R2, R2, A&0xFFFF LHI R3, (B>>16)&0xFFFF ADDUI R3, R3, B&0xFFFF ADDU R4, R0, R3 loop: LD F0, 0(R2) LD F4, 0(R3) ADDD F0, F0, F4 ;浮点运算,两个周期,结构相关 ADDD F2, F0, F2 ; <- A stall is found (an example of how to answer your questions) ADDI R2, R2, #8 ADDI R3, R3, #8 SUB R5, R4, R2 BNEZ R5, loop ;条件跳转 TRAP #0 ;; Exit <- this is a comment !! A: .double 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 B: .double 1, 2, 3, 4, 5, 6, 7, 8, 9, 10

四、实验过程 打开软件,load structure_d.s文件,进行单步运行。经过分析,此程序一 次循环中共有五次结构相关。(R-stall 数据相关Stall- 结构相关) 1)第一个结构相关:addd f2,,f0,f2 由于前面的数据相关,导致上一条指令addd f0,f0,f4暂停在ID阶段,所以下一条指令addd f2,,f0,f2发生结构相关,导致相关的部件:译码部件。 2)第二个结构相关:ADDI R2, R2, #8,与第一个结构相关类似。由于数据相关, 上一条指令暂停在ID阶段,所以导致下一条指令发生结构相关。

相关主题
文本预览
相关文档 最新文档