当前位置:文档之家› 计算机体系结构

计算机体系结构

计算机体系结构
计算机体系结构

一、计算机体系结构的基本概念

计算机体系结构是指机器语言程序的设计者或是编译程序设计者所看到的计算机系统的概念性结构和功能特性。Amdahl所定义的体现结构是指程序员面对的是硬件的系统。所关心的是如何合理的进行软硬件功能的分配。

计算机系统结构是指机器语言级的程序员所了解的计算机的属性,即外特性。可以包含数据表示,寄存器定义、数量、使用方式,指令系统,中断系统,存存储系统,IO系统等。

计算机组成是计算机结构的逻辑实现。可以包含数据通路宽度,专用部件设置,缓冲技术,优化处理等。

计算机的实现是指其计算机组成的物理实现。包括处理机,主存部件的物理结构,器件的集成度,速度的选择,模块、硬件、插件底板的划分和连接。

从使用语言的角度,可以把计算机系统按功能从高到低分为7级:0应用语言机器级、1高级程序语言机器级、2汇编语言机器级、3操作系统机器级、4传统机器语言机器级、5微程序机器级和6电子线路级。3~6级为虚拟机,其语言功能均由软件实现。

硬件功能分配的基本原则:(1)功能要求。首先是应用领域对应的功能要求,其次是对软件兼容性的要求;(2)性能要求。如运算速度,存储容量,可靠性,可维护性和人机交互能力等;(3)成本要求。

体系结构设计的方法有三种:由上而下-从考虑如何满足应用要求开始设计;由下而上-基于硬件技术所具有的条件;由中间开始的

方法。

体系设计的步骤:需求分析、需求说明、概念性设计、具体设计、优化和评价。

计算机体系结构的分类:(1)弗林FLYNN分类法:按指令流和数据流将计算机分为4类:①单指令流、单数据流-Single Instruction Stream Single Data Stream,SISD。计算机,即传统的单处理机,通常用的计算机多为此类,如脉动阵列计算机systolic array;②单指令流、多数据流-Multiple,SIMD。典型代表是并行处理机。其并行性在于指令一级。如ILLIAC、PEPE、STARAN、MPP等;

③MISD计算机;④MIMD计算机。多处理机系统,实现全面并行的理想结构。可以通过共享存储器和消息传递来耦合系统,每个处理器分别执行系统分配的程序,同时执行多个指令流对多个数据流不同的处理,如IBM3081/3084,Cray-2等。//弗林分类法基本上是对除流水

而不包括对像数据流计算机这种非诺衣曼型机器进行分类;(2)冯氏分类法。依据是并行度-即计算机在单位时间内能够处理的最大二进制位数。据此分为4类:①字串位串Word Serial and Bit Serial。WSBS计算机。只有一个串行的处理部件,每字长1位;②字并位串Parallel。WPBS计算机。只有一个处理部件。该部件处理字长n位;③字串位并WSBP 计算机。有多个处理部件。每个处理部件字长1位;④字并位并WPBP 计算机。有多个处理部件,各部件字长也并行,如ILLICA2计算机具有64个字长64位的处理单元。

冯.诺衣曼型计算机体系结构及其发展(1)是存储程序计算机的别称。在体系结构有着如下特点:①机器以运算器位中心,使用单一处理部件来完成计算、存储及通信工作;②采用存储程序的原理,使用线性组织的定长存储单元来存储程序,存储时对指令和数据不加区别;③存储空间的单元是直接寻址的,每个单元位数固定;④使用二进制机器语言,其指令完成基本操作码的简单操作;⑤对计算机进行集中的顺序控制。(2)两个最主要的特征:一是计算机内部信息流动是由指令驱动的,而指令执行顺序由指令计数器决定;二是计算机的应用仍主要面向数值计算和数据处理。(3)发展:①数据流计算机DFM。只要所需的操作数齐备就可以执行,这时只取决于执行部件的并行处理能力;②智能计算机。主要处理一些非数值化信息。

体系结构并行技术的发展(1)并行性是指在同一时刻或同一时间间隔内完成两种或两种以上性质相同或不同的工作的特性。具有同时性和并发性二重性。(2)等级划分:(由低到高):①按执行程序的等级划分:指令内部、指令之间、任务或进程之间、作业或程序之间;

②处理数据等级划分:字串位串、字串位并、字并位串、字并位并;

③按信息加工的等级划分:存储器操作并行、处理器操作并行、指令任务作业并行;(2)并行性的技术途径:①时间重叠。多个处理过程在时间上错开,如流水线处理机;②资源重复。重复设置硬件资源来提高计算机的性能。如阵列处理机;③资源共享。用软件方法让多个用户按一定时间顺序轮流使用同一套件资源,以提高计算机设备利用率。如多道程序分时系统。

题目:

1.

2.

3.Amdahl加速比定律:加速比:Sp=1/(1-Fe+Fe/Se),其中Fe为

被改进部分的执行时间所占的百分比的大小;Se是其性能提高的倍数。//局部性原理:程序趋向于重用它当前已经在使用的指令和数据。包括时间局部性和空间局部性。时间局部性是指当前访问的项目在最近的将来还会被访问;空间局部性是指某个项目及其附近地址的其他项目会同时被引用。

4.实现软件移植的基本技术有:统一的高级语言、采用阵列机、模

拟和仿真;

5.仿真是指用微程序直接解释另一台计算机的机器指令系统;模拟

指用机器语言解释实现软件移植的方法;

6.多机系统的耦合度可分为:最低耦合、松散耦合和紧密耦合三种

类型;

二、指令系统

指令系统又称指令集Instruction Set,它对计算机系统有全剧性影响,即指令的功能将直接反映系统功能。指令集发展有两个趋势:CISC和RISC;

指令集体系结构的分类(1)分类依据,可以有5种:操作数在CPU中的存储方式;显示操作数的数量;操作数的位置;指令的操作;操作数的类型和大小。(2)按暂存机制分类:依据在CPU内部存储操作数的区别,可以把指令集体系结构分为3类:堆栈stack、累加器accumulator、寄存器即a set of registers。①堆栈机。主要操作是压入和弹出,其他操作还有加、减、比较等;优点是:表示数值的模型简单、指令长度短。②累加器类机器是有一个隐含操作数的机器。例如PDP-8、Motorola6809;优点是机器的内部状态很少,指令也比较短。③寄存器为基础的指令系统优点是:速度更快、数值表示上有很强的适应性。例如IBM360、DEC VAX。(3)通用寄存器general-purpose resister machine,简称GPR机。其关键性优点起因于编译程序能有效的使用寄存器,无论是计算表达式的值,还是从更为全局的角度使用寄存器来保存变量的值。可以分为3类:①寄存器-寄存器resister-resister。只能对存储器有存取指令,所有操作在两个寄存器之间进行,操作结果送入第三个寄存器中;优点是:速度快、指令具有良好的正交编码模型;如RISC和Cray计算机;②寄存器-存储器类register-memory。在指令中,由寄存器内容加上存储器内容寻址构成寻址技术。如VAX、IBM360、Motorola68000、PDP11等。优点是:数据不需要寄存器装入就能存取、指令大小适中;

③存储器-存储器memory-memory。如VAX2和IBM370,优点是紧凑、不需要消耗临时寄存器。

指令格式(1)指令编码方法,通常有3种:①正交法orthogonal

method。对流水线计算机特别适应,采用微程序控制时微程序数量可以较少;②整体法integrated。可以把使用频率高的操作数通操作数地址码组合起来,加以缩短优化,而使用频率低的操作码可以较长些,从而节省存储容量,但需要较大的微程序存储器;③混合法mixed。把以上两个方法优点结合。(2)指令格式。最普通的是:操作码opcode-操作数operand/地址。操作码字段表明操作类型;操作数/地址字段指明具体的操作数,也可以指明操作数地址,通常是和寻址方式相配合形成的。(3)寻址技术。即指令按什么方式寻找所需的操作数或信息,它影响主存规模速度和存取方式。寻址方式对于应用程序是透明的。①编址方式:统一编址-把各个不部件统一编成从0开始的一维线性地址空间;局部编址-指导这些部件适当分类,各自从0开始单独编址,形成多个一维的线性地址空间;隐含编址-地址隐含于操作码中;②程序定位方式。程序定位是把指令和数据中的逻辑地址转变成主存物理地址的过程,有三种方法:直接定位方式、静态定位方式、动态定位方式;③寻址方式。大多计算机都将主存、通用寄存器、堆栈分类编址,因此就有分别面向寄存器、堆栈和主存的寻址方式。

指令的优化(1)指令格式的优化。就是从整个指令系统的利用率角度出发,尽量设法减少指令中冗余信息量,以便用最少的位数提供足够的操作信息和地址信息。包括操作码的优化和操作数的优化;(2)哈夫曼编码。左1右0。(3)理论码长-信息源熵。任意随机事件的出现概率为Pi,则它的信息量Ii=-log2(Pi),则平均信息量为H=-和(Pi*log2(Pi)),由此式的结果H即为理论码长。信息

冗余量=1-理论码长/操作码的平均长度。(4)等长扩展码。哈夫曼编码方法形成的指令码很不规则,长度不一。事实上计算机采用等长扩展码,介于等长二进制编码和全哈夫曼编码之间的一种编码方式,仍利用哈夫曼思想,对概论高的指令用短码,概率低的用长码,但在整体上只采用了有限的几种码长。如下表:

理论码长为2.17。

指令系统的复杂化(1)CISC和RISC的目标是相同的,都是为了提高性能,减少语义差距,改善性能价格比。目前多用CISC类型,如IBM360/370和4300系列等;(2)指令系统复杂化的实现措施:①面向目标代码的优化。按静态使用频度(程序中出现的百分比)改进可以减少存储空间;按动态使用频率(执行过程中出现的百分比)改进可以减少目标程序运行的执行时间;②面向高级语言的优化,就是尽可能缩小高级语言和机器语言之间的语义差异,以利于支持高级

语言的编译系统,左端编译程序的长度和编译所需时间;③面向操作系统的优化。就是进一步缩小操作系统和体系结构之间的语义差异,减少辅助时间,节省操作系统软件占用空间;(3)CISC的主要弊端:指令集过于庞杂;微程序技术是其重要支柱,这降低了处理速度;难以优化编译使之生成真正的目标代码;强调完善的中断机制,导致动作的烦杂;给芯片设计带来很多困难,出错几率增大,不利于大批量生产。

RISC技术-精简指令集计算机Reduced Instruction Set Computer。(1)基本特征:精简指令数量-一般在100条左右;简化指令格式-在1~2种之内并让全部指令具有相同长度;采用单周期指令-几乎所有指令在一个机器周期内完成;采用寄存器操作-尽量减少访存操作;硬件控制逻辑-大多指令采用硬件控制实现,少数用微程序实现;优化编译程序。(2)RISC体系结构:①数据类型。有2种表示方法,一是用操作码编码表示,一是通过操作数内部标志位表示,即自定义数据表示;字长64位,包括整型数据和浮点数据,支持附加数据类型;②寻址方式,有:立即寻址方式、寄存器直接寻址方式、寄存器间接寻址、相对寻址方式、变址值方式和位移量方式。

③寄存器模型和寄存器管理。有三种模型:窗口模型Windows、Cache 模型、矩阵Matrix模型;④存储器管理。(3)RISC的主要技术:①重叠寄存器窗口技术。有利于合理利用有限的芯片面积,特别是支持最费时的过程调用和返回操作;伯克利设计的重叠窗口有8个,每个共有32个32位的寄存器,其中10个全局性寄存器,10个局部性寄

存器,6个高位寄存器,6个地位寄存器,其典型调用时间是2微秒;

②优化编译技术。可以合理分配寄存器,提高寄存器的使用效率,减少访存次数等。③超流水线及超标量技术。超流水线superpipeline 技术是一种并行处理技术,通过细化流水,增加级数和提高主频,使

得在每个机器周期内能完成一个甚至两个浮点操作,

超标量superscalar技术也是并行处理技术,通过内装多条

流水线来同时执行多个处理,④硬线逻辑与微程序相结合。

MIPS和MFLOPS(1)MIPS每秒执行的百万次指令数。(2)MFLOPS,每秒浮点运算的百万次数。

三、存储系统

存储器的层次结构(1)存储器以存取速度为主要标准依次排列:最快的是与CPU同在一块芯片上的寄存器resister,其次是高速缓冲存储器cache-memory,然后是主存储器main-memory,接着是辅助存储器auxiliary-storage,最低层是海量存储器mass-storage。(2)有两个重要的存储层次,一是主-辅层次,以扩大存储容量位宗旨,多用软件管理来实现。另一个Cache-主存层次,以提高存取速度为宗旨,均用硬件方法实现;(3)实现存储体系的依据正是局部性原理,包括时间局部性和空间局部性。存储体系的性能参数有:①平均字节价格C=(C1S1+C2S2)/(S1+S2);为了使得存储系统的字节价格接近辅存的字节价格,要求主存容量远小于辅存容量;②命中率H=N1/

(N1+N2);③存取时间T=HT1+(1-H)T2;④存储器利用率u=Sa/S,Sa是程序“活跃”部分所占用的存储空间,S是可利用的存储空间总容量。

并行存储器(1)并行存储技术也是存储器中的体系结构问题,它既能扩大存储容量,又能提高访问速度。把存储器分成多个模块,在一次访问的时间内,就能并行的读出更多信息量,具有这样组织形式的存储器称为并行存储器Parallel memory。又称为存储器的多体交叉访问multiple module interleaved memory;(2)访问控制方法:①同时访问。可以一次提供多个数据或多条指令,适合对多数据流或多指令流进行并行处理。应注意频带宽度的问题,保证处理单元接收/处理数据的速率要和并行存储器同时读写数据的速率相匹配;采用交叉开关总线;②轮流访问。在对并行多体存储器访问时,各模块按一定的顺序轮流启动各自的访问周期。降低了对带宽匹配的要求。采用分时共享总线。

虚拟存储器(1)虚拟存储器的管理方式。决定于主存与虚存间不同的地址影响方式,分别是段式管理、页式管理和段页式管理3种方式。①段式管理。地址映象-将虚存空间分段,主存的空间按这种段来分配和管理。段是按程序的逻辑功能来划分的。当程序从辅存调入主存时,是按段分配主存空间,需要建立一个包括段长度和主存起始地址的段表,存放在主存中;地址转换-在段式管理中,主存地址格式包括段号和段内地址,虚存地址格式包括用户号、段号和段内地址。②页式管理。将主存空间和虚存空间按固定大小划分成块,每块

称为一页。页的大小和划分与程序逻辑功能无关。③段页式管理。将虚拟存储空间按段式管理,主存空间则按页式管理。存在虚拟空间的程序按逻辑关系分段,每一段又可分成固定大小的页。主存则只分成若干大小相同的页。许多大型机都采取该管理方式;(2)页面替换算法。在虚拟存储器中,由于虚拟空间比主存空间大得多,会出现当主存中所有页已经全部被占用,而CPU需要的指令却在主存中找不到,从而产生页面失效Page fault。这是需要从辅存中调入新页,并把主存中已经不用的旧页替换出去。常用的替换算法有:①随机算法RAND。算法简单,易于实现;②先进先出FIFO;③近期最少使用算法LRU;④优化替换算法OPT-预先知道将要使用哪些页面,替换时把下次调用该页时的时间间隔最大的页面调出去。这是一种理想算法。

高速缓冲存储器Cache(1

Cache,构成“Cache-主存”层次,其在本质上是一个两级的“页”式系统;(2)“Cache-主存”和“主存-辅存”的比较:前者目的是提高存储系统速度,后者是扩大容量;两者工作原理相同,都需要地址变换,但失效时,后者采取页面替换,前者采用块block替换;前者通过硬件实现地址变换和块替换,后者则是由操作系统来管理的;主辅层次的两种存储介质有很大区别,不易匹配,而前者则便于匹配;Cache对应用程序员和系统程序员都是透明的,而主辅层次则对系统程序员不完全透明。(3)在有Cache的系统中,访问主存请求的优先级安排次序是Cache-通道-写数-读数-

取指令。(4)地址映象和变换。地址映象是指每个主存按什么规则装入Cache中。有全相联映象、直接映象、组相联映象。(5)Cache的块替换算法。有RAND、FIFO、LRU等;LRU替换算法的硬件实现有:①堆栈法。从栈底到栈顶的几何位置反映了各块近期最久未被访问的次序。②比较对法。让各块成对组合,用触发器状态表示每个比较对内的访问次序,从而找出被替换的块。综上所述,设计替换算法实现应考虑到:如何对每次访问进行记录和符合根据所记录信息来判定哪个块是近期内最久未被访问的。(6)Cache的块表示。在级相联或直接映象Cache中,地址的数据结构由3个部分组成:标志tag-给出块帧地址;索引index-组相联中通过它选择组号;块内位移block offset-给出在一个块内所找数据的地址。(7)Cache的写策略,即更新主存内容的算法。①写直达法write through:只要CPU有写操作,在写入Cache同时,也通过“Cache-主存”通路直接写入主存;

②写回法write back。在CPU执行写操作时,信息只写入Cache,仅当某块被替换时,才把曾被写入过的Cache块先送回主存,然后再调入新块。//写直达法的可靠性高,但增加了访问主存的流量,写回法则相反,减少了不必要的访存,但可靠性受影响,常需要在Cache中增加更多的冗余信息位来提高其内容可靠性。

题目:

1.衡量一个存储层次体系性能主要从平均字节价格、命中率、存取

时间等三个方面考虑;

2.选择存储映象方式时最基本的考虑因素是易于实现。

3.在多级存储层次中,根据时间局部性,层次M1不必存入整个程序,

只需将近期用过的块或页存入;根据空间局部性,当M2将所要访问的字送到M1时,一并把该字所在块或页整个取来。

四、I/O通道和新型总线

` IO子系统概述(1)它包括IO设备、响应控制器以及为IO操作而设计的软件。根据其操作的控制方式,IO控制可以分为三类:程序控制IO、DMA和IO处理机方式。①程序控制IO方式,是大多计算机具有的简单控制方式。在该方式下,IO设备、主存和CPU通过共享总线进行通信,IO设备可以和主存统一编址;优点是控制简单,编程容易,缺点是大量时间被花于IO操作上,外设和CPU不能同时工作;②DMA和中断控制方式。DMA方式是直接存储器访问方式。它要求外设和主存之间有直接数据通路。优点是它把部分IO控制交给设备控制部分,实现CPU和IO设备的部分并行。缺点是CPU仍需要启动每个信息块的传输,增加了成本;中断控制方式优点是初步解决了CPU、主存和外设之间的速度匹配问题。缺点是中断所需辅助操作很多;③通道控制方式是在DMA基础上发展起来的。一个IO过程CPU 只参与两次工作。优点是并行操作能力强,提高设备利用率;缺点是不能完全独立于主机;④IO处理机IOP专门负责IO操作,具有更强的处理功能,不必借助于CPU。优点是CPU几乎移交了对IO的全部

控制,完全独立于主机;缺点是提高系统成本。这方式广泛应用于IBM360、370系统。

通道的工作原理(1)通道的功能:接受CPU发来的IO指令,按指令要求和指定的IO设备进行联系;从主存取出属于该通道程序的通道指令,对指令进行译码,向IO设备及控制器发出多种操作命令;为主存和外设装配和拆卸信息;从IO设备获得设备状态信息形成并保存通道信息,并根据需要将这些信息送往主存指定单元;将IO设备的中断请求及通道本身的中断请求发送给CPU;(2)通道种类:字节多路通道byte multiplexer channel-适合于连接大量低速设备,其工作模式有字节交叉模式和突发模式;数组多路通道block multiplexer channel适于为高速设备服务;选择通道selector channel也是为多台高速设备服务的,但在数据传送期间,通道只能为某一台高速设备服务,只能执行一道通道程序。(3)通道字和通道程序。①通道命令字CCW是通道能够执行的一组指令,又称通道控制字。由命令码、数据地址、标志码、保留位、计数字段组成,共64位;②通道地址字CAW指明要执行的第一个通道命令字的地址,即通道程序首地址,共32位,主要由存储保护字段和地址字段组成;③通道状态字CSW用来记录通道和外设执行通道程序的状态,存放在内存储器的固定单元中,共64位。④通道程序,由若干个通道命令可组成一个通道程序。(4)通道的工作原理。IO操作过程可分为5个阶段:准备、启动、数据传输、结束传输、结束中断。通道分担了CPU对输入输出操作的控制,基本上实现了CPU和外部设备之间的并

行执行,减少了外设向CPU请求中断的次数,提高了CPU运行效率。(5)通道流量设计。通道流量是指在数据传送期间单位时间内传送的字节数。

EISA和MCA(1)微机总线的演变:第一代PC总线:8位/16位总线-内部总线16位,外部总线8位;第二代PC总线:16位总线-另一名称是ISA,即工业标准体系结构总线;第三代PC总线:32位总线-可提供多达4GB的寻址空间,能自动配置系统及扩充插卡,微机的32位总线主要有3大类,分别是Compaq等公司的EISA总线,IBM公司的MCA总线,Apple公司的NuBus总线。(2)MCA微通道体系结构。MCA是Micro Channel Architecture微通道体系结构的缩写,其主要的特点可概括为:①是32位的高速微通道,可支持8、16、32位的数据转换与传送,改善了数据完整性;②MCA是完异步的总线结构,支持各总线主控器以及CPU公平地分享总线;③MCA采用了可编程任选POS,能识别用户安装地MCA插卡类型,并自动地给他分配系统资源;④电磁兼容性好,可靠性高;⑤支持多处理和并行处理系统,支持0等待状态,能提高处理效率。(3)EISA扩展工业标准体系结构。特点为:①它是32位地扩展工业标准总线,即ISA总线扩充;②EISA基本上是一个同步总线,它和CPU协同工作;③仲裁方案以轮流服务为基础;④采用了精致的双排扩展插槽;⑤和MCA 都采用共享地中断线路。

VESA和PCI局部总线(1)VESA是视频电子标准协会开发地局部总线标准,又称VL总线,基于该标准的4类产品是:VESA局部总线

主板、VESA硬盘卡、VESA显示卡、多功能卡;(2)PCI局部总线,PCI,Peripheral Component Interface,是外部部件接口的缩写。PCI是32位的总线,在33MHz的时钟频率下所提供的最大数据传输速率是132Mbps。PCI还采取32位数据总线和64位地址总线,把带宽透明的扩充到264Mbps。PCI局部总线能显著提高网络服务器的性能。其优点有:能大幅度提高数据吞吐率-测试表明,ISA总线的CPU 占有率46%,EISA总线CPU占有率12%,而PCI局部总线CPU占有率不到6%;具有较低的访问延迟。

五、流水技术和向量处理机

指令的流水处理(1)指令控制方式有三种:①顺序方式。即各机器指令之间顺序串行的执行;优点是控制简单,缺点是速度上不去,机器的利用率低;②重叠方式。在前一条指令操作完成之前,开始解释下一条指令。优点是速度提高,缺点是会出现冲突、转移和相关等问题;③流水方式。把并行性或并发性镶嵌到计算机系统里的形式。通常用时空图描述流水线工作。(2)流水线的分级:按处理级别可分为3级:①操作部件级-也叫运算操作流水线Arithmetic Pipelines,是将复杂算术、逻辑运算组成流水线工作方式;②指令级流水Instruction Pipelines,把指令解释过程分成多个子过程;③处理

机级流水,是一种宏流水线Mecro Pipelines,其中每个处理机完成某一专门任务,各个处理机所得到的结果需要存放在与下一个处理机所共享的存储器中。(3)流水线性能分析。①吞吐率Throughput rate。指在单位时间内流水线所完成的任务数或输出结果的数量;最大吞吐率TPmax=1/max(dt),即最大吞吐率取决于流水线中最慢的一段的时间;实际吞吐率TP=TPmax/(1+(m-1)/n),其中m为流水线段数,n为任务数;②加速比Speedup ratio。指m段流水线的速度和等效的非流水线的速度之比。S=T0/Tl=n*m*dt/[m*dt+(n-1)*dt]=m/[1+(m-1)/n];③效率Efficiency。是流水线的设备利用率。E =n个任务占用的时空区/m个段总的时空区。(4)流水的相关处理。

①局部性相关原理。流水线同时解释的指令可能出现相关。解决的办法有两种:一是推后法,即推后对相关单元的读;二是通路法,即设置相关专用通路而不必使用存储单元的写读;②全局性相关原理。转移指令和它后面的指令之间存在关联,不能同时解释,执行时可能会改动指令缓冲器中预取到的指令内容,从而造成流水线吞吐率和效率下降;解决办法有3种:一是猜测转移分支;二是加快和提前形成条件码;三是加快短循环程序的处理;③流水的中断处理。中断也会引起流水线断流。但出现概率比条件转移的要低。其处理关键在于如何处理好断点和中断后的恢复问题。(5)时钟周期和流水线调度。①时钟周期直接决定流水线的最大吞吐率。其越小?,流水线分段越多,寄存器延迟时间救越长,降低了流水线的实际吞吐率。时钟周期越小,TPmax越高;②流水线为避免功能段的冲突,存在任务的调度问题。

通常采用预约表R(Reservation table)的方法。

流水处理指令并行性的开发(1)超级标量计算机,配置了多个功能部件和指令译码器,和多个寄存器端口和总线,能同时执行多个操作。其流水线调度包括指令的发射策略和完成策略。指令发射Instruction Issue是启动指令进入执行段的过程,分为按序发射和无序发射。指令发射策略是指指令发射时所使用的协议或规则。指令的完成也有按序和无序之分。超标量流水线的调度策略共有三种:按序发射按序完成、按序发射无序完成、无序发射无序完成。(2)超长指令字计算机VLIW。是由编译程序在编译时找出指令之间潜在的并行性,进行适当调度安排,把多个能并行执行的操作组合在一起,成为一条具有多个操作段的超长指令,由它控制多个互相独立的功能部件,每个操作段控制一个功能部件,相当于同时执行多条指令。例如Cycra5计算机,其每个操作段的典型格式为:一个操作码、两个源寄存器描述码、一个目的寄存器描述码和一个判定寄存器描述码。(3)超级流水线计算机。结构是把每个流水线分成若干个子流水线,而每个子流水线取出的仍只有一条指令,这样看来在一个周期内便取出了多条指令。例如MIPS公司宣布的64位RISC计算机-R4000机,每个周期可流出2条指令。

向量流水处理机(1)向量处理方式:以计算D=A*(B+C)为例,其中ABC均为有n个元素的向量。①横向处理方式。按组成的元素顺序逐个进行计算。即分别求Di=Ai*(Bi + Ci);该方式在速度和效率上都没有提高;②纵向处理方式。先计算向量B+C=E,再计算向量

A*E=D.③分组/纵横处理方式。前两种方式的结合。即把原来向量分成几组,每组按纵向处理方式进行。CRAY1超级计算机采取纵横处理方式;CRYER205则采取纵向处理方式。实际上,向量处理机的体系结构有两种基本类型:一是寄存器-寄存器机;另一是存储器-存储器向量机。(2)向量流水处理机。①CRAY1向量流水处理机。属于寄存器-寄存器类型,时钟周期位12.5ns,存储器周期为4个时钟周期,运算速度为160MFLOPS。只有120条指令,指令格式有两种:16位的单字段指令和32位双字段指令。机器字长64位,包括3种数据格式:24位带符号整数、64位带符号整数、64位浮点数。CRAY1采取了大量的寄存器组。并具有4类12种功能流水线(见附);CRAY1解决冲突的方法有链接技术和推迟执行两种。输入输出由24个通道组成。CRAY1使得模拟成为重要的科学研究方法之一。②CRYER205。机器的中心部件是标量部件,包括指令处理部件和标量执行部件。其存储器基本模型是64位的1M存储器,最大容量为4M*64b。时钟周期80ns。提供8个32位的IO通道,传输速率200Mbps。CRYER205性能指标比CRAY1高,单运行上并误多大差别,因为存储器-存储器向量机再体系结构上不及寄存器-寄存器优越。

附:

1.CRAY1的寄存器组包括向量寄存器、标量寄存器、A寄存器、B寄

存器、T寄存器;

2.CRAY1有4类12种功能流水线:①地址功能流水:包括地址加、

地址乘2条流水线;②标量功能流水:标量加、标量位移、标量逻辑、计数4条流水线;③向量功能流水:向量加、向量位移、向量逻辑3条;④浮点功能流水:浮点加、浮点乘、求倒数近似3条。

六、并行处理技术和多处理机

并行性主要是指同时性或并发性。在进行并行处理时,其每次处理的规模大小可能是不同的,这可用并行性颗粒度来表示:G=所有处理器进行计算的时间总和/所有处理器通信时间总和。并行性从执行程序的角度看,并行性等级可分为5个:作业级、任务级、例行程序/子程序级、循环和迭代级、语句和指令级;从处理数据的角度看,可分为4级:字串位串、字串位并、字并位串、字并位并/全并行。

并行处理技术(1)层次越高的并行处理颗粒就越细,粗粒度并

行性开发主要采用MIMD

资源重复是通过使用多功能部件,引入空间重复因素;时间重叠是在并行性概念中引入时间因素,让多个处理过程重叠地使用同一套部件各个部分;资源共享主要是采用软件手段让多个用户按时间片轮流使用同一套硬件资源。(2)并行处理机地结构和特点。以SIMD方式工作,采用资源共享重复的并行性措施的阵列处理机:①基本结构:由一个控制器CU、n个处理单元PE、m个存储模块M和一个互连网络部件IN组成。根据存储器

计算机体系结构解

计算机体系结构解

————————————————————————————————作者:————————————————————————————————日期:

第一章计算机组成原理 本部分要求掌握计算机方面的基础知识,包括计算机的发展、计算的系统组成、基本组成和工作原理、计算机的数制数据表示以及运算校验、指令系统以及计算机系统的安全等基础性的知识。内容多而且复杂,尤其是有关计算机硬件方面的内容,很细而且灵活性不高,知识量相当大,掌握这部分一定要多下功夫,学会取舍、把握重点、抓住要害。 1.1 考试大纲及历年考题知识点 1.1.1 大纲要求 考试要求: 1 掌握数据表示、算术和逻辑运算; 2 掌握计算机体系结构以及各主要部件的性能和基本工作原理考试范围 1 计算机科学基础 1.1 数制及其转换二进制、十进制和十六进制等常用制数制及其相互转换 1.2 数据的表示 ?数的表示(原码、反码、补码、移码表示,整数和实数的机内表示,精度和溢出)?非数值表示(字符和汉字表示、声音表示、图像表示) ?校验方法和校验码(奇偶校验码、海明校验码、循环冗余校验码) 1.3 算术运算和逻辑运算 ?计算机中的二进制数运算方法 ?逻辑代数的基本运算和逻辑表达式的化简 2.计算机系统知识 2.1 计算机系统的组成、体系结构分类及特性 ?CPU 和存储器的组成、性能和基本工作原理 ?常用I/O 设备、通信设备的性能,以及基本工作原理 ?I/O 接口的功能、类型和特性 ?I/O 控制方式(中断系统、DMA、I/O 处理机方式) ?CISC/RISC,流水线操作,多处理机,并行处理 2.2 存储系统 ?主存-Cache 存储系统的工作原理 ?虚拟存储器基本工作原理,多级存储体系的性能价格 ?RAID 类型和特性 2.3 安全性、可靠性与系统性能评测基础知识 ?诊断与容错 ?系统可靠性分析评价 ?计算机系统性能评测方式 1.2 计算机科学基础 1.2.1 数制及其转换 1、R 进制转换成十进制的方法按权展开法:先写成多项式,然后计算十进制结果. 举例: (1101.01)2=1×2^3+1×2^2+0×2^1+1×2^0+ 0×2^-1+1×2^-2 =8+4+1+0.25=13.25 (237)8=2×8^2+3×8^1+7×8^0 =128+24+7=159 (10D)16=1×16^2+13×16^0=256+13=269

计算机系统结构三四章作业及答案

3.1 简述流水线技术的特点。(1) 流水线把一个处理过程分解为若干个子过程,每个子过程由一个专门的功能部件来实现。因此,流水线实际上是把一个大的处理功能部件分解为多个独立的功能部件,并依靠它们的并行工作来提高吞吐率。(2) 流水线中各段的时间应尽可能相等,否则将引起流水线堵塞和断流。(3) 流水线每一个功能部件的前面都要有一个缓冲寄存器,称为流水寄存器。(4) 流水技术适合于大量重复的时序过程,只有在输入端不断地提供任务,才能充分发挥流水线的效率。(5) 流水线需要有通过时间和排空时间。在这两个时间段中,流水线都不是满负荷工作。 3.2 解决流水线瓶颈问题有哪两种常用方法?答:细分瓶颈段与重复设置瓶颈段 3.3 有一条指令流水线如下所示: (1 用两给出条指 (1) (24? 变八级流水线(细分) ? 重复设置部件 )(ns 85 1 T n TP 1pipeline -== 3.4 有一个流水线由4段组成,其中每当流过第三段时,总要在该段循环一次,然后才能流到第4段。如果每段经过一次所需的时间都是△t ,问: (1)当在流水线的输入端连续地每△t 时间输入一个任务时,该流水线会发生什么情况? (2)此流水线的最大吞吐率为多少?如果每2△t 输入一个任务,连续处理10个任务时,其实际吞吐率和效率是多少? (3)当每段时间不变时,如何提高流水线的吞吐率?人连续处理10个任务时,其吞吐率提高多少? 解:(1)会发生流水线阻塞情况。

(2) (3)重复设置部件 吞吐率提高倍数= t t ??2310 75 =1.64 3.5 有一条动态多功能流水线由5段组成,加法用1、3、4、5段,乘法用1、2、5段,第2段的时间为2△t ,其余各段的时间均为△t ,而且流水线的输出可以直接返回输入端或暂存于相应的流水线寄存器中。现在该流水线上计算 ∏=+4 1 )(i i i B A ,画出时空图,并计算其吞吐率、加速比和效率。 +B 4;再计算由图可见,它在18个△t 时间中,给出了7个结果。所以吞吐率为: 如果不用流水线,由于一次求积需3△t ,一次求和需5△t ,则产生上述7个结果共需(4×5+3×3)△t =29△t 。所以加速比为: 该流水线的效率可由阴影区的面积和5个段总时空区的面积的比值求得: 3.6 在一个5段流水线处理机上,各段执行时间均为△t,需经9△t 才能完成一个任务,其预约表如下所示。 段23 时间 入 A 1 B 1 A 2 B 2 A 3 B 3 A 4 B 4 A B C D A × B C ×D

计算机体系结构期末复习

计算机体系结构期末复习资料 1.并行性:是指在同一时刻或者是同一时间间隔内完成两种或两种以上性质相同或不同的工作。 2.CPI:每条指令执行时所花费的平均时钟周期。 3.体系结构:即计算机的属性,即概念性结构与功能特性。 4.Amdahl定理:加快某部件执行速度所获得的系统性能加速比,受限于该部件在系统中所占的重要性。 5.信息存储的整数边界:信息在主存中存放的起始地址必须是该信息(字节数)的整数倍。 6.指令系统的正交性:指在指令中各个不同含义的字段,在编码时应互不相关,相互独立。 7.流水线技术:是指将一个重复的时序过程,分解成为若干子过程,而每个过程都可有效在其专用功能段上与其他子过程同时执行。 8.定向技术:在某条指令产生一个结果之前,其他指令并不直接需要该计算结果,如果能将该计算结果从其他产生的地方直接送到其他指令需要它的地方,那么就可以避免暂停的技术就叫定向技术。 9.相关:衡量两个随机变量之间相关程度的指标。 10.向量流水处理机:是指处理机具有向量数据表示并通过向量指令对向量的各元素进行处理。、

11.定向:将计算结果从其产生的地方直接送到其他指令需要它的地方,或所有需要它的功能单元,避免暂停。 12.指令集的并行:当指令之间不存在相关时,它们在流水线中是可以重叠起来并行执行。 13.记分牌技术:流出和读操作数。在没有结构冲突时,尽可能早地执行没有数据冲突的指令,实现每个时钟周期执行一条指令。如果某条指令被暂停,而后面的指令与流水线中正在执行或被暂停的指令都不相关,是这些指令可以跨越它,继续流出和执行下去。 14.Tomasulo算法:寄存器换名是通过保留站和流出逻辑来共同完成,当指令流出时,如果其操作数还没有计算出来,则该指令中相应的寄存器换名将产生这个操作数的保留站的标识。因此,指令流出到保留站后,其操作数寄存器或者换成了数据本身,或换成了保留站的标识,和寄存器无关。后面指令对该寄存器的写入操作就不会产生WAR冲突。 15.替换算法:由于主存中的块比Cache中的块多,所以当要从主存中调一个块到Cache中时,会出现该块所映象到的一组(或一个)Cache块已全部被占用的情况。这时,需要被迫腾出其中的某一块,以接纳新调入的块。

计算机系统结构有详细答案

(仅供参考,不作为考试标准), 选择题分,每题分)2(30计算机系统结构设计者所关心的是________所看到的的计算机结构。 A)硬件设计人员B)逻辑设计人员 D)高级语言程序员C)机器语言或汇编语言程序员 。意________,应当注提系在计算机统设计时,为了高系统性能度的令执行速快A)加经常性使用指大的指令特B)要别精心设计少量功能强数的占减少在数量上很小比例的指令条C)要度D)要加快少量指令的速 。的问题统中因________而导致系主重叠寄存器技术要用于解决在RISC 流水线影A)JMP指令响保护令B)CALL指的现场问存储器不便来只C)有LOAD和STORE指令带的访度速器访问D)存储 ________ 效率高计为使流水算机运行要A)各过程段时间不同B)连续处理的任务类型应该不同 D)连续处理的任务数尽可能少C)连续处理的任务类型应该相同 栈型替是的________。换算法堆不属于B)近期最少A)近期最使用法久未用法 D)页面失效频率法出进C)先先法 象联组,相映的优点。是________象联全与相映相比B)块冲突概率低C)命中率高D)主存利用率小录A)目表高 是方好关相指除中叠次一重消令最的法________。B)设相关专用令指改准A)不修通路 令指条下析分后推C) 令指条下行执后推D) 流的用采,时关据数到,中作水操遇相________。有法办解决器译编化优A)用办的排新重令指过通,测检序法据数B)向定重技术 C)延迟转移技术 D)加快和提前形成条件码 经多级网络串联来实现全排列网络,只能用________。 A)多级立方体网络B)多级PM2I网络 D)上述多级混洗交换网络任何网络C) 序传送的________。是以虫蚀寻径流水方式在各寻径器是顺B)包A)消息C)片节D)字 ________ 处理机超标量作指条令部件个B) 只有一操期A)在一个时钟周内分时发射多多钟C)在一个时周期内同时发射条指令件有只一个取指部D)

计算机系统结构网上作业

计算机系统结构作业参考答案 一、 1、试述现代计算机系统的多级层次结构。 计算机系统具有层次性,它由多级层次结构组成。从功能上计算机系统可分为五个层次级别:第一级是设计级。这是一个硬件级,它由机器硬件直接执行。 第二级是一般机器级,也称为机器语言级。它由微程序解释系统.这一级是硬件级。 第三级是操作系统级,它由操作系统程序实现。这些操作系统由机器指令和广义指令组成,这些广义指令是操作系统定义和解释的软件指令。这一级也称混合级。 第四级是汇编语言级。它给程序人员提供一种符号形式的语言,以减少程序编写的复杂性。这一级由汇编程序支持执行。 第五级是高级语言级。这是面向用户为编写应用程序而设置的。这一级由各种高级语言支持。 2、试述RISC设计的基本原则和采用的技术。 答:一般原则: (1)确定指令系统时,只选择使用频度很高的指令及少量有效支持操作系统,高级语言及其它功能 的指令,大大减少指令条数,一般使之不超过100条; (2)减少寻址方式种类,一般不超过两种; (3)让所有指令在一个机器周期内完成; (4)扩大通用寄存器个数,一般不少于32个,尽量减少访存次数; (5)大多数指令用硬联实现,少数用微程序实现; (6)优化编译程序,简单有效地支持高级语言实现。

基本技术: (1)按RISC一般原则设计,即确定指令系统时,选最常用基本指令,附以少数对操作系统等支持最有用的指令,使指令精简。编码规整,寻址方式种类减少到1、2种。 (2)逻辑实现用硬联和微程序相结合。即大多数简单指令用硬联方式实现,功能复杂的指令用微程序实现。 (3)用重叠寄存器窗口。即:为了减少访存,减化寻址方式和指令格式,简有效地支持高级语言中的过程调用,在RISC机器中设有大量寄存嚣,井让各过程的寄存器窗口部分重叠。 (4)用流水和延迟转移实现指令,即可让本条指令执行与下条指令预取在时间上重叠。另外,将转移指令与其前面的一条指令对换位置,让成功转移总是在紧跟的指令执行之后发生,使预取指令不作废,节省一个机器周期。 (5)优化设计编译系统。即尽力优化寄存器分配,减少访存次数。不仅要利用常规手段优化编译,还可调整指令执行顺序,以尽量减少机器周期等。 3、试述全相联映像与直接映像的含义及区别 (1)全相连映像 主存中任何一个块均可以映像装入到Cache中的任何一个块的位置上。主存地址分为块号和块内地址两部分,Cache地址也分为块号和块内地址。Cache的块内地址部分直接取自主存地址的块内地址段。主存块号和Cache块号不相同,Cache块号根据主存块号从块表中查找。Cache保存的各数据块互不相关,Cache必须对每个块和块自身的地址加以存储。当请求数据时,Cache控制器要把请求地址同所有的地址加以比较,进行确认。 (2)直接映像 把主存分成若干区,每区与Cache大小相同。区内分块,主存每个区中块的大小和Cache 中块的大小相等,主存中每个区包含的块的个数与Cache中块的个数相等。任意一个主存块只能映像到Cache中唯一指定的块中,即相同块号的位置。主存地址分为三部分:区号、块号和块内地址,Cache地址分为:块号和块内地址。直接映像方式下,数据块只能映像到Cache中唯一指定的位置,故不存在替换算法的问题。它不同于全相连Cache,地址仅需比较一次。 (3)区别: 全相连映像比较灵活,块冲突率低,只有在Cache中的块全部装满后才会出现冲突,Cache 利用率高。但地址变换机构复杂,地址变换速度慢,成本高。 直接映像的地址变换简单、速度快,可直接由主存地址提取出Cache地址。但不灵活,块冲突率较高,Cache空间得不到充分利用。 4. 画出冯?诺依曼机的结构组成?

系统结构期末考试试题及答案

得分 评分人 填空题: (20分,每题2 分) 单选题:(10分,每题1分) A.任何虚页都可装入主存中任何实页的位置 B. 一个虚页只装进固定的主存实页位置 《计算机系统结构》期末考试试卷(A ) 得分 注:1、共100分,考试时间120分钟。 2、此试卷适用于计算机科学与技术本科专业。 1、."启动I/O"指令是主要的输入输出指令,是属于( A. 目态指令 B.管态指令 C.目态、管态都能用的指令 D.编译程序只能用的指令 2、 输入输出系统硬件的功能对 (B )是透明的 A.操作系统程序员 B.应用程序员 C.系统结构设计人员 D.机器语言程序设计员 3、 全相联地址映象是指(A ) C. 组之间固定,组内任何虚页可装入任何实页位置 D.组间可任意装入,组内是固定装入 4、( C ) 属于MIMD 系统结构 A.各处理单元同时受一个控制单元的管理 B.各处理单元同时受同个控制单元送来的指令 C.松耦合多处理机和多计算机系统 D. 阵列处理机 5、多处理机上两个程序段之间若有先写后读的数据相关,则( B ) A.可以并行执行 B.不可能并行 C.任何情况均可交换串行 D.必须并行执行 6、 计算机使用的语言是(B ) A.专属软件范畴,与计算机体系结构无关 B.分属于计算机系统各个层次 C.属于用以建立一个用户的应用环境 D. 属于符号化的机器指令 7、 指令执行结果出现异常引起的中断是( C ) A.输入/输出中断 B.机器校验中断 C.程序性中断 D.外部中断 &块冲突概率最高的 Cache 地址映象方式是(A ) A.直接 B .组相联 C .段相联 D .全相联 9、 组相联映象、LRU 替换的Cache 存储器,不影响 Cache 命中率的是(B ) A.增大块的大小 B .增大主存容量 C .增大组的大小 D .增加Cache 中的块数 10、 流水处理机对全局性相关的处理不 包括(C ) A.猜测法 B.提前形成条件码 C.加快短循环程序的执行 D.设置相关专用通路

计算机体系结构参考1

第一题选择题 1.SIMD是指(B) A、单指令流单数据流 B、单指令流多数据流 C、多指令流单数据流 D、多指令流多数据流 2.下列那种存储设备不需要编址?D A. 通用寄存器 B. 主存储器 C. 输入输出设备 D. 堆栈 3.按照计算机系统层次结构,算术运算、逻辑运算和移位等指令应属于(A)级机器语言。 A、传统机器语言机器 B、操作系统机器 C、汇编语言机器 D、高级语言机器 4.早期的计算机系统只有定点数据表示,因此硬件结构可以很简单。但是这样的系统有明显的缺点,下面哪一个不是它的缺点:B A.数据表示范围小 B.单个需要的计算时钟周期多 C.编程困难 D.存储单元的利用率很低 7.下面哪个页面替换算法实际上是不能够实现的?D A)随机页面替换算法 B)先进先出替换算法 C)最久没有使用算法 D)最优替换算法

9.指令优化编码方法,就编码的效率来讲,那种方法最好?C A. 固定长度编码 B. 扩展编码法 C. huffman编码法 D. 以上编码都不是 10.在早期冯·诺依曼计算机特征中,机器以(C)为中心。 A、存储器 B、输入输出设备 C、运算器 D、控制器 1.RISC 计算机的指令系统集类型是( C ) 。 A. 堆栈型 B. 累加器型 C. 寄存器—寄存器型 D. 寄存器- 存储器型 2、相联存储器的访问方式是( D )。 A.先进先出顺序访问 B.按地址访问 C.无地址访问 D.按内容访问 3、假设—条指令的执行过程可以分为“取指令”、“分析”和“执行”三段,每—段分别只有—个部件可供使用,并且执行时间分别为Δt、2Δt和3Δt,连续执行n条指令所需要花费的最短时间约为( C )。 (假设“取指令”、“分析”和“执行”可重叠,并假设n足够大) A.6 nΔt B.2 nΔt C.3 nΔt D.nΔt 6、下列计算机不属于RISC计算机的是(C )。 A.SUN:Ultra SPARC

计算机体系结构知识点

目录 第一章计算机系统结构基本概念 (2) (一) 概念 (2) (二) 定量分析技术 (3) (三) 计算机系统结构发展 (4) (四) 计算机的并行性 (5) 第二章计算机指令集结构 (7) 一. 指令集结构的分类 (7) 二. 寻址方式 (7) 三. 指令集结构的功能设计 (8) 四. 指令格式的设计 (10) 五. MIPS指令集结构 (10) 第三章流水线技术 (14) 一. 流水线的基本概念 (14) 二. 流水线的性能指标 (14) 三. 流水线的相关与冲突 (16) 四. 流水线的实现 (18) 第四章指令集并行 (18) 付志强

第一章计算机系统结构基本概念 (一)概念 什么是计算机系统结构:程序员所看到的计算机属性,即概念性结构与功能特性. 透明性:在计算机技术中,把本来存在的事物或属性,但从某种角度看又好像不存在的概念成为透明性. 常见计算机系统结构分类法 冯氏分类法(冯泽云):按最大并行度对计算机进行分类. Flynn分类法:按指令流和数据流多倍性进行分类 ①单指令流单数据流 ②单指令流多数据流 ③多指令流单数据流(不存在) ④多指令流多数据流 付志强

(二)定量分析技术 Amdahl定律:加快某部件执行速度所能获得的系统性能加速比,受限于该部件的执行时间占系统中总执行时间的百分比. 加速比=系统性能 改进后 系统性能 改进前 = 总执行时间 改进前 总执行时间 改进后 加速比依赖于以下两个因素 ①可改进比例 ②部件加速比 CPU性能公式 CPU时间 CPU时间=执行程序所需时间的时钟周期数x时钟周期时间(系统频率倒数) CPI(Cycles Per Instruction) CPI =执行程序所需时钟周期数/所执行指令条数 ∴CPU时间= IC x CPI x 时钟周期时间 可知CPU性能取决于一下三个方面 ①时钟周期时间:取决于硬件实现技术和计算机组成 付志强

高级计算机体系结构作业汇总(非标准答案)

1.Explain the Concepts Computer Architecture 系统结构 由程序设计者所看到的一个计算机系统的属性。即计算机系统的软硬件界面。 Advanced CA 高级系统结构 新型计算机系统结构。基于串行计算机结构,研究多指令多数据计算机系统,具有并发、可扩展和可编程性。为非冯式系统结构。 Amdahl law Amdahl定律 系统中某部件由于采用某种方式时系统性能改进后,整个系统性能的提高与该方式的使用频率或占的执行时间的比例有关。 SCALAR PROCESSING 标量处理机 在同一时间内只处理一条数据。 LOOK-AHEAD 先行技术 通过缓冲技术和预处理技术,解决存储器冲突,使运算器能够专心与数据的运算,从而大幅提高程序的执行速度。 PVP 向量型并行计算处理机 以流水线结构为主的并行处理器。 SMP 对称多处理机系统 任意处理器可直接访问任意内存地址,使用共享存储器,访问延迟、带宽、机率都是等价的。MPP 大规模并行计算机系统 物理和逻辑上均是分布内存,能扩展至成百上千处理器,采用专门设计和定制的高通信带宽和低延迟的互联网络。 DSM 分布式共享存储系统 内存模块物理上局部于各个处理器内部,但逻辑上是共享存储的。 COW 机群系统 每个节点都是一个完整的计算机,各个节点通过高性能网络相互连接,网络接口和I/O总线松耦合连接,每个节点有完整的操作系统。 GCE 网格计算环境 利用互联网上的计算机的处理器闲置处理能力来解决大型计算问题的一种科学计算。 CISC 复杂指令集计算机

通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。 RISC 精简指令集计算机 尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用段子程序来实现。 VMM 虚拟机监视器 作为软硬件的中间层,在应用和操作系统所见的执行环境之间。 SUPERCOMPUTER 超级计算机 数百数千甚至更多的处理器组成的能计算普通计算机不能完成的大型复杂问题的计算机。SVM 共享虚拟存储器 存储器虚拟化为一个共享的存储器,并提供单一的地址空间。 MAINFRAME 大型计算机 作为大型商业服务器,一般用于大型事务处理系统,特别是过去完成的且不值得重新编写的数据库应用系统方面。 COMPUTER SYSTEM ON CHIP 片上计算机系统 在单个芯片上集成的一个完整系统。 PARALLEL ARCHITECTURE INTO SINGLE CHIP 单片并行结构 在单个芯片上采用的并行体系结构 MOORE law Moore定律 当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。 UMA 一致存储访问 采用集中式存储的模式,提供均匀的存储访问。 NUMA 非一致存储访问 内存模块局部在各个结点内部,所有局部内存模块构成并行机的全局内存模块。 COMA 全高速缓存存储访问 采用分布式存储模式,通过高速缓存提供快速存储访问。 CC-NUMA 全高速缓存非一致性均匀访问 存在专用硬件设备保证在任意时刻,各结点Cache中数据与全局内存数据的一致性。NORMA 非远程存储访问

计算机系统结构期末考试题目

第一章: 1.计算机系统结构的定义 答:由程序设计者看到的一个计算机系统的属性,即概念性结构和功能特性。 2.透明性概念 答:在计算机技术中,一种本来是存在的事物或属性,但从某种角度看似乎不存在,称为透明性现象。 3.兼容性向后兼容 兼容性:同一个软件可以不加修改地运行于系统结构相同的各档机器,可获得相同的结果,差别只在于不同的运行时间。 向后兼容:按某个时期投入市场的某种型号机器编制的程序,不加修改就能运行于在它之后投入市场的机器。 4.Amdahl定律 答:系统中某一部件由于采用某种更快的执行方式后整个系统性能的提高与这种执行方式的使用频率或占总执行时间的比例有关。 5.CPI 答:每条指令的平均时钟周期数。 6.MIPS 答:每秒百万条指令数!MIPS=时钟频率/(CPI*10^6) 7.MFLOPS 答:每秒百万次浮点操作次数。MFLOPS=程序中的浮点操作次数/(执行时间*10^6) 8.命中率的概念 答: 9.Flynn分类法是按指令流和数据流的多倍性特征进行计算机系统结构的划分 答:①单指令流单数据流SISD ②单指令流多数据流SIMD ③多指令流单数据流MISD(实际不存在)④多指令流多数据流MIMD 10.计算机系统设计的定量原理(四个) 答:①加快经常性事件的速度②Amdahl定律③CPU性能公式④访问的局部性原理11.CPI和加速比的计算 答:CPI=CPU时钟周期数/IC CPU时间=CPU时钟周期数/频率 CPU时间=CPU时钟周期*时钟周期长 加速比=(采用改进措施后的性能)/(没有采用改进措施前的性能) =(没有采用改进措施前执行某任务的时间)/(采用改进措施后执行某任务的时间) 12.软硬件实现的特点 硬件实现:速度快、成本高;灵活性差、占用内存少 软件实现:速度低、复制费用低;灵活性好、占用内存多 13.系统评价的标准 ①运算速度②存储器系统③其他性能④成本标准

完整版计算机体系结构课后习题原版答案_张晨曦著

第1章计算机系统结构的基本概念 (1) 第2章指令集结构的分类 (10) 第3章流水线技术 (15) 第4章指令级并行 (37) 第5章存储层次 (55) 第6章输入输出系统 (70) 第7章互连网络 (41) 第8章多处理机 (45) 第9章机群 (45) 第1章计算机系统结构的基本概念 1.1 解释下列术语 层次机构:按照计算机语言从低级到高级的次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同的语言为特征。这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。 虚拟机:用软件实现的机器。 翻译:先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。

解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。 计算机系统结构:传统机器程序员所看到的计算机属性,即概念性结构与功能特性。 在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又好像不存在的概念称为透明性。 计算机组成:计算机系统结构的逻辑实现,包含物理机器级中的数据流和控制流的组成以及逻辑设计等。 计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。 系统加速比:对系统中某部分进行改进时,改进后系统性能提高的倍数。 Amdahl定律:当对一个系统中的某个部件进行改进后,所能获得的整个系统性能的提高,受限于该部件的执行时间占总执行时间的百分比。 程序的局部性原理:程序执行时所访问的存储器地址不是随机分布的,而是相对地簇聚。包括时间局部性和空间局部性。

计算机体系结构习题答案解析

第1章计算机系统结构的基本概念 1.1 解释下列术语 层次机构:按照计算机语言从低级到高级的次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同的语言为特征。这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。 虚拟机:用软件实现的机器。 翻译:先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。 解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。 计算机系统结构:传统机器程序员所看到的计算机属性,即概念性结构与功能特性。 透明性:在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又好像不存在的概念称为透明性。 计算机组成:计算机系统结构的逻辑实现,包含物理机器级中的数据流和控制流的组成以及逻辑设计等。 计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。 系统加速比:对系统中某部分进行改进时,改进后系统性能提高的倍数。 Amdahl定律:当对一个系统中的某个部件进行改进后,所能获得的整个系统性能的提高,受限于该部件的执行时间占总执行时间的百分比。 程序的局部性原理:程序执行时所访问的存储器地址不是随机分布的,而是相对地簇聚。包括时间局部性和空间局部性。 CPI:每条指令执行的平均时钟周期数。 测试程序套件:由各种不同的真实应用程序构成的一组测试程序,用来测试计算机在各个方面的处理性能。 存储程序计算机:冯·诺依曼结构计算机。其基本点是指令驱动。程序预先存放在计算机存储器中,机器一旦启动,就能按照程序指定的逻辑顺序执行这些程序,自动完成由程序所描述的处理工作。 系列机:由同一厂家生产的具有相同系统结构、但具有不同组成和实现的一系列不同型号的计算机。 软件兼容:一个软件可以不经修改或者只需少量修改就可以由一台计算机移植到另一台计算机上运行。差别只是执行时间的不同。 向上(下)兼容:按某档计算机编制的程序,不加修改就能运行于比它高(低)档的计算机。 向后(前)兼容:按某个时期投入市场的某种型号计算机编制的程序,不加修改地就能

2020.4《计算机体系结构》期末试卷A含答案

《计算机体系结构》期末考试A卷 (总分:100分,时间:100分钟) 姓名:周元华 专业:计算机科学与技术 学号: 18260070164016 学习中心:上海弘成 一、填空题(每空1分,共14分) 1.高速缓冲存储器的地址映象方式有三种,它们分别是:全向量方式,直接相联方式,组相连方式。 2.虚拟存储器的三种管理方式是段式管理,页式管理和 段页式管理。 3.从主存的角度来看,“Cache—主存”层次的目的是为了提高速度,而“主存—辅存”层次的目的是为了扩大容量 4.根据指令间的对同一寄存器读和写操作的先后次序关系,数据相关冲突可分为读与写(RAM)、写与读(WAR)和写与写(WAW)三种类型。 5.当代计算机体系结构的概念包括指令集结构、计算机组成和计算机实现三个方面的内容 二、名词解释(每题2分,共16分) 计算机体系结构: 计算机体系结构是指根据属性和功能不同而划分的计算机理论组成部分及计算机基本工作原理、理论的总称。其中计算机理论组成部分并不单与某一个实际硬件相挂钩,如存储部分就包括寄存器、内存、硬盘等。 兼容机: 兼容机,就是由不同公司厂家生产的具有相同系统结构的计算机。简单点说,就是非厂家原装,而改由个体装配而成的机器,其中的元件可以是同一厂家出品,但更多的是整合各家之长的 计算机。 写直达法: 写直达法一般指全写法。全写法(write-through):又称写直达法、写穿法,透写法,Cache使 用方式之一。 高速缓冲存储器: 高速缓冲存储器(Cache)其原始意义是指存取速度比一般随机存取记忆体(RAM)来得快 的一种RAM,一般而言它不像系统主记忆体那样使用DRAM技术,而使用昂贵但较快速的SRAM 技术,也有快取记忆体的名称。 高速缓冲存储器是存在于主存与CPU之间的一级存储器,由静态存储芯片(SRAM)组成, 容量比较小但速度比主存高得多,接近于CPU的速度。在计算机存储系统的层次结构中,是介 于中央处理器和主存储器之间的高速小容量存储器。它和主存储器一起构成一级的存储器。高速 缓冲存储器和主存储器之间信息的调度和传送是由硬件自动进行的。 高速缓冲存储器最重要的技术指标是它的命中率。 延迟转移技术: 在转移指令之后插入一条或几条有效的指令。当程序执行时,要等这些插入的指令执行完成 之后,才执行转移指令,因此,转移指令好像被延迟执行了,这种技术称为延迟转移技术。 线性流水线: 线性流水线就是由一整套工艺串联而成的生产线。 流水线又称为装配线,一种工业上的生产方式,指每一个生产单位只专注处理某一个片段的工 作,以提高工作效率及产量;按照流水线的输送方式大体可以分为:皮带流水装配线、板链线、 倍速链、插件线、网带线、悬挂线及滚筒流水线这七类流水线。 输送线的传输方式有同步传输的/(强制式),也可以是非同步传输/(柔性式),根据配置的 选择,可以实现装配和输送的要求。输送线在企业的批量生产中不可或缺。 流水线的吞吐率: 流水线的吞吐率是单位时间内流水线处理的任务数。 并行性: 并行性是指计算机系统具有可以同时进行运算或操作的特性,在同一时间完成两种或两种以 上工作。它包括同时性与并发性两种含义。同时性指两个或两个以上事件在同一时刻发生。并发 性指两个或两个以上事件在同一时间间隔发生。 三、简答题(每题5分,共30分) 1.如有一个经解释实现的计算机,可以按功能划分成4级。每一 级为了执行一条指令需要下一级的N条指令解释。若执行第一 级的一条指令需K(ns)时间,那么执行第2、3、4级的一条指 令各需要用多少时间(ns)? 答:第1级:1条1级指令 K ns 第2级:1条2级指令N条1级指令 1*N*K ns = NK ns 第3级:1条3级指令N条2级指令 1*N*NK ns =N2K ns 第4级:1条4级指令N条3级指令 1*N*NNK ns =N3K ns 2.根据Amdahl定律,系统加速比由哪两个因素决定? 答:系统加速比依赖于两个因素: (1)可改进比例:可改进部分在原系统计算时间中所占的比例 (2)部件加速比:可改进部分改进以后的性能提高 3.简述组相联映象规则。 答:(1)主存与缓存分成相同大小的数据块。(2)主存和Cache 按同样大小划分成组。(3)主存容量 是缓存容量的整数倍,将主存空间按缓冲区的大小分成区,主存中每一区的组数与缓存的组数相同 4.引起Cache与主存内容不一致的原因是什么?为了保持Cache 的一致性,在单计算机系统中一般采取哪些措施? 答:不一致的原因:(1)由于CPU写Cache,没有立即写主存 (2)由于I/O处理机或I/O设备写主存 采取措施: (1)全写法,亦称写直达法(WT法-Write through) 方法:在对Cache进行写操作的同时,也对主存该内容进行写入 (2)写回法(WB法-Write back) 方法:在CPU执行写操作时,只写入Cache,不写入主存。 5.按照同一时间内各段之间的连接方式来分,流水线可分为哪两 类? 答:(1)静态流水线:在同一时间内,流水线的各段只能按同一种功能的连接方式工作。 (2)动态流水线:在同一时间内,当某些段正在实现某种运算时,另一些段却在实现另一种运算。 6.Flynn分类法是根据什么对计算机进行分类的?将计算机分 成哪几类? 答:Flynn分类法,根据计算机中指令和数据的并行状况把计算机分成: (1)单指令流单数据流(SISD.; (2)单指令流多数据流(SIMD.; (3)多指令流单数据流(MISD.; (4)多指令流多数据流(MIMD.。 四、问答与计算题(第1题10分,第2、3题每题15分共40分) 1.一个有快表和慢表的页式虚拟存储器,最多有64个用户,每 个用户最多要用1024个页面,每页4K字节,主存容量8M字节。 (1)写出多用户虚地址的格式,并标出各字段的长度。 (2)写出主存地址的格式,并标出各字段的长度。

计算机体系结构试题汇总

计算机系统结构 姓名:学号: 一、简答题(每小题10分,共20分) 1.简述使用物理地址进行DMA存在的问题,及其解决办法。 2.从目的、技术途径、组成、分工方式、工作方式等5个方面对同构型多处理机和异构型多处理机做一比较(列表)。 二、(60分)现有如下表达式: Y=a ×X 其中:X和Y是两个有64个元素的32位的整数的向量,a为32位的整数。假设在存储器中,X和Y的起始地址分别为1000和5000,a的起始地址为6000。 1.请写出实现该表达式的MIPS代码。 2.假设指令的平均执行时钟周期数为5,计算机的主频为500 MHz,请计算上述MIPS 代码(非流水化实现)的执行时间。 3.将上述MIPS代码在MIPS流水线上(有正常的定向路径、分支指令在译码段被解析出来)执行,请以最快执行方式调度该MIPS指令序列。注意:可以改变操作数,但不能改变操作码和指令条数。画出调度前和调度后的MIPS代码序列执行的流水线时空图,计算调度前和调度后的MIPS代码序列执行所需的时钟周期数,以及调度前后的MIPS流水线执行的加速比。 4.根据3的结果说明流水线相关对CPU性能的影响。 三、(20分)请分析I/O对于性能的影响有多大?假设: 1.I/O操作按照页面方式进行,每页大小为16 KB,Cache块大小为64 B;且对应新页的地址不在Cache中;而CPU不访问新调入页面中的任何数据。 2.Cache中95%被替换的块将再次被读取,并引起一次失效;Cache使用写回方法,平均50%的块被修改过;I/O系统缓冲能够存储一个完整的Cache块。 3.访问或失效在所有Cache块中均匀分布;在CPU和I/O之间,没有其他访问Cache 的干扰;无I/O时,每1百万个时钟周期中,有15,000次失效;失效开销是30个时钟周期。如果替换块被修改过,则再加上30个周期用于写回主存。计算机平均每1百万个周期处理一页。

计算机体系结构_第一次作业

计算机体系结构 第一章 1.11 Availability is the most important consideration for designing servers, followed closely by scalability and throughput. a. We have a single processor with a failures in time(FIT) of 100. What is the mean time to failure (MTTF) for this system? b. If it takes 1 day to get the system running again, what is the availability of the system? c. Imagine that the government, to cut costs, is going to build a supercomputer out of inexpensive computers rather than expensive, reliable computers. What is the MTTF for a system with 1000 processors? Assume that if one fails, they all fail. 答: a. 平均故障时间(MTTF)是一个可靠性度量方法,MTTF的倒数是故 障率,一般以每10亿小时运行中的故障时间计算(FIT)。因此由该定义可知1/MTTF=FIT/10^9,所以MTTF=10^9/100=10^7。b. 系统可用性=MTTF/(MTTF+MTTR),其中MTTR为平均修复时间, 在该题目中表示为系统重启时间。计算10^7/(10^7+24)约等于1. c. 由于一个处理器发生故障,其他处理器也不能使用,所以故障率 为原来的1000倍,所以MTTF值为单个处理器MTTF的1/1000即10^7/1000=10^4。 1.14 In this exercise, assume that we are considering enhancing

计算机体系结构期末试卷及答案

课程测试试题( A 卷) ----------------------以下为教师填写-------------------- I、命题院(部):信息科学与工程学院 II、课程名称:计算机体系结构 III、测试学期:2014-2015学年度第2学期 IV、测试对象:信息学院计算机、网络专业 2012 级班 V、问卷页数(A4): 3 页 VI、答卷页数(A4): 4 页 VII、考试方式:闭卷(开卷、闭卷或课程小论文,请填写清楚) VIII、问卷内容: 一、填空题(共30分,20空,每空分) 1、现代计算机系统是由()和()组成的十分复杂的系统。 2、计算机系统应能支持软件可移植,实现可移植性的常用方法有3种,即(),(), 统一高级语言。 3、可以将当前大多数通用寄存器型指令集结构进一步细分为3种类型,即()、() 和存储器-存储器型指令集结构。 4、MIPS指令DADDIU R14,R5,#6属于()类型的指令格式;MIPS指令 SD R4,300(R5)属于()类型的指令格式。 5、描述流水线的工作,常采用时空图的方法。在时空图中,横坐标表示(),纵坐 标代表()。 6、在MIPS指令实现的简单数据通路中,在WB周期中,有两大类指令执行操作:() 和()指令。 7、存储器的层次结构中,“Cache-主存”层次是为了弥补主存()的不足,“主 存-辅存”层次是为了弥补主存()的不足。 8、Cache实现的映像规则有全相联映像、()和()三种。 9、反映存储外设可靠性能的参数有可靠性、()和()。 10、根据系统中处理器个数的多少,可把现有的MIMD计算机分为两类,每一类代表 了一种存储器的结构和互连策略。第一类机器称为()结构,第二类机器具有()。 二、判断题(每小题1分,共10分) 1、从计算机语言的角度,系统结构把计算机系统按功能划分成多级层次结构,其中, 第2级是操作系统虚拟机,第3级是汇编语言虚拟机。() 2、计算机系统中提高并行性的3种途径中,资源重复是在并行性概念中引入时间因 素,加快硬件周转而赢得时间。() 3、指令集结构中采用多种寻址方式可能会增加实现的复杂度和使用这些寻址方式的 指令的CPI。() 4、指令条数多,通常超过200条,是设计RISC的原则之一。() 5、根据流水线中各功能段之间是否有反馈回路,可把流水线分为线性流水线和非线 性流水线。() 6、在多级存储体系中,“cache——主存”层次的存储管理实现主要由软件件实现。

-计算机系统结构(有详细答案)

(仅供参考,不作为考试标准), 选择题(30分,每题2分) 计算机系统结构设计者所关心的是________所看到的的计算机结构。 A)硬件设计人员B)逻辑设计人员 C)机器语言或汇编语言程序员D)高级语言程序员 在计算机系统设计时,为了提高系统性能,应当注意________。 A)加快经常性使用指令的执行速度 B)要特别精心设计少量功能强大的指令 C)要减少在数量上占很小比例的指令的条数 D)要加快少量指令的速度 重叠寄存器技术主要用于解决在RISC系统中因________而导致的问题。 A)JMP指令影响流水线 B)CALL指令的现场保护 C)只有LOAD和STORE指令带来的访问存储器不便 D)存储器访问速度 为使流水计算机运行效率高________ A)各过程段时间要不同B)连续处理的任务类型应该不同 C)连续处理的任务类型应该相同D)连续处理的任务数尽可能少不属于堆栈型替换算法的是________。 A)近期最少使用法B)近期最久未用法 C)先进先出法D)页面失效频率法 与全相联映象相比,组相联映象的优点是________。 A)目录表小B)块冲突概率低C)命中率高D)主存利用率高"一次重叠"中消除"指令相关"最好的方法是________。 A)不准修改指令B)设相关专用通路 C)推后分析下条指令D)推后执行下条指令 流水操作中,遇到数据相关时,采用的解决办法有________。 A)用优化编译器检测,通过指令重新排序的办法 B)数据重定向技术 C)延迟转移技术 D)加快和提前形成条件码 经多级网络串联来实现全排列网络,只能用________。 A)多级立方体网络B)多级PM2I网络 C)多级混洗交换网络D)上述任何网络 虫蚀寻径以流水方式在各寻径器是顺序传送的是________。 授课:XXX

相关主题
文本预览
相关文档 最新文档