计算机高性能体系结构复习资料整理

格式：pdf
大小：503.20 KB
文档页数：9

下载文档原格式

/ 9

计算机体系结构复习资料

第一章计算机体系机构的基本概念1.计算机系统结构包括数据表示、机器工作状态、信息保护，不包括主存速度。

计算机系统结构应该考虑的内容包括主存容量和编址方式，而主存采用MOS还是TTL器件、主存是采用多体交叉还是单体、主存频宽的确定等都不是计算机系统结构应该考虑的内容。

存储器采用单体单字，还是多体交叉并行存取，对系统结构设计是透明的。

又如在系列机内推出新机器，不能更改的是原有指令的寻址方式和操作码，而存储芯片的集成度、系统总线的组成、数据通路宽度是可以更改的。

系列机是指在一个厂家内生产的具有相同的体系结构，但具有不同的组成和实现的一系列不同型号的机器。

2. 计算机系统中提高并行性的技术途径有时间重叠、资源重复和资源共享三种。

在高性能单处理机的发展中，它的实现基础是流水线。

3. 软件和硬件在逻辑功能上是等效的，软件的功能可用硬件或固件完成，但性能、实现的难易程度不同。

4. Amdahl 定律：加快某部件执行速度所获得的系统性能加速比，受限于该部件在系统中所占的重要性。

5. 计算机组成是计算机系统结构的逻辑实现，计算机实现是计算机组成的物理实现。

6. 计算机系统多级层次结构由高到低，依次是应用语言机器级、高级语言机器级、汇编语言机器级、操作系统机器级、传统机器语言级和微程序机器级。

7. 某计算机系统采用浮点运算部件后，使浮点运算速度提高到原来的20倍，而系统运行某一程序的整体性能提高到原来的5倍，试计算该程序中浮点操作所占的比例。

系统加速比=1 / (1-可改进比例+可改进比例/部件加速比)5 = 1 / (1-可改进比例+可改进比例/ 20)可得可改进比例=84.2%8. 假设某应用程序中有4类操作，通过改进，各操作获得不同的性能提高。

具体数据、如下所示。

（1）改进后，各类操作的加速比分别是多少？（2）各类操作单独改进后，程序获得的加速比分别是多少？（3）4类操作均改进后，整个程序的加速比是多少？多部件改进后的系统加速比=1 / (1-（11.1%+33.3%+38.9%+16.7%）+（11.1%/2+33.3%/1.33+38.9%/3.33+16.7%/4）)=2.169. 将计算机系统中某一功能的处理速度加快20倍，但该功能的处理时间仅占整个系统运行时间的40%，则采用此增强功能方法后，能使整个系统的性能提高多少。

计算机高性能体系结构复习资料整理

A. 指令 i 产生的结果被指令 j 使用；
B. 指令 j 与指令 k 数据相关，而指令 k 与指令 i 数据相关。数据相关：考虑两条指令 i 和 j，i 在 j 的前面，如果下述条件之一成立，则称指令 j 与指令 i 数据相关：（1）指令 j 使用指令 i 产生的结果；（2）指令 j 与指令 k 数据相关，而指令 k 又与指令 i 数据相关精确异常：（所谓不精确异常，是指：当执行指令 i 导致发生异常时，处理机的现场（状态）
第四章互连与通信
互连网络：由开关元件按一定拓扑结构和控制方式构成的网络以实现计算机系统内部多个处理机或多个功能部件间的相互连接。网络直径：是指互联网络中任意两个结点之间距离的最大值。虚拟通道：是两个节点间的逻辑链接，它是由源结点的片缓冲区、结点间的物理
通道以及接收结点的片缓冲区组成。
第五章 Cache Coherence
第二章高性能计算机性能测评
并行度：指令并行执行的最大条数。在指令流水中，同时执行多条指令称为指令并行。并行性：计算机系统在同一时刻或者同一时间间隔内进行多种运算或操作。只要在时间上相互重叠，就存在并行性。它包括同时性与并发性两种含义。加速比：（speedup），是同一个任务在单处理器系统和并行处理器系统中运行消耗的时间的比率，用来衡量并行系统或程序并行化的性能和效果。绝对加速比：
简述题
第一章高性能计算与高性能计算机
何为高性能计算，研究高性能计算有何意义？高性能计算(英文 high performance computing，缩写 HPC) 指通常使用很多处理器（作为单个机器的一部分）或者某一集群中组织的几台计算机（作为单个计算资源操作）的计算系统和环境。意义：1）高性能计算的内在含义

计算机系统结构复习题（含答案）

计算机系统结构复习题（含答案）计算机系统结构复习题1、虚拟机的概念虚拟机（Virtual Machine）指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。

2、指令系统的设计方法、概念、主要原因、对象、总线的仲裁算法主要原因：因为指令系统是软件设计人员与硬件设计人员之间的一个主要分界面，也是他们之间互相沟通的一座桥梁。

对象：概念：又称指令集（instruction set）是计算机体系结构设计的核心，是计算机软、硬件接口,是指机器所具有的全部指令的集合。

它反映了计算机所拥有的基本功能。

它是机器语言程序员所看到的机器的主要属性之一。

设计方法：①、首先考虑所应实现的基本功能，确定哪些基本功能应该由硬件实现，哪些功能由软件实现比较合适。

包括指令的功能设计和指令格式的设计；②、在确定哪些基本功能用硬件来实现时，主要考虑3个因素：速度、成本、灵活性；硬件实现的特点：速度快、成本高、灵活性差软件实现的特点：速度慢、价格便宜、灵活性好③、对指令系统的基本要求完整性、规整性、正交性、高效率、兼容性。

总线仲裁算法有：静态优先级算法、固定时间片算法、（动态优先级）算法和（先来先服务）算法3、要实现两条指令在世间上重叠解释步骤是什么？为了实现两条指令在时间上重叠解释：首先需要付出空间代价，如增加数据总线、控制总线、指令缓冲器、地址加法器、相关专用通路，将指令分析部件和指令执行部件功能分开、单独设置，主存采用多体交叉存取，等等。

其次要处理好指令之间可能存在的关联，如转移的处理，指令相关，主存空间数的相关、通用寄存器组的数相关和基址值相关等的处理。

此外，还应合理调配好机器指令的微操作，使“分析”和“执行”的时间尽可能相等，以提高重叠的效率。

4、互连网络的交换方式有（线路交换）、（包交换）和（线路/包交换）5、SIMD互连网络采用（线路）交换，多处理机常采用（包）交换6、与重叠机器一样，流水机器在遇到（转移指令）指令，尤其是（条件转移指令）指令时，效率也会显著下降7、按指令与数据流的多倍性将数据流分为（SISD）、（SIMD）、（MISD）、（MIMD）四类。

北京科技大学计算机体系结构总复习汇总(无重复带计算)

一、名词解释1、Cache 2:1 经验规则：大小为N的直接映像Cache的失效率约等于大小为N/2的两路组相联Cache的失效率。

2、计算机体系结构：指那些对程序员可见的系统属性，还包括设计思想与体系结构。

3、同构型多处理机：由多个同类型，至少担负同等功能的处理机组成，同时处理同一作业中能并行执行的多个任务。

4、通道处理机：能够执行有限I/O指令，并且能够被多台外围设备共享的小型DMA专用处理机。

5、堆栈型机器：其CPU中存储操作数的主要单元是堆栈。

6、Victim Cache：在Cache与下一级存储器的数据通路之间增设一个全相联的小Cache，用来存放由于失效而被丢弃（替换）的那些块。

7、RAID：廉价磁盘冗余阵列或独立磁盘冗余阵列8、累加器型机器：其CPU中存储操作数的主要单元是累加器9、透明性：在计算机技术中，对本来存在的事物或属性，但从某种角度看又好象不存在的概念称为透明性。

10、向量处理机：面向向量型并行计算，以流水线结构为主的并行处理计算机。

11、通用寄存器型机器：CPU中存储操作数的主要单元是通用寄存器。

12、虚拟Cache：访问Cache的索引和标识都是虚拟地址的一部分。

13、机群：机群是一种价格低廉、易于构建、可扩放性极强的并行计算机系统。

它由多台同构或异构的独立计算机通过高性能网络或局域网互连在一起，协同完成特定的并行计算任务。

从用户的角度来看，机群就是一个单一、集中的计算资源。

14、定向技术：当流水线中出现数据冲突时，可以将计算结果从其产生的地方直接送到其他指令中需要它的地方，或所有需要它的功能单元，避免暂停。

15、系列机：由同一厂家生产的具有相同的系统结构，但具有不同组成和实现的一系列不同型号的机器。

16、强制性失效：当第一次访问一个块时，该块不在Cache中，需从下一级存储器中调入Cache，这就是强制性失效。

17、失效率：CPU在第一级存储器中找不到所需数据的概率。

高性能计算机试题

高性能计算机体系结构试题1．名词注释推测执行，指令级并行，并行计算机，流水线，反相关，结构竞争。

2．简述题简述高性能计算机系统的应用领域；简述记分牌算法中指令执行阶段及每个阶段所解决的冲突类型；（资料5）简述解决数据冒险的几种方法；简述路径调动技术的基本思想。

（课件第三部分，P33）3．下面四组MIPS代码，每组由两条指令组成（1）DADDI R1, R1, 4 （2）DADD R3，R1，R2LD R2, 7(R1) SD R2，7（R1）（3）SD R2，7（R1）（4）BEZ R1，PLACESD F2，200（R7）SD R1，7（R1）判断每组是否存在相关，如果存在，请给出相关的类型，并判断每组是否能乱续执行。

4. 根据需要展开下面的循环并进行指令调度，直到没有任何延迟（资料4）LOOP: LD F0,0(R1)MULTD F0,F0,F2LD F4,0(R2)ADDD F0,F0,F4SD 0(R2),F0SUBI R1,R1,8SUBI R2,R2,8BNEQZ R1,LOOP指令延迟表如下：5．假设有一个长流水线，仅仅对条件转移指令使用目标缓冲。

假设分支预测错误的开销为4个时钟周期，缓冲不命中的开销为3个时钟周期。

假设：命中率为95%，预测精度为90%，分支频率为20%，没有分支的基本CPI为1。

（1）程序执行的CPI（2）相对于采用固定的2个时钟周期延迟的分支处理，哪种方法程序的执行速度快？6．请将如下代码写成软件流水循环。

LOOP: LD F0，0(R1)ADDD F4，F0，F2MULTD F6，F4，#5SD F6，0(R1)DSUBI R1，R1，# 8BNZ R1，R2，LOOP7．由16个节点组成的立方体网络中，按照E立方体路由，请给出15号节点传送数据给4号节点的路由过程。

课件第四部分P17）。

超级计算机的体系结构和性能分析

超级计算机的体系结构和性能分析超级计算机是目前世界上最为强大的计算机之一，能够处理巨大的数据和运算任务，是现代科学和技术发展的重要基础设施。

但是想要深入了解超级计算机的性能和体系结构，需要具备一些相关的专业知识和技能。

本文将从计算机结构、处理器、内存等方面进行分析，帮助读者更好地了解超级计算机的体系结构和性能。

一、计算机结构超级计算机的结构与普通计算机基本一致，主要包括CPU、内存、输入输出设备等部件，但是其规模和性能要远远超过普通计算机。

超级计算机通常采用并行计算的方式，即将大的任务分解成若干个小任务，由多个处理器并行处理，最终将结果整合起来。

这种方法可以大大提高计算效率，缩短计算时间。

二、处理器超级计算机的处理器通常采用多核心和超线程技术。

多核心技术指处理器内部集成了多个独立的CPU核心，可以同时处理多个任务。

超线程技术是在单一核心内部模拟多个逻辑核心，可以实现单一核心同时处理多个线程。

这些技术的使用可以有效提高计算机的运算速度和效率。

三、内存超级计算机的内存通常采用高性能存储技术，如延迟高带宽内存（HBM）、高速缓存（Cache）等。

这些技术可以实现内存数据的快速读取和存储，为计算机的高速运算提供了保障。

此外，超级计算机的内存容量通常需要大于普通计算机，以应对大规模的数据处理需求。

四、高速网络超级计算机的高速网络是其性能优异的重要保障。

高速网络可以实现处理器之间和计算节点之间的高速数据传输，提高数据处理效率和运算速度。

此外，高速网络还可以支持异构计算，即不同种类的处理器在同一系统中协同工作，共同完成计算任务。

总之，超级计算机是目前科学技术发展中不可或缺的重要设备。

了解其体系结构和性能分析对于深入理解超级计算机的运行原理和应用场景非常重要。

通过对计算机结构、处理器、内存等方面的分析，我们可以更好地了解超级计算机的优势和限制，从而更好地利用其为科学技术发展做出贡献。

计算机系统结构知识点复习考点归纳总结

计算机系统结构知识点复习考点归纳总结令）控制计算机硬件的层次，汇编语言机器级则是用（助记符）来控制计算机硬件的层次。

22、缓存技术是为了（解决处理器与主存速度不匹配的问题）而引入的。

23、DMA访问是指（直接内存访问）技术，可以减少CPU的负担，提高数据传输效率。

24、在多处理机系统中，（任务）级并行性是指多个任务同时执行，（数据）级并行性是指一个任务中的多个数据同时执行。

25、计算机系统中的（指令流水线）技术可以提高CPU 的运行效率，将多个指令的执行过程重叠起来，从而减少CPU的空闲时间。

26、计算机系统中的（虚拟存储器）技术可以将主存和辅存结合起来，使得程序能够访问比主存更大的地址空间，从而提高系统的性能。

27、计算机系统中的（分布式系统）是指将多个计算机连接起来，共同完成一个任务，可以提高系统的可靠性和性能。

28、计算机系统中的（并行计算）技术可以将一个大问题分解成多个小问题，同时在多个处理器上进行计算，从而提高计算速度和效率。

29、计算机系统中的（云计算）是指将计算资源和服务通过网络提供给用户，可以实现资源的共享和高效利用。

4096字节之间）当程序需要访问某一页时。

操作系统会将该页从磁盘上读入主存，然后再进行访问。

这种方式可以提高存储器的利用率，但也会增加访问时间和开销。

并行性是指在同一时间段内完成多项任务的能力。

它可以分为最低耦合、松散耦合和紧密耦合三种类型，取决于物理连接的紧密度和交叉作用能力的强弱。

开发并行性的途径有时间重叠、资源重复和资源共享。

并行性的开发需要综合考虑硬件、软件、语言、算法和性能评价等因素。

资源重复是指通过重复设置硬件资源来提高可靠性或性能。

最典型的例子是双工系统。

资源重复不仅可以提高可靠性，而且可以进一步用多计算机或机群系统来提高系统的速度性能。

并行处理技术的研究需要综合考虑硬件、软件、语言、算法和性能评价等因素。

沿时间重叠技术途径发展的异构型多处理机系统的典型结构代表是流水线处理机。

02325计算机系统结构复习资料

第一章计算机系统结构的基本概念从处理数据的角度看，并行级别有位串字串，位并字串，位片串字并，全并行。

位串字串和位并字串基本上构成了SIMD。

位片串字并的例子有：相联处理机STARAN，MPP。

全并行的例子有：阵列处理机ILLIAC IV。

从加工信息的角度看，并行级别有存储器操作并行，处理器操作步骤并行，处理器操作并行，指令、任务、作业并行。

存储器操作并行是指可以在一个存储周期内并行读出多个CPU字的，采用单体多字、多体单字或多体多字的交叉访问主存系统，进而采用按内容访问方式，位片串字并或全并行方式，在一个主存周期内实现对存储器中大量字的高速并行操作。

例子有并行存储器系统，以相联存储器为核心构成的相联处理机。

处理器操作步骤并行是指在并行性概念中引入时间因素，让多个处理过程在时间上错开，轮流重复地执行使用同一套设备的各个部分，加快硬件周转来赢得速度。

例子有流水线处理机。

处理器操作并行是指一个指令部件同时控制多个处理单元，实现一条指令对多个数据的操作。

擅长对向量、数组进行处理。

例子有阵列处理机。

指令、任务、作业并行是指多个独立的处理机分别执行各自的指令、任务、作业。

例子有多处理机，计算机网络，分布处理系统。

并行性的开发途径有时间重叠(TimeInterleaving)，资源重复(ResourceReplication)，资源共享(Resource Sharing)。

时间重叠是指在并行性概念中引入时间因素，让多个处理过程在时间上错开，轮流重复地执行使用同一套设备的各个部分，加快硬件周转来赢得速度。

例子有流水线处理机。

资源重复是指一个指令部件同时控制多个处理单元，实现一条指令对多个数据的操作。

例子有阵列处理机，相联处理机。

资源共享是指用软件方法让多个用户按一定时间顺序轮流使用同一套资源以提高资源的利用率，从而提高系统性能。

例子有多处理机，计算机网络，分布处理系统。

SISD:一个指令部件控制一个操作部件，实现一条指令对一个数据的操作。

高级计算机体系结构(精编)

5. 对某处理器进行功耗测试，得到如下数据：时钟不翻转，电压1.2V时，电流为500mA；时钟频率为1GHz，电压1.2V时，电流为2500mA。请计算此处理器的静态功耗以及500MHz下的总功耗。
1. 解：A 为10MIPS，B 为20MIPS，C 为40MIPS。三台机器实际性能相同。 2. 解：加速比y 与向量化比例x 之间的关系是：y=1/((1-x)+x/8)=1/(1-7x/8)……(A) (2) 在式(A)中令y=2，可解得x=4/7≈57.14%。此时向量模式运行时间占总时间比例是((4/7)/8)/(3/7+((4/7)/8))=1/7=14.29% (3) 硬件方法，整体加速比为1/(1-0.7*(1-1/16))=2.91 软件方法，设相同加速比下向量化比例为x，即1/(1-7x/8)=2.91, x=0.75 所以推荐软件方法。 3. 解： (1) MIPSEMUL=(I+F×Y)/(W×106) ；MIPSFPU=(I+F)/(B×106) (2) 120=(I+8×106×50)/(4×106) => I=80×106 (3) 80=(80×106+8×106)/(B×106) => B=1.1 (4) MFLOPS=F/((B-((W*I)/(I+F*Y))) ×106)≈18.46 (5) 决策正确，因为执行时间缩短了，这才是关键标准。 5. 解： 1.1V 下静态功耗1.1*1.1/(1.05/0.5)=0.576W 1.1V 下1GHZ 时动态功耗为1.1*2.5-0.576=2.174W 1.1V 下0.5GHZ 功耗功耗为2.174*0.5/1=1.087W 1.1V 下0.5GHZ 总功耗为1.087+0.576=1.663W

计算机系统结构复习材料（供参考）

计算机系统结构复习材料（供参考）这边整理的例题，⽼师说不会考原题！请配合PPT 和课本使⽤，认真复习。

如果到时候没有帮上很⼤的忙请不要怪我！⼀、填空题（每空1分，共20分）1．计算机系统多级层次结构含义P1 考6个机器级以及各⾃⽤什么实现。

计算机多级层次结构由⾼到低分别为应⽤语⾔机器级、⾼级语⾔机器级、汇编语⾔机器级、操作系统机器级（前4者均⽤软件实现）、传统机器语⾔机器级（⽤微程序（固件）实现）和微程序机器级（⽤硬件实现）。

2．弗林分类P26 可以写英⽂也可以写中⽂。

1966年，弗林提出按指令流和数据流的多倍性对计算机系统分类。

把计算机系统分成单指令流单数据流SISD 、单指令流多数据流SIMD 、多指令流单数据流MISD 和多指令流多数据流四⼤类MIMD 。

3．计算机系统持续性能评测，⼏种⽅式表达式，以及表达式中变量含义P10。

⼏何性能平均值不考。

（1）算术性能平均值A m①以速率评价： = 1/n(1/T 1+1/T 2+……+1/Tn)②以时间评价:（2）调和性能平均值H m= n/( T 1+T 2+……+Tn)（3）加权算术平均值A m以上的式⼦，T i 和R i 分别是第i 个程序的执⾏时间和执⾏速率，αi 是权值∑∑====n i in i i m T n R n A 11111∑==ni i m T n A 11∑∑====ni i n i i m T n R n H 111∑∑====ni iini i i m T R A 111αα4．规格浮点数，P40表2-1。

这题是这样考的：题⽬会给化出p=？，m=？，r m=？和某种条件，然后求该条件下的值。

（以下那张图考试时不会给出），并要记补充那句。

* 表中特例是指r m为2的整数次幂时，⽤=2m代⼊。

补充：随着r m越⼤，可表⽰数的范围增⼤、个数增多、精度单调下降，右移造成的精度损失降低，运算速度提⾼。

5．尾数下溢处理⽅法，优缺点⽐较P44。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第二章高性能计算机性能测评
并行度：指令并行执行的最大条数。在指令流水中，同时执行多条指令称为指令并行。并行性：计算机系统在同一时刻或者同一时间间隔内进行多种运算或操作。只要在时间上相互重叠，就存在并行性。它包括同时性与并发性两种含义。加速比：（speedup），是同一个任务在单处理器系统和并行处理器系统中运行消耗的时间的比率，用来衡量并行系统或程序并行化的性能和效果。绝对加速比：
简述题
第一章高性能计算与高性能计算机
何为高性能计算，研究高性能计算有何意义？高性能计算(英文 high performance computing，缩写 HPC) 指通常使用很多处理器（作为单个机器的一部分）或者某一集群中组织的几台计算机（作为单个计算资源操作）的计算系统和环境。意义：1）高性能计算的内在含义
与严格按照程序顺序执行时指令 i 的现场不同。反之，如果发生异常时，处理机的现场跟严格按程序顺序执行时指令 i 的现场相同，则称为精确异常。）
VLIW：超长指令字(Very long instruction word)指的是一种被设计为可以利用指令级并行(ILP)优势的 CPU 体系结构。一个按照顺序执行指令的非超标量处理器不能充分的利用处理器的资源，有可能导致低性能。超标量：一种多指令流出技术。它在每个时钟周期流出的指令条数不固定，依代码的具体情况而定，但有个上限。超流水：在一个时钟周期内分时流出多条指令。超长指令字：一种多指令流出技术。VLIW 处理机在每个时钟周期流出的指令条数是固定的，这些指令构成一条长指令或者一个指令包，在这个指令包中，指令之间的并行性是通过指令显式地表示出来的。全局指令调度：需要在多个基本块间移动指令的调度被称为全局指令调度。路径（踪迹）调度：(trace scheduling)，踪迹是程序执行的指令序列，通常有一个或多个基本块组成，踪迹内可以有分支，但不一定包含循环。踪迹调度会优化执行频率高的踪迹，减少其执行开销，踪迹调度包括踪迹选择和踪迹压缩两个步骤。关键路径：是指根据指令间相关关系构成的数据流图中延迟最长的一条路径。循环展开：是一种增加指令间并行性最简单和最常用的方法。它将循环展开若干遍后，通过重命名和指令调度来开发更多的并行性。循环级并行：循环的不同叠代之间存在的并行性。谓词执行：( predicated execution) 是显式并行技术( EPIC ) 的一个重要的组成部分, 是条件执行技术的一种实现, 它为每条指令增加一个源操作数( 即谓词) 作为指令执行条件, 当谓词为真时执行指令中的操作, 否则将其转换为空操作处理。软件流水：软件流水是一种重组循环体的技术，在软件流水循环（ Software pipeline loop）的每一次迭代（即新的重组后的循环）体是由原循环的不同迭代中选出的指令组成的，可以达到消除相关性的目的。软件流水技术是通过对循环重新进行建构，使得每次迭代执行的指令是属于原循环不同迭代过程的，是用来安排循环指令，是这个循环的多次迭代并行执行的一种技术。结构冒险（冲突 Hazard）：在流水线处理机中，如果某种指令组合因为资源冲突不能正常执行则称该处理机有结构冲突，这种情况发生在功能部件不是完全流水或者资源份数不够时。
本资料是鹤鹤精心整理，仅限内部使用！！！
计算机高性能体系结构复习资料
名词解释
第一章高性能计算与高性能计算机
MPP：大规模并行处理计算机：Massive Parallel Processor。由大量通用微处理器构成的多处理机系统，适合多指令流多数据流处理。 SMP：（Symmetric Multi-Processing）对称多处理结构的简称，是指在一个计算机上汇集了一组处理器(多 CPU),各 CPU 之间共享内存子系统以及总线结构。在这种技术的支持下，一个服务器系统可以同时运行多个处理器，并共享内存和其他的主机资源。 DSM：分布共享存储，内存模块物理上局部于各个处理器内部，但逻辑上（用户）是共享存储的；这种结构也称为基于 Cache 目录的非一致内存访问（CC-NUMA）结构；高性能计算机：（也称作巨型计算机、超级计算机）由多个计算单元组成，运算速度快、存储容量大、可靠性高的计算机系统。并行计算机：由多个处理单元组成的计算机系统，这些处理单元相互通讯和协助，能够告诉、高效地求解大型复杂问题。共享存储器多处理机码除了入口和出口以外，没有其他分支指令和转入点，则称之为一个基本程序块。
指令相关：是指指令之间存在的相互依赖的关系，属于程序固有的属性。指令级并行：简称 ILP。是指指令之间存在的一种并行性，利用它，计算机可以并行执行两条或两条以上的指令。指令调度:为了充分发挥流水线的作用，必须设法让它满负荷的工作，这就要求充分开发指
A. 指令 i 产生的结果被指令 j 使用；
B. 指令 j 与指令 k 数据相关，而指令 k 与指令 i 数据相关。数据相关：考虑两条指令 i 和 j，i 在 j 的前面，如果下述条件之一成立，则称指令 j 与指令 i 数据相关：（1）指令 j 使用指令 i 产生的结果；（2）指令 j 与指令 k 数据相关，而指令 k 又与指令 i 数据相关精确异常：（所谓不精确异常，是指：当执行指令 i 导致发生异常时，处理机的现场（状态）
将最好的串行算法与并行算法相比较. 定义一（与具体机器有关）将最好的串行算法在一台处理机上的运行时间与并行算法在 N 台处理机上运行的时间相比。定义二（与具体机器无关）将最好的串行算法在最快的顺序机上的执行时间与并行算法在并行机上的运行时间相比。相对加速比：同一并行算法在单节点上运行时间与在多个相同节点构成的处理机系统上的运行时间之比。这种定义侧重于描述算法和并行计算机本身的可扩展性。并行机的可扩展性：对任意数量级的处理机和任意规模的问题，若所有算法的系统效率都为 1，则系统是可扩展的。
令之间存在的并行性，找出不相关的指令序列，让它们在流水线上重叠并行执行，这一工作
就是指令调度。
指令的静态调度：是指依靠编译器对代码进行静态调度，以减少相关和冲突。它不是在程序执行的过程中、而是在编译期间进行代码调度和优化的。指令的动态调度：是指在保持数据流和异常行为的情况下，通过硬件对指令执行顺序进行重新安排，以提高流水线的利用率且减少停顿现象。是由硬件在程序实际运行时实施的。乱序执行技术：乱序执行（out-of-order execution）是指 CPU 采用了允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理的技术。推测执行：允许在处理器还未判断指令是否执行之前就提前执行。分支预测：（Branch Prediction)：从 P5 时代开始的一种先进的，解决处理分支指令（if-then-else)导致流水线失败的数据处理方法，由 CPU 来判断程序分支的进行方向，能够加快运算速度。保留站：在采用 Tomasulo 算法的 MIPS 处理器浮点部件中，在运算部件的入口设置的用来保存一条已经流出并等待到本功能部件执行的指令（相关信息）。记分牌：是一集中控制部件，其功能是控制数据寄存器与处理部件之间的数据传送。在记分牌中保存有与各个处理部件相联系的寄存器中的数据装载情况。当一个处理部件所要求的数据都已就绪（装载完毕），记分牌允许处理部件开始执行。当执行完成后，处理部件通知记分牌释放相关资源。所以在记分牌中记录了数据寄存器和多个处理部件状态的变化情况，通过它来检测和消除或减少数据相关性，加快程序执行速度。流水线：是多条指令同时执行的一种实现技术，是一种在连续指令流中开发指令级并行性的技术。流水线技术：将一个重复的时序过程，分解成为若干个子过程，而每一个子过程都可有效地在其专用功能段上与其它子过程同时执行。数据竞争：当指令在流水线中重叠执行时，因需要用到前面指令的执行结果而发生的冲突。控制竞争: 流水线遇到分支指令或其它会改变 PC 值的指令所引起的冲突。结构竞争：因硬件资源满足不了指令重叠执行的要求而发生的冲突。反相关：（Anti-dependence）(硬件出现冒险的 WAR) 指令 j 写入一个指令 I 将读取的寄存器或存储器位置，并且指令 I 首先执行名相关：（name dependence）两条指令使用相同名字(寄存器或存储器位置)，但是却不交换数据输出相关：（Output dependence）(硬件出现冒险的 WAW) 指令 i 和指令 j 写入相同的寄存器或存储器位置；必须保证指令的执行顺序控制相关：是指由分支指令引起的相关。它需要根据分支指令的执行结果来确定后面该执行哪个分支上的指令。真数据相关：数据相关（真相关）。如果满足以下两个条件，则称指令 j 与指令 i 是数据相关的：
2）高性能计算的应用需求 3）高性能计算的战略地位何为并行计算机？简述当代几种主流的并行计算机系统并行计算机是由多个处理单元组成的计算机系统，这些处理单元相互通讯和协助，能够高速、高效地求解大型复杂问题。流行的并行计算机系统：对称多处理机系统(SMP)、分布式共享存储系统(DSM)、大规模并行计算机系统(MPP)、集群系统(Cluster)、并行向量机（PVP）工作站机群（COW）等。何为 CMP？请简单说明 CMP 与 SMP 的关系 CMP：单芯片多处理器（Chip multiprocessors，简称 CMP），也指多核心。是由美国斯坦福大学提出的，其思想是将大规模并行处理器中的 SMP（对称多处理器）集成到同一芯片内，各个处理器并行执行不同的进程。CMP 相当于集成的 SMP。简述 MPP 和集群系统之间的主要区别（异同点） MPP 系统多于 100 个 PE，消息传递、分布存储，峰值可达到 3Tperformance，可扩展，价格昂贵，市场有限，可解决高难度问题，是国家综合实力的象征； Culster：包括 NOW 和 COW 两种；其特点是：投资风险小，软件财富继承性好，可构成异构系统，资源利用率高，通信开销大等特点 MPP(巨型并行处理)：这种系统的节点都有自己的 CPU，并有自己的专有资源。此种结构相对独立，但各个节点一般没有完全存取 I/O 的能力。集群：集群系统是由独立的计算机组成，但有控制管理工具统一管理。现有的高性能计算机有哪几种典型结构对称多处理机系统(SMP)、分布式共享存储系统(DSM)、大规模并行计算机系统 (MPP) ，节点可以是单处理器的节点，也可以是 SMP、集群系统(Cluster)、并行向量机（PVP）、Constellation 简述高性能计算机系统的应用领域以及几种典型的并行应用系统生物医学：蛋白质电子态的计算、药物发明中的筛选过程、蛋白质折叠

计算机高性能体系结构复习资料整理

合集下载

计算机体系结构复习资料

计算机高性能体系结构复习资料整理

计算机系统结构复习题（含答案）

北京科技大学计算机体系结构总复习汇总(无重复带计算)

高性能计算机试题

超级计算机的体系结构和性能分析

计算机系统结构知识点复习考点归纳总结

02325计算机系统结构复习资料

高级计算机体系结构(精编)

计算机系统结构复习材料（供参考）

文档推荐

最新文档