北大计算机系高级计算机系统结构课件chx14_arch08_mm

格式：pdf
大小：5.34 MB
文档页数：78

下载文档原格式

计算机系统结构第4章精品PPT课件

▲
4/1344.1 指令来自并行1. 循环级并行：使一个循环中的不同循环体并行执行。 ➢ 开发循环体中存在的并行性
最常见、最基本
➢ 是指令级并行研究的重点之一 ➢ 例如，考虑下述语句：
for （i=1； i<=500； i=i＋1） a[i]=a[i]＋s；每一次循环都可以与其他的循环重叠并行执行；在每一次循环的内部，却没有任何的并行性。
（ILP：Instruction-Level Parallelism）
➢ 本章研究：如何通过各种可能的技术，获得更多的指令级并行性。
硬件＋软件技术必须要硬件技术和软件技术互相配合，才能够最大限度地挖掘出程序中存在的指令级并行。
▲
3/134
4.1 指令级并行
1. 流水线处理机的实际CPI ➢ 理想流水线的CPI加上各类停顿的时钟周期数：
▲
5/134
4.1 指令级并行
1. 最基本的开发循环级并行的技术 ➢ 循环展开（loop unrolling）技术 ➢ 采用向量指令和向量数据表示
2. 相关与流水线冲突 ➢ 相关有三种类型：
数据相关、名相关、控制相关
➢ 流水线冲突是指对于具体的流水线来说，由于相关的存在，使得指令流中的下一条指令不能在指定的时钟周期执行。
➢ 读操作数（Read Operands，RO）：等待数据冲突消失，然后读操作数。
(out of order execution)
IS
RO
检测结构冲突检测数据冲突
▲
16/134
4.2 指令的动态调度
1. 在前述5段流水线中，是不会发生WAR冲突和WAW冲突的。但乱序执行就使得它们可能发生了。
第4章指令级并行

计算机体系结构完整讲义ppt课件

• 计算机的更新换代
– 第一代：电子管计算机 – 第二代：晶体管计算机
硬件设计公理：越小越快
– 第三代：中小规模集成电路
– 第四代：大或超大规模集成电路
– 第五代：VLSI(甚大规模集成电路)
计算机性能的大幅度提高和更新换代，一方面依靠器件的不断更新，同时也依赖系统结构的不断改进。
30
二按计算机系统成本分类
• 是对计算机系统中各机器级之间界面的划分和定义，以及对各级界面上、下的功能进行分配
– 1964年，IBM/360系列机的总设计工程师G.M. Amdahl、G.A. Blauw、F.P. Brooks等人提出。也称体系结构。
– 是从程序员的角度所看到的系统的属性，是概念上的结构和功能上的行为
• 1.2.2 计算机系统的设计方法
• ---软硬件舍取的基本原则 • ---计算机系统设计者的主要任务 • ---计算机系统设计的基本方法（三种）
• 计算机语言：是用以描述控制流程的、有一定规则的字符集合
– 语言不是专属软件范畴，可以介属于计算机系统的各个层次，具有不同作用
4
1.1.1计算机系统的多级层次结构
从使用语言的角度上，将计算机系统看成按功能划分的多级层次结构
机器、汇编、高级、应用语言
低级
高级
后者比前者功能更强、使用更方便；
而前者是后者发展的基础，在单条指令的执行速度相比较，前者更快。
•第1章 •第2章 •第3章 •第4章 •第5章 •第6章
计算机系统设计基础数据表示与指令系统性能分析流水技术和向量处理阵列计算机多处理机系统数据流计算机
1
第1章计算机系统设计基础
• 1.1 计算机系统的基本概念 • 1.2 计算机系统的设计技术 • 1.3 计算机系统的性能评价 • 1.4 计算机系统结构的发展

计算机系统结构课件

浮点数据就是高级语言课程中所说的“实型数”。
2.1.1.1 浮点数的组成浮点数的组成与人们通常所说的“科学记数法”非常相似，唯一不同的是各部分均为有限位数，如下所示
它的主要参数有8个：
m ── 尾数，一般为纯小数，符合规格化原则（即最高位的绝对值不为0），用原码或补码表示；
e ── 阶码，整数，常用移码表示（见下文解释）；
= 1.25×80%×ICA×1.1×CYCLEA = 1.1×ICA×CYCLEA < Te_A 这时B机器快一些。
Sn
• 题12 （P33）
20
Amdahl定律公式，代入已知量
Se=20变成一元函数
10.5
Sn=20/(20-19Fe)
用三点作图法作出关系曲线。
1.8
1
0
0.5
2001.9.1
计算机系统结构
•
= 1.25×80%×ICA×1.25×CYCLEA
•
= 1.25×ICA×CYCLEA > Te_A
• 显然A机器快一些。
2001.9.1
计算机系统结构
17
例题选讲（5）
• 例1.5（P12） Te公式，改动上题中CYCLEB =1.1 ×CYCLEA，则最后
Te_B = 1.25×ICB ×CYCLEB
汇编语言机器
汇编语言程序员（使用汇编语言）
（经汇编程序翻译成机器语言、操作系统原语）
操作系统语言机器操作系统用户（使用操作系统原语）
（经原语解释子程序翻译成机器语言）
传统机器语言机器传统机器程序员（使用二进制机器语言）
（由微程序解释成微指令序列）
微指令语言机器微指令程序员（使用微指令语言）

第1章计算机体系结构基本原理课件

Undergraduate Course
Computer Architecture 计算机系统结构
Weimin Wu (吴为民)
School of Computer and Information Technology, Beijing Jiaotong Univeristy
Spring 2014
内容
Implementation 实现
Two components: Organization and hardware.
* Organization(组织): includes high-level aspects of a computer’s design, such as: memory system, bus structure, internal CPU. * Hardware(硬件): refers to the specifics of a machine, include: detailed logic design and packaging technology.
instruction set design 指令集设计 functional organization 功能设计 logic design 逻辑设计 implementation(实现): IC design, package, cooling
功能要求
需要或支持的典型特征
补充知识
1.1 Layers of Computer systems 计算机系统的层次
每个层次执行相关的功能子集。
每个层次要依赖于下一个低层去执行更原始的功能。这就将问题分解成更易处理的子问题。从M2到M5的层次是虚拟机。在传统机上的指令（算数、逻辑等）由微程序级的程序实现。该程序是作为一个解释器，能理解一组简单的操作集合，称为微指令集。

第2章计算机系统结构PPT课件

（2）I/O中断
中央处理器按程序规定的顺序执行指令，当中央处理器执行到一条“启动外设（启动I/O）”指令时，就按指令中给定的参数启动指定的设备，并把设备的控制权交给输入输出控制系统。由输入/输出控制系统控制外围设备与主存储器之间的信息传送，外围设备独立工作，不再需要中央处理器的干预，于是中央处理器可以继续执行其他程序。（中央处理器和外设便可以并行工作）
2.2.1 计算机系统的硬件环境之并行工作
1、CPU与外设并行工作的I/O中断（P17）在现代通用计算机系统中，输入/输出控制系统负责完成外围设备与
主存储器之间的信息传送。（1）CPU与外设并行工作
各种外设连接到相应的设备控制器上，通过通道把设备控制器连接到公共的系统总线上，这种结构允许CPU与外设并行工作。
这些寄存器都是处理器的工作寄存器，当处理器执行程序时，每次从主存储器中读出一条指令，并把它存入“指令寄存器”中，然后分析指令，根据指令中指定的地址，从主存储器读出操作数，存入“通用寄存器”，根据指令中的操作码，对操作数进行运算，并将所得的结果或暂存在通用寄存器中或存储到主存储器中，利用控制寄存器来保证各程序交替占用处理器时能正确执行，保证系统安全。
但由于外围设备是由中央处理器根据程序的要求而启动的，故当外围设备工作结束后，应反馈该设备的工作情况，形成一个“输入/输出操作结束的事件”，由中断完成，硬件识别该事件后就急触发一个I/O中断，并暂停当前占用中央处理器的程序的执行，让操作系统的处理程序来处理这个“输入/输出操作结束”事件，操作系统进行分析后就可以知道该外围设备的工作情况，从而确定启动该外围设备的程序的工作状态。
▪ 如果没有找到，就从主存中读取，同时把这个数据复制到高速缓存中

计算机系统结构课件详解演示文稿

第26页，共138页。
设操作数的有效地址
( X d ) (B2 ) (B2 0000) d2
由分析器内的地址加法器形成。由于通常情况下，“分析” 周期等于主存周期，所以，从时间关系上要求在“分析”周期的前半段，就能由通用寄存器输出总线取得(B2)，送入地址加法器。由于运算结果是在“执行”周期的末尾才送入通用寄存器组的，它当然不能立即出现在通用寄存器输出总线上。
第11页，共138页。
图 5.4 当第k条指令是条件转移时
第12页，共138页。
• 例一、数据相关。
• 第K+1条指令的源操作数正好是第K条指令结果地址，顺序解释没问题，而重叠解释时，在“执行K”和“分析 K+1”重叠时就出现问题
• 相关：因程序相邻指令之间出现了关联，为防止出错他们不能同时解释。这种现象称发生了”相关“，有数据相关和指令相关。
也就是说，在“执行k”得到的、送入通用寄存器的运算结果来不及作为“分析k+2”的基址值用，更不用说作为“分析 k+1”的基址值用。因此，虽然是一次重叠，但基址值相关(B
相关)就不止会出现一次相关，还会出现二次相关。即当出现
B(k+1)=L3(k) 时，称为发生了 B 一次相关；而当出现 B(k+2)=L3(k)时，称为发生了B二次相关，如图5.10所示。
计算机系统结构课件详解演示文稿
第1页，共138页。
优选计算机系统结构课件
第2页，共138页。
5.1 重叠解释方式
5.1.1 基本思想和一次重叠
取指令
分析
执行 t
图 5.1 对一条机器指令的解释
第3页，共138页。
取指令:按指令计数器的内容访问主存,取出该指令送指令

《高级体系结构》课件

S er v erles s
将应用的部分或全部逻辑实现为无服务器的 Function，提高了可伸缩性和可靠性。
微服务
将应用拆分为多个小型、独立的服务，每个服务都可以独立开发和部署。
案例分析
亚马逊
通过分布式架构和无服务器技术，提高了可伸缩性和性能。
N etflix
通过微服务架构和容错设计，保证了系统的高可用性和故障恢复能力。
层次结构
将系统划分为多个无耦合的层，每层提供一组相关的服务。
微服务
将复杂的单体应用拆分为多个独立的服务，每个服务都可以独立进行开发、部署和扩展。
模块化
通过封装来隐藏模块内部的实现细节，使得模块能够独立开发、测试和维护。
事件驱动
通过事件和消息传递来进行多个服务之间的协作和解耦。
体系结构设计原则
1
单一职责原则
每个组件或服务都应该只有一个单一的职责。
2
开放封闭原则
对扩展开放，对修改封闭，通过扩展来实现新的需求。
3
依赖倒置原则
Hale Waihona Puke 高层模块不应该依赖低层模块，而应该依赖于模块的抽象接口。
4
接口隔离原则
使用多个专门的接口，而不是一个通用的接口来实现松耦合。
常见体系结构模式
MVC
将应用划分为模型、视图和控制器三层，实现 UI 逻辑和业务逻辑的分离。
面临的挑战
技术的飞速发展，使得现代软件架构需要解决更加复杂的问题，比如可伸缩性、容错性、安全性等等。
课程目标
团队合作
学会和团队成员合作，通过集思广益产生最好的设计方案。
创新思维
培养创新思维，发现新的设计思路和解决问题的方法。

北京大学计算机体系结构讲义1

第一章绪论
ADT 有两个重要特征:
数据抽象用ADT描述程序处理的实体时，
强调的是其本质的特征其所能完成的本质的特征、其所能完成的本质的特征功能以及它和外部用户的接口外部用户的接口（即外界功能外部用户的接口外界使用它的方法）使用它的方法外部特性和其内部数据封装将实体的外部特性和其内部实现细节分离，并且对外部用户隐藏对外部用户隐藏实现细节分离其内部实现细节
数据类型可分为：简单类型：整数、实数、字符、指针、枚举量等无法再分割的整体结构类型：由简单类型按照一定的规则构造而成，并且可以嵌套构造。如，数组、记录、字符串、文件等
19
第一章绪论
七、抽象数据类型简称ADT) (Abstract Data Type 简称ADT)
由一组数据结构和在该组数据结构上的一组操作所组成抽象数据类型包含一般数据类型的概念，但含义比一般数据类型更广、更抽象
算法
14
第一章绪论
数据结构逻辑结构：集合结构（同属一个集合）set (数据之间的线性结构（一对一）linearity 相互联系) 树形结构（一对多）tree 图状或网状结构（多对多）graph 物理结构(存储结构)： (在计算机中顺序存储（利用在存储器中相对的存储方式) 位置之间的特定关系）链式存储（利用附加的“指针”）索引、散列等第一章绪论 15
关键项
姓名学号班号性别出生日期入学成绩周平30782005 2007CS … … … 关键字
7
第一章绪论
四、数据处理 (Data Processing)
对数据进行检索、插入、删除、合并、拆分、排序、统计、简单计算、转换、输入、输出等的操作过程。

北大计算机系高级计算机系统结构课件CHX14_arch01_intro

高等计算机系统结构引论（第一讲）程旭2014年2月17日教材与教师主要教材：Computer Architecture: A Quantitative Approach,4th(2006) or 5th Edition (2012) ，Patterson and Hennessy 主讲教师：程旭北京大学微处理器研究开发中心刘先华北京大学微处理器研究开发中心助教：TBD授课时间地点：每周一下午 15:10—18:00 二教203学习和把握将决定二十一世纪计算机具体形态的设计技术、机器结构、工艺要素、评价方法等技术工艺编程语言操作系统历史应用软硬件界面设计(ISA)测度和评测并行性计算机系统结构 •指令系统设计 •组成 •硬件学习和把握将决定二十一世纪计算机具体形态的设计技术、机器结构、工艺要素、评价方法等技术工艺Programming modelsBusiness models历史应用Architectural Design Patterns测度和评测计算机系统结构•计算机应用需要什么？•操作系统需要那些功能支持? •优化编译可以利用和实现哪些功能?•我们能够建造什么样的机器? •今后的计算机将会怎样?°计算机系统结构研究人员必须具有宽厚的专业知识!计算机基础数字逻辑计算机组织与结构操作系统编译技术数据结构应用基础 C 语言编程存储管理调度并发代码生成优化基本逻辑单元处理器基础知识本课程在教学安排中的地位高等计算机体系结构如何实现！具体细节---知其然！1.分析+评测—知其所以然！2.并行计算机系统结构计算机设计领域的剧变°Most of last 50 years, Moore’s Law ruled•Technology scaling allowed continual performance/energy improvements without changing software model°Last decade, technology scaling slowed/stopped•Dennard scaling over (supply voltage ~fixed) •Moore’s Law (cost/transistor) over?•No competitive replacement for CMOS anytime soon •Energy efficiency constrains everything°No “free lunch” for software developers, must consider:•Parallel systems•Heterogeneous systems当今主流的目标系统°Mobile (smartphone/tablet)•>1 billion sold/year•Market dominated by ARM-ISA-compatible general-purposeprocessor in system-on-a-chip (SoC)•Plus sea of custom accelerators (radio, image, video,graphics, audio, motion, location, security, etc.)°Warehouse-Scale Computers (WSCs)•100,000’s cores per warehouse•Market dominated by x86-compatible server chips•Dedicated apps, plus cloud hosting of virtual machines•Starting to see some GPU usage, but mostly general-purpose CPU code°Embedded computing•Wired/wireless network infrastructure, printers•Consumer TV/Music/Games/Automotive/Camera/MP3Charles Babbage (1791-1871)°Lucasian Professor ofMathematics, CambridgeUniversity, 1828-1839°A true “polymath” withinterests in many areas°Frustrated by errors inprinted tables, wanted tobuild machines to evaluateand print accurate tables°Inspired by earlier workorganizing human“computers” to methodicallycalculate tables by hand [Copyright expired and in public domain.Image obtained from Wikimedia Commons.]Charles Babbage°Difference Engine 1823°Analytic Engine 1833•The forerunner of modern digital computer!Application–Mathematical T ables – Astronomy–Nautical T ables – NavyBackground–Any continuous function can be approximated by apolynomial --- WeierstrassTechnology–mechanical - gears, Jacquard’s loom, simple calculatorsDifference EngineA machine to compute mathematical tablesWeierstrass:•Any continuous function can be approximated by a polynomial •Any polynomial can be computed from difference tablesAn examplef(n) = n2 + n + 41d1(n) = f(n) - f(n-1) = 2nd2(n) = d1(n) - d1(n-1) = 2f(n) = f(n-1) + d1(n) = f(n-1) + (d1(n-1) + 2)all you need is an adder!n d2(n) d1(n) f(n)41122232424 6 843 47 53 61Babbage’s Difference Engine 1 1832Analytic Engine1833: Babbage’s paper was published•conceived during a hiatus in the development of the difference engineInspiration: Jacquard Looms•looms were controlled by punched cards-The set of cards with fixed punched holesdictated the pattern of weave program-The same set of cards could be used withdifferent colored threads numbers1871: Babbage dies•The machine remains unrealized.It is not clear if the analytic engine could be built even today using only mechanical technologyBabbage’s Difference Engine 2 andAnalytical Engine1834 Babbage Analytical EngineThe Mill The Store PrinterPunchOperation Cards Variable CardsProgramBabbage Analytical Engine•The Store: Memory unit consisting of counter wheels•The Mill: The arithmetic unit capable of 4 operations used a pair of register and produced results stored in another register in the store•Operation Cards: Specified one of Four operations •Variable Cards: Specified the memory location to be used•Output: Printer or punchAnalytic EngineThe first conception of a general-purpose computer1.The store in which all variables to be operated upon,as well as all those quantities which have arisenfrom the results of the operations are placed.2.The mill into which the quantities about to beoperated upon are always brought.The programOperation variable1 variable2 variable3An operation in the mill required feeding two punched cardsand producing a new punched card for the store.An operation to alter the sequence was also provided!The first programmerAda Byron aka“Lady Lovelace” 1815-52Ada’s tutor was Babbage himself!While not using the practical technology of the era, Alan Turing developed the idea of a "Universal Machine" capable of executing anydescribable algorithm, and forming the basis for the concept of "computability". Perhaps more importantly Turing's ideas differed from those of others who were solving arithmetic problems by introducing the concept of "symbol processing".1937, Alan Turing第一台通用电子计算机--ENIAC 1946年2月14日Electronic Numerical Integrator and CalculatorJ. Presper Eckert&John MauchlyMoore SchoolUniversity of PennsylvaniaSize: 80 feet long8.5 feet high18,000 vacuum tubes5000 additions/sec.The world’s first general-purpose electronic computerconditional Jump and be programmable, distinguished it from earlier ones Used for computing artillery firing tablesAccumulator°28 vacuum tubesWW-2 EffortENIAC’S Application: Ballistic calculationsangle = f (location, tail wind, cross wind,air density, temperature, weight of shell,propellant charge, ... )ENIAC was NOT a “stored program” device °For each problem, someone analyzed the arithmetic processing needed and prepared wiring diagrams for the computors to use when wiring the machine°Process was time consuming and error prone °Cleaning personnel often knocked cables out of their place and just put them back somewhereWiring the machineElectronic Discrete Variable Automatic Computer (EDVAC)°ENIAC’s programming system was external•Sequences of instructions were executed independently of the results of the calculation•Human intervention required to take instructions “out of order”°Eckert, Mauchly, John von Neumann and others designed EDVAC (1944) to solve this problem•Solution was the stored program computer“program can be manipulated as data”°First Draft of a report on EDVAC was published in 1945, but just had von Neumann’s signature!•In 1973 the court of Minneapolis attributed the honor of inventing the computer to John Atanasoff“ ”The von Neumann MachineStored Program ComputerIAS(Institute for Advanced Study)Computer1946Main Memory ArithmeticLogicUnitProgramControlUnitI/OEquipment存储程序的思想即构成计算机程序的指令可同数据一样事先存放到存储器中，然后由计算机自己一条条取出执行。

计算机体系结构课件

详细描述
输入输出系统是计算机中用于接收外部输入（如键盘、鼠标、传感器等）和输出数据（如显示器、打印机、音响等）的硬件设备。输入输出系统的性能和可靠性对计算机的整体性能和使用体验至关重要。
总线与接口
总结词
总线与接口是计算机中用于连接各个部件并进行通信的通道。
详细描述
总线与接口是计算机中各个部件之间进行通信的通道。总线是连接各个部件的公共通道，而接口则是连接外部设备和计算机的通道。通过总线与接口，各个部件之间可以相互通信并协同工作，实现计算机的整体功能。总线与接口的性能和稳定性对计算机的整体性能和使用体验至关重要。
长电池寿命。
扩展功能
03
通过增加输入输出接口、支持多种数据类型等，可以扩展计算
机的功能和应用范围。
计算机体系结构的分类
1 2
按指令集分类
可以分为复杂指令集计算机（CISC）和精简指令集计算机（RISC）。
按数据类型分类
可以分为固定长度数据和可变长度数据。
3
按寻址方式分类
可以分为直接寻址、间接寻址和基址加变址寻址等。
03
计算机指令系统
指令集架构
ቤተ መጻሕፍቲ ባይዱ
复杂指令集架构 (CISC)
提供了许多复杂的指令，能够执行各种高级操作。
精简指令集架构 (RISC)
只包含简单的、基本的指令，强调通过并行处理加快执行速度。
超长指令集架构 (VLIW)
通过将多个操作数和操作码放入一个指令，实现并行处理。
指令格式与寻址方式
固定长度的指令格式
可重构计算面临着能效、可扩展性、编程模型等方面的挑战，如何设计更高效的
THANKS
感谢观看
详细描述
存储器是计算机中用于存储数据和程序的硬件设备。根据存储速度、容量和价格的不同，计算机中存在多种类型的存储器，如随机存取存储器（RAM）、只读存储器（ROM）、高速缓存（Cache）等。存储器的容量和速度对计算机的性能有很大的影响。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

高等计算机系统结构主存Main Memory（第八讲）程旭2014.5.5微处理器-主存（DRAM ）的延迟差距Performance(1/latency) Gap grew 50% peryear°How do architects address this gap?•Put small, fast “cache” memories between CPU and DRAM. 80 processor memory cache memory2005 “ memory ”energy wall主存系统的性能latency°延迟(Latency)：主要与Cache Miss Penalty相关•访问时间(access time): time between request and word arrives•周期时间(cycle time): : time between requests°带宽(Bandwidth)：主要与I/O的性能相关•带宽对Cache的性能也很重要(Large Block Miss Penalty ---- L2 cache)°提高带宽比减低延迟容易些°在系统级（板级）提高存储系统性能受限制°在芯片内部提高存储系统的性能Core Memories (1950s & 60s)°Core Memory stored data as magnetization in iron rings•Iron “cores” woven into a 2-dimensional mesh of wires •Origin of the term “Dump Core” °See: /acis/history/core.htmlThe first magnetic core memory, from the IBM 405 Alphabetical AccountingMachine.magnetic corecore linux随机存储器(RAM)技术°为什么计算机设计人员需要了解RAM技术?•处理器的性能通常受到存储器带宽的限制•随着集成电路密度的增加，一些存储器将和处理器集成在同一芯片上-片载存储器来满足特殊需求-指令cache-数据cache-写缓冲器°为什么不用触发器技术来实现RAM?•密度：RAM需要更高的密度静态RAM 单元6管SRAM 单元bitbitword (行选)bit bitword°写操作: 1. 驱动位线(bit) 2. 选择行°读操作: 1. 对两条位线预充电，使得bit Vdd 2. 选择行 3. 存储单元将一条线拉为低 4. 列上的信号放大器检测 bit 和 bit 之间的差异拉高 1 0 010 0bit bit 1 bit0 1L-Bank PrechargeS-AMP 1/2 S-AMP典型的SRAM 组织: 16字 4位SRAM Cell SRAM Cell SRAM Cell SRAM CellSRAM CellSRAM CellSRAM CellSRAM CellSRAM Cell SRAM Cell SRAM Cell SRAM Cell - +Sense Amp - +Sense Amp - +Sense Amp - +Sense Amp ......Word 0Word 1Word 15Dout 0Dout 1 Dout 2 Dout 3- +Wr Driver & Precharger - +Wr Driver & Precharger - +Wr Driver & Precharger - +Wr Driver & Precharger Address DecoderWrEnPrechargeDin 0Din 1Din 2Din 3A0 A1A2 A3......典型SRAM 的逻辑图°写使能信号通常是低电平有效 (WE_L) °Din 和Dout 是结合在一起的:•需要一个新的控制信号输出使能信号(OE_L) •WE_L 有效(Low), OE_L 禁止 (High) - D 为数据输入•WE_L 禁止 (High), OE_L 有效 (Low) - D 为数据输出 •WE_L 和OE_L 都有效:-结果不确定. 千万不要这样做!!!ADOE_LNMWE_L 2 Nwords x M bit SRAM典型的SRAM 时序Write Timing: D Read Timing:WE_LAWriteHold TimeWrite Setup TimeData In Write AddressOE_L High Z JunkRead Address Garbage Read AccessTimeData Out Read AccessTimeData OutJunk Read AddressADOE_LNMWE_L 2 Nwords x M bit SRAMD A WE WE进一步分析SRAM 单元°通常SRAM 具有许多存储字 (行)•位线(bit lines)就很长，因而也就具有较大的电容 •晶体管N1、N2、P1和P2就必须非常小°晶体管N1、P1没有足够的能量来快速驱动位线（Bit ）:•需要增设一个信号放大器（sense amplifier ）来比较 Bit 和Bit6管 SRAM 单元bit bitword (行选择)bitbitwordN1 N2P1P2SRAM 的问题°六个晶体管需要较多的芯片面积 °假设在某单元中存储“0”:•晶体管 N1将试图将 Bit 拉为0 •晶体管 P2 将试图将Bit 为1°但是由于这些位线在预充电时都将置为高: 那么是否必须需要bit = 1 bit = 0Select = 1On Off Off OnN1N2P1P2OnOnSRAM 的问题 (续)° P 型晶体管 (P2)具有三个功能:•在读操作期间, 将 Bit 线驱动为高 (Select = 1)•在下一次写操作之前, 保持N1的门一直在高电平•在读操作期间, 防止 N1的门电容将它的所有电荷都泄漏给 Bitbit = 1 bit = 0Select = 1N1 OnOnP2 VddOnOnN1的门电容当将入“0”到这个单元时, 置为高在下一次写入之前, P2将一直保持为高4管RAM 单元°读操作: •1. 对b 预充电, 使得 b Vdd•2. 选择行 •3. 感应 •4. 放大数据•5. 写°刷新:•假读周期 °写操作: •1. 驱动位线( bit lines)•2. 选择行在读取数据期间，消耗掉的电荷，必须被恢复 •优点: •较小: 取消了 2个负载设备和1个供电端 •缺点:•附加了刷新周期 •降低了抗干扰能力b bRow Selectdynamic RAMSRAM SRAM单管单元°写操作:•1. 驱动位线•2. 选择行°读操作:•1. 预充电, 使得位线 Vdd•2. 选择行•3. 单元和位线共享电荷-在位线上只有非常小的电压变化•4. 感应 (非常奇妙的感应放大器)-可以检测到大约一百万电子伏特的变化•5. 写: 恢复电压值°刷新•1. 仅仅需要对每个单元进行一次假读操作行选择位线4DRAM 引论°Dynamic RAM (DRAM):•需要刷新 •密度非常高•耗电非常低 (工作时0.1~0 .5 W,等待(standby)0.25 ~10 mW) •每位的成本非常低 •管脚敏感:-输出使能(Output Enable: OE_L) -写使能(Write Enable:WE_L)-行地址过滤(Row address strobe: ras) -列地址过滤(Col address strobe:cas)cell array N bitsr o w c o l addr log NsenseD单感应放大器耗电较少,面积小 2DRAM SRAM传统的DRAM 组成行译码器行地址列地址数据RAM 单元阵列 RAM Cell Array字选择 (行选择)位线(数据)°行和列地址在一起:•每次选择一位每个交叉点代表一个单管DRAM 单元列选择器 & I/O 电路典型的DRAM 组成°典型DRAMs: 并行访问多位•例如: 2 Mb DRAM = 256K x 8 = 512行 x 512列 x 8位 •行和列地址并行作用于所有 8个位面 (planes)256 Kb DRAM 的一个位面512 行位面 0512列位面1D<1>位面7 D<7>256 Kb DRAM256 Kb DRAM典型DRAM 的逻辑框图°控制信号 (RAS_L, CAS_L, WE_L, OE_L) 都是低电平有效 °Din 和Dout 合并在一起(D):•WE_L 有效(低), OE_L 禁止 (高)时, -D 作为数据输入管脚•WE_L 禁止(高), OE_L 有效 (低) -D 作为数据输出管脚°行和列地址共享相同的一组管脚(A)•RAS_L 变成低: 管脚A 被锁定为行地址 •CAS_L 变成低: 管脚A 被锁定为列地址ADOE_L 256K x 8 DRAM98WE_L CAS_L RAS_LDRAM ArchitectureR o w A d d r e s s D e c o d e rCol. 1Col. 2MRow 1Row 2N Column Decoder & Sense AmplifiersMNN+Mbit linesword lines Memory cell (one bit)DData • Bits stored in 2-dimensional arrays on chip• Modern chips have around 4 logical banks on each chip– each logical bank physically implemented as many smaller arraysDRAM Operation: Three Steps°Precharge•charges bit lines to known value, required before next row access °Row access (RAS)•decode row address, enable addressed row (often multiple Kb in row) •bitlines share charge with storage cell•small change in voltage detected by sense amplifiers which latch whole row of bits•sense amplifiers drive bitlines full rail to recharge storage cells°Column access (CAS) •decode column address to select small number of sense amplifier latches (4, 8, 16, or 32 bits depending on DRAM package) •on read, send latched bits out to chip pins•on write, change sense amplifier latches. which then charge storage cells to required value•can perform multiple column accesses on same row without another row access (burst mode)sense ampliferamplier ampliferWE_L ARow AddressOE_L JunkWR Access TimeWR Access TimeCAS_L RAS_LCol AddressRow AddressJunkCol AddressDJunkJunkData InData InJunkDRAM 写时钟周期Early Wr Cycle : WE_L asserted before CAS_LLate Wr Cycle : WE_L asserted after CAS_L当 RAS_L 有效时, 所有DRAM 开始访问AD256K x 8 DRAM98OE_L ARow AddressWE_L JunkRead AccessTimeOutput EnableDelayCAS_L RAS_LCol AddressRow AddressJunkCol AddressDHigh Z JunkDRAM 读时钟周期Early Read Cycle : OE_L asserted before CAS_LLate Read Cycle : OE_L asserted after CAS_LJunkData OutHigh Z当 RAS_L 有效时, 所有DRAM 开始访问AD256K x 8 DRAM98DRAM 读操作时序主存性能（周期时间与访问周期）°DRAM (读/写)周期时间 >> DRAM (读/写)访问时间 °DRAM (读/写)周期时间:•我们可以以多快的频率来开始进行存储访问?•比喻: 我们只能在4x 的年度的夏天，才能收看到奥运会足球赛 °DRAM (读/写) 访问时间:•一旦我们开始进行访问，那么要过多长时间可以获得数据? •比喻: 在奥运会期间，一旦我们想看，最多等一天就可以收看到下一场比赛 °DRAM 的带宽限制:•比喻：如果我们2014年还想看新的世界级足球比赛?时间访问时间周期时间增加带宽交叉访问（Interleaving ）非交叉访问的访问模式:开始访问D1CPUMemory开始访问 D2得到D1四路交叉访问的访问模式:访问体 1访问体 2访问体 3我们可以再次访问体 0CPUMemory Bank 1 Memory Bank 0 Memory Bank 3Memory Bank 2 访问体 0主存性能°简单: CPU 、Cache 、总线和主存同宽(32或64位)°宽度: CPU/Mux 1 个存储字; Mux/Cache 、总线和主存N 个存储字 (Alpha: 64 位 & 256 位; UtraSPARC 512位) °交叉（Interleaved ）: CPU 、Cache 和总线1个存储字: 存储器 N 个存储体（4模); 示例为字交叉（word interleaved ）cachebusmuxCPUCacheMbus 第一种解决方案高带宽DRAM第二种解决方案存储器和Cache 之间宽数据通路第三种解决方案存储模块交叉访问CPUMCPUCachebusMMMM主存性能°时序模型 (字长 32 位)•1个周期发送地址，•6个周期访问时间， 1个周期发送数据•Cache块为 4个字°Simple M.P. = 4 x (1+6+1) = 32°Wide M.P. = 1 + 6 + 1 = 8°Interleaved M.P. = 1 + 6 + 4x1 = 11计算机中的主存系统CPU主存访问过程Need for Error Correction!°Motivation:•Failures/time proportional to number of bits! •As DRAM cells shrink, more vulnerable°Went through period in which failure rate was low enough without error correction that people didn’t do correction •DRAM banks too large now•Servers always corrected memory systems °Basic idea: add redundancy through parity bits•Common configuration: Random error correction-SEC-DED (single error correct, double error detect)-One example: 64 data bits + 8 parity bits (11% overhead) •Really want to handle failures of physical components as well-Organization is multiple DRAMs/DIMM, multiple DIMMs-Want to recover from failed DRAM and failed DIMM! -“Chip kill” handle failures width of single DRAM chip dramQuest for DRAM Performance1.Fast Page mode •Add timing signals that allow repeated accesses to row buffer without another row access time •Such a buffer comes naturally, as each array will buffer 1024 to 2048 bits for each access2.Synchronous DRAM (SDRAM)•Add a clock signal to DRAM interface, so that the repeated transfers would not bear overhead to synchronize with DRAM controller3.Double Data Rate (DDR SDRAM) •Transfer data on both the rising edge and falling edge of the DRAM clock signal doubling the peak data rate•DDR2 lowers power by dropping the voltage from 2.5 to 1.8 volts + offers higher clock rates: up to 400 MHz•DDR3 drops to 1.5 volts + higher clock rates: up to 800 MHz°Improved Bandwidth, not LatencyDRAM fastpage SRAM DRAM dram sense ampliﬁer dramCPUFast Memory Systems: DRAM specific°Multiple CAS accesses: several names (page mode)•Extended Data Out (EDO): 30% faster in page mode°Newer DRAMs to address gap;what will they cost, will they survive?•RAMBUS: startup company; reinvented DRAM interface-Each Chip a module vs. slice of memory-Short bus between CPU and chips-Does own refresh-Variable amount of data returned- 1 byte / 2 ns (500 MB/s per chip)•Synchronous DRAM: 2 banks on chip, a clock signal to DRAM, transfersynchronous to system clock (66 - 150 MHz)-DDR DRAM: Two transfers per clock (on rising and falling edge) •Intel claims FB-DIMM is the next big thing-Stands for “Fully-Buffered Dual-Inline RAM”-Same basic technology as DDR, but utilizes a serial “daisy-chain” channel between different memory components.DRAM技术的发展Throughput vs. Latency快速页模式(Fast Page Mode, FPM)DRAM °常规DRAM组成:•N行 x N列 x M位•同时读和写M位•每 M位访问需要一个RAS /CAS周期°FPM DRAM•N x M 锁存器来保存一行°在读取一行到寄存器后•仅仅需要CAS来访问该行中的其他M位存储块(bank)•在RAS_L保持有效, 同时CAS_L 不断变化行地址N行N列DRAMM位列地址M位输出N行N 列DRAM列地址M位输出M 位N x M SRAM行地址CPU CPU CPU°DRAM性能指标：（x-y-y-y，例如6-3-3-3）•x：first data access time in clock/bus cycles•y：successive burst data access time in clock/bus cyclesEDO DRAM(Extended Data Out)(20%－40%性能提升) °EDO DRAM 性能指标：5-2-2-2 at 66MHz FPM DRAM FPMCPUCPUFPM DRAM 10 20Burst EDO DRAM4°基于DRAM 的技术（CAS 、RAS ，etc ） °允许在一个DIMM 中包含多个BANK•DIMM SDRAM 168 pin 增加了ba0、ba1两个管脚 °与CPU 或芯片组使用同步时钟信号°五组控制信号，可组成多种命令•CS ：chip select•RAS ：raw address select•CAS ：col address select•WE ：write enable•DQM ：output enable°更好的支持Burst 方式 °可编程设置模式：•Bust length,sequence...CPU RAM CPU RAM CPU DRAM CPU CPU RAM°SDRAM Mode RegisterSDRAM readSDRAM performance°CAS Latency is important°x-y-y（例如：3-2-2）•CAS Latency•the RAS-to-CAS delay•RAS precharge time°时钟主频•PC66：66MHz•PC100：100MHz•PC133：133MHzDDR SDRAM °DDR ：Double data rate°时钟上升沿和下降沿均可以发送数据（带宽X2 !!）°在原有的SDRAM 的架构基础上加以较小的改进（可复用原有生产线）°SDRAM 和DDR 均为开放标准（JEDEC ）（Important !!）SDRAM DDRJEDEC SDRAM dura-bank architecture burst modemode registerDDR-SDRAM Timing DiagramDDR - 2SDRAM的Bank和内存规范°图1：•4M X 1bit X 32chip°图2：•4bank in a dimm°SIMM、DIMM•single/doul in-linememory module°目前使用的都是DIMM°时钟频率•PC1600 100MHz-100 2 8 MB/s•PC2100 133MHz•PC2400 150MHz 图1DDR3 SDRAM其它DRAM—VCDRAM (Virtual Channel DRAM,NEC)SDRAM timing (Single Data Rate)°Micron 128M-bit dram (using 2Meg 16bit 4bank ver)RAS (New Bank)CASPrecharge x Burst READ CAS LatencyDouble-Data Rate (DDR2) DRAM[ Micron, 256Mb DDR2 SDRAM datasheet ]Row Column Precharge Row’Data200MHz Clock400Mb/sDDR vs DDR2 vs DDR3 vs DDR4 °All about increasing the rate at thepinspins°Not an improvement in latency•In fact, latency can sometimes beworseDDR2 latency DDR latency°Internal banks often consumed forincreased bandwidth°DDR4 (January 2011)•Samsung,…•Currently 2.13Gb/sec•Target: 4 Gb/secDDR2 Double Data Rate 2 DDR/DDR2 4 DDRcellcell 4。

北大微观经济学

页数:92
北京大学光华管理学院微观经济学笔记

页数:185
北京大学经济学原理：第一讲Central Concept

页数:23
北大微观经济学课件07预期效用理论

页数:47
微观经济学英文课件.

页数:23
北大微观经济学(英文版)ch12Uncertainty精品PPT课件

页数:25
北大中级微观经济学课件ch10

页数:73
北大微观经济学(英文版)ch5 ChoicePPT课件

页数:53
曼昆经济学原理课件(下)-宏观部分，北大课件Chapter_36.ppt_Five debates

页数:37
北大微观经济学(英文版)ch3 Preferences精品PPT课件

页数:52