当前位置：文档之家› 分析影响cache命中率的因素

分析影响cache命中率的因素

摘要：

存储器是计算机的核心部件之一。由于CPU和主存在速度上的存在着巨大差异，现代计算机都在CPU和主存之间设置一个高速、小容量的缓冲存储器cache。而它完全是是由硬件实现，所以它不但对应用程序员透明，而且对系统程序员也是透明的。Cache对于提高整个计算机系统的性能有着重要的意义，几乎是一个不可缺少的部件。

关键字：cache容量；失效率；块大小；相联度；替换策略。

一、概述

存储器是计算机的核心部件之一。其性能直接关系到整个计算机系统性能的高低。如何以合理的价格，设计容量和速度都满足计算机系统要求的存储器系统，始终是计算机系统结构设计的中关键的问题之一。

计算机软件设计者和计算机用户对于存储器容量的需求是没有止境的，他们希望容量越大越好，而且要求速度快、价格低。仅用单一的存储器是很难达到这一需求目标的。较好的方法是采用存储层次，用多种存储器构成存储器的层次结构。

其中“cache-主存”和“主存-辅存”层次是常见的两种层次结构，几乎所有现代的计算机都同时具有这两种层次。我们都知道，程序在执行前，需先调入主存。在这里主要讨论的是“cache-主存”层次。

“cache-主存”是在为了弥补主存速度的不足，这个层次的工作一般来说，完全是由硬件实现，所以它不但对应用程序员透明，而且对系统程序员也是透明的。

如前所述，为了弥补CPU和主存在速度上的巨大差异，现代计算机都在CPU和主存之间设置一个高速、小容量的缓冲存储器cache。Cache对于提高整个计算机系统的性能有着重要的意义，几乎是一个不可缺少的部件。

Cache是按块进行管理的。Cache和主存均被分割成大小相同的块。信息以块为单位调入cache。相应的，CPU的访存地址被分割成两部分：块地址和块内位移。

在这里的cache专指CPU和主存之间的cache。对Cache的性能分析可以从三个方面进行：降低失效率、减少失效开销、减少Cache命中时间。这里主要是用实验数据分析影响cache命中率的因素。

1.按照产生失效的原因不同，可以把Cache失效分为三类：

（1）强制性失效（Compulsory miss）

当第一次访问一个块时，该块不在Cache中，需从下一级存储器中调入Cache，这就是强制性失效。这种失效也称为冷启动失效或首次访问失效。

（2）容量失效（Capacity miss）

如果程序执行时所需的块不能全部调入Cache中，则当某些块被替换后，若又重新被访问，就会发生失效。这种失效称为容量失效。

（3）冲突失效（Conflict miss）

在组相联或直接映象Cache中，若太多的块映象到同一组（块）中，则会出现该组中某个块被别的块替换（即使别的组或块有空闲位置），然后又被重新访问的情况。这就是发生了冲突失效。这种失效也称为碰撞失效（collision）或干扰失效（interference）。

降低Cache失效率的方法：增加Cache块大小、提高相联度、Victim Cache、伪相联Cache、硬件预取技术、由编译器控制的预取和编译器优化。

2.替换算法：

（1）先进先出法(FIFO)；

（2）随机法：为了均匀使用一组中的各块，这种方法随机地选择被替换的块。（3）最近最少使用法LRU（Least Recently Used）：选择近期最少被访问的块作为被替换的块。但由于实现比较困难，现在实际上实现的LRU都只是选择最久没有被访问过的块作为被替换的块。

二、对影响Cache失效率因素的分析

1.对矩阵200*200的乘法进行测试，源代码test.c如下：

#include

#define r 200

#define l 200

main()

｛int i=0,j=0,k=0,m=1,n=1;

int a[r][l],b[l][r],c[r][r];

for(int i=0;i

for(int j=0;j

{

a[i][j]=1;

b[i][j]=n;

n++;

}

for(int k=0;k

{

c[i][j]=c[i][j]+a[i][k]*b[k][j];

}

注意：必须将代码存储在SimpleScalar的文件下。

运行命令：./.bin/sslittle-na-sstrix-gcc test.c

./simplesim-3.0/sim-cache a.out

2. Cache容量对性能影响

（1）容量配置

在命令行对SimpleScalar模拟器的一级数据的容量进行配置，在配置的过程中，保证cache块大小、相联度、替换策略参数不变。通过改变组数来改变Cache的容量大小，执行程序，具体运行结果及相应的配置参数如下表1所示。

表1：Cache容量对性能影响

上表相应的折线图如下所示：

图1：Cache 容量对性能影响

（2）结果分析

从图1中我们可以看出，随着Cache 的容量不断增加，程序的失效率不断降低。由此可见，Cache 的容量对于Cache 性能有着重要影响。一般来说，容量越大，Cache 性能越好，发生失效的概率就越低。

3.Cache 块大小对性能的影响

（1）块大小配置

在命令行对SimpleScalar 模拟器的一级数据的块大小进行配置，在配置过程中，相联度、替换策略等参数，对于容量固定为8k 、16k 、32k ，64k ，分别改变cache 块大小，执行程序，具体运行结果及配置参数如下表表2—6所示

表2： Cache 块大小对性能影响

图2： Cache 块大小对性能影响

表3： Cache 块大小对性能影响

图3： Cache 块大小对性能影响

表4： Cache 块大小对性能影响

图4： Cache 块大小对性能影响

表5： Cache 块大小对性能影响

图5： Cache 块大小对性能影响

经过测试，我们得到各个容量下，失效率随块大小的变化情况。具体如下所示：

表6：Cache块大小对性能影响

上表相应的折线图如下所示

图6：Cache块大小对性能影响

（2）结果分析

从图6中我们可以看出各个容量下失效率随块大小的变化情况。每条不同颜色的曲线代表在某一Cache容量下，失效率随块大小的变化情况。从图中可以发现两点规律：

(1)对于给定的Cache 容量，当块大小增加时，失效率开始时处于下降趋势，后

来反而会上升。

(2)Cache容量越大，会使失效率达到最低的拐点的块大小增大。

在这里，导致失效率先下降后上升的原因在于增加块大小产生双重作用。一方面会减少强制性失效，因为程序局部性原理，增加块大小增加了利用空间局部性的机会；另一方面，在容量一定情况下，增加块大小会减少总的块数目，会增加冲突失效，在Cache容量较小时，还可能增加容量失效。刚开始增加块大小时，由于块大小还不是

很大，上述第一种作用超过第二种作用，使失效率降低。当块大小增加到一定程度时，第二种作用会超过第一种作用，使失效率上升。

4. Cache 相联度对性能的影响

（1）相联度进行配置

在命令行对SimpleScalar 模拟器的一级数据的相联度进行配置，在配置过程中，保证cache 块大小、容量、替换策略参数不变，改变相联度，执行程序，具体运行配结果及其置参数如下表7—11所示。

表7： Cache 相联度对性能影响

图7： Cache 相联度对性能影响

表8： Cache 相联度对性能影响

图8： Cache 相联度对性能影响

表9： Cache 相联度对性能影响

图9： Cache 相联度对性能影响

表10： Cache 相联度对性能影响

图10：Cache相联度对性能影响

经过测试，我们得到各个容量下，失效率随块大小的变化情况。具体如下图所示：

表11：Cache相联度对性能影响

图11：Cache相联度对性能影响

（2）结果分析

在容量固定的情况下，将相联度从1变化到16，组数也随之发生了变化。在图11中，通过对比我们可以发现，无论容量是8KB 或者是64KB ，在相联度为2以后的数据中，失效率不再随着相联度的变化而改变，反而稳定在一个固定的水平上。

从上述实验结果可以发现，相联度的增加在一定的范围内可以促进Cache 性能的改善，但这个范围非常有限，仅在1路、2路组相联上起作用。

5.Cache 的替换策略对性能的影响

（1）配置替换策略

改变SimpleScalar 模拟器的一级数据cache dl1的替换策略进行配置，在配置过程中，将Cache 的块大小固定为32byte ，相联度固定为2，对于2k 、4k 、8k ，16k ，分别改变替换策略，执行程序，具体运行配置参数如下表12—16所示。

表12： Cache 替换策略对性能影响

图12： Cache 替换策略对性能影响

表13： Cache 替换策略对性能影响

图13： Cache 替换策略对性能影响

表14： Cache 替换策略对性能影响

图14： Cache 替换策略对性能影响

表15： Cache 替换策略对性能影响

图15：Cache替换策略对性能影响

经过测试，我们得到各个容量下，失效率随块大小的变化情况。具体如下图所示：

表16：Cache替换策略对性能影响

图16：Cache替换策略对性能影响

（2）结果分析

从图16中我们可以发现，在Cache容量较小的情况下，随机策略相对较好，而随着Cache容量的增加，最近最少使用(LRU)和先进先出(FIFO)策略的效果较好。所

以一般的计算机默认的采用LRU替换策略。

由于主存中的块比Cache中的要多，所以当要从主存调入一个块到Cache中时，会出现该快所映像到的一组Cache块已被占用的情况。这是需要强制其中的一块移出Cache，以接纳新的Cache块。这就需要替换策略选择替换的块。

替换策略主要是在对Cache块进行淘汰时，如何选择要替换的块的策略。目前主要又三种替换策略：最近最少使用(LRU)策略、先进先出(FIFO)策略、随机(RANDOM)策略。这三种替换策略各有优劣。好的替换策略会将使用率高的Cache块更长时间的驻留在Cache中，从而降低Cache失效率，提高Cache性能。

分析影响cache命中率的因素

分析影响cache命中率的因素摘要：存储器是计算机的核心部件之一。由于CPU和主存在速度上的存在着巨大差异，现代计算机都在CPU和主存之间设置一个高速、小容量的缓冲存储器cache。而它完全是是由硬件实现，所以它不但对应用程序员透明，而且对系统程序员也是透明的。Cache对于提高整个计算机系统的性能有着重要的意义，几乎是一个不可缺少的部件。关键字：cache容量；失效率；块大小；相联度；替换策略。一、概述存储器是计算机的核心部件之一。其性能直接关系到整个计算机系统性能的高低。如何以合理的价格，设计容量和速度都满足计算机系统要求的存储器系统，始终是计算机系统结构设计的中关键的问题之一。计算机软件设计者和计算机用户对于存储器容量的需求是没有止境的，他们希望容量越大越好，而且要求速度快、价格低。仅用单一的存储器是很难达到这一需求目标的。较好的方法是采用存储层次，用多种存储器构成存储器的层次结构。其中“cache-主存”和“主存-辅存”层次是常见的两种层次结构，几乎所有现代的计算机都同时具有这两种层次。我们都知道，程序在执行前，需先调入主存。在这里主要讨论的是“cache-主存”层次。 “cache-主存”是在为了弥补主存速度的不足，这个层次的工作一般来说，完全是由硬件实现，所以它不但对应用程序员透明，而且对系统程序员也是透明的。如前所述，为了弥补CPU和主存在速度上的巨大差异，现代计算机都在CPU和主存之间设置一个高速、小容量的缓冲存储器cache。Cache对于提高整个计算机系统的性能有着重要的意义，几乎是一个不可缺少的部件。 Cache是按块进行管理的。Cache和主存均被分割成大小相同的块。信息以块为单位调入cache。相应的，CPU的访存地址被分割成两部分：块地址和块内位移。

模式识别第二次上机实验报告

北京科技大学计算机与通信工程学院模式分类第二次上机实验报告姓名：XXXXXX 学号：00000000 班级：电信11 时间：2014-04-16

一、实验目的 1．掌握支持向量机（SVM）的原理、核函数类型选择以及核参数选择原则等；二、实验内容 2.准备好数据，首先要把数据转换成Libsvm软件包要求的数据格式为： label index1:value1 index2:value2 ... 其中对于分类来说label为类标识，指定数据的种类；对于回归来说label为目标值。（我主要要用到回归） Index是从1开始的自然数，value是每一维的特征值。该过程可以自己使用excel或者编写程序来完成，也可以使用网络上的FormatDataLibsvm.xls来完成。FormatDataLibsvm.xls使用说明：先将数据按照下列格式存放（注意label放最后面）： value1 value2 label value1 value2 label 然后将以上数据粘贴到FormatDataLibsvm.xls中的最左上角单元格，接着工具->宏执行行FormatDataToLibsvm宏。就可以得到libsvm要求的数据格式。将该数据存放到文本文件中进行下一步的处理。 3.对数据进行归一化。该过程要用到libsvm软件包中的svm-scale.exe Svm-scale用法：用法：svmscale [-l lower] [-u upper] [-y y_lower y_upper] [-s save_filename] [-r restore_filename] filename （缺省值：lower = -1，upper = 1，没有对y进行缩放）其中，-l：数据下限标记；lower：缩放后数据下限；-u：数据上限标记；upper：缩放后数据上限；-y：是否对目标值同时进行缩放；y_lower为下限值，y_upper为上限值；（回归需要对目标进行缩放，因此该参数可以设定为–y -1 1 ）-s save_filename：表示将缩放的规则保存为文件save_filename；-r restore_filename：表示将缩放规则文件restore_filename载入后按此缩放；filename：待缩放的数据文件（要求满足前面所述的格式）。缩放规则文件可以用文本浏览器打开，看到其格式为： y lower upper min max x lower upper index1 min1 max1 index2 min2 max2 其中的lower 与upper 与使用时所设置的lower 与upper 含义相同；index 表示特征序号；min 转换前该特征的最小值；max 转换前该特征的最大值。数据集的缩放结果在此情况下通过DOS窗口输出，当然也可以通过DOS的文件重定向符号“>”将结果另存为指定的文件。该文件中的参数可用于最后面对目标值的反归一化。反归一化的公式为：（Value-lower）*（max-min）/(upper - lower)+lower 其中value为归一化后的值，其他参数与前面介绍的相同。建议将训练数据集与测试数据集放在同一个文本文件中一起归一化，然后再将归一化结果分成训练集和测试集。 4.训练数据，生成模型。用法：svmtrain [options] training_set_file [model_file] 其中，options（操作参数）：可用的选项即表示的涵义如下所示-s svm类型：设置SVM 类型，默

实验报告答案

实验2：MIPS指令系统和MIPS体系结构一.实验目的（1）了解和熟悉指令级模拟器（2）熟悉掌握MIPSsim模拟器的操作和使用方法（3）熟悉MIPS指令系统及其特点，加深对MIPS指令操作语义的理解（4）熟悉MIPS体系结构二. 实验内容和步骤首先要阅读MIPSsim模拟器的使用方法，然后了解MIPSsim的指令系统和汇编语言。（1）、启动MIPSsim（用鼠标双击MIPSsim.exe）。（2）、选择“配置”->“流水方式”选项，使模拟器工作在非流水方式。（3）、参照使用说明，熟悉MIPSsim模拟器的操作和使用方法。可以先载入一个样例程序（在本模拟器所在的文件夹下的“样例程序”文件夹中），然后分别以单步执行一条指令、执行多条指令、连续执行、设置断点等的方式运行程序，观察程序的执行情况，观察CPU中寄存器和存储器的内容的变化。（4）、选择“文件”->“载入程序”选项，加载样例程序 alltest.asm，然后查看“代码”窗口，查看程序所在的位置（起始地址为0x00000000）。（5）、查看“寄存器”窗口PC寄存器的值：[PC]=0x00000000。（6）、执行load和store指令，步骤如下： 1)单步执行一条指令（F7）。 2)下一条指令地址为0x00000004，是一条有 (有，无)符号载入字节 (字节，半字，字)指令。 3)单步执行一条指令（F7）。 4)查看R1的值，[R1]= 0xFFFFFFFFFFFFFF80 。 5)下一条指令地址为0x00000008，是一条有 (有，无)符号载入字 (字节，半字，字)指令。 6)单步执行1条指令。 7)查看R1的值，[R1]=0x0000000000000080 。 8)下一条指令地址为0x0000000C ，是一条无 (有，无)符号载入字节 (字节，半字，字)指令。 9)单步执行1条指令。 10)查看R1的值，[R1]= 0x0000000000000080 。 11)单步执行1条指令。 12)下一条指令地址为0x00000014 ，是一条保存字 (字节，半字，字)指令。 13）单步执行一条指令。

性能测试报告-模板

Xxx系统性能测试报告拟制：****日期：****审核：日期：批准：日期：

1.概述 1.1.编写目的本次测试报告为xxx系统的性能测试总结报告，目的在于总结性能测试工作，并分析测试结果，描述系统是否符合xxx系统的性能需求。预期参考人员包括用户、测试人员、开发人员、项目管理者、质量管理人员和需要阅读本报告的高层经理。 1.2.项目背景腾讯公司为员工提供一个网上查询班车的入口，分析出哪些路线/站点比较紧张或宽松，以进行一些合理调配。 1.3.测试目标（简要列出进行本次压力测试的主要目标）完善班车管理系统，满足腾讯内部员工的班车查询需求，满足500个用户并发访问本系统。 1.4.名词解释测试时间：一轮测试从开始到结束所使用的时间并发线程数：测试时同时访问被测系统的线程数。注意，由于测试过程中，每个线程都是以尽可能快的速度发请求，与实际用户的使用有极大差别，所以，此数据不等同于实际使用时的并发用户数。每次时间间隔：测试线程发出一个请求，并得到被测系统的响应后，间隔多少时间发出下一次请求。平均响应时间：测试线程向被测系统发请求，所有请求的响应时间的平均值。处理能力：在某一特定环境下，系统处理请求的速度。 cache影响系数：测试数据未必如实际使用时分散，cache在测试过程中会比实际使用时发挥更大作用，从而使测试出的最高处理能力偏高，考虑到这个因素而引入的系数。用户习惯操作频率：根据用户使用习惯估算出来的，单个用户在一段时间内，使用此类功能的次数。通常以一天内某段固定的高峰使用时间来统计，如果一天内没有哪段时间是固定的高峰使用时间，则以一天的工作时间来统计。

高档计算机系统中Cache性能分析_潘继强 (1)

数据库与信息管理本栏目责任编辑：代影Computer Knowledge and Technology 电脑知识与技术第7卷第22期(2011年8月)高档计算机系统中Cache 性能分析潘继强（陕西理工学院计算机科学与技术系，陕西汉中723000）摘要：现代计算机体系结构中广泛采用Cache 来缓解处理器运行和存储器访问的速度增长之间的巨大差距，使得Cache 已经成为影响处理器性能、功耗、价值的重要因素之一。文章根据Cache 基本工作原理和引入Cache 后计算机系统的性能分析，介绍了一些改进Cache 性能的方法。关键词：高速缓存；命中率；局部性原理；静态随机存储器中图分类号：TP302文献标识码：A 文章编号：1009-3044(2011)22-5285-02 随着计算机技术的不断发展和进步，CPU(中央处理器)主频的不断提高对计算机系统性能的提升起到了极大的作用，但是作为一个完整的计算机系统，计算机系统性能的提高并不是仅取决于CPU 的主频，还与其他因素密切相关，例如，计算机系统结构、数据在各部件间的传送速度、存储部件的存取速度等，其中CPU 和主存之间的存取速度与计算机系统性能的提高有很大关系。可是主存速度的提高始终跟不上CPU 的发展，据统计，CPU 的速度平均每年改进60%，而组成主存的动态RAM(随机存储器)速度平均每年只改进7%，结果是CPU 和主存之间的速度间隙平均每年大增50%。处理器运行和存储器访问的速度增长之间存在的差距越来越大，这种现象己经成为影响计算机系统性能最主要的瓶颈之一。假设一台计算机的CPU 工作速度很快，而配备的主存访问速度相对较慢，这样就会造成CPU 在访存时等待，降低了处理器的工作速度，进而影响计算机的整体性能。解决CPU 与主存的速度差距问题在于保持CPU 的能力，提高主存的速度。使用硬件技术提高存储芯片的存取速度是一个有效的手段，可是在慢速的主存和快速CPU 之间插入一个容量较小的高速存储器起缓冲作用（即Cache 技术）也是解决问题的一个行之有效的方法，使得速度和成本之间的矛盾得到较合理的解决。自从1985年Intel80386问世以来，在后续的微处理器中都采用了Cache 。1Cache 的工作原理在现代计算机系统中，高速缓存Cache 已经逐渐成为计算机不可缺少的一部分。在计算机系统中设置Cache 是为了解决高速处理器和低速主存之间速度不匹配的问题，从而可以提高整机的性能。因此要分析Cache 对计算机性能的影响，必须要了解其工作原理。 Cache 的工作原理是基于程序和数据访问的局部性。任何程序或数据要为CPU 所使用，必须先放到主存中。CPU 只与主存交换数据，所以主存的速度在很大程度上决定了系统的运行速度。对大量典型程序运行情况的分析结果表明，程序运行期间，在一个较短的时间间隔内，由程序产生的内存访问地址往往集中在主存很小范围的地址空间内。这一点不难理解。指令地址本来就是连续分布的，再加上循环程序段和子程序段要多次重复执行。因此，对这些地址中的内容的访问就自然具有时间上集中分布的倾向。数据分布的这种集中倾向不如指令明显，但对数组的存储和访问以及内存变量的安排都使存储器地址相对集中。这种在单位时间内对局部范围的存储器地址频繁访问，而对此范围以外的地址则访问甚少的现象，就称为程序访问的局部性。由此可以想到，如果把在一段时间内、一定地址范围内被频繁访问的信息集合成批地从主存中读到一个能高速存取的小容量存储器中存放起来，供程序在这段时间内随时使用，从而减少或不再去访问速度较慢的主存，就可以加快程序的运行速度。这就是Cache 的设计思想，在主存和CPU 之间设置一个小容量的高速存储器就是高速缓存Cache(其结构如图1所示)，通常由SRAM(静态随机存储器)构成。它的存取速度比构成主存的动态RAM 要快的多，故CPU 在需要访问主存中的程序和数据时，就不必多次直接访问速度较慢的主存，而是从高速缓存中以更快的速度得到必要的程序和数据，从而可以缓解CPU 和主存速度不匹配的矛盾，进而提高计算机系统的性能。但是SRAM 的价格比较昂贵，若干设置大容量的高速缓存，就会增加计算机的成本，故Cache 的容量一般相对主存来说都比较小。在Cache 系统中，将主存和Cache 都分成若干同样大小的块，每块内又包含若干个字，主存总是以块为单位映射到Cache 中。根据程序访问的局部性原理，在程序运行期间系统不断地将与当前访问块相关联的后继存储单元块从主存读入到Cache ，其实质就是把主存中的程序和数据分块复制到Cache 中，然后再和CPU 进行高速传送。当 CPU 需要访问主存时就会在地址总线上发出访存地址，首先通过主存—Cache 地址变换机构判定访存地址所对应的存储单元块是否已在Cache 中。如果在Cache 中(称为 Cache 命中)，则经地址变换机构将主存地址变换成Cache 地址去访问Cache 。如果不在 Cache 中(称为Cache 不命中)，此时就要把要访问的字直接从主存送往CPU ，同时把包括该字的主存块调入Cache 供CPU 使用。当然Cache 的容量是有限的，如果此刻Cache 处于未被装满的状态，则可将新的主存块直接调入Cache 。倘若Cache 原来已被装满，即已无法将新的主存块调入Cache 时，就得采用替换策略，从Cache 中换出一个旧块，并将新块替换进Cache 。收稿日期：2011-05-28 作者简介：潘继强（1978-），男，陕西汉中人，讲师，研究方向为计算机基础理论教学。图1缓存—主存层次结构图E-mail:jslt@https://www.doczj.com/doc/0613182155.html, https://www.doczj.com/doc/0613182155.html, Tel:+86-551-56909635690964ISSN 1009-3044 Computer Knowledge and Technology 电脑知识与技术Vol.7,No.22,August 2011.5285

Java网上订餐系统与分析大型实验报告

Java系统与分析大型实验报告设计题目：基于JavaEE的网上订餐系统班级：软件801 姓名：*** 学号：*** 指导老师：*** 2011年12月

1、需求分析网上订餐系统需要提供客户快捷、方便的订餐服务，开发本系统的具体要求如下：（1）在系统首页需要提供推荐菜单、热门菜单已经菜单搜索功能，方便用户快速选购自己喜欢的菜单。（2）系统要求用户进行注册和登录。（3）在用户订餐完毕后，需要能够自动计算菜单价格。同时在用户提交订单时，需要用户确定订单无误，同时还将自动生成订单号，并保存到系统的剪贴板中，方便用户保存订单号。（4）系统还需要提供会员服务功能，会员每消费一块钱将增加一积分。同时在系统首页将显示积分榜，鼓励会员消费。（5）系统需要提供菜单分类查看功能，从而方便用户选购。 2、功能分析模块：餐店简介模块：用来介绍餐店信息，例如餐店名称、联系人、地址、电话等。美食分类模块：用来分类显示美食信息，可以通过单击菜单来查看菜单详细信息，可以发表评论信息。订餐模块：点击菜单的订餐按钮，进入购物车，提供订餐功能。会员中心模块：用来显示会员身份信息，并提供会员信息更新功能。订单查询模块：负责订单的查询功能，提供订单时间、订单号查询功能。功能说明用例图：用户查询菜单提交订单删除订单图1 用户用例图

管理员查询菜单添加菜单删除菜单查询订单删除订单图2 管理员用例图 3、系统设计系统流程图：身份识别是否合法后台订餐页面是查看美事信息放入购物车查看购物车提交订单查看订单否评价美食图3 前台系统流程图身份识别是否合法后台订餐页面是增加美食删除美事查看订单删除订单修改美事信息否图4 后台系统流程图

cache性能分析实验报告

计算机系统结构实验报告名称： Cache性能分析学院：信息工程姓名：陈明学号：S121055 专业：计算机系统结构年级：研一

实验目的 1.加深对Cache的基本概念、基本组织结构以及基本工作原理的理解； 2.了解Cache的容量、相联度、块大小对Cache性能的影响； 3.掌握降低Cache失效率的各种方法，以及这些方法对Cache性能提高的好处； 4.理解Cache失效的产生原因以及Cache的三种失效； 5.理解LRU与随机法的基本思想，及它们对Cache性能的影响；实验平台 Vmware 虚拟机，redhat 9.0 linux 操作系统，SimpleScalar模拟器实验步骤 1.运行SimpleScalar模拟器； 2.在基本配置情况下运行程序（请指明所选的测试程序），统计Cache总失效次数、三种不同种类的失效次数； 3.改变Cache容量（*2，*4，*8，*64），运行程序（指明所选的测试程序），统计各种失效的次数，并分析Cache容量对Cache性能的影响； 4.改变Cache的相联度（1路，2路，4路，8路，64路），运行程序（指明所选的测试程序），统计各种失效的次数，并分析相联度对Cache性能的影响； 5.改变Cache块大小（*2，*4，*8，*64），运行程序（指明所选的测试程序），统计各种失效的次数，并分析Cache块大小对Cache性能的影响； 6.分别采用LRU与随机法，在不同的Cache容量、不同的相联度下，运行程序（指明所选的测试程序）统计Cache总失效次数，计算失效率。分析不同的替换算法对Cache性能的影响。预备知识 1. SimpleScalar模拟器的相关知识。详见相关的文档。 2. 复习和掌握教材中相应的内容（1）可以从三个方面改进Cache的性能：降低失效率、减少失效开销、减少Cache命中时间。（2）按照产生失效的原因不同，可以把Cache失效分为三类： ①强制性失效（Compulsory miss）

CACHE的一些名词术语

CACHE的一些名词术语 Allocation 在CACHE中发现一个位置，并把新的cache数据存到这个位置的过程。这个处理过程可能包括evicting（驱逐）cache中已存在的数据，从而为新的数据腾出空间。 Associativity 指每个Set（集）里包含的line frames（行帧）数。也就是cache的way（路）数。 Capacity miss容量失效因为cache的容量限制，导致不能包括一个程序的整个working set（工作集），从而造成cache失效。这是三个cache失效原因（容量、强制、冲突）之一。Clean干净一个有效的cache行，它的内容没有被更高层内存或CPU修改写过，我们称这个cache行是“干净”的，显然相反状态是dirty（“脏”） Coherence一致性如果读内存任意地址的数据返回的总是这个地址的数据最近的更新，我们说内存系统是一致的。存取指CPU和EDMA等的存取。 Compulsory miss强制失效有时称为首次引用失效。强制失效是一种肯定发生的一种失效，因为数据事先从没有使用过也就没有机会被cache。但有些情况也被称为强制失效，尽管它们不是第一被引用的数据，比如对非写定位的cache进行同一位置的重复写，以及对一个不被cache内存区域的存取。这是三个cache失效原因（容量、强制、冲突）之一。 Conflict miss 冲突失效由于Associativity的限制导致的而非容量限制造成的cache失效。 Direct-mapped cache直接映射cache 直接映射cache映射低层内存的每个地址到cache的一个单一位置。这样低层内存的多个地址可能被映射到cache中的同一位置上。它相当于1-way set-associative cache。 Dirty脏对writeback回写cache，写到达多级存储结构的某一层，并更新这一层内容，但并不更新更低层的内存，这样，当一个cache行有效并包含更新后的数据，但却不更新下一更低层的内存，我们说这个cache是“脏”的，显然一个有效行的相反状态是“干净”。 DMA直接内存存取

计算机组成原理之Cache模拟器的实现

实验一Cacｈe模拟器得实现一、实验目得 (1)加深对Cａche得基本概念、基本组织结构以及基本工作原理得理解。 (2)掌握Cache容量、相联度、块大小对Ｃacｈe性能得影响。 (3)掌握降低Cacｈｅ不命中率得各种方法以及这些方法对提高Caｃhｅ性能得好处。 (４)理解ＬＲＵ与随机法得基本思想以及它们对Ｃaｃhｅ性能得影响. 二、实验内容与步骤 1、启动Cachesｉm 2、根据课本上得相关知识,进一步熟悉Cachｅ得概念与工作机制。 Cache概念：高速缓冲存 Caｃhe工作机制:大容量主存一般采用DRAM，相对SRAM速度慢，而SRAＭ速度快，但价格高。程序与数据具有局限性,即在一个较短得时间内，程序或数据往往集中在很小得存储器地址范围内。因此，在主存与CＰU之间可设置一个速度很快而容量相对较小得存储器,在其中存放CPU当前正在使用以及一个较短得时间内将要使用得程序与数据，这样，可大大加快CＰU访问存储器得速度，提高机器得运行效率 3、依次输入以下参数：Caｃhe容量、块容量、映射方式、替换策略与写策略. （1）Cacｈｅ容量：启动CaｃhｅＳim,提示请输入Cache容量,例如１、２、4、8、、、、、、。此处选择输入4。（2）块容量: 如下图所示,提示输入块容量，例如1、2、4、8、、、、、、。此处选择输入１6。（3）映射方式: 如下图所示，提示输入主存储器与高速缓存之间得aｓｓｏiativiｔy方法

(主存地址到Cache地址之间得映射方式）,1代表直接映射（固定得映射关系)、2代表组相联映射(直接映射与全相联映射得折中）、3代表全相联映射（灵活性大得映射关系）。此处选择全相联映射。（4）替换策略: 如下图所示，提示输入替换策略,1代表先进先出（Fｉｒsｔ-In—Fｉｒsｔ—Oｕt，FIFO)算法、2代表近期最少使用(Lｅast RecｅntlyＵsｅd，LＲU）算法、3代表最不经常使用(Least Frequeｎtly Used，ＬFＵ)、４代表随机法(Ｒandom）。此处选择先进先出. （5)写策略: 如下图所示，提示输入Cａｃhｅ得读写操作，１代表写直达法(存直达法）即写操作时数据既写入Cａche又写入主存、2代表写回法（拷回法）即写操作时只把数据写入Cａｃhe而不写入主存，但当Cachｅ数据被替换出去时才写回主存。此处选写回法

体系结构试验报告(cache存储过程)

体系结构实验报告实验目的通过程序，模拟cache存储过程，并通过控制变量法模拟分析Cache性能实验步骤: 我们要通过老师所给程序进行模拟，并通过操作系统试验中老师所给算法生成出project.txt ，并通过project.txt 里面的数据来模拟程序的局部性等特性。实验结果 1、比较关联方式，控制blockSize, CacheSize 不变: （1）、Direct_mapped (2) 、Set_associate:

(3) 、Fully_associate 通过上述三个比较可以看出，各种映射有自己的优点。但是不难看出，增大关联度会减小miss rate，但是增加到一定程度又会有抑制作用。 2.比较Cache大小对于性能的影响。（1）、Direct_mapped，Cache容量为64 时：

(2r Direcflmapped 〉Cache 朿* R 128 手 (3r Direcflmapped 〉Cache 助* R 256 口 F 一pwsef 峑 s 2O J I 0 \^J.e e K ^g 63-L w g

cache性能分析报告

《计算机系统结构课内实验》实验报告

一、实验目的及要求 1.加深对Cache的基本概念、基本组织结构以及基本工作原理的理解； 2.了解Cache的容量、相联度、块大小对Cache性能的影响； 3.掌握降低Cache失效率的各种方法，以及这些方法对Cache性能提高的好处； 4.理解Cache失效的产生原因以及Cache的三种失效； 5.理解LRU与随机法的基本思想，及它们对Cache性能的影响；二、实验环境 Vmware 虚拟机，redhat 9.0 linux 操作系统，SimpleScalar模拟器三、实验内容 1.运行SimpleScalar模拟器； 2.在基本配置情况下运行程序（请指明所选的测试程序），统计 Cache总失效次数、三种不同种类的失效次数； 3.改变Cache容量（*2，*4，*8，*64），运行程序（指明所选的测试程序），统计各种失效的次数，并分析Cache容量对Cach e性能的影响； 4.改变Cache的相联度（1路，2路，4路，8路，64路），运行程序（指明所选的测试程序），统计各种失效的次数，并分析相联度对Cache性能的影响； 5.改变Cache块大小（*2，*4，*8，*64），运行程序（指明所选的测试程序），统计各种失效的次数，并分析Cache块大小对Cache性能的影响；

6.分别采用LRU与随机法，在不同的Cache容量、不同的相联度下，运行程序（指明所选的测试程序）统计Cache总失效次数，计算失效率。分析不同的替换算法对Cache性能的影响。四、实验步骤 1、关于simplescalar的简要说明 SimpleScalar包括多个仿真器：sim-fast ,sim－safe,sim-cache,sim-cheetah,sim-pro和sim-outorder。本次实验使用的是sim-cache，下面说明一下sim-cache。sim-cache:在这个仿真中加入了cache，用户可以对cache及TLB 进行设置，支持两级的cache和一级的TLB，第一级cache和TLB 均分为数据和指令两部分。（摘自百度百科）下面简要说明一下有关cache的信息：一般来说，Cache的结构参数主要包括以下几个方面：容量、块大小、相联度、替换算法等。在SimpleScalar模拟器中，采用了两级Cache结构，同时数据和指令Cache分开。SimpleScalar的Cache参数配置命令为：:::: ：Cache的名称，其中: dl1：一级数据Cache； dl2：二级数据Cache； il1：一级指令Cache； il2：二级指令Cache；

Cache命中率分析工具的使用(附源代码)

题目：安装一种Cache命中率分析工具，并现场安装、演示。一、什么是CPU-Cache CPU缓存（Cache Memory）是位于CPU与内存之间的临时存储器，它的容量比内存小的多但是交换速度却比内存要快得多。高速缓存的出现主要是为了解决CPU运算速度与内存读写速度不匹配的矛盾，因为CPU运算速度要比内存读写速度快很多，这样会使CPU花费很长时间等待数据到来或把数据写入内存。在缓存中的数据是内存中的一小部分，但这一小部分是短时间内CPU即将访问的，当CPU调用大量数据时，就可先缓存中调用，从而加快读取速度。CPU包含多个核心，每个核心又有独自的一级缓存（细分成代码缓存和数据缓存）和二级缓存，各个核心之间共享三级缓存，并统一通过总线与内存进行交互。二、关于Cache Line 整个Cache被分成多个Line，每个Line通常是32byte或64byte，Cache Line 是Cache和内存交换数据的最小单位，每个Cache Line包含三个部分 Valid：当前缓存是否有效 Tag：对应的内存地址 Block：缓存数据三、Cache命中率分析工具选择 1、Linux平台：Valgrind分析工具； 2、Windows平台如下： java的Jprofiler； C++的VisualStudio2010及以后的版本中自带profile工具； Application Verifier； intel vtune等。四、选用Valgrind分析工具在Linux-Ubuntu14.04环境下实验 1.Valgrind分析工具的常用命令功能： memcheck：检查程序中的内存问题，如泄漏、越界、非法指针等。 callgrind：检测程序代码的运行时间和调用过程，以及分析程序性能。 cachegrind：分析CPU的cache命中率、丢失率，用于进行代码优化。 helgrind：用于检查多线程程序的竞态条件。 massif：堆栈分析器，指示程序中使用了多少堆内存等信息。 2.Valgrind分析工具的安装：使用Ubuntu统一安装命令：sudo apt-get install valgrind 之后等待安装完成即可。安装界面如图（由于我已经安装了此工具，而且没有更新的版本，图上结果为无可用升级）。

系统性能评估

第7章 1.工程工作站：具有实现工程计算、程序编制和调试、作图、通信、资源共享的计算机环境。 2.早期CAD环境:“大型机(超级小型机)+多路终端 3.工作站从应用对象、范围和功能需求上都不同于普通PC机 4.工作站与PC在配置上的一般区别：1. 图形处理能力:专业图形卡2. 可靠性: 采用多种可靠性措施3. 性能: 采用高性能器件4. 扩展能力: 内存、多处理器等5. 软件配置: 操作系统、高性能图形处理软件等。 5.系统性能评价技术：从技术上, 主要有分析、模拟、测量三种技术 6.常采用的分析技术有：常采用排队论、随机过程、均值分析等方法进行近似求解,比如流水线性能、多处理器系统性能分析、软件可靠性静态评估等。 7.分析技术的特点：特点是理论严密, 对基础理论的掌握要求较高。优点是节约人力/物力, 可应用于设计中的系统。 8.模拟技术的特点：既可以应用于设计中或实际应用中的系统, 也可以与分析技术相结合, 构成一个混合系统。 9.测量技术的特点： 10.模拟技术是基于试验数据的系统建模, 主要有: (1) 按系统的运行特性建立系统模型; (2) 按系统工作负载情况建立工作负载模型; (3) 编写模拟程序, 模拟被评价系统的运行。 11.测量技术：该技术是对已投入使用的系统进行测量, 通常采用不同层次的基准测试程序评估。不同层次指的是：核心程序、实际应用程序、合成测试程序 12.几乎所有基于模拟的评价方法都依赖于测试数据或实验值 13.总结：分为三种性能评价技术，分别是分析、模拟、测量，这三种技术分别对用不同成熟度的系统。分析技术对应理论研究，特点是理论严密，基础知识掌握度高。模拟技术是对正在设计以及已经用于实际应用的系统进行建模，建模数据来源是实验数据。而测量技术的应用是对已经投入使用的系统进行测量。通常采用不同层次的基准测试程序，不同层次值的是：核心程序、实际应用程序、合成测试程序。 14.系统性能评价对象：内存、I?O、网络、操作系统、编译器的性能。 15.与程序执行的时间相关的两大因素:(1) 时钟频率(MHz)；(2) 执行程序使用的总时钟周期数。 16.CPU时间= 总时钟周期数?时钟周期= 总时钟周期数/ 时钟频率 17.IC(程序执行的指令数)和CPI(每条指令所需时钟数 18.CPU时间= CPI?IC ?时钟周期= CPI?IC /时钟频率 19.(1) 时钟频率: 反映计算机实现、工艺和组织技术; 20.(2) CPI: 反映计算机实现、指令集结构和组织; 21.(3) IC: 反映计算机指令集结构和编译技术。 22.系统性能评价标准：(1) 时钟频率(主频): 用于同类处理机之间(2) 指令执行速度法 (MIPS —定点运算) (3) 等效指令速度:吉普森(Gibson)法4)数据处理速率PDR(processing data rate)法(5) 基准程序测试法 23.MIPS指标的主要缺点是不能反映以下情况: ①不能反映不同指令对速度的影响②不能反映指令使用频率差异的影响③不能反映程序量对程序执行速度的影响 24.吉普森(Gibson)法的主要缺点:(1) 同类指令在不同的应用中被使用的频率不同;(2) 程序量和数据量对Cache 影响; (3) 流水线结构中指令执行顺序对速度的影响;(4) 编译程序对系统性能的影响。

大连理工大学计算机系统结构实验-实验四

大连理工大学实验报告计算机系统结构实验实验四Cache性能分析学院（系）：电子信息与电气工程学部专业：计算机科学与技术学生姓名：班级：学号：大连理工大学 Dalian University of Technology

实验四Cache性能分析一、实验目的和要求（1）加深对Cache的基本概念、基本组织结构以及基本工作原理的理解。（2）掌握Cache容量、相联度、块大小对Cache性能的影响。（3）掌握降低Cache不命中率的各种方法以及这些方法对提高Cache性能的好处。（4）理解LRU与随机法的基本思想以及它们对Cache性能的影响。二、实验步骤与操作方法 1、Cache容量对不命中率的影响。（1）启动MyCache。（2）用鼠标单击“复位”按钮，把各参数设置为默认值。（3）选择一个地址流文件。方法：选择“访问地址”—>“地址流文件”选项，然后单击“浏览”按钮，从本模拟器所在文件夹下的“地址流”文件夹中选取。（4）选择不同的Cache容量，包括2KB、4KB、8KB、16KB、32KB、64KB、128KB和256KB。分别执行模拟器（单击“执行到底”按钮即可执行），然后在下表中记录各种情况下的不命中率。表不同容量下Cache的不命中率（5）以容量为横坐标，画出不命中率随Cache容量变化而变化的曲线，并指明地址流文件名。

（6）根据该模拟结果，你能得出什么结论？答：随着Cache容量的增大，不命中率降低，但是降低的幅度由较大差别，Cache容量足够大以后，不命中率降到一定程度以后，降低效果不再明显。 2．相联度对不命中率的影响（1）用鼠标单击“复位”按钮，把各参数设置为默认值。此时的Cache容量为64KB。（2）选择一个地址流文件。（3）选择不同的Cache相联度，包括2路、4路、8路、16路和32路。分别执行模拟器，然后在下表中记录各种情况下的不命中率。表当容量为64KB时，不同相联度下Cache的不命中率（4）把Cache的容量设置为256KB，重复（3）的工作，并填写下表。表当容量为256KB时，不同相联度下Cache的不命中率（5）以相联度为横坐标，画出在64KB和256KB的情况下不命中率随Cache相联度变化而变化的曲线，并指明地址流文件名。

计算机系统结构实验报告

计算机系统结构实验报告一．流水线中的相关实验目的： 1. 熟练掌握WinDLX模拟器的操作和使用，熟悉DLX指令集结构及其特点； 2. 加深对计算机流水线基本概念的理解； 3. 进一步了解DLX基本流水线各段的功能以及基本操作； 4. 加深对数据相关、结构相关的理解，了解这两类相关对CPU性能的影响； 5. 了解解决数据相关的方法，掌握如何使用定向技术来减少数据相关带来的暂停。实验平台： WinDLX模拟器实验内容和步骤： 1.用WinDLX模拟器执行下列三个程序：求阶乘程序fact.s 求最大公倍数程序gcm.s 求素数程序prim.s 分别以步进、连续、设置断点的方式运行程序，观察程序在流水线中的执行情况，观察 CPU中寄存器和存储器的内容。熟练掌握WinDLX的操作和使用。 2. 用WinDLX运行程序structure_d.s，通过模拟找出存在资源相关的指令对以及导致资源相关的部件；记录由资源相关引起的暂停时钟周期数，计算暂停时钟周期数占总执行周期数的百分比；论述资源相关对CPU性能的影响，讨论解决资源相关的方法。 3. 在不采用定向技术的情况下（去掉Configuration菜单中Enable Forwarding选项前的勾选符），用WinDLX运行程序data_d.s。记录数据相关引起的暂停时钟周期数以及程序执行的总时钟周期数，计算暂停时钟周期数占总执行周期数的百分比。在采用定向技术的情况下（勾选Enable Forwarding），用WinDLX再次运行程序data_d.s。重复上述3中的工作，并计算采用定向技术后性能提高的倍数。 1. 求阶乘程序用WinDLX模拟器执行求阶乘程序fact.s。这个程序说明浮点指令的使用。该程序从标准输入读入一个整数，求其阶乘，然后将结果输出。该程序中调用了input.s中的输入子程序，这个子程序用于读入正整数。实验结果：在载入fact.s和input.s之后，不设置任何断点运行。 a.不采用重新定向技术，我们得到的结果

如何提高CPU Cache性能 By E课网

CPU CacheII -William Gu 在本期的文章里，作者从Cache性能出发，帮助大家进一步了解CPU Cache这一设计实现。通常比较合适用来评价Cache性能的参数指标为平均访问时间，其定义如下：平均访问时间=命中时间+缺失率x缺失代价由以上公式，可以从三个方面进行改进： ?降低缺失率 ?减小缺失代价 ?减小命中时间 1.1 三种类型的缺失(3C) 强制缺失(Compulsory miss)：当第一次访问一个块时，该块不在cache中，需要从下一级存储器中调入Cache ?优化方法：增加块大小，预取容量缺失(Capacity miss)：程序运行时所需的块不能全部调入Cache中，当某些块被替换后，若被重新访问就会发生容量缺失 ?优化方法：增加缓存容量冲突缺失(Conflict miss)：在组相联或直接映射的Cache中，若太多的块映射到同一组中，则会出现该组中某个块被别的块所代替(即使别的组或块有空闲位置)，然

后又被重新访问。 ?优化方法：提高相联度(理想情况:全相联) 1.2 基本的Cache优化方法： ?降低缺失率——较大的块，较大的缓存，较高的关联度 ?降低缺失代价——多级缓存，为读取操作设设定高于写入操作的优先级 ?缩短在缓存中命中的时间——在索引缓存时避免地址转换 1.2.1 增加块的大小以降低缺失率当Cache的容量一定时，块的大小对命中率的影响非常大。下图表示随着Cache块由小到大的变化，命中率H上升和下降的规律。命中率随着块大小的变化曲线 1.2.2 提高相联度相联度越高，Cache的空间利用率就越高，块冲突概率就越低，因而Cache的缺失率就会降低。但是提高相联度可能会增加命中时间。

计算机组成原理之Cache模拟器的实现

实验一Cache模拟器的实现一.实验目的 (1)加深对Cache的基本概念、基本组织结构以及基本工作原理的理解。 (2)掌握Cache容量、相联度、块大小对Cache性能的影响。 (3)掌握降低Cache不命中率的各种方法以及这些方法对提高Cache性能的好处。 (4)理解LRU与随机法的基本思想以及它们对Cache性能的影响。二、实验内容和步骤 1、启动Cachesim 2.根据课本上的相关知识，进一步熟悉Cache的概念和工作机制。 Cache概念：高速缓冲存 Cache工作机制：大容量主存一般采用DRAM，相对SRAM速度慢，而SRAM速度快，但价格高。程序和数据具有局限性，即在一个较短的时间内，程序或数据往往集中在很小的存储器地址范围内。因此，在主存和CPU之间可设置一个速度很快而容量相对较小的存储器，在其中存放CPU当前正在使用以及一个较短的时间内将要使用的程序和数据，这样，可大大加快CPU访问存储器的速度，提高机器的运行效率 3、依次输入以下参数：Cache容量、块容量、映射方式、替换策略和写策略。Cache容量块容量映射方式替换策略写策略 8 32 全相联映射先进先出算法写回法（1）Cache容量：启动CacheSim，提示请输入Cache容量，例如1、2、4、8......。此处选择输入4。（2）块容量：如下图所示，提示输入块容量，例如1、2、4、8......。此处选择输入16。

（3）映射方式：如下图所示，提示输入主存储器和高速缓存之间的assoiativity方法（主存地址到Cache地址之间的映射方式），1代表直接映射（固定的映射关系）、2代表组相联映射（直接映射与全相联映射的折中）、3代表全相联映射（灵活性大的映射关系）。此处选择全相联映射。（4）替换策略：如下图所示，提示输入替换策略，1代表先进先出（First-In-First-Out,FIFO）算法、2代表近期最少使用（Least Recently Used，LRU）算法、3代表最不经常使用（Least Frequently Used，LFU）、4代表随机法（Random）。此处选择先进先出。（5）写策略：如下图所示，提示输入Cache的读写操作，1代表写直达法（存直达法）即写操作时数据既写入Cache又写入主存、2代表写回法（拷回法）即写操作时只把数据写入Cache而不写入主存，但当Cache数据被替换出去时才写回主存。

计算机组成原理cache课程报告

计算机组成原理课程报告学号：班级：姓名：

Cache的发展历程及应用在计算机组成原理课学过Cache之后我才发现原来我对Cache了解的如此之少，以前在买电脑时经常看到一级缓存、二级缓存和三级缓存，然而当时并不懂这是什么东西，现在学过Cache之后才知道了缓存在电脑中的地位。原来Cache 在提高计算机速度方面有如此大的作用。那么就让我们来了解一下Cache的发展历程。经过我查资料得知，Cache一词来源于法语，其原意是“藏匿处，隐秘的地方”，而自从被应用于计算机科学之后，就已经成为了英语中的一个计算机体系结构专有名词。Sun Microsystems的前首席科学家Billy Joy，作为BSD unix，csh，vi，NFS，java，TCP/IP等的发明者，他曾经说过，在计算机科学领域，如果没有了cache的发明，其他的一切发明都将失去意义。而正是他，将给予分页的虚拟内存系统引入了Unix，影响了之后所有的新操作系统开发。Cache的出现正是为了解决CPU日益增长的核心时钟频率以及系统主内存日益落后的速度之间的矛盾①。这就是Cache解决的主要问题。那么，这个问题是怎样显现出来以及Cache 是如何出现的呢？纵观PC系统和CPU二十年的发展，随着半导体加工工艺水平的不断提高，集成电路技术的不断进步，导致生产成本不断降低，CPU的功能不断增强，运算速度越来越快，CPU和存储器的性能都有了很大的提高。CPU频率的提高，必然要求系统中存储器的存取速度要提高，还要求其容量要增大。主存储器DRAM容量的提高还是比较快的，但是DRAM读取时间的提高却很慢。从而在速度上与CPU主频的提高产生了极不相配的情况，这样会影响整个系统的性能。二十年来，CPU设计的问题之一就是解决高速CPU和低速DRAM之间的平衡或匹配问题，以求系统性能的整体提高。在它们之间加入高速缓冲存储器Cache，就是这个问题的解决方案之一。 Cache随CPU的发展而不断改变，可以概括为：从无到有，由小到大，先外后内，纵深配备，软硬兼施。初期的CPU没有Cache，在80386时期出现外部Cache；80486时期开始有内部仅8kB的Cache。Cache的分级也由L1和L2级，发展到L0和L3级的纵深配备；Cache的大小由当初的8kB，直到Merced的1～