当前位置：文档之家› 多核处理器

多核处理器

多核处理器是指在一枚处理器中集成两个或多个完整的计算引擎(内核)。多核技术的开发源于工程师们认识到，仅仅提高单核芯片的速度会产生过多热量且无法带来相应的性能改善，先前的处理器产品就是如此。他们认识到，在先前产品中以那种速率，处理器产生的热量很快会超过太阳表面。即便是没有热量问题，其性价比也令人难以接受，速度稍快的处理器价格要高很多。

最新新闻

中国发布全球首款全系统多核高精度导航定位芯片

全球首款全系统多核高精度导航定位系统级芯片，13日在第六届中国卫星[2.10% 资金研报]学术年会期间对外发布。专家表示，这意味着国产芯片不仅具备国际竞争力，还从“跟踪者”跃升为“引领者”。...详情

内容来自

中文名多核处理器

定义集成两个或多个完整的计算引擎

第一颗通用型微处理器4004

技术优势采用了线程级并行编程

1技术发展

2发展历程

3技术优势

4技术瓶颈

5技术原理

6技术关键

?核结构研究

?程序执行模型

?Cache设计

?核间通信技术

?总线设计

?操作系统设计

?低功耗设计

?存储器墙

?可靠性及安全性设计

7技术意义

8技术种类

9技术应用

10应用

11英特尔

1技术发展

256线程的CPU

英特尔工程师们开发了多核芯片，使之满足“横向扩展”（而非“纵向扩充”）方法，从而提高性能。该架构实现了“分治法”战略。通过划分任务，线程应用能够充分利用多个执行内核，并可在特定的时间内执行更多任务。多核处理器是单枚芯片（也称为“硅核”），能够直

2发展历程

1971年，英特尔推出的全球第一颗通用型微处理器4004，由2300个晶体管构成。当时，公司的联合创始人之一戈登摩尔(Gordon Moore)，就提出后来被业界奉为信条的“摩尔定律”——每过18个月，芯片上可以集成的晶体管数目将增加一倍。

在一块芯片上集成的晶体管数目越多，意味着运算速度即主频就更快。今天英特尔的奔腾(Pentium)四至尊版840处理器，晶体管数量已经增加至2.5亿个，相比当年的4004增加了10万倍。其主频也从最初的740kHz(每秒钟可进行74万次运算)，增长到现在的3.9GHz(每秒钟运算39亿次)以上。

当然，CPU主频的提高，或许在一定程度上也要归功于1975年进入这个领域的AMD公司的挑战。正是这样的“双雄会”，使得众多计算机用户有机会享受不断上演的“速度与激情”。一些仍不满足的发烧友甚至选择了自己超频，因为在玩很多游戏时，更快的速度可以带来额外的饕餮享受。

但到了2005年，当主频接近4GHz时，英特尔和AMD发现，速度也会遇到自己的极限：那就是单纯的主频提升，已经无法明显提升系统整体性能。

以英特尔发布的采用NetBurst架构的奔腾四CPU为例，它包括Willamette、Northwood和Prescott等三种采用不同核心的产品。利用冗长的运算流水线，即增加每个时钟周期同时执行的运算个数，就达到较高的主频。这三种处理器的最高频率，分别达到了2.0G、3.4G和3.8G。

按照当时的预测，奔腾四在该架构下，最终可以把主频提高到10GHz。但由于流水线过长，使得单位频率效能低下，加上由于缓存的增加和漏电流控制不利造成功耗大幅度增加，3.6GHz奔腾四芯片在性能上反而还不如早些时推出的3.4GHz产品。所以，Prescott产品系列只达到3.8G，就戛然而止。

英特尔上海公司一位工程师在接受记者采访时表示，Netburst微架构的好处在于方便提升频率，可以让产品的主频非常高。但性能提升并不明显，频率提高50%，性能提升可能微不

足道。因为Netburst微架构的效率较低，CPU计算资源未被充分利用，就像开车时“边踩刹车边踩油门”。

此外，随着功率增大，散热问题也越来越成为一个无法逾越的障碍。据测算，主频每增加1G，功耗将上升25瓦，而在芯片功耗超过150瓦后，现有的风冷散热系统将无法满足散热的需要。3.4GHz的奔腾四至尊版，晶体管达1.78亿个，最高功耗已达135瓦。实际上，在奔腾四推出后不久，就在批评家那里获得了“电炉”的美称。更有好事者用它来玩煎蛋的游戏。

很显然，当晶体管数量增加导致功耗增长超过性能增长速度后，处理器的可靠性就会受到致命性的影响。就连戈登摩尔本人似乎也依稀看到了“主频为王”这条路的尽头——2005年4月，他曾公开表示，引领半导体市场接近40年的“摩尔定律”，在未来10年至20年内可能失效。

多核心CPU解决方案(多核)的出现，似乎给人带来了新的希望。早在上世纪90年代末，就有众多业界人士呼吁用CMP(单芯片多处理器)技术来替代复杂性较高的单线程CPU。IBM、惠普、Sun等高端服务器厂商，更是相继推出了多核服务器CPU。不过，由于服务器价格高、应用面窄，并未引起大众广泛的注意。

直到AMD抢先手推出64位处理器后，英特尔才想起利用“多核”这一武器进行“帝国反击战”。2005年4月，英特尔仓促推出简单封装双核的奔腾D和奔腾四至尊版840。AMD 在之后也发布了双核皓龙(Opteron)和速龙(Athlon) 64 X2和处理器。但真正的“双核元年”，则被认为是2006年。这一年的7月23日，英特尔基于酷睿(Core)架构的处理器正式发布。2006年11月，又推出面向服务器、工作站和高端个人电脑的至强(Xeon)5300和酷睿双核和四核至尊版系列处理器。与上一代台式机处理器相比，酷睿 2 双核处理器在性能方面提高40%，功耗反而降低40%。作为回应，7月24日，AMD也宣布对旗下的双核Athlon64 X2处理器进行大降价。由于功耗已成为用户在性能之外所考虑的首要因素，两大处理器巨头都在宣传多核处理器时，强调其“节能”效果。英特尔发布了功耗仅为50瓦的低电压版四核至强处理器。而AMD的“Barcelona”四核处理器的功耗没有超过95瓦。在英特尔高级副总裁帕特基辛格(Pat Gelsinger)看来，从单核到双核，再到多核的发展，证明了摩尔定律还是非常正确的，因为“从单核到双核，再到多核的发展，可能是摩尔定律问世以来，在芯片发展历史上速度最快的性能提升过程”。

3技术优势

从应用需求上去看，越来越多的用户在使用过程中都会涉及到多任务应用环境，日常应用中用到的非常典型的有两种应用模式。

一种应用模式是一个程序采用了线程级并行编程，那么这个程序在运行时可以把并行的线程同时交付给两个核心分别处理，因而程序运行速度得到极大提高。这类程序有的是为多路工作站或服务器设计的专业程序，例如专业图像处理程序、非线视频编缉程序、动画制作程序或科学计算程序等。对于这类程序，两个物理核心和两颗处理器基本上是等价的，所以，这些程序往往可以不作任何改动就直接运行在双核电脑上。

还有一些更常见的日常应用程序，例如Office、IE等，同样也是采用线程级并行编程，可以在运行时同时调用多个线程协同工作，所以在双核处理器上的运行速度也会得到较大提升。例如，打开IE浏览器上网。看似简单的一个操作，实际上浏览器进程会调用代码解析、Flash 播放、多媒体播放、Java、脚本解析等一系列线程，这些线程可以并行地被双核处理器处理，因而运行速度大大加快（实际上IE浏览器的运行还涉及到许多进程级的交互通信，这里不再详述）。由此可见，对于已经采用并行编程的软件，不管是专业软件，还是日常应用软件，在多核处理器上的运行速度都会大大提高。

日常应用中的另一种模式是同时运行多个程序。许多程序没有采用并行编程，例如一些文件压缩软件、部分游戏软件等等。对于这些单线程的程序，单独运行在多核处理器上与单独运行在同样参数的单核处理器上没有明显的差别。但是，由于日常使用的最最基本的程序——操作系统——是支持并行处理的，所以，当在多核处理器上同时运行多个单线程程序的时候，操作系统会把多个程序的指令分别发送给多个核心，从而使得同时完成多个程序的速度大大加快。

另外，虽然单一的单线程程序无法体现出多核处理器的优势，但是多核处理器依然为程序设计者提供了一个很好的平台，使得他们可以通过对原有的单线程序进行并行设计优化，以实现更好的程序运行效果。

上面介绍了多核心处理器在软件上面的应用，但游戏其实也是软件的一种，作为一种特殊的软件，对PC发展作出了较大的贡献。一些多线程游戏已经能够发挥出多核处理器的优势，对于单线程游戏，相信游戏厂商也将会改变编程策略，例如，一些游戏厂商正在对原来的一些单线程游戏进行优化，采用并行编程使得游戏运行得更快。有的游戏可以使用一个线程实现人物动画，而使用另一个线程来载入地图信息。或者使用一个线程来实现图像渲染中的矩阵运算，而使用另一个来实现更高的人工智能运算。如今，大量的支持多核心的游戏涌现出来，从而使得多核处理器的优势能得到进一步的发挥。

4技术瓶颈

布赖恩特直言不讳地指出，要想让多核完全发挥效力，需要硬件业和软件业更多革命性的更新。其中，可编程性是多核处理器面临的最大问题。一旦核心多过八个，就需要执行程序能够并行处理。尽管在并行计算上，人类已经探索了超过40年，但编写、调试、优化并行处理程序的能力还非常弱。

易观国际分析师李也认为，“出于技术的挑战，双核甚至多核处理器被强加给了产业，而产业却并没有事先做好准备”。或许正是出于对这种失衡的担心，中国国家智能计算机中心主任孙凝辉告诉《财经》记者，“十年以后，多核这条道路可能就到头了”。在他看来，一味增加并行的处理单元是行不通的。并行计算机的发展历史表明，并行粒度超过100以后，程序就很难写，能做到128个以上山东无缝钢管https://www.doczj.com/doc/173399382.html,的应用程序很少。CPU到了100个核以上后，现在并行计算机系统遇到的问题，在CPU一样会存在。“如果解决不了主流应用并行化的问题，主流CPU发展到100个核就到头了。现在还不知道什么样的革命性的进展能解决这些问题。”孙补充说。

实际上，市场研究公司In-Stat分析师吉姆克雷格(Jim McGregor)就承认，虽然英特尔已向外界展示了80核处理器原型，但尴尬的是，目前还没有能够利用这一处理器的操作系统。中科院软件所并行计算实验室副主任张云泉也持类似的观点。他对《财经》记者表示，这个问题实际一直就存在，但原来在超级计算机上才会遇到，所以，讨论也多局限在学术界。而现在，所有用户都要面对这样的问题。

目前，多核心技术在应用上的优势有两个方面：为用户带来更强大的计算性能；更重要的，则是可满足用户同时进行多任务处理和多任务计算环境的要求。两大巨头都给消费者描绘出了使用多核处理器在执行多项任务时的美妙前景：同时可以检查邮件、刻录CD、修改照片、剪辑视频，并且同时可以运行杀毒软件。或者利用同一台电脑，父亲在查看财务报表，女儿在打游戏，母亲在给远方的朋友打网络电话。但并不是所有家庭只有一台电脑，也不是所有用户都要用电脑一下子做那么多事，更何况目前的大部分应用程序还并不能自动分割成多任务，分别交给多个核心去执行。所以，对于大多数用户来说，多核所带来的实际益处，很可能并不明显。而多核所带来的挑战，或者说麻烦，却是实实在在的。美国卡内基梅隆大学计算机系教授朗道布赖恩特(Randal E Bryant)在接受《财经》记者采访时就坦称，“这给软件业

制造了巨大的问题”。[1]

5技术原理

多核CPU就是基板上集成有多个单核CPU，早期PD双核需要北桥来控制分配任务，核心之间存在抢二级缓存的情况，后期酷睿自己集成了任务分配系统，再搭配操作系统就能真正同时开工，2个核心同时处理2“份”任务，速度快了，万一1个核心死机，起码另一个U 还可以继续处理关机、关闭软件等任务。

6技术关键

与单核处理器相比，多核处理器在体系结构、软件、功耗和安全性设计等方面面临着巨大的挑战，但也蕴含着巨大的潜能。

CMP和SMT一样，致力于发掘计算的粗粒度并行性。CMP可以看做是随着大规模集成电路技术的发展，在芯片容量足够大时，就可以将大规模并行处理机结构中的SMP（对称多处理机）或DSM（分布共享处理机）节点集成到同一芯片内，各个处理器并行执行不同的线程或进程。在基于SMP结构的单芯片多处理机中，处理器之间通过片外Cache或者是片外的共享存储器来进行通信。而基于DSM结构的单芯片多处理器中，处理器间通过连接分布式存储器的片内高速交叉开关网络进行通信。

由于SMP和DSM已经是非常成熟的技术了，CMP结构设计比较容易，只是后端设计和芯片制造工艺的要求较高而已。正因为这样，CMP成为了最先被应用于商用CPU的“未来”高性能处理器结构。

虽然多核能利用集成度提高带来的诸多好处，让芯片的性能成倍地增加，但很明显的是原来系统级的一些问题便引入到了处理器内部。

核结构研究

同构还是异构

CMP的构成分成同构和异构两类，同构是指内部核的结构是相同的，而异构是指内部的核结构是不同的。为此，面对不同的应用研究核结构的实现对未来微处理器的性能至关重要。核本身的结构，关系到整个芯片的面积、功耗和性能。怎样继承和发展传统处理器的成果，直接影响多核的性能和实现周期。同时，根据Amdahl定理，程序的加速比决定于串行部分的性能，所以，从理论上来看似乎异构微处理器的结构具有更好的性能。

核所用的指令系统对系统的实现也是很重要的，多核之间采用相同的指令系统还是不同的指令系统，能否运行操作系统等，也将是研究的内容之一。

程序执行模型

处理器设计的首要问题是选择程序执行模型。程序执行模型的适用性决定多核处理器能否以最低的代价提供最高的性能。程序执行模型是编译器设计人员与系统实现人员之间的接口。编译器设计人员决定如何将一种高级语言程序按一种程序执行模型转换成一种目标机器语言程序; 系统实现人员则决定该程序执行模型在具体目标机器上的有效实现。当目标机器是多核体系结构时，产生的问题是: 多核体系结构如何支持重要的程序执行模型？是否有其他的程序执行模型更适于多核的体系结构？这些程序执行模型能多大程度上满足应用的需要并为用户所接受？

Cache设计

多级Cache设计与一致性问题

处理器和主存间的速度差距对CMP来说是个突出的矛盾，因此必须使用多级Cache来缓解。目前有共享一级Cache的CMP、共享二级Cache的CMP以及共享主存的CMP。通常，CMP 采用共享二级Cache的CMP结构，即每个处理器核心拥有私有的一级Cache，且所有处理器核心共享二级Cache。

Cache自身的体系结构设计也直接关系到系统整体性能。但是在CMP结构中，共享Cache 或独有Cache孰优孰劣、需不需要在一块芯片上建立多级Cache，以及建立几级Cache等等，由于对整个芯片的尺寸、功耗、布局、性能以及运行效率等都有很大的影响，因而这些都是需要认真研究和探讨的问题。

另一方面，多级Cache又引发一致性问题。采用何种Cache一致性模型和机制都将对CMP 整体性能产生重要影响。在传统多处理器系统结构中广泛采用的Cache一致性模型有: 顺序一致性模型、弱一致性模型、释放一致性模型等。与之相关的Cache一致性机制主要有总线的侦听协议和基于目录的目录协议。目前的CMP系统大多采用基于总线的侦听协议。

核间通信技术

CMP处理器的各CPU核心执行的程序之间有时需要进行数据共享与同步，因此其硬件结构必须支持核间通信。高效的通信机制是CMP处理器高性能的重要保障，目前比较主流的片上高效通信机制有两种，一种是基于总线共享的Cache结构，一种是基于片上的互连结构。总线共享Cache结构是指每个CPU内核拥有共享的二级或三级Cache，用于保存比较常用的数据，并通过连接核心的总线进行通信。这种系统的优点是结构简单，通信速度高，缺点是基于总线的结构可扩展性较差。

基于片上互连的结构是指每个CPU核心具有独立的处理单元和Cache，各个CPU核心通过交叉开关或片上网络等方式连接在一起。各个CPU核心间通过消息通信。这种结构的优点是可扩展性好，数据带宽有保证; 缺点是硬件结构复杂，且软件改动较大。

也许这两者的竞争结果不是互相取代而是互相合作，例如在全局范围采用片上网络而局部采用总线方式，来达到性能与复杂性的平衡。

总线设计

传统微处理器中，Cache不命中或访存事件都会对CPU的执行效率产生负面影响，而总线接口单元（BIU）的工作效率会决定此影响的程度。当多个CPU核心同时要求访问内存或多个CPU核心内私有Cache同时出现Cache不命中事件时，BIU对这多个访问请求的仲裁机制以及对外存储访问的转换机制的效率决定了CMP系统的整体性能。因此寻找高效的多端口总线接口单元（BIU）结构，将多核心对主存的单字访问转为更为高效的猝发（burst）访问; 同时寻找对CMP处理器整体效率最佳的一次Burst访问字的数量模型以及高效多端口BIU访问的仲裁机制将是CMP处理器研究的重要内容，目前Inter推出了最新的英特尔智能互连技术(QPI)技术总线，更大程度发掘了多核处理器的实力。

操作系统设计

任务调度、中断处理、同步互斥

对于多核CPU，优化操作系统任务调度算法是保证效率的关键。一般任务调度算法有全局队列调度和局部队列调度。前者是指操作系统维护一个全局的任务等待队列，当系统中有一个CPU核心空闲时，操作系统就从全局任务等待队列中选取就绪任务开始在此核心上执行。这种方法的优点是CPU核心利用率较高。后者是指操作系统为每个CPU内核维护一个局部的任务等待队列，当系统中有一个CPU内核空闲时，便从该核心的任务等待队列中选取恰

当的任务执行，这种方法的优点是任务基本上无需在多个CPU核心间切换，有利于提高CPU 核心局部Cache命中率。目前多数多核CPU操作系统采用的是基于全局队列的任务调度算法。

多核的中断处理和单核有很大不同。多核的各处理器之间需要通过中断方式进行通信，所以多个处理器之间的本地中断控制器和负责仲裁各核之间中断分配的全局中断控制器也需要封装在芯片内部。

另外,多核CPU是一个多任务系统。由于不同任务会竞争共享资源，因此需要系统提供同步与互斥机制。而传统的用于单核的解决机制并不能满足多核，需要利用硬件提供的“读－修改－写”的原子操作或其他同步互斥机制来保证。

低功耗设计

半导体工艺的迅速发展使微处理器的集成度越来越高，同时处理器表面温度也变得越来越高并呈指数级增长，每三年处理器的功耗密度就能翻一番。目前，低功耗和热优化设计已经成为微处理器研究中的核心问题。CMP的多核心结构决定了其相关的功耗研究是一个至关重要的课题。

低功耗设计是一个多层次问题，需要同时在操作系统级、算法级、结构级、电路级等多个层次上进行研究。每个层次的低功耗设计方法实现的效果不同——抽象层次越高，功耗和温度降低的效果越明显。

当前Intel的CPU的功耗相对较低，得益于先进的英特尔构架和45纳米、32纳米制程工艺，同时Intel还专门为CPU开发了不少节能技术，比如C6深度节能技、英特尔智能功效管理和主动管理技术等等，Intel在移动CPU市场，更是凭借超低电压处理器（ULV）和凌动（Atom）系列处理器，遥遥领先于对手。

存储器墙

为了使芯片内核充分地工作，最起码的要求是芯片能提供与芯片性能相匹配的存储器带宽，虽然内部Cache的容量能解决一些问题，但随着性能的进一步提高，必须有其他一些手段来提高存储器接口的带宽，如增加单个管脚带宽的DDR、DDR2、QDR、XDR等。同样，系统也必须有能提供高带宽的存储器。所以无缝方管https://www.doczj.com/doc/173399382.html,，芯片对封装的要求也越来越高，虽然封装的管脚数每年以20%的数目提升，但还不能完全解决问题，而且还带来了成本提高的问题，为此，怎样提供一个高带宽，低延迟的接口带宽，是必须解决的一个重要问题。

可靠性及安全性设计

随着技术革新的发展，处理器的应用渗透到现代社会的各个层面，但是在安全性方面却存在着很大的隐患。一方面，处理器结构自身的可靠性低下，由于超微细化与时钟设计的高速化、低电源电压化，设计上的安全系数越来越难以保证，故障的发生率逐渐走高。另一方面，来自第三方的恶意攻击越来越多，手段越来越先进，已成为具有普遍性的社会问题。现在，可靠性与安全性的提高在计算机体系结构研究领域备受注目。

今后，CMP这类处理器芯片内有多个进程同时执行的结构将成为主流，再加上硬件复杂性、设计时的失误增加，使得处理器芯片内部也未必是安全的，因此，安全与可靠性设计任重而道远。

7技术意义

多核处理器代表了计算技术的一次创新。由于数字数据和互联网的全球化，商业和消费者开

始要求多核处理器带来性能改进，这个重要创新就开始了；因为多核处理器比单核处理器具有性能和效率优势，多核处理器将会成为被广泛采用的计算模型。在驱动pc安全性和虚拟化技术的重大进程过程中，多核处理器扮演着中心作用，这些安全性和虚拟化技术的开发用于为商业计算市场提供更大的安全性、更好的资源利用率、创造更大价值。普通消费者用户也期望得到前所未有的性能，这将极大地扩展其家庭pc和数字媒体计算系统的使用。多核处理器具有不增加功耗而提高性能的好处，实现更大的性能/能耗比。

在一个处理器中放入两个或多个功能强大的计算核产生了一个重大的可能性。由于多核处理器能提供比单核处理器更好的性能和效率，下一代的软件应用程序很有可能是基于多核处理器而开发的。不管这些应用是帮助专业的电影公司以更少的投入和更少的时间完成更真实的电影，还是以更彻底的方法使得pc更自然和直观，多核处理器技术将永远改变计算世界。多核处理器表达了amd了解顾客需求并且开发最能满足客户要求产品的意愿。[2]

微软多核计算的主管Dan Reed称，整个世界上很缺乏那些并行计算的研究人员，而一个间接的原因就是学院里对于并行计算的关注度不够，而这些学院正是下一代软件开发人员诞生的地方。越来越高的时钟频率导致应用程序的代码运行的越来越快，而对于当前多核处理器来讲这一规则虽然成立，但却有所不同。而这种不同可以做一个形象的比喻，那就是一部跑车和一辆学校的巴士。当跑车能够以很快的速度飞奔时，巴士虽然比较慢，但它可以载着更多的人前行。问题就是，简单地在计算机CPU上增加多个核并不能增加传统应用程序代码的运行速度，这一结果是根据一项来自于Forrester研究公司的报告得出的。换句话说，复杂的工作需要拆分来填充这辆巴士上的空座位。Forrester的报告还谈到：同时，当前四核处理器会激发更多的多处理器设计的思想，我们期待着2009年x86的服务器使用64个处理器核，并且2012年台式机也可以实现这一梦想。

使得芯片的制造商以及主要的板级应用的软件厂商意识到多核编程的机遇和挑战。[3]

8技术种类

单芯片多处理器(CMP)与同时多线程处理器(SimultaneousMultithreading，SMT)，这两种体系结构可以充分利用这些应用的指令级并行性和线程级并行性，从而显著提高了这些应用的性能。从体系结构的角度看，SMT比CMP对处理器资源利用率要高，在克服线延迟影响方面更具优势。CMP相对SMT的最大优势还在于其模块化设计的简洁性。复制简单设计非常容易，指令调度也更加简单。同时SMT中多个线程对共享资源的争用也会影响其性能，而CMP 对共享资源的争用要少得多，因此当应用的线程级并行性较高时，CMP性能一般要优于SMT。此外在设计上，更短的芯片连线使CMP比长导线集中式设计的SMT更容易提高芯片的运行频率，从而在一定程度上起到性能优化的效果。总之，单芯片多处理器通过在一个芯片上集成多个微处理器核心来提高程序的并行性。每个微处理器核心实质上都是一个相对简单的单线程微处理器或者比较简单的多线程微处理器，这样多个微处理器核心就可以并行地执行程序代码，因而具有了较高的线程级并行性。由于CMP采用了相对简单的微处理器作为处理器核心，使得CMP具有高主频、设计和验证周期短、控制逻辑简单、扩展性好、易于实现、功耗低、通信延迟低等优点。此外，CMP还能充分利用不同应用的指令级并行和线程级并行，具有较高线程级并行性的应用如商业应用等可以很好地利用这种结构来提高性能。[4]

9技术应用

并行计算技术是云计算的核心技术，也是最具挑战性的技术之一。多核处理器的出现增加了并行的层次性能使得并行程序的开发比以往更难。而当前业内并无有效的并行计算解决方案，无论是编程模型、开发语言还是开发工具，距离开发者的期望都有很大的差距。自动的

并行化解决方案在过去的30年间已经被证明基本是死胡同，但传统的手工式的并行程序开发方式又难以为普通的程序员所掌握。Intel、微软、SUN、Cray等业内巨头正投入大量人力物力进行相关的研究，但真正成熟的产品在短期内很难出现。可扩展性是云计算时代并行计算的主要考量点之一，应用性能必须能随着用户的请求、系统规模的增大有效的扩展。当前目前大部分并行应用在超过一千个的处理器(核)上都难以获得有效的加速性能，未来的许多并行应用必须能有效扩展到成千上万个处理器上。这对开发者是巨大的挑战。[5]

10应用

从Power、UltraSPARC T1、安腾到双核Opteron、至强Xeon，各个领域都显示出，多核处理器计算平台势必成为服务器的主流或者说是强势计算平台，但这只是上游硬件厂商的乐观预计。并不是所有的操作系统和应用软件都做好了迎接多核平台的准备，尤其是在数十年来均为单一线程开发应用的x86服务器领域。微软软件架构师HerbSutter曾指出:软件开发者对多核处理器时代的来临准备不足。他说，软件开发社区认识到处理器厂商被迫采用多核设计以应对处理器速度提升带来的发热问题，但却没有清楚地了解这样的设计为软件开发带来多少额外的工作。

在过去一段长时间里，x86系统上软件的性能随着来自Intel和AMD处理器速度越来越快而不断提高，开发者只需对现有软件程序作轻微改动就能坐观其性能在随着硬件性能的上升而不断提升。不过，多核设计概念的出现迫使软件世界不得不直面并行性(将单个任务拆分成多个小块以便分别处理之后再重新组合的能力)问题。当然，为服务器设计软件的开发者已经解决了一些此类难题，因为多核处理器和多路系统在服务器市场已经存在多年(在传统的Unix领域)，一些运行在RISC架构多核多路系统上的应用程序已经被设计成多线程以利用系统的并行处理能力。但是，在x86领域，应用程序开发者多年来一直停留在单线程世界，生产所谓的“顺序软件”。

现在的情况是软件开发者必须找出新的开发软件的方法，面向对象编程的兴起增加了汇编语言的复杂性，并行编程也需要新的抽象层次。另一方面，处理器设计厂商在设计产品时也应该将软件开发者考虑在内，“处理器的首要着眼点应该是可编程性，而不是速度。”Sutter说。多核处理器要想发挥出威力，关键在于并行化软件支持，多核设计带动并行化计算的推进，而给软件带来的影响更是革命性的。

Intel很早就通过超线程技术实现了逻辑上的双处理器系统，可以并行计算，但这不过是对处理器闲置资源的一种充分利用而已，并且这种充分利用只有在特定的条件下，尤其是针对流水线比较长且两种运算并不相互交叉的时候，才会有较高的效率，如编码解码、长期重复某种矩阵运算以及一些没有经过仔细编写的软件等。

即使IBM的Power5架构，也需要跟最新的操作系统进行融合，加上运行在其上的软件，才有可能利用并发多线程。虚拟化技术在一定程度上能够处理一些因为多核带来的问题，可以让应用软件和操作系统在透明的环境下对处理器资源进行分配和管理。

目前在对称多处理器方面，操作系统对资源的分配和管理并没有本质的改变，多以对称的方式进行平均分配。也就是说，在操作系统层面，当一个任务到来时，剥离成为两个并行的线程，因为线程之间需要交流以及操作系统监管，它导致的效率损失要比硬件层面大得多。并且，多数软件并没有充分考虑到双核乃至多核的运行情况，导致线程的平均分配时间以及线程之间的沟通时间都会大大增加，尤其是当线程需要反复访问内存的时候。目前，多数操作系统还没有完全实现自由的资源分配，如IBM是通过AIX 5.3L来支持Power5上的虚拟化功能，才实现了资源的动态调配和划分的。

从长远来看，需要使用虚拟化技术才可能实现操作系统对任务的具体划分，这很可能改变一些通用的编程模式。[6]

11英特尔

2009年9月6日下午，英特尔在北京发布了业界首款专为多路(MP)服务器设计的四核英特尔®至强®7300系列服务器处理器。与英特尔前代双核产品相比，此次发布的六款全新四核至强®7300系列处理器的性能和性能功耗比分别提升了两倍和三倍之多。而随着这些产品的发布，英特尔在不到15个月的时间内完成了向创新和高能效的英特尔®酷睿?微体系架构的快速切换。

据了解，此次推出的至强®7300系列产品包括主频高达2.93GHz处理器(功耗为130瓦)，几款80瓦处理器，和一款针对四插槽刀片式服务器和高密度机架式服务器优化的50瓦版处理器(主频为 1.86GHz)。具备数据流量优化(Data Traffic Optimizations)特性的英特尔®7300芯片组采用平衡的平台设计，具有多项全新技术，以改善数据在处理器、内存和I/O之间的传输能力。此外，英特尔还发布了一款50瓦(每内核12.5瓦)的处理器，以推动四插槽刀片式服务器和高密度机架式服务螺旋钢管厂家https://www.doczj.com/doc/173399382.html,器等高能效超密度部署产品的发展。

在芯片设计方面，除内核数量增加一倍之外，相对于前代英特尔多路平台，至强®7300系列处理器和英特尔®7300芯片组所支持的内存容量是原来的4倍，并能支持非常高的整合比例，以减少空间、降低功耗和运营成本。

预计今后将有超过50家的系统制造商发售基于英特尔®至强®7300系列处理器的服务器，其中包括戴尔、Egenera、富士通、富士通-西门子、日立、惠普、IBM、NEC、Sun、超微和优利等。针对需要基于全新英特尔®至强®7300系列处理器的完整平台的渠道客户，英特尔特别为其提供了英特尔®S7000FC4UR服务器平台。该款平台可提供强劲的可扩展性能、业经验证的企业级可靠性，用于基础设施的虚拟化和整合。

许多软件厂商也为基于英特尔®至强®7300系列处理器的平台提供了创新性的支持虚拟化和性能扩展的解决方案，如BEA、微软、甲骨文、SAP和VMware等。此外，Solaris 操作系统和其上运行的数千款应用能够充分利用英特尔®至强®7300 系列处理器平台的领先性能优势，为英特尔®至强®服务器用户提供企业级、支持关键任务的UNIX 操作系统环境。

这些全新四核处理器的定价根据主频、特性和客户定购数量的不同，其千枚单价从856美元至2,301美元不等。

多核与多线程技术的区别到底在哪里

多核与多线程技术的区别到底在哪里？【导读】：毫无疑问的，“多核”、“多线程”此二词已快成为当今处理器架构设计中的两大显学，如同历史战国时代以“儒”、“墨”两大派的显学，只不过当年两大治世思想学派是争得你死我亡，而多核、多线程则是相互兼容并蓄，今日几乎任何处理器都朝同时具有多核多线程的路线发展迈进。毫无疑问的，“多核”、“多线程”此二词已快成为当今处理器架构设计中的两大显学，如同历史战国时代以“儒”、“墨”两大派的显学，只不过当年两大治世思想学派是争得你死我亡，而多核、多线程则是相互兼容并蓄，今日几乎任何处理器都朝同时具有多核多线程的路线发展迈进。虽然两词到处可见，但可有人知此二者的实际差异？在执行设计时又是以何者为重？到底是该多核优先还是多线程提前？关于此似乎大家都想进一步了解，本文以下试图对此进行个中差异的解说，并尽可能在不涉及实际复杂细节的情形下，让各位对两者的机制观念与差别性有所理解。行程早于线程若依据信息技术的发展历程，在软件程序执行时的再细分、再切割的小型化单位上，先是有行程（Process），之后才有线程（Thread），线程的单位比行程更小，一个行程内可以有多个线程，在一个行程下的各线程，都是共享同一个行程所建立的内存寻址资源及内存管理机制，包括执行权阶、内存空间、堆栈位置等，除此之外各个线程自身仅拥有少许因为执行之需的变量自属性，其余都依据与遵行行程所设立的规定。相对的，程序与程序之间所用的就是不同的内存设定，包括分页、分段等起始地址的不同，执行权阶的不同，堆栈深度的不同等，一颗处理器若执行了A行程后要改去执行B行程，对此必须进行内存管理组态的搬迁、变更，而这个搬迁若是在处理器内还好，若是在高速缓存甚至是系统主存储器时，此种切换、转移程序对执行效能的损伤就非常大，因为完成搬迁、切换程序的相同时间，处理器早就可以执行数十到上千个指令。两种路线的加速思维所以，想避免此种切换的效率损耗，可以从两种角度去思考，第一种思考就是扩大到整体运算系统的层面来解决，在一部计算机内设计、配置更多颗的处理器，然后由同一个操作系统同时掌控及管理多颗处理器，并将要执行的程序的各个程序，一个程序喂（也称：发派）给一颗处理器去执行，如此多颗同时执行，每颗处理器执行一个程序，如此就可以加快整体的执行效率。当然！这种加速方式必须有一个先决条件，即是操作系统在编译时就必须能管控、发挥及运用多行程技术，倘若以单行程的系统组态来编译，那么操作系统就无法管控服务器内一颗以上的处理器，如此就不用去谈论由操作系统负责让应用程序的程序进行同时的多颗同时性的执行派送。即便操作系统支持多程序，而应用程序若依旧只支持单程序，那情形一样是白搭，操作

多核处理器的发展前景和存在问题综述

多核处理器的发展前景和存在问题综述目录 1.概述 (2) 2.处理器的发展趋势 (2) 从单核到多核 (3) 同构多处理器与异构多处理器 (3) 多核处理器发展面临的挑战 (4) 多核与多线程技术 (4) 3.多核处理器的高速缓存一致性问题 (4) 增强一致性的基本方案 (5) 目录式Proximity-aware 协议 (5) 4.多核加速串行程序的主要方法 (8) 并行编译器 (8) 推测多线程 (9) 基于线程的预执行机制 (9) 5. 总结 (10) 参考文献 (11)

1. 概述在过去的几十年时间里,处理器的性能一直按照莫尔定律在发展。提高处理器性能的基本方法就是不断提升主频。从初期的几十MHz到不久前IBM的Power 6达到了，设计人员甚至想过提升到7G～8GHz。不过，进入2002年以来，CPU 提升主频的困难越来越大，因为主频的提升带来了散热和功耗的大幅增加等问题。在几年前，英特尔和AMD都调整了研究方向，开始研究在同一CPU中放置多个执行内核。说到底，出现多核处理器的最根本原因是人们对计算能力永无止境的追求。尽管这些年来，处理器从来没有停止过前进的脚步，但每一次性能的突破，换来的只是对更高性能的需求，特别是在油气勘探、气象预报、虚拟现实、人工智能等高度依赖于计算能力的场合，对性能的渴求更加迫切。既然单处理器的发展已经到了瓶颈，而多核将会引领以后处理器发展的潮流，那么我们就看看多核处理器带给我们什么样的性能提升，多核处理器要全面应用到各个领域所需解决的问题。多核的好处非常明显。首先，由于是多个执行内核可以同时进行运算，因此可以显著提升计算能力，而每个内核的主频可以比以前低，因而总体功耗增加不大。其次，与多CPU相比，多核处理器采用与单CPU相同的硬件架构，用户在提升计算能力的同时无需进行任何硬件上的改变，这对用户来说非常方便。然而，多核处理器要发挥它的作用必须要解决许多问题，不像CPU的频率提升，无论如何你都可以从中受益，要从多核处理器中受益，首先在设计多核处理器时，要注意不同核心之间的通信与数据的一致性，另外，在软件层次上也需要对多核进行改进，以充分利用多核的性能。本文结合了几篇最新的多核方面的论文和一些网上评论，从处理器的发展趋势，前景以及存在的挑战几个方面介绍了多核的相关问题。文章第二部分主要介绍处理器的发展趋势，第三部分主要阐述多核的一个关键问题高速缓存一致性已经如何通过预取来提高带宽，第四部分主要阐述多核在提高串行程序性能方面的作用。 2. 处理器的发展趋势

多核处理器

多核处理器多核处理器是指在一枚处理器中集成两个或多个完整的计算引擎(内核)。多核技术的开发源于工程师们认识到，仅仅提高单核芯片的速度会产生过多热量且无法带来相应的性能改善，先前的处理器产品就是如此。他们认识到，在先前产品中以那种速率，处理器产生的热量很快会超过太阳表面。即便是没有热量问题，其性价比也令人难以接受，速度稍快的处理器价格要高很多。最新新闻中国发布全球首款全系统多核高精度导航定位芯片全球首款全系统多核高精度导航定位系统级芯片，13日在第六届中国卫星[2.10% 资金研报]学术年会期间对外发布。专家表示，这意味着国产芯片不仅具备国际竞争力，还从“跟踪者”跃升为“引领者”。...详情内容来自中文名多核处理器定义集成两个或多个完整的计算引擎第一颗通用型微处理器4004 技术优势采用了线程级并行编程目录 1技术发展 2发展历程 3技术优势 4技术瓶颈 5技术原理 6技术关键 ?核结构研究 ?程序执行模型 ?Cache设计 ?核间通信技术 ?总线设计 ?操作系统设计 ?低功耗设计 ?存储器墙 ?可靠性及安全性设计 7技术意义 8技术种类 9技术应用 10应用 11英特尔 1技术发展 256线程的CPU 256线程的CPU 英特尔工程师们开发了多核芯片，使之满足“横向扩展”（而非“纵向扩充”）方法，从而提高性能。该架构实现了“分治法”战略。通过划分任务，线程应用能够充分利用多个执行内核，并可在特定的时间内执行更多任务。多核处理器是单枚芯片（也称为“硅核”），能够直

接插入单一的处理器插槽中，但操作系统会利用所有相关的资源，将每个执行内核作为分立的逻辑处理器。通过在两个执行内核之间划分任务，多核处理器可在特定的时钟周期内执行更多任务。多核架构能够使软件更出色地运行，并创建一个促进未来的软件编写更趋完善的架构。尽管认真的软件厂商还在探索全新的软件并发处理模式，但是，随着向多核处理器的移植，现有软件无需被修改就可支持多核平台。操作系统专为充分利用多个处理器而设计，且无需修改就可运行。为了充分利用多核技术，应用开发人员需要在程序设计中融入更多思路，但设计流程与对称多处理(SMP)系统的设计流程相同，并且现有的单线程应用也将继续运行。得益于线程技术的应用在多核处理器上运行时将显示出卓越的性能可扩充性。此类软件包括多媒体应用（内容创建、，以及本地和数据流回放）、工程和其他技术计算应用以及诸如应用服务器和数据库等中间非标轴承https://www.doczj.com/doc/173399382.html,层与后层服务器应用。多核技术能够使服务器并行处理任务，而在以前，这可能需要使用多个处理器，多核系统更易于扩充，并且能够在更纤巧的外形中融入更强大的处理性能，这种外形所用的功耗更低、计算功耗产生的热量更少。多核技术是处理器发展的必然。推动微处理器性能不断提高的因素主要有两个：半导体工艺技术的飞速进步和体系结构的不断发展。半导体工艺技术的每一次进步都为微处理器体系结构的研究提出了新的问题，开辟了新的领域；体系结构的进展又在半导体工艺技术发展的基础上进一步提高了微处理器的性能。这两个因素是相互影响，相互促进的。一般说来，工艺和电路技术的发展使得处理器性能提高约20倍，体系结构的发展使得处理器性能提高约4倍，编译技术的发展使得处理器性能提高约1.4倍。但是今天，这种规律性的东西却很难维持。多核的出现是技术发展和应用需求的必然产物。 2发展历程 1971年，英特尔推出的全球第一颗通用型微处理器4004，由2300个晶体管构成。当时，公司的联合创始人之一戈登摩尔(Gordon Moore)，就提出后来被业界奉为信条的“摩尔定律”——每过18个月，芯片上可以集成的晶体管数目将增加一倍。在一块芯片上集成的晶体管数目越多，意味着运算速度即主频就更快。今天英特尔的奔腾(Pentium)四至尊版840处理器，晶体管数量已经增加至2.5亿个，相比当年的4004增加了10万倍。其主频也从最初的740kHz(每秒钟可进行74万次运算)，增长到现在的3.9GHz(每秒钟运算39亿次)以上。当然，CPU主频的提高，或许在一定程度上也要归功于1975年进入这个领域的AMD公司的挑战。正是这样的“双雄会”，使得众多计算机用户有机会享受不断上演的“速度与激情”。一些仍不满足的发烧友甚至选择了自己超频，因为在玩很多游戏时，更快的速度可以带来额外的饕餮享受。但到了2005年，当主频接近4GHz时，英特尔和AMD发现，速度也会遇到自己的极限：那就是单纯的主频提升，已经无法明显提升系统整体性能。以英特尔发布的采用NetBurst架构的奔腾四CPU为例，它包括Willamette、Northwood和Prescott等三种采用不同核心的产品。利用冗长的运算流水线，即增加每个时钟周期同时执行的运算个数，就达到较高的主频。这三种处理器的最高频率，分别达到了2.0G、3.4G和3.8G。按照当时的预测，奔腾四在该架构下，最终可以把主频提高到10GHz。但由于流水线过长，使得单位频率效能低下，加上由于缓存的增加和漏电流控制不利造成功耗大幅度增加，3.6GHz奔腾四芯片在性能上反而还不如早些时推出的3.4GHz产品。所以，Prescott产品系列只达到3.8G，就戛然而止。英特尔上海公司一位工程师在接受记者采访时表示，Netburst微架构的好处在于方便提升频率，可以让产品的主频非常高。但性能提升并不明显，频率提高50%，性能提升可能微不

多核处理器的主要实现架构及其设计挑战

多核处理器的主要实现架构及其设计挑战 2008年03月01日为得到更高的处理性能，曾经唯一的做法是提高单一处理器的频率，但当这一做法因为功耗和发热的非线性增长而变得难以为继时，集成多个处理器核心的器件便应运而生。谈到多核处理器，ARM的中国总裁谭军先生给出的定义是：“多核处理器是指在同一个核内具有多个处理器内核，它们可以通过内部的缓存来控制，有选择性的开/关。” 总体上，多核处理器架构分为同质架构和异质架构两大类。MIPS 科技公司产品营销总监P ete Del Vecchio认为：“当SoC 的功能被分解进彼此次之间通信非常有限的的多个子系统时，异质架构的多核系统最为适用。”他还表示：“同质架构的多核系统设计使分配到不同处理器的任务共享的数据可以自动保持一致。这种多核系统比较容易编程，可提供直接的机制，在不同处理器之间动态地迁移任务。” 各种应用于通用领域和嵌入式领域的多核处理器都可以归入到上面提到的这两种架构。TI 采用的是将DSP与CPU核心相结合的混合结构。TI通用DSP业务发展经理郑小龙表示：“DSP速度极快适于实时处理，CPU控制能力全面适合非实时处理，TI的混合结构多核处理器将二者的优点充分结合，构成一个极其高效的SoC。”MIPS的Pete Del Vecchio表示：“目前，MIPS主要致力于最大限度地提高单处理器的频率。”但他同时表示：“已有获得授权的厂商在利用各种MIPS 内核，不论是在异构还是同构多核实现方法方面均取得了巨大的成功。例如，Sigma Designs 开发的一款芯片采用两个MIPS内核，一个用来处理应用软件/OS，另一个用于系统安全。” Freescale的多核平台包含2到32个Power Architecture 的e500-mc Power内核，该平台在高端包含了一个基于互联的片上控制网络，它可以减少由于拥塞而带来的性能降低。ARM在2007年推出了当最多具备四核时性能可达8,000DMIPS 的Cortex-A9处理器。英特尔目前多核处理器采用的微架构是著名的酷睿微架构，酷睿微架构具备以下重要特性： 1. 英特尔宽区动态执行； 2. 英特尔智能内存访问； 3. 英特尔高级数字媒体增强； 4. 英特尔高级智能高速缓存； 5. 英特尔智能功率特性。在实施多核处理器的过程中，在硬件和软件两方面业界都面临一系列挑战。TI的郑小龙认为：“挑战首先表现在系统配置方面，其次表现在软件协调开发方面。”ARM通过已经被业界证明成功的MPCore 技术看到了以下几大设计挑战：1. 预先整合的并且通过验证的可扩展多核处理技术；2. 整合的中断分配和处理器间的通信；3. 先进的Snoop控制单元，支持增强的缓存一致性。应对这些挑战，谭军表示：“ARM在Cortex-A9 MPCore中在以下几个方面进一步加强了MPCore 技术：1. 加速器一致性端口(ACP)；2. 先进的总线接口单元；3. 具有中断虚拟的多核ARM TrustZone技术；4. 通用中断控制器(GIC)。

片上众核处理器硬件同步机制研究

片上众核处理器硬件同步机制研究* 徐卫志1,2刘志勇1范东睿1焦帅1,2张浩1宋风龙1雷峥蒙1,2余磊1,2 1（中国科学院计算技术研究所系统结构重点实验室北京 100190） 2（中国科学院研究生院北京 100039）摘要同步机制是片上多核/众核处理器正确执行和协同通信的关键，其效率对处理器的性能非常重要。本文针对片上众核体系结构，提出了两种硬件粗粒度同步机制，集中式同步机制和分布式同步机制，分别通过片上的集中式锁管理器和分布式锁管理器来实现；以片上同构众核处理器Godson-T模拟器为平台，通过量化评估程序，评估比较了提出的两种硬件支持的同步机制与基于原语的软件同步机制的性能。结果表明，硬件支持可以使得片上众核处理器的同步机制性能明显提高，而分布式锁管理器的扩展性要好于集中式锁管理器。关键词片上众核处理器；同步；硬件支持；集中式锁管理器；分布式锁管理器中图法分类号: TP302 文献标识码: A 1 引言传统单核处理器采用指令级并行的技术提高性能，借助于超标量和流水处理提高处理器的主频，但是随着主频的提高却使得功耗和散热问题难以依靠现有的技术解决。而半导体工艺的发展，使得片上可集成的晶体管数目日益增多，因而体系结构设计者为了在性能进一步提升的同时降低功耗和散热，提出了线程级粗粒度并行的片上多核/众核处理器[1]。片上多核/众核处理器与传统多处理器相比，其优点是片上处理能力强、带宽高、通信距离短、传输速度快等，多个线程之间的数据通信效率高，因而需要高效的同步机制与之匹配。同步操作保证多个线程之间的数据传播，临界区的互斥访问使得多个线程对共享存储的写操作等同于串行执行，保证程序执行语义的正确性。因而，同步操作的性能对片上众核处理器而言非常重要，直接影响了多个线程协同执行的速度。在传统多处理器系统中，已有许多针对于互斥操作的研究，主要可以分为两类，一类是设计更好的软件算法，第二类是为其提供专用的硬件支持等。软件锁的缺点在于同步开销大、扩展性差、存储空间要求高等。例如，Test&Set锁[2]是基于原子指令Test&Set的软件锁，它需要每个参与同步的线程不断地执行Test&Set指令，每一次执行Test&Set指令，就检查并修改对应的内存块，造成大量的访存操作和网络操作，当线程数增多时，Test&Set锁的扩展性很差。虽然已经有一些改进的基于原子指令的软件同步方法，但是原子指令实现困难，代价高，当片上集成了成百上千个处理器核时，软件锁难以满足众核处理器的性能需求，势必形成“synchronization wall”。虽然基于同步原语的软件锁相对于硬件锁较灵活，但是在众核片上支持硬件锁，可以充分利用片上通信速度快的特点，大大提高同步操作的效率，从而提高整个芯片的计算能力。文献[3]针对于众核处理器Cyclops-64，提出了专用的硬件同步状态缓存器SSB，用于支持细粒度的同步操作，目的是有效利用众核处理器的片上处理能力。然而，硬件支持对于片上众核处理器中粗粒度同步机制的性能影响仍没有相关的研究。因而，我们提出了基于片上众核体系结构的两种硬件粗粒度同步机制，使用专门的片上锁管理器来实现同步，包括集中式锁管理器和分布式锁管理器，从不同角度评估了硬件支持对片上众核结构同步机制的性能提升，将集中式同步机制，分布式同步机制，以及软件同步机制进行了比较。结果表明，硬件支持可以使得片上众核处理器的同步机制性能明显提高，而分布式锁管理器比集中式锁管理器扩展性更好。本文如下组织：第2节介绍多核/众核同步机制的相关研究工作，包括基于原语的同步机制实现方式，硬件同步，细粒度同步，事务内存等；第3节提出片上众核结构中专用硬件支持的同步机制，包括集中式同步管理器与分布式同步管理器，为了评估需要，在片上众核结构中也实现了Ticket Lock；第4节介绍模拟平台和试验结果，并对结果进行分析，对软件锁和硬件锁，集中式锁管理器和分布式锁锁管理器进行比较；第5节总结本文，并提出进一步的工作。 *本课题得到国家自然科学基金重点项目(60736012)、国家“九七三”重点基础研究发展规划项目基金(2005CB321600)、国家“八六三”高技术研究发展计划项目基金(2009AA01Z103)、国家杰出青年科学基金(60925009 )、国家自然科学基金创新研究群体科学基金(60921002)、北京市自然科学基金（4092044）资助。徐卫志（1982年生），男，山东龙口人，博士研究生，主要研究方向为高性能计算机体系结构、并行算法等；刘志勇(1946年生)，男，博士，研究员，博士生导师，主要研究领域为算法、计算机系统结构、并行处理、片上存储系统等；范东睿（1979年生），男，博士，副研究员，主要研究方向为低功耗处理器设计；张浩，博士，助理研究员；宋风龙，博士；雷峥蒙，硕士研究生；余磊，博士研究生。

多核处理器的优点和缺点

三、多核处理器的优点和缺点从应用需求上去看，越来越多的用户在使用过程中都会涉及到多任务应用环境，日常应用中用到的非常典型的有两种应用模式。一种应用模式是一个程序采用了线程级并行编程，那么这个程序在运行时可以把并行的线程同时交付给两个核心分别处理，因而程序运行速度得到极大提高。这类程序有的是为多路工作站或服务器设计的专业程序，例如专业图像处理程序、非线视频编缉程序、动画制作程序或科学计算程序等。对于这类程序，两个物理核心和两颗处理器基本上是等价的，所以，这些程序往往可以不作任何改动就直接运行在双核电脑上。还有一些更常见的日常应用程序，例如、等，同样也是采用线程级并行编程，可以在运行时同时调用多个线程协同工作，所以在双核处理器上的运行速度也会得到较大提升。例如，打开浏览器上网。看似简单的一个操作，实际上浏览器进程会调用代码解析、播放、多媒体播放、、脚本解析等一系列线程，这些线程可以并行地被双核处理器处理，因而运行速度大大加快（实际上浏览器的运行还涉及到许多进程级的交互通信，这里不再详述）。由此可见，对于已经采用并行编程的软件，不管是专业软件，还是日常应用软件，在多核处理器上的运行速度都会大大提高。日常应用中的另一种模式是同时运行多个程序。许多程序没有采用并行编程，例如一些文件压缩软件、部分游戏软件等等。对于这些单线程的程序，单独运行在多核处理器上与单独运行在同样参数的单核处理器上没有明显的差别。但是，由于日常使用的最最基本的程序——操作系统——是支持并行处理的，所以，当在多核处理器上同时运行多个单线程程序的时候，操作系统会把多个程序的指令分别发送给多个核心，从而使得同时完成多个程序的速度大大加快。另外，虽然单一的单线程程序无法体现出多核处理器的优势，但是多核处理器依然为程序设计者提供了一个很好的平台，使得他们可以通过对原有的单线程序进行并行设计优化，以实现更好的程序运行效果。上面介绍了多核心处理器在软件上面的应用，但游戏其实也是软件的一种，作为一种特殊的软件，对发展作出了较大的贡献。一些多线程游戏已经能够发挥出多核处理器的优势，对于单线程游戏，相信游戏厂商也将会改变编程策略，例如，一些游戏厂商正在对原来的一些单线程游戏进行优化，采用并行编程使得游戏运行得更快。有的游戏可以使用一个线程实现人物动画，而使用另一个线程来载入地图信息。或者使用一个线程来实现图像渲染中的矩阵运算，而使用另一个来实现更高的人工智能运算。如今，大量的支持多核心的游戏涌现出来，从而使得多核处理器的优势能得到进一步的发挥。但布赖恩特直言不讳地指出，要想让多核完全发挥效力，需要硬件业和软件业更多革命性的更新。其中，可编程性是多核处理器面临的最大问题。一旦核心多过八个，就需要执行程序能够并行处理。尽管在并行计算上，人类已经探索了超过年，但编写、调试、优化并行处理程序的能力还非常弱。易观国际分析师李也认为，“出于技术的挑战，双核甚至多核处理器被强加给了产业，而产业却并没有事先做好准备”。或许正是出于对这种失衡的担心，中国国家智能计算机中心主任孙凝辉告诉《财经》记者，“十年以后，多核这条道路可能就到头了”。在他看来，一味增加并行的处理单元是行不通的。并行计算机的发展历史表明，并行粒度超过以后，程序就很难写，能做到个以上的应用程

多核处理器在计算方面的优势

面对飞速增长的流媒体信息和网络应用的全球化趋势，企业和消费者要求电脑处理器提供更多的便利，更明显的优势，采用多核处理器的x86服务器就是在这种背景下应运而生。目前，数据库、创作3D图像、同时运行多项任务、数学分析和网络服务等各种各样的应用，对计算性能的要求永无止境。如何在更好的性价比条件下，有效地满足现在与未来的需求，成为企业用户面临的必然选择。双核处理器：计算技术发展的重要趋势从技术层面来看，多核处理器，较之当前的单核处理器，能带来更多的性能和生产力优势，因而最终将成为一种广泛普及的计算模式。多核处理器还将在推动PC安全性和虚拟技术方面起到关键作用，虚拟技术的发展能够提供更好的保护、更高的资源使用率和更可观的商业运算市场价值。向多核处理器的迈进是一个重要的技术发展趋势。双核处理器技术的引入是提高处理器性能另一个行之有效的方法。因为处理器实际性能是处理器在每个时钟周期内所能处理器指令数的总量，因此增加一个内核，处理器每个时钟周期内可执行的单元数将增加一倍。在这里我们必须强调一点的是，如果你想让系统达到最大性能，你必须充分利用两个内核中的所有可执行单元：即让所有执行单元都有活可干！当这些处理器面世时，它们将会立即对企业和消费者带来极大的便利。多核处理器可以通过为工作负担较重的场合——尤其是那些已经在使用多线程应用的场合？D?D提供显着提升的性能，促进服务器/工作站业务环境的发展。根据现有的计划，我们可以看到，一些国际领先的处理器厂商计划在2005年中国推出第一个面向服务器和工作站市场的双核处理器。届时，企业计算的x86服务器市场将全面进入双核时代，从而拉开了多核服务器全新应用时代的帷幕；而这个时代帷幕一旦拉开，将把X86服务器的应用提升到一个前所未有的高度，使客户在举足之间轻松提升性能，更加有效地运行应用，提高工作负担较重的应用，例如数据采集、数学分析和Web服务，提高更高的生产效率。双核服务器：企业服务器的必由之路计算机处理器的设计在近20年来以一个常速在不断进化发展。计算机持续向大众市场发展和扩散和我们提出的要求都在不断推动着向更强大的处理器前进的趋势。市场对更高性能处理器的要求与对更成熟的软件应用程序的需求紧密相关。例如，如今全球盛行的电子邮件，在十年以前只是一项限制性很强而且价格昂贵的技术。如今，软件应用程序，从帮助大型企业更好地管理和保护他们的关键业务数据和网络到允许家用PC机编辑家庭录像、处理数字照片和将下载音乐烧制成CD，几乎无所不在。

操作系统对多核处理器的支持方法

随着多核处理器的发展，对软件开发有非常大的影响，而且核心的瓶颈在软件上。软件开发在多核环境下的核心是多线程开发。这个多线程不仅代表了软件实现上多线程，要求在硬件上也采用多线程技术。可以说多核提供了可以大幅提升性能的机制，多核软件就是可以真正利用这一特点的策略。只有与多核硬件相适应的软件，才能真正地发挥多核的性能。多核对软件的要求包括对多核操作系统的要求和对应用软件的要求。多核操作系统的关注点在于进程的分配和调度。进程的分配将进程分配到合理的物理核上，因为不同的核在共享性和历史运行情况都是不同的。有的物理核能够共享二级cache，而有的却是独立的。如果将有数据共享的进程分配给有共享二级cache的核上，将大大提升性能；反之，就有可能影响性能。进程调度会涉及到比较广泛的问题，比如负载均衡、实时性等。面向多核体系结构的操作系统调度目前多核软件的一个热点，其中研究的热点主要有下面几方面：程序的并行研究；多进程的时间相关性研究；任务的分配与调度；缓存的错误共享；一致性访问研究；进程间通信；多处理器核内部资源竞争等等。这些探讨相互独立又相互依赖。考虑一个系统的性能时必须将其中的几点同时加以考虑，有时候对一些点的优化会造成另一些点的性能下降，需要用程序进行性能优化评测，所以合适的多核系统软件方案正在形成过程中。任务的分配是多核时代提出的新概念。在单核时代，没有核的任务分配的问题，一共只有一个核的资源可被使用。而在多核体系下，有多个核可以被使用。如果系统中有几个进程需要分配，是将他们均匀地分配到各个处理器核，还是一起分配到一个处理器核，或是按照一定的算法进行分配。并且这个分配还受底层系统结构的影响，系统是SMP构架还是CMP构架，在CMP构架中会共享二级缓存的核的数量，这是影响分配算法的因子。任务分配结束后，需要考虑任务调度。对于不同的核，每个处理器核可以有自己独立的调度算法来执行不同的任务（实时任务或者交互性任务），也可以使用一致的调度算法。此外，还可以考虑一个进程上一个时间运行在一个核上，下一个时间片是选择继续运行在这个核上，还是进行线程迁移；怎样直接调度实时任务和普通任务；系统的核资源是否要进行负载均衡等等。任务调度是目前研究的热点之一。在单核处理器中，常见的调度策略有先到先服务（FCFS）,最短作业调度（SJF），优先级调度（Priority-scheduling algorithm）,轮转法调度（round-robin RR），多级队列调度（multilevel queue-schedule algorithm）等。例如在Linux操作系统中对实时任务采取FCFS和RR两种调度，普通任务调度采取优先级调度。对于多核处理器系统的调度，目前还没有明确的标准与规范。由于系统有多个处理器核可用，必须进行负载分配，有可能为每个处理器核提供单独的队列。在这种情况下，一个具有空队列的处理器就会空闲，而另一个处理器会很忙。所以如何处理好负载均衡问题是这种调度策略的关键问题所在。为了解决这种情况，可以考虑共同就绪队列，所有处理器公用一个就绪队列。但是这无疑对进程上下文切换、锁的转换增加了执行时间，降低了性能。另外一种想法就是选择一个处理器来为其他处理器调度，因而创建了主从结构。有的系统将主从结构作进一步扩

多核处理器1

多核处理器摘要：多核处理器也称为片上多处理器(chip multi-processor，CMP)，或单芯片多处理器。自1996年美国斯坦福大学首次提出片上多处理器(CMP)思想和首个多核结构原型，到2001年mM推出第一个商用多核处理器POWER4，再到2005年Intel和AMD多核处理器的大规模应用，最后到现在多核成为市场主流，多核处理器经历了十几年的发展。在这个过程中，多核处理器的应用范围已覆盖了多媒体计算、嵌入式设备、个人计算机、商用服务器和高性能计算机等众多领域，多核技术及其相关研究也迅速发展，比如多核结构设计方法、片上互连技术、可重构技术、下一代众核技术等。然而，多核处理器的技术并未成熟，多核的潜力尚未完全挖掘，仍然存在许多待研究的问题。二．什么是多核处理器 2.1什么是多核处理器多核处理器是指在一枚处理器中集成两个或多个完整的计算引擎(内核)。多核技术的开发源于工程师们认识到，仅仅提高单核芯片的速度会产生过多热量且无法带来相应的性能改善，先前的处理器产品就是如此。他们认识到，在先前产品中以那种速率，处理器产生的热量很快会超过太阳表面。即便是没有热量问题，其性价比也令人难以接受，速度稍快的处理器价格要高很多。英特尔工程师们开发了多核芯片，使之满足横向扩展（而非纵向扩充）方法，从而提高性能。该架构实现了分治法战略。通过划分任务，线程应用能够充分利用多个执行内核，并可在特定的时间内执行更多任务。多核处理器是单枚芯片（也称为硅核），能够直接插入单一的处理器插槽中，但操作系统会利用所有相关的资源，将每个执行内核作为分立的逻辑处理器。通过在两个执行内核之间划分任务，多核处理器可在特定的时钟周期内执行更多任务。多核架构能够使软件更出色地运行，并创建一个促进未来的软件编写更趋完善的架构。尽管认真的软件厂商还在探索全新的软件并发处理模式，但是，随着向多核处理器的移植，现有软件无需被修改就可支持多核平台。操作系统专为充分利用多个处理器而设计，且无需修改就可运行。为了充分利用多核技术，应用开发人员需要在程序设计中融入更多思路，但设计流程与对称多处理(SMP)系统的设计流程相同，并且现有的单线程应用也将继续运行。得益于线程技术的应用在多核处理器上运行时将显示出卓越的性能可扩充性。此类软件包括多媒体应用（内容创建、编辑，以及本地和数据流回放）、工程和其他技术计算应用以及诸如应用服务器和数据库等中间层与后层服务器应用。多核技术能够使服务器并行处理任务，而在以前，这可能需要使用多个处理器，多核系统更易于扩充，并且能够在更纤巧的外形中融入更强大的处理性能，这种外形所用的功耗更低、计算功耗产生的热量更少。多核技术是处理器发展的必然。推动微处理器性能不断提高的因素主要有两个：半导体工艺技术的飞速进步和体系结构的不断发展。半导体工艺技术的每一次进步都为微处理器体系结构的研究提出了新的问题，开辟了新的领域；体系结构的进展又在半导体工艺技术发展的基础上进一步提高了微处理器的性能。这两个因素是相互影响，相互促进的。一般说来，工艺和电路技术的发展使得处理器性能提高约20倍，体系结构的发展使得处理器性能提高约4倍，编译技术的发展使得处理器性能提高约1.4倍。但是今天，这种规律性的东西却很难维

多核处理器架构及调试

多核处理器架构及调试认识多核基本架构多核处理器在同一个芯片中植入了多个处理器引擎，这就可以提供更高的CPU性能、功能特性和分区能力。一般说来，多核有两种实现形式。第一，SMP(Symmetricmultiprocessing，对称多处理)。在这种情况下，开发人员面对的是单一的抽象化硬件平台，由SMP操作系统来决定具体由哪一个内核来运行哪个任务，其中每个内核都是相同的，而且在同一个操作系统的管理控制之下，共享同一个内存。第二，AMP(Asymmetricmultiprocessi 认识多核基本架构多核处理器在同一个芯片中植入了多个处理器引擎，这就可以提供更高的CPU 性能、功能特性和分区能力。一般说来，多核有两种实现形式。第一，SMP( Symmetric multiprocessing，对称多处理)。在这种情况下，开发人员面对的是单一的抽象化硬件平台，由SMP操作系统来决定具体由哪一个内核来运行哪个任务，其中每个内核都是相同的，而且在同一个操作系统的管理控制之下，共享同一个内存。第二，AMP(Asymmetric multiprocessing，非对称多处理)。在这种情况下，各个处理器内核都运行着各自独立的操作系统。这种独立性意味着，其中各个处理器内核既可以是同构的，并且运行同样的操作系统，也可以是异构的并运行各自不同的操作系统。多核环境显著增加了系统复杂度，因而在对操作系统和与多核相关的硬件进行调试的时候，就必须采用一整套更有效的工具。另外，尽管大家都认为多核就是指在同一个芯片中放入多个内核，但是在实际开发工作中所遇到的多处理问题，实际上不仅仅局限于在单一芯片中的多个内核。事实上，不论这些处理器内核是在同一个芯片之中，或者分布在同一个电路板中的多个芯片之中，甚至同一个系统中的多个电路板之中，开发人员都必须解决好多处理环境中的调试问题。相对于最近出现的单一芯片多核架构，有多个处理器芯片和多个处理器电路板组成的复杂系统已经存在很多年了。因此，多处理架构的调试问题其实早已存在，只是单一芯片内多核架构的普及将多处理系统调试问题更加尖锐地摆在了开发人员面前。从这个意义上，多年前就开始从事多处理环境软件开发的厂商就积累了更丰富的经验，在应对多核软件开发方面站在了更为有利的地位。例如 Wind River 公司经典的实时操作系统VxWorks在多年前最初的设计思路就是基于多处理架构的，因此不论从运行环境还是开发调试工具任何一方面看，对于多核环境的适应能力都比其他工具要强得多。认识多核调试难点

一分钟看懂CPU多发射超标量、多线程、多核之概念和区别

【闲来无事、做做科普、反正也算是marketing job；教你一分钟看懂CPU多发射超标量/多线程/多核之概念和区别】最近在多个场合大肆宣扬多核多线程，收到对多线程表示不解的问题n多，苦思多日，终得一形象生动的模型，你肯定懂的。因为是比喻和科普、过于严谨的技术控请勿吐槽。处理器性能提高之公开秘笈：超标量、多线程、多核。用于说明的生活模型：高速公路及收费站。简单CPU的原型：单车道马路 + 单收费闸口，车辆只能一辆辆排队通过，并行度为1。为了提高通行能力同时积极创收，相关部门运用世界顶尖CPU设计理念，对高速公路系统进行了如下拓宽改造：（1）增加车道（图示为3条车道）；（2）增加收费通道（图示为2个通道）；

（3）每个收费通道放置多个收费员（图示每条通道有a和b两个收费窗口）。其中（1）+（3）组合手段就是所谓的超标量结构，该图示为双发射超标量。超标量指有多个车道，双发射是指有a和b两位收费员可以同时发卡，把两辆车送到不同车道上去。手段（2）就是多线程的模型了，原有车道不变、只增加收费通道，这样多个车流来的时候可以同时发卡放行。从这个比喻来看多线程显然是个非常直观和有用的办法，但为什么在CPU世界中似乎有点模糊难懂的感觉呢？那是因为CPU的指令流喜欢一个挨一个、一列纵队龟速前进，这样的话单通道多收费员还起点作用、多通道就形同虚设了。收费员1.a和1.b会累死，而2.a和2.b则能够睡觉。因此把车流进行整队就很重要——这就是并行编程，即要设法把一列纵队排列成多列纵队。至于多核的概念，那就简单粗暴很多了，直接在这条马路边上进行征地拆迁、新修一条一模一样的高速公路便是，牛吧。现在大家手机里面的多核，就是并排几条“单收费通道+多车道”的马路，车流稀少、路况不错，不过相关部门表示因为道路利用率底下、经济效益欠佳、回收投资压力巨大。无论多核还是多线程，都有一个同样的问题需要解决，就是要把车流整成多列纵队，这样多条马路和多个收费通道的并行度才能发挥作用。

从多核到众核处理器

从多核到众核处理器此文由客座作者Zheng Li所写，欢迎大家follow他的twitter: https://www.doczj.com/doc/173399382.html,/biglizheng 其实“多核”这个词已经流行很多年了，世界上第一款商用的非嵌入式多核处理器是2002年IBM推出的POWER4。当然，多核这个词汇的流行主要归功与AMD和Intel的广告，Intel 与AMD的真假四核之争，以及如今的电脑芯片市场上全是多核处理器的事实。接下来，学术界的研究人员开始讨论未来成百上千核的处理器了。有一个与多核匹配的词叫片上网络（Networks on Chip），讲的是多核里的网络式互连结构，甚至有人预测未来将互连网集成到片上这种概念了。当然，这样的名词是很吸引眼球的，不过什么东西都得从实际出发，这篇文章也就简单地分析了为什么有多核这个事情，以及多核系统的挑战。为什么有多核处理器？事先需要提及的是，一个常见误区就是多核和众核处理器的发展来源于应用和市场驱动。实际上，应用和市场希望单核处理器的寿命越来越长，而物理限制是多核以及未来众核处理器出现和发展的动力。之后我们来谈论一下，首先，为什么有多核处理器？从Intel 80286 到Intel Pentium 4大概二十多年的时间都是单核处理器的天下，为什么最近几年单核处理器却销声匿迹了？是什么导致了多核时代的到来？这里需要知道一个经验定律和三个限制，他们是多核处理器的最本质缘由。这个定理就是摩尔定律。Gordon Moore博士是Intel的创始人之一。早在他参与创建Intel之前的1965年，他就提出，在至少十年内，每个芯片上集成的晶体管数（集成度）会每两年翻一番。后来，大家把这个周期缩短到十八个月。这个指数规律的发展速度是令人难以置信的，大家都听过那个国王按几何级数赏赐大臣谷粒，从而使得国库被掏空的传说。而摩尔定律讲得就是现实中晶体管数量几何级数倍增的故事，更令人难以置信的是这个速度保持到今天已经快五十年了。人类历史上应该还没有任何技术是指数发展这么久的。题外话一句，若干年前，互联网骨干网带宽曾经这么指数了几年，曾有人将其总结为一个定律忽悠一堆人研究光纤通讯，后来发现带宽没法按照指数定律涨了，许多搞光电的人也就找不到工作了。扯远了点，整个 IT产业之所以风光了这么多年，摩尔定律是本质的因素。当无数的硅公硅婆和软件民工们将晶体管数目的增长转换为计算机等IT产品的性能时，摩尔定律也就有了两个推论，每十八个月，计算机等 IT 产品的性能会翻一番；相同性能的计算机等 IT 产品，每十八个月价钱会降一半。后面这个推论很可怕的一件事情，他说，如果你IT产品像菜市场的商贩一年年复一年的卖同样的东西，那么你IT产品的价钱会指数下降。从某种意义上来说摩尔定律逼迫着所有的IT企业不断的按指数规律提高产品的性能，并且创新出新的产品。但不幸的是，这种从晶体管数转换为性能增长的过程日趋困难。时至今日，集成度还在以摩尔定律的速度增长，但是性能的增长遇到了三个物理规律的限制。第一是功耗，第二是互连线延时，第三是设计复杂度。

浅谈多核CPU、多线程与并行计算

0.前言最近发觉自己博客转帖的太多，于是决定自己写一个原创的。笔者用过MPI 和C#线程池，参加过比赛，有所感受，将近一年来，对多线程编程兴趣一直不减，一直有所关注，决定写篇文章，算是对知识的总结吧。有说的不对的地方，欢迎各位大哥们指正：） 1.CPU发展趋势核心数目依旧会越来越多，依据摩尔定律，由于单个核心性能提升有着严重的瓶颈问题，普通的桌面PC有望在2017年末2018年初达到24核心（或者16核32线程），我们如何来面对这突如其来的核心数目的增加？编程也要与时俱进。笔者斗胆预测，CPU各个核心之间的片内总线将会采用4路组相连：），因为全相连太过复杂，单总线又不够给力。而且应该是非对称多核处理器，可能其中会混杂几个DSP处理器或流处理器。 2.多线程与并行计算的区别 (1)多线程的作用不只是用作并行计算，他还有很多很有益的作用。还在单核时代，多线程就有很广泛的应用，这时候多线程大多用于降低阻塞（意思是类似于 while(1) { if(flag==1) break;

sleep(1); } 这样的代码）带来的CPU资源闲置,注意这里没有浪费CPU资源，去掉sleep(1)就是纯浪费了。阻塞在什么时候发生呢？一般是等待IO操作（磁盘，数据库，网络等等）。此时如果单线程，CPU会干转不干实事（与本程序无关的事情都算不干实事，因为执行其他程序对我来说没意义），效率低下（针对这个程序而言），例如一个IO操作要耗时10毫秒，CPU就会被阻塞接近10毫秒，这是何等的浪费啊！要知道CPU是数着纳秒过日子的。所以这种耗时的IO操作就用一个线程Thread去代为执行，创建这个线程的函数（代码）部分不会被IO操作阻塞，继续干这个程序中其他的事情，而不是干等待（或者去执行其他程序）。同样在这个单核时代，多线程的这个消除阻塞的作用还可以叫做“并发”，这和并行是有着本质的不同的。并发是“伪并行”，看似并行，而实际上还是一个CPU在执行一切事物，只是切换的太快，我们没法察觉罢了。例如基于UI 的程序（俗话说就是图形界面），如果你点一个按钮触发的事件需要执行10秒钟，那么这个程序就会假死，因为程序在忙着执行，没空搭理用户的其他操作；而如果你把这个按钮触发的函数赋给一个线程，然后启动线程去执行，那么程序就不会假死，继续响应用户的其他操作。但是，随之而来的就是线程的互斥和同步、死锁等问题，详细见有关文献。现在是多核时代了，这种线程的互斥和同步问题是更加严峻的，单核时代大都算并发，多核时代真的就大为不同，为什么呢？具体细节请参考有关文献。我

多核处理器的技术与双核处理器的区别

多核处理器的技术与双核处理器的区别摘要：多核技术的开发源于工程师们认识到，仅仅提高单核芯片的速度会产生过多热量且无法带来相应的性能改善，先前的处理器产品就是如此。他们认识到，在先前产品中以那种速率，处理器产生的热量很快会超过太阳表面。即便是没有热量问题，其性价比也令人难以接受，速度稍快的处理器价格要高很多。主要有下面内容多核的技术发展、发展历程、技术优势、技术原理、技术关键、技术意义、技术应用以及多核处理器与双核处理器的区别。技术发展多核技术能够使服务器并行处理任务，而在以前，这可能需要使用多个处理器，多核系统更易于扩充，并且能够在更纤巧的外形中融入更强大的处理性能，这种外形所用的功耗更低、计算功耗产生的热量更少。多核技术是处理器发展的必然。推动微处理器性能不断提高的因素主要有两个：半导体工艺技术的飞速进步和体系结构的不断发展。半导体工艺技术的每一次进步都为微处理器体系结构的研究提出了新的问题，开辟了新的领域；体系结构的进展又在半导体工艺技术发展的基础上进一步提高了微处理器的性能。这两个因素是相互影响，相互促进的。一般说来，工艺和电路技术的发展使得处理器性能提高约20倍，体系结构的发展使得处理器性能提高约4倍，编译技术的发展使得处理器性能提高约1.4倍。但是今天，这种规律性的东西却很难维持。多核的出现是技术发展和应用需求的必然产物。发展历程 1971年，英特尔推出的全球第一颗通用型微处理器4004，由2300个晶体管构成。当时，公司的联合创始人之一戈登摩尔(Gordon Moore)，就提出后来被业界奉为信条的“摩尔定律”——每过18个月，芯片上可以集成的晶体管数目将增加一倍。在一块芯片上集成的晶体管数目越多，意味着运算速度即主频就更快。今天英特尔的奔腾(Pentium)四至尊版840处理器，晶体管数量已经增加至2.5亿个，相比当年的4004增加了10万倍。其主频也从最初的740kHz(每秒钟可进行74万次运算)，增长到现在的3GHz(每秒钟运算30亿次)以上。当然，CPU主频的提高，或许在一定程度上也要归功于1975年进入这个领域的AMD公司的挑战。正是这样的“双雄会”，使得众多计算机用户有机会享受不断上演的“速度与激情”。一些仍不满足的发烧友甚至选择了自己超频，因为在玩很多游戏时，更快的速度可以带来额外的饕餮享受。但到了2005年，当主频接近4GHz时，英特尔和AMD发现，速度也会遇到自己的极限：那就是单纯的主频提升，已经无法明显提升系统整体性能。以英特尔发布的采用NetBurst架构的奔腾四CPU为例，它包括Willamette、Northwood 和Prescott等三种采用不同核心的产品。利用冗长的运算流水线，即增加每个时钟周期同时执行的运算个数，就达到较高的主频。这三种处理器的最高频率，分别达到了2.0G、3.4G 和3.8G。按照当时的预测，奔腾四在该架构下，最终可以把主频提高到10GHz。但由于流水线过长，使得单位频率效能低下，加上由于缓存的增加和漏电流控制不利造成功耗大幅度增加，3.6GHz奔腾四芯片在性能上反而还不如早些时推出的3.4GHz产品。所以，Prescott产品系列只达到3.8G，就戛然而止。英特尔上海公司一位工程师在接受记者采访时表示，Netburst微架构的好处在于方便提升频率，可以让产品的主频非常高。但性能提升并不明显，频率提高50%，性能提升可能