Computex泄密独家解析AMD下代GPU架构

格式：pdf
大小：829.27 KB
文档页数：16

下载文档原格式

/ 16

GPU架构与技术详解

GPU架构与技术详解在计算机科学领域中，GPU（Graphics Processing Unit，图形处理器）是一种高性能的并行处理器，专门用于处理图形和影像数据。

GPU架构和技术是GPU的核心部分，是其能够实现高性能并行计算的基础，下面将详细介绍GPU架构和技术。

一、GPU架构1.传统的固定管线架构：-传统的固定管线架构是指，GPU的硬件流水线是由多个固定功能单元组成的，包括顶点处理单元、光栅化单元、像素处理单元等。

这种架构适用于以图形渲染为主的应用，但对于一些通用计算任务来说效率较低。

2.可编程管线架构：-可编程管线架构是指，GPU的硬件流水线可以根据应用的需求进行动态配置和编程。

这种架构使得GPU能够处理更加复杂的图形和计算任务，提高了其灵活性和性能。

3.统一架构：- 统一架构是可编程管线架构的演化，它将GPU的顶点处理和像素处理合并为一个可编程的流处理器（Streaming Processor）。

这样一来，GPU可以根据任务需求动态分配处理资源，从而提高性能和灵活性。

4.并行处理架构：-并行处理架构是指GPU利用多个流处理器并行处理任务。

在这种架构下，每个流处理器都可以独立执行计算任务，从而实现高性能的并行计算。

二、GPU技术1.CUDA：2. OpenCL：3. Vulkan：- Vulkan是一种跨平台的图形和计算API，可以实现高性能的图形渲染和并行计算。

Vulkan具有低延迟、高吞吐量和低CPU开销等特点，适用于对性能要求较高的应用，如游戏开发、虚拟现实等。

4.光线追踪：-光线追踪是一种先进的图形渲染技术，它可以模拟光线在物体表面上的反射和折射，从而实现更加真实的图形效果。

GPU的并行计算能力使得光线追踪技术能够得到更好的应用和加速。

5.深度学习：-近年来，GPU的并行处理能力在深度学习领域得到了广泛的应用。

GPU能够高效地进行矩阵乘法等基本计算操作，并且具备大规模并行处理的能力，因此成为了深度学习训练和推理的重要工具。

GPU架构与技术详解

GPU架构与技术详解GPU（Graphics Processing Unit）是一种专门用于处理图形计算的处理器。

GPU的架构与技术一直是图形学和计算机科学研究的重要分支。

本文将从宏观和微观两个层面，详细讲解GPU的架构及相关技术。

一、GPU的宏观架构GPU的宏观架构分为三个部分：处理器、显存和外部接口。

1.处理器GPU内部的处理器架构，主要分为SIMD（Single Instruction Multiple Data）和MIMD（Multiple Instruction Multiple Data）两种。

SIMD在处理数据时仅使用一种指令并且把数据分成多个数据段。

而MIMD则使用不同的指令处理不同的数据，每个线程可以独立运作，相互之间互不干扰。

同时，GPU中的处理器也分为标量、向量和矩阵处理器。

标量是最基本的处理器，向量处理器则可以同时处理多个相同类型的向量数据。

矩阵处理器则适用于大规模矩阵计算，是GPU计算高性能的核心部件。

2.显存GPU的显存是一种特殊的内存，它是专门为图形处理而设计的，并采用非常高效的访问方式。

显存的带宽比普通内存大几倍，使GPU能够更快速地访问和处理图形数据。

同时，显存还采用了多通道和多级缓存技术，进一步提高了图形渲染和计算性能。

3.外部接口GPU的外部接口通常包括PCI-Express和AGP。

PCI-Express是目前最常见的GPU外部接口，它提供高速的数据传输，能够满足大多数应用场景的需求。

而AGP则较少使用，在一些较老的计算机中还可以见到。

二、GPU的微观架构GPU的微观架构主要包括计算单元、纹理单元和像素单元三个部分。

1.计算单元计算单元是GPU中最基本的部件，它主要负责整数和浮点数的计算。

计算单元包括SIMD处理器、标量处理器、向量处理器和矩阵处理器。

计算单元在执行计算任务时，需要高质量的处理器设计，如各种运算单元、指令管理单元、调度单元和寄存器文件等。

2.纹理单元纹理单元是GPU中的特殊部件，它主要负责处理图像数据。

从GPU诞生说起AMD统一渲染架构回顾及展望

从GPU诞生说起AMD统一渲染架构回顾及展望自从GPU（图形处理器）诞生以来，它已经在计算机图形学领域发挥了重要的作用。

最初，GPU被用于加速2D和3D图形的渲染，提供更流畅和逼真的视觉效果。

然而，随着时间的推移，GPU的功能不断扩展，并被用于各种用途，包括机器学习、深度学习和科学计算等领域。

AMD（先进微处理器公司）作为GPU制造商之一，一直在努力推动GPU技术的发展。

在2024年，AMD发布了统一渲染架构（Unified Rendering Architecture，URA），该架构旨在提供一种灵活、高度可配置的渲染引擎，能够适应不同类型的渲染任务。

URA允许程序员直接控制GPU的渲染管道，并实现更高效的渲染流程。

统一渲染架构的核心思想是将GPU的渲染管道划分为多个可编程的阶段，每个阶段执行特定的渲染任务。

这种架构的优势在于它能够更好地利用GPU的并行处理能力，提高渲染效率。

例如，程序员可以将渲染任务分配给不同的阶段，从而平衡渲染负载，减少渲染时间。

另一个重要的特性是URA的可配置性。

它允许程序员根据具体的应用需求，自定义渲染管道的结构和功能。

这个特性使得URA非常适合用于各种不同的渲染任务，包括游戏、动画和虚拟现实等应用。

近年来，随着计算需求的不断增长，AMD也在不断改进和推出新的GPU产品。

例如，他们最近发布的RDNA架构（Radeon DNA Architecture）是一个全新的架构，旨在为游戏和多媒体应用提供更高的性能和能效。

RDNA架构采用了全新的渲染管道设计，提供了更高的像素处理能力和更低的功耗。

此外，AMD还计划在未来推出基于RDNA架构的下一代产品，以进一步提升GPU的性能和功能。

这些产品预计将采用更先进的制造工艺，集成更多的计算单元和存储，以满足不断增长的计算需求。

总之，AMD的统一渲染架构在过去的几年里发挥了重要的作用，为GPU的发展带来了重大的改进。

通过提供灵活和可配置的渲染引擎，URA 为各种不同类型的渲染任务提供了更高的效率和性能。

了解电脑显卡中的GPU架构

了解电脑显卡中的GPU架构随着计算机技术的不断发展，电脑显卡已经成为了现代计算机中不可或缺的组件之一。

而在显卡中，GPU（图形处理器）架构则显得尤为重要。

本文将探讨GPU架构的概念、功能以及不同类型的GPU架构。

一、什么是GPU架构GPU架构是指在电脑显卡中用于处理图形和图像数据的架构。

它是显卡的核心组成部分，负责处理和加速计算机图形渲染、3D游戏以及其他图形相关的计算任务。

二、GPU架构的功能1. 并行计算能力：GPU架构具有强大的并行处理能力，能够同时处理多个任务和数据。

与传统的中央处理器（CPU）相比，GPU可以同时处理数百个线程，大大提高了图形处理的效率。

2. 图形渲染：GPU架构专注于图形渲染任务，可以加速计算机中的图形显示。

通过优化渲染算法和提高处理器的时钟频率，GPU可以实现流畅的图形效果和更快的画面刷新率。

3. 通用计算能力：除了图形渲染，现代的GPU架构还具备通用计算能力。

通过开发适用的计算框架和编程模型，GPU可以处理各种复杂的计算任务，如物理模拟、机器学习等。

三、不同类型的GPU架构1. NVIDIA的CUDA架构：CUDA（Compute Unified Device Architecture）是NVIDIA推出的一种GPU计算架构。

它采用了SIMD （Single Instruction, Multiple Data）并行计算模型，并集成了大量的高速缓存和计算单元。

CUDA架构在科学计算和深度学习等领域取得了显著的成果。

2. AMD的GCN架构：GCN（Graphics Core Next）是AMD开发的GPU架构，专注于图形处理和通用计算。

它采用了多核心和多指令流的设计，支持高性能计算和异构计算。

3. 英伟达的Turing架构：Turing架构是英伟达最新的GPU架构，于2018年发布。

它引入了RT Core（用于光线追踪）和Tensor Core （用于深度学习）等新技术，大幅提升了图形渲染和人工智能计算的性能。

GPU架构与技术详解

GPU架构与技术详解GPU（Graphics Processing Unit）是一种专为处理图形和图像数据而设计的处理器。

它具有高度并行化的计算能力，能够在相同的时钟周期内处理多个任务，因此广泛应用于游戏、计算机辅助设计、科学计算等领域。

而GPU架构和技术是指GPU的内部结构和相关的技术细节，下面将详细介绍。

1.GPU架构（1）处理单元：GPU的核心部分是处理单元（Processing Unit），也称为流处理器（Stream Processor）。

处理单元是一个高度并行化的计算单元，它包含多个流多处理器（Streaming Multiprocessor，SM），每个SM包含多个处理核心（Processing Core）。

每个处理核心可以执行单个线程的指令，而SM则能够同时执行多个线程，充分利用GPU的并行计算能力。

（2）内存层次结构：GPU的内存层次结构包括全局内存、共享内存和寄存器等部分。

全局内存用于存储全局变量和数据，可以被所有处理单元访问。

共享内存用于同一个线程块中的线程之间共享数据，访问速度比全局内存更快。

寄存器用于存储线程的局部变量和计算结果。

（3）数据通路：GPU的数据通路包括输入/输出接口、数据总线、内存控制器等部分。

输入/输出接口用于连接GPU与主机系统，数据总线用于传输数据，内存控制器则负责管理内存访问和数据的读写。

2.GPU技术GPU的技术主要包括并行计算、片上内存、纹理映射、着色器等技术。

（1）并行计算：GPU的设计初衷是处理图形数据，但是由于其高度并行化的计算能力，广泛应用于通用计算领域。

GPU通过并行计算能够同时处理多个任务，大大提高计算效率。

（2）片上内存：为了减少对全局内存的访问，GPU引入了片上内存（On-Chip Memory）作为高速缓存。

片上内存位于SM内部，能够快速共享数据，提高访问速度。

（3）纹理映射：纹理映射（Texture Mapping）是一种将二维图像映射到三维模型表面的技术。

GPU架构解析范文

GPU架构解析范文在这篇文章中，我们将对GPU架构进行深入分析。

我们将讨论GPU的基本组成部分、存储器层次结构、线程调度和并行执行以及一些常见的GPU架构。

GPU基本组成部分GPU的基本组成部分由以下几个主要组件组成：1.图形核心：这是GPU最重要的部分，负责执行图形渲染和图像处理任务。

图形核心通常由大量的处理单元（也称为流处理器或CUDA核心）组成，这些处理单元具有高度的并行执行能力。

2.存储器：GPU拥有多个层次的存储器，包括全局内存、共享内存和寄存器文件。

全局内存是最慢的存储器，用于存储图形数据和计算任务的输入和输出。

共享内存是一种高速的本地存储器，用于在同一个线程块中多个线程之间共享数据。

寄存器文件是一种非常快的本地存储器，用于暂存线程中的变量和计算结果。

3.内存控制器：内存控制器负责管理GPU的存储器，包括内部和外部的存储器。

它负责读写数据以及将数据传输到各个处理单元。

线程调度和并行执行GPU通过线程调度和并行执行来提高性能。

线程调度是指将多个线程分配给多个处理单元进行并行执行的过程。

每个线程都会执行相同的指令，但处理不同的数据。

GPU的硬件和软件是为了能够高效地进行线程调度和执行而设计的。

并行执行是指多个线程同时执行不同的指令。

GPU支持多种并行模型，包括单指令多数据（SIMD）、多指令多数据（MIMD）和单指令流多数据（SIMT）等。

这些模型允许GPU同时执行多个线程，从而加速图形渲染和图像处理任务。

常见的GPU架构目前市场上有几个常见的GPU架构，包括NVIDIA的Turing、Pascal和Maxwell架构，以及AMD的RDNA和GCN架构。

每个架构都有自己的特点和优劣势。

NVIDIA的Turing架构是NVIDIA最新的GPU架构之一、它通过引入RT Core和Tensor Core来提供更好的光线追踪和深度学习性能。

RTCore用于加速光线追踪算法，而Tensor Core用于加速深度学习任务。

深入解析GPU架构理解显卡性能的关键

深入解析GPU架构理解显卡性能的关键在现代计算机科学和图形处理领域中，GPU（图形处理器）扮演着越来越重要的角色。

它不仅用于游戏和图形渲染，还能有效地进行并行计算。

然而，要充分发挥GPU的潜力并理解其性能差异，对其架构进行深入分析是必不可少的。

一、GPU架构的基本组成GPU架构主要由处理器核心、存储器、缓存和片上互连等基本组成部分构建而成。

下面将对这些组成进行一一介绍。

1. 处理器核心：处理器核心是GPU的心脏，负责执行大量的计算任务。

每个处理器核心通常由多个执行单元（ALU）和流处理单元（SPU）组成，这些单元能够高效地执行向量运算和并行计算。

2. 存储器：存储器在GPU中起到存放数据的作用。

主要有全局内存、共享内存和常量内存等。

全局内存用于大规模数据存储，共享内存用于同一线程束的数据共享，而常量内存则用于存放常量数据，以提高存取效率。

3. 缓存：GPU中的缓存可以提高数据的访问速度和效率。

常见的缓存有纹理缓存、常量缓存和数据缓存等。

这些缓存能够减少主存和处理器之间的数据交互，从而加快数据处理速度。

4. 片上互连：片上互连是指连接GPU内部各个组件的通信通道。

它可以高效地传输大量的数据和指令，以确保各个组件之间的协同工作。

片上互连通常包括存储器总线、数据总线和控制总线等。

二、理解GPU架构对显卡性能的影响深入理解GPU架构对于评估显卡性能至关重要。

以下是几个可能影响性能的关键方面。

1. 成功率：GPU架构中的处理器核心数量直接影响到并行处理的能力。

拥有更多处理器核心的显卡可以同时执行更多的计算任务，进而提升性能。

2. 内存带宽：内存带宽是指GPU与主存之间数据传输的速度。

它取决于存储器的类型和带宽，对于需要大量数据传输的图形计算和并行计算任务尤为重要。

更高的内存带宽可以提高数据传输效率，从而加快计算速度。

3. 缓存：缓存的大小和速度对于提高性能至关重要。

更大的缓存可以存放更多的数据，减少存取延迟；而更快的缓存则可以提高数据处理速度。

英特尔、AMD下一代处理器架构解析讲解学习

英特尔、A M D下一代处理器架构解析没错，英特尔、AMD又到了产品升级换代的时候了。

英特尔的Tick-Tock到了Tock这一步，新产品Haswell箭在弦上；AMD虽然暂时落后一局，但新的压路机也是曙光在前，蓄势待发。

那么，究竟Haswell和压路机都有哪些改进？英特尔和AMD的竞争又会开发出哪些新技术呢？本文将带你提前了解英特尔和AMD的下一代处理器架构。

Haswell——小改进，大步伐从英特尔发布了基于Core Microarchitecture（酷睿微架构）的Core 2 Duo系列到现在，英特尔对处理器内部核心架构的改进并不算大。

从Core 2 Duo，到Nehalem Core i7，然后到Westmere、Sandy Bridge直到今天的Ivy Bridge，CPU微架构都可以算作是酷睿微架构的继承和发展，更多的变化则是工艺、总线、缓存等外围部件。

在Ivy Bridge后，英特尔执行的是“Tick-Tock”中的“Tock”战略，这意味着Ivy Bridge的继承人“Haswell”所面对的目标是“使用成熟工艺，升级CPU架构”。

除了处理器外，Haswell处理器将搭配代号为Lynx Point的主板芯片组，组成Shark Bay计算平台。

Haswell属于Tock部分，工艺不变（实际上也升级了），架构进步。

从目前掌握的消息来看，Haswell相比Sandy Bridge来说，在CPU架构方面改进最大的当属加入了新的、有利于多线程执行的TSX扩展，以及大幅度提升整数计算性能的AVX 2.0技术。

除此之外，Haswell在工艺方面也有所改进，当然CPU内部一些组件也会做出微小调整，但对整个CPU架构的影响不大。

另外，在集成图形处理器方面，Haswell的图形性能会有比较明显的增长，EU 单元数量会增加，功能上会进一步支持Direct X11. 1。

在结构和扩展性能方面，Haswell在接口、封装模式上会做出一系列改动，CPU内部集成的电压控制单元会有改进，芯片组方面会采用更新的8系列芯片组。

amd显卡架构

amd显卡架构AMD显卡架构是指AMD公司设计和生产的显卡的内部组织和架构。

随着显卡技术的不断发展，AMD不断推出了不同的显卡架构，以满足不同用户的需求。

下面将介绍一些常见的AMD显卡架构。

1. Graphics Core Next (GCN) 架构：GCN架构是AMD显卡中最为常见的架构之一。

它采用了硬件与软件协同工作的方式，提供了出色的图形处理和计算性能。

GCN架构为AMD显卡带来了更高的能效、更低的功耗和更好的多任务处理能力。

这一架构在AMD Radeon HD 7000系列显卡中首次引入，并一直延续至今。

2. Graphics Core Next 2.0 (GCN 2.0) 架构：GCN 2.0架构在GCN架构的基础上进行了优化和改进。

它提供了更多的计算单元、更高的频率和更大的缓存容量，提升了显卡的性能表现。

GCN 2.0架构首次出现在AMD Radeon R9系列显卡中。

3. Graphics Core Next 3.0 (GCN 3.0) 架构：GCN 3.0架构进一步增加了计算单元的数量，提高了显卡的计算能力和效能。

这一架构首次出现在AMD Radeon R9 300系列显卡中。

4. Graphics Core Next 4.0 (GCN 4.0) 架构：GCN 4.0架构进一步提高了AMD显卡的能效和性能。

它采用了更先进的14nm FinFET制程技术，提供了更低的功耗和更高的频率。

GCN 4.0架构首次出现在AMD Radeon RX 400系列显卡中。

5. Vega 架构：Vega架构是AMD显卡中最新的一代架构。

它采用了更强大的计算单元和高带宽内存(HBM)技术，提供了更高的图形和计算性能。

Vega架构首次出现在AMD Radeon RX Vega系列显卡中。

总的来说，AMD显卡架构经过不断的升级和优化，提供了更好的图形和计算性能。

无论是用于游戏、图形设计还是科学计算，AMD显卡都能够提供出色的性能和用户体验。

GPU架构解析

AMD RV670 Shader
1*4D矢量+1*1D标量 +L1（一级缓存），支持 AA/AF
SP
ROP，不支持AA/AF
AMD显卡4D矢量+1D标量流处理器
AMD显卡图形处理 AMD显卡处理图形数据时，可以达到最高效能 AMD显卡4D矢量+1D 标量流处理器 AMD显卡通用浮点处理 AMD显卡处理非图形数据时效率降低 R G B
游戏程序
游戏运行流程
显示器 1、CPU:在种位置绘制何种图型；输出显示卡 3、GPU:完成绘制，输出图型；输出输出显卡驱动 3D API 2、如何绘制； DirectX OpenGL
游戏程序
现在，游戏如何运行…
游戏运行流程
游戏程序 CPU 显卡
图形音频 A.I PhyX CPU：音频 CPU：A.I CPU：PhyX
Alpha ALU
SP
SP
SP
SP
alu 1*1D
1*4D
float float
一条句柄数为2的浮点指令
SP
SP
SP
SP
alu
当一条浮点指令中，句柄数不等于5的整数倍时，效率无法达到最高，部份运算单元被闲置。
* 3D游戏不止于单纯的图形运算（例如，坐标+Z轴运算），假如再考虑到MDD除法等运算，实际情况会更加复杂。所以，即便在游戏中，AMD显卡也很难以理论效率运行，其性能最低可能降至其理论性能的1/5。假如按分支预测单元数量来核算AMD显卡的SP，则A卡的流处理单元（SP）数量=流处理器（SP）数量 /5。所以，AMD显卡以“流处理器（ Streaming Processors ）”数量的概念代替“流处理单元（Stream Processing Units）”以混淆视听，是不折不扣的谎言。RV740有800个流处理器，但其流处理单元数量仅为800/5=160个。再加上其较低的SP频率，所以A卡效率低于N卡。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Computex泄密独家解析AMD下代GPU架构前言：正在进行的COMPUTEX2010电脑展在今天开幕后几乎达到巅峰，各家作为亚洲最大、世界第二大的电脑展会，computex一直引领着行业的潮流发展。

在今天的展会上，中关村在线核心硬件事业部搜集各方面信息，终于汇总了AMD下一代GPU设计架构“Southern Island”，中文名为南岛的GPU架构产品相关信息。

现在就让我们一起去关注这款GPU诞生的背景，和它具体的架构情况。

● NVIDIA用几何处理能力激怒AMD相对于图形渲染能力（Rendering），几何能力（Geometry）在过去没有引起人们的足够重视。

而NVIDIA设计的Fermi架构则重点强调几何处理能力，这个设计方向非常吻合DirectX 11提出的要求，也增强了画面的真实感。

可以说几何能力（Geometry）的飞速提升，是GPU光栅化发展历程中的重要一步。

在本次Computex电脑展之前，NVIDIA已经发布了Fermi架构的GTX400系列产品，而在Computex电脑展开幕当天，基于Fermi架构的GTX465产品也亮丽登场。

NVIDIA称Fermi GF100是一个全新架构，不但是通用计算方面，游戏方面它也发生了翻天覆地的变化，几乎每一个原有模块都进行了重组。

特别是还有新增的光栅引擎（Raster Engine）和多形体引擎（PolyMorph Engine），这两个概念的提出，为GPU的几何处理能力打下坚实基础。

曲面细分技术让物体更加真实在过去的几年中，确切说是从Geforce 5800到Geforce GT200的这几年间，GPU的着色器Shader计算能力提升了150倍，这几乎全部是因为大量的顶点和像素处理压力所致。

而游戏开发商大都喜欢已经烘焙好的材质不愿意也没有考虑过使用更为真实自由的材质。

正是在这种思路的指导下，GPU的几何处理能力发展缓慢，在着色器Shader计算能力迅猛提升的前提下，几何处理能力只提升了3倍。

并且负责几何处理的GPU单元基本上没有发生什么变化，完全是依赖规模的堆积和频率的提升来被动提高性能。

Fermi架构拥有数量庞大的曲面细分单元（Tessellator）Fermi架构的多形体引擎则要负责顶点拾取（Vertex Fetch）、曲面细分（Tessellation）、视口转换（Viewport Transform）、属性设定（Attribute Setup）、流输出（Stream Output）等五个方面的处理工作，DX11中最大的变化之一曲面细分单元（Tessellator）就在这里。

Fermi GF100产品中有16个多形体引擎，每个SM一个，或者说每个GPC拥有四个。

代号Cypress的AMD HD5000系列只有1个曲面细分单元（Tessellator）代号Cypress的AMD HD5000系列是全球首款支持DirectX 11特效的GPU，它继承了R600架构高效的VLIW组织形式SIMD结构流处理器单元，又继承了RV770以来的RBE后端渲染单元改进，同时结合TSMC 40nm工艺，将性能和功耗完美匹配，但是在光环的背后，一直隐藏着AMD的忧虑，那就是作为Direct X11关键技术支撑的曲面细分单元。

最终我们看到，基于Fermi架构的GTX480产品，拥有15个曲面细分单元（Tessellator），而AMD的顶级单卡HD5870，只有1个曲面细分单元。

同时从最高端的HD5870到最低端的HD5450芯片，曲面细分单元（Tessellator）的数量都只有一个，其运算能力只是有工作频率决定的。

这是一种非常不合理的架构设计。

AMD下一代“Southern Island”（中文名“南岛”）架构正在寻求这个层面的突破。

● R600以来的着色器结构与资源追加SIMD结构ALU单元用作GPU着色器从提出直到现在，已经在GPU设计中被沿用了10年。

AMD所使用的SIMD结构流处理器，具有非常明显的优势就是执行全4D指令时简洁高效，对晶体管的需求量更小。

而NVIDIA为了达到MIMD流处理器设计，消耗了太多晶体管资源，同时促使NVIDIA大量花费晶体管的还有庞大的线程仲裁机制、端口、缓存和寄存器等等周边资源。

NVIDIA为了TLP （线程并行度）付出了太多的代价，而这一切代价，都是为了GPU能更好地运行在各种复杂环境下。

ImpressWatch绘制的解析流处理器结构但是业界普通的共识是SIMD结构的流处理器设计能够有效降低晶体管使用量，特别是在已经设计好的架构中扩展流处理器数量的难度，比起MIMD结构要容易很多。

AMD与NVIDIA流处理器结构对比R600和G80架构可知，4个1D标量ALU和1个4D矢量ALU的理论运算能力是相当的，但是前者需要4个指令发射端和4个控制单元，而后者只需要1个，如此一来MIMD架构所占用的晶体管数将远大于SIMD架构。

AMD的GPU产品在特定测试中遥遥领先回顾AMD在统一渲染时代做出的努力，我们能够感觉到从R600到R800时代，AMD在试图通过不断堆砌SIMD结构的ALU运算器以提升性能，这是一个简单而粗暴的真理。

由于R600-R800的US是分“1大4小”，即一个全功能SP单元和4个仅能执行乘加运算而无法执行连乘运算的部分功能SP。

所以在上图测试的Float 5指令中，由于数据类型符合其流处理器结构，AMD的GPU设计发挥出了理论应有的最高性能。

R600为每个US配备了1个发射端，所以如果要保证指令吞吐不受限制就通过VLIW，也就是超长指令打包的形式将若干个短指令打包在一起。

在US结构方面，从R600到R800几乎没有任何变化，我们所看到的性能提升，是因为周边资源放大之后R800比RV770或者说比R600更好的通过cache机制来掩盖延迟造成的损失。

RV870，基本上应该就是RV770+DX11强制的硬件IC（曲面细分单元），不仅R600的构架完全没变，而且其周边资源，尤其是Sram和寄存器资源理论上并没有得到本质性的强化。

但是借由40nm工艺所带来的频率提升，以及长时间在RV770中的积累所带来的寄存器和Sram时序的调整以及调度模式的转变，HD5870获得了非常理想的性能提升。

要想改进AMD目前的流处理器结构，在HD6000系列中几乎已经没有可能，也就是说从某种程度上来讲，HD6000仍然基于HD2000以来的架构基础。

特别是用VLIW技术所组织的流处理器结构这一点不会发生改变，因为AMD一旦转变设计方向，现在建立起来的一切性能领先优势可能不复存在。

● 继续用固定硬件单元实现特殊功能计算机体系结构的基本原理是，任何软件能够实现的，硬件都能够实现，相反也成立，这被成为硬件软件等效原理。

这一原理只是功能等效，性能来说，良好优化和设计的硬件通常要比同样水平的软件快很多，同样，开发周期长，开发的成本，也要高不少，体系结构研究的重点就是从需要出发，寻求最佳的软硬件平衡点，在一定的成本约束下，获得最高的性能。

GPU中也是一样，在目前统一渲染成为主题的今天，统一渲染着色器（Unified Shader）和固定功能单元（Fixed Function）是配合的，当我们重点看SP规模的时候，其实GPU性能的很大程度是由固定功能单元来完成的。

从固定功能单元的发展历程来看，在一项新技术最初被提出时，一般厂商都希望使用一个特定的硬件IC去实现这项技术。

而在这项技术经历一段时间之后，特定功能单元一般都会被大规模的可编程单元替代，尤其是在GPU的发展历程中非常普遍。

曲面细分单元（Tessellator）会被替代吗比如说当年的T&L技术最初是由特定硬件完成的，后来逐渐被替代。

顶点、像素、几何三项着色工作在DirectX10出现之前也是由各自对应的着色器来负责的，但是统一渲染架构提出之后它们被统一渲染着色器替代。

Intel也知道这条道理，它认为固定渲染单元最终可以被Shader指令替换，Shader指令也可以由x86扩充指令替换。

所以Larrabee简单而又庞大的架构运用而生。

实际上整个IC设计领域都在实现“去功能化”这个方向，所有人都明白添加固定功能单元换取性能提升不是长久之计。

在5月28日我们对NVIDIA首席执行官黄仁勋先生的专访中，黄先生赞成不断增强曲面细分能力，但是这种能力的增强，依靠的是使用固定功能单元或者说特定硬件IC，实际上也就是曲面细分单元（Tessellator）。

5月28日中国区媒体群访黄仁勋黄仁勋先生向我们解释到，在考虑每瓦特性能的今天，追求性能的提升必须要衡量其他因素的影响以及控制这种影响，特别是用户最为关注的功耗问题。

图形渲染能力（Rendering）和几何能力（Geometry）是目前GPU最为主要的两个发展方向，这两个方向所需要的硬件是不同的。

曲面细分性能或者说业界对曲面细分的依赖，再次造就出独立的Tessellation单元。

当然虽然它不太符合通用处理单元的发展方向，但是如果计算晶体管的投入与性能回报，特定硬件实现Tessellation功能是目前最好的选择。

所以黄仁勋先生坚持以增添特定硬件IC的方式来提升GPU 几何处理能力。

● AMD意识到RV870架构的不足AMD下一代GPU代号为“Southern Island”，中文名为南岛。

作为ATI即将发布的显示芯片，南岛有可能将在温哥华流片。

ATI下一代GPU南岛系列名字在温哥华遭泄露。

这些名字将由Whistler-Blackcomb, Robson and Seymour为我们带来。

这些名字自从南岛命名出来后就已经在暗地流传。

当然以上关于芯片名称的解说大家只能参考，同时这也不是我们分析的重点。

“南岛”在发布之前，已经透露出了一些非常令人欣喜的特性。

其中最为显著的就是增强了DirectX 11最为重要的曲面细分（Tessellation）性能。

实际上2009年9月ATI全球首发了第一款DirectX 11显卡HD5870之后，其DirectX 11的支持力度和架构改进幅度一直是行业内关注的重点。

ATI公布的DirectX 11 Tessellation特性本次“南岛”仍然没有更新R600以来的US结构，而目前我们所得到的“南岛”的DirectX 11性能将在相同规模流处理器下超越自家HD5000产品，据此我们推测“南岛”架构增强了Tessellation 能力。

Tessellation又可译作拆嵌式细分曲面技术。

其实这是ATI早在其第一代DirectX 10图形核心R600，即HD2900XT上就引入的一个特殊的计算模块。

从HD2000系列开始，直到最新的HD5000系列，4代显卡全部支持这一技术。

Computex泄密独家解析AMD下代GPU架构

合集下载

GPU架构与技术详解

GPU架构与技术详解

从GPU诞生说起AMD统一渲染架构回顾及展望

了解电脑显卡中的GPU架构

GPU架构与技术详解

GPU架构解析范文

深入解析GPU架构理解显卡性能的关键

英特尔、AMD下一代处理器架构解析讲解学习

amd显卡架构

GPU架构解析

文档推荐

最新文档

Computex泄密 独家解析AMD下代GPU架构

合集下载

GPU架构与技术详解

GPU架构与技术详解

从GPU诞生说起AMD统一渲染架构回顾及展望

了解电脑显卡中的GPU架构

GPU架构与技术详解

GPU架构解析范文

深入解析GPU架构理解显卡性能的关键

英特尔、AMD下一代处理器架构解析讲解学习

amd显卡架构

GPU架构解析

文档推荐

最新文档

Computex泄密独家解析AMD下代GPU架构