C6000系列DSP的CPU结构概述
- 格式:ppt
- 大小:8.41 MB
- 文档页数:10
浅谈C2000C5000和C6000的内部结构及区别姓名:王莎班级:SJ1239学号:201221902003摘要:随着计算机和数字信号处理技术的快速发展和广泛应用,数字信号处理(DSP)引发了工业设计的革命,成为了工程实现的关键。
本文通过TI公司的TMS320C2000、TMS320C5000和TMS320C6000三大主流芯片内部结构介绍和比较,得出了它们之间的不同和共同点,并对它们进行了对比性说明。
关键词:DSP;内部结构;比较Abstract:With the computer and digital signal processing technology rapid development and the widespread Abstract:application,digital signal processing (DSP)has brought the industrial design revolution and become the key to the realization of the project.This paper introduces the Texas instruments(TI) company three mainstream chip internal structures,TMS320C5000、TMS320C2000and TMS320C6000,which are introduced and compared for all series of chips to know the different and common points between them,and has carried on the comparative to their specifications.Keywords:DSP;Internal structure;comparison1.前言世界上第一个单片DSP芯片是1978年AMI公司发布的S2811,1979年美国Intel公司发布的商用可编程器件2920是DSP芯片发展史上一个重要的里程碑。
C6000系列DSP1.它的预算速度能够达到800MIPS,并拥有高效的C编译器。
2.C6000系列每个周期能够执行8条32为的指令,它的内核CPU由两个寄存器A和B组成,并且具有8个32位字长的功能单元,其中两个乘法器和六个算术逻辑运算单元(ALU)。
3.C6000系列的组要特点:指令打包功能:给定代码大小等效于8条指令,可以穿星火并行执行以减小代码的长度,减少程序的取指时间和系统的功耗。
所有指令有条件执行;支持40位的算术运算,能够为各种高强度计算和编码提供附加精度;C62X/ C64X/ C67X有32位的字节可寻址地址空间。
内部存储器(片上)分为独立的数据空间和程序空间。
DMA控制器,无需CPU参与就可以在存储器映射中的不同地址范围间传输数据,DMA控制器有四个可编程通道和一个辅助通道。
EDMA控制器,与DMA控制器的功能能相同,有16个可编程通道还有一个RAM空间为未来所需的传输保持多种配置。
4.通用寄存器组C6000有两组通用寄存器A和B。
C62x/C67x每个寄存器组有16个32位寄存器(A组A0~A15,B组B0~B15)。
这些通用寄存器可以当做数据、数据地址指针或条件寄存器使用。
C64x则有32个32位的通用寄存器(A组A0~A31,B组B0~B31)。
5.数据通路的功能能单元C6000系列数据通路的功能单元可以被分为两组,每组四个(.L1, .S1 . .M1 , .D1 , 和.L2, .S2 , .M2 , .D2),对应的功能相同。
他们分别执行特定的定点运算和浮点运算。
6.寄存器交叉通路每个功能单元直接对各自数据通路的寄存器进行读写。
即.L1, .S1, .M1,和.D1单元写入寄存器组A,.L2, .S2, .M2,和.D2单元写入寄存器组B。
寄存器组通过交叉通路1X和2X与另一个寄存器组的功能单元相连。
这两个交叉通路允许一个同路的功能单元访问另一个通路寄存器的32位操作数,其中通路A的功能单元通过交叉通路1X访问寄存器B的资源,通路B的功能单元通过交叉通路2X访问A的资源。
TI公司三大系列DSP内部结构之比较班级:SJ1126 姓名:刘帅民学号:201120195005摘要:文章首先介绍了DSP的一些基本知识,引出制造DSP的主要厂商,然后,就TI公司的三大主流DSP芯片:TMSC2000、TMSC5000、TMSC6000的内部结构做了一些简单的比较。
关键词:TI;DSP;TMSC2000;TMSC5000;TMSC6000;Abstract:First article introduces some basic knowledges of DSP, resulting in the main companies that making DSP,then, to the three dominant DSP chips: TMSC2000, TMSC5000,TMSC6000's inner structure of the TI company make some simple compare.Keyword:TI;DSP;TMSC2000;TMSC5000;TMSC6000;一引言DSP有两种解释:一种是数字信号处理器(Digital Signal Processor),也称数字信号芯片;另一种是数字信号处理技术(Digital Signal Processing)。
我们所说的DSP所指的就是前者。
DSP是一种特别适合于进行数字信号处理运算的微处理器,其主机应用是实时快速地实现各种数字信号处理算法。
根据数字信号处理的要求,DSP芯片一般具有如下主要特点:(1)在一个指令周期内可完成一次乘法和一次加法;(2)程序和数据空间分开,可以同时访问指令和数据;(3)片内具有快速RAM,通常可通过独立的数据总线在两块中同时访问;(4)具有低开销或无开销循环及跳转的硬件支持;(5)快速的中断处理和硬件I/O支持;(6)具有在单周期内操作的多个硬件地址产生器;(7)可以并行执行多个操作;(8)支持流水线操作,使取指、译码和执行等操作可以重叠执行;DSP芯片的基本结构图如图一所示。
2-1 2012.1主讲教师:任海鹏1. 8088CPU结构和240DSP流水线 2. C6000系列DSP的CPU结构 3. C6000系列DSP的公共指令集 4. C6713浮点运算指令 5. C6000系列DSP的流水线操作 6. 中断结构和中断响应《DSP原理及应用》 2 任海鹏8088CPU结构Execution Unit and Bus Interface Unit《DSP原理及应用》3任海鹏8088CPU结构8088CPU由两个部分构成。
Execution Unit包括ALU,它负责指令的执行。
Bus Interface Unit负责与存储器和I/O的接口。
两部分操作各自独立进行。
《DSP原理及应用》4任海鹏8088CPU结构与一般8位 微处理器相比, 指令队列缓冲器 是8088设计上的 独特之处。
zCPU的工作 1、取指令 2、取数据 3、计算 4、存数据5 任海鹏《DSP原理及应用》8088CPU结构一般8位微处理器指令执行过程。
取指 执行 取指 执行 … 取指有了指令队列缓冲器8088可以这样执行指令。
取指 执行 取指 执行 取指 执行这样执行提高了 总线的利用效率。
只要指令不要求进行存储器或I/O访问,BIU就可以 读入指令,直到指令队列满。
《DSP原理及应用》 6 任海鹏8088CPU结构由8088微机原理我们可以得到关于微处理器的以 下基本概念:}微处理器通过中央算术逻辑单元进行数据计算; }可以通过一系列程序(指令)控制CPU完成一个完整功能; }微处理器计算过程中需要从程序存储器读程序,以便知道下一步的操作; }执行一个指令的操作时可能需要从数据存储器读入操作源数 据; }指令执行的结果可能要存入数据存储器; }程序和数据的读取以及数据的存储都要用BIU;《DSP原理及应用》 7 任海鹏240 DSP流水线《DSP原理及应用》8任海鹏240 DSP流水线z总线结构和接口方式}总线结构是计算机体系结构中的基本结构——传送数据和地址的通道; }总线结构提供了一种标准的接口方式——所有满足标准 的设备都可以挂接; }总线的传输方向是双向的,使用时要避免冲突——采用 时序控制; }总线的性能可以从响应速度,位宽,负载能力等几个方 面来衡量;《DSP原理及应用》9任海鹏240 DSP流水线z总线时序1、总线的时序一般分为四个独立的阶段: instruction-fetch, instruction-decode, operand-fe tch, and instruction execute. 2、单一地址总线和单一数据总线结构:在任意一个时钟 周期内只能有一条指令被执行; 3、提高处理速度:1)提高主频;2)加宽数据位宽; 3)采用多总线;《DSP原理及应用》10任海鹏240 DSP流水线z240DSP的内部总线结构(Enhanced Harvard Architecture)}PAB(Program Address Bus)为程序存储器的读、写提供地址}DRAB(Data-Read Address Bus)为读数据存储器的操作提供地址}DWAB(Data-Write Address Bus)为向数据存储器写的操作提供地址240 DSP流水线z DSP的内部总线结构(Enhanced Harvard Architecture)}PRDB(Program Read Bus)从程序存储器向CPU传送指令、立即数和表信息}DRDB(Data-Read Bus)从数据存储器向中央算术逻辑单元、辅助寄存器算术单元传送数据}DWEB(Data-Write Bus)向程序存储器和数据存储器传送数据240 DSP流水线DSP总线结构图240 DSP流水线z 流水线操作}指令的流水线处理由一系列发生在一条指令执行过程中的总线操作组成}4个独立的阶段:取指(instruction-fetch)、译码(in struction-decode)、取操作数(operand-fetch)和执行指令(instruction execute)各阶段使用不同的}指令执行不同阶段的总线操作取指——程序地址总线,程序读数据总线;资源互不冲突,可以并行!!译码——在CPU译码电路内完成不需要总线操作;取操作数——数据读地址总线,数据读数据总线;执行——算术逻辑单元,数据写地址和数据写数据总线。
C6000系列DSP体系结构介绍C6000 体系结构和汇编语言远见品质General DSP System Block DiagramInternal MemoryInternal BusesExternal MemoryCentral Processing UnitP E R I P H E R A L S远见品质C6000 CPU ArchitectureVLIW, Very Long Instruction word远见品质C6201/04/05 片内存储器远见品质C6701片内存储器远见品质C64x 片内2级存储器C64的 L1D的存储体结构:8×32bit 。
(32B) L1D行:64B。
共128组(4K字)远见品质程序员角度的DSP结构:存储器的层次片外存储器片内存储器数据寄存器处理单元远见品质C62xx CPU Core远见品质C67xx CPU Core远见品质C64xx CPU Core远见品质u u u u u u u u u u u u u一条C6000的指令和其机器码C6000: ADD .D2 B5,B4,B4 ADD (.D2 or.D1) src2,src1,dst1 00000010000101001000100001000010 000 0 00100 00101 00100 010000 10000 1 0 (1) (2) (3) (4) (5) (6)(7)(8)(9)(1) 条件寄存器: A1,A2,B0~2; C64添加A0 (2) z,指定条件寄存器的判断条件 (3) dst,目的 (4) src2,源2 (5) src1, 源1 (6) 操作码:设定唯一指令的码,sint,2个源和目标都为有符号整数且功能单元为D时的操作码就是010000 ; (7) 固定值 (8) s,选择A边寄存器还是B边寄存器 (9) p,是否并行远见品质对比:8086的ADD指令8086/8088 一条指令长1~6字节 8086 ADD CX,DX CX和DX相加放到CX 000000 0 1 11 001 010;寻址方式和立即数,这里没有ADD (1) (2) (3) (4)(5)(1)0 reg为目的,(2)1 字处理(8086的字为16bit), 表示操作的是CX,DX不是 CL,DL。
浅谈C2000、C5000和C6000的内部结构和区别摘要:德仪公司的DSP分为多种系列,其中TI公司的TMS320系列的DSP在全球应用中较为广泛。
本文重点对TMS320系列下的C2000系列,C5000系列,C6000系列的内部结构做重点介绍,并对其内部结构进行比较。
为了更好地了解其内部结构下面主要从三大方面进行总结,分别是:中央处理单元(CPU)、存储器和I/O空间、外围设备。
关键词:内部结构C2000系列C5000系列C6000系列Introduction to the internal structure and distinction ofC2000,C5000,C6000Abstract:The digital signal processors of the TI company are the widely used for many years.the IT company's DSP is divided into several series,in which TMS320 series have an wide application in the global .Toward the C2000 series, C5000 series, C6000 series which belong to TMS320 series,this paper mainly makes summary and comparison about their internal structure. In order to better understand its internal structure below summarizes mainly from three aspects, respectively is: the central processing unit (CPU), memory and I/O space, and peripheral devices.Keywords:Digital signal processing The internal structure C2000 series C5000 series C6000 series 一、引言在生产数字信号处理的全球企业中,美国的德仪公司生产的数字信号处理器多年来一直占据了较大的DSP生产市场,并且在不断的扩大。
DSP芯片的基本结构和特征引言DSP芯片(Digital Signal Processor,数字信号处理器)是一种专用于数字信号处理任务的微处理器。
它具有高处理速度和低功耗等特点,广泛应用于音频、视频、通信、雷达、图像处理等领域。
本文将介绍DSP芯片的基本结构和特征,以便读者更好地了解和应用该技术。
1. DSP芯片的基本结构DSP芯片的基本结构通常包括三个主要部分:中央处理单元(CPU)、存储器和数字信号处理模块。
下面将详细介绍这些部分的功能和特点。
1.1 中央处理单元(CPU)中央处理单元是DSP芯片的核心,负责控制和执行指令。
它通常由一个或多个运算单元(ALU)和一个控制单元组成。
ALU负责执行算术和逻辑运算,而控制单元则负责解码和执行指令序列。
中央处理单元是DSP芯片实现高速运算的关键部分。
1.2 存储器存储器是DSP芯片的重要组成部分,用于存储程序代码、数据和中间结果。
它通常包括两种类型的存储器:指令存储器(程序存储器)和数据存储器。
指令存储器用于存储程序代码和指令,而数据存储器用于存储数据和中间结果。
存储器的大小和访问速度对DSP芯片的性能有重要影响。
1.3 数字信号处理模块数字信号处理模块是DSP芯片的核心功能模块,用于执行数字信号处理任务。
它通常包括以下几个功能单元:时钟和定时器单元、数据通路单元、乘法器和累加器(MAC)单元以及控制逻辑单元。
时钟和定时器单元用于提供时序控制和定时功能,数据通路单元用于数据传输和处理,乘法器和累加器单元用于高速乘加运算,控制逻辑单元用于控制和协调各个功能单元的操作。
2. DSP芯片的特征DSP芯片相较于通用微处理器具有一些明显的特征,下面将介绍几个主要特征。
2.1 高速运算能力DSP芯片具有高速运算能力,主要得益于其专门的运算单元和并行处理能力。
相较于通用微处理器,DSP芯片能够更快地执行算术和逻辑运算,满足实时信号处理的需求。
2.2 低功耗设计DSP芯片在设计过程中注重功耗的控制,以满足移动设备和嵌入式系统等低功耗应用的需求。
2-2 2013.1主讲教师:任海鹏1. 8088CPU结构和240DSP流水线 2. C6000系列DSP的CPU结构 3. C6000系列DSP的指令基础 4. C6000系列DSP的流水线操作 5. 中断结构和中断响应《DSP原理及应用》2任海鹏z概述 z寻址方式和数据访问指令 zSOP操作举例《DSP原理及应用》3任海鹏SOP操作举例zSOP的实现SOP是许多DSP算法的关键 组件。
这里写出SOP算法, 来学习C6000的程序的基本 结构。
Y = ∑ an * xnn = 1N= a1 * x1 + a2 * x2 +... + aN * xN此算法需要两个基本操作: : 1)乘 2)加 因此,需要2个基本指令。
《DSP原理及应用》4任海鹏SOP操作举例zSOP的实现乘法的实现Y = ∑ an * xnn = 1N= a1 * x1 + a2 * x2 +... + aN * xNa1乘x1用如下汇编语言 指令实现: 该指令由称为“.M”的乘法 器单元执行。
《DSP原理及应用》5任海鹏zSOP的实现Y = ∑ an * xn40注意: 16位×16位产生32位积; 32位×32位产生64位积;n = 1= a1 * x1 + a2 * x2 +... + aN * xN由.M单元硬件完成乘法操作:《DSP原理及应用》6任海鹏zSOP的实现Y = ∑ an * xnn = 140.M= a1 * x1 + a2 * x2 +... + aN * xN由.M单元硬件完成乘法 操作:《DSP原理及应用》7任海鹏zSOP的实现Y = ∑ an * xnn = 140.M .?= a1 * x1 + a2 * x2 +... + aN * xN由.L单元硬件完成加法 操作:《DSP原理及应用》8任海鹏zSOP的实现Y = ∑ an * xnn = 140.M .L像 C6000 这 样 的 RISC 处 理器使用寄存器保持操作数。
二、TI公司三大系列内部结构的简介 1、C2000系列的内部结构1,C2000系列基于改进的哈佛结构,支持分开的程序空间和数据空间。
还有第三个空间,即I/O空间,用于片外总线接口。
外设总线映射到数据空间,因此,运行在数据空间的所有指令,都可以运行于所有的外设寄存器。
C2000系列的CPU包括:一个32位的中心算术逻辑单元(CALU)、一个32位的累加器(ACC)、CALU具有输入和输出数据定标移位器、一个16x16位乘法器、一个乘积定标移位器、数据地址产生逻辑:包括8个辅助寄存器和1个辅助寄存器算术单元(ARAU)、程序地址产生单元C2000系列采用2xLPASIC核,其内部设有6组16位的数据与程序总线。
这6组总线是:PAB(ProgramAddr.Bus)程序地址总线DRAB(Data-ReadAddr.Bus)数据读地址总线; DWAB(Data-WriteAddr.Bus)数据写地址总线; PRDB(ProgramReadBus)程序读总线;DRDB(DataReadBus)数据读总线;DWEB(DataWriteBus)数据写总线。
将数据读地址总线(DRAB)和数据写地址总线(DWAB)分开,CPU就可以在同一个机器周期内读和写数据。
C2000系列具有以下类型的片内存储器:双访问RAM(DARAM),即一个机器周期内可以访问两次的存器;FlashEEPROM或工厂掩模的ROM。
C2000系列的存储器分为单独可选择的4个空间,总共的地址范围为224K字:程序存储器(64K字);局部数据存储器(32K字);全局数据存储器(64K字);输入/输出(64K字)。
2、C5000系列的内部结构C5000系列中央处理单元CPU包括算术逻辑单元、乘法器、累加器、移位寄存器、各种专门用途的寄存器、地址发生器、比较选择单元、指数编码器。
具体内容如下①先进的多总线结构,具有1条程序存储器数据总线、3条数据存储器数据总线和4条地址总线;②40位算术逻辑单元(ALU),包括40位的桶形移位寄存器和2个独立的40位的累加器;③17位乘17位的并行乘法器与一个40位的专用加法器结合在一起,用于单周期乘/累加操作;④比较、选择和存储单元(CSSU),用于Viterbi操作(一种通信的编码方式)中的加/比较选择;⑤指数编码器用于在单周期内计算40位累加器的指数值;⑥2个地址生成器,包括8个辅助寄存器和2个辅助寄存器算术单元[6]。
第二章基于TI C6000系列DSP的C /C++程序优化技术2.1 TMS320C6000 处理器介绍TM S320C6000 是 TM S320 系列产品中的新一代高性能DSP 芯片,共分为两大系列。
其中定点系列为TM S320C62xx和TM S320C64xx;浮点系列为TM S320C67xx 。
由于 TM S320C6000 的开发主要面向数据密集型算法 ,它有着丰富的内部资源和强大的运算能力 ,所以被广泛地应用于数字通信和图像处理等领域。
C6000 系列 CPU 中的 8 个功能单元可以并行操作 ,并且其中两个功能单元为硬件乘法运算单元 ,大大地提高了乘法速度。
DSP 采用具有独立程序总线和数据总线的哈佛总线结构 ,仅片内程序总线宽度就可达到256 位 ,即每周期可并行执行 8 条 32 位指令;片内两套数据总线的宽度分别为 32 位; 此外 ,DSP 还有一套32 位DMA 专用总线用于传输。
灵活的总线结构使得数据瓶颈对系统性能的限制大大缓解。
C6000 的通用寄存器组能支持 32 位和 40 位定点数据操作 , 另外C67xx 和 C64xx 还分别支持 64 位双精度数据和 64 位双字定点数据操作。
除了多功能单元外 ,流水技术是提高 DSP 程序执行效率的另一主要手段。
由于TM S320C6000 的特殊结构 ,功能单元同时执行的各种操作可由VL IW 长指令分配模块来同步执行 ,使 8 条并行指令同时通过流水线的每个节拍 ,极大地提高了机器的吞吐量。
2.2 C6000 软件开发流程图 2-1为 C6000的软件开发流程图。
图中阴影部分是开发 C代码的常规流程 ,其他部分用于辅助和加速开发过程。
图2-1软件开发流程C/ C + +源文件首先经过C/ C + +编译器转换为 C6000汇编源代码。
编译器、优化器(optimizer)和交叠工具是 C/ C + +编译器的组成部分。
C6000 DSP概况近年来,以高速数字信号处理器(DSP)为基础的实时数字信号处理技术飞速发展,并获得了广泛的应用。
TMS320C6000系列DSP是德州仪器公司(TI)推出的定点、浮点系列DSP,其中定点产品峰值处理能力达到4800MIPS,浮点产品峰值处理能力达到1350MFLOPS,是目前国际上性能最高的DSP之一,其卓越的性能使得它在传统的DSP领域、雷达、无线电基站等高端领域,以及宽带媒体、身份识别等新兴领域都有很好的应用前景。
随着DSP性能和功能的不断增强,应用系统的设计越来越复杂,要将DSP的性能充分释放出来,合理的板级设计是DSP系统开发人员面临的一个关键性的问题。
TI公司的三种新型TMS320 DSP系列和OMAP系列1.TMS320C2000——作控制用的最佳DSP,可以替代老的C1X和C2X。
TMS320C20X系列DSP芯片具有如下特点:(1)处理能力强:指令周期最短是25nm,运算处理能力达40MIPS。
(2)片内具有较大的FLASH存储器:TMS320C20X是最早使用片内FLASH存储器的DSP芯片,FLASH存储器具有比ROM灵活、比RAM便宜的特点,TMS320F206和TMS320F207的片内具有32KB的FLASH存储器和4.5KB的RAM。
(3)芯片的功耗低:TMS320C20X 系列DSP芯片在5V工作时每个MIPS消耗1.9mA电流,在3.3V工作时每个MIPS消耗1.1mA电流4)芯片的资源配置灵活。
TMS320C2000系列DSP芯片价格低,具有较高额性能和适用于控制领域的功能,因此可以广泛地应用于工业自动化、电机控制、运动控制、电力电子、家用电器等领域.现在有趋势集中在以下两个方向上(1)C20X16位定点DSP,速度为20MIPS,主要用途是电话、数字相机、售货机等,其中:F206带有闪速存储器。
(2)C24X16位定点DSP,速度为20MIPS,用作数字马达控制、工业自动化、电力转换系统、空调等。
C6000系列DSP1.它的预算速度能够达到800MIPS,并拥有高效的C编译器。
2.C6000系列每个周期能够执行8条32为的指令,它的内核CPU由两个寄存器A和B组成,并且具有8个32位字长的功能单元,其中两个乘法器和六个算术逻辑运算单元(ALU)。
3.C6000系列的组要特点:指令打包功能:给定代码大小等效于8条指令,可以穿星火并行执行以减小代码的长度,减少程序的取指时间和系统的功耗。
所有指令有条件执行;支持40位的算术运算,能够为各种高强度计算和编码提供附加精度;C62X/ C64X/ C67X有32位的字节可寻址地址空间。
内部存储器(片上)分为独立的数据空间和程序空间。
DMA控制器,无需CPU参与就可以在存储器映射中的不同地址范围间传输数据,DMA控制器有四个可编程通道和一个辅助通道。
EDMA控制器,与DMA控制器的功能能相同,有16个可编程通道还有一个RAM空间为未来所需的传输保持多种配置。
4.通用寄存器组C6000有两组通用寄存器A和B。
C62x/C67x每个寄存器组有16个32位寄存器(A组A0~A15,B组B0~B15)。
这些通用寄存器可以当做数据、数据地址指针或条件寄存器使用。
C64x则有32个32位的通用寄存器(A组A0~A31,B组B0~B31)。
5.数据通路的功能能单元C6000系列数据通路的功能单元可以被分为两组,每组四个(.L1, .S1 . .M1 , .D1 , 和.L2, .S2 , .M2 , .D2),对应的功能相同。
他们分别执行特定的定点运算和浮点运算。
6.寄存器交叉通路每个功能单元直接对各自数据通路的寄存器进行读写。
即.L1, .S1, .M1,和.D1单元写入寄存器组A,.L2, .S2, .M2,和.D2单元写入寄存器组B。
寄存器组通过交叉通路1X和2X与另一个寄存器组的功能单元相连。
这两个交叉通路允许一个同路的功能单元访问另一个通路寄存器的32位操作数,其中通路A的功能单元通过交叉通路1X访问寄存器B的资源,通路B的功能单元通过交叉通路2X访问A的资源。