第三章 C6000流水线3

格式：pdf
大小：611.44 KB
文档页数：10

下载文档原格式

c6000操作手册

每台空调机组有一个控制器，控制器和 I/O 板通过 RS485 数据总线相互连接。下面是三个空调模块基本配置的示意图。
模块电源供给
I/O 电路板
模块电源供给
I/O 电路板
模块00
空调机组上可以装上一个备份的控制器（作为监控器），这样如果控制器发生故障，监控器可以替代进行控制整个空调系统。
扩展的 I/O 电路板扩展的 I/O 板能让您的空调装更多的选件，您可从以后的描述了解扩展 I/O 板可提供的选件功能。
4
梅兰日兰电子（中国）有限公司
操作面板
C6000 控制器安装在机组的控制部份，可在机组正面操作。
控制器的控制按键
选择键
可用此键选择菜单并修改参数
确认键
用以确认对功能/参数的修改
9
梅兰日兰电子（中国）有限公司
A _“信息”菜单继续
对话窗显示实际及设定的温/湿度，由控制器给出的设定值显示，这些设定值由每周程序式传感器控制限制。（见 21 页）每个模块制冷循环组件运行状况显示在这个对话窗中。
这个对话窗显示空调由多少模块组合而成，“X”表示模块的哪一个功能正在运行,“S” 表示备份机组。
菜单中。 B
若你的空调机组装备了加湿器，其运行状况将显示在对话窗中，此外，显示屏有指示除湿系统是否开启/关闭。
10
梅兰日兰电子（中国）有限公司
“控制”菜单
在“控制”菜单中可修改各个空调模块及部件的各种参数和运行状况。
密码 XXX 密码是通过选择键与确认键来输入，使用“〈”=左，“OK”=确认“>”=右,前两个按键必须在
控制器………. ..……………………………………………………………………44 下载新软件……..……………………………………………………………………45 标准 I/O 板...…..……………………………………………………………………48 扩展 I/O 板…….……………………………………………………………………52 温度/湿度传感器……………………………………………………………………54 系统配置

ti_traning_for_c6000

Hardware 1011 x 1110 10011010 Microcode 1011 x 1110 0000 1011. 1011.. 1011... 10011010
Chapter 1, Slide 12
Cycle Cycle Cycle Cycle
1 2 3 4
Cycle 5
Dr. Naim Dahnoun, Bristol University, (c) Texas Instruments 2004
Why NOT go digital?
High frequency signals cannot be processed digitally because of two reasons:
Analog to Digital Converters, ADC cannot work fast enough. The application can be too complex to be performed in real-time.
Processing Time n
We can say that we have a real-time application if:
Waiting Time ≥ 0
Chapter 1, Slide 8
Dr. Naim Dahnoun, Bristol University, (c) Texas Instruments 2004
Chapter 1, Slide 6
Dr. Naim Dahnoun, Bristol University, (c) Texas Instruments 2004
Real-time processing
DSP processors have to perform tasks in real-time, so how do we define realtime? The definition of real-time depends on the application. Example: a 100-tap FIR filter is performed in real-time if the DSP can perform and complete the following operation between two samples:

第3章 C6000指令系统(1-2)

一般而言，与乘法相关的指令都在.M单元执行；需要产生数据存储器地址的指令，要用到.D功能单元；算术逻辑运算大多在.L和.S单元执行。
Dr. Naim Dahnoun, Bristol University, (c)
Texas Instruments 2002
12
32.2.2 延迟间隙（Delay Slots）
BK1
BK0
R
R,W
Mode select fields
15
14 13
12 11
10 9
87
6
B7 mode B6 mode B5 mode B4 mode A7 mode
5
4
A6 mode
R,W
3
2
A5 mode
1
0
A4 mode
R,W
00：线性寻址（复位后默认值）
各模式 01：循环寻址，使用BK0字段
Dr. Naim Dahnoun, Bristol University, (c)
Texas Instruments 2002
18
3.2.4 寻址方式及Load/Store类指令
一、寻址方式
寻址模式寄存器AMR各个位域的定义
Block size fields
31
26 25
21 20
16
ห้องสมุดไป่ตู้
Reserved
13
3.2.3 指令操作码映射图（Opcode Map）
C6000的每一条指令都是32位，都有自己的代码，详细指明指令相关内容。
.L unit
31 29 28 27 23 22 18 17
13 12 11
54 3 2 10

C6000系列DSP的CPU结构概述

LD2a 32 MSB
• C64xx支持双字存储，还有第2个 ST2b 32LSB
32位存储通路,图中的ST1a和 ST2a 32MSB
ST2a。
TMS320C64x存储器读取通路
A组寄存器
B组寄存器
CPU数据通路与控制
2个数据地址通路 DA1，
ST1a 32MSB ST1b 32LSB
DA2
C6000系列CPU结构介绍
2 个对称的可进行数据处理的数据通路（A 和 B）
16个（C64x有32个）32位通用寄存器
16个（C64x有32个）32位通用寄存器
每个数据通路的4个功能单元有单一的数据总线连接到 CPU 另一侧的寄存器上
4个功能单元（.L、.S、.M和.D）
4个功能单元（.L、.S、.M和.D）
C6000系列DSP的CPU结构概述
学习内容
TMS320C6000简介 C6000系列CPU结构介绍 CPU数据通路与控制 TMS320C6000公共指令集概述
TMS320C6000简介
美国TI公司发布的DSP芯片TMS320C6000 包括 TMS320C62xx和 TMS320C64xx两个定点系列和 TMS320C67xx 浮点系列，二个系列相互兼容。 C6000系列DSP主要特点:
32位加、减、线性及循环寻址计算带5位常数偏移量的字读取与存储带15位常数偏移量的字读取与存储（仅.D2）带5位常数偏移量的双字读取与存储无边界调节的字读取与存储 5位常数产生 32位逻辑操作
带5位常数偏移量的双字读取
CPU数据通路与控制
寄存器组交叉通路
CPU中有两个交叉通路1X和2X。 1X：允许A侧功能单元读取B组寄存器数据。 2X：允许B侧功能单元读取A组寄存器数据每侧仅有一个交叉通路，在同一周期内从另一侧寄存器组读操作数只能一次，或者同时进行使用2个交叉通路（1X和2X）的操作 .S,.M,.D功能单元仅src2可以使用另一侧寄存器数据仅C64系列的.D能使用交叉通路

DSP2-1x(c6000系列cpu结构和指令集)

2-1 2012.1主讲教师：任海鹏1. 8088CPU结构和240DSP流水线 2. C6000系列DSP的CPU结构 3. C6000系列DSP的公共指令集 4. C6713浮点运算指令 5. C6000系列DSP的流水线操作 6. 中断结构和中断响应《DSP原理及应用》 2 任海鹏8088CPU结构Execution Unit and Bus Interface Unit《DSP原理及应用》3任海鹏8088CPU结构8088CPU由两个部分构成。

Execution Unit包括ALU，它负责指令的执行。

Bus Interface Unit负责与存储器和I/O的接口。

两部分操作各自独立进行。

《DSP原理及应用》4任海鹏8088CPU结构与一般8位微处理器相比，指令队列缓冲器是8088设计上的独特之处。

zCPU的工作 1、取指令 2、取数据 3、计算 4、存数据5 任海鹏《DSP原理及应用》8088CPU结构一般8位微处理器指令执行过程。

取指执行取指执行 … 取指有了指令队列缓冲器8088可以这样执行指令。

取指执行取指执行取指执行这样执行提高了总线的利用效率。

只要指令不要求进行存储器或I/O访问，BIU就可以读入指令，直到指令队列满。

《DSP原理及应用》 6 任海鹏8088CPU结构由8088微机原理我们可以得到关于微处理器的以下基本概念：}微处理器通过中央算术逻辑单元进行数据计算； }可以通过一系列程序（指令）控制CPU完成一个完整功能； }微处理器计算过程中需要从程序存储器读程序，以便知道下一步的操作； }执行一个指令的操作时可能需要从数据存储器读入操作源数据； }指令执行的结果可能要存入数据存储器； }程序和数据的读取以及数据的存储都要用BIU；《DSP原理及应用》 7 任海鹏240 DSP流水线《DSP原理及应用》8任海鹏240 DSP流水线z总线结构和接口方式}总线结构是计算机体系结构中的基本结构——传送数据和地址的通道； }总线结构提供了一种标准的接口方式——所有满足标准的设备都可以挂接； }总线的传输方向是双向的，使用时要避免冲突——采用时序控制； }总线的性能可以从响应速度，位宽，负载能力等几个方面来衡量；《DSP原理及应用》9任海鹏240 DSP流水线z总线时序1、总线的时序一般分为四个独立的阶段： instruction-fetch, instruction-decode, operand-fe tch, and instruction execute. 2、单一地址总线和单一数据总线结构：在任意一个时钟周期内只能有一条指令被执行； 3、提高处理速度：1）提高主频；2）加宽数据位宽； 3）采用多总线；《DSP原理及应用》10任海鹏240 DSP流水线z240DSP的内部总线结构(Enhanced Harvard Architecture)}PAB（Program Address Bus）为程序存储器的读、写提供地址}DRAB（Data-Read Address Bus）为读数据存储器的操作提供地址}DWAB（Data-Write Address Bus）为向数据存储器写的操作提供地址240 DSP流水线z DSP的内部总线结构(Enhanced Harvard Architecture)}PRDB（Program Read Bus）从程序存储器向CPU传送指令、立即数和表信息}DRDB（Data-Read Bus）从数据存储器向中央算术逻辑单元、辅助寄存器算术单元传送数据}DWEB（Data-Write Bus）向程序存储器和数据存储器传送数据240 DSP流水线DSP总线结构图240 DSP流水线z 流水线操作}指令的流水线处理由一系列发生在一条指令执行过程中的总线操作组成}4个独立的阶段：取指（instruction-fetch）、译码（in struction-decode）、取操作数（operand-fetch）和执行指令（instruction execute）各阶段使用不同的}指令执行不同阶段的总线操作取指——程序地址总线，程序读数据总线；资源互不冲突，可以并行！！译码——在CPU译码电路内完成不需要总线操作；取操作数——数据读地址总线，数据读数据总线；执行——算术逻辑单元，数据写地址和数据写数据总线。

数字信号处理器结构完美版PPT

• 当流水线操作被破坏时，需要流水线排空，流水线段越长，排空时间越长。因此，流水线段数并不是越长越好。
• 指令流水线段数一般取为3～16
BIT/TI
16
5、流水线加速比
BIT/TI
17
6、流水线等待时间
• 流水线等待时间（latency）
–是一条流水线的二次启动之间的时间单位（时钟周期）数。
BIT/TI
11
4、C62x指令流水线：执行
延迟间隙（delay slots）在周期7，取指包FPn的指令达到E1，同时FPn +1的指令正在译码，FPn+2的指令处在DP，FPn+3，n+4，n+5，n+6分别处在取指的4个节拍阶段 4、C62x指令流水线：译码 C6000的指令、译码、执行阶段都分为更细的子阶段，或称为节拍 4、C62x指令流水线：取指能在k+(n-1)个时钟周期内执行n条指令，其中头k个周期为流水线填充时间，完成一条指令，后n-1个时钟周期每周期完成1条指令，共完成n-1条指令。当流水线操作被破坏时，需要流水线排空，流水线段越长，排空时间越长。当流水线分段数k较大时，可能得到的加速比较高，但是由于控制的复杂性、电路实现的困难等因素，流水线段数不可能非常大。执行 (Execute) 因此，流水线段数并不是越长越好。是一条流水线的二次启动之间的时间单位（时钟周期）数。能在k+(n-1)个时钟周期内执行n条指令，其中头k个周期为流水线填充时间，完成一条指令，后n-1个时钟周期每周期完成1条指令，共完成n-1条指令。所以一条k段流水线对等效的非流水线的加速因子Sk为指令流水线可以重叠执行多条指令，提高指令的执行速度
S k k (n 1)

dsp复习题及答案

读书破万卷下笔如有神一、TI公司DSP分类及代表产品简介TI的DSP经过完善的测试出厂时，都是以TMS320为前缀。

在众多款型DSP中，TI把市场销量好和前景看好的DSP归为三大系列而大力推广，TI也称之为三个平台。

TMS320C6000平台，包含定点C62x和C64x以及浮点C67x。

其追求的是至高性能，最近新推出的芯片速度高达1GHZ，适合宽带网络、图像、影像、雷达等处理应用。

TMS320C5000 平台，包含代码兼容的定点C54x和C55x。

其提供性能、外围设备、小型封装和电源效率的优化组合，适合便携式上网、语音处理及对功耗有严格要求的地方。

DSP的传统设计往往是采取主从式结构：在一块电路板上，DSP做从机，负责数字信号处理运算；外加一块嵌入式微处理器做主机，来完成输入、控制、显示等其他功能。

为此，TI专门推出了一款双核处理器OMAP，包含有一个ARM和一个C5000系列DSP，OMAP处理器把主从式设计在芯片级上合二为一，一个典型的应用实例为诺基亚手机。

TMS320C2000 平台，包含16位C24xx和32位C28xx的定点DSP。

C24xx系列市场销量很好，而对C28xx系列，TI认为很有市场潜力而大力推广。

C2000针对控制领域做了优化配置，集成了了众多的外设，适合逆变器、马达、机器人、数控机床、电力等应用领域。

另外，OMAP 系列：OMAP 处理器集成ARM 的命令及控制功能，另外还提供DSP 的低功耗，实时信号处理能力，最适合移动上网设备和多媒体家电。

其他系列的DSP 曾经有过风光，但现在都非TI 主推产品了，除了C3X 系列外，其他基本处于淘汰阶段，如：C3X 的浮点系列：C30，C31，C32 C2X 和C5X 系列：C20，C25，C50, 每个系列的DSP 都有其主要应用领域。

二、简述实时信号处理的含义。

要求在限定的时间内将采集的数据在现场处理完成并得到一定的结果，即信号处理的时间要小于或者等于下一批数据输入时间，有时甚至要求在特定的时间、地点来完成信号处理。

C6000系列DSP体系结构介绍

C6000系列DSP体系结构介绍C6000 体系结构和汇编语言远见品质General DSP System Block DiagramInternal MemoryInternal BusesExternal MemoryCentral Processing UnitP E R I P H E R A L S远见品质C6000 CPU ArchitectureVLIW, Very Long Instruction word远见品质C6201/04/05 片内存储器远见品质C6701片内存储器远见品质C64x 片内2级存储器C64的 L1D的存储体结构：8×32bit 。

（32B） L1D行：64B。

共128组（4K字）远见品质程序员角度的DSP结构：存储器的层次片外存储器片内存储器数据寄存器处理单元远见品质C62xx CPU Core远见品质C67xx CPU Core远见品质C64xx CPU Core远见品质u u u u u u u u u u u u u一条C6000的指令和其机器码C6000: ADD .D2 B5,B4,B4 ADD (.D2 or.D1) src2,src1,dst1 00000010000101001000100001000010 000 0 00100 00101 00100 010000 10000 1 0 (1) (2) (3) （4） (5) （6）（7）（8）（9）(1) 条件寄存器: A1,A2,B0~2; C64添加A0 (2) z，指定条件寄存器的判断条件 (3) dst，目的 (4) src2，源2 (5) src1, 源1 (6) 操作码：设定唯一指令的码，sint，2个源和目标都为有符号整数且功能单元为D时的操作码就是010000 ； (7) 固定值 (8) s，选择A边寄存器还是B边寄存器 (9) p，是否并行远见品质对比：8086的ADD指令8086/8088 一条指令长1~6字节 8086 ADD CX,DX CX和DX相加放到CX 000000 0 1 11 001 010；寻址方式和立即数，这里没有ADD (1) (2) (3) （4）（5）（1）0 reg为目的，（2）1 字处理（8086的字为16bit）, 表示操作的是CX,DX不是 CL,DL。

DSP2-2(c6000系列cpu结构和指令集)

2-2 2013.1主讲教师：任海鹏1. 8088CPU结构和240DSP流水线 2. C6000系列DSP的CPU结构 3. C6000系列DSP的指令基础 4. C6000系列DSP的流水线操作 5. 中断结构和中断响应《DSP原理及应用》2任海鹏z概述 z寻址方式和数据访问指令 zSOP操作举例《DSP原理及应用》3任海鹏SOP操作举例zSOP的实现SOP是许多DSP算法的关键组件。

这里写出SOP算法，来学习C6000的程序的基本结构。

Y = ∑ an * xnn = 1N= a1 * x1 + a2 * x2 +... + aN * xN此算法需要两个基本操作：： 1）乘 2）加因此，需要2个基本指令。

《DSP原理及应用》4任海鹏SOP操作举例zSOP的实现乘法的实现Y = ∑ an * xnn = 1N= a1 * x1 + a2 * x2 +... + aN * xNa1乘x1用如下汇编语言指令实现: 该指令由称为“.M”的乘法器单元执行。

《DSP原理及应用》5任海鹏zSOP的实现Y = ∑ an * xn40注意： 16位×16位产生32位积； 32位×32位产生64位积；n = 1= a1 * x1 + a2 * x2 +... + aN * xN由.M单元硬件完成乘法操作:《DSP原理及应用》6任海鹏zSOP的实现Y = ∑ an * xnn = 140.M= a1 * x1 + a2 * x2 +... + aN * xN由.M单元硬件完成乘法操作:《DSP原理及应用》7任海鹏zSOP的实现Y = ∑ an * xnn = 140.M .?= a1 * x1 + a2 * x2 +... + aN * xN由.L单元硬件完成加法操作:《DSP原理及应用》8任海鹏zSOP的实现Y = ∑ an * xnn = 140.M .L像 C6000 这样的 RISC 处理器使用寄存器保持操作数。

C6000体系结构与汇编语言4--存储器

C620x/C670x Cache的结构

直接映射式： cache的行（line）容量256-bit，可容纳8条32bit的指令。Cache中每一行对应一个取指包，直接映射外存中某个地址的内容。
C6201/C6204/C6205/C6701 Cache地址的解析
C6202(B)/C6203(B) Cache地址的解析
C621x/C671x/C64x的L1D

双路组联想结构
6BIT,64组
5BIT,32字节
128组

访问L1D cache 阻塞: CPU的数据访问如果命中L1D，将单周期返回需要的数据。如果没有命中L1D，但是命中L2，对于C621x/C671x，CPU将被阻塞4 个周期；对于C64x，CPU将被阻塞2～8个周期。

Cache存储系统组成
Cache系统组成原理
Cache系统工作原理
Cache和主存储器都划分成相同大小的块（有的地方也称行，line）块（Block）的大小是2的整次幂，一块包含若干字，字可分为字节。 Cache与主存储器之间以块为单位进行数据交换。主存储器的块可以采用某种地址映象和地址变换映射到Cache上的块。
C620x/C670x的片内数据存储器

C6201/C6204/C6205片内数据存储器的组织结构：思考：为什么分为多个 bank？2个 block？
C6701片内数据存储器的组织结构
思考：为什么C67的bank 数为8？C62 为4？
C620x/C670x对片内数据存储器的访问

数据访问的格式控制：边界限制 DMA数据传输优先级

Cache系统工作原理(全相联)

C6000系列教程一解析

LD2
ST2
A组寄存器
.D1
.D2
B组寄存器
BIT/TI
第一讲TMS320C62xx/C67xx结构概述
38
2.控制寄存器
控制寄存器缩写 AMR
CSR
IFR ISR ICR IER ISTP IRP NRP
PCE1
控制寄存器名称寻址模式寄存器
控制状态寄存器
中断标志寄存器中断设置寄存器中断清除寄存器中断使能寄存器中断服务表指针中断返回指针不可屏蔽中断返回指针程序计数器
描述指定是否使用线性或循环寻址，也包括循环寻址的尺寸包括全局中断使能位、高速缓冲存储器控制位和其它各种控制和状态位显示中断状态允许软件控制挂起的中断允许软件清除挂起的中断允许使能 /禁止个别中断指向中断服务表的开始保存从可屏蔽中断返回时的地址保存从不可屏蔽中断返回时的地址
23
关于指针
第1次循环后，A4为：第2次循环如何访问a(1)和x(1)?
BIT/TI
第一讲TMS320C62xx/C67xx结构概述
24
递增指针
BIT/TI
第一讲TMS320C62xx/C67xx结构概述
25
另一套功能单元和寄存器(B侧)
BIT/TI
第一讲TMS320C62xx/C67xx结构概述
21
读取/存入（.D单元）
BIT/TI
第一讲TMS320C62xx/C67因此使用指令MVK：
• MVK指令所移的位数：16 bit • 表示一个完整地址的位数：32 bit • 一个地址读入寄存器必须使用两条指令：
例如：
BIT/TI
第一讲TMS320C62xx/C67xx结构概述

DSP简介

DSP技术绪论：P1-P21.DSP与DSP技术。

2.CPU、MCU、DSP区别与联系。

3.DSP技术发展的两个领域。

4.DSP的理论基础。

P15.DSP的实现方法。

P2第一章数字信号处理和DSP系统P2-P6 1.1实时出资信号处理技术的发展。

数字信号处理器的应用领域。

1.2数字信号处理器的特点P21.2.2流水线1.2.3 硬件乘法累加单元1.2.4零开销循环1.2.5特殊的寻址方式1.2.6高效的特殊指令1.2.7丰富的片内外设DSP最重要的特点DSP芯片是高性能系统的核心P31.3德州仪器公司的DSP产品P3-P41.C2000系列简介2.C5000系列简介3.C6000系列简介1.4DSP芯片的选择P5-P61.4.1运算速度1.4.2算法格式和数据宽度1.4.3存储器1.4.4功耗P51.4.5开发工具1.5DSP应用系统设计流程P6第二章TMS320C55x的硬件结构P7-P16 2.1TMS320C55x DSP的基本结构2.1.1C55x的CPU体系结构P72.1.2指令缓冲单元2.1.3程序流程单元2.1.4地址流程单元P82.1.5数据计算单元2.1.6指令流水线P92.2TMS320VC55A的主要特性P102.2.1VC5509A的主要特性1.CPU部分2.存储器系统3.片上外设2.2.2VC5509A的引脚功能2.3TMS320C55x存储空间结构P11 2.3.1存储器映射P112.3.2程序空间2.3.2数据空间P122.3.4I/O空间P132.4中断系统P132.4.1中断系统概述1.中断分类2.中断处理一般过程2.4.2中断标志寄存器和中断屏蔽寄存器P142.4.3接收应答及处理中断2.4.5中断向量（地址）P15第三章DSP的数据运算基础P17-19第四章TMS320C55x的指令系统P21-P29 4.1寻址方式4.1.1绝对寻址模式4.1.2直接寻址模式P221.DP直接寻址2.SP直接寻址3.寄存器位寻址P234.PDP直接寻址3.1.3间接寻址模式P231.AR间接寻址模式2.双AR简介寻址模式P244.系数间接寻址模式P254.2TMS320C55x的指令系统4.2.1C55x指令的并行执行1.指令并行的特征2.指令并行的规则P264.2.2TMS320C55x DSP的汇编指令P26第四章C55x处理器的软件设计P31-P42 4.1C55x处理器程序基本结构4.1.1自我调度程序的基本结构4.1.2应用嵌入式操作系统P321.不可剥夺型内核2.可剥夺型内核4.2C语言程序开发及优化4.2.1c语言中的数据类型4.2.2对I/O空间进行寻址P334.2.3interrupt关键字4.2.4onchip关键字4.2.5C语言的优化4.3C语言与汇编语言的混合编程P344.3.1在C语言中直接嵌套汇编语句4.3.2C语言调用汇编模块的接口1.C/C++中的寄存器规则2.函数调用规则P353.被调用函数的响应4.C/C++与汇编语言的接口P364.4公共目标文件格式——COFF4.4.1COFF文件中的段P374.4通用目标文件格式P374.4.1C/C++和汇编语言中段的分配4.4.2寄存器模式设置P381.小存储器模式2.大存储器模式3.C/C++系统堆栈4.动态内存分配P395.结构的对齐4.4.3 链接命令文件4.5汇编源程序的编辑、汇编和链接过程P39 4.5.1编辑4.5.2汇编器1.汇编器的功能2.汇编器的调用3.列表文件P404.5.3连接器1.连接器的功能2.连接器的调用3.多个文件的链接P40-P414.6C55x处理器的数字信号处理库和图像、视频处理库P414.6.1C55x的数字信号处理库4.6.2C55x的图像、视频处理库P42第五章TMS32C55Xde 片内集成外设开发及测试P43-P735.1C55x片内外设与芯片支持库简介1.时钟与定时器2.外部设备链接接口3.信号采集4.通信接口5.其他外设5.2时钟发生器P445.2.1时钟模式寄存器5.2.2工作模式P451.旁路模式2.锁定模式5.2.3CLKOUT输出5.2.4使用方法1.省点2.DSP复位3.失锁5.2.5使用方法及实例5.2.6时钟发生器的调试5.3通用定时器P465.3.1结构框图5.3.2工作原理5.3.3使用方法P471.初始化定时器2.停止/启动定时器3.DSP复位5.3.4通用定时器的应用5.3.4通用定时器的调试P485.4外部存储器接口5.4.1功能与作用5.4.2外部寄存器接口硬件连接与配置P491.异步存储器接口2.同步突发静态存储器P513.同步突发动态存储器P525.4.3外部寄存器接口的软件设置P545.5主机接口（EHPI）P555.5.1EHPI接口的非复用连接方式5.5.2EHPI接口的复用连接方式P565.5.3EHPI口的寄存器5.6多通道缓冲串口McBSP P575.6.1概述5.6.2组成框图5.6.3采样率发生器1.采样率发生器的输出时钟和桢同步信号P582.同步5.6.4多通道选择1.接收多通道选择P592.发送多通道选择5.6.5异常处理1.接收数据溢出2.同步桢同步信号错误3.发送数据重写4.发送寄存器空P605.发送帧同步脉冲错误5.6.6MCBSP寄存器1.收发通道寄存器2.时钟和帧同步寄存器（1）串口控制寄存器（2）收发控制寄存器P61（3）采样率发生寄存器（4）引脚控制寄存器3.多通道选择寄存器P62（1）通道控制寄存器（2）收发通道使能寄存器5.6.7多通道缓冲串口的应用5.6.8MCBSP串口的测试P641.DSP内部链接测试2.外部设备连接测试5.7通道输入/输出端口GPIO P655.7.1GPIO概述5.7.2上电模式设定5.7.3驱动程序开发P665.7.4通用输入/输出GPIO的测试1.输入口测试2.输出口测试5.8DMA控制器5.8.1概述5.8.2通道和端口P675.8.3HPI的配置5.8.4DMA传输配置P681.数据传输单位2.数据打包3.端口4.数据源和目的地址5.8.5DMA控制器的寄存器1.DMA全局控制寄存器P692.DMA通道控制寄存器3.源和目的参数寄存器4.起始地址寄存器P50【我标错了实际应该是P70】5.单元索引寄存器和桢索引寄存器5.8.6使用方法及实例5.9I²C总线P515.9.1I²C总线简介1. I²C总线数据传输P522.仲裁3.时钟产生和同步P534. I²C模块的终端和DMA同步事件5. I²C模块的禁止与使能5.9.2I²C寄存器5.9.3 I²C模块的使用5.10通用串行总线（USB）P545.10.1通用串行总线简介5.11．2USB的DMA控制器P551.主机-DMA模式P56B模块的中断5.10.3USB模块的寄存器1.DMA内容寄存器P572.通用端点描述寄存器3.控制端点描述寄存器P584.中断寄存器P595.11.4USB模块的应用5.11模块转换器(ADC)P605.11.1模数转换器结构和时序5.11.2模数转换器的寄存器P615.11.3使用方法及实例P625.12实时时钟（RTC）5.12.1基本结构P635.12.2内部寄存器5.12.3应用P645.13看门狗定时器（Watchdog）P655.13.1工作方式5.13.2寄存器说明5.13.3应用P665.14一步串口（UART）P665.14.1基本结构1.异步串口发送部分P672.异步串口接收部分3.波特率产生器4.异步串口的中断申请与DMA事件的产生P685.FIFO工作模式6.供电和仿真P695.14.2异步串口寄存器1.接收缓冲寄存器（URRBR）P702.发送保持寄存器（URTHR）3.分频数锁存寄存器（URDLL和URDLM）4.中断使能寄存器（URIER）5.中断标志寄存器（URIIR）6.FIFO控制寄存器（URFCR）P717．线路控制寄存器（URLCR）8.循环模式控制寄存器（URMCR）P729.线路状态寄存器（URLSR）10.供电和仿真控制寄存器（URPECR）P735.14.3异步串口的应用P73第七章TMS320C55X硬件设计实例p75-P93 7.1DSP最小系统设计7.1.1C55x的电源设计7.1.2复位电路设计P767.1.3时钟电路设计P777.1.4JTAG接口电路设计7.1.5程序加载部分1.并行外部存储器（EMIF）加载P782.标准串口加载p793.串行外设接口（SPI）加载p804.EHPI口加载程序P817.2A/D与D/A设计P827.2.1串行多路A/D设计P837.2.2高速并行A/D设计P857.2.3并行D/A设计P867.3C55X在语音系统中的应用P877.4C55x在软件无线电中的应用P89第八章TMS320C55X软件设计实例P95-P1138.1卷积算法8.1.1卷积算法8.1.2卷积算法的MATLAB实现8.1.3卷积算法的DSP实现8.2有限冲击响应滤波器的特点和结构P97 8.2.1有限冲击响应滤波器的特点和结构8.2.2MATLAB设计8.2.3DSP实现P988.3无线冲击响应滤波器(IIR)的实现8.3.1无线冲击响应滤波器的结构8.3.2无线冲击响应滤波器的MATLAB设计P998.3.3DSP实现8.4快速傅里叶变换（FFT）P1018.4.1快速傅里叶变换（FFT）算法8.4.2DSP实现8.5语音信号编码解码（G.711）P1038.5.1语音信号编码解码原理1.G.711语音编码标准2.PCM编码3.A律压扩标准8.5.语音信号编码解码的DSP实现P104 8.6数字图像的锐化8.7Viterbi译码P106 CCS集成开发环境p115-P123 S集成开发环境简介1.1CCS安装及设置（1）CCS2.0系统的安装（2）系统配置（3）系统启动1.2CCS的窗口、菜单和工具条1）CCS的窗口2）CCS的菜单P1163）CCS的工具栏1.3CCS的工程管理1）典型工程文件记录的信息2）创建和管理工程1.4调试1.5通用扩展语音GEL p117S应用举例S仿真P1204.DSP/BIOS简介P123。

C6000 DSP软件开发环境CCS介绍

CCS－RTDX(1)
}
RTDX,即Real-time Data Exchange
} } }
提供了一种实时，连续的观测手段，不打断DSP运行不打断DSP运行的情况下，主机和DSP间传递数据回传到主机的数据可以在“OLE自动化客户”中显示

CCS－RTDX(2)

CCS小结
} } }
不仅仅是代码生成工具，对软件开发的各个阶段都有支持提供底层实时操作系统DSP/BIOS 提供RTDX新的实时调试手段，与CCS集成，不需要自己添加额外的用于调试的硬件 8Kbyte/s(XDS510)，2Mbyte/s（XDS560）
}
包括Host方和Target方
} }
Target方编程接口 RTDX target API Host方编程接口 RTDX COM API（组件对象模型COM是 windows下一种编程技术）

CCS的文件与环境变量
} } }
.pjt .lib .obj .out .wks 可编辑文件：.c .asm .h .cmd (.sa) 三个环境变量：C6X_A_DIR，C6X_C_DIR， PATH
提供通常的RTOS的功能（任务调度，任务间通讯）提供驱动程序模型，层次化地设计应用程序 DSP/BIOS以CCS插件的形式提供一些实时分析工具
} } }
程序跟踪：观察任务的调度、切换性能监视：观察CPU的负载
}
状态统计：对事件做统计提供RTDX（实时数据交换），不打断DSP运行的情况下实现主机和DSP的数据交换
C6000 DSP软件开发环境 --CCS介绍
田黎育

内容安排
} 1、DSP软件开发环境发展历史 } 2、CCS中代码开发流程 } 3、RTDX(实时数据交换技术) }4

非流水与流水

…
PG
PS
PW
PR
DP
DC
E1
…
C62/C64总流水线节拍
E2-E6结果延迟节拍 C67,E1~E10
取指包
取指包
代码通过流水线过程举例
点积代码
程序取指开始
程序取指结束
指令分配
指令译码
执行（E1）
MVK完成，LD→E1
指令类型和延迟间隙（delay slots）
类型 ISC IMPY LD B 描述单周期指令乘法指令取指令跳转指令延迟间隙 0 1 4 5
C6000 流水线
田黎育
非流水与流水的CPU
流水线基本级描述
程序取指（PF-级）
程序取指（PF）分为4个节拍： PG：程序地址产生 PS：程序地址发送 PW：程序访问等待 PR：程序接收
译码（D—级）

译码分成2个节拍： DP：确定指令到功能单元路线（指令分配） DC：指令在功能单元译码
C6000指令类型和执行周期
E2 写A3
MPY .M1 A1,A2,A3
M1a M1b
下一个乘法指令
M1a M1b
取数据指令(LD): Why “Nop 4”?

虽然取指令只需一个周期执行操作（E1），但结果延迟4个周期
跳转指令 B: Why “NOP 5”?
B E1 E2 E3 E4 NOP 5
目的地址的指令
E5
E6
C64: .M单元的非乘法指令 1个延迟间隙 .M单元的扩展乘法指令 3个延迟间隙

第二个LD进入E1
MPY到达E1
ADD到达E1
MPY /ADD指令完成
使ADD延迟执行

DSP理论和实践能力培训-经典

一、DSP入门培训第一章DSP芯片基本结构与特点1 DSP简介1.1 什么是DSP？1.2 为什么要使用DSP？1.3 DSP芯片的发展简史2 DSP芯片的基本结构2.1 DSP的结构特征2.2 DSP与MCU、PC的区别3 TMS320系列DSP产品介绍3.1 C2000系列3.2 C5000系列3.3 C6000系列4 DSP的学习建议第二章DSP2407引脚与内部结构1、DSP2407引脚与内部结构2、TI公司的DSP命名规则3、DSP2407内部包含哪些成分？4、CPU结构5、存储器及存储空间配置第三章DSP最小系统介绍3.1DSP最小系统电源结构与要求3.2晶体振荡器电路3.3JTAG接口3.4片外存储器扩展3.5最小系统其他引脚处理与说明3.6最小系统摸板第一章DSP芯片基本结构与特点1、DSP简介1.1 什么是DSP？从20世纪60年代数字信号处理理论的崛起,到20世纪80年代数字信号处理器的产生,DSP 芯片和技术飞速发展.如今已广泛应用在社会各领域,如汽车,数码相机,MP3和手机都是日常生活中DSP的典型应用.1.2 为什么要使用DSP？传统的信号处理是用电阻、电容、电感、二极管、三极管等分立元件完成的,在模拟电路中不能完全消除误差;而在数字信号处理器中,我们用逻辑电平1、0来表示电路中电压的状态,实时运行和存储数据不存在误差,且工作稳定,可靠。

1.3 DSP芯片的发展简史⑴C2000系列芯片的发展简史在C2000系列中,TI公司最早推出的是16位定点产品,其中TMS320F240是1996年推出的C/F24x系列中第一款带有Flash的DSP.运算速度高达20MIPS.之后TI公司先后推出主频为30MHz的LF/LC240x系列和主频为40MHz的LF/LC240xA系列.★其中C/F24x系列和LF/LC240x系列这2个子系列合称为C24xx系列.在C24xx系列的基础上,推出了F/C281x系列.⑵C2000 DSP的分类比较相同系列中的所有芯片,都有相同的CPU结构,区别在于片内存储器容量大小和片内外设种类的多少不同. C24xx系列中,LF2407A片内存储器容量最大,片内外设最多.⑶F/C281x系列功能简介TMS320X281x是TI公司推出的C2000系列中新一代32位定点数字信号处理芯片.该系列芯片每秒可以执行1.5亿次指令(150MIPS),与TMS320F24x/LF240x的源代码和部分功能相兼容,进一步扩大了TMS320C2000的应用范围.⑷F/C281x与C240x内核的比较F/C281x系列的DSP内核称之为C28x,与此对应,C240x系列的DSP内核称之为C2Xlp. C28x 兼容了C2Xlp.当AMODE=1时, C28x与C2Xlp工作方式完全一样,只不过寻址范围从16位增加到了32位;当AMODE=0时, C28x工作在崭新的模式下.C28x与C2Xlp的主要区别2、DSP芯片的基本结构2.1 DSP的结构特征1) 专用硬件乘法器在通用微处理器件中,乘法是由软件实现的.它实际上是由时钟控制的一连串的<移位-加法>操作,乘法操作需要100个左右的时钟周期.而用DSP来处理,可以使乘法运算在一个单指令周期内完成.2) 采用总线哈拂结构传统的微处理器采用的是冯诺依曼结构:统一的程序和数据空间,共享的程序和数据总线.而DSP采用的总线哈拂结构,可在一个时钟周期内同时读取程序和存取操作,速度大为提高.3)流水线在CPU内,每条指令的执行分为取指,解码和执行3个阶段.流水线处理使得若干条指令的不同执行阶段并行执行,从而提高程序的执行速度.2.2 DSP与MCU、PC的区别MCU的速度较慢；CPU体积较大，功耗较高。

DSP 图像处理算法的实现-III要点

本科毕业论文(科研训练、毕业设计)题目：DSP 图像处理算法的实现-III姓名：翁彬彬学院：信息技术与科学学院系：电子工程系专业：电子信息工程专业年级：2004学号：04140059指导教师（校内）：杨涛职称：教授指导教师（校外）：职称：2008 年 5 月20 日1摘要本文研究的是基于TI 公司DSP 硬件平台的数字图像处理技术。

考虑到可移植性，采用C 语言编写代码。

采用空域法设计图像处理的算法，所涉及运算包括卷积，相关，中值滤波等。

由于图像处理要处理大量的数据，需用DSP 处理器来提高效率。

TMS320C6000 系列DSP 是TI 公司最新推出的一种并行处理的数字信号处理器，其特有的代码优化器也使得C 优化更加方便。

我们根据TMS320C6000 系列的结构特点，对C 代码进行一系列优化，例如：选用适当的编译器选项，内联函数的使用，字处理技术，打开循环，流水线技术，线性汇编等一系列方法对C 代码进行优化，从而极大地提高了数字图像处理的工作效率。

关键字数字图像处理TMS320C6000 系列DSP C 语言优化Abstract: In this thesis, based on the DSP hardware platform of TI Co., the algorithms of digital image processing were studied. C language was used to program these algorithms for the purpose of maximizing the portability of program modules. These algorithms, which include convolutions, correlations and medium filters, were designed based on spatial patterns. To make real-time image processing possible, DSP processors are used to process the massive data in images. The TMS320C6000 DSPs from TI Co. are parallel digital image processors, of which the C-complier makes the compilation and optimization of C-codes seamless and highly efficient. The C-code optimization was highly improved based on the unique designing features of TMS320C6000 series, such as proper choices of compiling options, the utility of intrinsics, the word processing technology, loop opening, pipeline technologies, linear assembly and etc.Keywords: Digital image processing technology TMS320C6000 C code optimization2目录：引言 (4)第一章数字图像处理的基本知识 (4)1.1 数字图像处理简述 (4)1.2 几种处理算法 (4)第二章TMS320C6000DSP芯片的特点 (6)2.1 数字信号处理器的特点………………………………………… ..62.2 TMS320C6000 的硬件结构简介 (7)2.3 TMS320C6000 指令系统................................................10.第三章基于TMS320C6000DSP系列的代码优化 (11)3.1 第一个阶段代码优化 (11)3.2 第二个阶段代码优化 (13)3.3 第三个阶段代码优化 (17)第四章对所编C代码进行优化处理 (20)4.1 小循环的打开 (20)4.2 较大循环的打开 (21)结论 (22)致谢语 (24)参考文献 (24)3随着计算机技术的发展，数字图像处理技术以其广阔的应用领域，受到人们越来越多的关注，本次实验是以DSP 为平台，对数字图像处理系统进行仿真。

第4章 TMS320C6000系列流水线与中断-434-中断控制系统

复习：C6000流水线运行的几个问题
1. 在一个取指包中有多个执行包的流水线操作
复习：C6000流水线运行的几个问题
流水线冲突例子
复习：C6000流水线运行的几个问题
不同周期NOP指令与其他指令并行的执行操作
复习：C6000流水线运行的几个问题
访问存储器对流水线运行的影响 C6000数据读取和程序读取在流水线中有相同的操作，它们使用不同的节拍完成操作。阻塞：?
4 .3.4 中断控制寄存器
4 .3.4 中断控制寄存器控制寄存器
.S2
控制寄存器组
· 访问控制寄存器使用：MVC指令 · MVC指令仅使用.S2功能单元
4 .3.4 中断控制寄存器
1、控制状态寄存器(CSR） CSR中有2位用于控制中断:GIE和PGIE
l CSR的bit0，控制GIE的值可以使能或禁止所有的可屏蔽中断。
存器(IER)控制。IER的格式如图所示。通过IER中相应个别中断位的置1或者清0可以使能或禁止个别中断。
31
16
Reserved
15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
IE15 IE14 IE13 IE12 IE11 IE10 IE9 IE8 IE7 IE6 IE5 IE4 rsv rsv nmie 1
4.3.2 中断服务表
中断服务取指包(ISFP) ISFP (Interrupt Service Fetch Packet)是用于服务中断的取指包。当中断服务程序很小时，可以把它放在一个单独的取指包(FP)内。
4.3.2 中断服务表
4.3.2 中断服务表
3.2中断服务表指针寄存器(ISTP) 中断服务表指针寄存器ISTP ( Interrupt Service Table Pointer)用于确定中断服务程序在中断服务表中的地址。ISTP中的字段ISTB确定IST的地址的基值，另一字段HPEINT确定当前响应的中断，并给出这一特定中断取指包在IST中的位置。

2_C6000 流水线

总周期数： 16*40=640+2=642
优化后 642 周期——3410ns（200MHz）
30 周期——150ns（200MHz）
远见品质
一个综合的例子
B2
远见品质
记住：

B： 5个延迟间隙 LD： 4个延迟间隙 MPY： 1个延迟间隙
C64:
.M单元的非乘法指令 1个延迟间隙 .M单元的扩展乘法指令 3个延迟间隙
C6000 流水线
远见品质
非流水与流水的CPU
远见品质
流水线基本级描述
远见品质
程序取指（PF-级）
程序取指（PF）分为4个节拍： PG：程序地址产生 PS：程序地址发送 PW：程序访问等待 PR：程序接收
远见品质
译码（D—级）
Байду номын сангаас
译码分成2个节拍：
DP：确定指令到功能单元路线（指令分配） DC：指令在功能单元译码
MVK完成，LD→E1
远见品质
指令类型和延迟间隙（delay slots）
类型 ISC IMPY LD B 描述单周期指令乘法指令取指令跳转指令延迟间隙 0 1 4 5
远见品质
第二个LD进入E1
远见品质
MPY到达E1
远见品质
ADD到达E1
远见品质
MPY /ADD指令完成
远见品质
使ADD延迟执行
远见品质
ADD进入E1
远见品质
NOP与延迟间隙
类型 ISC IMPY LD B
描述单周期指令乘法指令取指令跳转指令
延迟间隙 0 1 4 5
NOP 数 0 1 4 5
远见品质
添加NOP

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一个 LD 第二个 LD MPY ADD/ SUB B 1 5 2 2 6
总周期数： 16*40=640+2=642周期 642*5ns = 3410ns（200MHz）
串行代码五、串行、部分并行和完全并行代码通过流水线的过程举例
6
串行执行
部分并行代码
部分并行执行
部分并行执行（第一执行包进入DC）
1
程序取指（PF-级）
程序取指（PF）分为4个节拍： PG：程序地址产生 PS：程序地址发送 PW：程序访问等待 PR：程序接收
译码（D—级）
• 译码分成2个节拍： DP：确定指令到功能单元路线（指令分配） DC：指令在功能单元译码
C62xx指令类型和执行周期
C62xx所有指令仅需要1个周期执行，但有些指令的结果被延迟。
类型 ISC IMPY LD B 描述单周期指令乘法指令取指令跳转指令数目 34 6 1 4 延迟 0 1 4 5
执行（E—级）
执行节拍 E1 E2 E3 E4 E5 E6 数据读入寄存器跳转发生描述完成单周期指令完成乘法指令
取指令（LD）执行节拍
• 虽然取指令只需一个周期执行操作（E1），但结果延迟4个周期
4
第二个LD进入E1
MPY到达E1
ADD到达E1
MPY /ADD指令完成
使ADD延迟执行
ADD进入E1
5
NOP与延迟间隙
类型 ISC IMPY LD B 描述单周期指令乘法指令取指令跳转指令延迟间隙 0 1 4 5 NOP 数 0 1 4 5
添加NOP
使用多周期NOP
内核循环：
代码性能
9
数据存储器的同BANK访问冲突
总结
• C67xx流水线操作 • 取指包、执行包、延迟间隙 • 串行、部分并行和完全并行代码通过流水线
10
部分并行执行（第一执行包进入E1）
部分并行执行（第二执行包进入E1）
7
完全并行代码
完全并行执行
完全并行执行
记住：
• B：5个延迟间隙
• LD：4个延迟间隙 • MPY：1个延迟间隙
8
流水线充满情况
1FP-nEP对流水线的影响
多周期空操作对流水线的影响
访问存储器对流水线的影响
程序PW和数据E3节拍延迟
C62xx总流水线节拍
E2-E6结果延迟节拍
2
取指包
三、取指包
C62xx系统方框图
• 256-bit片内程序数据总线
四、代码通过流水线过程举例
点积代码
程序取指开始
3

程序取指结束
指令分配
指令译码
执行（E1）
MVK完成，LD→E1
指令类型和延迟间隙（delay slots）
类型 ISC IMPY LD B 描述单周期指令乘法指令取指令跳转指令数目 34 6 1 4 延迟间隙 0 1 4 5
主要内容
第三讲流水线介绍
一、为什么使用流水线？二、C6xxx流水线各级介绍三、取指包四、代码通过流水线的过程举例五、串行、部分并行和完全并行代码通过流水线的过程举例六、流水线的影响
非流水与流水的CPU
一、为什么使用流水线？
流水线基本级描述二、C62xx流水线各级介绍
流水线级程序取指(PF) 译码(D) 执行(E) 描述产生程序取指地址读操作码确定操作码到功能单元路线指令译码执行指令