当前位置:文档之家› 深度学习卷积神经网络VLIW加速器设计与实现

深度学习卷积神经网络VLIW加速器设计与实现

目录

第一章引言 (1)

1.1 研究背景 (1)

1.2 文献综述 (1)

1.3 问题的提出 (2)

第二章卷积神经网络核心算法及优化实现 (3)

2.1 卷积神经网络核心算法 (3)

2.1.1 基本神经元模型 (3)

2.1.2 多层神经网络模型 (4)

2.1.3 权值更新与反向传播算法 (5)

2.1.4 卷积特征提取 (5)

2.1.5 LeNet-5网络模型 (5)

2.2 卷积神经网络算法应用与优化 (6)

2.2.1 层合并算法 (6)

2.2.2 公路限速牌识别 (8)

2.2.3 车尾识别数据库搜集与网络 (9)

2.2.4 人脸识别与稀疏连接网络 (10)

第三章卷积神经网络硬件加速器算法优化 (12)

3.1 深度神经网络的并行化案例分析 (12)

3.1.1 Caffe深度学习框架 (12)

3.1.2 Torch深度学习框架 (13)

3.2 软件加速向硬件加速的转变 (14)

3.3 硬件优化的两个重点目标 (14)

3.4 卷积神经网络testing过程并行化分析 (15)

3.4.1 单维并行化分析 (15)

3.4.2 并行化运算单元(PE)结构 (17)

3.4.3 并行化方式的评估 (18)

3.5 存储模式的优化选择 (20)

3.5.1 CACTI能耗评估 (20)

3.5.2 两种存储模式的提出 (21)

3.5.3 有/无片上中间结果存储器对片外DRAM访问量影响 (22)

3.5.4 片上输入存储器与中间结果存储器的设置 (23)

第四章硬件加速器的架构设计 (26)

4.1 并行架构的选择 (26)

4.2 硬件加速器的主要结构 (26)

4.3 硬件加速器的控制方式 (28)

4.3.1 指令集设置 (28)

4.3.2 伪指令例程 (30)

4.3.3 地址产生器与循环控制器 (34)

4.3.4 汇编器实现 (36)

第五章硬件加速器的实现与结果比较 (37)

5.1 CNN加速器FPGA验证 (37)

5.1.1 Xilinx ZYNQ平台的介绍与选择 (37)

5.1.2 SoC验证系统架构 (38)

5.1.3 SoC系统上的CNN计算流程 (39)

5.2 CNN加速器ASIC实现 (42)

5.3 加速器ASIC性能指标 (43)

5.4 加速器性能比较 (43)

5.4.1 吞吐量对比 (44)

5.4.2 存储访问对比 (45)

第六章总结与展望 (47)

参考文献 (48)

攻读学位期间本人公开发表的论文 (51)

深度学习卷积神经网络VLIW加速器设计与实现第一章引言

第一章引言

1.1研究背景

最近几年内,AI(人工智能)技术展现了其在多领域方面的独特优势,比如大数据处理,智能医疗,安防,ADAS[18](先进辅助驾驶系统)等。在发达国家,人工智能已经成为了优先发展目标。其中,最为突出的是最近在Deep Learning(深度学习)领域的进展,由百度,谷歌,微软,Facebook此类的高端互联网公司研究实践表明了深度学习能够在图像感知方面达到甚至超过人类的水平。

在深度学习网络的实现中,一个最主要的挑战在于大量的运算会消耗过多的能源与硬件资源。因此,深度学习专用SoC片上系统的研究将会成为未来顶级科技公司与学术界研究的热点。比如说,在未来大数据处理集群中,一台装有深度学习专用处理器加速卡的服务器能够完成50-100台普通服务器的负载工作量。因此,深度神经网络专用硬件加速器将是未来人工智能的关键。

1.2文献综述

在深度学习算法领域,卷积神经网络(Convolutional Neural Networks, CNN)的提出是一个重要的里程碑,经过10多年的参数经验积累,5年的高速发展,CNN已经被大量的论文证实在图像分类领域拥有较好的准确率。

神经网络的概念事实上和计算机诞生在同一个年代,1968年,Hubel和Wiesel[1]发现动物视觉皮层包含复杂排列的神经元,负责识别小范围、重叠视野的光线,据此提出了感受野的概念,为卷积神经网络的发展奠定了基础。1980年,Fukushima基于感受野提出的神经认知机[2]可以看做是卷积神经网络的第一次实现。

1989年,Ye LeCun[3]提出了一个4层(2个卷积层,2个全连接层)的卷积神经网络来识别手写数字,1998年,Ye LeCun在[3]的基础上提出了LeNet-5[10],将准确性提高到了商用水平,超过了99%, 20世纪90年代末,美国超过10%的支票阅读使用了

该卷积神经网络[11]。

1

相关主题
文本预览
相关文档 最新文档