当前位置:文档之家› 基于改进的深度神经网络的人体动作识别模型

基于改进的深度神经网络的人体动作识别模型

基于改进的深度神经网络的人体动作识别模型
基于改进的深度神经网络的人体动作识别模型

————————————————————————————————————————————————基于改进的深度神经网络的人体动作识别模型

作者何冰倩,魏维,张斌,高联欣,宋岩贝

机构成都信息工程大学计算机学院

DOI 10.3969/j.issn.1001-3695.2018.06.0361

基金项目四川省教育厅重点科研项目(17ZA0064)

预排期卷《计算机应用研究》2019年第36卷第11期

摘要针对现有人体动作识别方法需输入固定长度的视频段、未充分利用时空信息等问题,提出一种基于时空金字塔和注意力机制相结合的深度神经网络模型,将包含时空金字塔的3D-CNN

和添加时空注意力机制的LSTM模型相结合,实现了对视频段的多尺度处理和对动作的复杂

时空信息的充分利用。以RGB图像和光流场作为空域和时域的输入,以融合金字塔池化层的

运动和外观特征后的融合特征作为融合域的输入,最后采用决策融合策略获得最终动作识别

结果。在UCF101和HMDB51数据集上进行实验,分别取得了94.2%和70.5%的识别准确率。

实验结果表明,改进的网络模型在基于视频的人体动作识别任务上获得了较高的识别准确

率。

关键词动作识别;深度学习;时空金字塔;注意力机制;卷积神经网络

作者简介何冰倩(1994-),女,四川阆中人,硕士研究生,主要研究方向为图形图像处理(dandelionqian@https://www.doczj.com/doc/d2657122.html,);魏维(1976-),男,教授,博士,主要研究方向为图形图

像处理;张斌(1992-),男,硕士研究生,主要研究方向为图形图像处理;高联欣(1994-),

男,硕士研究生,主要研究方向为图形图像处理;宋岩贝(1994-),男,硕士研究生,主要

研究方向为图形图像处理.

中图分类号TP391.41

访问地址https://www.doczj.com/doc/d2657122.html,/article/02-2019-11-082.html

投稿日期2018年6月21日

修回日期2018年8月22日

基于改进的深度神经网络的人体动作识别模型————————————————————————————————————————————————发布日期2018年9月12日

引用格式何冰倩, 魏维, 张斌, 高联欣, 宋岩贝. 基于改进的深度神经网络的人体动作识别模型[J/OL].

2019, 36(11). [2018-09-12]. https://www.doczj.com/doc/d2657122.html,/article/02-2019-11-082.html.

第36卷第11期 计算机应用研究

V ol. 36 No. 11 优先出版

Application Research of Computers

Online Publication

——————————

收稿日期:2018-06-21;修回日期:2018-08-22 基金项目:四川省教育厅重点科研项目(17ZA0064)

作者简介:何冰倩(1994-),女,四川阆中人,硕士研究生,主要研究方向为图形图像处理(dandelionqian@https://www.doczj.com/doc/d2657122.html, );魏维(1976-),男,教授,博士,主要研究方向为图形图像处理;张斌(1992-),男,硕士研究生,主要研究方向为图形图像处理;高联欣(1994-),男,硕士研究生,主要研究方向为图形图像处理;宋岩贝(1994-),男,硕士研究生,主要研究方向为图形图像处理.

基于改进的深度神经网络的人体动作识别模型 *

何冰倩,魏 维,张 斌,高联欣,宋岩贝

(成都信息工程大学 计算机学院, 成都 610225)

摘 要:针对现有人体动作识别方法需输入固定长度的视频段、未充分利用时空信息等问题,提出一种基于时空金字塔和注意力机制相结合的深度神经网络模型,将包含时空金字塔的3D-CNN 和添加时空注意力机制的LSTM 模型相结合,实现了对视频段的多尺度处理和对动作的复杂时空信息的充分利用。以RGB 图像和光流场作为空域和时域的输入,以融合金字塔池化层的运动和外观特征后的融合特征作为融合域的输入,最后采用决策融合策略获得最终动作识别结果。在UCF101和HMDB51数据集上进行实验,分别取得了94.2%和70.5%的识别准确率。实验结果表明,改进的网络模型在基于视频的人体动作识别任务上获得了较高的识别准确率。 关键词:动作识别;深度学习;时空金字塔;注意力机制;卷积神经网络 中图分类号:TP391.41 doi: 10.3969/j.issn.1001-3695.2018.06.0361

Improved deep convolutional neural network for human action recognition

He Bingqian, Wei Wei, Zhang Bin, Gao Lianxin, Song Yanbei

(College of Computer Science & Technology , Chengdu University of Information Technology , Chengdu 610225, China ) Abstract: Aiming at the problem that the existing human motion recognition method needs to input a fixed length video segment and underutilize the spatiotemporal information, this paper proposed a deep neural network model based on the combination of space-time pyramid and attention mechanism. This improved architecture combined 3D-CNN including spatiotemporal pyramids with LSTM model with spatio-temporal attention mechanism, and realized multi-scale processing of video segments and full utilization of complex spatio-temporal information of actions. For the architecture, the inputs of spatial and temporal domain were RGB image and the optical flow, the input of the fusion domain was the fusion feature of the motion and appearance features of the pyramid pooling layer. Finally, the final motion recognition result was obtained through the decision fusion strategy. Experiments were performed on the UCF101 and HMDB51 datasets, achieving 94.2% and 70.5% recognition accuracy, respectively. The experimental results show that the improved network model achieves high recognition accuracy in video-based human motion recognition tasks.

Key words: action recognition; deep learning; spatiotemporal pyramid; attention module; convolutional neural network

0 引言

人体行为识别在机器人交互、虚拟现实、家庭和公共安全

等领域的广泛应用,使其正逐渐成为计算机视觉最活跃的研究领域之一。目前的识别算法和模型可以大概地分为两类,一类是基于传统手选特征的识别算法[1~5],一类是基于深度学习的识别算法和模型[6~13]。其中,基于深度学习的方法在各类具有挑战性的视频数据集上展现出了优于传统方法的较大优势。尽管如此,如何准确地区分不同类别的行为动作仍然存在巨大的挑战性。比如光照或遮挡等视频环境因素、动作类别的类间和类内差异、视频数据集较少,这些问题都对鲁棒特征提取和动作

分类构成了巨大挑战。

为了突破卷积神经网络只应用于二维图像这一局限并且能够有效地将视频分析中的运动信息结合起来,文献[14]提出在CNN 卷积层中执行三维卷积,从而捕获空间和时间维度的区分性特征,但是该模型仍然不能充分利用视频的时空特征。文献[6]为了更好地利用视频数据中的时间信息,提出了结合空间域和时间域的双流卷积网络(two-stream convolutional networks ),两个卷积网络分别以视频数据的RGB 图像和视频帧的光流作为输入,然后提取动作表示的视频帧的时间和空间特征,最后通过融合分类识别,该模型在一定程度上利用了视频序列的时空特征,但是由于只关注了当前步骤的卷积映射,可能不足以

捕获不同类别动作的复杂时空线索[13]。目前基于CNN的识别模型都仅仅是捕获了短时间规模的时空特征,无法表示长时间的变化。经过一些文献[9,10,15,16]的实验证明,循环神经网络(recurrent neural networks, RNN)能在一定程度上解决这个问题,尤其是对视频序列能够较好有效建模的长时短期记忆模型(long short-term memory,LSTM)[17]。但是,在这些模型中,LSTM的输入是直接从CNN的全连接层中提取的高级特征,而这些特征缺乏时空特征细节。

针对上述问题,本文在时空双流卷积网络识别模型的基础上,提出了一种结合了时空金字塔和注意力机制的深度神经网络模型(deep neural network combining spatial-temporal pyramid and attention mechanism,STPP and attention-mechanism network)。本文模型首先将视频序列的RGB图像和视频帧的光流分别通过3D卷积神经网络获取时空卷积特征映射,然后利用时空金字塔池化(spatial temporal pyramid pooling,STPP)来聚合局部时空信息形成固定长度的特征向量,再通过时空特征融合策略在STPP层对时空特征进行有效融合,最后将时空3D双流网络提取到的时空特征和融合后的特征分别输入到具有时空注意力机制的LSTM模型和普通LSTM模型中进行建模,对模型分类结果进行融合从而获得最终的人体动作分类结果。本文在数据集UCF101和HMDB51上进行人体动作识别实验,实验结果表明本文提出的基于结合时空金字塔和注意力机制的深度神经网络模型能够有效识别视频中的人体动作。

1 相关工作

深度学习在计算机视觉的图像识别领域取得的好成绩使得深度学习的方法,尤其是卷积神经网络,在计算机视觉领域得到了广泛的研究和应用。相对于静态图像而言,视频序列不仅具有外观信息还具有运动信息[18],因此,最近的一些研究开始尝试设计能够有效利用视频序列外观和运动信息的基于卷积神经网络的动作识别模型。文献[19]研究比较了多种CNN的连接方式中的三种广泛使用的方法,即后期融合、早期融合和慢速融合。实验结果说明这些方法都不能充分利用运动信息,只能对单个框架进行适度的改进。文献[20]在UCF101和sports-1M 上训练了更深的CNN模型,称为C3D网络模型。该模型近似于一个3D版本的VGGnet模型[7],包含了一个3D卷积滤波器和一个同时对时间域和空间域进行操作的3D池化层。文献[6]提出的双流卷积神经网络,通过对视频帧的光流训练第二个CNN流,一定程度上弥补了叠加的RGB流不能充分利用时间信息的缺陷,为动作识别方法带来了一定的性能增益。该模型也被广泛用于许多其他动作识别方法[8,9,21,22]。

但原始的双流卷积神经网络模型有两个主要问题:a)该模型由于只包含10个连续的光流帧而不能捕获长期的时间信息;

b)该模型是对空间域和时间域分别进行训练,最终预测是根据两个分类器的输出平均而得到的,因此不能有效地学习时间流和空间流之间的时空关系。对于这些问题,文献[10]提出了一种基于LSTM的动作识别分类方法,以此来融合更长期的视频序列中的特征。文献[23]提出了通过具有稀疏采样的分段网络架构来模拟长期时间结构。文献[24]通过研究在时间和空间上组合网络的多种方式,提出了一种时空融合方法,并且认为双流网络应该在最后的卷积层进行融合。尽管上述文献的方法或模型对原始双流卷积神经网络存在的问题进行了一定的改善,但是仍然存在丢失重要的时空线索的问题,使得模型不能获取充分的人体动作的时空关系,以及不能对任意长度的视频段进行特征提取的问题,大都需要对视频段进行手动的预处理。

基于对上述问题的考虑,本文在文献[24]的基础上,提出了一种基于结合时空金字塔和注意力机制的深度神经网络的人体动作识别模型。对于需要直接处理任意长度的视频段的任务,本文对原C3D网络进行简单改进,在最后一个卷积层后加入时空金字塔池化,使得模型能够生成固定长度的特征向量。同时由于时空金字塔是从多角度对特征映射进行处理,使得模型能够得到更深层的特征表示,从而提高识别精度。对于捕捉人体动作之间复杂的时空线索的任务,本文设计了添加时空注意力机制的LSTM模型,该模型不仅能捕获长期的时间信息,还能通过时空注意力机制捕获人体动作的复杂时空线索。本文还在在模型中添加了时空特征融合模块,使得模型尽量不丢失重要的动作特征。

2 结合时空金字塔和注意力机制的深度神经网络人

体动作识别模型设计

2.1 整体框架

本文提出的网络框架图如图1所示。该模型主要包含三个模块:结合时空金字塔池化的时空双流三维卷积神经网络;空间与时间域的特征融合;包含时空注意力机制的长期短时记忆模型。

对于第一个模块,本文采用文献[6]的时空双流模型和文献[20]中的C3D网络结构,并对其进行改进然后形成本文模型中的时空双流三维卷积神经网络模块。时间流和空间流深度卷积神经网络网络都由5组卷积层、4个最大池化、1个时空金字塔池化和2个全连接层组成,即将原来C3D网络的最后一个最大池化层改为时空金字塔池化。时空金字塔池化不仅能解决输入尺寸不一的情况,还能通过不同角度的特征提取方法提取出更深的特征,从而提高识别精度。具体来说,从1到5的5组卷积层的过滤器数目分别是64、128、256、512、512,2个全连接层是4096个单元。根据文献[19]对卷积层的不同深度的内核实验研究结果,3x3x3的核尺寸大小是对所有卷积层来说最佳的选择,因此,在此模块中,所有卷积层均采用3x3x3的内核大小,步长为1x1x1。对于最大池化层,除了第一个最大池化的核大小是2x2x1,其余3个最大池化层的核大小为2x2x2。第一个模块直接连接到第三个模块。第二个模块主要是对时空双流提取到的特征进行融合,然后连接到第三个模块中不包含时空注意力机制的LSTM模型。该模块在第一模块的STPP层进

行。第三个模块是添加了注意力机制的LSTM 模型。LSTM 模型本身作为循环神经网络,能够通过保存时间序列信息来捕获长期的时空依赖关系,还能有效避免梯度消失现象,而该模块较于原始的LSTM 模型还能够捕获更复杂的时空线索,从而提高识别准确率。总体而言,本文的网络框架包含了特征级的数据融合和决策级的融合,通过这两种层面的融合方法使得该网络模型对人体动作的识别更加准确。

本文模型在ImageNet 上进行预训练和微调后,将视频序列

的RGB 图像数据和视频帧的光流数据输入到该模型中,通过训练两个三维卷积神经网络来提取时间流和空间流特征,再利用时空金字塔来提取固定长度的特征向量,然后通过两个全连接层提取视频帧的深度特征。同时利用时空特征融合策略融合从STPP 层中提取到的人体动作深层特征,最后通过包含时空注意力机制的LSTM 模型对时空特征进行建模,进而获得分类结果。

图1 结合时空金字塔和注意力机制的深度神经网络的人体动作识别模型

2.2 时空金字塔池化

为了对任意大小长度的视频序列都能采用本文模型进行处理,本文利用时空金字塔池化(STPP )来生成固定长度的特征向量。同时,由于时空金字塔池化层能从不同角度对卷积得到的特征映射进行特征提取,能一定程度上为人体动作识别提高精度。

在该层中,可以输入任意大小和长度的视频序列。假定输入的RGB 和光流图片序列的大小为l h w ??,而最后一层卷积的特征映射大小为T H W ??,其中l 是长度(帧数),T 为池化立方体的时间大小,h 、H 和w 、W 是帧的高度和宽度。本文将对输入到STPP 的每个时空立方体的响应值和最大化操作集中到一起。不同于文献[20]中一般滑动窗口的池化操作,STPP 层的滑动窗口大小是在给定池化水平内动态调整的。简单来说,将

()t s P p p ,作为时空池化水平。那么,每个立方体大小为

t

s

s

W

T

H

p p p ??,其中,t p 是时间池化水平,s p 是空间池化

水平。由于每段视频序列的时间尺度比对应的空间尺度小,本文将t p 的值设为1。当4,2,1;1s t p p ==,每个输入的视频片段会生成固定长度的描述符,从而STPP 通过聚合局部时空信息形成固定长度的特征向量。 2.3 时空特征融合

对于基于视频的人体动作识别,提取的特征不仅是静态的视觉特征,还有动态的时间运动特征。合适且效果好的特征融

合方法能够利用两种特征的相关性来生成更多元的混合特征。因此,本文根据文献[24]的研究,提出了时空特征融合框架。

对于模型输入的第t 段视频序列,可以在第一模块的STPP 层得到两个STPP 特征,将其表示为a t x 和m t x ,其中,a t x 代表第t 段序列的RGB 特征,即外观特征;m t x 代表第t 段序列的光流特征,即运动特征。本文采用早期融合方法(元素串联)来融合上述两个STPP 特征,并生成一个新的融合特征f t x 。然后,将所得到的混合特征通过一个4096个单元的全连接层再链接到本文的第三模块,即利用长时短期记忆模型对融合特征进行建模以及分类。

2.4 包含时空注意力机制的LSTM 模型

在该模块中,本文设计了包含时空注意力机制的LSTM 模型(S-P attention-mechanism LSTM )来对前期获取的深层特征进行建模。LSTM 作为一种循环神经网络,能够通过保存时间序列信息来捕获长期的时空依赖关系,同时,不同于原始的RNN ,LSTM 在经过反向传播训练后不会出现梯度消失的情况。用于人体动作识别的视频序列往往包含很多时空线索,如果直接将第一模块的全连接层的特征输入到LSTM 中,模型将会不足以捕捉不同动作的复杂时空线索,因此,为了能够进一步捕捉到有用的特征,本文在基础的LSTM 模型中加入了时空注意力机制。

LSTM 的一个单元如图2所示,图示中*代表a 或者m 。本文将第一模块全连接层得到的高维特征描述为a t X 和m t X ,

分别

表示第t 段视频序列的外观和运动特征;将第二模块全连接层得到的融合特征描述为f t X 。*t X 作为 S-P Attention LSTM 模块的输入。

*t i 、*t f 、*t o 分别代表输入门、

遗忘门和输出门,*t g 、*t c 、*t h 、*t Y 分别代表记忆调制状态、内核状态(记忆状态)、隐藏状态和输出。对于融合特征f

t X ,本文将其输入到普通LSTM

中,其实现公式如下: ()1 f f f f f

f t f xi t hi t i i w X w h b σ-=++

(1) ()1 f f f f

f f t f xf t hf t f f w X w h b σ-=++

(2)

()1 f f f f f f t f xo t ho t o o w X w h b σ-=++

(3)

()1 f f f f

f f t x

g t hg t g g tan

h w X w h b -=++

(4) 1f f f f

f t t t t t c f c i

g -=+

(5)

()tanh f

f

f

t t

t

h o c =

(6)

其中,1

f

t h -表示前一个隐藏状态,*

f

x w 和*

f h w 分别是输入向量和隐藏状态的权重矩阵,*f b 代表偏差向量,()σ?和tanh()?分别表示激活函数中的sigmoid 函数和tanh 函数,表示哈达玛积,

即矩阵元素对应相乘。

图2 普通LSTM 模型的一个单元

2.5 LSTM 的时空注意力机制

LSTM 的时空注意力机制模型如图3所示,时空注意力机制同时作用于空间域和时间域。空间域的输入为a

t

X ,时间域的

输入为m t X ,为防止描述重复,将该模块的输入统一表示为*t X ,其中*代表a 或者m 。为了找到第t 段视频序列中具有重要描述意义的特征向量,本文对每个流先进行空间注意力运算,其计

算过程如下。

以LSTM 单元的前一个隐藏状态*1t h -为例,首先利用式(7)(8)来计算第t 段视频序列中第k 个特征向量对第n 个特征向量的空间注意力概率()*,t n k α: ()()()

*******1,tanh ,t h t X t n k A h A X n k b αααμ-=++ (7)

()()()

()()

**

*1

,,,t t t

L

t t

l exp w n k n k exp w n l αα

ααα==∑

(8)

其中:* α

μ、*

h A 、*X A 、t w α是空间注意力机制的权值矩阵,*b α是空间注意力机制的偏置向量,L 是第t 段视频序列中的帧数目,*t α是未规范化的注意力概率。然后,利用式(9)获取第n 个特征向量的空间特征向量:

()()()***1,,1,,L

t t t k L n n k X n k n T α===∑

(9)

在得到具有空间重要性的空间特征向量()*t L n 后,本文对其进行时间注意力计算,同空间注意力计算类似,先计算时间注意力概率()*t n β,计算公式如下:

()()()

*******1 t h t X t n tanh B h B L n b βββμ-=++ (10)

()()()

()()

***1 t t t

T

t t j exp w n n exp w j βββββ==∑ (11)

其中:*βμ、*h B 、*X B 、βt w 是时间注意力机制的权值矩阵,*

βb 是时间注意力机制的偏置向量,T 是第t 段视频序列的总特征向量数。()*t βn 反映了第n 个特征向量对第t 段视频序列的时间重要性。根据式(12)计算最后时空注意力捕捉到的重要的时空特征*Φt :

()()

*

**1ΦT

t

t t n n L n β==∑ (12)

由于此时得到的上下文特征*Φt

与当前步骤的预测是紧密相关的,本文将其作为LSTM 模型除了原本特征向量*t X 之外的额外输入,具体计算公式如下,

()

*********Φ1Φt Xi t i t hi t i i w X w w h b σ-=+++ (13)

()

********

*Φ1Φt Xf t f t hf t f f w X w w h b σ-=+++ (14)

()

*********Φ1Φt Xo t o t ho t o o w X w w h b σ-=+++ (15)

()

********

Φ1Φt Xg t g t hg t fg g tanh w X w w h b -=+++ (16) 1t t t t t c f c i g *****-=+

(17)

()tanh t t t h o c **

*=

(18)

其中:w 是LSTM 模型中的权值矩阵,b 是偏置向量,()σ?和tanh()?分别表示激活函数中的sigmoid 函数和tanh 函数,

示哈达玛积,即矩阵元素对应相乘。

图3 添加时空注意力机制的LSTM 模型

2.6 决策融合规则

决策融合是将多个基分类器的结果,按照一定的规则融合成一个全局的结果,消除决策本身或决策之间的信息缺陷,提升全局结果的可靠性和稳定性[25]。本文的网络结构包含三个部分 ,一部分是在卷积神经网络的STPP 层进行特征融合后的融合流,另两个部分是在将特征融合后仍然保留时间流和空间流之后的结构,并且加入注意力机制,形成两个以捕获复杂的时空线索对融合流的识别结果进行修正的分支。因此对于数据集的每一个分割数据集,网络结构最后都有三个基分类器的识别结果。对于这三个基分类器得到的分类结果,采用决策融合的方式得到最终的分类输出。

设()()X 1,2,,j C j N =为最终融合分类结果,则融合规则

可用公式表述如下,

()31,2,,1()arg max ln (|) j j i j j N

i C p X c X ω==??

=? ???

(19)

其中:i X 为第i 个基分类器的源特征,1,2,3i =,n((|))l i j p X c 为分类器选取每一类别(j c )分类时产生的可信度,1,2,

,j N =,j ω表示融合分类的权值,其值为每个基分类器

的分类精度,即单体分类精度。

于是,通过时域、空域和融合域的基分类器获得源分类结果,再利用式(19)对源分类结果进行融合,得到数据集的每一分割集的识别分类结果。

3 实验分析

3.1 数据集和评估指标

本文实验的数据集来源于两个公开的视频动作识别数据集:UCF101和HMDB51。UCF101包含13320个视频段,共101个动作类别,涵盖了较大范围的人体动作,比如化妆、打字、吹头发、骑马、跳高等。该数据集的大多数视频是在无约束的真实环境下拍摄的,因此视频存在像素低、受到如光照、遮挡等环境因素影响的问题。HMDB51包含6766个视频段,共51个动作类别。该数据集的视频大多来源于电影剪辑片段,像素较低,主要的动作类别有亲吻、拥抱、骑马和开枪等。

实验中,本文将两个数据集分割成三份,均对其进行训练和测试。其中,每份UCF101的视频序列有9500段,HMDB51有3700个视频段。由于本文网络模型有时间流、空间流和融合流三个部分,对于数据集的每一个分割集,本文对上述三个基分类器的结果进行线性加权融合得到分割集的最终动作识别准确率。线性加权融合的识别置信度权值为自适应动态权值,由测试集在基分类器的识别结果计算得出。在得到数据集的三个分割集的最终识别准确率后,对三个分割集的结果进行线性加权平均,从而得到该数据集的最终识别准确率。本文将数据集的最终识别准确率值作为人体动作识别模型的评估指标。 3.2 预训练

与图像数据集相比,人体动作识别的数据集相对较小,而对于较深的神经网络,数据集较小很容易使得网络陷入过拟合

现象,因此对本文模型进行预训练。对于输入为RGB 图像的空间域网络,直接采用图片数据库ImageNet [26]对其进行预训练。输入的训练图片为经过数据增强扩大后的训练集,然后对其进行随机位置裁剪,并将输入大小调整为224224?。对于输入为光流数据的时间流网络,采用从TL-V1[27] 中提取到的动作视频光流数据,为保证和RGB 数据同区间,再通过线性变换将光流数据离散到[]0,255的区间上。然后对预训练空间流网络的第一层的滤波器在通道中做平均运算,将平均后的数据复制20次后作为时间网络的初始化数值。 3.3 实验结果与分析

在Linux 系统搭建的TensorFlow 平台下进行实验。深度神经网络容易陷入过拟合现象,因此本文将模型中空间流和时间流dropout 层的丢失率分别设置为0.7和0.8。空间域初始的学习率设置为10-3,在迭代15000次后设置为10-4,在迭代30000次后停止训练。时间域初始的学习率设置为3310-?,在迭代第20000次后每20000次学习率缩小为原来的1/10,最大迭代次数为80000次。

通过本文模型的第一模块来分别提取视频序列的运动特征和外观特征。考虑到 STPP 层不同池化水平对动作识别任务有

不同的影响,于是设计不同池化水平的对比实验,该实验结果

来源于仅对第一模块的双流三维卷积神经网络进行训练及测试的动作识别准确率。本文考虑STPP两种池化水平:{}

221111

????

,和{}

441,221,111

??????,分别描述为STPP-1和STPP-2,然后在UCF101数据集第一分割视频序列(split1)上进行实验。由表1可知,当STPP池化水平为{}

441,221,111

??????时,动作识别准确率均优于STPP-1和最大池化,因此在后续实验中,STPP 的池化水平都设置为此标准。由表1还可以看出,相同网络结构下,时间域的识别率高与空间域的识别率,这说明运动信息比外观信息更能表达人体动作信息。

表1STPP层不同池化水平下的动作识别准确率比较

池化标准空间域(%)时间域(%)

Max pooling82.76%85.78%

STPP-182.18%87.26%

STPP-285.74%89.91%表2展示了在本文模型第三模块的LSTM模型中使用时空注意力机制与否的动作识别率结果,该识别率结果由两个数据集的三个分割集的识别率结果加权平均得到。由表2可以看出,在时间域和空间域上使用添加注意力机制的LSTM模型比不使用注意力机制的动作识别准确率高,该实验也证明添加时空注意力机制的LSTM模型对人体动作识别任务更有效。

表2LSTM模型使用注意力机制与否的动作识别准确率比较

注意力机制域UCF101 (%)HMDB51 (%)不使用

空间域89.73%67.95%

时间域91.02%68.13%使用

空间域92.52%68.16%

时间域93.57%70.52%结合时空金字塔和注意力机制的深度神经网络模型对人体动作识别任务的识别准确率如表3所示。对于数据集的每一个分割集的识别准确率,均是利用决策级融合的方式对上述模型中时间域、空间域和融合域的基分类器结果进行线性加权融合得到。再对三个分割集的结果线性加权平均得到相应数据集的最终动作识别准确率。

表3本文模型的人体动作识别准确率

分割数据集UCF101 (%)HMDB51 (%) Split193.95%69.16%

Split294.67%71.08%

Split394.13%70.86%

线性平均94.21%70.50%

将本文方法和近几年动作识别领域比较典型的深度学习方法或网络模型分别在UCF101和HMDB51这两个数据集上的识别准确率进行对比。这些方法分别是文献[6]提出的双流卷积网络模型(Two-stream convolutional network);文献[20]提出的C3D网络模型(3D Convolutional Networks),该模型训练了更深的CNN网络;文献[24]提出的时空融合网络,其网络结构是双流VGG模型;以及文献[28]在文献[24]基础上提出的多层金字塔融合模型。从表4可以看出,本文提出的方法相较于近几年的经典算法更能精确地识别视频序列中的人体动作。

表4不同方法在UCF101和HMDB51数据集上的动作识别准确率方法Year UCF101 (%)HMDB51 (%) Two-steam[6]201488.059.4

C3D[20]201585.2-Two-steam VGG[24]201692.565.4

SPN-VGG-16[28]201793.266.1本文方法94.270.5

4 结束语

目前基于深度学习的方法已经广泛应用到模式识别等各个领域的研究组中,对于人体动作识别任务,本文提出了改进后的结合时空金字塔和注意力机制的深度神经网络模型,构建了时空双流深度神经网络架构。将本文模型先在ImageNet上进行预训练和微调,然后应用到UCF101和HMDB51数据集上,通过融合时空网络与融合流最后分别取得了94.2%和70.5%的识别准确率。实验表明本文提出的改进深度学习模型对数据集中人体动作能够有效识别,但是对于将其应用到实际商业应用中还有一定的距离。因此,今后可以对环境因素影响较大或噪声较多的视频进行鲁棒性的算法研究。

参考文献:

[1]Mur O, Frigola M, Casals A. Modelling daily actions through hand-based

spatio-temporal features [C]// Proc of Imternational Conference on Advanced Robotics. Piscataway, NJ: IEEE Press, 2015: 478-483.

[2]Liu Fang, Xu Xiangmin, Qiu Shuoyang, et al. Simple to complex transfer

learning for action recognition [J]. IEEE Trans on Image Processing, 2016,

25 (2): 949-960.

[3]Uddin A, Joolee J B, Alam A, et al. Human action recognition using adaptive

local motion descriptor in Spark [J]. IEEE Access, 2017, 5: 21157-21167.

[4]黄晓晖, 董超俊. 一种基于深度图去噪与时空特征提取的动作识别方

法[J]. 现代工业经济和信息化, 2017, 2017 (5): 64-68. (Huang Xiaohui, Dong Chaojun. The depth map denoising and spatio-temporal feature extraction for human action recognition [J]. Modern Industrial Economy and Informationization, 2017, 2017 (5): 64-68. )

[5]张杰, 吴剑章, 汤嘉立, 等. 基于时空图像分割和交互区域检测的人体

动作识别方法[J]. 计算机应用研究, 2017, 34 (1): 302-305. (Zhang Jie, Wu Jiangzhang, Tang Jiali, et al. Human action recognition method based on spatio-temporal image segmentation and interactive area detection [J].

Application Research of Computers, 2017, 34 (1): 302-305. )

[6]Simonyan K, Zisserman A. Two-Stream convolutional networks for action

recognition in videos [J]. Advances in Neural Information Processing Systems, 2014, 1 (4): 568-576.

[7]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale

image recognition [EB/OL]. (2015-04-10) . https://arxiv. org/abs/1409. 1556.

[8]Chéron G, Laptev I, Schmid C. P-CNN: pose-based CNN features for action

recognition [C]// Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 3218-3226.

[9]Srivastava N, Mansimov E, Salakhutdinov R. Unsupervised learning of

video representations using LSTMs [C]// Proc of the 32nd International Conference on Machine Learning. [S. l. ] : International Machine Learning Society (IMLS) , 2015: 843-852.

[10]Krishnan K, Prabhu N, Babu R V. ARRNET: Action recognition through

recurrent neural networks [C]// Proc of International Conference on Signal Processing and Communications. 2016: 1-5.

[11]Wang Limin, Xiong Yuanjun, Wang Zhe, et al. Temporal segment networks:

Towards good practices for deep action recognition [C]// Proc of European Conference on Computer Vision. Berlin: Springer, 2016: 20-36.

[12]Kar A, Rai N, Sikka K, et al.AdaScan: adaptive scan pooling in deep

convolutional neural networks for human action recognition in videos [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.

Piscataway, NJ: IEEE Press, 2017: 5699-5708.

[13]Du Wenbin, Wang Yali, Qiao Yu. Recurrent spatial-temporal attention

network for action recognition in videos [J]. IEEE Trans on Image Processing, 2017, 27 (3): 1347-1360.

[14]Ji Shuiwang, Xu Wei, Yang Ming, et al. 3D convolutional neural networks

for human action recognition [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35 (1): 221-231.

[15]Veeriah V, Zhuang Naifan, Qi Guojun. Differential recurrent neural

networks for action recognition [C]// Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 4041-4049. [16]Ordó?ez F J, Roggen D. Deep convolutional and LSTM recurrent neural

networks for multimodal wearable activity recognition [J]. Sensors, 2016,

16 (1): 115-140.

[17]Hochreiter S, Schmidhuber J. Long short-term memory [J]. Neural

Computation, 1997, 9 (8): 1735-1780.

[18]陈胜娣, 魏维, 何冰倩, 等. 基于改进的深度卷积神经网络的人体动作

识别方法[J/OL]. 计算机应用研究, 2019, 36 (4) . (2018-02-09) [2018-08-23]. http://www. arocmag. com/article/02-2019-04-054. html. (Chen Shengdi, Wei Wei, He Bingqian, et al. Human action recognition base on improved deep convolutional neural networks [J]. Application Research of Computers, 2019, 36 (4) . (2018-02-09) [2018-08-23]. http://www. arocmag.

com/article/02-2019-04-054. html. )

[19]Karpathy A, Toderici G, Shetty S, et al. Large-scale video classification with

convolutional neural networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2014: 1725-1732.

[20]Du Tran, Bourdev L, Rob Fergus, et al. learning spatiotemporal features with

3D convolutional networks [C]// Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 4489-4497.

[21]Sun Lin, Jia Kui, Yeung D Y, et al.Human action recognition using

factorized spatio-Temporal convolutional networks [C]// Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 4597-4605.

[22]Liu Li, Shao Lin, Li Xuelong, et al.Learning spatio-temporal

representations for action recognition: a genetic programming approach [J].

IEEE Trans on Cybernetics, 2016, 46 (1): 158-170.

[23]Wang Miao, Sun Jifeng, Yu Jialin, et al. Human action recognition based on

feature level fusion and random projection [C]// Proc of the 5th International Conference on Computer Science and Network Technology. Piscataway, NJ: IEEE Press, 2016: 767-770.

[24]Feichtenhofer C, Pinz A, Zisserman A. Convolutional two-stream network

fusion for video action recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 1933-1941.

[25]张文宇. 基于证据理论的无线传感器网络决策融合算法研究[D]. 北

京: 北京交通大学, 2016. (Zhang Wenyu. Research on belif function based decision fusion for wireless sensor networks [D]. Beijing: Bejing Jiaotong University, 2016. )

[26]Deng Jia, Dong Wei, Socher R, et al. ImageNet: A large-scale hierarchical

image database [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2009: 248-255.

[27]Pérez J S. TV-L1 optical flow estimation [J]. Image Processing on Line,

2013, 2 (4): 137-150.

[28]Yu Yunbo, Long Mingsheng, Wang Jianmin, et al. Spatiotemporal pyramid

network for video action recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 2097-2106.

(完整版)深度神经网络及目标检测学习笔记(2)

深度神经网络及目标检测学习笔记 https://youtu.be/MPU2HistivI 上面是一段实时目标识别的演示,计算机在视频流上标注出物体的类别,包括人、汽车、自行车、狗、背包、领带、椅子等。 今天的计算机视觉技术已经可以在图片、视频中识别出大量类别的物体,甚至可以初步理解图片或者视频中的内容,在这方面,人工智能已经达到了3岁儿童的智力水平。这是一个很了不起的成就,毕竟人工智能用了几十年的时间,就走完了人类几十万年的进化之路,并且还在加速发展。 道路总是曲折的,也是有迹可循的。在尝试了其它方法之后,计算机视觉在仿生学里找到了正确的道路(至少目前看是正确的)。通过研究人类的视觉原理,计算机利用深度神经网络(Deep Neural Network,NN)实现了对图片的识别,包 括文字识别、物体分类、图像理解等。在这个过程中,神经元和神经网络模型、大数据技术的发展,以及处理器(尤其是GPU)强大的算力,给人工智能技术 的发展提供了很大的支持。 本文是一篇学习笔记,以深度优先的思路,记录了对深度学习(Deep Learning)的简单梳理,主要针对计算机视觉应用领域。 一、神经网络 1.1 神经元和神经网络 神经元是生物学概念,用数学描述就是:对多个输入进行加权求和,并经过激活函数进行非线性输出。 由多个神经元作为输入节点,则构成了简单的单层神经网络(感知器),可以进行线性分类。两层神经网络则可以完成复杂一些的工作,比如解决异或问题,而且具有非常好的非线性分类效果。而多层(两层以上)神经网络,就是所谓的深度神经网络。 神经网络的工作原理就是神经元的计算,一层一层的加权求和、激活,最终输出结果。深度神经网络中的参数太多(可达亿级),必须靠大量数据的训练来“这是苹在父母一遍遍的重复中学习训练的过程就好像是刚出生的婴儿,设置。.果”、“那是汽车”。有人说,人工智能很傻嘛,到现在还不如三岁小孩。其实可以换个角度想:刚出生婴儿就好像是一个裸机,这是经过几十万年的进化才形成的,然后经过几年的学习,就会认识图片和文字了;而深度学习这个“裸机”用了几十年就被设计出来,并且经过几个小时的“学习”,就可以达到这个水平了。 1.2 BP算法 神经网络的训练就是它的参数不断变化收敛的过程。像父母教婴儿识图认字一样,给神经网络看一张图并告诉它这是苹果,它就把所有参数做一些调整,使得它的计算结果比之前更接近“苹果”这个结果。经过上百万张图片的训练,它就可以达到和人差不多的识别能力,可以认出一定种类的物体。这个过程是通过反向传播(Back Propagation,BP)算法来实现的。 建议仔细看一下BP算法的计算原理,以及跟踪一个简单的神经网络来体会训练的过程。

趋势分析之深度神经网络

趋势分析之深度神经网络 深度神经网络(Deepl Neural Networks, DNN)从字面上理解就是深层次的神经网络。自从Hinton和Salakhutdinov在《Science》上发表的论文解决了多层神经网络训练的难题后,随着研究的深入,各种深度神经网络模型如雨后春笋般涌现出来。 2012年Krizhevsky等人设计的包含5个卷积层和3个全连接层的AlexNet,并将卷积网络分为两个部分在双CPU上进行训练;2014年Google研发团队设计的22层GoogleNet;同年牛津大学的Simonyan和Zisserman设计出深度为16-19层的VGG网络;2015年微软亚洲研究院的何凯明等人提出了152层的深度残差网络ResNet,最新改进后的ResNet网络深度可达1202层;2016年生成式对抗网络GAN获得广泛关注。 深度神经网络热度变化图 下面我们将用Trend analysis分析深度神经网络领域内的研究热点。 (点击链接即可进入Deep Neural Networks Trend Analysis: https://https://www.doczj.com/doc/d2657122.html,/topic/trend?query=Deep%20Neural%20Network%20) 通过Trend analysis的分析挖掘结果我们可以看到,当前该领域的热点研究话题有feature

extraction、speech recognition、face recognition、information retrieval、object recognition、cell cycle等。近年来,深度神经网络由于优异的算法性能,已经广泛应用于图像分析、语音识别、目标检测、语义分割、人脸识别、自动驾驶、生物医学等领域,而根据分析结果可知语音识别是该领域热门研究话题top 1。 深度神经网络在工业界也得到了广泛的应用,Google、Facebook、Microsoft、IBM、百度、阿里巴巴、腾讯、科大讯飞等互联网巨头也纷纷开展深度神经网络的研究工作,并且成功应用于谷歌Now、微软OneNote手写识别、Cortana语音助手、讯飞语音输入法等。 附一. 深度神经网络领域5位代表学者 Dong Yu (俞栋) Tara N. Sainath

最新神经网络最新发展综述汇编

神经网络最新发展综述 学校:上海海事大学 专业:物流工程 姓名:周巧珍 学号:201530210155

神经网络最新发展综述 摘要:作为联接主义智能实现的典范,神经网络采用广泛互联的结构与有效的学习机制来模拟人脑信息处理的过程,是人工智能发展中的重要方法,也是当前类脑智能研究中的有效工具。目前,模拟人脑复杂的层次化认知特点的深度学习成为类脑智能中的一个重要研究方向。通过增加网络层数所构造的“深层神经网络”使机器能够获得“抽象概念”能力,在诸多领域都取得了巨大的成功,又掀起了神经网络研究的一个新高潮。本文分8个方面综述了其当前研究进展以及存在的问题,展望了未来神经网络的发展方向。 关键词: 类脑智能;神经网络;深度学习;大数据 Abstract: As a typical realization of connectionism intelligence, neural network, which tries to mimic the information processing patterns in the human brain by adopting broadly interconnected structures and effective learning mechanisms, is an important branch of artificial intelligence and also a useful tool in the research on brain-like intelligence at present. Currently, as a way to imitate the complex hierarchical cognition characteristic of human brain, deep learning brings an important trend for brain-like intelligence. With the increasing number of layers, deep neural network entitles machines the capability to capture “abstract concepts” and it has achieved great success in various fields, leading a new and advanced trend in neural network research. This paper summarizes the latest progress in eight applications and existing problems considering neural network and points out its possible future directions. Key words : artificial intelligence; neural network; deep learning; big data 1 引言 实现人工智能是人类长期以来一直追求的梦想。虽然计算机技术在过去几十年里取得了长足的发展,但是实现真正意义上的机器智能至今仍然困难重重。伴随着神经解剖学的发展,观测大脑微观结构的技术手段日益丰富,人类对大脑组织的形态、结构与活动的认识越来越深入,人脑信息处理的奥秘也正在被逐步揭示。如何借助神经科学、脑科学与认知科学的研究成果,研究大脑信息表征、转换机理和学习规则,建立模拟大脑信息处理过程的智能计算模型,最终使机器掌握人类的认知规律,是“类脑智能”的研究目标。 类脑智能是涉及计算科学、认知科学、神经科学与脑科学的交叉前沿方向。类脑智能的

(完整版)深度神经网络全面概述

深度神经网络全面概述从基本概念到实际模型和硬件基础 深度神经网络(DNN)所代表的人工智能技术被认为是这一次技术变革的基石(之一)。近日,由IEEE Fellow Joel Emer 领导的一个团队发布了一篇题为《深度神经网络的有效处理:教程和调研(Efficient Processing of Deep Neural Networks: A Tutorial and Survey)》的综述论文,从算法、模型、硬件和架构等多个角度对深度神经网络进行了较为全面的梳理和总结。鉴于该论文的篇幅较长,机器之心在此文中提炼了原论文的主干和部分重要内容。 目前,包括计算机视觉、语音识别和机器人在内的诸多人工智能应用已广泛使用了深度神经网络(deep neural networks,DNN)。DNN 在很多人工智能任务之中表现出了当前最佳的准确度,但同时也存在着计算复杂度高的问题。因此,那些能帮助DNN 高效处理并提升效率和吞吐量,同时又无损于表现准确度或不会增加硬件成本的技术是在人工智能系统之中广泛部署DNN 的关键。 论文地址:https://https://www.doczj.com/doc/d2657122.html,/pdf/1703.09039.pdf 本文旨在提供一个关于实现DNN 的有效处理(efficient processing)的目标的最新进展的全面性教程和调查。特别地,本文还给出了一个DNN 综述——讨论了支持DNN 的多种平台和架构,并强调了最新的有效处理的技术的关键趋势,这些技术或者只是通过改善硬件设计或者同时改善硬件设计和网络算法以降低DNN 计算成本。本文也会对帮助研究者和从业者快速上手DNN 设计的开发资源做一个总结,并凸显重要的基准指标和设计考量以评估数量快速增长的DNN 硬件设计,还包括学界和产业界共同推荐的算法联合设计。 读者将从本文中了解到以下概念:理解DNN 的关键设计考量;通过基准和对比指标评估不同的DNN 硬件实现;理解不同架构和平台之间的权衡;评估不同DNN 有效处理技术的设计有效性;理解最新的实现趋势和机遇。 一、导语 深度神经网络(DNN)目前是许多人工智能应用的基础[1]。由于DNN 在语音识别[2] 和图像识别[3] 上的突破性应用,使用DNN 的应用量有了爆炸性的增长。这些DNN 被部署到了从自动驾驶汽车[4]、癌症检测[5] 到复杂游戏[6] 等各种应用中。在这许多领域中,DNN 能够超越人类的准确率。而DNN 的出众表现源于它能使用统计学习方法从原始感官数据中提取高层特征,在大量的数据中获得输入空间的有效表征。这与之前使用手动提取特征或专家设计规则的方法不同。 然而DNN 获得出众准确率的代价是高计算复杂性成本。虽然通用计算引擎(尤其是GPU),已经成为许多DNN 处理的砥柱,但提供对DNN 计算更专门化的加速方法也越来越热门。本文的目标是提供对DNN、理解DNN 行为的各种工具、有效加速计算的各项技术的概述。 该论文的结构如下:

深度神经网络及目标检测学习笔记

深度神经网络及目标检测学习笔记 https://youtu.be/MPU2HistivI 上面是一段实时目标识别的演示,计算机在视频流上标注出物体的类别,包括人、汽车、自行车、狗、背包、领带、椅子等。 今天的计算机视觉技术已经可以在图片、视频中识别出大量类别的物体,甚至可以初步理解图片或者视频中的内容,在这方面,人工智能已经达到了3岁儿童的智力水平。这是一个很了不起的成就,毕竟人工智能用了几十年的时间,就走完了人类几十万年的进化之路,并且还在加速发展。 道路总是曲折的,也是有迹可循的。在尝试了其它方法之后,计算机视觉在仿生学里找到了正确的道路(至少目前看是正确的)。通过研究人类的视觉原理,计算机利用深度神经网络(DeepNeural Network,NN)实现了对图片的识别,包括文字识别、物体分类、图像理解等。在这个过程中,神经元和神经网络模型、大数据技术的发展,以及处理器(尤其是GPU)强大的算力,给人工智能技术的发展提供了很大的支持。 本文是一篇学习笔记,以深度优先的思路,记录了对深度学习(Deep Learning)的简单梳理,主要针对计算机视觉应用领域。 一、神经网络 1.1 神经元和神经网络 神经元是生物学概念,用数学描述就是:对多个输入进行加权求和,并经过激活函数进行非线性输出。 由多个神经元作为输入节点,则构成了简单的单层神经网络(感知器),可以进行线性分类。两层神经网络则可以完成复杂一些的工作,比如解决异或问题,而且具有非常好的非线性分类效果。而多层(两层以上)神经网络,就是所谓的深度神经网络。 神经网络的工作原理就是神经元的计算,一层一层的加权求和、激活,最终输出结果。深度神经网络中的参数太多(可达亿级),必须靠大量数据的训练来设置。训练的过程就好像是刚出生的婴儿,在父母一遍遍的重复中学习“这是苹

BP神经网络及深度学习研究-综述(最新整理)

BP神经网络及深度学习研究 摘要:人工神经网络是一门交叉性学科,已广泛于医学、生物学、生理学、哲学、信息学、计算机科学、认知学等多学科交叉技术领域,并取得了重要成果。BP(Back Propagation)神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。本文将主要介绍神经网络结构,重点研究BP神经网络原理、BP神经网络算法分析及改进和深度学习的研究。 关键词:BP神经网络、算法分析、应用 1 引言 人工神经网络(Artificial Neural Network,即ANN ),作为对人脑最简单的一种抽象和模拟,是人们模仿人的大脑神经系统信息处理功能的一个智能化系统,是20世纪80 年代以来人工智能领域兴起的研究热点。人工神经网络以数学和物理方法以及信息处理的角度对人脑神经网络进行抽象,并建立某种简化模型,旨在模仿人脑结构及其功能的信息处理系统。 人工神经网络最有吸引力的特点就是它的学习能力。因此从20世纪40年代人工神经网络萌芽开始,历经两个高潮期及一个反思期至1991年后进入再认识与应用研究期,涌现出无数的相关研究理论及成果,包括理论研究及应用研究。最富有成果的研究工作是多层网络BP算法,Hopfield网络模型,自适应共振理论,自组织特征映射理论等。因为其应用价值,该研究呈愈演愈烈的趋势,学者们在多领域中应用[1]人工神经网络模型对问题进行研究优化解决。 人工神经网络是由多个神经元连接构成,因此欲建立人工神经网络模型必先建立人工神经元模型,再根据神经元的连接方式及控制方式不同建立不同类型的人工神经网络模型。现在分别介绍人工神经元模型及人工神经网络模型。 1.1 人工神经元模型 仿生学在科技发展中起着重要作用,人工神经元模型的建立来源于生物神经元结构的仿生模拟,用来模拟人工神经网络[2]。人们提出的神经元模型有很多,其中最早提出并且影响较大的是1943年心理学家McCulloch和数学家W. Pitts 在分析总结神经元基本特性的基础上首先提出的MP模型。该模型经过不断改进后,形成现在广泛应用的BP神经元模型。人工神经元模型是由人量处理单元厂泛互连而成的网络,是人脑的抽象、简化、模拟,反映人脑的基本特性。一般来说,作为人工神经元模型应具备三个要素: (1)具有一组突触或连接,常用表示神经元i和神经元j之间的连接强度。 w ij (2)具有反映生物神经元时空整合功能的输入信号累加器。

深度神经网络语音识别系统快速稀疏矩阵算法

深度神经网络语音识别系统快速稀疏矩阵算法 一. 背景 1.1语音识别、深度神经网络与稀疏矩阵运算 深度神经网络(DNN)已经广泛应用在当代语音识别系统中,并带来识别率的极大提高。一个典型的深度神经网络如图1所示,其中包含一个输入层,多个隐藏层,一个输出层,每层有若干个结点,每个结点的输入由前一层的结点的输出经过线性叠加得到,并通过一个线性或非线性的激励函数,形成该结点的输出。 图1 DNN结构 在进行语音识别系统模型训练和识别时,语音数据被分成短时语音帧,这些语音帧经过信号处理之后形成一系列语音特征向量,输入到DNN的输入层,经过神经网络的各个隐藏层,最后进入输出层,形成识别器可用的概率值。 可见,在进行DNN操作时,主要计算为输入向量在整个神经网络的前向传导。这些传导运算可以抽象为矩阵运算。具体而言,将第t层结点的所有结点输出表示成一个向量OU t ,将第t层到第t+1层之间的网络联接系数表示成A t, 则第t+1层结点的输入IN t+1可以表示成IN t+1 = A t x OU t 其输出表示为OU t+1 = f (IN t), 其中f为激励函数。 当前语音识别系统中所用的神经网络一般为5-10层,每层结点数为1000到10000,这意味着网络矩阵A t 相当庞大,带来巨大的计算压力。如何快速进行矩阵运算,是一个急需解决的问题。 稀疏矩阵为减小计算量提供了可能。通过将矩阵中绝大部分元素置零,一方面可以节约随储空间,同时可以极大减小计算总量。然则,稀疏矩阵本身的存储和数据索取都需要相应的空间和时间,简单对矩阵依其元素值的大小进行稀疏化并不会提高计算效率。本发明提出一种通过改变稀疏矩阵的拓朴结构对稀疏矩阵进行快速计算的方法。 在下文中的背景知中,我们将简单的介绍一下稀疏矩阵的存储方式和对拓朴结构进行修正过程中需要用到的遗传算法。

深度神经网络知识蒸馏综述

Computer Science and Application 计算机科学与应用, 2020, 10(9), 1625-1630 Published Online September 2020 in Hans. https://www.doczj.com/doc/d2657122.html,/journal/csa https://https://www.doczj.com/doc/d2657122.html,/10.12677/csa.2020.109171 深度神经网络知识蒸馏综述 韩宇 中国公安部第一研究所,北京 收稿日期:2020年9月3日;录用日期:2020年9月17日;发布日期:2020年9月24日 摘要 深度神经网络在计算机视觉、自然语言处理、语音识别等多个领域取得了巨大成功,但是随着网络结构的复杂化,神经网络模型需要消耗大量的计算资源和存储空间,严重制约了深度神经网络在资源有限的应用环境和实时在线处理的应用上的发展。因此,需要在尽量不损失模型性能的前提下,对深度神经网络进行压缩。本文介绍了基于知识蒸馏的神经网络模型压缩方法,对深度神经网络知识蒸馏领域的相关代表性工作进行了详细的梳理与总结,并对知识蒸馏未来发展趋势进行展望。 关键词 神经网络,深度学习,知识蒸馏 A Review of Knowledge Distillation in Deep Neural Networks Yu Han The First Research Institute, The Ministry of Public Security of PRC, Beijing Received: Sep. 3rd, 2020; accepted: Sep. 17th, 2020; published: Sep. 24th, 2020 Abstract Deep neural networks have achieved great success in computer vision, natural language processing, speech recognition and other fields. However, with the complexity of network structure, the neural network model needs to consume a lot of computing resources and storage space, which seriously restricts the development of deep neural network in the resource limited application environment and real-time online processing application. Therefore, it is necessary to compress the deep neural network without losing the performance of the model as much as possible. This article introduces

深度神经网络

1. 自联想神经网络与深度网络 自联想神经网络是很古老的神经网络模型,简单的说,它就是三层BP网络,只不过它的输出等于输入。很多时候我们并不要求输出精确的等于输入,而是允许一定的误差存在。所以,我们说,输出是对输入的一种重构。其网络结构可以很简单的表示如下: 如果我们在上述网络中不使用sigmoid函数,而使用线性函数,这就是PCA模型。中间网络节点个数就是PCA模型中的主分量个数。不用担心学习算法会收敛到局部最优,因为线性BP网络有唯一的极小值。

在深度学习的术语中,上述结构被称作自编码神经网络。从历史的角度看,自编码神经网络是几十年前的事情,没有什么新奇的地方。 既然自联想神经网络能够实现对输入数据的重构,如果这个网络结构已经训练好了,那么其中间层,就可以看过是对原始输入数据的某种特征表示。如果我们把它的第三层去掉,这样就是一个两层的网络。如果,我们把这个学习到特征再用同样的方法创建一个自联想的三层BP网络,如上图所示。换言之,第二次创建的三层自联想网络的输入是上一个网络的中间层的输出。用同样的训练算法,对第二个自联想网络进行学习。那么,第二个自联想网络的中间层是对其输入的某种特征表示。如果我们按照这种方法,依次创建很多这样的由自联想网络组成的网络结构,这就是深度神经网络,如下图所示:

注意,上图中组成深度网络的最后一层是级联了一个softmax分类器。 深度神经网络在每一层是对最原始输入数据在不同概念的粒度表示,也就是不同级别的特征描述。 这种层叠多个自联想网络的方法,最早被Hinton想到了。 从上面的描述中,可以看出,深度网络是分层训练的,包括最后一层的分类器也是单独训练的,最后一层分类器可以换成任何一种分类器,例如SVM,HMM等。上面的每一层单独训练使用的都是BP算法。相信这一思路,Hinton早就实验过了。 2. DBN神经网络模型 使用BP算法单独训练每一层的时候,我们发现,必须丢掉网络的第三层,才能级联自联想神经网络。然而,有一种更好的神经网络模型,这就是受限玻尔兹曼机。使用层叠波尔兹曼机组成深度神经网络的方法,在深度学习里被称作深度信念网络DBN,这是目前非

【CN109977794A】一种用深度神经网络进行人脸识别的方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910164908.9 (22)申请日 2019.03.05 (71)申请人 北京超维度计算科技有限公司 地址 100142 北京市海淀区西四环北路160 号9层一区907 (72)发明人 张心宇 张颢 向志宏 杨延辉  (74)专利代理机构 北京亿腾知识产权代理事务 所(普通合伙) 11309 代理人 陈霁 (51)Int.Cl. G06K 9/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种用深度神经网络进行人脸识别的方法 (57)摘要 本发明涉及一种用深度神经网络进行人脸 识别的方法,其特征在于,包括以下步骤:通过第 一相机采集人脸区域的2D RGB图片,以及通过第 二相机实时采集人脸区域的3D点云;对于采集的 2D RGB图片进行脸部区域的截取和缩放,减少距 离的影响;对于采集的3D点云,投影到二维平面, 用灰度信息代替深度信息,形成二维深度图;并 进行脸部区域的截取;将截取过的D2D RGB图片 输入到2D特征提取网络,以及将截取过的脸部区 域二维深度图输入3D特征提取网络,进行特征向 量提取;根据提取的特征向量,结合环境信息进 行人脸识别。本发明结合2D和3D人脸识别技术, 既保证了正常使用情况(正脸无遮挡)下的正确 率,又提高了系统应对恶劣使用条件下的鲁棒性 和系统的安全性。权利要求书1页 说明书4页 附图2页CN 109977794 A 2019.07.05 C N 109977794 A

基于改进的深度神经网络的人体动作识别模型

————————————————————————————————————————————————基于改进的深度神经网络的人体动作识别模型 作者何冰倩,魏维,张斌,高联欣,宋岩贝 机构成都信息工程大学计算机学院 DOI 10.3969/j.issn.1001-3695.2018.06.0361 基金项目四川省教育厅重点科研项目(17ZA0064) 预排期卷《计算机应用研究》2019年第36卷第11期 摘要针对现有人体动作识别方法需输入固定长度的视频段、未充分利用时空信息等问题,提出一种基于时空金字塔和注意力机制相结合的深度神经网络模型,将包含时空金字塔的3D-CNN 和添加时空注意力机制的LSTM模型相结合,实现了对视频段的多尺度处理和对动作的复杂 时空信息的充分利用。以RGB图像和光流场作为空域和时域的输入,以融合金字塔池化层的 运动和外观特征后的融合特征作为融合域的输入,最后采用决策融合策略获得最终动作识别 结果。在UCF101和HMDB51数据集上进行实验,分别取得了94.2%和70.5%的识别准确率。 实验结果表明,改进的网络模型在基于视频的人体动作识别任务上获得了较高的识别准确 率。 关键词动作识别;深度学习;时空金字塔;注意力机制;卷积神经网络 作者简介何冰倩(1994-),女,四川阆中人,硕士研究生,主要研究方向为图形图像处理(dandelionqian@https://www.doczj.com/doc/d2657122.html,);魏维(1976-),男,教授,博士,主要研究方向为图形图 像处理;张斌(1992-),男,硕士研究生,主要研究方向为图形图像处理;高联欣(1994-), 男,硕士研究生,主要研究方向为图形图像处理;宋岩贝(1994-),男,硕士研究生,主要 研究方向为图形图像处理. 中图分类号TP391.41 访问地址https://www.doczj.com/doc/d2657122.html,/article/02-2019-11-082.html 投稿日期2018年6月21日 修回日期2018年8月22日

智能决策系统的深度神经网络加速与压缩方法综述

第10卷一第2期一2019年4月指挥信息系统与技术C o mm a n d I n f o r m a t i o nS y s t e ma n dT e c h n o l o g y V o l .10一N o .2A p r .2019 发展综述 d o i :10.15908/j .c n k i .c i s t .2019.02.002智能决策系统的深度神经网络加速与压缩方法综述? 黄一迪一刘一畅 (中国科学院大学计算机科学与技术学院一北京100049 )摘一要:深度神经网络凭借其出色的特征提取能力和表达能力,在图像分类二语义分割和物体检测 等领域表现出众,对信息决策支持系统的发展产生了重大意义.然而,由于模型存储不易和计算延 迟高等问题,深度神经网络较难在信息决策支持系统中得到应用.综述了深度神经网络中低秩分 解二网络剪枝二量化二知识蒸馏等加速与压缩方法.这些方法能够在保证准确率的情况下减小深度 神经网络模型二加快模型计算,为深度神经网络在信息决策支持系统中的应用提供了思路. 关键词:深度神经网络;低秩分解;网络剪枝;量化;知识蒸馏 中图分类号:T P 301.6一一文献标识码:A一一文章编号:1674G909X (2019)02G0008G06R e v i e wo fA c c e l e r a t i o na n dC o m p r e s s i o n M e t h o d s f o rD e e p N e u r a lN e t w o r k s i n I n t e l l i g e n tD e c i s i o nS y s t e m s HU A N G D i 一L I U C h a n g (S c h o o l o fC o m p u t e r S c i e n c e a n dT e c h n o l o g y ,U n i v e r s i t y o fC h i n e s eA c a d e m y o f S c i e n c e s ,B e i j i n g 100049,C h i n a )A b s t r a c t :F o r t h e e x c e l l e n t f e a t u r e e x t r a c t i o na b i l i t y a n de x p r e s s i o na b i l i t y ,t h ed e e p n e u r a l n e t Gw o r kd o e sw e l l i n t h e f i e l d s o f i m a g e c l a s s i f i c a t i o n ,s e m a n t i c s e g m e n t a t i o na n do b j e c t d e t e c t i o n ,e t c .,a n d i t p l a y s a s i g n i f i c a n t r o l eo nt h ed e v e l o p m e n to f t h e i n f o r m a t i o nd e c i s i o ns u p p o r t s y s Gt e m s .H o w e v e r ,f o r t h e d i f f i c u l t y o fm o d e l s t o r a g e a n dh i g hc o m p u t a t i o nd e l a y ,t h e d e e p n e u r a l n e t w o r k i sd i f f i c u l t t ob ea p p l i e d i nt h e i n f o r m a t i o nd e c i s i o ns u p p o r t s y s t e m s .T h ea c c e l e r a t i o n a n dc o m p r e s s i o n m e t h o d s f o r t h ed e e p n e u r a l n e t w o r k ,i n c l u d i n g l o w Gr a n kd e c o m p o s i t i o n ,n e t Gw o r k p r u n i n g ,q u a n t i z a t i o n a n dk n o w l e d g e d i s t i l l a t i o n a r e r e v i e w e d .T h em e t h o d s c a n r e d u c e t h e s i z e o fm o d e l a n d s p e e du p t h e c a l c u l a t i o nu n d e r t h e c o n d i t i o no f e n s u r i n g t h e a c c u r a c y ,a n dc a n p r o v i d e t h e i d e a o f t h e a p p l i c a t i o n i n t h e i n f o r m a t i o nd e c i s i o ns u p p o r t s y s t e m s .K e y w o r d s :d e e p n e u r a ln e t w o r k ;l o w G r a n k d e c o m p o s i t i o n ;n e t w o r k p r u n i n g ;q u a n t i z a t i o n ;k n o w l e d g e d i s t i l l a t i o n 一?基金项目:装备发展部 十三五 预研课题(31511090402)资助项目.收稿日期:2018G11G26引用格式:黄迪,刘畅.智能决策系统的深度神经网络加速与压缩方法综述[J ].指挥信息系统与技术,2019,10(2):8G13. HU A N GD i ,L I U C h a n g .R e v i e wo f a c c e l e r a t i o na n d c o m p r e s s i o nm e t h o d s f o r d e e p n e u r a l n e t w o r k s i n i n t e l l i Gg e n t d e c i s i o n s y s t e m s [J ].C o mm a n d I n f o r m a t i o nS y s t e ma n dT e c h n o l o g y ,2019,10(2):8G13.0一引一言 近年来,深度神经网络在人工智能领域表现非 凡,受到学界和业界的广泛关注,尤其在图像分类二 语义分割和物体检测等领域中,表现出了出色的特征提取和表达能力,如N e a g o e 等[1]提出过一种机器学习方法,可用于航空影像中军用地面车辆识别,为信息决策支持系统的改进提供了可能[2].然而,由于深度神经网络的模型复杂二计算量大和延时高等问题,将其应用于智能决策系统的技术

深度神经网络的关键技术及其在自动驾驶领域的应用

ISSN 1674-8484 CN 11-5904/U 汽车安全与节能学报, 第10卷第2期, 2019年 J Automotive Safety and Energy, Vol. 10 No. 2, 2019 1/13 119—145 深度神经网络的关键技术及其在自动驾驶领域的应用 李升波1,关?阳1,侯?廉1,高洪波1,段京良2,梁?爽3,汪?玉3,成?波1, 李克强1,任?伟4,李?骏1 (1. 清华大学车辆与运载学院,北京100084,中国;2. 加州大学伯克利分校机械系,加州 94720,美国; 3. 清华大学电子工程系,北京100084,中国; 4. 加州大学河滨分校电子计算机系,加州92521,美国) 摘?要:?智能化是汽车的三大变革技术之一,深度学习具有拟合能力优、表征能力强和适用范围广的 特点,是进一步提升汽车智能性的重要途径。该文系统性总结了用于自动驾驶汽车的深度神经网络(DNN)技术,包括发展历史、主流算法以及感知、决策与控制技术应用。回顾了神经网络的历史及现状, 总结DNN的“神经元-层-网络”3级结构,重点介绍卷积网络和循环网络的特点以及代表性模型; 阐述了以反向传播(BP)为核心的深度网络训练算法,列举用于深度学习的常用数据集与开源框架,概 括了网络计算平台和模型优化设计技术;讨论DNN在自动驾驶汽车的环境感知、自主决策和运动控 制3大方向的应用现状及其优缺点,具体包括物体检测和语义分割、分层式和端到端决策、汽车纵 横向运动控制等;针对用于自动驾驶汽车的DNN技术,指明了不同问题的适用方法以及关键问题的 未来发展方向。 关键词:?智能汽车;自动驾驶;深度神经网络(DNN);深度学习;环境感知;自主决策;运动控制 中图分类号:?TP 18;U 463.6 文献标志码:?A DOI:?10.3969/j.issn.1674-8484.2019.02.001 Key technique of deep neural network and its applications in autonomous driving LI Shengbo1, GUAN Yang1, HOU Lian1, GAO Hongbo1, DUAN Jingliang2, LIANG Shuang3, WANG Yu3, CHENG Bo1, LI Keqiang1, REN Wei4, LI Jun1 (1. School of Vehicle and Mobility, Tsinghua University, Beijing 100084, China; 2. Mechanical Engineering, University of California Berkeley, Berkeley, CA 94720, USA; 3. Electronic Engineering, Tsinghua University, Beijing 100084, China; 4. Electrical and Computer Engineering, University of California Riverside, Riverside, CA 92521, USA) Abstract: Autonomous driving is one of the three major innovations in automotive industry. Deep learning is a crucial method to improve automotive intelligence due to its outstanding abilities of data fitting, feature representation and model generalization. This paper reviewed the technologies of deep neural network (DNN) 收稿日期?/?Received?:?2019-01-19。 基金项目?/?Supported?by?: “十三五”国家重点研发计划(2016YFB0100906);国家自然科学基金面上项目(51575293);国家自然科学基金优秀青年科学基金项目(U1664263);国家自然科学基金重点项目(51622504);北京市自然科学基金杰出青 年科学基金项目(JQ18010);汽车安全与节能国家重点实验室开放基金课题(KF1828)。 第一作者?/?First?author?:?李升波(1982—),男(汉),山东,副教授。E-mail: lishbo@https://www.doczj.com/doc/d2657122.html,。

单帧图像超分辨率重建的深度神经网络综述

2019年第3期 信息通信2019 (总第 195 期)INFORMATION&COMMUNICATIONS(Sum.N o 195)单帧图像超分辨率重建的深度神经网络综述 康士伟,孙水发,陈晓军,魏晓燕 (三峡大学水电工程智能视觉监测湖北省重点实验室,湖北宜昌443002) 摘要:随着硬件计算能力的显著提升,深度神经网络广泛应用于计算机视觉和图像处理的各个领域,获得了突出成果,受 这种方法启发,单顿图像超分辨率重建(Super-resolution Reconstruction,SR)也引入深度学习思想,并且重建效果远远超越 传统算法,成为研究的热点并迅速成为主流技术。将对深度神经网络的单帧图像超分辨率重建技术分为两类(基于传统深度神经网络的单帧图像超分辨率重建和基于生成对抗网络的单帧图像超分辨率重建和)进行阐述,以此为基础,对单 帧图像超分辨率技术的发展趋势进行展望。 关键词:单帧图像;超分辨率重建;计算机视觉;图像处理;生成对抗网络 中图分类号:TP391 文献标识码:A文章编号:1673-1131(2019)03-0024-04 A Review on Single Image Super-resolution Reconstruction Based on Deep Neural Network Kang Shiwei,Sun Shuifa,Chen xiaojun,Wei Xiaoyan (China Three Gorges University Hubei Key Laboratory of Intelligent Vision Based Monitoring for Hydroelectric Engineering,Yichang443002, China) Abstract:With the significant improvement of hardware computing power,deep neural networks are widely used in various fi-elds of computer vision and image processing,and have achieved outstanding results.Inspired by this,the field of single image Super-resolution Reconstruction(SR)is also introduced deep learning ideas,and performance beyond traditional algorithms,be-come a research hotspot and become mainstream technology.In this paper,the existing image super-resolution reconstruction techniques based on deep neural networks are divided into two categories(traditional deep neural single image super-resolution reconstruction and generation adversarial networks for single image super-resolution reconstruction)for description,Based on this,we will look into the development of image super-resolution technology. K ey words:single image;super-resolution reconstruction;computer vision;image processing;generation adversarial network 〇引言 在获得图像时会受到天气、成像设备像素较低,和背景运 动变化等影响,因此在实际成像时会存在许多不确定因素,获得 的图像质量比较差、娜率比较低,导致达不到要求后续图像处 理、分析的要求。图像超分辨率重建w(Super-Resolution Resto-ration,SR)是用低分辨率 (Low Resolution,LR) 图像或视频序 列重建出对应的高分辨率(High Resolution,HR)图像的过程, 以获得较高分辨率的图片用于卫星遥感图像、医学图像、视频 监控、无人驾驶等计算机视觉和图像处理领域。图像超分辨 率重建可分为单帧图像超分辨率重建和视频超分辨率重建,本文着重阐述单幀图像超分辨率重建(Single Image Sper-res-olution Rconstruction,SISR) 单帧图像超辨率重建是一个病态反问题,因为低分辨率 图像对应多个高分辨率结果。传统算法如插值、重建和浅层 学习算法在图像重建过程中往往会出现高频细节丢失、边缘 模糊等问题,为了解决这个问题,在其他领域表现突出的深度 神经网络被Dong?等人引入单帧图像超分辨率重建中,这种 方法能很好地映射出低分辨率图像和高分辨率图像的关系,并且在放大倍数较大时都具有较好的重建效果,成为当前的 研究热点。 本文将把基于深度神经网络的单帧图像超分辨率重建分为两类进行阐述,S卩:基于传统深度神经网络的单帧图像超分 辨比率重建和基于生成对抗网络的单帧图像超分辨率重建。基于传统深度神经网络的图像超分辨率重建追求峰值信噪比 (Peak signal-to-noise Ratio,PSNR)和结构性相似性(Structural Similarity Index,SSIM)的提升,而基于生成对抗网络的图像超分辨率追求重建出的图像具有更好的高频特征细节,使其更 加符合人眼主观视觉效果,更具真实感。对单帧图像超分辨 率重建网络进行梳理、分析及总结后,我们将展望其发展。 1基于传统深度神经网络的单帧图像超分辨比率重建 深度神经网络是一种多层端到端人工神经网络,基于深度 神经网络的单帧图像超分辨率重建算法有以下优势:①可直 接输入多维数据进行网络训练;②具有局部权值共享的优点,可以降低训练参数;③具有强力的特征学习能力以及建模能力。所以可以更好地重建出高分辨率图像。基于传统深度神 经网络的单帧图像超分辨率重建可以分为以下几类:深度卷 积神经网络、深度递归神经网络,下面将分类详细阐述其网络 架构和原理,并用峰值信噪比和结构相似性作为评价标准对其性能进行分析。 1.1基于深度卷积神经网络的单帧图像超分辨率重建 SRCNN121(Super-Resolution Convolutional Neural Network)由D o n g等人首次提出用于解决超分辨率重建问题。该网络 含有三个卷积层:图像块提取和表示层、非线性映射层和重构 层,如图1所示。 n n块礅构 图1SR C N N网络结构 此网络先对低分辨率图像进行双三次插值放大为目标大 小,然后用卷积神经网络进行非线性映射,最后重建出高分辨 24

相关主题
文本预览
相关文档 最新文档