当前位置:文档之家› 二维矩阵卷积的并行计算方法

二维矩阵卷积的并行计算方法

二维矩阵卷积的并行计算方法
二维矩阵卷积的并行计算方法

第52卷第3期2018年3月浙 江 大 学 学 报(工学版)J o u r n a l o f Z h e j i a n g U n i v e r s i t y (E n g i n e e r i n g S c i e n c e )V o l .52N o .3M a r .2018

收稿日期:20170304.网址:w w w.z j u j o u r n a l s .c o m /e n g /f i l e u p /H T M L /201803013.h t m 基金项目:国家自然科学基金资助项目(60133007,61572025);国家重点研发计划资助项目(2016Y F B 0200401).

作者简介:张军阳(1987 ),男,博士生,从事体系结构二机器学习二嵌入式系统研究.o r c i d .o r g

/0000-0002-2993-4494.E -m a i l :z h a n g j u n y a n g 11@n u d t .e d u .c n 通信联系人:郭阳,男,教授.o r c i .o r g /0000-0003-1600-4666.E -m a i l :g u o y a n g @n u d t .e d u .c n D O I :10.3785/j

.i s s n .1008-973X.2018.03.013二维矩阵卷积的并行计算方法

张军阳,郭阳,扈啸

(国防科技大学计算机学院,湖南长沙410073

)摘 要:为了提高卷积神经网络模型中二维矩阵卷积的计算效率,基于F T 2000多核向量处理器研究二维矩阵卷积

的并行实现方法.通过使用广播指令将卷积核元素广播至向量寄存器,使用向量L O A D 指令加载卷积矩阵行元素,并通过混洗操作将不易并行化的矩阵卷积操作变成可以向量化的乘加操作,实现了通过减少访存二充分复用已取数

据的方式来提高算法的执行效率.设计卷积矩阵规模变化二卷积核规模不变和卷积矩阵规模不变二卷积核规模变化2种常用矩阵卷积计算方式,并对比分析不同计算方式对算法执行效率的影响.基于服务器级多核C P U 和T I 6678进

行实验对比,实验结果显示,F T 2000比多核C P U 及T I 6678具有更好的计算优势,相比多核C P U 最高可加速11974

倍,相比T I 6678可加速21倍.关键词:矩阵卷积;向量处理器;并行算法;性能优化;卷积神经网络

中图分类号:T P391 文献标志码:A 文章编号:1008973X (2018)03051509

P a r a l l e l c o m p u t i n g m

e t h o d

f o r t w o -d i m e n s i o n a lm a t r i x c o n v o l u t i o n Z H A N GJ u n -y a n

g ,G U O Y a n g

,HU X i a o (C o l l e g e o f C o m p u t e r ,N a t i o n a l U n i v e r s i t y o f D e f e n s eT e c h n o l o g y ,C h a n g s h a 410073,C h i n a )A b s t r a c t :A p a r a l l e l i m p l e m e n t a t i o nm e t h o db a s e do nm u l t i -c o r e v e c t o r p r o c e s s o rF T 2000w a s p r o p o s e d t o i m p r o v e t h e c o m p u t a t i o n a l e f f i c i e n c y o f t w o -d i m e n s i o n a lm a t r i x c o n v o l u t i o n i n c o n v o l u t i o nn e u r a l n e t w o r k m o d e l .T h e c o n v o l u t i o nk e r n e l e l e m e n tw a s b r o a d c a s t t o v e c t o r r e g i s t e r b y u s i n g b

r o a d c a s t i n s t r u c t i o n ;t h e r o we l e m e n t s o f t h e c o n v o l u t i o nm a t r i xw e r e v e c t o r l o a d e d .W i t h s h u f f l e o p e r a t i o n ,t h e o p e r a t i o n o fm a t r i x c o n v o l u t i o n ,w h i c h i sh a r dt ob e p a r a l l e l l e d ,c a nb ev e c t o r i z e db y u s i n g m u l t i p l y -a d do p e r a t i o n ,a n dt h e i m p l e m e n t a t i o ne f f i c i e n c y w a s a c h i e v e d t h r o u g h r e d u c t i o n o f a c c e s s ,f u l l r e u s e o f o b t a i n e d d a t a .T w o k i n d s o f c o m m o nm a t r i xc o n v o l u t i o n m e t h o d sw e r ed e s i g n e d :c h a n g i n g c

o n v o l u t i o n m a t r i xs c a l ew i t hc o n s t a n t c o n v o l u t i o nk e r n e l s i z e ,a n d c o n s t a n t c o n v o l u t i o nm a t r i x s i z ew i t h c h a n g i n g c o n v o l u t i o nk e r n e l s c a l e .T h e i n f l u e n c e o f d i f f e r e n t c a l c u l a t i o n m e t h o d s o n t h e a l g o r i t h m e x e c u t i o n e f f i c i e n c y w a s a n a l y z e d a n d c o m p a r e d .F i n a l l y ,t h e c o m p a r i s o ne x p

e r i m e n t sw e r e t a k e nb a s e do n t h e s e r v e r -l e v e lm u l t i -c o r eC P Ua n d T I 6678.R e s u l t s s h o wt h a tF T 2000h a sab e t t e r c o m p u t i n g a d v a n t a g eo v e rm u l t i -c o r eC P Ua n dT I 6678,w h i c hc a na c c e l e r a t eu p t o 11974t i m e s c o m p a r e d t om u l t i -c o r eC P U ,w h i l e t oT I 6678i t i s 21t i m e s .K e y w o r d s :m a t r i x c o n v o l u t i o n ;v e c t o r p r o c e s s o r ;p a r a l l e l a l g o r i t h m ;p e r

f o r m a n c e o p t i m i z a t i o n ;c o n v o l u t i o n n e u r a l n e t w o r k

相关主题
文本预览
相关文档 最新文档