【CN109993151A】一种基于多模块全卷积网络的三维视频视觉注意力检测方法【专利】
- 格式:pdf
- 大小:960.09 KB
- 文档页数:12
^^^^^n C t in f o s e c u r it y --------------------v国技术研究2017年第12期维卷积网络的暴力视频检测方法---------------------宋伟、张栋梁、齐振国2,郑男1 -----------------------(1.中央民族大学信息工程学院,北京100081 ; 2.北京交通大学电子信息工程学院,北京100044.)摘要:随着内容分发网络和视频转码技术的发展,网络流量呈现视频化趋势,互联网中充斥着各种非法特殊视频,危害社会公共安全,急需有效的检测算法。
为探索深度学习理论在 特殊视频检测上的应用,文章提出采用三维卷积网络框架进行暴力视频检测。
相比于传统手工 特征和2D 卷积网络,该方法可以较好地保护视频帧序列在时间维度上运动信息的完整性,实 现对暴力视频时空信息的有效表征。
在暴力视频数据集H ockey 上进行实验,取得了 98.96%的 准确率。
实验结果表明该方法能够有效地检测暴力视频内容。
关键词:暴力视频检测;三维卷积网络;特殊视频中图分类号:TP 309.1 文献标识码:A 文章编号:1671-1122 ( 2017 ) 12-0054-07中文引用格式:宋伟,张栋梁,齐振国,等.一种基于三维卷积网络的暴力视频检测方法[J].信息网络安全,2017 ( 12): 54-60.■ doi ;10.3969/j.issn.1671-1122.2017.12.010一种基于三英文引用格式:SONG Wei, ZHANG Dongliang,QI Zhenguo, et al. A Violent Video Detection Method Based on 3D Convolutional Networks[J]. Netinfo Security, 2017(12):54-60.A Violent Video Detection Method Based on 3D ConvolutionalNetworksSONG Wei1, ZHANG Dongliang1, QI Zhenguo2, ZHENG Nan 1(l.School of I nformation Engineering, Minzu University of C hina, Beijing100081, China, 2. School of E lectronicInformation Engineering, Beijing Jiaotong University, Beijing100044, China)Abstract : With the development of content distribution network and video transcoding technolog }^network traffic has a trend of being dominated by the video , and there are varieties of illegal special videos flooded the internet , endangering the social public securit }^ so the effective detection algorithm is of great necessity . In order to explore the application of deep learning theory on special video detection , this paper proposes the use of 3D convolutional networks for violence video detection . Compared with traditional manual features and 2D convolutional networks , this method can well protect the motion information integrity of video frames m the time dimension , and realize the efficient characterization of spatio-temporal information . The experiment was carried out on the violent video dataset Hockey,achieving 98.96〇/〇 accuracy . The results show that the method can effectively detect the violent contents of video .Key words : violent video detection ; 3D convolutional networks ; special video收稿日期:2017-9-1基金项目:囯家自然科学基金[61503424]作者简介:宋伟( 1983—),男,湖北,讲师,博士,主要研究方向为图像处理、视频内容识别;张栋梁(1991—),男,山东,硕士研究生,主 要研究方向为视频内容检测、视频行为识别;齐振囯( 1989—),男,山西,博士研究生,主要研究方向为信号处理、机器学习;郑男( 1994—), 女,山西,硕士研究生,主要研究方向为图像处理。
专利名称:一种基于卷积神经网络的三维立体图识别系统专利类型:发明专利
发明人:王子彤,姜凯,秦刚,李朋
申请号:CN201910653153.9
申请日:20190719
公开号:CN110363168A
公开日:
20191022
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于卷积神经网络的三维立体图识别系统,属于人工智能数据处理技术领域。
本发明的基于卷积神经网络的三维立体图识别系统包括输入图像缓存模块、流程控制模块、参数分发模块、卷积与上采样基本单元和深景图像处理模块;所述流程控制模块用于给出控制信号,控制系统工作状态;参数分发模块用于存储并分发卷积神经网络计算所需参数;输入图像缓存模块用于对输入的三维立体图像进行逐像素存储。
该发明的基于卷积神经网络的三维立体图识别系统能够充分提取三维立体图像的深度信息和广度信息,并对原图像中的每个像素分类,达到分离出深景图像的目的,具有很好的推广应用价值。
申请人:山东浪潮人工智能研究院有限公司
地址:250100 山东省济南市高新区浪潮路1036号浪潮科技园S05楼北六层
国籍:CN
代理机构:济南信达专利事务所有限公司
代理人:姜明
更多信息请下载全文后查看。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010821503.0(22)申请日 2020.08.15(71)申请人 中南大学地址 410083 湖南省长沙市岳麓区麓山南路932号自动化学院(72)发明人 赵于前 杨少迪 张帆 杨振 廖苗 (51)Int.Cl.G06T 7/11(2017.01)G06T 7/00(2017.01)G06T 7/33(2017.01)G06K 9/62(2006.01)(54)发明名称一种基于全卷积网络的三维腹部CT图像多器官配准方法(57)摘要本发明公开了一种基于全卷积网络的三维腹部CT图像多器官配准方法。
首先,获取腹部CT图像数据集。
然后,引入注意力机制模块,构建基于全卷积的网络模型,对该网络模型进行训练并获得初步分割结果,再引入全连接条件随机场,进一步优化分割结果,以实现腹部CT序列多器官区域的提取。
其次,构建腹部CT序列多器官区域图像对以及基于局部相关系数数据项和空间正则化项的相似性度量函数。
最后,采用交替方向乘子法最小化相似性度量函数,实现腹部多器官区域CT图像对配准。
本发明采用先分割再配准的两步法策略,消除了外部灰度信息和噪声对腹部目标器官区域配准的干扰,时间消耗少,配准精度高,鲁棒性强。
权利要求书2页 说明书6页 附图3页CN 111968135 A 2020.11.20C N 111968135A1.一种基于全卷积网络的三维腹部CT图像多器官配准方法,其特征在于包括以下步骤:(1)获取三维腹部CT图像数据集:在公开数据库SLIVER07、LiTS和BTCV中随机读取N个腹部CT序列分类标签信息,获取并补齐相应的肝、左肾、右肾和脾的分割掩膜,组成样本训练集和测试集;(2)提取三维腹部CT序列多器官区域,具体包括以下步骤:(2-a)引入注意力机制模块,构建基于全卷积网络的分割模型:改进的全卷积网络共包含四个部分,其中第一部分包含下采样、密集卷积块、注意力机制模块各1个,激活函数3个;第二部分包含下采样、密集卷积块、注意力机制模块、上采样各1个,激活函数3个;第三部分包含下采样、密集卷积块、注意力机制模块、上采样各1个,激活函数2个;第四部分包含融合、卷积层、激活函数、上采样各1个;其中第一至第四部分上、下采样操作主要是对图像进行缩放,并通过缩放比s来控制感受野的大小,以获得图像在不同分辨率下的特征信息;第一至第三部分注意力机制模块通过压缩比r来减少特征学习的通道数量,使之成为轻量级模块;第一、第二、第三部分分别提取不同分辨率层的特征信息后并行输出作为第四部分的输入,密集卷积块由多个密集卷积层组成,每个卷积层的输入由前面所有层的输出拼接而成;(2-b)训练网络模型,获得三维腹部多器官分割掩膜:采用步骤(2-a)构建的网络模型对步骤(1)所得的样本训练集进行训练,以获得样本测试集的腹部CT序列多器官分割掩膜结果;(2-c)优化步骤(2-b)所得分割结果,实现腹部CT序列多器官区域的最终提取;(3)构建腹部CT序列多器官区域图像对(浮动图像与固定图像):根据样本测试集中每个序列相应的多器官提取结果,随机抽取1个序列图像作为参考,并将剩余序列图像依次与其配对,获得多组腹部CT序列多器官区域图像对;(4)构建配准相似性度量函数:其中,I0为固定图像(参考图像),I1为浮动图像,T为形变向量场,Sim为配准数据项,Reg 为空间正则化项,λ为平衡数据项和正则化项之间误差的常数;(5)采用交替方向乘子法最小化相似性度量函数,实现腹部多器官区域CT图像对的配准。
专利名称:一种基于多模态卷积神经网络的视频检索方法专利类型:发明专利
发明人:周玲强,英天煜,吴茂英,厉晓华,王亮,周永广,吕佳颖,林珊珊,王敏娴
申请号:CN201611106368.1
申请日:20161206
公开号:CN106682108A
公开日:
20170517
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于多模态卷积神经网络的视频检索方法,包括:步骤1,针对视频数据库中的视频,利用各视频中相邻帧的色彩信息特征,将各视频分割为多个子视频片段;步骤2,提取每个子视频片段的关键帧;步骤3,针对视频数据库中的视频,提取视频的视频特征;步骤4,将子视频片段、关键帧和视频特征作为输入,对标准卷积神经网络模型进行训练,得到多模态卷积神经网络;步骤5,针对待检索视频,提取关键帧和视频特征并作为输入,利用步骤4的多模态卷积神经网络进行相似性判断,得到检索结果。
本发明基于多模态卷积神经网络,同时充分考虑视频的本质特征,能够克服因视频亮度模糊、亮度整体漂移、再编辑视频等导致检索准确度不高的问题。
申请人:浙江大学
地址:310027 浙江省杭州市浙大路38号
国籍:CN
代理机构:杭州求是专利事务所有限公司
代理人:忻明年
更多信息请下载全文后查看。
专利名称:一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
专利类型:发明专利
发明人:赵洲,许亦陈,肖舒文
申请号:CN201911266940.4
申请日:20191211
公开号:CN110933518A
公开日:
20200327
专利内容由知识产权出版社提供
摘要:本发明公开了一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法。
1)针对一组视频,切割构建视频片段。
利用全卷积神经网络,提取视频每个镜头的视觉特征。
2)利用局部自注意力机制,学习视频片段中所有镜头之间的语义关系,并生成视频镜头的视觉特征。
3)利用查询相关的全局注意力机制,学习视频不同片段之间的语义关系,并生成面向查询的视频镜头的视觉特征。
4)计算视频镜头和用户查询之间的相似度得分,用来生成查询相关的视频摘要。
相比于一般视频摘要解决方案,本发明利用卷积多层注意力机制,能够更准确地反映查询相关的视频视觉特征,产生更加符合的视频摘要。
本发明在视频摘要中所取得的效果相比于传统方法更好。
申请人:浙江大学
地址:310058 浙江省杭州市西湖区余杭塘路866号
国籍:CN
代理机构:杭州求是专利事务所有限公司
代理人:郑海峰
更多信息请下载全文后查看。
专利名称:一种基于三维卷积神经网络的视频分类方法专利类型:发明专利
发明人:孙建德,赵冬,李静
申请号:CN201510380973.7
申请日:20150630
公开号:CN104966104A
公开日:
20151007
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于三维卷积神经网络的视频分类的方法,属于视频处理技术领域。
此方法将视频等间隔采样为多个视频段,扩增了视频数据库,将三维视频段直接输入到3D CNN中,同时提取视频的时域和空域特征,改善了传统视频分类方法因人工选取视频特征及视频建模方式的局限性。
并行分布式3D CNN多分类模型降低了3D CNN学习的复杂度,同时使得分类系统更方便的实现分布式并行计算。
基于3D CNN多分类系统能够仅用较少的视频段就达到较高的识别率,并能够将不属于任意类别的视频分类为新增类别,避免了对新增类别的分类错误。
申请人:孙建德
地址:250100 山东省济南市历城区山大南路27号山东大学信息科学与工程学院
国籍:CN
更多信息请下载全文后查看。
专利名称:基于多注意力U-Net全卷积网络的视网膜图像视盘提取方法
专利类型:发明专利
发明人:魏丽芳,陈楠,李军,徐宏韬,杨长才,周术诚,陈日清
申请号:CN202210029904.1
申请日:20220112
公开号:CN114387437A
公开日:
20220422
专利内容由知识产权出版社提供
摘要:本发明涉及一种基于多注意力U‑Net全卷积网络的视网膜图像视盘提取方法,包括以下步骤:步骤S1:获取原始彩色视网膜图像,并采用最亮点提取及区域模糊最亮区域的方法进行感兴趣区域提取;步骤S2:根据提取的感兴趣区域图像,采用RGB通道分离,并对分离后的红色通道图像进行直方图均衡化和标准化处理;步骤S3:将红色通道图像,直方图均衡化图图像和标准化图像进行通道融合产生新的三通道图像;步骤S4:基于多注意力U‑Net全卷积网络,构建并训练视网膜图像视盘分割模型;步骤S5将将通道融合后的图像数据输入视网膜视盘分割模型进行视网膜图像视盘提取分割。
本发明实现了视网膜图像视盘的高精度提取分割。
申请人:福建农林大学
地址:350002 福建省福州市仓山区上下店路15号
国籍:CN
代理机构:福州元创专利商标代理有限公司
更多信息请下载全文后查看。
基于注意力机制与三维卷积聚合的动作识别作者:张君秋赵建光来源:《现代信息科技》2023年第17期摘要:由于視频数据大量,视觉内容丰富,如何有效地提取视频中的时间特征,有效地融合时空特征是动作识别中的一个难题。
针对这些困难,提出了一种基于注意力机制和三维卷积聚合的动作识别新算法。
为了验证该算法的有效性,在大型公共行为数据集UCF101上进行了验证。
实验结果表明,该算法具有良好的时间特征建模能力,有效地提高了动作识别的精度。
关键词:动作识别;注意力机制;模型聚合;三维卷积;双流架构中图分类号:TP391.4 文献标识码:A 文章编号:2096-4706(2023)17-0071-05Action Recognition Based on Attention Mechanism and Three-dimensional Convolutional AggregationZHANG Junqiu, ZHAO Jianguang(Information Engineering College, Hebei University of Architecture, Zhangjiakou 075000, China)Abstract: Due to the large amount of video data and rich visual content, how to effectively extract the temporal features in the video and effectively fuse the spatiotemporal features is a difficult problem in action recognition. To solve these difficulties, a new algorithm for action recognition based on attention mechanism and three-dimensional convolutional aggregation is proposed. To verify the effectiveness of the algorithm, it is verified on the large public behavior dataset UCF101. The experimental results show that the algorithm has good temporal feature modeling ability, which effectively improves the accuracy of action recognition.Keywords: action recognition; attention mechanisms; model aggregation; three-dimensional convolution; dual-stream architecture0 引言近年来,动作识别[1]已逐渐成为研究的热点领域,并在智能监控[2]和人机交互[3]中得到了广泛的应用。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910300859.7
(22)申请日 2019.04.15
(71)申请人 方玉明
地址 330013 江西省南昌市江西财经大学
麦庐园校区信息管理学院
(72)发明人 方玉明 黄汉秦 左一帆 温文媖
万征
(74)专利代理机构 北京科亿知识产权代理事务
所(普通合伙) 11350
代理人 汤东凤
(51)Int.Cl.
G06K 9/00(2006.01)
G06K 9/32(2006.01)
G06N 3/04(2006.01)
(54)发明名称一种基于多模块全卷积网络的三维视频视觉注意力检测方法(57)摘要本发明涉及一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:首先利用图片数据集训练静态全卷积网络(S -FCN)来获取空间特征,从而求得三维视频帧的空间显著性;其次利用二维视频数据集训练动态全卷积网络(T -FCN)并结合其相应的S -FCN结果来获取运动信息,从而求得三维视频帧的时间显著性;最后利用三维视频数据集训练深度全卷积网络(D -FCN)并结合对应的T -FCN结果来获取深度信息,从而求得三维视频最终的视觉关注图。
实验结果在三维视频的视觉关注图中展现了良好的
效果。
权利要求书2页 说明书7页 附图2页CN 109993151 A 2019.07.09
C N 109993151
A
1.一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:首先利用静态全卷积网络(S -FCN)提取空间特征,从而求得三维视频帧的空间显著性;其次利用动态全卷积网络(T -FCN)提取运动信息,从而求得三维视频帧的时间显著性;最后利用深度全卷积网络(D -FCN)提取深度信息,求得三维视频帧的最终视觉关注图。
2.根据权利要求1所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:还包括视觉特征,视觉特征包含:空间特征、运动特征、深度特征。
3.根据权利要求2所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:先利用图片数据集训练好静态全卷积网络(S -FCN),然后分别用三维视频的左右视图去测试S -FCN,得到各自带有空间特征的显著图。
4.根据权利要求2所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:利用二维视频数据集以及视频帧对应的S -FCN结果去训练动态全卷积网络(T -FCN),然后分别用三维视频的左右视图去测试T -FCN,得到各自带有运动特征的显著图;利用三维视频数据集以及视频帧对应的T -FCN结果去训练深度全卷积网络(D -FCN),最终用三维视频的左视图去测试D -FCN,得到最终的三维视频视觉关注图。
5.根据权利要求3或4所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:
在各个子网络训练过程中的损失函数可由式(1)来表达:
y i 代表训练数据集中的标签图,y i ∈(y 1,y 2,...,y N );N代表输入数据的数量;y`i 代表网络计算出来的显著图。
6.根据权利要求3或4所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:
各个子网络的激活函数Relu可由式(2)来表达:
x代表激活函数的输入。
7.根据权利要求3或4所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:
各个子网络的优化算法Adam可由式(3)来表达:
m t 和v t 分别为一阶动量项和二阶动量项;β1、β2
为动力值大小通常分别取0.9和0.999;分别为各自的修正值;W t 表示t时刻即第t迭代模型的参数;g t =ΔJ(W t )表示t次迭代代价函数关于W的梯度大小;∈是一个取值很小的数,为1e -8。
8.根据权利要求1所述的一种基于多模块全卷积网络的三维视频视觉注意力检测方法,其特征在于:网络框架包含三个子网络,它们分别是:用于计算空间显著性的静态全卷积网络(S -FCN),用于估计时间显著性的动态全卷积网络(T -FCN),以及用于估计深度显著性的深度全卷积网络(D -FCN);在三个子网络中,它们的网络结构类似:在上采样的过程中,包含13个卷积层;在下采样的过程中,包含4个反卷积层和7个卷积层。
权 利 要 求 书1/2页2CN 109993151 A。