一种基于深度学习的目标检测提取视频图像关键帧的方法
- 格式:doc
- 大小:406.00 KB
- 文档页数:4
基于深度学习的视频内容分析与关键帧提取视频内容分析是指通过运用深度学习技术对视频进行分析和理解,从而提取出视频中的关键帧。
深度学习是一种机器学习方法,通过构建多层神经网络模型来模拟人类大脑处理信息的方式。
它可以自动学习和提取特征,以实现对复杂任务的解决。
在视频内容分析中,关键帧提取是一个重要的步骤。
关键帧是指在视频中具有重要信息或变化的帧画面,可以代表视频内容的特征。
通过提取关键帧,可以有效地压缩视频数据,并减少对存储和传输资源的需求。
此外,关键帧提取还在视频搜索、视频摘要和视频内容分析等领域具有广泛的应用。
深度学习在视频内容分析中发挥了重要作用。
首先,深度学习可以通过训练模型来学习和提取视频中的特征,包括颜色、纹理、形状等。
通过大量的视频数据和深度神经网络的训练,可以得到更准确和鲁棒的特征表示。
其次,深度学习可以建立复杂的模型来理解视频的语义信息。
通过深度卷积神经网络和循环神经网络的结合,可以对视频进行时间和空间上的建模,进一步提高关键帧提取的准确性和效果。
在深度学习方法中,常用的模型包括卷积神经网络(CNN)和循环神经网络(RNN)。
卷积神经网络主要用于提取视频帧的空间特征,通过多层卷积层和池化层,可以逐渐减少特征图的尺寸,并提取出有代表性的特征。
而循环神经网络则主要用于处理序列数据,如视频帧的时间顺序。
通过循环隐藏层的记忆性,RNN可以捕捉视频中的时间相关性,从而更好地理解视频的语义信息。
在基于深度学习的视频内容分析中,通常的步骤包括数据预处理、特征提取和关键帧提取。
首先,需要对视频数据进行预处理,例如解码、采样和标准化。
然后,通过卷积神经网络提取视频帧的空间特征,同时利用循环神经网络建立视频帧之间的时间关系。
最后,通过设计适当的评估指标,可以筛选出关键帧,并得到最终的结果。
当前,基于深度学习的视频内容分析与关键帧提取已经取得了许多重要进展。
例如,通过引入注意力机制和生成对抗网络,可以进一步提高关键帧提取的效果。
基于机器学习的视频内容理解与关键帧提取近年来,随着互联网技术的快速发展,视频内容的产出量呈现爆炸式增长。
如何高效地理解和处理这些海量视频内容成为一个重要的挑战。
基于机器学习的视频内容理解与关键帧提取技术应运而生,为我们提供了一种更快速、准确的方法来分析和理解视频内容。
基于机器学习的视频内容理解是指利用机器学习算法对视频内容进行自动化的分析和解释。
传统的视频内容处理方法通常需要人工介入,而这种方法不仅耗时耗力,还不能保证准确性。
而基于机器学习的方法则可以通过对大量视频数据进行学习和训练,自动捕捉关键信息并进行有效的分析。
在视频内容理解中,关键帧提取是其中的一个重要环节。
关键帧提取的目的是从视频序列中选取能够最好地代表整个视频内容的帧,以便在后续处理中能够更快速地进行视频索引和检索。
传统的关键帧提取方法通常基于图像处理技术,通过计算帧间差异、颜色直方图等指标来选择关键帧。
然而,这些方法往往会受到噪声、光照变化等因素的影响,导致提取结果不尽人意。
基于机器学习的关键帧提取方法则通过利用大规模视频样本集进行训练,采取深度学习等技术手段来提取关键帧。
这种方法能够更好地理解视频内容的复杂性和语义信息,从而提高关键帧提取的准确性和效率。
通过对视频内容进行深度学习,机器可以自动学习到视频中的重要特征和模式,从而实现更准确和高效的关键帧提取。
基于机器学习的视频内容理解和关键帧提取技术的应用广泛。
在图像识别和物体检测领域,这一技术能够极大地提高识别和检测的准确性和效率。
例如,在视频监控中,基于机器学习的方法可以实时地检测出异常行为或者危险物品,提高安全防范的水平。
另外,在视频编辑和内容推荐领域,这一技术也可以实现自动化的视频编辑和个性化的内容推荐,提供更好的用户体验和个性化服务。
然而,基于机器学习的视频内容理解和关键帧提取技术也面临着一些挑战。
首先,视频内容的复杂性和多样性给算法设计和模型训练带来了困难。
如何充分考虑视频中的语义信息、动作特征以及上下文关系等因素,是一个需要深入研究的问题。
基于深度学习的视频关键帧提取算法研究摘要:随着互联网和数字媒体的快速发展,视频数据的数量和规模不断增长。
视频关键帧提取算法在视频内容分析、视频检索和视频摘要等领域具有重要应用价值。
本文研究了基于深度学习的视频关键帧提取算法,探讨了其原理、方法和实现过程,并对其应用前景进行了展望。
1.引言随着移动互联网和社交媒体的普及,人们对视频数据的需求越来越高。
然而,海量的视频数据使得人们在观看和搜索视频时面临着困难。
视频关键帧提取算法能够从视频序列中自动选择表达视频内容的关键帧,以便于用户快速浏览和搜索视频,提升用户体验。
2.相关工作2.1 传统方法传统的视频关键帧提取算法主要基于图像处理和机器学习技术。
这些方法通常使用手工设计的特征提取器和分类器来进行关键帧的选择,但往往面临着通用性差、效率低和提取效果不佳的问题。
2.2 基于深度学习的方法近年来,深度学习技术在计算机视觉领域取得了显著的成果。
基于深度学习的视频关键帧提取算法通过利用深度神经网络自动学习视频特征表示,能够提高提取效果和适应性。
3.基于深度学习的视频关键帧提取算法3.1 数据预处理在深度学习算法中,数据预处理是一个重要的环节。
对于视频关键帧提取,首先需要将视频转化为图像序列,并进行大小归一化和图像增强等处理。
3.2 特征表示学习通过卷积神经网络(Convolutional Neural Network,CNN)等深度学习模型,提取视频图像序列的特征表示。
深度学习模型能够自动学习到更具有判别性的特征,从而提高关键帧提取的准确性。
3.3 关键帧选择在学习到的特征表示基础上,利用聚类、分类或回归方法进行关键帧的选择。
聚类方法通常将相似的特征聚集到一起,从而选取代表性帧作为关键帧。
分类方法则通过训练一个分类器来判断每一帧是否为关键帧。
回归方法则是通过回归模型预测每一帧的关键帧得分,从而选取得分最高的帧作为关键帧。
4.实验与评估通过实验比较基于深度学习的视频关键帧提取算法与传统方法的效果差异。
基于深度学习的视频目标识别与跟踪视频目标识别与跟踪是一项基于深度学习的前沿技术,它的应用广泛,包括视频监控、自动驾驶、人机交互等领域。
本文将详细介绍基于深度学习的视频目标识别与跟踪的原理、方法及其在各个领域的应用。
首先,我们先来了解一下视频目标识别与跟踪的概念。
视频目标识别是指在视频中自动识别和定位特定目标的过程,而目标跟踪则是在视频序列中,在帧与帧之间追踪目标的过程。
这两个任务通常是相互关联的,目标跟踪需要先进行目标识别,然后才能进行跟踪。
目前,深度学习在视频目标识别与跟踪任务中取得了巨大的突破。
深度学习通过使用多层神经网络,可以从原始数据中自动学习高层次的特征表示,从而提高目标识别与跟踪的准确性和鲁棒性。
下面我们将重点介绍基于深度学习的视频目标识别与跟踪的方法和技术。
对于视频目标识别任务,常用的深度学习方法包括卷积神经网络(Convolutional Neural Network,简称CNN)和循环神经网络(Recurrent Neural Network,简称RNN)。
CNN可以提取图像的空间特征,通过多次卷积和池化操作可以提取出目标的形状、纹理等特征;RNN则可以利用其记忆性,对时间序列数据进行建模,从而克服目标在不同帧之间的变化。
当前,许多先进的视频目标识别模型如YOLO、Faster R-CNN、SSD等都基于深度学习框架构建,这些模型在目标识别精度和速度上有着较大的改进。
对于视频目标跟踪任务,常用的深度学习方法包括基于卷积神经网络的目标跟踪器和基于循环神经网络的目标跟踪器。
基于卷积神经网络的目标跟踪器通过在两个帧之间匹配特征来实现目标的跟踪,例如Siamese网络、DaSiamRPN等;基于循环神经网络的目标跟踪器则通过对目标在时间序列上进行建模,从而进行目标跟踪,例如LSTM-based目标跟踪器。
这些跟踪器通过不断学习和更新模型,能够在复杂的背景和目标变化的情况下实现准确的跟踪。
深度学习技术在视频分析和动作识别中的应用方法在现代社会中,视频成为了人们获取信息和娱乐的重要方式之一。
然而,随着视频数据的迅速增长,如何高效地分析和识别其中的内容变得尤为关键。
深度学习技术作为一种强大的机器学习工具,已经被广泛应用于视频分析和动作识别领域,极大地改善了视频处理的效率和准确性。
首先,深度学习技术在视频分析中的应用方法为我们提供了更准确和高效的视频分类和识别能力。
传统的视频分析方法通常基于手工设计的特征提取和机器学习算法,而深度学习通过神经网络的层次化学习能力,可以自动地从视频中学习出更抽象、更有表达力的特征表示。
例如,当我们面对一个包含不同动作的视频集时,深度学习模型可以学习到每个动作的关键帧和特征,从而进行准确的分类和识别。
相比传统方法,深度学习技术能够更好地捕捉到视频中的细节和上下文信息,提高了视频分析的准确性和效率。
其次,深度学习技术在动作识别中的应用方法进一步增强了视频分析的能力。
动作识别是指从视频序列中区分和识别出特定动作的能力。
在传统的动作识别方法中,通常需要手工设计的特征和复杂的分类器。
然而,这些方法在面对复杂的场景和变化的条件时往往效果不佳。
而深度学习技术的出现,通过其强大的模式识别能力,从原始的视频数据中提取出丰富的特征信息,并直接进行动作分类和识别。
例如,可以使用卷积神经网络(CNN)对视频序列进行帧级别的特征提取和学习,然后使用长短时记忆网络(LSTM)等结构进行时间序列的建模和动作识别。
这种端到端的深度学习方法不仅大大简化了动作识别的流程,同时也提高了识别的准确性。
此外,深度学习技术在视频目标检测和跟踪中也有着广泛的应用。
视频目标检测和跟踪是指从视频中实时定位和追踪特定目标的能力。
深度学习模型通过从大量的标注数据中进行训练,可以学习到目标的视觉特征和运动模式,从而在视频中进行目标检测和跟踪。
例如,可以使用基于深度学习的目标检测方法如Faster R-CNN、YOLO等来检测视频中的目标物体,然后使用相关滤波等算法进行目标的跟踪。
基于目标检测技术的视频内容理解研究随着信息技术和数字化的快速发展,视频成为了人们获取信息和娱乐的重要途径。
视频内容理解技术因此也变得越来越重要。
其中,基于目标检测技术的视频内容理解研究,成为了此领域一个重要的分支。
目标检测技术是计算机视觉领域的一个重要分支,主要包括图像特征提取、分类器构建和目标检测三个方面。
目标检测技术的主要任务是在图像或视频中对感兴趣的目标进行检测和定位。
这项技术可以被广泛应用于安防监控、智能交通、医学影像分析等领域。
在视频内容理解领域,基于目标检测技术的研究,主要应用于以下几个方面:一、视频关键帧自动提取视频是由一系列图像帧组成的,其关键帧一般是表现视频主题的重要图像。
传统的自动提取关键帧算法主要有两种:一种基于图像亮度值的分析,另一种是基于背景差异的分析。
虽然该方法可以在一定程度上提高关键帧的准确度和效率,但是对于一些复杂场景下的视频内容进行分析时,这种方法的检测和分析效果很难达到预期。
而基于目标检测技术的视频关键帧提取方法则能够很好地解决这个问题。
该方法可以按照关键帧中是否有被检测到的目标进行分类,将关键帧选取为目标检测最好的图像帧。
这种方法可以适应各种复杂场景,并具有较好的效果。
二、视频目标追踪视频目标追踪是指在视频中不间断地对某个目标进行位置跟踪。
基于目标检测的视频目标追踪方法主要分为两种。
一种是基于目标检测后再追踪,先定位到目标,再使用跟踪算法跟踪。
另一种是基于连续跟踪算法,直接对运动目标进行连续跟踪。
这两种方法都有各自的优缺点,在实际应用场景中需要根据具体情况进行选择。
基于目标检测技术的视频目标追踪方法能够在复杂场景下很好地跟踪目标,实现对目标的持续跟踪和分析。
三、视频内容的智能检索随着视频数据量的不断增加,如何高效地检索关键信息成为了视频内容理解领域面临的一个重要问题。
传统的视频检索技术更多地是基于人工标注和文本信息来进行检索。
而基于目标检测技术的视频内容智能检索,则可以实现通过图像特征来进行检索的自动化。
视频镜头分割及关键帧提取技术研究
随着数字媒体技术的不断发展和普及,视频内容的处理和分析变得日益重要。
其中,视频镜头分割和关键帧提取技术是视频内容分析的关键步骤。
本文将对这两种技术进行研究和探讨。
视频镜头分割是指将视频划分为不同的镜头,每个镜头代表了一个连续的时间段,具有相似的内容和视觉特征。
镜头分割的主要目标是找到镜头间的转换点,即镜头边界。
传统的视频镜头分割方法通常基于颜色直方图、运动特征和纹理特征等,但是由于视频内容的复杂性和多样性,传统方法往往存在一定的局限性。
因此,近年来,基于深度学习的方法在视频镜头分割领域取得了显著的进展。
通过使用卷积神经网络(CNN)等深度学习模型,可以从视频中自动学习到更加丰富和抽象的特征表示,从而提高镜头分割的准确性和鲁棒性。
关键帧提取是指从视频中选择一些具有代表性和重要意义的关键帧,以表示整个视频的内容。
关键帧提取的目标是识别出最能够代表视频内容的帧,并且尽量减少冗余信息。
传统的关键帧提取方法通常基于图像质量、颜色直方图和运动特征等,但是这些方法往往无法充分考虑到视频的语义信息。
因此,近年来,基于深度学习的方法也被应用于关键帧提取领域。
通过使用循环神
经网络(RNN)等深度学习模型,可以对视频的时序信息进行建模,从而提取出更加具有代表性和语义信息的关键帧。
总的来说,视频镜头分割和关键帧提取技术在视频内容分析中起着重要的作用。
通过研究和应用深度学习模型,可以有效地提高这两种技术的性能和效果。
未来,随着深度学习算法的不断发展和优化,视频内容分析领域将迎来更加广阔的发展空间,为我们提供更加丰富和便捷的视频内容处理和分析方法。
视频内容分析与关键帧提取算法研究随着互联网的高速发展,视频成为了人们生活中必不可少的媒体之一。
在大量的视频数据中,如何高效地提取出关键信息,成为了研究的重要课题之一。
视频内容分析与关键帧提取算法的研究,正是为了解决这一问题而展开的。
一、视频内容分析视频内容分析是指通过对视频中的图像和音频进行解析,从而获取视频的各种特征和信息。
通过视频内容分析,我们可以实现视频检索、视频摘要、视频分类等应用。
1. 视频特征提取视频特征提取是视频内容分析的基础工作。
常用的视频特征包括颜色特征、纹理特征、形状特征、运动特征等。
其中,颜色特征可以通过提取关键帧的颜色直方图来得到,纹理特征可以通过提取关键帧的纹理特征描述符来得到,形状特征可以通过提取目标物体的轮廓信息来得到,运动特征可以通过分析关键帧之间的光流变化来得到。
2. 视频目标检测视频目标检测是视频内容分析的一个重要应用领域。
目标检测的目的是在视频中自动识别出特定的目标物体。
常用的目标检测方法包括基于帧间差分的运动目标检测、基于光流的运动目标检测、基于深度学习的物体检测等。
3. 视频关键帧提取关键帧是视频中具有代表性和信息丰富程度高的帧,提取关键帧可以减少视频数据量,提高视频处理的效率,并且方便快速浏览和检索。
关键帧提取一般基于图像质量评价和关键帧选取策略。
图像质量评价可以通过计算图像的清晰度、对比度、亮度等指标来进行,关键帧选取策略可以采用基于颜色分布、运动特征、局部相似性等方法。
二、关键帧提取算法研究关键帧提取算法的目标是从视频序列中自动选择具有代表性和信息变化较大的图像帧。
关键帧提取算法的研究旨在提高关键帧的准确性和有效性。
1. 基于图像质量评价的关键帧提取算法图像质量评价是判断图像的视觉质量的重要指标。
基于图像质量评价的关键帧提取算法通过计算帧间差异、帧内相似性等指标来评估每个帧的质量,从而选取出具有代表性的关键帧。
常用的图像质量评价方法包括均方差(MSE)、结构相似性指数(SSIM)、峰值信噪比(PSNR)等。
深度学习技术在视频目标检测中的使用教程近年来,深度学习技术取得了在图像和视频处理领域的巨大成功,其中之一就是在视频目标检测中的应用。
视频目标检测是指从连续的视频序列中提取并跟踪感兴趣的目标物体。
本文将介绍深度学习技术在视频目标检测中的使用教程,并向读者展示如何实现一个简单但有效的视频目标检测系统。
首先,深度学习技术的核心是神经网络。
在视频目标检测中,我们可以使用卷积神经网络(Convolutional Neural Network,CNN)来实现目标检测模型。
CNN是一种在计算机视觉领域应用广泛的深度学习模型,其具有对图像进行特征提取和分类的能力。
第一步是准备数据集。
在进行视频目标检测之前,我们需要收集并标注一组包含目标物体的视频序列。
通常,这些视频序列需要经过一定的预处理,如裁剪、缩放和帧提取等。
此外,我们还需要为每个目标物体提供相应的标签,以便模型能够识别和跟踪它们。
第二步是构建目标检测模型。
在视频目标检测中,我们可以使用一种称为单阶段检测器的模型,如YOLO(You Only Look Once)或SSD(Single Shot MultiBox Detector)。
这些模型具有高效的实时检测能力,能够在一次前向传递中同时进行目标定位和分类。
在训练目标检测模型之前,我们需要将数据集分为训练集和测试集。
训练集用于训练模型的参数,而测试集则用于评估模型的性能。
此外,为了更好地训练模型,我们还可以使用数据增强技术,如随机旋转、平移和缩放等。
这些技术可以帮助模型更好地适应不同的目标物体姿态和尺度变化。
接下来,我们需要选择一个适当的损失函数来衡量模型的性能。
在目标检测中,常用的损失函数包括交叉熵损失和均方差损失。
交叉熵损失可用于目标的分类任务,而均方差损失通常用于目标的定位任务。
通过最小化损失函数,我们可以训练模型以准确地检测和跟踪目标物体。
最后,我们需要对训练好的模型进行评估和测试。
评估指标通常包括准确率、召回率和平均精度均值(Average Precision)。
一种基于深度学习的目标检测提取视频图像关键帧的方法
作者:杨非凡廖兰芳
来源:《电脑知识与技术》2018年第36期
摘要:针对传统的关键帧提取方法误差率高、实时性差等问题,提出了一种基于深度学习的目标检测提取视频图像关键帧的方法,分类提取列车头部、尾部及车身所在关键帧。
在关键帧提取过程中,重点研究了基于SIFT特征的粗识别和Alex-Net卷积神经网络模型的精识别两个阶段,通过模型训练验证基于卷积神经网络的关键帧提取器的可行性。
关键词:卷积神经网络(CNN);关键帧;目标检测
中图分类号:TP391; ; 文献标识码:A; ; ;文章编号:1009-3044(2018)36-0201-03
1 概述
随着我国铁路的不断发展,铁路在运行过程中的安全性问题日益凸显,视频监控在铁路交通安全中起着至关重要的作用。
通过摄像头监控、互联网的传播,监控画面实时显示,铁路部门可以利用视频中的有效图像信息,对视频流进行处理,从而有效地保证铁路系统的正常运营。
因此,如何快速有效地提取铁路视频图像中的关键帧信息,是本文研究的重点。
考虑到视频中相邻帧的重复率一般比较高,关键帧的提取可以减少帧数,进而提升图像特征点检测和匹配效率,同时也为图像拼接提供一个组织框架。
针对这项关键技术,得到了研究者们的广泛关注,并取得了一定研究成果。
文献[1]从相邻帧间的颜色或纹理信息变化程度出发,提出了基于视频内容的方法。
文献[2]通过计算当前帧与类心之间特征值的距离,将视频中所有帧进行聚类分析,得到基于视频聚类的分析方法。
文献[3]提出基于运动特征分析的算法,其基本原理是利用光流分析,将视频中运动量最小的一帧作为关键帧。
上述的三类传统算法主要基于图像整体信息的变化来选定关键帧,容易造成关键帧选取错误、计算量大、实时性差等问题。
因此,本文在此基础上使用一种基于深度学习的目标检测方法,通过建立卷积神经网络(Convolutional Neural Network,CNN)模型,分类提取视频中列车头部、尾部及车身所在关键帧,使得基于深度学习的目标检测在关键帧提取的应用中成为可能。
2 卷积神经网络概述
作为深度学习在计算机视觉领域应用的关键技术,卷积神经网络是通过设计仿生结构来模拟大脑皮层的人工神经网络,可实现多层网络结构的训练学习。
同传统的图像处理算法相比较,卷积神经网络可以利用局部感受野,获得自主学习能力,以应对大规模图像处理数据,同时权值共享和池化函数设计减少了图像特征点的维数,降低了参数调整的复杂度,稀疏连接提高了网络结构的稳定性,最终产生用于分类的高级语义特征,因此被广泛应用于目标检测、图像分类领域。
2.1 基本结构
利用卷积神经网络模型的自主学习能力,可以实现目标检测,本节主要介绍一种典型的卷积神经网络结构,如图1所示。
卷积神经网络是一种多层深度网络结构,主要由输入层、卷积层、池化层、全连接层和输出层等部分组成。
输入层是需要处理的图像,计算机可将其理解为若干矩阵。
卷积层是卷积神经网络的重要组成部分,通过输入层和卷积层之间矩阵的卷积运算,提取输入图像的特征。
池化层也是卷积神经网络的重要组成部分,通常设置在卷积层之后,作用是对输入图像的目标区域像素取平均值(Average)或最大值(Max),即降采样处理,降低特征图像分辨率的同时避免出现过拟合。
全连接层位于最后一个池化层和输出层之间,由0个或多个组成,其中每一个神经元都与前一层的全部神经元相连接,并根据目标检测的需要,有针对性地将特征向量映射到输出层,便于分类。
输出层位于神经网络的最后,设定为Softmax回归,主要作用是对全连接层映射过来的输入向量进行分类,最终输出一维预测向量,维数等于分类的数目。
卷积神经网络中卷积层+池化层的组合,可以根据实际任务需要重复出现多次。
通过多层神经网络的特征提取,逐步由空间特征到深层语义特征,得到不同深度的特征表达能力,最终经过全连接层和输出层得到目标检测的结果。
因此,根据每层的功能,卷积神经网络可以划分为两个部分——由输入层、卷积层和池化层构成的特征提取器以及由全连接层和输出层构成的分类器。
2.2 训练方法
卷积神经网络的训练方法如图2所示,主要由前向传播和反向传播两部分组成。
前向传播是样本数据由低层到高层逐层传播的过程,如果前向传播得到的输出值与目标值存在误差,则将误差从高层往低层反向传播回网络中,计算误差梯度,最后利用误差梯度更新卷积神经网络每一层参数的权重,达到自主学习的能力。
2.3 常用模型
经过近二十年的快速发展,涌现出了众多卷积神经网络模型结构,从早期用于手写数字识别的LeNet模型到最近的深度残差学习ResNet模型,卷积神经网络的层数和深度不断增加,图像识别的准确度也不断提高。
1998年LeCun等人[文献4]设计了早期最具代表性的卷积神经网络LeNet,主要有2个卷积层、2个下抽样层(池化层)、3个全连接层组成。
2012年,Krizhevsky等人[文献5]提出的Alex-Net模型在ILSVRC竞赛中大幅度提高了图像分类的准确率,模型包含5个卷积层、3个池化层以及3个全连接层,通过长时间和大数据的训练(约6000万训练参数),展现了卷积神经网络在图像分类领域的巨大潜力。
VGG-Net模型于2014年由Simonyan等人[文献6]设计,一共有六种不同的网络结构,其中所有卷积核的大小均设置为3×3,体现了“简洁,深度”的特点。
2015年Szegedy等人[文献7]提出的GoogleNet模型,不同于Alex-Net和VGG-Net模型通过增大网络结构的层数来提高准确率,而是引入inception模块,改变感受野的大小,提取到更丰富的特征。
2016年He等人[文献8]提出了ResNet模型,利用残差学习缓解了网络结构层数增加到一定程度后,准确度出现退化的问题,取得了当前最好的图像识别效果。