单目视频无监督深度学习的结构化方法
- 格式:pdf
- 大小:427.25 KB
- 文档页数:10
采用无监督学习的方法,用深度摘要网络总结视频随着在线视频数量的爆炸式增长,想从茫茫网络世界中找到自己想要的视频可是要费一番功夫。
于是有人就想到,何不也给视频创作一份摘要呢?就像书的简介一样,观众只需要看看摘要,就了解视频的大概内容了。
这的确是个好方法,不过面对如此庞大的视频库,如何大批量处理它们呢?在此之前,许多研究者提出了不同的方法为视频大规模创建摘要,例如循环神经网络(RNN)、长短期记忆(LSTM)、双向长短期记忆网络(bidirectional LSTM)和行列式点处理(DPP)模块结合的方式等等。
但都是需要监督的总结方式,其中并没有一个针对所有视频的标准答案(ground truth)。
所以仍然需要无监督的摘要生成方式。
中科院和英国伦敦大学玛丽女王学院的研究人员就生成视频摘要提出了一种新方法,采用无监督学习的方法,用深度摘要网络(Deep Summarization Network,DSN)总结视频。
整个过程为连续决策过程(sequential decision-making process),DSN为编码-解码结构,其中编码器是一个能够提取视频帧特征的卷积神经网络,解码器是一个双向LSTM网络,能够基于被选中的动作生成概率。
在训练过程中,研究人员设计了新颖的多样性-代表性奖励(diversity-representativeness reward)函数,可以直接判断生成视频摘要的多样化和代表化。
下图是该模型学习过程的图示:深度摘要网络(DSN)DSN的编码器是一个卷积神经网络,它从输入的长度为T的视频框架{vt}t=1T中提取视觉特征{xt}t=1T。
解码器是一个双向循环神经网络(BiRNN),最上面是完全连接层。
将提取的{xt}t=1T输入到解码器后,生成相应的隐藏状态{ht}t=1T。
每个ht都是前隐藏状态htf 和后隐藏状态htb的连接。
在实践中,研究人员采用GoogLeNet当做CNN模型,并且用LSTM训练提升RNN的性能。
深度学习中的无监督学习方法与应用深度学习是一种基于数据表示学习的机器学习方法,其目的是对输入数据进行建模,以便能够对未知数据进行预测。
在深度学习中,无监督学习方法起着至关重要的作用。
无监督学习是指从没有标签的数据中学习模型的过程,这种学习方法在深度学习中被广泛应用,为机器学习领域带来了巨大的变革。
一、无监督学习方法的原理在深度学习中,无监督学习方法主要包括自编码器、生成对抗网络(GAN)和聚类算法等。
自编码器是一种常用的无监督学习方法,其原理是通过将输入数据压缩成编码表示,再将编码表示解压缩成与原始数据相似的输出。
通过训练自编码器,可以学习到数据的有效表示,为后续的分类和预测任务提供基础。
生成对抗网络是另一种重要的无监督学习方法,其原理是通过训练一个生成网络和一个判别网络来学习数据的分布,从而能够生成具有相似分布的数据。
聚类算法则是将数据根据其相似性进行分组,为数据分析和模式识别提供有力支持。
二、无监督学习方法在图像处理中的应用在图像处理领域,无监督学习方法发挥着重要作用。
通过自编码器和生成对抗网络等方法,可以对图像数据进行特征提取和图像生成。
例如,自编码器可以学习到图像的有效表示,使得图像可以在低维空间中被重构。
生成对抗网络则可以生成具有逼真度的图像,为图像合成和增强提供了新的可能性。
此外,聚类算法也可以对图像数据进行分析和分类,为图像检索和图像识别提供支持。
三、无监督学习方法在自然语言处理中的应用在自然语言处理领域,无监督学习方法同样发挥着重要作用。
通过自编码器和生成对抗网络等方法,可以对文本数据进行特征提取和文本生成。
例如,自编码器可以学习到文本的语义表示,使得文本可以在低维空间中被表示。
生成对抗网络则可以生成具有逼真度的文本,为文本生成和翻译提供了新的可能性。
此外,聚类算法也可以对文本数据进行分析和分类,为文本聚类和情感分析提供支持。
四、无监督学习方法在推荐系统中的应用在推荐系统中,无监督学习方法也发挥着重要作用。
在深度学习中,监督学习和无监督学习是两种常见的学习方法。
监督学习是指通过已知输入和输出的数据来训练模型,以便让模型能够预测未知数据的输出。
而无监督学习则是指使用未标记的数据来训练模型,以便让模型能够自行发现数据中的模式和规律。
在深度学习中,无监督学习方法在一些领域有着广泛的应用,例如图像识别、语音识别、自然语言处理等。
深度学习中的无监督学习方法主要包括自编码器、生成对抗网络(GAN)和聚类算法等。
这些方法在不同的应用场景中发挥着重要的作用。
自编码器是一种常见的无监督学习方法,它通过将输入数据压缩成编码,然后再将编码解压缩成与原始数据尽量相似的输出数据来学习数据的表示。
自编码器有多种变种,例如稀疏自编码器、降噪自编码器等。
自编码器在图像去噪、特征提取等领域有着广泛的应用。
生成对抗网络(GAN)是一种由两个神经网络组成的模型,分别为生成器和判别器。
生成器负责生成伪造的数据,而判别器则负责判断生成的数据是真实的还是伪造的。
生成对抗网络通过不断地博弈过程中,使得生成器生成的数据逼真程度越来越高,从而实现对数据的无监督学习。
生成对抗网络在图像生成、视频生成等领域有着广泛的应用,例如可以用来生成艺术作品、虚拟角色等。
除了自编码器和生成对抗网络,聚类算法也是深度学习中常见的无监督学习方法之一。
聚类算法是指将数据集中的数据划分为若干个类别的方法,常见的聚类算法包括K均值聚类、层次聚类等。
聚类算法在无监督学习中有着重要的应用,例如在社交网络分析、市场分析等领域中可以通过聚类算法来发现数据中的潜在模式和规律。
除了上述的无监督学习方法之外,深度学习中还有一些新的无监督学习方法正在不断地被提出和研究。
例如变分自编码器(VAE)是一种同时具有自编码器和概率生成模型特点的模型,它可以用来生成数据,还可以学习数据的潜在分布。
变分自编码器在图像生成、音乐生成等领域有着广泛的应用。
另外,自监督学习也是深度学习中的一个研究热点,它是一种同时具有监督学习和无监督学习特点的学习方法,通过利用数据本身的属性来进行学习,避免了手动标记数据的成本。
深度学习中的无监督学习方法与应用在深度学习领域,无监督学习方法一直备受关注。
与监督学习不同,无监督学习不需要标记的训练数据,而是通过对数据的自动学习和聚类来发现数据中的模式和结构。
这种方法在处理大规模数据、自然语言处理、图像识别等领域有着广泛的应用。
本文将探讨无监督学习在深度学习中的方法和应用。
一、无监督学习方法无监督学习方法主要包括自编码器、生成对抗网络(GAN)、聚类等。
其中,自编码器是一种常见的无监督学习方法。
它通过将输入数据编码成潜在空间的表示,再将其解码成原始输入来学习数据的特征。
自编码器可以用于降维、特征提取和去噪等任务。
生成对抗网络是另一种重要的无监督学习方法,它由生成器和判别器组成,通过对抗训练来生成接近真实数据的样本。
聚类算法则是将数据分成不同的类别,常见的算法包括K均值、层次聚类等。
二、无监督学习在图像处理中的应用在图像处理领域,无监督学习方法有着广泛的应用。
自编码器可以用于图像去噪,通过学习数据的特征来去除图像中的噪声。
生成对抗网络可以用于图像生成,它可以生成逼真的图像样本,被广泛应用于风格迁移、图像修复等任务。
聚类算法可以用于图像分割,将图像分成不同的区域,有助于图像分析和理解。
三、无监督学习在自然语言处理中的应用在自然语言处理领域,无监督学习方法也有着重要的应用。
自编码器可以用于词嵌入,将词语映射到低维空间的表示,有助于语义分析和情感分类。
生成对抗网络可以用于文本生成,它可以生成逼真的语言模型,被广泛应用于对话系统、机器翻译等任务。
聚类算法可以用于文本聚类,将文本分成不同的类别,有助于信息检索和文本分类。
四、无监督学习在其他领域的应用除了图像处理和自然语言处理,无监督学习方法还在其他领域有着重要的应用。
在推荐系统中,自编码器可以用于推荐商品,通过学习用户的行为特征来提高推荐的准确性。
在金融领域,聚类算法可以用于风险管理,将客户分成不同的风险组,有助于个性化的金融服务。
五、未来展望随着深度学习技术的不断发展,无监督学习方法将会得到更广泛的应用。
无监督学习是深度学习中的一个重要领域,它主要关注在没有明确标签或监督的情况下,如何从数据中自动提取有用的特征和模式。
无监督学习技术广泛应用于数据挖掘、图像识别、自然语言处理等领域。
无监督学习的主要应用场景包括:1. 聚类分析:通过将数据划分为不同的组或类别,以便更好地理解和解释数据。
这种方法在无监督学习中被广泛应用,因为它不需要明确的标签或监督。
2. 降维:通过将高维数据降至低维空间,以便更好地理解和分析数据。
这种方法有助于减少数据的复杂性,并提高模型的性能和效率。
3. 生成模型:通过生成新的数据或样本,无监督学习技术可以帮助创建有用的数据流和产品。
这种方法可用于自动创建新的图像、音频或文本数据,从而提高自动化程度和工作效率。
在深度学习中,无监督学习通常采用监督学习的方式来获得有用的特征和模式。
一种常见的技术是无监督的神经网络(如自编码器),通过学习数据的表示层次结构,能够自动从数据中提取有用的特征和模式。
另一种是无监督的迁移学习,通过利用已标记数据的先验知识,对无标签数据进行无监督学习,并从中获得有用的特征和模式。
无监督学习的优势在于它能够处理大规模的数据集,并且可以自动发现数据的内在结构和模式。
然而,它也存在一些挑战,如如何有效地处理高维数据和噪声数据,以及如何避免过拟合和欠拟合等问题。
未来无监督学习技术的发展方向包括更高效的算法和模型设计,以及更广泛的应用领域。
例如,随着深度学习技术的不断发展,无监督学习技术有望在自然语言处理、计算机视觉、智能推荐等领域发挥越来越重要的作用。
此外,随着大数据和人工智能的结合,无监督学习技术有望在更广泛的领域得到应用,如医疗诊断、金融分析、智能交通等。
总之,无监督学习技术是深度学习中一个重要的研究方向,它能够自动从大规模数据中提取有用的特征和模式,并应用于各种领域。
随着算法和模型的不断优化,无监督学习技术的应用前景将更加广阔。
深度学习技术的非监督学习方法教程近年来,深度学习技术在计算机视觉、自然语言处理和机器学习等领域取得了显著的成就。
而监督学习方法是传统深度学习的核心,它需要大量标记好的数据进行训练,并且对于训练数据的质量和数量也有较高的要求。
然而,在许多实际场景中,获取大量标记好的数据往往是一项困难和昂贵的任务。
为了解决这个问题,非监督学习方法应运而生。
非监督学习是指对未标记数据进行分析和建模的机器学习方法。
它通过发现数据中的隐藏模式和结构来获得信息,避免了对标记数据的依赖。
在深度学习中,非监督学习方法发挥着重要的作用,能够提供更多的信息和知识,为其他任务如分类、聚类和生成模型等提供支持。
在下面的文章中,我们将介绍几种常见的非监督学习方法,以帮助读者更好地了解深度学习技术的应用。
1. 自编码器(Autoencoder)自编码器是一种无监督学习的神经网络模型。
它包括一个编码器和一个解码器,旨在将输入数据压缩到一个低维表示并重构回输入空间。
自编码器通过最小化输入和重构之间的差异来学习有用的特征表示。
它可以用于特征提取、降维和去噪等任务。
2. 稀疏编码(Sparse Coding)稀疏编码是一种将输入数据表示成稀疏线性组合的方法。
它假设数据可以由少数的基向量表示,并通过最小化表示的稀疏度来学习这些基向量。
稀疏编码可以应用于特征学习、噪声去除、图像修复等任务。
3. 受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)受限玻尔兹曼机是一种生成式模型,可以用于学习数据的概率分布。
RBM通过最大化数据的似然函数来学习模型参数,从而能够生成与原始数据相似的样本。
受限玻尔兹曼机可以应用于生成模型、特征学习和协同过滤等任务。
4. 深度信念网络(Deep Belief Networks, DBN)深度信念网络是由多层受限玻尔兹曼机组成的深度神经网络。
它通过逐层无监督地预训练和有监督的微调来学习数据的表示和分类。
专利名称:一种基于无监督深度学习的单目深度估计方法专利类型:发明专利
发明人:宋霄罡,胡浩越,梁莉,黑新宏
申请号:CN202111297537.5
申请日:20211104
公开号:CN114170286A
公开日:
20220311
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于无监督深度学习的单目深度估计方法,首先构建基于无监督深度学习的深度估计以及位姿估计网络框架;然后将建立的神经网络进行训练;最后将训练好的网络进行测试;本发明的一种基于无监督深度学习的单目深度估计方法在保证良好精度的基础上,解决监督学习在实际应用中的局限性。
申请人:西安理工大学
地址:710048 陕西省西安市碑林区金花南路5号
国籍:CN
代理机构:西安弘理专利事务所
代理人:徐瑶
更多信息请下载全文后查看。
摘要图像深度估计是计算机视觉领域中一项重要的研究课题。
深度信息是理解一个场景三维结构关系的重要组成部分,准确的深度信息能够帮助我们更好地进行场景理解。
在真三维显示、语义分割、自动驾驶及三维重建等多个领域都有着广泛的应用。
传统方法多是利用双目或多目图像进行深度估计,最常用的方法是立体匹配技术,利用三角测量法从图像中估计场景深度信息,但容易受到场景多样性的影响,而且计算量很大。
单目图像的获取对设备数量和环境条件要求较低,通过单目图像进行深度估计更贴近实际情况,应用场景更广泛。
深度学习的迅猛发展,使得基于卷积神经网络的方法在单目图像深度估计领域取得了一定的成果,成为图像深度估计领域的研究热点。
但是单目深度估计仍面临着许多挑战:复杂场景中的复杂纹理和复杂几何结构会导致大量深度误差,容易造成局部细节信息丢失、物体边界扭曲及模糊重建等问题,直接影响图像的恢复精度。
针对上述问题,本文主要研究基于深度学习的单目图像深度估计方法。
主要工作包括以下两个方面:(1)针对室内场景中复杂纹理和复杂几何结构造成的物体边界扭曲、局部细节信息丢失等问题,提出一种基于多尺度残差金字塔注意力网络模型。
首先,提出了一个多尺度注意力上下文聚合模块,该模块由两部分组成:空间注意力模型和全局注意力模型,通过从空间和全局分别考虑像素的位置相关性和尺度相关性,捕获特征的空间上下文信息和尺度上下文信息。
该模块通过聚合特征的空间和尺度上下文信息,自适应地学习像素之间的相似性,从而获取图像更多的全局上下文信息,解决场景中复杂结构导致的问题。
然后,针对场景理解中物体的局部细节容易被忽略的问题,提出了一个增强的残差细化模块,在获取多尺度特征的同时,获取更深层次的语义信息和更多的细节信息,进一步细化场景结构。
在NYU Depth V2数据集上的实验结果表明,该方法在物体边界和局部细节具有较好的性能。
(2)针对已有非监督深度估计方法中细节信息预测不够准确、模糊重建等问题,结合Non-local能够提取每个像素的长期空间依赖关系,获取更多空间上下文的原理,本文通过引入Non-local提出了一种新的非监督学习深度估计模型。
深度学习中的无监督学习方法与应用深度学习作为人工智能领域的一个重要分支,已经在图像识别、自然语言处理等领域取得了巨大的成功。
在深度学习中,监督学习是最常见的学习方式,即通过输入和输出的对应关系来训练模型。
然而,监督学习的局限性在于需要大量标记好的数据,而且对于一些复杂的数据集,很难获得足够数量和质量的标记数据。
因此,无监督学习成为了一个备受关注的研究方向。
本文将介绍深度学习中的无监督学习方法以及其应用。
无监督学习是指在训练数据中没有标签或者类别信息的学习方式。
与监督学习不同,无监督学习更多地关注于数据的内在结构和分布。
在深度学习中,无监督学习方法主要包括自编码器、生成对抗网络(GAN)、聚类算法等。
自编码器是一种常见的无监督学习方法,它通过将输入数据进行编码和解码来学习数据的特征表示。
自编码器包括了编码器和解码器两部分,编码器将输入数据映射为隐藏层的表示,解码器则将隐藏层的表示映射为重构的输入数据。
通过最小化输入数据与重构数据之间的差异,自编码器可以学习到数据的有效表示。
自编码器在图像生成、图像去噪等任务中有着广泛的应用。
生成对抗网络(GAN)是另一种重要的无监督学习方法,它由生成器和判别器两部分组成。
生成器负责生成数据样本,判别器则负责判断生成的数据样本是否真实。
通过对抗的训练方式,生成器可以不断提高生成的数据的真实度,而判别器则不断提高识别真伪的能力。
GAN在图像生成、图像风格转换等任务中取得了显著的成果。
聚类算法是一类常见的无监督学习方法,它将数据分为若干个类别,使得同一类别的数据相似度较高,不同类别的数据相似度较低。
在深度学习中,聚类算法可以与自编码器、生成对抗网络等方法结合,用于发现数据的潜在分布。
聚类算法在数据分析、异常检测等领域有着广泛的应用。
除了上述的无监督学习方法外,深度学习中还有一些其他的无监督学习方法,如降维算法、流形学习等。
这些方法都可以用于学习数据的有效表示和内在结构。
基于视频序列的无监督单目深度估计算法研究摘要:无监督单目深度估计是计算机视觉领域的一个重要研究方向。
本文通过分析视频序列中的运动信息,提出了一种基于视频序列的无监督单目深度估计算法。
通过利用光流和视差信息,该算法能够从单个摄像头的连续帧中估计出场景中物体的深度信息。
实验结果表明,该算法在无监督深度估计任务上表现出较好的性能。
1. 引言随着计算机视觉技术的不断发展,无监督单目深度估计成为了一个热门的研究方向。
传统的深度估计方法需要大量的标注数据,而无监督方法则能够从未标注的图像或视频中学习到深度信息,具有很大的应用潜力。
2. 相关工作目前已经有一些无监督单目深度估计的方法被提出,例如利用自我运动信息,通过光流和视差信息来估计深度。
然而,这些方法在处理复杂场景时存在一些问题,例如对运动模糊和遮挡的敏感性等。
3. 算法设计本文提出的算法通过分析视频序列中的运动信息来估计深度。
首先,利用光流法计算出图像中的运动向量。
然后,根据运动向量的大小和方向,估计物体的运动速度和方向。
接着,通过计算连续帧之间的视差信息,推断出物体的距离。
最后,根据物体的距离和相机的内参,计算出物体的深度。
4. 实验结果为了评估本文提出的算法,我们使用了一个公开的数据集进行实验。
实验结果表明,该算法在无监督深度估计任务上比传统方法具有更高的准确性和稳定性。
5. 结论本文提出了一种基于视频序列的无监督单目深度估计算法。
通过利用光流和视差信息,该算法能够从单个摄像头的连续帧中估计出场景中物体的深度信息。
实验结果表明,该算法在无监督深度估计任务上表现出较好的性能。
未来的研究可以进一步改进算法,提高其在复杂场景中的鲁棒性和准确性。
单目视频无监督深度学习的结构化方法
原创:Google谷歌开发者2018-12-12
文/Google机器人团队研究员Anelia Angelova
对自主机器人而言,感知场景深度是一项重要任务,因为准确估算机器人与目标之间距离的能力对避开障碍、安全规划和导航至关重要。
我们可以通过光学雷达等设备的传感器数据获取(和了解)深度,同时也可以通过机器人运动和因此产生的不同场景视角,以无监督方式,仅从单目摄像机了解深度。
如此一来,我们还可以学习“自我运动”(机器人/摄像机在两个帧之间的运动),并据此了解机器人自身的定位。
虽然此方法由来已久(得益于运动恢复结构和多视图几何学范式),但基于学习的新技术已提升目前的技术水平。
更具体地说是通过深度神经网络进行无监督深度学习和自主运动,其中包
括Zhou等人的研究和我们自己之前的研究(在训练期间对齐场景3D点云)。
尽管我们已做出这些努力,但学习预测场景深度和自主运动仍是一项持续性挑战,而在处理高动态场景和准确估算移动目标的深度时尤其如此。
由于之前的无监督单目学习研究工作并未对移动目标进行建模,因此可能一直错估目标深度,而这往往会导致我们将其深度映射为无穷大的值。
在《不使用传感器的深度预测:利用单目视频无监督学习的架构》(Depth Prediction Without the Sensors:Leveraging Structure for Unsupervised Learning from Monocular Videos)(本文将于AAAI2019大会上发布)一文中,我们提出一种新方法,能够对移动目标进行建模,并产生高质量的深度估算结果。
相
较于之前的单目视频无监督学习方法,我们的方法可以获取移动目标的正确深度。
在此论文中,我们还提出一项无缝在线优化技术,该技术可以进一步提升学习质量,并可应用于跨数据集转移。
此外,为了鼓励大家开发出更先进的机载机器人学习方法,我们在TensorFlow中开放了源代码
(https:///tensorflow/models/tree/master/research/struct2depth)。
之前的研究(中间列)无法正确估算移动目标的深度,并将其映射为无穷大的值(热图中的深蓝色区
域)。
我们的方法(右列)提供更准确的深度估算
架构
我们方法的关键理念是将架构引入到学习框架中。
也就是说,我们将单目场景当作由移动目标(包括机器人自身在内)组成的3D场景,而不是依靠神经网络来直接学习深度。
我们将各个运动建模为场景中的独立变换(旋转和平移),然后将其用于为3D几何物体建模以及估算所有物体的运动。
此外,了解哪些目标可能会移动(例如,汽车、人、自行车等)有助于我们了解这
些目标的单独运动矢量(即使它们可能为静态也可以)。
通过将场景分解成单个3D目标,我们可以更准确地了解场景中的深度和自我运动,在极其动态的场景中尤其如此。
我们在KITTI和Cityscapes城市驾驶数据集中测试了这种方法,发现其表现优于目前最先进的方法,而且在质量方面接近将立体视频对用作训练监督的方法。
重要的是,我们能够正确获取采用与自我运动车辆相同的速度移动的汽车深度。
在此之前,这一直是非常具有挑战性的工作。
在以下案例中,移动中的车辆以静态形式出现(在单目输入中),并将相同的行为展现为静态视野,进而推断出无限大的深度。
虽然立体输入可以解决这种模糊性,但我们的方法首次能够从单目输入中正确推断深度。
之前有关单目输入的研究无法获取移动目标,并会将它们错误地映射至无穷大的值
此外,由于我们的方法会分别处理各个目标,因此算法能够提供每个单独目标的运动矢量,即对目标前进方向的估算:
动态场景的深度结果示例以及对单个目标的运动矢量估算(我们也估算了旋转角度,但为简单起见,
并未展示出来)
除了这些成果以外,此项研究还为进一步探究无监督学习方法能够取得哪些成果提供了动力,因为相比于立体或光学雷达传感器,单目输入的成本更低,也更易于部署。
如下图所示,在KITTI和Cityscapes数据集中,监督传感器(无论是立体传感器还是光学雷达传感器)会丢失值,而且有时候可能与摄像机输入存在偏差,这是由延时造成的情况。
中间行是KITTI数据集中的单目视频输入深度预测,与光学雷达传感器测得的实际深度相比,后者未能涵盖完整场景,并且会丢失值且存在噪声值。
我们未在训练期间使用实际深度
在Cityscapes数据集中的深度预测。
从左到右依次为:图像、基线、我们的方法和立体传感器提供的实际深度。
请注意,立体传感器提供的实际深度有丢失值。
另请注意,我们的算法能够在没有实际
深度监督的情况下得出这些结果
自我运动
我们的结果还提供极其先进的自我运动估算,这对自主机器人而言至关重要,因为它可以提供在环境中运动的机器人的定位。
下面的图片展示了通过我们的方法得出的结果。
我们从所推断的自我运动中得出速度和转向角度并将其可视化。
虽然深度和自我运动的输出对标量有效,但我们可以看到,它能够在减速和停止时估算出自己的相对速度。
深度和自我运动预测。
跟随速度和转向角度指示观察汽车转向或停下来等红灯时的估算值
跨范围转移
在转换至未知环境时的适应性是学习算法的一个重要特征。
在此项研究中,我们进一步引入一种在线优化方法,能够在收集新数据的同时继续进行在线学习。
下面的示例展示了在Cityscapes中进行训练以及在KITTI中完成在线优化后,估算深度质量的提升情况。
在Cityscapes数据集中训练以及在KITTI中测试时的在线优化。
这些图像展示了已训练模型和经过在线优化的已训练模型的深度预测。
经过在线优化的深度预测更好地勾勒出场景中的目标
我们在明显不同的数据集和环境中进一步测试,即在由Fetch机器人收集的室内数据集中进行测试,但在城市户外驾驶Cityscapes数据集中进行训练。
不出所料,这些数据集之间存在巨大差异。
尽管如此,我们发现在线学习技术能够获取比基线更准确的深度估算。
将学习模型从Cityscapes(从移动汽车中收集的户外数据集)转换至由Fetch机器人在室内收集的数据集时的在线适应结果。
最下面一行展示了应用在线优化后的提升深度
总而言之,此项研究涉及无监督深度学习和来自单目摄像机的自主运动,而且解决了高动态场景中的问题。
它实现了高质量的深度估算和自主运动结果,而且其质量可媲美立体摄像机,还提出在学习过程中整合架构的理念。
更值得一提的是,我们提出将无监督深度学习、仅从单目视频中了解自主运动,以及在线适应整合起来,这是一个强大的概念,因为它不仅能够以无监督的方式从简单视频中学习,还可以轻松迁移到其他数据集中。
致谢
此项研究由Vincent Casser、Soeren Pirk、Reza Mahjourian和Anelia Angelova 完成。
我们要感谢Ayzaan Wahid在数据收集方面的帮助,以及Martin Wicke 和Vincent Vanhoucke的支持与鼓励。