单目视觉定位方法研究综述
- 格式:pdf
- 大小:378.08 KB
- 文档页数:6
单目视觉惯性里程计的研究摘要:随着机器视觉技术的发展,单目视觉惯性里程计成为了不可或缺的技术。
本文针对单目视觉惯性里程计的研究问题,分别从测量状态、建立状态转移矩阵、全局优化以及误差分析等几个方面展开了探讨。
通过对比实验和结果分析,证明该算法能够较准确地计算机器人位移和方向,达到了比较良好的效果,为机器人导航和定位提供了可靠的技术支持。
关键词:单目视觉惯性里程计、测量状态、状态转移矩阵、全局优化、误差分析一、引言随着机器人技术的应用日益广泛,机器人导航和定位的需求越来越强烈。
而其中一个关键问题就是如何准确地测量机器人的位移和方向。
在传统的制导技术中,位置和方向信息通常是通过全球定位系统(GPS)或惯性导航系统(INS)来获得的。
但是,GPS在室内或在建筑物内的使用效果较差,而INS的复杂度和成本较高。
因此,如何在不依赖GPS和INS的情况下实现机器人的位移和方向测量成为了一个研究热点。
单目视觉惯性里程计技术可以利用机器人上搭载的相机,通过观察相邻帧之间物体的位置或方向变化,来估计机器人的位移和方向。
同时,该技术还可以结合机器人搭载的惯性测量单元(IMU)对运动过程中的姿态进行估计和纠正。
由于其系统简单、成本低廉和适用范围广等优点,单目视觉惯性里程计成为一种非常有前途的测量技术。
二、单目视觉惯性里程计的研究问题2.1 测量状态在单目视觉惯性里程计中,测量状态是指机器人通过相机获取的当前帧的像素坐标信息和IMU的姿态信息。
然而由于图片受到光照、遮挡等因素的影响,相邻帧之间的变化很难被准确测量。
因此,如何准确地测量状态是这项技术的关键之一。
2.2 建立状态转移矩阵在单目视觉惯性里程计中,状态转移矩阵用于描述相邻帧之间的位移和方向变化。
具体来说,状态转移矩阵包括相机相对于IMU的变换矩阵和相邻帧之间的变换矩阵。
然而,由于IMU和相机之间存在运动误差,这些误差会严重影响状态转移矩阵的准确性。
因此,如何准确地建立状态转移矩阵也是这项技术的重点之一。
单目视觉的国外发展现状 1.引言 1.1 概述 概述 随着计算机技术和图像处理算法的迅猛发展,单目视觉技术在国外得到了广泛的应用和研究。简单来说,单目视觉就是通过一台摄像机来获取图像信息,并利用计算机对这些图像进行分析和处理,从而达到理解和认知环境的目的。单目视觉技术具备成本低、实时性强、适用于多种应用场景等优势,因此在机器人导航、无人驾驶、智能监控等领域具有广阔的应用前景。 本文旨在介绍国外单目视觉技术的发展现状,探讨其算法和模型的研究进展,以及应用领域的拓展。同时,我们也将讨论单目视觉技术所面临的挑战和限制,包括环境条件对单目视觉的影响以及数据处理和算法设计的难题。 在第一章中,我们将简要介绍文章的结构和目的。第二章将详细探讨国外单目视觉技术的发展情况,包括算法和模型的研究进展以及应用领域的扩展。第三章则总结了国外单目视觉技术的发展趋势,并对我国单目视觉技术的发展提出启示。通过阅读本文,读者将能够了解国外单目视觉技术的最新进展,并对我国的单目视觉技术发展有所借鉴和启发。 文章结构部分的内容可以如下所示: 1.2 文章结构 本文将按照以下结构进行讨论国外单目视觉的发展现状: 第二部分为正文部分,主要探讨国外单目视觉技术的发展情况和其应用领域的扩展。其中2.1节将关注国外单目视觉技术的研究进展,包括算法和模型的研究。这一部分将介绍国外学者们基于单目视觉的算法和模型进行的各项研究,区分各种类型的算法和模型,并对其在实际应用中的表现和潜力进行分析。2.1.1小节将详细讨论算法和模型的研究进展。 接下来的2.1.2小节将探讨国外单目视觉技术在各个领域中的应用扩展情况。将介绍单目视觉技术在机器人导航、自动驾驶、物体检测和识别、人脸识别等领域的应用案例和研究成果。该小节将着重分析这些应用的成功之处以及面临的挑战和限制。 第三部分为结论部分,将总结国外单目视觉技术的发展趋势,并对我国单目视觉技术的发展提出启示。3.1节将对国外单目视觉技术的发展趋势进行概括和总结,包括技术的发展方向和研究热点。在3.2节中,将针对我国的实际情况,探讨如何借鉴国外的经验和成果,在单目视觉技术的研究与应用中取得突破。 通过以上的文章结构安排,本文将全面而系统地讨论国外单目视觉技术的发展现状,为读者提供一个清晰的框架来理解该领域的最新进展,并对我国的研究与应用提供有益的借鉴和启示。 本部分主要想探讨国外单目视觉技术的发展现状,分析其算法和模型的研究进展以及应用领域的扩展。同时,还将讨论单目视觉技术在面对环境条件和数据处理方面所面临的挑战和限制。通过对国外单目视觉技术的综述和分析,我们旨在了解该领域的最新进展和趋势,并从中汲取启示,为我国单目视觉技术的发展提供有益的借鉴和指导。启示":{} } } } 请编写文章1.3 目的部分的内容 2.正文 2.1 国外单目视觉技术的发展 2.1.1 算法和模型的研究进展 在国外,单目视觉技术的发展取得了显著的进展。随着计算机视觉和机器学习等领域的快速发展,各种算法和模型被应用于单目视觉技术中,从而提高了图像识别、物体检测和跟踪等方面的性能和精度。 针对图像识别任务,深度学习技术在国外取得了重要突破。基于深度学习的卷积神经网络(CNN)模型被广泛应用于图像分类和目标识别中。使用CNN模型,可以通过在大规模图像数据集上进行训练,使得计算机能够自动学习到图像中的特征和模式,从而实现更准确和高效的图像识别。 此外,针对目标检测任务,诸如Faster R-CNN、YOLO和SSD等深度学习模型被提出和应用于国外的研究中。这些模型通过不同的算法和架构设计,能够同时实现目标的定位和分类,大大提高了目标检测的速度和准确率。 2.1.2 应用领域的扩展 国外的单目视觉技术也在不断拓展应用领域。除了传统的图像识别和目标检测,单目视觉技术在无人驾驶、增强现实、机器人导航、智能监控等领域都得到了广泛应用。 在无人驾驶领域,单目视觉技术可以通过对车辆周围环境进行感知和分析,实现实时的障碍物检测、道路标志识别和车道线跟踪等功能。这为自动驾驶的实现提供了重要的技术支持。 在增强现实领域,通过单目视觉技术,可以将虚拟物体或信息与真实世界进行融合,使用户能够以更直观的方式与虚拟内容进行交互。 在机器人导航领域,单目视觉技术可以帮助机器人实时感知环境,并进行地图构建和路径规划,以实现自主导航和避障功能。 在智能监控领域,单目视觉技术可以用于人脸识别、行为分析和事件检测等任务,提供高效的安全监控和防护手段。 综上所述,国外的单目视觉技术在算法和模型的研究上取得了重要进展,并在应用领域得到广泛应用。随着人工智能和计算机视觉技术的不断演进,单目视觉技术有望在未来实现更多的突破和创新。 2.2 单目视觉技术的挑战和限制 随着单目视觉技术的快速发展,我们也面临着一些挑战和限制。这些挑战和限制需要我们去思考和解决,以便在单目视觉领域取得更大的突破和进步。 2.2.1 环境条件对单目视觉的影响 首先,环境条件对单目视觉技术的性能产生着重要影响。在复杂的环境中,例如光照不均匀、背景杂乱或者存在遮挡物的情况下,单目视觉算法往往会受到很大的挑战。这是因为传感器获取到的图像可能存在噪声、模糊以及其他不确定性因素,导致对图像内容的解析和理解变得更加困难。因此,我们需要针对不同环境条件下的单目视觉进行优化和改进,以提高其对复杂环境的适应性。 此外,由于单目视觉仅依靠一台摄像机获取图像信息,因此对于一些特殊场景,如夜晚或低光情况下的视觉任务,单目视觉技术的表现也会受到限制。在这些情况下,图像中的细节信息可能会被限制或丢失,影响算法的准确性和稳定性。因此,我们需要通过改进传感器技术或引入其他传感器来弥补单目视觉技术的限制,以提高在极端环境条件下的性能。 2.2.2 数据处理和算法设计的难题 另一个挑战是单目视觉技术中的数据处理和算法设计的难题。由于摄像机采集到的图像数据量庞大,如何高效地提取图像特征并进行处理是一个重要的问题。传统的计算机视觉算法在处理这些海量数据时可能会面临计算负荷过重、处理时间过长等问题,限制了单目视觉应用的实时性和可行性。 同时,单目视觉算法的设计也需要考虑到算法的准确性和鲁棒性。由于单目视觉的输入信息有限,对于复杂的场景和对象的识别、跟踪和定位等任务,算法的设计和优化面临更大的挑战。如何提高算法的鲁棒性,减少对特定场景和对象的依赖,是单目视觉技术发展的关键问题。 除此之外,单目视觉技术还面临着数据标定和校准的问题。在实际应用中,准确的相机内外参数对于单目视觉算法的性能至关重要。然而,获取和标定这些参数可能需要耗费较大的时间和精力,也可能受到环境变化和传感器误差的影响。因此,如何提高数据标定和校准的效率和准确性,是单目视觉技术研究的一个重点。 总之,虽然单目视觉技术在国外得到了快速的发展,但是我们也需要正视其面临的挑战和限制。通过解决环境条件对视觉性能的影响以及数据处理和算法设计的难题,我们可以进一步推动单目视觉技术的发展,并为我国的单目视觉技术研究和应用提供有益的启示和指导。 3.结论 3.1 国外单目视觉技术的发展趋势 国外单目视觉技术在过去几年取得了显著的发展,并展现出一些明显的趋势。这些趋势对于我们了解该领域的发展方向以及对我国单目视觉技术发展的启示具有一定的指导意义。 首先,在算法和模型的研究进展方面,国外学者们一直致力于提高单目视觉系统的精度和鲁棒性。他们通过引入深度学习技术、增加训练数据量以及改进传统的机器学习方法,取得了显著的进展。此外,针对特定应用领域的需求,如自动驾驶、人工智能和机器人技术,国外研究人员还在算法和模型的研究上进行了深入的探索和创新。 其次,单目视觉技术的应用领域也在不断扩展。除了传统的三维重建、目标检测和跟踪等领域,国外的研究者们还开始将单目视觉技术应用于更加复杂的场景和任务,如场景理解、行为识别和人机交互等。这些新兴的应用领域为单目视觉技术的发展提供了更广阔的空间,并促进了该领域的快速发展。 然而,单目视觉技术面临着一些挑战和限制。首先,环境条件对单目视觉的影响是一个重要的问题。由于光照、背景噪声、遮挡等因素的存在,单目视觉系统在面对复杂的现实场景时可能无法准确地感知和解析信息。其次,数据处理和算法设计也是一个难题。海量的数据需要进行高效的处理和分析,而算法的设计需要考虑到实时性、鲁棒性和可扩展性等方面的需求。 综上所述,国外单目视觉技术的发展趋势可以总结为算法和模型的不断创新和完善、应用领域的不断扩展以及在面对挑战和限制时的持续努力。这些趋势对于我国单目视觉技术的发展具有重要启示,我们应该关注并借鉴国外的研究成果,加强与国外学者的合作交流,并结合我国的实际需求,进一步推动我国单目视觉技术的发展。 3.2 对我国单目视觉技术发展的启示 我国单目视觉技术的发展还处于相对初级的阶段,但是可以从国外的发展现状中得到一些启示,以推动我国单目视觉技术的快速发展。 首先,我们可以借鉴国外对算法和模型的研究进展。国外的研究者们致力于开发更高效、更精确的算法和模型,以提高单目视觉的处理速度和准确度。在我国,我们可以加大对算法和模型的研究投入,推动相关的科研项目,并积极参与国际合作,以借鉴和学习先进的技术。 其次,我们应该扩展单目视觉技术的应用领域。国外已经将单目视觉技术成功应用于自动驾驶、机器人导航、智能安防等领域,取得了显著的成就。对我国而言,我们可以以国内的实际需求为导向,结合我国特点,将单目视觉技术应用于农业、工业制造、智慧城市等领域,为国家的发展提供技术支持。 另外,我们需要关注环境条件对单目视觉的影响。国外的研究已经发现,复杂的环境条件会对单目视觉的准确度和稳定性造成一定的影响。在我国,我们面临的环境条件各异,包括天气、照明等方面的变化较大,这
基于地平面的单目视觉里程计绝对尺度估计一、引言随着无人驾驶技术的不断发展,视觉里程计成为了自主导航领域中的重要技术。
而在视觉里程计中,绝对尺度的估计问题一直备受关注。
本文将着重探讨基于地平面的单目视觉里程计中绝对尺度的估计问题,并对相关研究进行讨论和总结。
二、基本原理基于地平面的单目视觉里程计是一种利用摄像头捕获到的图像信息来进行定位和导航的技术。
在进行绝对尺度的估计时,主要是通过对地面上的特征点进行提取和匹配,然后根据这些特征点的运动信息来估计相机移动的绝对尺度。
三、相关研究1. 特征点提取与匹配在单目视觉里程计中,特征点的提取与匹配是关键的一步。
相关研究表明,结合光流和稠密匹配技术可以提高匹配的准确性,从而提高绝对尺度的估计精度。
2. 地面几何信息的利用地面几何信息对绝对尺度的估计有着重要的作用。
一些研究表明,通过利用相机俯视地面得到的拓扑信息和几何信息,可以提高绝对尺度的估计精度。
3. 深度学习在绝对尺度估计中的应用最近,一些研究表明深度学习可以在绝对尺度的估计中发挥重要作用。
通过利用深度学习对地面特征进行学习和预测,可以得到更准确的绝对尺度估计结果。
四、存在的问题然而,基于地平面的单目视觉里程计在绝对尺度估计中仍然存在一些问题。
在复杂的环境中,地面特征的提取和匹配难度较大,导致了绝对尺度估计的不稳定性和精度下降。
五、未来展望未来的研究方向可以集中在以下几个方面:一是进一步提高地面特征点的提取和匹配精度,可以结合多种传感器信息来提高绝对尺度的估计精度;二是加大深度学习在绝对尺度估计中的应用,通过大规模的数据训练可以进一步提高估计精度;三是结合SLAM技术,将绝对尺度的估计与建图和定位相结合,以解决在复杂环境下绝对尺度估计的问题。
六、结论基于地平面的单目视觉里程计绝对尺度的估计问题是一个研究热点,相关研究得出了许多值得借鉴的成果。
然而,仍然存在一些问题需要进一步解决。
我们相信通过未来的努力和研究,基于地平面的单目视觉里程计在绝对尺度估计中将会取得更大的突破。
第19卷第2期 测 绘 工 程 Vol.19№.22010年4月 EN GIN EERIN G O F SU RV EYIN G AND MA PP IN G Apr.,2010单目视觉测量系统质心定位算法赵铁成1,张 勇2,韩曜旭1(1.中国人民解放军61769部队,黑龙江哈尔滨150039;2.天津航空机电有限公司,天津300308)摘 要:在测头成像视觉坐标测量系统中,对图像进行采集和处理是为选取合适的特征点并对其进行优化曝光以便获取高质量的图像,进而实现特征点与背景图像分离和特征点中心的精确定位。
因此,对于特征点成像的亚像素定位直接决定着三维空间坐标的测量精度。
文中提出高斯拟合双三次插值算法,并与灰度加权和高斯双线性进行对比,实验表明精度比较高,能够达到单目视觉测量系统质心定位要求。
关键词:单摄像机;高斯拟合;双三次插值;质心定位中图分类号:TP391 文献标志码:A 文章编号:100627949(2010)022*******The algor ithm research on monocular visionmea sur ing system centr oid positioningZHAO Tie 2cheng 1,ZHAN G Yong 2,HA N Yao 2xu1(1.Ttoop s 61769,Ha rbin 150039,China ;2.T ianjin Aviation Elect romecha nical Limited Corporation ,Tia njin 300308,China )Abstract :At t he vi sion coordi nate measurement system based on imaging t est ,t he purpose of i mage acqui 2sit io n and processi ng i s to sel ect a suit abl e feat ure point s and to op ti mize t he exposure in orde r t o obt ai n high 2qualit y i mages ,and t hus achieve t he separation of t he background i mage a nd feat ure poi nt s ,a nd t he precise positioni ng of feat ure poi nt s center.Therefore ,t he feat ure point s of t he sub 2pixel po si tioning ima 2gi ng direct ly det er mi ne t he measure ment accuracy of t hree 2di me nsional coordi nat es.In t hi s paper ,G aussi 2an fi tt ing bicubic i nt erpolat ion al gori t hm i s list ed ,and compare wit h t he gray 2wei ghte d and G a ussia n bili n 2ear .The experi ment conducte d a compari so n shows t hat a relati vely high accuracy ,and ca n ac hi eve monoc 2ul ar vi sion cent roi d posi tioning mea sureme nt syst em requirement s.K ey w or ds :si ngl e camera ;G aussian fit ti ng ;bicubic i nt erpol ation ;cent roid location 收稿日期262作者简介赵铁成(),男,助理工程师 应用在航天、航空、军事和工业领域的大型复杂构件需要越来越高的加工和装配精度,对高精度大尺寸三维整体现场测试技术与设备的需求日趋迫切。
单目摄像头测距原理一、背景介绍单目摄像头是一种常用的视觉传感器,可以通过图像处理来获取物体的距离信息。
本文将详细介绍单目摄像头测距的原理以及相关技术。
二、单目摄像头测距的原理单目摄像头测距主要基于三角测距原理,通过获取物体在图像中的像素变化或视差来计算物体的距离。
以下是单目摄像头测距的基本原理:1. 视差原理视差是通过观察物体在两个不同位置下的图像差异来测量物体距离的方法之一。
当我们用一只眼睛观察距离较近的物体时,可以观察到物体在两个眼睛之间的位置差异。
单个摄像头可以模拟这个过程,通过分析图像中的像素差异来计算物体的距离。
2. 相机标定在进行单目摄像头测距之前,首先需要进行相机标定。
相机标定是通过确定相机的内外参数来建立摄像头与真实世界之间的转换关系。
通过相机标定可以得到相机的焦距、畸变参数等信息,为后续的测距工作提供基础。
3. 物体特征提取在进行测距之前,需要首先对物体进行特征提取。
常用的物体特征包括角点、边缘等。
通过提取物体的特征点,可以提高测距的准确性。
4. 视差计算视差计算是单目摄像头测距的关键步骤。
通过对特征点的像素坐标进行计算,可以得到物体在图像中的视差值。
视差值与物体的距离成反比,即视差越大,物体距离越近。
5. 距离计算在计算得到视差值之后,可以通过已知的相机参数和三角测量原理来计算物体的距离。
根据视差与物体距离的关系,可以建立视差与实际距离之间的映射关系。
根据此映射关系,可以通过视差值计算出物体的实际距离。
三、单目摄像头测距的应用单目摄像头测距技术在许多领域都有广泛的应用。
以下是几个常见的应用场景:1. 智能驾驶在自动驾驶领域,单目摄像头常用于车辆和行人的距离测量。
通过测量前方物体的距离,可以帮助车辆做出相应的决策,如避障、跟车等。
2. 工业自动化在工业自动化中,单目摄像头可以用于测量物体的距离和尺寸。
通过测量物体的距离,可以实现自动化生产线上的物料识别和定位,提高生产效率和质量。
基于单目视觉的移动机器人SLAM问题的研究共3篇基于单目视觉的移动机器人SLAM问题的研究1近年来,随着移动机器人的普及和应用范围的拓展,SLAM问题逐渐成为智能机器人领域研究的热点之一。
其中,基于单目视觉的移动机器人SLAM问题在实际应用中具有广泛的应用价值和发展前景。
基于单目视觉的移动机器人SLAM问题是指通过移动机器人的单目摄像头获取场景信息,并将其转化为机器人自身的位姿和场景信息,以实现对未知环境的建图和定位。
相比于传统的激光、视觉双目或多目视觉SLAM方法,单目视觉具有成本低、易于集成、信息获取范围广等优势。
因此,其研究具有极为重要的意义。
在基于单目视觉的移动机器人SLAM问题的研究中,主要包括以下几个方面的内容。
一、摄像头标定在基于单目视觉的移动机器人SLAM问题中,摄像头标定是必不可少的步骤。
通过对摄像头的本质矩阵、畸变系数等参数进行标定,可以精确地计算出摄像头的真实参数,以保证后续场景信息提取和位姿计算的准确性。
二、特征提取与匹配在单目视觉SLAM中,为了准确提取场景信息,需要对场景中的特征点进行提取。
目前常用的特征点提取方法包括SIFT、SURF、ORB等。
提取到的特征点可用于匹配图像、计算位姿等,从而实现多帧图像之间的场景恢复。
三、位姿计算位姿计算是基于单目视觉的移动机器人SLAM问题中的核心环节。
在该过程中,需要结合相邻帧之间的位置信息,使用迭代最近点(ICP)算法等进行位姿计算,并将计算结果传递给后续流程。
四、地图构建在基于单目视觉的移动机器人SLAM问题中,地图构建是将抽象的位姿、特征点等信息融合到一个实际的环境中的过程。
在此过程中,需要根据机器人经过的路径和位姿计算结果,以及提取出的场景特征点,构建出一个实际的地图,并将其传递到下一步操作中。
基于单目视觉的移动机器人SLAM问题的研究现状不断发展,已经形成了比较完善的技术体系。
其中,基于深度学习的方法已经成为研究的热点之一。
一种四轴飞行器单目视觉测距算法一种四轴飞行器单目视觉测距算法摘要:四轴飞行器在无人机领域具有广泛应用前景,而单目视觉测距是实现四轴飞行器精确定位和避障的关键技术。
本文介绍一种基于单目视觉的测距算法,通过对图像中场景的特征点进行提取和匹配,实现对目标物体距离的估计。
实验结果表明,该算法能够有效地测距并具有较高的准确性和鲁棒性,可以满足四轴飞行器的自主导航和避障需要。
关键词:四轴飞行器;单目视觉;测距;特征点提取;特征点匹配1.引言四轴飞行器作为一种多功能、灵活机动的无人机系统,以其出色的飞行性能和广泛的应用领域而备受瞩目。
然而,在实际应用中,四轴飞行器的定位和避障问题一直都是制约其发展的主要难题。
传统的定位和避障方法主要依赖于GPS和传感器等外部设备,但这些设备受环境和天气等因素的限制,存在定位不准确、障碍物检测困难等问题。
因此,研究一种基于单目视觉的测距算法,对于提高四轴飞行器的自主导航能力和避障能力具有重要意义。
2.相关工作在无人机的定位和导航领域,视觉传感器已被广泛应用。
相比于其他传感器,单目视觉传感器具有成本低、结构简单、易于集成等优势。
近年来,研究者们提出了各种基于单目视觉的测距方法,包括立体视觉、结构光、时间飞行等。
然而,这些方法在实际应用中普遍存在复杂、计算量大、稳定性差等问题。
因此,本文提出一种简单且高效的单目视觉测距算法,以解决四轴飞行器的定位和避障问题。
3.算法原理本文的测距算法主要包括特征点提取、特征点匹配和距离估计三个步骤。
具体步骤如下:3.1 特征点提取首先,对输入的图像进行特征点提取。
本文采用改进的SIFT算法来提取图像的局部特征点。
SIFT算法通过寻找图像中的尺度空间极值点来确定关键点,并计算关键点处的尺度和方向。
利用SIFT算法提取的特征点具有独立性和鲁棒性,可以有效地表示目标物体。
3.2 特征点匹配接下来,对两幅图像中的特征点进行匹配。
本文采用改进的RANSAC算法来进行特征点匹配。
第40卷第12期2023年12月控制理论与应用Control Theory&ApplicationsV ol.40No.12Dec.2023物体级语义视觉SLAM研究综述田瑞,张云洲†,杨凌昊,曹振中(东北大学信息科学与工程学院,辽宁沈阳110819)摘要:视觉同时定位与地图构建(Visual simultaneous localization and mapping,VSLAM)是自主移动机器人、自动驾驶、增强现实(AR)等领域的关键技术.随着深度学习的发展,准确高效的图像语义信息在VSLAM领域得到了广泛的应用.与传统SLAM相比,语义VSLAM利用语义信息提升了定位精度和鲁棒性,并通过物体级重建提高了环境感知能力,成为当前VSLAM领域的研究热点.本文对近年来优秀的物体级语义SLAM工作进行了阐述归纳和对比梳理,总结了该领域的4个关键问题,包括物体表达形式、物体初始化方法、融合语义信息的数据关联算法和融合物体级语义信息的后端优化方法.同时,对代表性方法进行了优缺点分析.最后,在现有技术成果和研究基础上,对物体级语义VSLAM面临的挑战和未来研究方向进行了展望和分析.当前物体级语义SLAM仍面临着物体关联不准确、物体优化框架不完善等问题.如何有效使用和维护语义地图以应用于决策规划等任务,以及融合多源信息以丰富视觉感知是未来的研究热点.关键词:视觉SLAM;数据关联;语义分割;物体级地图引用格式:田瑞,张云洲,杨凌昊,等.物体级语义视觉SLAM研究综述.控制理论与应用,2023,40(12):2160–2171DOI:10.7641/CTA.2023.30338Survey of object-oriented semantic visual SLAMTIAN Rui,ZHANG Yun-zhou†,YANG Ling-hao,CAO Zhen-zhong(College of Information Science and Technology,Shenyang Liaoning110819,China) Abstract:Visual simultaneous localization and mapping(VSLAM)is a key technology for autonomous robots,au-tonomous navigation,and AR applications.With the development of deep learning,accurate and efficient semantic infor-mation has been widely used in pared with traditional SLAM,semantic SLAM leverages semantic informa-tion to improve the accuracy and robustness of localization,and enhances environmental perception ability by object-level reconstruction,which has became the trend in VSLAM research.In this survey,we provide an overview of semantic SLAM techniques with state-of-the-art object SLAM systems.Four key issues of semantic SLAM are summarized,including ob-ject representation,object initialization methods,data association methods,and back-end optimization methods integrating semantic objects.The advantages and disadvantages of the comparison methods are provided.Finally,we propose the future work and challenges of object-level SLAM technology.Currently,semantic SLAM still faces problems such as inaccurate object association and an unified optimization framework has not yet been proposed.How to effectively use and maintain semantic maps for the application of decision and planning tasks,as well as integrate multi-source information to enrich visual perception,will be future research hotspots.Key words:visual SLAM;data association;semantic information;Semantic mappingCitation:TIAN Rui,ZHANG Yunzhou,YANG Linghao,et.al.Survey of Object-oriented Semantic visual SLAM. Control Theory&Applications,2023,40(12):2160–21711引言视觉同时定位与建图(visual simultaneous locali-zation and mapping,VSLAM)技术通过相机实现自主定位与地图构建,相较于激光雷达,相机具有低成本、低功耗、强感知等特点,且二维图像的语义信息更容易通过深度学习技术获取.结合语义信息对环境中的物体进行建模,并利用物体的语义不变性约束提升VSLAM的定位精度和鲁棒性成为当前研究的热点.本文着重对物体级语义VSLAM的发展和关键技术进行讨论:首先,阐述了物体级语义信息在SLAM中的收稿日期:2023−05−19;录用日期:2023−11−21.†通信作者.E-mail:*********************;Tel.:+86139****1976.本文责任编委:胡德文.国家自然科学基金项目(61973066,61471110)资助.Supported by the National Natural Science Foundation of China(61973066,61471110).第12期田瑞等:物体级语义视觉SLAM 研究综述2161重要作用;其次,归纳了物体级语义SLAM 技术的4个关键的问题(模型表达、物体初始化、数据关联、后端优化);最后,对语义SLAM 面临的挑战和未来发展方向进行了展望.本文结构框图如图1所示.图1本文结构框图Fig.1Structure of the survey2物体级语义VSLAM 系统架构物体级语义VSLAM 一般采用多线程的算法架构,分为前端和后端.前端主要由跟踪线程和检测线程构成:跟踪线程负责图像特征提取,并通过帧间特征匹配和局部BA(bundle adjustment)优化求解相机位姿;检测线程使用深度网络对输入图像进行语义信息提取,并将其送入到跟踪线程中.图像语义信息是基于当前帧的检测结果,因此,使用物体数据关联对不同帧的检测信息进行处理,并进行物体初始化.后端优化线程负责相机和物体位姿优化,以及对物体建模的参数进行调整.最终,系统构建了物体级的语义地图,实现环境的语义感知.语义信息的获取形式可以分为:目标检测[1–3]、语义分割[4–8]、实例分割[9–10].不同的语义信息获取方式会影响算法的实时性,通常,语义分割网络耗时更长,且语义分割得到的像素级分割结果存在信息冗余和误检,目标检测网络效率更高,但在复杂场景下容易出现漏检和误检的现象.后端优化方式可以分为独立优化和联合优化策略,例如,OA-SLAM(object assisted SLAM)[11]使用独立的线程来优化二次曲面参数,QuadricSLAM [12]则将物体和相机放在局部BA 的统一框架下优化.近年来,融合目标检测和实例分割的物体级SL-AM 成为研究的热点,该类方法通过多视图几何约束,利用物体检测框重建物体模型.重建模型可以分为二次曲面[13–20]、立方框[21]等.实例分割可以获得更准确的物体实例掩码,通常用于辅助物体特征提取和数据关联,实现更准确的目标跟踪[22].常见的物体级VSLAM 结构如图2所示.3物体级语义VSLAM 优势和应用传统的VSLAM 一般通过点、线、面等几何元素构建地图,例如,稀疏点云地图[23]、稠密点云地图[24]、网格地图[25–26]、TSDF(truncated signed distance field)地图[27]等.这些地图为自身定位和环境感知提供基础,使得VSLAM 技术得以广泛应用.随着应用场景的增加,人们发现传统VSLAM 方法在定位精度和算法鲁棒性上具有局限性,主要有如下原因:1)动态干扰,当前VSLAM 算法大多基于环境静态假设,特征匹配和优化容易受到外点干扰,导致跟踪精度变差或者丢失.2)光照变换,传统的视觉特征在光照变化或者暗光条件下,特征匹配和图像光度误差匹配失败,导致无法实现位姿估计,算法鲁棒性降低.3)高层次的语义感知需求,传统的VSLAM 在表征物体上具有局限性,不具有语义信息,无法满足人机交互等复杂任务的需求.深度学习技术的引入为VSLAM 定位和环境感知带了新的解决方法.基于深度学习的特征提取技术为VSLAM 在复杂光照条件下提供更稳定的匹配效2162控制理论与应用第40卷果[28–30],实例分割或目标检测为物体的运动属性判断提供可能,减少了VSLAM 在复杂环境中受动态干扰的影响[31–32].通过构建的物体级地图和模型表达,丰富了系统的环境感知能力[11,14–19].图2物体级语义VSLAM 结构图Fig.2Architecture of object VSLAM3.1利用物体信息提升定位精度当前,室内外场景下的VSLAM 算法已经得到了长足的发展,一些SLAM 算法能够准确地构建环境地图,并在一定程度上克服噪声、动态干扰和光照变化的影响.例如,ORB-SLAM [33]、RGBD-SLAM [34]、LS-D-SLAM [35]等.然而,在实际应用部署中,算法仍面临着场景动态干扰的影响.早期的解决方案中[23],使用运动一致性和基于外点剔除的RANSAC(random sample consensus)策略对由噪声干扰导致的错误特征匹配进行筛选,或者在优化中引入鲁棒核函数来降低动态特征的优化权重,例如,ORB-SLAM2[23]使用特征均匀提取和鲁棒核函数来降低错误匹配干扰.近年来,一些工作将物体检测结果的语义属性引入VSLAM 中,对场景中物体的动静态进行判断,并剔除动态物体的干扰[36–40].Detect-SLAM [41]通过目标检测剔除动态点,并通过特征匹配和扩展区域进行运动概率传播,在提升定位精度的同时提升了目标检测的稳定性.DS-SLAM [39]使用实例分割结果和运动一致性判断物体的运动属性,并将动态特征进行剔除以提升定位精度.Dyna-SLAM [40]将落在运动物体掩码内的特征作为外点剔除,从而提升其在动态场景下的定位鲁棒性.类似的,Kaveti 和Singh [42]提出了Light Field SLAM,通过合成孔径成像技术重建被遮挡的静态场景,不同于Bescos 等人[43]的算法,其进一步利用了重建背景的特征进行位姿跟踪以实现更好的定位性能.针对基于深度学习的动态物体检测通常存在漏检和错检问题,Ballester 等人[44]提出了DOT-SLAM,结合实例分割和多视图几何来生成动态物体掩码,并通过最小化光度误差进行跟踪.这种方法不仅提高了定位精度,还提高了语义分割的精度.上述工作的重点是通过剔除动态信息来提升自身定位的鲁棒和准确性,但忽略了对场景中移动物体状态的感知.作为VSLAM 对动态场景理解的扩展,结合运动跟踪的VSLAM 成为当前研究的热点.Wang 等人[45]首先提出了带有运动物体跟踪的SLAM,将自身位姿估计和动态物体位姿估计分解为两个独立的状态估计问题.Kundu 等人[46]结合SfM(structure from motion)和运动物体跟踪来解决运动场景下的SLAM 问题,该方法将系统输出统一到包含静态结构和运动物体轨迹的三维动态地图中.Huang 等人[47]提出了Cluster-VO,能够进行多个物体的运动估计.该方法提出了一种多层概率关联机制来高效地跟踪物体特征,利用异构条件随机场(conditional random filed,CRF)聚类方法进行物体关联,最后在滑动窗口内优化物体的运动轨迹.Bescos 等人[43]将运动物体与自身状态估计问题紧耦合到统一框架中,对跟踪点集使用主成分分析(principal component analysis,PCA)聚类和立方框建模,并使用动态路标点对自身位姿进行约束.第12期田瑞等:物体级语义视觉SLAM研究综述2163考虑到场景的先验约束,Twist SLAM[48]使用机械关节约束来限制物体在特定场景位姿估计的自由度,结合3D目标检测获得先验物体估计,使用语义信息来构建物体点簇地图,并利用静态簇(道路和房屋)来估计相机位姿.动态簇则通过速度的变化进行跟踪和约束.VDO-SLAM[49]使用聚类点的形式对物体进行状态估计,使用实例分割和稠密场景流,提高了动态物体观测的数量和关联质量,该方法将动态和静态结构集成到统一的估计框架中,实现了对相机位姿和物体位姿的联合估计.3.2利用物体信息提升定位鲁棒性传统的视觉定位大多采用手工描述了,如OR-B[50],SIFT[51]等特征,并使用基于视觉词袋(bag of words,BOW)进行定位,当图像视角变化或者光照发生明显改变时,该方案的视觉定位会失效.物体语义信息能有效克服大视角变换以及光照变换等情况,为VSLAM提供更鲁棒的定位.实时的物体级单目SLAM算法SLAM++[52]利用了一个大型物体数据库,使用单词袋来识别对象,实现鲁棒定位.Zins等[11]提出的OA-SLAM利用重建的物体级语义地图进行相机重定位.该方案结合了特征描述子和场景物体的重投影观测,利用物体的相对位置关系约束,在视角变化剧烈的场景下实现定位,提升了视觉定位的鲁棒性.Liu等[53]提出基于物体级描述符的定位方法.文献[54]提出基于深度网络的物体描述符定位方法.CubeSLAM[55]利用物体立方框和当前帧的目标检测约束,提升系统在无纹理场景下的定位鲁棒性. QuadricSLAM[12]提出基于二次曲面的物体观测约束,首次使用3D椭球作为路标,同时使用一个联合优化框架,将相机位姿和二次曲面联合优化.文献[56]利用单目视觉构建的物体级路标和物体先验大小约束,减少了单目定位的尺度漂移,提升了单目视觉的定位精度和鲁棒性.类似的方案如文献[57–58],采用物体先验尺度约束单目定位漂移.EAO-SLAM[21]则使用物体立方框约束构建观测误差,减少了定位漂移.可以看出,融合物体语义信息已经成为了提高视觉定位精度和鲁棒性的有效途径之一.语义信息已经广泛应用于SLAM系统的初始化、后端优化、重定位和闭环检测等阶段.因此,有效地处理和利用语义信息是提高定位精度的关键.3.3利用物体信息提升系统环境感知能力VSLAM构建的地图可以分为:稀疏点云地图[23]、稠密地图[27]、半稠密地图[24]、结构地图[59–60]、平面地图[61–65]、物体级地图[13–19,52]等.点云地图中仅具有点云结构信息,通常用于为SLAM提供定位约束.半稠密和稠密地图可以更精细地表达环境.结构地图和平面地图通过抽象的场景点线面的结构,为场景提供轻量级的地图表达.然而,上述的地图表达形式缺少对环境的高层次语义感知能力.近年来,随着自动驾驶、人机交互等领域的兴起,环境的语义感知越来越受到研究者的重视.语义信息的融入为SLAM的地图提供更为丰富的感知信息.早期的物体SLAM,例如,SLAM++[52]利用物体CAD模型构建语义地图,通过目标检测和识别,将先验物体数据库的物体加载在地图中.文献[37]将语义标签信息融合到稠密点云地图中,构建了稠密语义地图.CubeSLAM[55]和EAO-SLAM[21]通过立方框构建物体级地图.文献[13–19]构建了物体的二次曲面地图,同时估计了物体的大小、旋转和位置.相比于二次曲面和立方体的包络,超二次曲面可以通过调节二次模型参数适应不同形状的物体,丰富环境物体的表达.文献[66]使用超二次曲面构建室内场景的物体级地图.一些工作将抽象的语义标识加入到地图表达中,A VP-SL-AM[67]通过检测道路的车道线,交通标识等信息构建了轻量级的语义地图,用于实现准确的室外场景定位.另外,一些研究者将运动物体的感知信息加入到SLAM中,提出了SLAM-MOT[22,47,68],在构建场景稀疏点云地图的同时,表达物体的运动轨迹,构建包含运动信息的物体地图.例如,VDO-SLAM[49]提出利用语义信息构建环境结构,跟踪刚性物体的运动并估计其三维运动轨迹,其地图表示如图3所示.图3VDO-SLAM系统可视化地图[49],包含运动物体跟踪和三维轨迹Fig.3Visualization of Object tracking and trajectory estima tion of VDO-SLAM[49]可以看出,融合语义信息后,VSLAM的地图表达形式更加丰富.构建的物体级地图包含场景的高层次2164控制理论与应用第40卷语义信息,而且通过动态跟踪和联合位姿估计,可以获得动态物体的速度和运动轨迹估计,使得VSLAM 可以实时估计环境物体的运动轨迹,具有更丰富的环境感知能力.4物体语义的表达形式和初始化方法物体表达形式是物体级语义SLAM 进行环境感知的重要环节,传统的SLAM 算法使用几何特征,例如点、线、面等元素构建环境地图.这些几何特征能为SLAM 提供定位约束,并在一定程度上表征场景的感知信息,但缺少语义信息.SIFT [51],SURF [50]和ORB [50]是最常用的特征.利用稀疏点表达环境的视觉SLAM 方法[23,33]已经在三维场景重建领域取得了巨大的成功.然而,这类地图由三维空间中稀疏分布的点集构成,缺乏对物体位姿和边界的准确描述.因此,稀疏点云地图不能应用于复杂的任务,如路径规划、避障等.近年来,得益于深度学习检测技术的发展,SLAM 的地图构建已经由传统的几何表征转为语义描述,特别是物体级的描述.在物体表达上,可以分为:先验模型、几何模型、深度学习表征等.这些物体表达提升了SLAM 的语义感知能力,不同物体的表达如图4所示[12,52,55,69–71].图4物体语义的表达形式Fig.4Object representation method of object VSLAM4.1先验模型表达先验模型表达使用预先建立的先验数据库,通过检测–匹配的方式加载物体.如图4(a)所示,先验模型表达的代表为SLAM++[52].文献[72]提出使用检测立方框与先验CAD 模型进行ICP 匹配,通过物体路标约束,实现缺乏纹理的地下停车场定位.文献[73]使用预先集成或预定义的模型来进行对象跟踪,该工作的目标是建立一个具有物体标识的环境地图,并使用预集成的对象模型辅助定位,其结合了两种不同的深度网络输出结果来联合物体检测和对象的姿态估计.4.2几何模型表达几何模型通过参数化的二次曲面或者立方框实现,如图4(b)–4(c)所示.Nicholson 等人[12]提出了Quadric-SLAM,首次将二次曲面作为路标引入到SLAM 中,详细推导了如何利用多帧不同视角的目标检测观测数据构建约束,求解物体的二次曲面参数.并提出二次曲面投影观测模型,使得二次曲面参与位姿优化成为可能.后续的大多数基于二次曲面的SLAM 方案都是基于这个思路的延续[74].Hosseinzadeh 等人[75]提出了Structure Aware SLAM,在二次曲面路标的基础上加入了平面约束,使得二次曲面的建模精度进一步提高.Ok 等人[14]使用室外物体前向运动假设,提出了一种利用目标检测框、图像纹理以及语义尺度先验估计二次曲面参数的方法,降低了二次曲面初始化的难度,然而,该方法只能对车辆进行建模.Liao 等人[76]引入对称性假设,提出了物体感知S-LAM,利用物体对称性补全物体点云,进而根据物体点云拟合二次曲面.Chen 等人[77]针对物体前向平移运动假设,提出了一种基于物体凸包和目标检测的二次曲面初始化方法,为二次曲面初始化提供了新的思路.为了解决二次曲面初始化对噪声敏感的问题,Ti-第12期田瑞等:物体级语义视觉SLAM研究综述2165an等人[19]提出了一种参数分离的二次曲面初始化方法,将旋转和平移估计解耦估计,提升了初始化对检测框噪声的鲁棒性.利用物体对称性可以实现快速二次曲面初始化,Liao等人[78]提出的SO-SLAM是一种新颖的单目物体级语义SLAM,该方法使用三种具有代表性的空间约束,包括比例比例约束、对称纹理约束和平面支撑约束实现单帧视角下的二次曲面初始化.立方框表达的代表作是CubeSLAM[55],将物体模型参数化为三维立方框.EAO-SLAM[21]使用立方框和椭球对室内物体进行空间描述.然而,相比于立方框,二次曲面具有完备的数学模型表达和射影几何描述,更易于通过二次曲面重投影约束融合到SLAM的后端优化框架中,因此受到研究者的青睐.另外,一些物体模型表达方案采用物体聚类点描述,Cluster-SLAM[69]及后续的ClusterVO[47]均使用物体聚类点簇进行物体位姿估计和表达,如图4(d)所示.4.3深度学习表征粗略的几何模型往往不能表示物体的精确体积,而稠密点云需要大量的内存占用来存储地图.最近一些工作使用基于深度学习的特征进行模型表达,结合学习表征的物体级路标实现室外定位[79].DSP-SLAM[70]使用DeepSDF(signed distance fun-ction)网络[80]提取物体特征,并通过网络参数和表面重建损失函数进行物体表面恢复,构建场景的物体地图,如图4(e)所示.SceneCode[81]和Node-SLAM[71]则使用了深度网络中间层特征来表征物体.利用这些深度提取的特征和表面渲染误差函数,可以恢复物体的几何形状,如图4(f)所示.以上可知,物体的初始化表征方法决定了物体SLAM的地图表达形式,深度学习需要高算力的计算设备,且系统的实时性无法保证,几何模型可以准确描述物体的大小、旋转和位置,能完整表达物体的占据信息,且地图占用小,已经成为当前研究的热点.5物体级语义信息的数据关联方法基于深度学习的语义提取方法大多关注于单帧检测,而VSLAM在定位和建图环节均需要考虑时间和空间上的数据关联.针对物体级语义SLAM,解决不同帧之间的语义观测关联问题,确定同一语义对象在连续帧的关联性,是后续实现多帧优化的前提条件.当前数据关联方法可以分为两类:基于概率关联的方法和基于分配算法的关联方法.5.1基于概率关联方法该方法将属于物体的观测约束建模为概率分布模型,根据模型分布关系来确定帧间物体关联.Beipeng Mu等人[82]使用实例分割掩码的中心深度表征物体观测,并利用Dirichlet分布对观测进行建模,通过DP m-eans算法和最大似然估计(maximum likelihood estim-ation,MLE)迭代结果确定物体的数据关联.Bowm-an等人[83]使用期望最大化(expectation-maximization, EM)算法对物体路标进行软关联,并将物体路标作为约束因子与几何观测进行融合.文献[84]使用概率数据关联的方式解决动态环境下的物体关联.Iqbal和Gans等人[85]分析了不同物体点云深度分布之间的区别,使用层次密度聚类算法和非参数检验方法对物体进行关联.5.2基于分配算法的关联方法基于分配算法的关联方法能利用多帧观测解决帧间漏检等问题,为系统提供稳定的物体关联结果.文献[86]使用物体词袋方法构建成本矩阵,通过分配算法实现关联.OA-SLAM[11]使用目标检测结果和物体路标重投影的交并比(intersection over union,IoU)构建成本矩阵,并使用KM(kuhn-munkres,KM)算法进行分配.然而,由于有限的观测视角以及观测帧数,上述方法对于动态场景下的物体数据关联表现并不理想.为了解决上述问题,一些工作采用检测跟踪算法(track-by-detection)实现物体数据关联.Bewley等人[87]使用卡尔曼滤波器对检测框进行状态预测和更新,通过计算预测和检测结果的2D IoU 来度量匹配相似度,并使用匈牙利算法求解指派问题.针对单源相似度的局限性,Deep SORT(deep simple online and realtime tracking)[88]融入了外观信息,使用重识别网络提取的特征,增强了匹配性能,同时,其在匹配策略上增加了级联匹配模块,根据轨迹相似性进行关联,降低了遮挡目标ID切换的频率.Hosseinzadeh 等人[89]采用检测框内特征点投影匹配数量作为度量,该方法能够在一定程度上克服跟踪时的遮挡问题.可以看到,当前数据关联方法主要通过融合多源特征构建成本矩阵,并通过分配算法求解实现.然而,数据关联结果依赖于语义提取模块精度,当检测精度降低时会对关联结果产生影响,进而影系统的定位精度和鲁棒性.稳定可靠的数据关联方法是提升系统表现的有效途径之一.6融合物体级语义信息的后端优化方法在物体完成初始化后,需要利用后续观测信息对地图中的重建物体进行优化,根据物体是否参与相机位姿优化,后端优化策略可以分为独立优化策略和联合优化策略.根据是否需要跟踪场景中的动态物体,联合优化策略的因子图也有不同的形式.后端优化策略示意图如图5所示.2166控制理论与应用第40卷图5融合物体信息的语义VSLAM后端优化方法Fig.5Back-end of object VSLAM with object observations6.1独立优化策略如图5(a)所示,独立优化策略下,物体的位姿和模型参数单独进行优化,物体模型利用跟踪线程中提供的相机初始位姿进行优化.OA-SLAM[11]使用连续帧的目标检测结果对椭球参数单独优化,并在后端优化中使用优化后的物体路标对相机位姿进行优化.CubeSLAM[55]使用采样得分初始化立方框,并独立估计相机位姿和立方框参数,从而确保相机位姿估计的准确性.独立优化关注于物体重建,在进行物体位姿优化调整时无法对相机定位结果进行修正,当相机定位失败时,系统无法实现准确的自身定位和语义地图构建,没有充分利用语义信息辅助定位.6.2联合优化策略1)联合因子图,该方案将物体参数和位姿估计放在统一因子图中进行优化,并根据是否需要对动态物体进行位姿估计分别采用不同的因子图.静态场景的联合优化因子图如图5(b)所示,该方法通常适用于静态场景或采用动态特征剔除策略的SLAM算法.QuadricSLAM[12]将二次曲面参数和相机位姿优化优化放在联合优化中,构建了室内场景的语义地图.Tian等[19]提出的方法将初始化椭球和关键帧位姿放在统一优化因子图中进行优化,提升了室外场景下的定位精度和二次曲面建图准确性.动态场景的因子图如图5(c)所示,引入了动态物体位姿估计和模型参数优化的误差因子.VDO-SL-AM[49]使用物体语义信息和基于场景光流的特征关联,实现刚性物体位姿估计,将动态和静态结构放在统一的后端优化框架中.后续研究如[14–15,17,20]也将物体位姿优化放在局部建图线程中以实现联合优化.近年来,融合二次曲面路标观测的VSLAM成为了研究的热点[12,19,75,78].2)滑动窗口优化策略.相比于静态场景,动态场景下的物体观测容易受到漏检、遮挡等因素的干扰,基于关键帧的关联方案不能为动态物体提供准确的数据关联信息.为了克服这些问题,一些基于滑窗的优化方式被提出[43,47–48].滑动窗口由固定帧数的观测队列组成,当新的帧观测加入队列时,位于时序最早的帧观测被移出,同时,其维护的状态也通过滑窗边缘化的方式进行求解,如图6所示.图6滑动窗口优化结构示意图Fig.6Sliding window based optimization method滑动窗口优化将物体位姿和相机位姿放在统一优化框架中,由于运动物体的特点,使用滑窗优化可以有效利用连续帧的特征信息.DynaSLAM2[43]将场景静态结构,相机位姿以及动态物体运动轨迹维护在一个紧耦合的局部BA进行优化,通过目标检测的二维检测框构建物体位姿约束,使用舒尔补加速稀疏矩阵边缘化求解,解决滑窗优化的计算效率问题.Cluster-VO[47]使用点聚类的方式,将物体点和背景点放在滑窗内进行优化.该方法使用时间和空间双通道的关键帧管理策略保证计算效率,同时对遮挡的运动物体进行预测和跟踪.可以看出,滑窗的方式具有快速响应、参数优化更准确的特点,适用于动态物体的跟踪和位姿估计.基于因子图的联合优化可以有效利用关键帧信息,对室内场景的物体优化更准确.7未来发展和展望利用语义信息,SLAM可以适应动态和复杂环境下的定位,并通过物体级语义地图提升系统的环境感知能力.其技术可以应用于无人驾驶、机器人导航、智慧城市等领域.未来,融合语义信息的高层次信息可以为增强现实(AR)和虚拟现实(VR)提供更丰富的。
0 引言 单目视觉定位方法研究综述 李荣明 , 芦利斌 , 金国栋 (第二炮兵工程学院602教研室,西安710025) 摘 要:根据单目视觉定位所用图像帧数不同把定位方法分为基于单帧图像的定位和基于双帧或 多帧图像的定位两类。单帧图像定位常利用已知的点特征、直线特征或曲线特征与其在图 像上的投影关系进行定位,其中用点特征和直线特征的定位方法简单有效而应用较多:基 于双帧或多帧图像的定位方法因其操作复杂、精度不高而研究的还较少 通过对各方法的 介绍和评述,为单目视觉定位问题的研究提供参考 关键词:单目视觉:视觉定位:位姿估计
近年来.视觉传感器因能采集丰富的环境信息且 价格低廉、使用方便而受到了普遍的关注.基于视觉传 感器的定位方法也成为了研究的热点 根据使用视觉 传感器数目的不同.视觉定位方法可分为单目视觉定 位、双目视觉(立体视觉)定位和多目视觉(全方位视 觉)定位。 单目视觉定位就是仅利用一台摄像机完成定位工 作。它具有简单易用和适用广泛等特点.无需解决立体 视觉中的两摄像机间的最优距离和特征点的匹配问题. 也不会像全方位视觉传感器那样产生很大的畸变ll1 在 机器视觉研究领域.如何在单目视觉条件下。完成位置 与姿态的求解已成为一个重要的研究方向 单目视觉 定位技术可应用在多个方面。例如摄像机标定、机器人 定位、视觉伺服、目标跟踪和监测等。单目视觉定位的 方法有很多.但还没有一个明确的分类标准。
1 基于单帧图像的定位方法 基于单帧图像的定位就是根据一帧图像的信息完 成目标定位工作。因为仅采用一帧图像。信息量少,所 以必须在特定环境内设置一个人工图标.图标的尺寸 以及在世界坐标系中的方向、位置等参数一般都是已
知的.从预先标定好的摄像机实时拍摄的一帧图像中 提取图标中某些特征元素的像面参数.利用其投影前 后的几何关系.求解出摄像机与人工图标的相对位置 和姿态关系 如何快速准确地实现模板与投影图像之 间的特征匹配问题是其研究的重点 该方法具有形式 简单、算法实现容易、硬件要求低等优点。但是也存在 着鲁棒性、实时性较差和对人工路标依赖性强等缺点。 常用的特征元素有点、直线、二次曲线等。 1.1基于点特征的定位 基于点特征的定位又称为PnP(Perspeetive_n—Point 问题闭.是机器视觉领域的一个经典问题 它是根据物 体上n个特征点来确定摄相机的相对位置和姿态.具 体描述为:假定摄像机为小孔模型且已标定好。摄取一 幅在物体坐标系下坐标已知的r1个空间点的图像.且 这n个图像点的坐标已知.来确定这n个空间点在摄 像机坐标系下的坐标 对PnP问题的研究基本围绕解的确定性和求解算 法的线性两方面展开,多年来研究者们主要针对P3P、 P4P和P5P问题作了大量有益的探索.得到以下结论 : 当n≤2时有无限组解.即仅有两个点不能确定点在摄 像机坐标系下的位置:当n=3且三个控制点决定的平 面不通过光心时,最多有4组解且解的上限可以达到:
收稿日期:2011—04—21 修稿日期:2011-05—21 作者简介:李荣明(1984一),男,江苏徐州人,硕士研究生,研究方向为视觉定位
万方数据当n=4时.4个空间点在同一平面时解是唯一的.4个 空间点不共面时,则可能出现多个解;当n=5时,若5 个控制点中任意3点不共线.则P5P问题最多可能有 两个解。且解的上限可以达到:当n/>6时,PnP问题就 成为经典的DLT(Direct Linear Transformation1问题,可 以线性求解 在目标上设置点特征定位具有测量系统 精度高、测量速度快的特点,在陆上、空间、水下定位计 算中得到了广泛的应用 由于通过同一平面不共线 的4个空间点可以得到摄像机的唯一确定位置.所以 用点特征进行定位多应用P4P方法:为了提高特征点 提取的鲁棒性.一般设计采用多于4个特征点的人工 图标。 1.2基于直线特征的定位 基于直线特征的定位研究也不少.因为直线特征 在自然环境中存在的比较多.且其抗遮挡能力强.易于 提取。在文献f9~121中应用图像中直线和摄像机光心构 成的投影平面的法向量和物体直线垂直来构建定位数 学模型 这种方法要求确定物体位姿的三条直线不同 时平行且不与光心共面.进而建立由三条直线构成的 三个非线性方程 它有效地解决了利用直线特征如何 进行视觉定位的问题.但是非线性方程组较为复杂.定 位误差偏大 也有一些学者根据空间不平行于像面的 平行线投影到像面交于灭影点的原理.利用灭影点在 像面上的位置.可以计算出代表该组直线3维方向f相 对于摄像机坐标系1的矢量.从而可获得摄像机与人工 图标的相对位姿参数 文献[13~151就采用灭影点方法 实现了无人机的位姿估计 该算法的计算建立在分析 性结论的基础上.无需迭代,计算量小.但必须准确提 取像面直线和灭影点的位置参数.这使图像的处理变 得比较复杂 文献[16^,19]针对四条直线组成的平面四 边形(例如矩形、平行四边形等)特征提出了一些视觉 定位算法.求解过程简单.具有较高的求解精度和较大 的应用价值 1.3基于曲线特征的定位 基于曲线特征的定位一般需要对复杂的非线性系 统进行求解。比较经典的如文献[20~211,分别利用共面 曲线和非共面曲线进行定位.都需要对几个高次多项 式进行求解.算法比较复杂。但是当两个空间曲线共面 时.可以得到物体姿态的闭式解。 圆是很常见的图形.作为二次曲线的一种.也引起 z日山j上苗 n^^.-^ 研究人员的关注 一般情祝下.圆经透视投影后将在像 面上形成椭圆,该椭圆的像面参数与圆的位置、姿态、 半径等存在着对应的函数关系.采用一定的方法对相 应的关系求解即可得到圆与摄像机的相对位置和姿态 参数 文献[22~241分别运用不同的方法对圆特征进行 了定位 利用圆特征进行定位可以摆脱匹配问题.提高 定位速度.但其抗干扰能力欠佳
2 基于双帧或多帧图像的定位 虽然使用特殊的人工图标实现定位可以容易找到 匹配特征.但是使用人工图标本身制约了视觉定位的 应用场合.所以利用摄像机获取的自然图像信息来进 行定位是该领域的研究趋势之一 基于双帧或多帧图 像的定位方法.就是利用摄像机在运动中捕捉同一场 景不同时刻的多帧图像.根据拍摄图像像素间的位置 偏差实现目标的定位 实现多帧投影图像之间的对应 特征元素匹配是该定位算法的关键 这类算法一般相 对比较复杂.精确性和实时性不高.但不依赖人工标 志.通过拍摄自然图像就可实现定位 在文献[251qh介绍了一种双帧图像定位估计方法 采用事先已标定的摄像机在运动中拍摄目标.利用目 标在前后相邻两帧图像上的投影点形成多个匹配点对 估计出基本矩阵.由基本矩阵和本质矩阵的关系进一 步求出本质矩阵.并经过分解获得单目摄像机的外部 运动参数(旋转和平移)。利用坐标系转换从而获得目 标的三维信息 文中针对定位中基本矩阵对定位精度 的影响问题.提出一种新的基本矩阵迭代估计算法.结 合RANSAC算法实现了基本矩阵的鲁棒性估计 该定 位方法类似立体视觉定位原理.可以获取较多的周围 环境信息.但是需要获得摄像机运动的平移距离和投 影图像之间至少八对匹配点,局限性大。文献[26~271 利用尺度不变特征变换(SIFT)具有尺度、旋转不变性 的特点.采用SIFT算法进行图像特征的提取和匹配. 计算出目标的三维信息,实现目标的定位。该算法很好 地解决了拍摄图像对应点的自动匹配问题.但由于其 图像采样频率偏低.不适合摄像机在快速运动状态下 的应用。 文献I28] ̄U用了图像之间的拼接技术实现摄像机 的定位 摄像机通过平移或是旋转.可以获取两幅相邻 的有着重叠区域的图像.且重叠区域中的相同像点的
万方数据/ 位置发生了改变 通过图像拼接过程中的图像配准技 术.利用仿射变换求得相邻图像之间的特征变化关系, 最后进一步推得摄像机的运动情况.从而初步实现摄 像机的定位 该方法采用基于灰度信息的拼接方法对 两幅图像进行图像配准。实验表明该方法有效.可初步 实现摄像机定位的要求 但因为缺乏场景中景物到摄 像机光心的实际距离.无法推得摄像机的位移量.而只 能计算得出摄像机的运动方向以及摄像机绕光轴的旋 转角度 文献『291提出了一种将单目视觉测量中的离焦法 和聚焦法相结合的摄像机定位方法。通过移动摄像机. 目测找出图像近似最清晰的位置.在其前后各取等间 距的两个位置.并在以上三个位置拍摄图像:然后应用 离焦定位算法进行计算.得到近似的峰值点位置。在近 似峰值点位置附近取若干个测点并拍摄图像.然后应 用聚焦定位算法进一步求得精确的峰值点位置.从而 确定摄像机相对于被测点的聚焦位置。实验证明了其 方法的正确性和准确性。该方法将离焦法和聚焦法结 合起来.使两者的优缺点互相弥补.避免了建立复杂的 数学模型.同时减少了由于简化的假设与模型而造成 的误差.提高了测量精度.适合于针对实际被测物体复 杂图像的测量
3 结语 本文根据单目视觉定位所用的图像帧数不同把定 位方法进行了分类.并全面而简要地介绍了各个方法 的研究现状 目前.基于单帧图像的定位方法研究的比 较多.特别是利用点特征和直线特征的方法.已有许多 成功的应用:而基于双帧或多帧图像的定位方法研究 的还较少.其在实时性和准确性方面还需进一步提高。
参考文献 【l】周娜.基于单目视觉的摄像机定位技术研究【D】.南京:南京 航空航天大学.2007 [2]吴朝福,胡占义.PNP问题的线性求解算法fJ】.软件学报, 2003,14(3):682-688 [3]Fishier M A,Bolles R C.Random Sample Consensus:A Paradigm for Model Fi ̄ing with Applications to Image Analy-
sis and Automated Cartography[J].Communications of the ACM,1981,24(6):381 ̄395 【4]Abdel-Aziz Y,Karara H.Direct Linear Transformation from Comparator to Object Space Coordinates in Close-Range Ph- togrammetry[C].In:ASP Symp.Close-Range Photogrammetry. Urbana,Illinois.197 1:1-1 8 [5】胡占义,雷成,吴福朝.关于P4P问题的一点讨论[J].自动化 学报,2001,27f6):770~776 【6】邹伟,喻俊志,徐德等.基于ARM处理器的单目视觉测距定 位系统[J].控制工程,2010,17(4):509~512 [7】徐筱龙,徐国华,陈俊.水下机器人的单目视觉定位系统[J]. 传感器与微系统,2010,29f7):109 l1 1 [8】任沁源.基于视觉信息的微小型无人直升机地标识别与位 姿估计研究『D1.浙江:浙江大学,2008 [9】R.Horaud,B.Conio,O.Leboullcux,et a1.An Analytic Solution for the Perspective 4一Point Problem[J].Computer Vision Graphics and Image Processing.1989,47(1):33-44 [10]Dhome,M.Richeti,J.T.Laprest,et a1.Determination of the At— titude of 3D Objects from a Single Perspective View[J1. IEEE Transactions on Pattern Analysis and Machine Intelli- genee.1989,1 1(12):1266一l278 [1 I]H.Chen.Pose Determination from Line to Plane Correspon- dences:Existence Solution and Closed form Solutions fJ1. IEEE Transactions on Pattern Analysis and Machine Intelli- gence.1993,13(6):530-541 [12]Y.Liu,T.S.Huang,O.D.Faugeras.Determination of Camera Location from 2D to 3D Line and Point Correspondences 【J].IEEE Transactions on Pattem Analysis and Machine In— telligence.1990,12(1):28-37 [13]Mukundan R,Raghu Narayanan R V,Philip N K.A Vi— sion Based Attitude and Position Estimation Algorithm for Rendezvous and Docking[J].Journal of Spacecraft Teehnolo- gY,1994,4(2):60 ̄66 [141 ̄J士清,胡春华,朱纪洪.一种基于灭影线的无人直升机 位姿估计方法[J】.计算机工程与应用,2004,9:50 53 『15]刘晓杰.基于视觉的微小型四旋翼飞行器位姿估计研究 与实现【D】.吉林:吉林大学,2009 【161t晓剑,潘顺良,邱力为等.基于双平行线特征的位姿估计 解析算法[J].仪器仪表学报,2008,29(3):600~604 [17】吴福朝,王光辉,胡占义.由矩形确定摄像机内参数与位置