视觉导航综述
- 格式:doc
- 大小:211.50 KB
- 文档页数:11
单目深度估计技术进展综述单目深度估计技术是计算机视觉领域中的一个重要研究方向,其主要目的是通过一张单目图像来推断出场景中物体的深度信息。
该技术在自动驾驶、机器人导航、虚拟现实等领域都有广泛的应用前景。
近年来,随着深度学习技术的发展,单目深度估计技术也取得了长足进步。
下面将从数据集、方法和应用三个方面对其进展进行综述。
一、数据集数据集是评价单目深度估计算法效果的重要标准之一。
近年来,随着数据集规模和质量的提高,单目深度估计算法也得到了大幅提升。
1. NYU Depth v2NYU Depth v2是一个常用的室内场景深度数据集。
该数据集包含464个场景,每个场景包含RGB图像和真实深度图像。
该数据集对于室内场景中物体大小和形状变化较大的情况下具有很好的鲁棒性。
2. KITTIKITTI是一个常用的自动驾驶场景深度数据集。
该数据集包含22个不同城市道路上行驶的真实车辆采集的RGB图像和激光雷达点云数据。
该数据集对于自动驾驶场景中物体远近变化较大的情况下具有很好的鲁棒性。
3. Make3DMake3D是一个常用的室外场景深度数据集。
该数据集包含400张室外场景中的RGB图像和真实深度图像。
该数据集对于室外场景中物体大小和形状变化较大的情况下具有很好的鲁棒性。
二、方法单目深度估计算法主要分为传统方法和深度学习方法两种。
1. 传统方法传统方法主要基于几何学原理,通过从单目图像中提取出一些几何特征(如角点、直线等)来进行深度估计。
其中,最为代表性的算法是结合了角点检测和立体匹配技术的SGBM(Semi-Global Matching)算法。
但是,这些传统方法在复杂场景下准确率较低,难以满足实际应用需求。
2. 深度学习方法深度学习方法主要基于卷积神经网络(CNN),通过从大规模数据集中学习到图像与深度之间的映射关系来进行深度估计。
其中,最为代表性的算法是基于Encoder-Decoder结构的网络,如FCRN(Fully Convolutional Residual Network)、DORN(Deep Ordinal Regression Network)等。
基于卫星组合导航的技术综述摘要:组合导航是近代导航理论和技术发展的结果,组合导航是指综合各种导航设备,实现了优于单一导航系统的导航性能。
目前,在卫星组合导航领域,大多数组合系统以卫星导航系统为主,其原因主要是卫星导航系统能够提供比较准确导航结果,随着全球卫星导航系统的迅速发展,中国的北斗卫星导航系统、美国的GPS、俄罗斯的GLONASS、以及欧洲的GALILEO等均取得较高的定位精度,如何更好地开发利用卫星导航系统,为运载体提供高精度的导航信息,已经成为各国导航领域的热点问题。
关键词:组合导航;卫星导航系统;导航性能一、组合导航系统卫星导航系统是一种全球性、全天候、全天时、高精度的导航定位和时间传递系统,由于非视线通信问题,导航系统单独使用时存在局限性,提高导航系统整体性能的有效途径是采用组合导航系统,即用两种或两种以上导航系统对同一导航信息作测量,应用信息融合技术进行优化,以提供高精度、高稳定性的组合导航信息。
东华大学CN105701752A提出了一种GPS和RFID组合导航的方法,通过GPS与RFID等组合定位,采用多种算法相结合的方式,如三角定位法、卡尔曼滤波、指纹匹配法、地图匹配算法等进行人员的定位监控,提高了人员定位与监控的精度。
辽宁北斗卫星导航平台有限公司CN109814141A提出了一种定位方法,采用卫星导航差分模式和蓝牙相结合的方式进行高精度定位,定位精度可以达到10cm以内,定位精度较原有普通GPS定位的10米精度。
二、组合导航方式随着导航技术的不断发展,除了传统的能够提供较多导航参数的惯性导航系统、卫星导航系统、地面导航系统、陆基导航系统,以及视觉导航系统也发展很快。
惯性导航、卫星导航、视觉导航是目前常用的导航手段。
虽然不同系统之间相互组合组合导航系统能够提供更准确的导航定位信息,可以实现不同的导航要求,但要考虑各个导航系统组合的可行性。
目前,应用最为广泛的组合导航是卫星导航系统和惯性导航系统的组合,卫星导航系统优点是定位精度较高,但在室内或隧道等遮挡下容易受干扰,有丢失信号等缺点,惯性导航系统虽然能够提供较多的导航参数,具有高可靠性,但其随着时间的积累误差也会增大。
跟踪技术综述一、引言随着科技的发展,跟踪技术在各个领域中得到了广泛的应用。
跟踪技术可以帮助我们实时获取目标的位置、姿态和运动轨迹等信息,为我们提供了极大的便利。
本文将对跟踪技术的概念、分类和应用进行综述。
二、跟踪技术的概念跟踪技术是指通过对目标进行连续观测和测量,以获取目标的位置、运动轨迹等信息的技术。
跟踪技术可以应用于各个领域,如航空航天、机器人、无人驾驶、视频监控等。
三、跟踪技术的分类根据目标的性质和跟踪手段的不同,跟踪技术可以分为以下几类:1. 视觉跟踪技术视觉跟踪技术是指利用摄像机采集的图像信息,通过对目标在图像中的位置和运动进行分析和判断,实现对目标的跟踪。
视觉跟踪技术可以应用于视频监控、物体识别、无人驾驶等领域。
2. 雷达跟踪技术雷达跟踪技术是指利用雷达系统对目标进行连续观测和测量,通过分析目标的回波信号,实现对目标的跟踪。
雷达跟踪技术可以应用于航空航天、导航定位等领域。
3. 卫星定位与导航技术卫星定位与导航技术是指利用卫星系统提供的定位和导航信号,通过接收和处理信号,实现对目标的跟踪。
卫星定位与导航技术可以应用于导航系统、车辆追踪等领域。
4. 无线通信跟踪技术无线通信跟踪技术是指利用无线通信技术对目标进行连续监测和测量,通过分析目标的信号特征,实现对目标的跟踪。
无线通信跟踪技术可以应用于通信系统、无人机等领域。
四、跟踪技术的应用跟踪技术在各个领域中都有广泛的应用,以下是几个典型的应用案例:1. 视频监控系统视频监控系统利用视觉跟踪技术对监控区域内的目标进行实时跟踪,可以帮助监控人员及时发现异常情况,并采取相应的处理措施。
2. 机器人导航机器人导航系统利用卫星定位与导航技术对机器人进行定位和导航,实现自主导航和路径规划,可以应用于仓储物流、智能家居等领域。
3. 交通管理交通管理系统利用雷达跟踪技术对车辆进行跟踪和监测,可以实时获取交通流量信息,帮助交通管理部门优化交通流动,提高道路利用率。
基于机器视觉技术的移动机器人导航系统设计与实现随着科技的发展,机器人的应用范围越来越广泛。
移动机器人作为机器人领域的重要一环,其导航系统是关键技术之一。
基于机器视觉技术的移动机器人导航系统,能够实现对环境的感知与理解,并能够精确地定位和规划路径,为机器人在复杂环境中进行导航提供了有效的解决方案。
一、系统设计1. 环境感知机器视觉技术可以通过图像识别、目标检测与跟踪等算法,对机器人所处的环境进行感知。
首先,需要使用摄像头或深度相机来获取环境的视觉信息。
然后,通过图像处理和计算机视觉算法,对图像进行处理和分析,提取出环境中的关键信息,如墙壁、家具等。
同时,还可以利用深度相机获取场景的深度信息,进一步提高环境感知的准确性。
2. 位置与定位机器人在导航过程中需要准确地知道自己的位置信息。
通过机器视觉技术,可以将机器人所处的环境与地图进行匹配,得到机器人的精确位置。
在系统设计中,可以采用SLAM(同时定位与地图构建)算法,通过机器人自身的传感器数据以及视觉信息,实现对机器人位置的精确定位。
3. 路径规划路径规划是导航系统的核心部分。
机器视觉技术可以帮助机器人理解环境的复杂性,并根据环境中的障碍物、目标位置等信息,进行有效的路径规划。
在系统设计中,可以使用基于图的搜索算法,如A*算法、Dijkstra算法等,结合机器视觉技术提供的环境信息,生成最优的路径规划方案。
4. 避障与导航在路径规划的基础上,机器视觉技术还可以用于实现避障与导航功能。
通过对环境中障碍物的感知与检测,机器人能够及时避免碰撞,并根据实时的环境变化进行调整。
在实现过程中,可以采用深度学习算法,如卷积神经网络(CNN)等,实现对障碍物的快速识别与分析,从而保证机器人能够安全、高效地进行导航。
二、系统实现1. 硬件配置移动机器人导航系统的实现需要具备相应的硬件配置。
首先,需要配备摄像头或深度相机,用于获取环境的视觉信息。
其次,需要安装激光雷达等传感器,用于辅助机器人的定位与避障。
室内导航技术综述郝天鹿;刘玉民;彭宏玉;胡博涵【摘要】总结了当前典型的室内导航技术,以及其中关键的路径规划技术和展示技术,分析了当前室内导航技术的研究点以及研究现状,为室内导航研究及系统大范围部署提供支持.【期刊名称】《唐山师范学院学报》【年(卷),期】2018(040)006【总页数】4页(P87-90)【关键词】物联网;室内导航;路径规划【作者】郝天鹿;刘玉民;彭宏玉;胡博涵【作者单位】唐山学院计算机科学与技术系,河北唐山 063000;唐山市室内定位技术重点实验室,河北唐山 063000;唐山学院计算机科学与技术系,河北唐山 063000;唐山市室内定位技术重点实验室,河北唐山 063000;唐山学院计算机科学与技术系,河北唐山 063000;唐山市室内定位技术重点实验室,河北唐山 063000;澳大利亚国立大学,商业与经济学院,澳大利亚堪培拉 2601【正文语种】中文【中图分类】TP39导航需要融合移动及定位技术来实现[1],导航服务包括基于感知数据的路径规划服务以及基于路径规划的导航服务[2]。
通常情况下,不论是室内还是室外导航都是通过计算与一个或者多个坐标点的距离以及方向来实现。
通过不断计算导航对象位置和方向的变化就可以规划出相应路径[3]。
在这种应用中,可以不使用地图,此时对移动物体进行导航,需要保存每个移动物体所有路径变化[4]。
也可以辅助地图-基于路标的路径规划,在这种路径规划中必须辅以地图。
通过计算当前所处位置与路标的距离和角度就可以获得导航对象当前位置以及具体方位。
在探索一个新的环境过程中,路径规划是十分有用的,因为导航者虽然不清楚新环境的实际情况,但是可以通过路标以及地图清楚地知道当前所处位置以及接下来的路径规划[5-8]。
研究表明,基于路标和地图的路径规划已经成为大众出行首选导航方式[9-12]。
导航系统功能包括定位和绘制导航者移动轨迹。
用户位置信息可以用来进行路径规划以及提供环境信息。
DOI :10.12132/ISSN.1673-5048.2019.0086协同导航技术研究综述谢启龙1∗,宋 龙1,鲁 浩1,2,周本川1,2(1.中国空空导弹研究院,河南洛阳 471009;2.航空制导武器航空科技重点实验室,河南洛阳 471009) 摘 要:协同导航技术作为提升平台协同作业性能的重要保障和关键技术,在军用和民用方面正发挥着越来越大的作用。
本文首先在多平台协同作业背景下,从无人机、机器人、无人水下潜航器、导弹四个应用层面梳理了协同导航的国内外发展现状;然后在技术应用层面,从初始组网编队方式和编队保持及重构方法两方面对协同方式进行了分类分析;其次对协同导航中多传感器的组合应用及多源导航信息处理方法在提高导航精度及导航稳定性方面的研究进行了归纳总结;最后从协同导航精度、系统稳定性、发展深度等方面,讨论了未来协同导航领域的发展趋势。
关键词:协同导航;编队方式;多传感器组合应用;多源信息处理方法;武器协同技术中图分类号:TJ765;V249 文献标识码:A 文章编号:1673-5048(2019)04-0023-080 引 言20世纪70年代著名物理学家哈肯(HermannHaken)提出的协同理论(Synergetics)又称“协同学”,为处理复杂问题提供了新的思路:多运动平台协同工作,可以实现简单平台“1+1>2”的性能提升。
协同是未来联合发展的必然趋势,例如,多机器人协同作业、无人机群协同表演/侦察、导弹编队协同打击、海上舰艇编队协同防空等都可以极大地提高工作效能。
而协同导航技术作为协同系统的基础和关键,方兴未艾,受到国内外高校、科研机构的重视[1-2]。
协同导航是协同组网编队中平台间通过导航信息交互利用,实时解算并修正自身位置、速度、姿态等导航信息,保障协同编队保持、队形重构及后续协同任务顺利完成的一种技术。
如果无法得到协同平台的精确导航信息,或者获取的相对导航精度下降,则会导致编队的控制精度变差,任务执行效果也会下降甚至出现错误。
292017年2月下 第4期 总第256期无人机属于一种拥有动力、可进行控制、可执行任务的无人驾驶飞行器。
这种设备相比有人驾驶飞机更体现出重量轻便、雷达反射界面小、运行成本低等优势,因此在侦察和攻击等军事化任务中被广泛使用;在民用方面,常常适合于气象监测、灾害预测等众多领域,所以在国家受到了广泛重视。
1 视觉导航的基本概述伴随着视觉传感器技术的发展,计算机技术及人工智能技术的融合,一种建立在计算机视觉匹配定位上的技术手段应运而生,这就是视觉导航。
视觉导航具有自主性及可视性、智能化的特点,因此它成为导航中最受瞩目的焦点,能够为无人机进行长途飞行时提供新的辅助手段。
视觉导航最为关键的技术是自主导航技术,这种技术会根据需要导航图与否来进行分门别类,如地图型和无地图导航两种。
地图型导航主要是依靠事先储存的精准地理信息导航地图来实现一帧实拍图像和导航地图的相互匹配,这样经过适当的过程,就能实现飞行器的有效定位,从而满足具体的需要[1]。
无地图导航就是建立在序列图像的运动基础上进行估计,不需要任何导航图的参与,这样经过对周边环境的感知,来通过相邻两帧特征的变化,实现对于两帧之间运动的估计,经过多帧累积计算之后,实现飞行器的导航目标。
总之,无人机飞行途中视觉导航关键技术包含着适配性分析、景象匹配定位及帧间特征点的匹配等内容。
2 视觉导航关键技术的发展现状2.1 计算机视觉与相关应用计算机视觉又被称为机器视觉,这是一种利用了计算机来模拟人视觉的功能,从而在图像中获取具体的信息,并对这种信息进行处理并分析的检测、测试及控制等。
计算机视觉是一种交叉性学科,常常涉及到多种领域,如图像的处理、计算机科学及生理心理学等具体的内容。
计算机视觉被广泛的运用于多种领域,同样是由硬件和软件两个重要的部分组成,其中硬件包含着图像采集卡及P C 机等部分,可以实现对信息的采集与处理;软件则是安装至PC 中,用来完成图像的处理和判断相关决策,然后输出相应的控制信号。
基于计算机视觉的四旋翼无人机自主悬停方法研究作者:邵帅廖仙华代南明来源:《科技风》2016年第11期摘要:为实现四旋翼自主飞行并最终定点悬停,设计一种基于计算机视觉的自主飞行控制方法,充分考虑了视觉系统的特点,选用小巧,便携,合理的实验硬件,应用摄像头采集地面信息,并初步处理,通过图像检测算法和飞行控制算法结合,识别地面明显的黑线循迹标志,使四旋翼不断循着标志物来找到悬停点,并实现定点悬停[ 1 ]。
考虑到飞行高度的控制,实验中还加入了超声波定高模块。
实验结果表明,系统较为可靠,在室内环境下,实现了四旋翼自主悬停。
关键词:计算机视觉;四旋翼;自主飞行;悬停目前,旋翼无人机得到了广泛应用,实现旋翼无人机在空中的准确定点悬停,具有非常重要的意义。
本项目对基于计算机视觉伺服技术的四旋翼自主悬停进行研究,利用视觉伺服控制技术[ 2 ],实现旋翼无人机完成目标视觉捕捉,并解决其在复杂环境下的准确悬停。
视觉伺服控制与传统传感器控制的旋翼无人机相比,具有较明显的优点:更高的灵活性、更高的精度、对旋翼无人机标定误差具有更强的现实作用。
1 系统概述四旋翼要求即时处理图像并且需要装入opencv资源库,所以选用处理速度快,运算强大的的树莓派处理芯片,摄像头方面,配置一款重量轻,体积小,视角广,采集图像清晰的摄像头。
在树莓派芯片中,装入window系统,我们所采用的软件算法都是在vs2010上实现的,在图像处理上采用opencv库。
通过摄像头采集到的图像信息,经过灰度化,边缘检测等初步处理,通过图像检测算法和飞行控制算法结合,识别地面明显的黑线循迹标志,使四旋翼不断循着标志物来找到悬停点,并实现定点悬停。
2 飞行控制的实现智能控制算法对于飞行器来说是非常优秀的控制策略[ 1 ],但其非常复杂的浮点型以及矩阵运算对处理器的计算能力要求过高,对微型低成本飞行器是个很大的限制,PID 算法的鲁棒性和可靠性强且算法简单,被广泛运用于过程控制和运动控制的,对飞行器姿态有非常卓越的控制性能,我们采用外环角度PID控制和内环角速度PID控制的双闭环的PID控制器。
Vol. 27 No. 12Dec. 2020第27卷第12期2020年12月电光与控制Electronics Optics & Control 引用格式:房德国,王伟,李自然,等.VIO-SLAM 综述[J] •电光与控制,2020,27(12) :58-62,100. FANG D G, WANG W, LI Z R, et al. VIO-SLAMreview[ J]. Electronics Optics & Control, 2020, 27(12) :58-62, 100.VIO-SLAM 综述房德国,王伟,李自然,华锡炭,潘枭(南京信息工程大学自动化学院,南京210044)摘 要:VIO-SLAM 指的是移动机器人把相机和IMU 作为外部传感器,在进行自身定位的同时构建外部地图。
从前端视觉惯导里程计、后端优化、回环检测和建图等模块对V IO-SLAM 定位系统进行综述。
对于视觉惯导里程计,主要 讲述特征点法和光流法的异同,以及IMU 预积分的过程;后端优化主要指出如何处理VIO-SLAM 过程中的噪声以及IMU 中陀螺仪和加速度的数据误差;回环检测主要阐述如何解决位置估计随时间漂移的问题;而建图部分则依据移动机器人的用途指出几种主要的建图方法和建图策略。
最后对V IO-SLAM 的发展趋势做出展望。
关键词:移动机器人;视觉惯导里程计;回环检测中图分类号:TP391.9 文献标志码:A dot : 10.3969/j. issn. 1671 -637X. 2020.12.013VIO-SLAM ReviewFANG Deguo, WANG Wei, LI Ziran, HUA Xiyan, PAN Xiao(School of Automation, Nanjing University o£ Information Science & Technology, Nanjing 210044, China)Abstract : VIO-SLAM ( Visual Inertial Odometer Simultaneous Localization and Mapping ) means thatmobile robots use cameras and IMUs as external sensors to build external maps while positioning themselves. This paper reviews the VIO-SLAM positioning system from such modules as the front-end visual inertialnavigation odometer, back-end optimization, loop detection and the mapping. As to the visual inertial navigation odometer, the similarities and differences between the feature point method and the optical flow method, and the process of IMU pre-integration are stated ・ Back-end optimization mainly points out how todeal with the noise in VIO-SLAM process and the bias of the gyroscope and acceleration in IMU. Loop detection mainly expounds how to solve the problem of position estimation drifting with time. In the mappingpart, several main mapping methods and strategies are given according to the purpose of mobile robots. Finally, the development trend and prospect of VIO-SLAM are given.Key words : mobile robot ; visual inertial navigation odometer ; loop detection0引言随着通信技术和微机电系统的快速发展,多旋翼飞行器和移动机器人被广泛应用到军事和民用领域 中;在军事领域中,多旋翼飞行器可以进行战地侦察、 物资运输和目标搜索"切;在民用领域中,移动机器人可以用于卫生打扫,多旋翼飞行器用于航拍摄影和农药喷洒"7;然而这些智能化机器人无论应用在哪个 领域,其具备的最基本功能就是定位和导航。
基于机器视觉的自主导航与避障技术研究摘要:随着机器视觉和人工智能技术的快速发展,基于机器视觉的自主导航与避障技术在无人车、机器人和智能家居等领域具有广泛应用前景。
本文旨在研究机器视觉技术在自主导航和避障中的应用,通过综述相关文献和研究成果,分析和评估现有的方法和技术,并讨论未来的发展方向和挑战。
1. 引言近年来,随着无人驾驶技术的迅猛发展,自主导航和避障技术已经成为人工智能领域的热点研究方向之一。
基于机器视觉的自主导航与避障技术通过利用摄像机等视觉传感器获取环境信息,并采用图像处理和模式识别等技术来实现智能机器的导航和避障。
2. 自主导航技术自主导航技术是指机器能够基于外部环境信息进行目标导航,并能够在未知环境中实现路径规划和路径跟踪等功能。
基于机器视觉的自主导航技术主要分为视觉定位和地图构建两个方面。
视觉定位通过利用摄像机获取环境图像,并通过特征提取和匹配等技术来估计机器在环境中的位置和姿态。
地图构建则是通过机器视觉和摄像机获取环境的三维信息,并将其存储在地图中以便后续导航。
3. 避障技术避障技术是指机器能够在导航过程中识别并避免环境中的障碍物。
基于机器视觉的避障技术主要包括障碍物检测和障碍物跟踪两个方面。
障碍物检测通过对环境图像进行分析和处理,识别出图像中的障碍物,并计算其位置和边界信息。
障碍物跟踪则是跟踪障碍物的运动轨迹和状态,并根据其变化来预测未来动作。
4. 现有方法和技术评估目前,基于机器视觉的自主导航和避障技术已经取得了一定的进展。
常见的方法和技术包括基于特征匹配的视觉定位、基于深度学习的障碍物检测和基于SLAM(Simultaneous Localization and Mapping)的地图构建等。
然而,这些方法和技术在实际应用中仍然存在一些局限性,如对复杂环境的适应性较差、计算复杂度高等。
5. 发展方向和挑战未来,基于机器视觉的自主导航与避障技术仍然面临一些挑战和问题。
首先,需要提高算法的鲁棒性和适应性,使其能够在复杂和动态的环境中正常工作。
无人驾驶技术综述无人驾驶技术是指能够完全或部分地自主驾驶汽车的技术。
目前,无人驾驶技术在全球范围内得到了广泛关注,被认为是未来交通运输的方向。
无人驾驶技术涵盖了多个领域的技术,包括传感器技术、自主导航、人工智能、机器视觉等。
下面将对无人驾驶技术的各个方面进行综述。
1. 传感器技术传感器技术是实现无人驾驶的核心技术之一。
传感器可以通过收集环境中的信息,为无人驾驶车辆提供必要的信息。
包括激光雷达、摄像头、GPS、毫米波雷达等多种不同类型的传感器。
激光雷达是应用最为广泛的一种传感器,它可以生成环境的三维模型,为无人驾驶提供重要的定位和感知信息。
摄像头也是常见的传感器之一,它可以捕捉道路上的图像,为车辆提供视觉信息。
GPS可以提供卫星定位信息,帮助车辆知道自己的位置。
毫米波雷达可以穿过厚厚的云层和雾,提供更广泛的感知范围。
这些传感器组合使用,可以实现高精度、多维度的环境感知,为车辆提供精确定位、避障等功能。
2. 自主导航技术自主导航技术是指无人驾驶车辆根据传感器收集的信息,自主地决策、导航和驾驶的能力。
自主导航技术主要包括定位、地图制作、路径规划和控制等方面。
定位是指车辆通过传感器获取自己的位置,以便进行路径规划和导航。
地图制作是指将车辆所在的环境通过各种传感器感知到的信息制作成数字地图。
路径规划是通过对数字地图和车辆所处环境的实时感知,制定适合车辆的行驶路径。
控制是指根据当前状态和行驶路径对车辆进行自动控制,比如加速、制动、转向等。
3. 人工智能技术人工智能技术是实现无人驾驶的核心技术之一。
人工智能技术可以通过模拟人类的决策操作,使车辆具有智能性。
最常用的人工智能技术是深度学习技术,它可以通过大量的数据训练,使车辆具有识别图像、语音等复杂数据的能力。
基于深度神经网络的图像识别技术可以智能地辨认道路标志和车辆,帮助无人驾驶车辆更加安全和稳定地行驶。
4. 机器视觉技术机器视觉技术是指无人驾驶车辆用于视觉感知的非传感器技术。
第46卷第4期自动化学报Vol.46,No.4 2020年4月ACTA AUTOMATICA SINICA April,2020基于视觉的三维重建关键技术研究综述郑太雄1黄帅1李永福2冯明驰1摘要三维重建在视觉方面具有很高的研究价值,在机器人视觉导航、智能车环境感知系统以及虚拟现实中被广泛应用.本文对近年来国内外基于视觉的三维重建方法的研究工作进行了总结和分析,主要介绍了基于主动视觉下的激光扫描法、结构光法、阴影法以及TOF(Time offlight)技术、雷达技术、Kinect技术和被动视觉下的单目视觉、双目视觉、多目视觉以及其他被动视觉法的三维重建技术,并比较和分析这些方法的优点和不足.最后对三维重建的未来发展作了几点展望.关键词三维重建,主动视觉,被动视觉,关键技术引用格式郑太雄,黄帅,李永福,冯明驰.基于视觉的三维重建关键技术研究综述.自动化学报,2020,46(4):631−652DOI10.16383/j.aas.2017.c170502Key Techniques for Vision Based3D Reconstruction:a ReviewZHENG Tai-Xiong1HUANG Shuai1LI Yong-Fu2FENG Ming-Chi1Abstract3D reconstruction is important in vision,which can be widely used in robot vision navigation,intelligent vehicle environment perception and virtual reality.This study systematically reviews and summarizes the progress related to3D reconstruction technology based on active vision and passive vision,ser scanning,structured light,shadow method,time offlight(TOF),radar,Kinect technology and monocular vision,binocular vision,multi-camera vision,and other passive visual methods.In addition,extensive comparisons among these methods are analyzed in detail.Finally, some perspectives on3D reconstruction are also discussed.Key words3D reconstruction,active vision,passive vision,key techniquesCitation Zheng Tai-Xiong,Huang Shuai,Li Yong-Fu,Feng Ming-Chi.Key techniques for vision based3D reconstruc-tion:a review.Acta Automatica Sinica,2020,46(4):631−652三维重建经过数十年的发展,已经取得巨大的成功.基于视觉的三维重建在计算机领域是一个重要的研究内容,主要通过使用相关仪器来获取物体的二维图像数据信息,然后,再对获取的数据信息进行分析处理,最后,利用三维重建的相关理论重建出真实环境中物体表面的轮廓信息.基于视觉的三维重建具有速度快、实时性好等优点,能够广泛应用于人工智能、机器人、无人驾驶、SLAM (Simultaneous localization and mapping)、虚拟现收稿日期2017-10-24录用日期2018-07-05Manuscript received October24,2017;accepted July5,2018国家自然科学基金(61773082,51505054),重庆市基础与前沿技术项目(cstc2018jcyjAX0684),重庆邮电大学交叉项目(A2018-02),重庆市重点产业共性关键技术创新专项项目(cstc2015zdcy-ztzx60002)资助Supported by National Natural Science Foundation of China (61773082,51505054),Basic Science and Emerging Technology of Chongqing(cstc2018jcyjAX0684),Project of Crossing and Emerging Area of CQUPT(A2018-02),and Chongqing Science and Technology Commission(cstc2015zdcy-ztzx60002)本文责任编委桑农Recommended by SANG Nong1.重庆邮电大学先进制造工程学院重庆4000652.重庆邮电大学自动化学院重庆4000651.College of Advanced Manufacturing Engineering,Chongqing University of Posts and Telecommunications,Chongqing4000652.College of Automation,Chongqing University of Posts and Telecommunications,Chongqing400065实和3D打印等领域,具有重要的研究价值[1−3],也是未来发展的重要研究方向.1963年,Roberts[4]首先提出了使用计算机视觉的方法从二维图像获取物体三维信息的可能性,也就是从这时开始,基于视觉的三维重建快速发展,涌现出了许多新方法.从发表在ICCV(Interna-tional Conference on Computer Vision)、ECCV (European Conference on Computer Vision)和CVPR(International Conference on Computer Vision and Pattern Recognition)等知名国际会议上的相关论文数量增长情况便可看出其研究发展程度.发达国家对于三维重建技术的研究工作起步比较早,研究相对比较深入.1995年,日本东京大学的Kiyasu等[5]利用物体反射的M-array coded 光源影像对物体表面进行三维重建.随着研究更进一步的深入,2006年,Snavely等[6]开发出了Photosynth和Photo Tourism两个三维重建系统.这两个系统的优点是能够自动计算每一帧图像的视点,从而可以重建出物体的稀疏三维模型.遗憾的是,稀疏三维模型重建的效果并不是很清晰,可视化程度较低,需要进行稠密三维模型重建.2008年,632自动化学报46卷Pollefeys等[7]在相机焦距不变的条件下对重建物体的周围拍摄多幅图像,通过特征提取、匹配和多视几何关系等步骤对相机进行标定并重建三维模型. 2009年,Furukawa等[8]提出了一种基于面片的多视图立体重建方法,这种方法的优点是重建出的物体轮廓完整性较好、适应性较强,而且不需要初始化数据.此外,2013年,微软研究院推出的Kinect Fusion项目[9]在三维重建领域取得了重大突破,与三维点云拼接不同,它主要采用一台Kinect围绕物体进行连续扫描,并且实时地进行物体的三维模型重建,这样做有效地提高了重建精度.微软研究院(Microsoft Research)在ISMAR2015会议上公布了Mobile Fusion项目[10],这个项目使用手机作为一台3D扫描仪,可以拍摄出各种3D场景图像.国内对于三维重建的研究虽然相对落后,但也取得了不错的成果.1996年,中科院的李利等[11]提出了恢复室内场景的三维重建技术.2002年,中科院的Zhong等[12]提出了一种新的匹配方法–半稠密匹配法,这种方法解决了稀疏匹配重建出的物体信息较少和稠密匹配重建出的点云物体信息较多等问题. 2003年,中科院的Lei等[13]利用Kruppa方程进行相机的自标定,成功研发出了CVSuite软件[14],该软件实现了利用不同视角的影像进行三维建模. 2014年,西安电子科技大学的张涛[15]提出了一种基于单目视觉的三维重建方法,这种方法利用获取的空间稀疏三维点云,再使用欧氏重建和射影重建方法,从而重建出获取图像的真实场景.近年来,三维重建技术的研究和应用得到了快速的发展,但仍然面临着许多问题.为此,本文将对近些年来基于视觉的三维重建技术方法的主要进展和部分具有代表性的研究成果进行介绍,为科研人员提供参考,并以此为基础,通过对比和分析,探究三维重建技术研究中的难点和热点,以及可能的发展趋势.在接下来章节中,本文将从现有技术分析总结和未来发展方向两个方面讨论三维重建关键技术问题,具体安排如下:第1节总结了三维重建的方法;第2节对各种方法进行了分析,并比较了各种方法的优缺点、自动化程度、重建效果、实时性以及应用场景;第3节总结了三维重建关键技术以及未来的发展方向,并总结概括了本文内容.1三维重建方法从整体上来看,三维重建技术主要通过视觉传感器来获取外界的真实信息,然后,再通过信息处理技术或者投影模型得到物体的三维信息,也就是说,三维重建是一种利用二维投影恢复三维信息的计算机技术[16−17].1997年,V´a rady等[18]将数据获取方式分为接触式和非接触式两种.2005年,Isgro 等[19]又将非接触式方法分为主动式和被动式两类.主动式需要向场景中发射结构光源,然后再通过计算和提取光源在场景中的投影信息来检测目标位置并进行测量.被动式不使用任何其他能量,而是通过获取外界光源的反射来进行三维测量.接触式方法其实就是利用某些仪器能够快速直接测量场景的三维信息[20],主要包括触发式测量、连续式测量、CMMs(Coordinate measuring ma-chines)和RA(Robotics arms)等.虽然,接触式方法有其独特的优点,但是该方法只能应用于仪器能够接触到测量场景的场合.而且,在测量某些加工精密物体表面时,很可能会划伤被测物体的表面,造成被测物体某种程度的损坏,影响其性能.非接触式方法是在不接触被测量物体的前提下,利用影像分析模型原理来获取被测物体的数据信息.虽然,这种方法的精度并没有接触式高,但是,这种方法的应用范围比接触式方法更广泛.由于接触式测量不属于视觉测量,因此本文只对非接触式方法进行详细介绍.非接触式主要包括主动视觉法和被动视觉法;主动视觉又包括激光扫描法、结构光法、阴影法、TOF 技术、雷达技术、Kinect技术等;被动视觉法根据摄像机数目的不同分为单目视觉法、双目视觉法和多目视觉法;根据原理(匹配方法)不同又可以分为区域视觉法、特征视觉法等;根据应用方法也可以分为运动恢复结构法和机器学习法等.三维重建技术的分类如图1所示.1.1基于主动视觉的三维重建技术基于主动视觉的三维重建技术主要包括激光扫描法[21−22]、结构光法[23]、阴影法[24]和TOF技术[25]、雷达技术[26]、Kinect技术[27]等.这些方法主要利用光学仪器对物体表面进行扫描,然后,通过分析扫描数据,重建物体表面的三维结构.此外,这些方法还可以获取目标表面的其他一些细节信息,从而能够精确地重建出目标物的三维结构.1.1.1激光扫描法激光扫描法其实就是利用激光测距仪来进行真实场景的测量.首先,激光测距仪发射光束到物体的表面,然后,根据接收信号和发送信号的时间差确定物体离激光测距仪的距离,从而获得测量物体的大小和形状.该方法的优点是不仅可以建立简单形状物体的三维模型,还能生成不规则物体的三维模型,而且生成的模型精度比较高.激光扫描数据处理流程如图2所示,首先,通过激光扫描法获取点云数据,然后与原始获得的数据进行配准获得配准后的点云数据,最后对获取的点云数据进行一系列的处理,从而获取目标物的三维模型.4期郑太雄等:基于视觉的三维重建关键技术研究综述633图1三维重建技术分类Fig.1Classification of3D reconstructiontechnology图2激光扫描数据处理流程Fig.2The process of laser scanning data processing20世纪60年代,欧美一些国家就已经对三维激光扫描技术进行了研究.在很早以前,斯坦福大学就已经开展了大规模的地面固定激光扫描系统的研究,获得了较精确的实验结果.1999年,Yang等[28]介绍了三角法激光扫描,详细地论述了在大型曲面测量原理的基础上影响激光扫描测量精度的几个因素.2003年,Boehler等[29]分析并验证了使用不同种类的三维激光扫描仪对实验结果的影响.更进一步,2006年,Reshetyuk[30]详细地分析了脉冲式地面激光扫描仪的误差来源以及影响程度,并对该误差模型进行了评价.2007年,Voisin等[31]研究环境光线对三维激光扫描的影响.至此,三维激光扫描仪步入了一个新的里程碑.1.1.2结构光法随着科技的不断进步,三维重建技术涌现出了许多研究方向,其中结构光法就是三维重建技术的主要研究方向之一[32].结构光法的原理是首先按照标定准则将投影设备、图像采集设备和待测物体组成一个三维重建系统;其次,在测量物体表面和参考平面分别投影具有某种规律的结构光图;然后再使用视觉传感器进行图像采集,从而获得待测物体表面以及物体的参考平面的结构光图像投影信息;最后,利用三角测量原理、图像处理等技术对获取到的图像数据进行处理,计算出物体表面的深度信息,从而实现二维图像到三维图像的转换[33−36].按照投影图像的不同,结构光法可分为:点结构光法、线结构光法、面结构光法、网络结构光和彩色结构光.基于结构光法的三维重建主要利用光学三角测量原理来计算物体的深度信息.它主要通过扫描仪中的光源、光感应器和反射点构成的三角关系来计算目标物体的深度信息,从而实现目标物体的三维重建.三角测量又可以分为:单光点测量、单光条测634自动化学报46卷量和多光条测量.如图3为结构光三角测量原理示意图.图3结构光三角测量原理示意图Fig.3Schematic diagram of the principle of structuredlight triangulation如图3所示,假设物体坐标(X W ,Y W ,Z W )为世界坐标与被测量的图像坐标(u,v )以及投影角θ之间的关系如下:[X W ,Y W ,Z W ]=bf cos θ−u[u,v,f ](1)自20世纪80年代以来,基于结构光法的三维重建越来越受到国外研究人员的关注.2000年,Kowarschik 等[37]采用了一种光栅结构法的三维测量系统,解决了结构光在测量中存在的遮挡问题.2002年,Shakhnarovich 等[38]提出了利用多种点结构光投影的光点法进行三维重建.2004年,Salvi 等[39]采用结构光条法,将激光发射的光束直接通过圆柱体透镜,然后,再使用步进电机匀速转动圆柱体透镜,使光束能够完全扫过测量物体的表面,进而可以获得物体的图像信息并进行信息的提取和三维测量.国内也在这方面做了大量的研究,2002年,张广军等[40]建立了结构光三维双视觉RBF (Radial basis function)神经网络模型,这种模型的优点是不需要考虑外在因素的影响,从而使该模型具有较高的精度.同年,天津大学首先研制了可以应用于生物医学、工业测量等领域的线结构光轮廓传感器[41].2004年,清华大学研究出了线结构光的多用途传感器,这种传感器的优点是可以对运动的物体以及腐蚀性的物体进行三维测量和重建,特别适合于对移动物体和腐蚀性表面的快速、在线、非接触的测量与重建[42].1.1.3阴影法阴影法是一种简单、可靠、低功耗的重建物体三维模型的方法[43−44].这是一种基于弱结构光的方法,与传统的结构光法相比,这种方法要求非常低,只需要将一台相机面向被灯光照射的物体,通过移动光源前面的物体来捕获移动的阴影,再观察阴影的空间位置,从而重建出物体的三维结构模型.这种方法的优点是检测速度快、精度高.阴影法主要分为这几种类型:平行光的直接阴影法、点光源发散光的直接阴影法、微观阴影法、聚焦阴影法、立体和全息阴影法和大型阴影法.最经典的平行光阴影法如图4所示,该方法使用点光源通过聚焦透镜和针孔,再利用凹透镜原理使其转换成平行光投影到毛玻璃片上,其中ε表示平行光投影到毛玻璃片上产生的误差.图4平行光阴影法Fig.4Parallel photocathode从国内外的研究来看,阴影被分为硬阴影和软阴影.与硬阴影相比,软阴影要考虑物体之间的几何特征,更加难以实现,但是,显示效果更加真实.在真实的世界中,由于光源比较复杂以及物体之间有光照的影响,形成的阴影明暗程度并不是唯一的,所以,使用阴影法实现三维空间的物体重建是非常复杂的过程[45−48],该方法不适合于实时性较高的三维场景.1.1.4TOF 技术TOF (Time of flight)法是主动测距技术的一种,可从发射极向物体发射脉冲光,遇到物体反射后,接收器收到反射光时停止计时,由于光和声在空气中的传播速度是不变的,从而通过发射到接收的时间差来确定物体的距离,进而确定产生的深度信息,其原理如式(2)所示:d =n +ϕ2π2λ(2)其中,λ表示脉冲的波长;n 表示波长的个数;ϕ表示脉冲返回时的相位;d 表示物体离发射之间的距离.TOF 相机的研究相对比较早,与二维测距仪相比具有较大的优势,它可以从三维点云中直接获取场景的几何信息.2014年,微软推出了Kinect 2.04期郑太雄等:基于视觉的三维重建关键技术研究综述635传感器,采用TOF技术来计算深度,从而获得三维点云信息.文献[49−50]使用TOF相机获取的深度信息提取出场景中的几何信息.2008年,May等[49]使用两帧之间匹配数据中对应的方向向量来提高定位精度.2009年,Hedge等[50]运用提取的方向向量来探测不容易识别的路平面.同年,Pathak等[51]利用方向向量建立三维地图,为移动机器人提供导航信息.然而,由于TOF相机获取的三维点云信息存在比较多的误差点,只依靠几何信息来构建地图和定位会产生较大的误差.Stipes等[52]采用ICP(Iterative closest point)算法拼接TOF两帧之间的数据,通过获取的三维点云来实现ICP的迭代过程.May等[53]通过SLAM算法解决两帧之间的数据匹配问题.1.1.5雷达技术雷达作为一种很常见的主动视觉传感器,可以通过发射和接收的光束之间的时间差来计算物体的距离、深度等信息.如式(3)所示:d=c∆t2(3)式中,c为光速;∆t为发射与接受的时间间隔;d表示雷达到物体之间的距离.在20世纪60年代激光雷达传感器迅速发展,这种传感器通过激光束的扫描,可以得到周围环境的深度信息.本部分仅介绍激光雷达的相关应用,其他雷达不再赘述.激光雷达的数学模型可以表示为:XYZ=λa1a2a3b1b2b3c1c2c3xyz+X SY SZ S(4)其中,X,Y,Z是空间点的三维坐标;a i,b i,c i为3个空间姿态角组成的方向余弦;x,y,z为空间扫描点坐标;X S,Y S,Z S为激光雷达扫描器的直线外方位元素;通过式(4)可以获得物体的空间三维坐标.2004年,Streller等[54]对激光雷达获取的扫描点进行聚类,从而实现智能车前方目标的检测.2005年,Schwalbe等[55]利用激光雷达获取点云数据,然后采用线追踪近邻面将点云数据进行分段投影,最后重建出建筑物的三维模型.2007年,Weiss等[56]使用激光雷达聚类的方法来提取智能车前方车辆的轮廓信息,然后对目标车辆进行三维重建,从而获取形状信息,最后采用模式识别算法,结合得到的轮廓和形状信息对目标车辆进行检测.2010年,胡明[57]提出了边界保持重建算法,利用激光雷达获取的点云数据选取二次曲面进行局部拟合,再使用单元分解的方法对拟合曲面进行点云拼接,从而实现了点云的三维重建.2012年,魏征[58]使用车载激光雷达获取建筑物的点云数据进行了几何重建.1.1.6Kinect技术Kinect传感器是最近几年发展比较迅速的一种消费级的3D摄像机,它是直接利用镭射光散斑测距的方法获取场景的深度信息[59],Kinect在进行深度信息获取时采用的是第1.1.2节所介绍的结构光法,下面主要是对Kinect技术研究现状进行简要概述.由于Kinect价格便宜,自2010年发售以来,受到了国内外的广泛关注,并开始使用Kinect进行三维重建的研究.Kinect传感器如图5所示.图5Kinect传感器Fig.5Kinect sensorKinect传感器中间的镜头为摄像机,左右两端的镜头被称为3D深度感应器,具有追焦的功能,可以同时获取深度信息、彩色信息、以及其他信息等. Kinect在使用前需要进行提前标定,大多数标定都采用张正友标定法[60].2011年,Smisek等[61]为了解决Kinect传感器无法找到棋盘格角点问题,对Kinect深度相机自身的红外发射器进行遮挡,并使用卤素灯生成红外图像,从而标定Kinect传感器两个相机之间的位置.2014年,Zollh¨o fer等[62]为了解决Kinect获取的深度信息含有噪声的问题,使用高斯滤波器进行滤波处理,从而减小了噪声影响.目前,使用Kinect进行三维重建的研究比较流行.2014年,Henry等[63]最早使用Kinect相机对室内环境进行三维重建,得到的效果不是很好,重建的模型有很多黑色斑点,实时性也较差,需要进一步提高其性能.为了解决这些问题,2012年,Henry 等[64]使用了重投影误差的帧间配准、FAST特征等优化方法对其进行了改进,实时性得到了显著提高.2011年,Newcombe和Izadi等[65−66]开发了Kinect Fusion系统,该系统利用获取的深度信息生成三维点云及法向量,从而可以对场景进行三维重建,其结果更加精确.2013年,吴侗[67]采用体密度变化率直方图的方法对点云数据进行分割和检测,然后,对于Kinect采集到的纹理信息使用卷包裹算法,从而完成了对点云数据的三维重建.表1所示为主动视觉常用方法优缺点的对比.636自动化学报46卷表1主动视觉方法对比Table1Active visual method comparison方激光扫描结构光阴影TOF技雷达技Kinect技法法[28−31]法[32−42]法[43−48]术[49−53]术[54−58]术[59−67]1.重建结果 1.简单方便、 1.设备简单,图像 1.数据采集频 1.视场大、扫描 1.价格便宜、轻优很精确;无破坏性;直观;率高;距离远、灵敏度便;2.能建立形 2.重建结果速 2.密度均匀, 2.垂直视场角高、功耗低; 2.受光照条件的点状不规则物率快、精度高、简单低耗,对图像大; 2.直接获取深度影响较小;体的三维模能耗低、抗干的要求非常低. 3.可以直接提信息,不用对内部 3.同时获取深度型.扰能力强.取几何信息.参数进行标定.图像和彩色图像.1.需要采用 1.测量速度慢; 1.对光照的要求较 1.深度测量系统 1.受环境的影响 1.深度图中含有算法来修补 2.不适用室外高,需要复杂的记误差大;较大;大量的噪声;漏洞;场景.录装置; 2.灰度图像对比 2.计算量较大, 2.对单张图像的缺 2.得到的三 2.涉及到大口径度差、分辨率低;实时性较差;重建效果较差.维点云数据的光学部件的消 3.搜索空间大、量非常庞大,像差设计、加工效率低;点而且还需要和调整. 4.算法扩展性差,对其进行配空间利用率低.准,耗时较长;3.价格昂贵.1.2基于被动视觉的三维重建技术1.2.1根据相机数目分类基于被动视觉的三维重建技术是通过视觉传感器(一台或多台相机)获取图像序列,进而进行三维重建的一种技术.这种技术首先通过视觉传感器(一台或多台相机)获取图像序列,然后提取其中有用的信息,最后,对这些信息进行逆向工程的建模,从而重建出物体的三维结构模型.该方法的优点是能够应用于各种复杂的环境中,对主动视觉法具有很好的补足.另外,它具有价格较低,操作简单,实时性较高,对光照要求较低以及对场景没有要求的优点,容易实现;不足的是重建精度不是很高.由于主动视觉方法受环境及设备等因素的限制,近几年,人们投入大量精力用于被动视觉方法的研究上.根据相机数量的不同,被动视觉的三维重建技术可以分为单目视觉、双目视觉和多目视觉,这一部分将重点从相机数目的角度对被动视觉的三维重建技术进行总结和分类.1.2.1.1单目视觉法单目视觉是仅使用一台相机进行三维重建的方法,该方法简单方便、灵活可靠、处理时间相对较短,而且价格便宜,使用范围比较广,能够使用在三维测量和检测等领域.为了进一步表示空间中任意一个三维点P在世界坐标系转换到二维图像坐标系之间的关系,关系坐标可以表示为:uv1=f x0u00f y v0001·R t01X WY WZ W1(5)其中,(X W,Y W,Z W)为空间中的三维点;(R t)称为旋转矩阵和平移向量;f x和f y是摄像机在两个方向上的焦距;(u0,v0)是摄像头主点在图像坐标系下的坐标;(u,v)是图像坐标系下的坐标;从而通过式(5)可以求解出任意空间一点的三维坐标.基于单目视觉的三维重建流程如图6所示.单目视觉主要提取图像中的亮度、深度、纹理、轮廓、几何形状、特征点等特征信息.由于这些特征信息已经在文献[68]中详细阐述过,为了使相关研究人员以及读者能够更好地了解发展趋势以及能够清楚它们之间在三维重建中的优缺点,这一部分简要的概述图像中所包含的特征信息.1)明暗度恢复形状法明暗度恢复形状法,简称SFS(Shape from shading),即通过分析图像中的明暗度信息,利用表面的反射模型,获取物体表面的法向信息,从而恢复出物体的三维轮廓,图像在(u,v)处的像素强度4期郑太雄等:基于视觉的三维重建关键技术研究综述637I uv 可以表示为:I uv =R I (ρ,n,s,v )(6)其中,R I 表示反射图;ρ为表面反射率;n 是表面法向量;s 表示入射光方向;v 表示反射光方向.明暗度恢复形状法的概念最早由Horn [69]于1970年提出.1989年,Penna [70]提出了PSFS (Per-spective shape from shading)方法,这种方法其实就是用透视投影替代正交投影的明暗度恢复法.1994年,Bakshi 等[71]提出了使用非朗伯特模型的明暗度法.2008年,Vogel 等[72]综合以上两种方法又提出了基于非朗伯特模型的PSFS 方法.图6基于单目视觉的三维重建流程Fig.63D reconstruction process based onmonocular vision2)光度立体视觉法虽然SFS 可以从单幅图像中获取物体的三维信息,但是其信息量比较少,而且重建出来的三维模型的效果也不是很好.于是,Woodham [73]于1980年对明暗度恢复形状法的不足进行改进,提出了光度立体视觉法,简称PS (Photometric stereo).光度立体视觉法首先将单个摄像机固定在目标物体的正上方,然后通过光源发出的光线从不同的角度射到目标物体的表面,最后通过摄像机获取多幅图像,从而得到图像的灰度值与目标物体的关系以此来恢复三维物体的形状.随后,许多研究人员在光度立体视觉法的基础上又有了进一步的研究.2003年,Noakes 等[74]在光度立体视觉法中提出非线性与噪声减除的方法.2004年,Horovitz 等[75]在光度立体视觉法中引入了控制点和梯度场的概念.2005年,Tang 等[76]使用可信度传递与马尔科夫随机场[77]的方法对光度立体视觉法进行了优化.2007年,Sun 等[78]采用非朗伯特模型的光度立体视觉法.2009年,Vlasic 等[79]提出了使用多视角进行三维重建的方法.2010年,Shi 等[80]提出了自标定的光度立体视觉法.Morris 等[81]使用了动态折射立体法对物体表面进行三维重建.Higo [82]提出了对非刚性不规则物体进行三维重建的方法.这些方法在一定程度上提高了三维重建的精度.这种方法可以用亮度方程进行表示:I (x,y )=k (x,y )×N (x,y )×S (7)其中,I 为图像亮度;S 为光源向量;N 为物体表面的法向量;k 是由物体表面反射系数、光源强度、摄像机对光敏感度共同决定的系数.光度立体视觉法在不同光照的条件下通过摄像机拍摄多幅图像,再根据不同图像的亮度方程进行联立,从而求解出物体表面的法向量,进而恢复物体的几何形状.3)纹理法纹理法简称SFT (Shape from texture).这种方法通过分析图像中物体表面的纹理大小和形状,来获取物体的三维信息,进而重建出物体的三维模型.纹理法分为两种,一种是基于频谱分析的方法,这种方法主要通过频域变换分析纹理单元的谱信息来恢复物体表面的法向,利用这些法向重建出物体的三维模型.1988年,Brown 等[83]采用傅里叶变换对物体的纹理进行了三维重建.2002年,Clerc 等[84]使用小波变换对物体表面进行了纹理分析和三维重建.另外一种则是在正交投影条件下基于后验概率分布的方法,这个方法是由Wiktin [85]于1981年最早提出的.2010年,Warren 等[86]为了使重建效果有进一步的提高,采用了透视投影模型对Wiktin 的方法进行了改进,通过实验验证了这种方法的可行性.4)轮廓法轮廓法简称SFS/SFC (Shape from silhou-ettes/contours).该方法主要是通过一个相机从多个角度拍摄图像来获取物体的轮廓信息,通过这些轮廓信息恢复物体的三维结构模型.轮廓法又可以分为体素法[87]、视壳法[88]和锥素法[89−91]三种.采用轮廓进行三维重建是由Martin 等[87]于1983年首次提出的方法,这种方法首先将物体所在的三维几何空间离散化为体素,然后再使用正向试探法,消除投影在轮廓区域以外的体素,进而可以获得物体的三维信息.为了进一步研究轮廓法的相关。
视觉导航及实验验证平台综述摘要:本文概述视觉导航技术。
视觉导航通过图像采集设备收集近距离的环境信息,并利用计算机视觉技术进行图像处理获得环境信息,实现导航。
首先比较了各种导航方式的优缺点,分析视觉导航的意义。
接着概述了视觉导航的应用领域和研究现状,然后分析比较了视觉导航中的一些关键技术,简单介绍了视觉导航领域的SLAM问题。
最后,综合国内外视觉导航技术研究存在问题,提出进一步研究方向和应用途径。
关键词:视觉导航;移动机器人;智能车辆;图像匹配;路径识别0 引言在当今世界的先进技术领域里,往往存在这样的问题:为了完成某种特殊的任务,需要在已知或者未知环境中,使特殊的能完成既定任务的实验设备或平台按照既定的且满足最优条件的路径运动或者到达既定目的地,这一类的问题便是导航。
对于一般的导航系统,在给定命令的前提下,结合环境中的各种探测信息,并根据自身位姿信息作出决策使运动体而到达目标,在运动过程中,还需要不断优化全局路径。
导航系统需要完成的任务包括以下三点:一,获取信息;二,处理信息;三,作出决策(即路径规划)。
目前广泛使用的导航方法有[1]:航标法,航位推算法,天文导航,惯性导航,无线电导航,卫星定位导航和组合导航等。
下文对各种导航方法对比说明。
航标法习惯称之为目视方法,它借助于信标和参照物对运动物体进行引导。
目前仍在应用,但是这种方法过于依赖经验,受天气、地理条件的影响。
航位推算法是通过一系列的速度增量来确定位置的,是一种自主导航方法,保密性强。
但是随着时间推移会产生误差积累。
天文导航是通过仪器设备对天体的位置精确测定,根据地理关系算出位置的相对导航方法,其缺点是误差积累受时间和气象条件限制,定位时间长,操作计算复杂[1]。
惯性导航通过加速度测量技术和积分技术的综合应用得到运动体的速度和位置信息。
这种导航技术完全依靠载体上的设备自主完成导航任务,因此隐蔽性好,不受外界条件限制。
但是加速度及精度和误差积累严重限制该方法的应用。
目前,惯性导航常常和其他系统综合使用。
无线电导航通过测量信号的相位和相角定位,但其易受干扰。
卫星导航利用卫星发射无线电波到地面接收器的时间来推算地面接收器所在的经纬度,其中GPS是目前真正实用的一种卫星导航和定位系统,但其技术为美国所垄断,我国也正在致力于这方面的研究[2]。
而自主照相机和图像处理技术的发展促使视觉导航技术的发展。
视觉导航是通过摄像机对周围环境进行图像采集,并对图像进行滤波和计算,完成自身位姿确定和路径识别,并做出导航决策的一种新的当行技术。
由于视觉导航的采用被动工作方式,设备简单,成本低廉,其应用范围很广。
最主要的特征是视觉导航的自主性和实时性。
它不依靠外界任何设备,只需对储存系统和环境中的信息进行计算就可以得出导航信息。
文中后续部分将会介绍视觉导航的应用领域及国内外研究现状和视觉导航的关键技术,其次针对视觉导航同时定位和地图绘制技术(SLAM)做简单介绍。
1 从仿生学角度看视觉导航图1:人取书的视觉反馈导航系统方块图在视觉生物的行为当中,利用视觉信息经过大脑处理的反馈控制随处可见。
如图1所示,人用取书就是一个简单的利用视觉信息导航完成既定任务的过程。
下面通过解剖手从桌上拿书的动作过程,透视该过程所映射的视觉导航系统的简单机制和原理。
首先,人眼连续观察周围环境确定书和人相对于在环境中的位置,并将这个信息输入大脑(称为位置反馈信息);然后由大脑判断手和书之间的距离(称之为偏差信号),并根据其大小,发出控制手臂移动的命令,逐渐使手和书之间的距离减小,并最终拿到书[3]。
自主照相机,图像处理,计算机和机械系统的综合使用可以模仿人拿书的过程,原理图如图2.图2:仿生物视觉导航系统方块图但是生物特别是高度进化人的视觉反馈系统是一个连续的多重反馈的生物性系统,且在对图像的处理之中,人的经验对视觉信息的删选和利用有很大的帮助,这是物理系统难以复制甚至仿照的。
研究这些只能带给我们原理上的启发,但是在对更贴近机械的昆虫的生物行为的研究却具有现实的意义。
例如,蚂蚁视觉导航的研究表明,蚂蚁在第一次经过某环境时,会在大脑里储存大量的关于该环境的图像信息,之后就使用复合地标和对整个地图的记忆来导航。
这有助于我们开发自动控制系统的开发[2]。
其次文献[2]中所提到的蜜蜂的导航对飞行器的导航控制系统研究也有重要意义。
2 视觉导航的应用领域和研究现状视觉导航在交通运输、自动化仓库和生产线的运输小车等方面已经得到较好的应用。
对移动机器人和智能车辆的导航研究取得了较好的成果,最终,视觉导航将应用在空间飞行器和星际探测器上。
2.1移动机器人导航移动机器人是一种在复杂的环境下工作的有自规划、自组织、自适应能力的机器人。
为实现机器人的智能化和自主移动性,导航技术是其中的关键。
视觉导航的特点非常适合自主移动机器人,通常,在机器人上安装单目或双目照相机,获取环境中局部图像,实现自我位姿确定,从而做出导航决策。
目前国内外有很多学者从事基于视觉导航的自主移动机器人研究。
移动机器人的研究始于20 世纪60年代末,以斯坦福研究院(SRI)开发的第一台移动机器人Shakey为标识[2],主要目标是研究复杂环境下机器人系统的实时控制问题。
具有代表性的还有喷气推进实验室(Jet Propulsion Laboratory,JPL)研究的Urban Robot战术机器人,如图3所示,配备了双目立体视觉系统进行障碍物检测,处理器由两台高性能计算机组成,体积小,易携带,并具有爬楼梯的功能[3]。
从上世纪80年达开始,我国也致力于地面智能机器人的而研究。
2.2智能车辆的导航智能车辆是当今世界车辆工程领域的研究前沿和热点。
智能车辆是集环境感知、规划决策、辅助驾驶等功能于一体的综合智能系统,是计算机视觉、人工智能、控制理论和电子技术等多个技术学科交叉的产物,代表了未来车辆的发展方向,具有十分广阔的应用前景[5]。
计算机视觉系统是智能车辆感知局部环境的重要“器官”,它以地面上涂设的条带状路标作为路径标识符,运用计算机视觉快速识别路径,其最优导向控制器能够保证对路径进行准确跟踪[6]。
清华大学计算机系统智能技术与系统国家重点实验室从1988年开始研制THMR(Tsinghua Mobile Robot)系列智能车系统,经过一系列的发展,研制的新一代智能车THMR-V,如图3所示,兼有面向高速公路和一般路面的能力。
车体装配彩色摄像机和激光测距仪组成的道路和障碍物检测系统[],目前能够在校园的非结构化道路环境下进行道路跟踪和自主避障。
图3:Urban Robot 图4:THMR-V2.3航天器导航除了地面智能车辆,也可以利用视觉导航对航天器或星际探测器进行导航,例如月球车。
月球车具有高度自主性,并适于在复杂的非结构化月面环境中执行探测任务,它是目前对月球进行近距离探测的最直接有效的工具[18]。
月球车具有自主漫游和探测功能,能够在月球表面自动行驶几百米甚至是几百公里,通过自身携带的科学仪器可实现对月球表面环境的简单直接勘测。
月球巡视探测器要进行自主巡游,需要有路径规划、定位、避障、运动控制等基本功能。
月球车立体视觉系统是月球车认知月面环境的工具,也是月球车在复杂环境下赖以生存的重要信息源,利用立体视觉系统,不仅可以对环境地形重构、实时避障,而且还可以利用其得到的立体序列图像进行月球车自运动估计。
3 视觉导航中的关键技术视觉导航在利用一只或多只摄像机获得场景的二维的图像信息,然后通过图像处理,计算机视觉、模式识别等算法,确定运行信息,从而进行导航。
其中关键技术包括摄像机标定、立体图像匹配、路径识别和三维重建。
3.1 摄像机标定摄像机标定是视觉导航中图像处理的基础之一。
计算机立体视觉应能从摄像机获取的像平面图像信息出发,计算三维环境物体的位置、形状等几何信息,并由此识别环境中的物体。
而像平面上的点与该点对应的空间点的三维位置有关。
这些位置的几何关系,与摄像机的几何模型有关,决定该几何模型的参数称为摄像机参数。
而摄像机参数包括内部参数和外部参数:内部参数描述摄像机内部的几何和光学特性,如图像中心、焦距、图形畸变以及其他系统误差参数等。
外部参数指的是摄像机坐标系相对于某一世界坐标系之间的相对旋转和平移。
由实验和计算确定这些参数的过程称作摄像机标定。
摄像机参数已知是所有视觉问题的解决前提,同时这一过程的精度直接影响导航的准确性。
摄像机的标定技术按是否有参照物可以分为基于标定靶标定和自标定,按照摄像机模型建立时是否考虑镜头畸变分为线性标定,非线性标定和两部标定。
目前摄像机自标定的方法几乎都是基于绝对二次曲线或者它的对偶绝对二次曲面的方法[17]。
具有代表性的摄像机标定方法有:Tsai方法,线性方法,Ahmed方法和张正友方法。
4.2 立体图像匹配在立体视觉系统中,图像匹配是指在两幅或多幅从不同角度观察得到的图像上寻找空间坐标中物体上的同一点的图像坐标,并将它们一一对应起来的过程,也称为对应点匹配或立体图像配准。
图6表示SIFT特征点的提取匹配结果。
完成图像匹配需要解决两图6:SIFT特征点匹配效果图个问题:1)提取适当的图像特征作为匹配基元;2)选择适当的计算方法准确地、可靠的匹配这些基元。
对应特征点选取方法和匹配计算方法的问题。
目前的相关研究中,特征的选取主要包括直接根据图像的灰度信息和根据图像中物体的结构特征两大类。
其对应的匹配计算方法也包括两大类:基于图像的区域相关匹配(Area-based Matching)和基于景物特征的图像特征匹配(Feature-based Matching)。
前者直接利用图像的灰度信息,具有实现简单、定位精度高、恢复视差密度大等优点。
其缺点是对景物的成像条件比较敏感,并且由于使用耗尽型搜索匹配技术,算法计算量大且耗时多,对噪声敏感,对于图像纹理较少或纹理重复度高的情况容易产生误匹配;而后者较多地利用了景物的结构信息,可利用不同尺度下的景物特征来分析景物,从而避免了前者的缺陷[17]。
3.3 路径识别视觉导航的一项关键技术就是精确可靠的识别出行走路径。
摄像头采集的信息由于受到光照变化、摄像头振动和图像采集传输等因素的影响,不可避免的混入噪声成分。
在图像处理之前,首先进行图像预处理,包括灰度变换和噪声消除等。
路径识别的关键在于能够通过视觉图像处理,找到导航路标的位置和方向,这是视觉导航的最关键一步。
图6表示路径识别流程图。
图6:路径识别流程图4 移动机器人同时定位和地图创建(SLAM)概述机器人的位姿确定依靠已知的环境背景,而为了创建地图,又要求机器人在环境中的位姿信息是已知的。
因此,当一个机器人在未知的环境中导航时,同时要求机器人进行相对于环境的定位和地图创建,由起始已知地图确定位姿,在确定状态下导航运动同时对新环境进行地图创建,再进行位姿确定,如此重复,达到对新环境的地图创建和在未知环境中运动。