机器视觉教材-贾云得版chapter11..
- 格式:doc
- 大小:647.50 KB
- 文档页数:19
2024 机器视觉与机器学习教材2024年,随着科技的不断进步与人工智能的快速发展,机器视觉与机器学习成为了炙手可热的研究领域。
这两个领域分别探索了如何使机器能够理解和处理图像以及从数据中学习规律。
为了满足不断增长的学习需求和教育需求,许多高校和教育机构纷纷推出了相关的教材和课程。
机器视觉是人工智能领域中的一个重要分支,它致力于研究和开发使计算机系统能够理解和解释图像或视频的技术。
机器视觉的应用十分广泛,包括图像分类、目标检测、人脸识别、无人驾驶等。
随着深度学习的兴起,机器视觉的性能得到了极大的提升。
从学术界到工业界,人们对机器视觉的研究和应用越来越感兴趣。
与机器视觉相辅相成的是机器学习,它是一种通过计算机系统从数据中学习规律和模式的方法。
机器学习可以帮助我们构建能够完成复杂任务的模型,例如预测、分类、聚类等。
近年来,深度学习在机器学习领域的应用取得了巨大的成功,其基于神经网络的模型在各种任务上取得了令人瞩目的表现。
机器视觉与机器学习的结合为许多领域带来了巨大的变革和发展机遇。
例如,在医疗领域,结合机器视觉和机器学习的技术可以帮助医生更准确地诊断疾病;在交通运输领域,无人驾驶技术的发展依赖于机器视觉和机器学习的支持;在工业生产领域,机器视觉和机器学习可以帮助实现智能化的生产流程,提高生产效率和质量。
为了能够更好地理解和应用机器视觉与机器学习的技术,学生们需要系统的学习相关的教材。
这些教材应该涵盖从基础概念到高级应用的内容,包括图像处理、特征提取、模式识别、机器学习算法等。
同时,教材还应该提供大量的实例和实践项目,以帮助学生巩固所学知识并培养解决实际问题的能力。
总之,机器视觉与机器学习作为人工智能领域的热门研究方向,将在未来继续发展壮大。
为了满足不断增长的学习需求,在2024年,我们期待出现更多优质的教材和课程,为学生和研究人员提供更好的学习和研究资源。
这将有助于推动机器视觉与机器学习的发展,促进人工智能技术在各个领域的应用。
135 第十一章 深度图获取场景中各点相对于摄象机的距离是计算机视觉系统的重要任务之一.场景中各点相对于摄象机的距离可以用深度图(Depth Map)来表示,即深度图中的每一个像素值表示场景中某一点与摄像机之间的距离.机器视觉系统获取场景深度图技术可分为被动测距传感和主动深度传感两大类.被动测距传感是指视觉系统接收来自场景发射或反射的光能量,形成有关场景光能量分布函数,即灰度图像,然后在这些图像的基础上恢复场景的深度信息.最一般的方法是使用两个相隔一定距离的摄像机同时获取场景图像来生成深度图.与此方法相类似的另一种方法是一个摄象机在不同空间位置上获取两幅或两幅以上图像,通过多幅图像的灰度信息和成象几何来生成深度图.深度信息还可以使用灰度图像的明暗特征、纹理特征、运动特征间接地估算.主动测距传感是指视觉系统首先向场景发射能量,然后接收场景对所发射能量的反射能量.主动测距传感系统也称为测距成象系统(Rangefinder).雷达测距系统和三角测距系统是两种最常用的两种主动测距传感系统.因此,主动测距传感和被动测距传感的主要区别在于视觉系统是否是通过增收自身发射的能量来测距。
另外,我们还接触过两个概念:主动视觉和被动视觉。
主动视觉是一种理论框架,与主动测距传感完全是两回事。
主动视觉主要是研究通过主动地控制摄象机位置、方向、焦距、缩放、光圈、聚散度等参数,或广义地说,通过视觉和行为的结合来获得稳定的、实时的感知。
我们将在最后一节介绍主动视觉。
11.1 立体成象最基本的双目立体几何关系如图11.1(a)所示,它是由两个完全相同的摄象机构成,两个图像平面位于一个平面上,两个摄像机的坐标轴相互平行,且x 轴重合,摄像机之间在x 方向上的间距为基线距离b .在这个模型中,场景中同一个特征点在两个摄象机图像平面上的成象位置是不同的.我们将场景中同一点在两个不同图像中的投影点称为共轭对,其中的一个投影点是另一个投影点的对应(correspondence),求共轭对就是求解对应性问题.两幅图像重叠时的共轭对点的位置之差(共轭对点之间的距离)称为视差(disparity),通过两个摄象机中心并且通过场景特征点的平面称为外极(epipolar)平面,外极平面与图像平面的交线称为外极线.在图11.1 中,场景点P 在左、右图像平面中的投影点分为p l 和p r .不失一般性,假设坐标系原点与左透镜中心重合.比较相似三角形PMC l 和p LC l l ,可得到下式:Fx z x l '= (11.1) 同理,从相似三角形PNC r 和p RC l r ,可得到下式:Fx z B x r '=- (11.2) 合并以上两式,可得:rl x x BF z '-'= (11.3) 其中F 是焦距,B 是基线距离。
机器视觉培训教程第一点:机器视觉基础理论机器视觉是人工智能的一个重要分支,它涉及到计算机科学、图像处理、模式识别、机器学习等多个领域。
在本部分,我们将介绍机器视觉的基础理论,包括图像处理、特征提取、目标检测、图像分类等核心概念。
1.1 图像处理:图像处理是机器视觉的基本环节,主要包括图像增强、图像滤波、图像边缘检测等操作。
这些操作可以帮助机器更好地理解图像中的信息,提取出有用的特征。
1.2 特征提取:特征提取是机器视觉中的关键步骤,它的目的是从图像中提取出具有区分性的特征信息。
常用的特征提取方法有关联矩阵、主成分分析(PCA)、线性判别分析(LDA)等。
1.3 目标检测:目标检测是机器视觉中的一个重要任务,它的目的是在图像中找到并识别出特定目标。
常用的目标检测方法有基于滑动窗口的方法、基于区域的方法、基于深度学习的方法等。
1.4 图像分类:图像分类是机器视觉中的应用之一,它的目的是将给定的图像划分到预定义的类别中。
常用的图像分类方法有支持向量机(SVM)、卷积神经网络(CNN)等。
第二点:机器视觉应用案例机器视觉在现实生活中的应用非常广泛,涵盖了工业检测、自动驾驶、安防监控、医疗诊断等多个领域。
在本部分,我们将介绍几个典型的机器视觉应用案例,以帮助大家更好地理解机器视觉的实际应用。
2.1 工业检测:机器视觉在工业检测领域的应用非常广泛,它可以用于检测产品的质量、尺寸、形状等参数,提高生产效率,降低人工成本。
2.2 自动驾驶:机器视觉在自动驾驶领域的应用主要包括环境感知、车辆定位、目标识别等。
通过识别道路标志、行人、车辆等障碍物,自动驾驶系统可以做出相应的决策,保证行驶的安全性。
2.3 安防监控:机器视觉在安防监控领域的应用主要包括人脸识别、行为识别、车辆识别等。
通过实时监控和分析监控画面,机器视觉系统可以有效地发现异常情况,提高安防效果。
2.4 医疗诊断:机器视觉在医疗诊断领域的应用主要包括病变识别、组织分割、影像分析等。
机器视觉识别技术书籍
1. 《机器视觉的魔法书》:这本书就像一把神奇的钥匙,能打开机器视觉世界的大门!比如自动驾驶中,车辆就是靠机器视觉来识别道路和障碍的,是不是很厉害?
2. 《探秘机器视觉识别》:哎呀呀,这可是带你深入了解机器视觉秘密的宝书呀!就像我们通过眼睛看世界,机器视觉也在帮各种设备去观察和理解,多有意思啊!
3. 《机器视觉识别技术全知道》:哇塞,读了这本书,你会恍然大悟,原来机器视觉识别无处不在啊!像手机的人脸识别,不就是靠它嘛!
4. 《深入浅出机器视觉识别》:嘿,这本书真的能让你轻松搞懂机器视觉识别呢!就跟你学走路一样,一步一步就熟练啦,比如说在工业生产中,它能精准检测产品质量。
5. 《机器视觉识别的魅力之旅》:哇哦,跟随这本书来一场魅力之旅吧!想想机器人通过机器视觉识别来完成各种任务,多神奇啊,这本书会告诉你其中的奥秘哟!
6. 《畅读机器视觉识别的宝藏》:哈哈,这可是一本宝藏书籍呀!它会让你惊叹于机器视觉识别的强大,像智能安防里全靠它保障我们的安全呢!
我的观点结论:这几本关于机器视觉识别技术的书籍都非常棒,能让人深入了解和沉浸在这个神奇的领域里,值得一读!。
《机器视觉》教学大纲课程编码:08241059课程名称:机器视觉英文名称:MACHINE VISION开课学期:7学时/学分:36/2 (其中实验学时:4 )课程类型:专业方向选修课开课专业:机械工程及自动化选用教材:贾云得编著《机器视觉》科学出版社 2002年主要参考书:1.ROBOTICS: Control, Sensing, Vision, and Intelligence, K. S. Fu,McGraw-HillPublishing Company, 19872.张广军编著,机器视觉,科学出版社,2005年执笔人:孔德文本课程主要内容包括:二值图像分析、图像预处理、边缘检测、图像分割、纹理分析、明暗分析、彩色感知、深度图与立体视觉。
通过本课程的学习,学生应掌握机器视觉的基础理论、基本方法和实用算法。
一、课程性质、目的与任务机器视觉课程是机械工程及自动化专业在智能机器方向的一门专业方向选修课。
机器智能化是机械学科的重要发展方向,也是国际上跨学科的热门研究领域。
而机器视觉是智能机器的重要组成部分,它与图象处理、模式识别、人工智能、人工神经网络以及神经物理学及认知科学等都有紧密的关系。
本课程对于开阔学生视野、使学生了解本专业的发展前沿,把学生培养成面向二十一世纪的复合型人才具有重要的地位和作用。
通过本课程的学习,学生也能掌握一定的科学研究方法与技能,为有潜力成为研究型人才的学生打下一定基础。
二、教学基本要求本课程主要内容包括:二值图像分析、图像预处理、边缘检测、图像分割、纹理分析、明暗分析、深度图与立体视觉。
通过本课程的学习,学生应掌握机器视觉的基础理论、基本方法和实用算法。
本大纲仅列出达到教学基本要求的课程内容,不限制讲述的体系、方式和方法,列出的内容并非要求都讲,有些内容,可以通过自学达到教学基本要求。
使用CAI课件作为辅助教学手段可以节省大量时间,传递更多的信息量,所以本课程建议使用CAI课件。
致读者
当我从科学出版社拿到《机器视觉》这本书时,翻看了几页就发现了若干错误。
继续看下去,令我十分紧张和不安,我发现了大量的错误:文字表述错误、有些内容晦涩、公式有错误、图有错误。
对此,我深感内疚和难过。
我试图想通过《机器视觉》教学网页来弥补,但由于某些原因,网页一直拖沓到现在。
前几天,科学出版社通知我,《机器视觉》已经第二次印刷了,这一消息更令我不安,加速建设网页势在必行。
网页包含有勘误表,为研究生上课使用的部分课件,部分思考题参考答案,还有部分程序和测试图像。
我们将不断丰富网页内容,不断增加视觉源程序。
我收到了大量的邮件,不少读者认为该书的体系结构比较完整。
实际上,这一体系并不是我独创的,只要看几所国外知名大学的计算机视觉教学大纲和几本国外知名的计算机视觉教材,就很容易得到本书所体现的结构。
尽管本书的体系结构较完整,但不少章节所表述的内容,在深度与广度方面还存在着较大的不平衡,比如,图像预处理的Gabor滤波、广义Hough变换、特征脸、彩色图像检索、摄像机自标定、主动视觉、三维重建等都是计算机视觉的基本内容,但本书论述的较少。
因此,我们将更新某些章节,逐步增加这些内容,并在网页上发布电子版本,供读者批评指正。
另外,关于小波特征、遗传算法、神经元网络等内容,由于有专门的著作和教材,因此,本书基本上不做论述。
本书各章节思考题和计算机练习题主要取自于国外教科书,显然有些习题不够严谨,有些不够先进,我们将在电子版中进行修订。
最后,感谢读者对本书的关注和支持。
贾云得
2002年7月于北京理工大学。
第一章引论人类在征服自然、改造自然和推动社会进步的过程中,面临着自身能力、能量的局限性,因而发明和创造了许多机器来辅助或代替人类完成任务.智能机器,包括智能机器人,是这种机器最理想的形式,也是人类科学研究中所面临的最大挑战之一.智能机器是指这样一种系统,它能模拟人类的功能,能感知外部世界并有效地解决人所能解决问题.人类感知外部世界主要是通过视觉、触觉、听觉和嗅觉等感觉器官,其中约80%的信息是由视觉获取的.因此,对于智能机器来说,赋予机器以人类视觉功能对发展智能机器是及其重要的,也由此形成了一门新的学科—机器视觉(也称计算机视觉或图像分析与理解等).机器视觉的发展不仅将大大推动智能系统的发展,也将拓宽计算机与各种智能机器的研究范围和应用领域.机器视觉是研究用计算机来模拟生物外显或宏观视觉功能的科学和技术.机器视觉系统的首要目标是用图像创建或恢复现实世界模型,然后认知现实世界.机器视觉系统获取的场景图像一般是灰度图像,即三维场景在二维平面上的投影.因此,场景三维信息只能通过灰度图像或灰度图像序列来恢复处理,这种恢复需要进行多点对一点的映射逆变换.在信息恢复过程中,还需要有关场景知识和投影几何知识.机器视觉是一个相当新且发展十分迅速的研究领域,并成为计算机科学的重要研究领域之一.机器视觉是在20世纪50年代从统计模式识别开始的[1],当时的工作主要集中在二维图像分析和识别上,如光学字符识别,工件表面、显微图片和航空图片的分析和解释等.60年代,Roberts(1965)通过计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述[Roberts 1965].Roberts 的研究工作开创了以理解三维场景为目的的三维机器视觉的研究.Roberts对积木世界的创造性研究给人们以极大的启发,许多人相信,一旦由白色积木玩具组成的三维世界可以被理解,则可以推广到理解更复杂的三维场景.于是,人们对积木世界进行了深入的研究,研究的范围从边缘、角点等特征提取,到线条、平面、曲面等几何要素分析,一直到图像明暗、纹理、运动以及成像几何等,并建立了各种数据结构和推理规则.到了70年代,已经出现了一些视觉应用系统[Guzman 1969, Mackworth 1973,].70年代中期,麻省理工学院(MIT)人工智能(AI)实验室正式开设“机器视觉”( Machine Vision)课程,由国际著名学者B.K.P.Horn教授讲授.同时,MIT AI 实验室吸引了国际上许多知名学者参与机器视觉的理论、算法、系统设计的研究,David Marr教授就是其中的一位.他于1973年应邀在MIT AI 实验室领导一个以博士生为主体的研究小组,1977年提出了不同于"积木世界"分析方法的计算视觉理论(computational vision),该理论在80年代成为机器视觉研究领域中的一个十分重要的理论框架.可以说,对机器视觉的全球性研究热潮是从20世纪80年代开始的,到了80年代中期,机器视觉获得了蓬勃发展,新概念、新方法、新理论不断涌现,比如,基于感知特征群的物体识别理论框架,主动视觉理论框架,视觉集成理论框架等.到目前为止,机器视觉仍然是一个非常活跃的研究领域.许多会议论文集都反应了该领域的最新进展,比如,International Conference on Computer Vision and Pattern Recognition(CVPR); International Conference on Computer Vision(ICCV); International Conference on Pattern Recognition(ICPR); International Conference on Robotics and Automation(ICRA); Workshop on Computer Vision, and numerous conferences of SPIE.还有许多学术期刊也包含了这一领域的最新研究成果, 如,IEEE Transaction on Pattern Analysis and Machine Intelligence(PAMI); Computer Vision, Graphics, and Image Processing(CVGIP); IEEE Transaction on Image Processing; IEEETransaction on Systems, Man, and Cybernetics(SMC); Machine Vision and Applications; International Journal on Computer Vision(IJCV); Image and Vision Computing; and Pattern Recognition.每年还出版许多研究专集、学术著作、技术报告,举行专题讨论会等.所有这些都是研究机器视觉及其应用的很好信息来源.1.2 Marr的视觉计算理论Marr的视觉计算理论[Marr1982]立足于计算机科学,系统地概括了心理生理学、神经生理学等方面业已取得的所有重要成果,是视觉研究中迄今为止最为完善的视觉理论.Marr建立的视觉计算理论,使计算机视觉研究有了一个比较明确的体系,并大大推动了计算机视觉研究的发展.人们普遍认为,计算机视觉这门学科的形成与Marr的视觉理论有着密切的关系.事实上,尽管20世纪70年代初期就有人使用计算机视觉这个名词[Binford,1971],但正是Marr 70年代末建立的视觉理论促使计算机视觉这一名词的流行.下面简要地介绍Marr的视觉理论的基本思想及其理论框架.1.2.1 三个层次Marr认为, 视觉是一个信息处理系统,对此系统研究应分为三个层次:计算理论层次,表示(representation)与算法层次,硬件实现层次,如表1-1所示.表1-1按照Marr的理论,计算视觉理论要回答视觉系统的计算目的和策略是什么,或视觉系统的输入和输出是什么,如何由系统的输入求出系统的输出.在这个层次上,信息系统的特征是将一种信息(输入)映射为另一种信息(输出).比如,系统输入是二维灰度图像,输出则是三维物体的形状、位置和姿态,视觉系统的任务就是如何建立输入输出之间的关系和约束,如何由二维灰度图像恢复物体的三维信息.表示与算法层次是要进一步回答如何表示输入和输出信息,如何实现计算理论所对应的功能的算法,以及如何由一种表示变换成另一种表示,比如创建数据结构和符号.一般来说,不同的输入、输出和计算理论,对应不同的表示,而同一种输入、输出或计算理论可能对应若干种表示.在解决了理论问题和表示问题后,最后一个层次是解决用硬件实现上述表示和算法的问题,比如计算机体系结构及具体的计算装置及其细节.从信息处理的观点来看,至关重要的乃是最高层次,即计算理论层次.这是因为构成知觉的计算本质,取决于解决计算问题本身,而不取决于用来解决计算问题的特殊硬件.换句话说,通过正确理解待解决问题的本质,将有助于理解并创造算法.如果考虑解决问题的机制和物理实现,则对理解算法往往无济于事.上述三个层次之间存在着逻辑的因果关系,但它们之间的联系不是十分紧密,因此,某些现象只能在其中一个或两个层次上进行解释.比如神经解剖学原则上与第三层次即物理实现联系在一起.突触机制、动作电位、抑制性相互作用都在第三个层次上.心理物理学与第二层次(即表示与算法)有着更直接的联系.更一般地说,不同的现象必须在不同的层次上进行解释,这会有助于人们把握正确的研究方向.例如,人们常说,人脑完全不同于计算机,因为前者是并行加工的,后者是串行的.对于这个问题,应该这样回答:并行加工和串行加工是在算法这个层次上的区别,而不是根本性的区别, 因为任何一个并行的计算程序都可以写成串行的程序.因此,这种并行与串行的区别并不支持这种观点,即人脑的运行与计算机的运算是不同的,因而人脑所完成的任务是不可能通过编制程序用计算机来完成.1.2.2 视觉表示框架视觉过程划分为三个阶段, 如表1-2所示.第一阶段(也称为早期阶段)是将输入的原始图像进行处理,抽取图像中诸如角点、边缘、纹理、线条、边界等基本特征,这些特征的集合称为基元图(primitive sketch);第二阶段(中期阶段)是指在以观测者为中心的坐标系中,由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓等,这些信息的包含了深度信息,但不是真正的物体三维表示,因此,称为二维半图(2.5 dimensional sketch);在以物体为中心的坐标系中,由输入图像、基元图、二维半图来恢复、表示和识别三维物体的过程称为视觉的第三阶段(后期阶段).Marr理论是计算机视觉研究领域的划时代成就,但该理论不是十分完善的,许多方面还有争议.比如,该理论所建立的视觉处理框架基本上是自下而上,没有反馈.还有,该理论没有足够地重视知识的应用.尽管如此,Marr理论给了我们研究计算机视觉许多珍贵的哲学思想和研究方法,同时也给计算机视觉研究领域创造了许多研究起点.1.3 机器视觉的应用机器视觉技术正广泛地应用于各个方面,从医学图象到遥感图像,从工业检测到文件处理,从毫微米技术到多媒体数据库,不一而足.可以说,需要人类视觉的场合几乎都需要机器视觉.应该指出的是,许多人类视觉无法感知的场合,如精确定量感知、危险场景感知、不可见物体感知等,机器视觉更突显其优越性.下面是一些机器视觉的典型应用.(1)零件识别与定位由于工业环境的结构、照明等因素可以得到严格的控制,因此,机器视觉在工业生产和装配中得到了成功的应用.图1.1 是一个具有简单视觉的工业机器人系统示意图,其视觉系统由一个摄象机和相关的视觉信息处理系统组成.摄象机位于零件传输带上方,对于不同的零件,可以选择不同颜色的传输带,比如,明亮的物体,选择黑色传输带,暗色的零件,选择白色的背景,这样有利于视觉系统将零件从传输带上分离出来,并进行识别和定位,识别的目的是为机器人提供是否操作或进行何种操作的信息,定位的目的是导引机器人手爪实时准确地夹取零件.图1.1 用于生产线上具有简单视觉系统的工业机器人系统示意图(2)产品检验机器视觉在工业领域中另一个成功的应用是产品检验.目前已经用于产品外形检验、表面缺陷检验,比如,滑块及滑槽的外形检验以及装配后的位置检验,以决定它们能否装配在一起,并且准确无误地完成装配任务;发动机内壁麻点、刻痕等缺陷检查,以决定产品的质量.通过X射线照相或超声探测获取物体内部的图像,可以实现内部缺陷检验,如钢梁内部裂纹和气孔等缺陷检验.(3) 移动机器人导航我们来看一下图1.2所示的两组图像,每一组图像称为一个立体对(stereo pair),是由移动机器人上的两个摄象机同步获取的,表示某一时刻关于场景的不同视点的两幅图像.机器人利用立体对可以恢复周围环境的三维信息.移动机器人可以利用场景的三维信息识别目标、识别道路、判断障碍物等,实现道路规划、自主导航,与周围环境自主交互作用等.将立体图像对和运动信息组合起来,可以构成满足特定任务分辨率要求的场景深度图.这种技术对无人汽车、无人飞机、无人战车等自主系统的自动导航十分有用.比如,著名的美国Sojourner和Rocky7等系列火星探测移动机器人都使用了立体视觉导航系统.图1.2 由移动机器人立体视觉系统获取的立体图像对,可用来重建场景三维信息(4)遥感图像分析目前的遥感图像包括三种:航空摄影图像、气象卫星图像、资源卫星图像.这些图像的共同特点是在高空对地表或地层进行远距离成像,但三种图像的成像机理完全不同.航空图像可以用普通的视频摄象机来获取,分析方法也同普通的图像分析一样.卫星图像的获取和应用随着成像机理不同而变化很大,气象卫星使用红外成像传感系统可以获取不同云层的图像,即云图,由此分析某一地区的气象状况;海洋卫星使用合成孔径雷达获取海洋、浅滩图像,由此重构海洋波浪三维表面图;资源卫星装备有多光谱探测器(multiple spectral sensor, MSS),可以获取地表相应点的多个光谱段的反射特性,如红外、可见光、紫外等,多光谱图像被广泛地用于找矿、森林、农作物调查、自然灾害测报、资源和生态环境检测等.(5)医学图像分析目前医学图像已经广泛用于医学诊断,成像方法包括传统的X射线成像、计算机层析(computed tomography, CT)成像、核磁共振成像(magnetic resonance imaging, MRI)、超声成像等.机器视觉在医学图像诊断方面有两方面的应用,一是对图像进行增强、标记、染色等处理来帮助医生诊断疾病,并协助医生对感兴趣的区域进行定量测量和比较;二是利用专家知识系统对图像(或是一段时期内的一系列图像)进行自动分析和解释,给出诊断结果.(6)安全鉴别、监视与跟踪用机器视觉系统可以实现停车场监视、车辆识别、车牌号识别、探测并跟踪“可疑”目标;根据面孔、眼底、指纹等特征识别特定人。
135 第十一章 深度图(qq584883658)获取场景中各点相对于摄象机的距离是计算机视觉系统的重要任务之一.场景中各点相对于摄象机的距离可以用深度图(Depth Map)来表示,即深度图中的每一个像素值表示场景中某一点与摄像机之间的距离.机器视觉系统获取场景深度图技术可分为被动测距传感和主动深度传感两大类.被动测距传感是指视觉系统接收来自场景发射或反射的光能量,形成有关场景光能量分布函数,即灰度图像,然后在这些图像的基础上恢复场景的深度信息.最一般的方法是使用两个相隔一定距离的摄像机同时获取场景图像来生成深度图.与此方法相类似的另一种方法是一个摄象机在不同空间位置上获取两幅或两幅以上图像,通过多幅图像的灰度信息和成象几何来生成深度图.深度信息还可以使用灰度图像的明暗特征、纹理特征、运动特征间接地估算.主动测距传感是指视觉系统首先向场景发射能量,然后接收场景对所发射能量的反射能量.主动测距传感系统也称为测距成象系统(Rangefinder).雷达测距系统和三角测距系统是两种最常用的两种主动测距传感系统.因此,主动测距传感和被动测距传感的主要区别在于视觉系统是否是通过增收自身发射的能量来测距。
另外,我们还接触过两个概念:主动视觉和被动视觉。
主动视觉是一种理论框架,与主动测距传感完全是两回事。
主动视觉主要是研究通过主动地控制摄象机位置、方向、焦距、缩放、光圈、聚散度等参数,或广义地说,通过视觉和行为的结合来获得稳定的、实时的感知。
我们将在最后一节介绍主动视觉。
11.1 立体成象最基本的双目立体几何关系如图11.1(a)所示,它是由两个完全相同的摄象机构成,两个图像平面位于一个平面上,两个摄像机的坐标轴相互平行,且x 轴重合,摄像机之间在x 方向上的间距为基线距离b .在这个模型中,场景中同一个特征点在两个摄象机图像平面上的成象位置是不同的.我们将场景中同一点在两个不同图像中的投影点称为共轭对,其中的一个投影点是另一个投影点的对应(correspondence),求共轭对就是求解对应性问题.两幅图像重叠时的共轭对点的位置之差(共轭对点之间的距离)称为视差(disparity),通过两个摄象机中心并且通过场景特征点的平面称为外极(epipolar)平面,外极平面与图像平面的交线称为外极线.在图11.1 中,场景点P 在左、右图像平面中的投影点分为p l 和p r .不失一般性,假设坐标系原点与左透镜中心重合.比较相似三角形PMC l 和p LC l l ,可得到下式:Fx z x l '= (11.1) 同理,从相似三角形PNC r 和p RC l r ,可得到下式:Fx z B x r '=- (11.2) 合并以上两式,可得:rl x x BF z '-'= (11.3) 其中F 是焦距,B 是基线距离。
因此,各种场景点的深度恢复可以通过计算视差来实现.注意,由于数字图像的离散特性,视差值是一个整数.在实际中,可以使用一些特殊算法使视差计算精度达到子像素级.因136此,对于一组给定的摄象机参数,提高场景点深度计算精度的有效途径是增长基线距离b ,即增大场景点对应的视差.然而这种大角度立体方法也带来了一些问题,主要的问题有:1. 随着基线距离的增加,两个摄象机的共同的可视范围减小2. 场景点对应的视差值增大,则搜索对应点的范围增大,出现多义性的机会就增大.3. 由于透视投影引起的变形导致两个摄象机获取的两幅图像中不完全相同,这就给确定共轭对带来了困难.在图11.1(b)中,图像中的每个特征点都位于第二幅图像中的同一行中.在实际中,两条外极线不一定完全在一条直线上,即垂直视差不为零.但为了简单起见,双目立体算法中的许多算法都假设垂直视差为零.在实际应用中经常遇到的情况是两个摄像机的光轴不平行,比如,在某些系统中,调节两个摄象机的位置和姿态,使得它们的光轴在空间中相交在某一点,如图11.2所示.在这种情况下,视差与光轴交角有关.对于任意一个光轴交角,在空间中总存在一个视差为零的表面.比这一表面远的物体,其视差大于零;反之,比这一表面近的物体,其视差小于零.因此,在一个空间区域中,其视差可被划分为三组:+>-<=d d d 000这三组视差可用于解决匹配不确定问题.(a) (b)图11.1双目立体视觉几何模型图11.2摄象机光轴交会空间一点.摄象机之间的夹角定义了视差为零的一个空间表面.摄像机光轴不平行的另一种系统是后面将要介绍的一种叫做会聚式(convergent)立体视觉系统(见图11.5).这种系统不要求光轴严格地相交于空间一点.立体成象的最一般情况是一个运动摄像机连续获取场景图像,形成立体图像序列,或间隔一定距离的两个摄像机同时获取场景图像,形成立体图像对.图11.3 外极线几何示意图图11.3所示的是处于任意位置和方位的两个摄象机,对应于某一场景点的两个图像点位于外极线上.这两幅图像也可以是一个摄像机由一点运动到另一点获取这两幅图像.即使两个摄象机处于一般的位置和方位时,对应场景点的两个图像点仍然位于图像平面和外极平面的交线(外极线)上.由图不难看出,外极线没有对应图像的某一行.11.2 立体匹配137立体成象系统的一个不言而喻的假设是能够找到立体图像对中的共轭对,即求解对应问题.然而,对于实际的立体图像对,求解对应问题极富有挑战性,可以说是立体视觉最困难的一步.为了求解对应,人们已经建立了许多约束来减少对应点搜索范围,并最终确定正确的对应.下面我们将讨论几个最基本的约束,然后讨论边缘特征和区域特征在立体匹配中的应用.11.2.1 基本约束(1 ) 外极线约束对于两幅从不同角度获取的同一场景的图像来说,传统的特征点搜索方法是首先在一幅图像上选择一个特征点,然后在第二幅图像上搜索对应的特征点.显然,这是一个二维搜索问题.根据成象几何原理,一幅图像上的特征点一定位于另一幅图像上对应的外极线上.因此,在外极线上而不是在二维图像平面上求解对应问题是一个一维搜索问题.如果已知目标与摄像机之间的距离在某一区间内,则搜索范围可以限制在外极线上的一个很小区间内,如图11.4所示.所以,利用外极线约束可以大大地缩小寻找对应点的搜索空间,这样即可以提高特征点搜索速度,也可以减少假匹配点的数量(范围越小,包含假匹配点的可能性越小).请注意,由于摄象机位置及其方向的测量误差和不确定性,匹配点可能不会准确地出现在图像平面中对应的外极线上;在这种情况下,有必要在外极线的一个小邻域内进行搜索.图11.4 空间某一距离区间内的一条直线段对应外极线上的一个有限区间(2)一致性约束立体视觉通常由两个或两个以上摄像机组成,各摄像机的特性一般是不同的.这样,场景中对应点处的光强可能相差太大,直接进行相似性匹配,得到的匹配值变化太大.因此,在进行匹配前,必须对图像进行规范化处理(Normalization).设参考摄象机和其它摄象机的138139 图像函数分别为()j i f ,0和()j i f k ,,在n m ⨯图像窗内规范化图像函数为:()()0000/),(,σμ-=j i f j i (11.4) ()()k k k k j i f j i f σμ/),(,-= (11.5)其中μ是图像窗内光强的平均值,σ是光强分布参数: ∑∑==-=n j mi j i f mn 1122)),((1μσ 相似估价函数为差值绝对值之和(sum of absolute difference ,SAD):∑∑==-=n i mj k k j i f j i f 110),(),(ε (11.6)(3)唯一性约束一般情况下,一幅图像(左或右)上的每一个特征点只能与另一幅图像上的唯一一个特征对应.(4)连续性约束物体表面一般都是光滑的,因此物体表面上各点在图像上的投影也是连续的,它们的视差也是连续的.比如,物体上非常接近的两点,其视差也十分接近,因为其深度值不会相差很大.在物体边界处,连续性约束不能成立,比如,在边界处两侧的两个点,其视差十分接近,但深度值相差很大.11.2.2边缘匹配本算法使用的边缘特征是通过Gaussian 函数的一阶导数获得的.在有噪声的情况下,使用Gaussian 梯度来计算边缘更加稳定.立体算法的步骤如下:1. 用四个不同宽度的Gaussian 滤波器对立体图像对中的每一幅图像进行滤波,其中前一次滤波的宽度是下一次滤波器宽度的两倍.这一计算可以反复通过对最小的滤波器进行卷积来有效地实现.2. 在某一行上计算各边缘的位置.3. 通过比较边缘的方向和强度粗略地进行边缘匹配.显然,水平边缘是无法进行匹配的.4. 通过在精细尺度上进行匹配,可以得到精细的视差估计.11.2.3 区域相关性尽管边缘特征是图像的基本特征,而且边缘检测算法也十分成熟.但边缘特征往往对应着物体的边界,物体的边界深度值可以是(前景)物体封闭边缘的深度距离和背景点深度距离之间的任一值.特别是曲面物体,其封闭边缘是物体的轮廓影象边缘,在两幅图像平面中观察到的轮廓影象边缘与真实的物体边缘不是对应的.不幸的是,图像平面的强边缘只能沿着这样的封闭边缘才能检测到,除非物体有其它的高对比度的非封闭边缘或其它特征.这样,恢复深度的基本问题之一是识别分布于整幅图像中的更多的特征点,并作为候选对应点.还有许多用于寻找对应点潜在特征的方法,其中的一种方法是在立体图像对中识别兴趣点(interesting point),而后使用区域相关法来匹配两幅图像中相对应的点.(1) 区域中感兴趣特征点的检测两幅图像中用于匹配的点应尽可能容易地被识别和匹配.显而易见,一个均匀区域中的点是不适合作为候选匹配点,所以兴趣算子应在图像中寻找具有很大变化的区域.一般认为图像中应有足够多的用于匹配的分立区域.在以某一点为中心的窗函数中,计算其在不同方向上的变化量是这些方向上点的差异性140的最好测度.方向变化量的计算公式如下:∑∈+-=S y x y x f y x f I ),(21)]1,(),([ ∑∈+-=S y x y x f y x f I ),(22)],1(),([ (11.7) ∑∈++-=S y x y x f y x f I ),(23)]1,1(),([∑∈-+-=S y x y x f y x f I ),(24)]1,1(),([其中S 表示窗函数中的所有像素.典型窗函数尺寸从55⨯到1111⨯个像素的范围.因为简单的边缘点在边缘方向上无变化,所以,选择上述方向变量的最小值为中心像素点(,)x y c c 的兴趣值,可以消除边缘点.否则,在第一幅图像中的边缘点可能与第二幅图像中沿着同一条边缘的所有像素相匹配,由此使得准确确定视差变得十分困难(特别是当边缘是沿着外极线时更是如此).于是,有如下公式:I x y I I I I c c (,)min(,,,)=1234 (11.8)最后,为了避免将多个相邻点选为同一个特征对应的兴趣点,可以将特征点选在兴趣测度函数具有局部最大值的地方.一个点被认为是一个的“好”的好兴趣点,则对应的局部最大值一定大于原先设定的阈值.一旦在两幅图像中确定特征后,则可以使用许多不同方法进行特征匹配.一种简单的方法是计算一幅图像以某一特征点为中心的一个小窗函数内的像素与另一幅图像中各个潜在对应特征点为中心的同样的小窗函数的像素之间的相关值.具有最大相关值的特征就是匹配特征.很明显,只有满足外极线约束的点才能是匹配点.考虑到垂直视差的存在,应将外极线邻近的特征点也包括在潜在的匹配特征集中.考虑两幅图像f 1和f 2.设待匹配的候选特征点对的视差为(,)d d x y ,则以特征点为中心的区域之间相似性测度可由相关系数r d d x y (,)定义为:2/1),(221),(211),(2211}]),([]),([{]),(][),([),(∑∑∑∈∈∈-++--++-=S y x y x S y x S y x y x y x f d y d x f f y x f f d y d x f f y x f d d r (11.9) 这里的f 1和f 2是被匹配的两个区域中的所有像素灰度平均值,和式符号是在以特征点为中心的小窗函数中的所有像素上进行的.在式(11.9)中,在每一个像素上使用阈值化处理后的具有正负符号的梯度幅值,而不是图像灰度值,可以改善相关性的计算精度.这可以通过下列过程来实现:计算未平滑的两幅图像中的每个像素的梯度幅值,然后使用两个阈值,一个大于0,另一个小于0,将这些值映射到三个值),,(101-.这样图像就被转换为波浪起伏阵列,可以产生更灵敏的相关值.如果使用上述方法,则无需在相关性计算公式中包括正则项, ),(y x d d r 可以简化为相对应的像素值的乘积之和.在大多数情况中,相互靠近的特征点其对应的场景点深度也是十分靠近的.这种启发式方法来源于迭代式松弛方法,我们将在14.3节对这种方法进行介绍.我们在早些时候已经注意到,基于特征的立体匹配算法产生对应于图像特征点的场景稀疏深度图.在稀疏深度图上进行表面内插或逼近运算,可以重建一个表面,这部分内容将在第13章讨论.立体重建过程的主要难题之一是选择兴趣点.一种典型的兴趣点选择方法是基于灰度值的局部最大变化量.不幸的是,这些点经常出现在拐角处或不满足平滑约束条件的表面不连续处.在一些机器视觉应用中,这个问题是通过使用结构光来解决的.将模式图投影到表面上来产生兴趣点,并可使区域变得光滑(见下一节内容).最后要说明的是,从图像像素集合中选择用于求解共轭对的像素子集意味着仅仅能恢复这些像素对应的特征点深度.要想得到其它点的深度值,必须通过使用有关计算方法来估算,如内插值技术.14111.3 多基线立体成象一幅图像上的每一个特征点只能与另一幅图像上的唯一一个特征对应,通常将这一性质称为特征的唯一性约束.在实际中,由于大多数特征点不是十分明显,特别是重复纹理的出现,常常会产生对应多义性(ambiguity),即一幅图像上的一个特征点对应另一幅图像的若干个对应点,其中的一个点是真正的对应点,而其它点是假对应点.消除对应点多义性的一种有效方法是采用多基线立体成象[Okutomi 1993],如图11.4所示.图11.5 多基线立体视觉系统摄像机位置示意图假定n 个摄像机具有相同的焦距F, 其位置分别为110,...,,-n P P P ,对应的n-1个基线用121,...,,-n B B B 表示,)(0x f 和)(x f i 表示在位置i P P ,0处同步获取的图像,称为一个立体图像对.已知场景一点Z 的深度值为r z ,则根据式子(3),)(0x f 和)(x f i 形成的立体视差)(i r d 为:ri i r z F B d =)( (11.10) 图像强度函数)(0x f 和)(x f i 在Z 点附近可以表示为:)()()(00x n x f x f +=)()()()(x n d x f x f i i r i +-= (11.11)其中)(),(0x n x n i 服从正态分布),0(2n N σ。