计算机视觉与机器视觉

  • 格式:doc
  • 大小:30.00 KB
  • 文档页数:3

下载文档原格式

  / 7
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算机视觉和机器视觉

开篇即谈论这个话题,主要是开这个空间的时候,一直在考虑空间名到底选用计算机视觉还是机器视觉比较合适?为了这个问题我查阅了维基百科、百度百科等相关资料,下面我将搜集的资料简单整理后归纳如下:

计算机视觉(computer vision)和机器视觉(machine vision)两个术语既有区别又有联系。计算机视觉是采用图像处理、模式识别、人工智能技术相结合的手段,着重于一幅或多幅图像的计算机分析。图像可以由多个或者多个传感器获取,也可以是单个传感器在不同时刻获取的图像序列。分析师对目标物体的识别,确定目标物体的位置和姿态,对三维景物进行符号描述和解释。在计算机视觉研究中,经常使用几何模型、复杂的知识表达,采用基于模型的匹配和搜索技术,搜索的策略常使用自底向上、自顶向下、分层和启发式控制策略。

机器视觉则偏重于计算机视觉技术工程化,能够自动获取和分析特定的图像,以控制相应的行为。具体的说,计算机视觉为机器视觉提供图像和景物分析的理论及算法基础,机器视觉为计算机视觉的实现提供传感器模型、系统构造和实现手段。因此可以认为,一个机器视觉系统就是一个能自动获取一幅或多幅目标物体图像,对所获取图像的各种特征量进行处理、分析和测量,并对测量就诶过做出定性分析和定量解释,从而得到有关目标物体的某种认识并作出相应决策的系统。功能包括:物体定位、特征检测、缺陷判断、目标识别、计数和运动跟踪。

计算机视觉,图象处理,图像分析,机器人视觉和机器视觉是彼此紧密关联的学科。如果你翻开带有上面这些名字的教材,你会发现在技术和应用领域上他们都有着相当大部分的重叠。这表明这些学科的基础理论大致是相同的,甚至让人怀疑他们是同一学科被冠以不同的名称。

然而,各研究机构,学术期刊,会议及公司往往把自己特别的归为其中某一个领域,于是各种各样的用来区分这些学科的特征便被提了出来。下面将给出一种区分方法,尽管并不能说这一区分方法完全准确。

计算机视觉的研究对象主要是映射到单幅或多幅图像上的三维场景,例如三维场景的重建。计算机视觉的研究很大程度上针对图像的内容。

图象处理与图像分析的研究对象主要是二维图像,实现图像的转化,尤其针对像素级的操作,例如提高图像对比度,边缘提取,去噪声和几何变换如图像旋转。这一特征表明无论是图像处理还是图像分析其研究内容都和图像的具体内容无关。

机器视觉主要是指工业领域的视觉研究,例如自主机器人的视觉,用于检测和测量的视觉。这表明在这一领域通过软件硬件,图像感知与控制理论往往与图像处理得到紧密结合来实现高效的机器人控制或各种实时操作。

模式识别使用各种方法从信号中提取信息,主要运用统计学的理论。此领域的一个主要方向便是从图像数据中提取信息。

还有一个领域被称为成像技术。这一领域最初的研究内容主要是制作图像,但有时也涉及到图像分析和处理。例如,医学成像就包含大量的医学领域的图像分析。

对于所有这些领域,一个可能的过程是你在计算机视觉的实验室工作,工作中从事着图象处理,最终解决了机器视觉领域的问题,然后把自己的成果发表在了模式识别的会议上。

机器视觉与计算机视觉内涵基本一致,主要是前者偏重于计算机视觉技术在工程中的应用,而后者是视觉技术的理论指导,考虑到我目前主要在实验室里学习的是一些有关视觉的基础算法,暂时未参与到工业生产的应用上,因而将空间名定为“计算机视觉”。

下面我将简单的介绍一下计算机研究中的一些关键问题:

1、Marr视觉理论

此理论从Marr提出开始到现在一直是计算机视觉的基本研究理论,他主要将视觉研究从信号处理的角度进行理解,将视觉研究分为三个层次:理论层次、算法表达、硬件实现;同时从信息处理将视觉分为三个阶段:原始信息、2.5维信息及三维信息;实际上这个研究方式与一般问题的研究方法是一致的,主要是理论->算法->实现这个研究方向;所以Marr 视觉理论是视觉研究的方法学,指出研究的方法及对信息的处理方式。

2、计算机视觉模型

由于计算机视觉是基于光学成像、光电转换及信息处理建立的一套理论,光学成像一般遵循一定的几何知识,所以计算机视觉模型是基于透视投影理论建立的,即小孔成像模型,在是否考虑镜头畸变的情况下,可建立线性模型及非线性模型,同时利用几何变换理论,如射影几何、仿射几何、欧式几何可建立视觉模型的近似线性模型,在一些应用场合中,这些近似模型具有易理解、易标定等优势。

3、模型标定

由于视觉模型是用一些参数描述的,这些参数是摄像机的结构参数,如内部参数和外部参数,完成这些参数的确定过程就是视觉模型标定,即摄像机标定;摄像机标定一般采用被动式,如采用一些已知空间信息的控制点,通过模型理论,采用一定最优的方式建立目标函数,最后应用LM等最优化方法求解最优值;不同的视觉模型标定的方式可能不同,线性模型用线性最小二乘的方式就可求解,而非线性模型要采用非线性最优化的方式;如Tsai两步法、张正友任意位置法、DLT法等;还有一类标定称为主动标定式,一般应用在机器人手眼标定中,如马颂德法,但要求相机的移动是已知的。

4、视觉结构

这里的结构讨论与模型的讨论有些相关,计算机视觉按处理光照的方式可分为主动视觉和被动视觉两种,前者是控制光照的方式及光源的模式,而后者一般是利用自然光或均匀照明方式,在二维检测中一般用一个摄像机就可完成检测要求,但三维测量中就有很多中视觉结构可选用,如双目立体视觉、结构光三维视觉、莫尔条文三维视觉、阴影恢复三维理论等;双目立体视觉应用较广,而且其结构又具体分为好多种,不同结构有不同的优缺点,如在精度、成本、视场范围、复杂度等参数间进行权衡;

5、三维视觉系统的标定

双目立体视觉、结构光三维视觉及多传感器三维视觉系统是工业上常用的一些三维信息检测方法,由于系统结构不同,而且表达结构的参数不同,所以可用多种方法进行标定,这些视觉检测系统的基元是视觉传感器,视觉传感器可采用标准的方法进行内部参数标定,如Tsai\Zhang\DLT等方法,而视觉传感器间的关系(RT)是三维视觉系统标定的一个特点,如双目立体视觉的基线标定,结构光的三维视觉光平面标定,一般可采用间接中介法,即利用靶标坐标系作为中介坐标系,求视觉传感器间的关系,有时也可采用经纬仪建立的三维检测站作为中介坐标系完成转换;在大型工业现场中视觉传感器用的较多,如汽车车身检测,传感器达到几十个,这样传感器间可能没有共同的视场,所以要解决现场标定问题,同时由于尺寸链较长,所以如何控制标定精度是一个需要重点考虑的问题。

6、射影几何、仿射几何、欧式几何变换

从成像几何角度解释视觉传感器,可更好的理解一些成像过程中的不变量,利用这些不变量可简化目标的识别等操作。射影几何、仿射几何、欧式几何是建立在一定变换定义的基