当前位置:文档之家› 汽车驾驶员动态视觉对感知—决策—校正模式的影响研究

汽车驾驶员动态视觉对感知—决策—校正模式的影响研究

汽车驾驶员动态视觉对感知—决策—校正模式的影响研究
汽车驾驶员动态视觉对感知—决策—校正模式的影响研究

长安大学

硕士学位论文

汽车驾驶员动态视觉对感知—决策—校正模式的影响研究

姓名:张建峰

申请学位级别:硕士

专业:车辆工程

指导教师:付锐

20040101

视觉注意机制理论分析

第2章视觉注意机制理论分析 2.1 引言 随着信息技术的快速发展,数字图像、视频成为信息的重要载体。如何高效地处理和分析图像数据,理解图像内容已经成为当前的研究热点。众所周知,人类可以从复杂的场景中快速地找到我们感兴趣的区域,容易地完成对场景的理解。这是因为人类视觉系统(Human Visual System/HVS)的信息选择策略,利用视觉注意机制引导人眼在海量数据中注视到显著的区域,并分配资源对重要区域优先进行处理[10]。多数情况下,当我们的眼睛接收到来自外界的大量的视觉信息,大脑并不能对所有的视觉信息进行同时,而是删除大部分无用信息,筛选出少许感兴趣的重要信息,优先对这些视觉信息进行处理。 计算机作为目前处理信息最快的工具之一,在计算机图像处理中引入视觉注意机制,不仅可以提高数据筛选能力和计算机的运算速度,还在物体识别、目标跟踪、图像分析与理解等领域具有重要的应用价值,这就为汽车车牌的快速处理提供了一个很好的解决方法。但是目前的计算机视觉与人类的视觉在能力上存在着巨大的差异。视觉注意机制是涉及生物视觉处理等学科交叉领域,生物视觉与计算机视觉进行的学科交流为理论创新带来了新的思路:一个可行的方法是从研究人类的视觉系统(大脑)如何感知和识别外界视觉刺激出发,模拟人的视觉注意机制,建立一种有效的视觉注意计算模型,使计算机拥有人类所具备的观察和理解世界的能力,并将其应用于静态场景、动态场景的感兴趣区域检测及场景分类中。 2.2 人类视觉感知系统 关于人类的视觉感知系统,尤其是人类自身的视觉神经系统,心理学等相关领域专家已经进行了长期的探索和研究。通过深入研究探索,人们发现人类视觉神经系统中的视觉感官信息在人脑中是按照某一固定路径来进行传递的,其输入的是视觉刺激,输出的是视觉感知,主要是由视觉感官、视觉通路、视感觉中枢组织和视知觉中枢组织组成的,其分别负责视觉信息的生成、传送和分析。其中视觉信息分析过程可分为视感觉分析和视知觉分析,如图 2.1所示。

机器视觉测量技术

机器视觉测量技术 杨永跃 合肥工业大学 2007.3

目录第一章绪论 1.1 概述 1.2 机器视觉的研究内容 1.3 机器视觉的应用 1.4 人类视觉简介 1.5 颜色和知觉 1.6 光度学 1.7 视觉的空间知觉 1.8 几何基础 第二章图像的采集和量化 2.1 采集装置的性能指标 2.2 电荷藕合摄像器件 2.3 CCD相机类 2.4 彩色数码相机 2.5 常用的图像文件格式 2.6 照明系统设计 第三章光学图样的测量 3.1 全息技术 3.2 散斑测量技术 3.3 莫尔条纹测量技术 3.4 微图像测量技术 第四章标定方法的研究 4.1 干涉条纹图数学形成与特征 4.2 图像预处理方法 4.3 条纹倍增法 4.4 条纹图的旋滤波算法 第五章立体视觉 5.1 立体成像

5.2 基本约束 5.3 边缘匹配 5.4 匹域相关性 5.5 从x恢复形状的方法 5.6 测距成像 第六章标定 6.1 传统标定 6.2 Tsais万能摄像机标定法 6.3 Weng’s标定法 6.4 几何映射变换 6.5 重采样算法 第七章目标图像亚像素定位技术 第八章图像测量软件 (多媒体介绍) 第九章典型测量系统设计分析9.1 光源设计 9.2 图像传感器设计 9.3 图像处理分析 9.4 图像识别分析 附:教学实验 1、视觉坐标测量标定实验 2、视觉坐标测量的标定方法。 3、视觉坐标测量应用实验 4、典型零件测量方法等。

第一章绪论 1.1 概述 人类在征服自然、改造自然和推动社会进步的过程中,面临着自身能力、能量的局限性,因而发明和创造了许多机器来辅助或代替人类完成任务。智能机器或智能机器人是这种机器最理想的模式。 智能机器能模拟人类的功能、能感知外部世界,有效解决问题。 人类感知外部世界:视觉、听觉、嗅觉、味觉、触觉 眼耳鼻舌身 所以对于智能机器,赋予人类视觉功能极其重要。 机器视觉:用计算机来模拟生物(外显或宏观)视觉功能的科学和技术。 机器视觉目标:用图像创建或恢复现实世界模型,然后认知现实世界。 1.2 机器视觉的研究内容 1 输入设备成像设备:摄像机、红外线、激光、超声波、X射线、CCD、数字扫描仪、 超声成像、CT等 数字化设备 2 低层视觉(预处理):对输入的原始图像进行处理(滤波、增强、边缘检测),提取角 点、边缘、线条色彩等特征。 3 中层视觉:恢复场景的深度、表面法线,通过立体视觉、运动估计、明暗特征、纹理 分析。系统标定 4 高层视觉:在以物体为中心的坐标系中,恢复物体的完整三维图,识别三维物体,并 确定物体的位置和方向。 5 体系结构:根据系统模型(非具体的事例)来研究系统的结构。(某时期的建筑风格— 据此风格设计的具体建筑) 1.3 机器视觉的应用 工业检测—文件处理,毫微米技术—多媒体数据库。 许多人类视觉无法感知的场合,精确定量感知,危险场景,不可见物感知等机器视觉更显其优越十足。 1 零件识别与定位

图象视觉特征的提取与表示

第1章图像视觉特征的提取和表示 1.1引言 图像视觉特征的提取和表示是将图像的视觉信息转化成计算机能够识别和处理的定量形式的过程,是基于视觉内容的图像分类与检索的关键技术,因此,图像视觉特征的提取和表示一直是图像内容分析领域中一个非常活跃的课题。 图像底层视觉特征一定程度上能够反映图像的内容,可以描述图像所表达的意义,因此,研究图像底层视觉特征是实现图像分类与检索的第一步。一般来说,随着具体应用的不同,选用的底层特征也应有所不同,在特定的具体应用中,不同底层视觉特征的选取及不同的描述方式,对图像分类与检索的性能有很大的影响。通常认为,一种良好的图像视觉特征的提取和表示应满足以下几个要求: (1)提取简单,时间和空间复杂度低。 (2)区分能力强,对图像视觉内容相似的图像其特征描述之间也应相近,反之,对于视觉内容不相似的图像其特征描述之间应有一定的差别。 (3)与人的视觉感知相近,对人的视觉感觉相近的图像其特征描述之间也相近,对人的视觉感知有差别的图像其特征描述之间也有一定的差别。 (4)抗干扰能力强,鲁棒性好,对图像大小,方向不敏感,具有几何平移,旋转不变性。 本章重点讨论当前比较成熟的特征提取方法,在此基础上选取合适的特征提取方法,用于图像分类与检索系统的特征提取模块。接下来,将依次介绍颜色,纹理,形状等特征的提取和表示方法,最后对各种特征的特点加以比较。 1.2颜色特征的提取和表示 颜色是图像视觉信息的一个重要特征,是图像分类与检索中最为广泛应用的特征之一。一般来说同一类别的图像之间颜色信息具有一定的相似性,不同类别的图像,其颜色信息具有一定的差异。相对几何特征而言,颜色特征稳定性好,有对大小、方向不敏感等特点。因此,颜色特征的提取受到极大重视并得到深入研究。本章首先介绍几种常用的颜色空间模型,然后介绍各种颜色特征提取和表示方法。

人类智能的特性表现在4个方面

:人类智能的特性表现在 4 个方面 。 A:聪明、灵活、学习、运用。 B:能感知客观世界的信息、能对通过思维对获得的知识进行加工处理、能通过学习积累知识 增长才干和适应环境变化、能对外界的刺激作出反应传递信息。 C:感觉、适应、学习、创新。 D:能捕捉外界环境信息、能够利用利用外界的有利因素、能够传递外界信息、能够综合外界 信息进行创新思维。 2:人工智能的目的是让机器能够 ,以实现某些脑力劳动的机械化。 A:具有智能 B:和人一样工作 C:完全代替人的大脑 D:模拟、延伸和扩展人的智能 3:下列关于人工智能的叙述不正确的有: 。 A:人工智能技术它与其他科学技术相结合极大地提高了应用技术的智能化水平。 B:人工智能是科学技术发展的趋势。 C:因为人工智能的系统研究是从上世纪五十年代才开始的,非常新,所以十分重要。 D:人工智能有力地促进了社会的发展。 4:人工智能研究的一项基本内容是机器感知。以下列举中的 不属于机器感知 的领域。 A:使机器具有视觉、听觉、触觉、味觉、嗅觉等感知能力。 B:让机器具有理解文字的能力。 C:使机器具有能够获取新知识、学习新技巧的能力。 D:使机器具有听懂人类语言的能力 5:自然语言理解是人工智能的重要应用领域,下面列举中的 不是它要实现的 目标。 A:理解别人讲的话。 B:对自然语言表示的信息进行分析概括或编辑。 C:欣赏音乐。 D:机器翻译。 6:为了解决如何模拟人类的感性思维,例如视觉理解、直觉思维、悟性等,研究者找到一个 重要的信息处理的机制是: 。 A:专家系统 B:人工神经网络 C:模式识别 D:智能代理 7: 根据下列选项来判断可以用指纹来鉴定的是: ①证件 ②签字 ③照片 ④ 密码 ⑤钥 匙 ⑥印签( ) A : ① ② B : ① ② ③ C:①②③④ D:①②③④⑤⑥ 8:下列选项错误的是( ) A:研究人工智能成为当前信息化社会的迫切需求 B:智能化是自动化发展的必要趋势 C:人工智能的研究方法:结构模拟、功能模拟和行为模拟 D:人工智能的实质是人造的智能 9:机器人之父是指: ( ) A:阿兰.图灵 B:伯纳斯.李 C:莎佩克 D:英格伯格和德沃尔 10:下列哪个应用领域不属于人工智能应用?( )
1/5

机器视觉测量技术

机器视觉测量技术杨永跃合肥工业大学 2007.3 目录 第一章绪论 1.1 概述 1.2 机器视觉的研究内容 1.3 机器视觉的应用 1.4 人类视觉简介 1.5 颜色和知觉 1.6 光度学 1.7 视觉的空间知觉 1.8 几何基础 第二章图像的采集和量化 2.1 采集装置的性能指标 2.2 电荷藕合摄像器件 2.3 CCD 相机类 2.4 彩色数码相机 2.5 常用的图像文件格式

2.6 照明系统设计 第三章光学图样的测量 3.1 全息技术 3.2 散斑测量技术 3.3 莫尔条纹测量技术 3.4 微图像测量技术 第四章标定方法的研究 4.1 干涉条纹图数学形成与特征4.2 图像预处理方法 4.3 条纹倍增法 4.4 条纹图的旋滤波算法 第五章立体视觉 5.1 立体成像 2 5.2 基本约束 5.3 边缘匹配 5.4 匹域相关性 5.5 从 x 恢复形状的方法 5.6 测距成像

第六章标定 6.1 传统标定 6.2 Tsais 万能摄像机标定法 6.3 Weng ’ s 标定法 6.4 几何映射变换 6.5 重采样算法 第七章目标图像亚像素定位技术第八章图像测量软件 (多媒体介绍 第九章典型测量系统设计分析9.1 光源设计 9.2 图像传感器设计 9.3 图像处理分析 9.4 图像识别分析 附:教学实验 1、视觉坐标测量标定实验 2、视觉坐标测量的标定方法。 3、视觉坐标测量应用实验 4、典型零件测量方法等。

3 第一章绪论 1.1 概述 人类在征服自然、改造自然和推动社会进步的过程中,面临着自身能力、能量的局限性, 因而发明和创造了许多机器来辅助或代替人类完成任务。智能机器或智能机器人是这种机器最理想的模式。 智能机器能模拟人类的功能、能感知外部世界,有效解决问题。 人类感知外部世界:视觉、听觉、嗅觉、味觉、触觉 眼耳鼻舌身 所以对于智能机器,赋予人类视觉功能极其重要。 机器视觉:用计算机来模拟生物(外显或宏观视觉功能的科学和技术。 机器视觉目标:用图像创建或恢复现实世界模型,然后认知现实世界。 1.2 机器视觉的研究内容 1 输入设备成像设备:摄像机、红外线、激光、超声波、 X 射线、 CCD 、数字扫描仪、超声成像、 CT 等 数字化设备 2 低层视觉(预处理 :对输入的原始图像进行处理(滤波、增强、边缘检测 ,提取角点、边缘、线条色彩等特征。 3 中层视觉:恢复场景的深度、表面法线,通过立体视觉、运动估计、明暗特征、纹理分析。系统标定

双目视觉成像原理

双目视觉成像原理 1.引言 双目立体视觉(Binocular Stereo Vision)是机器视觉的一种重要形式,它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差,来获取物体三维几何信息的方法。融合两只眼睛获得的图像并观察它们之间的差别,使我们可以获得明显的深度感,建立特征间的对应关系,将同一空间物理点在不同图像中的映像点对应起来,这个差别,我们称作视差(Disparity)图。 双目立体视觉测量方法具有效率高、精度合适、系统结构简单、成本低等优点,非常适合于制造现场的在线、非接触产品检测和质量控制。对运动物体(包括动物和人体形体)测量中,由于图像获取是在瞬间完成的,因此立体视觉方法是一种更有效的测量方法。双目立体视觉系统是计算机视觉的关键技术之一,获取空间三维场景的距离信息也是计算机视觉研究中最基础的内容。 2.双目立体视觉系统 立体视觉系统由左右两部摄像机组成。如图一所示,图中分别以下标L和r标注左、 右摄像机的相应参数。世界空间中一点A(X,Y,Z)在左右摄像机的成像面C L 和C R 上的像点 分别为al(ul,vl)和ar(ur,vr)。这两个像点是世界空间中同一个对象点A的像,称为“共轭点”。知道了这两个共轭像点,分别作它们与各自相机的光心Ol和Or的连线,即投影线alOl和arOr,它们的交点即为世界空间中的对象点A(X,Y,Z)。这就是立体视觉的基本原理。 图1:立体视觉系统 3.双目立体视觉相关基本理论说明

3.1 双目立体视觉原理 双目立体视觉三维测量是基于视差原理,图2所示为简单的平视双目立体成像原 理图,两摄像机的投影中心的连线的距离,即基线距为b 。摄像机坐标系的原点在摄像机镜头的光心处,坐标系如图2所示。事实上摄像机的成像平面在镜头的光心后,图2中将左右成像平面绘制在镜头的光心前f 处,这个虚拟的图像平面坐标系O1uv 的u 轴和v 轴与和摄像机坐标系的x 轴和y 轴方向一致,这样可以简化计算过程。左右图像坐标系的原点在摄像机光轴与平面的交点O1和O2。空间中某点P 在左图像和右图像中相应的坐标分别为P1(u1,v1)和P2(u2,v2)。假定两摄像机的图像在同一个平面上,则点P 图像坐标的Y 坐标相同,即v1=v2。由三角几何关系得到: c c 1z x f u = c c 2z )b -x (f u = v 1 c c 21z y f v v == 上式中(x c ,y c ,z c )为点P 在左摄像机坐标系中的坐标,b 为基线距,f 为两个摄 像机的焦距,(u1,v1)和(u2,v2)分别为点P 在左图像和右图像中的坐标。 视差定义为某一点在两幅图像中相应点的位置差: 图2:双目立体成像原理图 由此可计算出空间中某点P 在左摄像机坐标系中的坐标为: 因此,只要能够找到空间中某点在左右两个摄像机像面上的相应点,并且通过摄像机标定获得摄像机的内外参数,就可以确定这个点的三维坐标。 双目立体视觉的系统结构以及精度分析 由上述双目视觉系统的基本原理可知,为了获得三维空间中某点的三维坐标,需要在

大脑皮层的感知机理

大脑皮层的感知机理 当动物萎靡不振,昏昏欲睡时,它们的大脑是否也处于混沌状态?以色列研究人员在研究了猫的大脑活动后提出,动物即使是闭着眼睛打盹,其大脑也许仍会下意识地产生视觉图像。研究人员称,如果人类也是如此的话,那么,人们喜欢看自己期望看到的东西的这种倾向,也许出自大脑中不断产生的虚幻感觉。 通常,眼睛在察觉到一个细小的斑点时,动物大脑皮层大约几毫米大的区域会兴奋起来,该区域中成千上万的神经细胞立即开始详细了解斑点的性质。垂直的斑点会导致某些神经细胞十分兴奋,而水平或斜向斑点会让另一些神经细胞十分兴奋。于是,不同的斑点在大脑皮层的兴奋区域产生了不同的高度兴奋图案,神经学家称这些大脑皮层图案为“定位图”。人们一直认为,动物合上双眼后,大脑皮层中将不会出现“定位图”,取而代之的是神经细胞的随机活动。 据10月30日英国《自然》杂志网络版报道,以色列魏茨曼科学院塔尔·肯奈特和他的同事通过一项高水平的实验惊奇地发现,猫在昏迷时,其大脑却似乎在系统地扫描内在的图像。实验中,研究人员将电压敏感染料涂在昏迷猫的大脑皮层,利用显微镜,研究人员观察到,染料颜色随着大脑皮层神经细胞电刺激的状态变化而改变,并记录下了猫在昏迷时大脑皮层中自然发生的神经活动。通过比较他们发现,猫昏迷时的神经活动同它在清醒时观察实际景色引起的大脑皮层神经活动类似。 研究人员强调,他们记录的神经活动不是梦,因为该现象发生在大脑初级视觉皮层,这里被认为是被动记录视觉刺激的区域,也就是说,记录的神经活动发生在大脑进行信息处理链的低级阶段,它正好是动物大脑对眼前情景的反映。美国加州大学研究人员达理奥·瑞格奇表示,目前占主导地位的是“自下而上”观点,该观点认为信息只能从眼睛流向大脑中更高的处理中心。肯奈特他们的发现对“自上而下”的感知机制理论是强有力的支持。 然而,研究人员表示,他们还不清楚大脑皮层内在图像的含义,它们也许是最值得注意的记忆、期望或物体的反映。但对人类而言,这种内在的图像甚至可能代表着我们大脑中对周围环境最理想的猜测,但睁开眼后,我们获得的感官刺激也许会随之更新大脑中的猜测。

视觉感知与智能视频监控技术培训

视觉感知和智能视频监控技术培训 课程大纲: 第1章视频监控系统 1h 1.1 模拟视频监控系统 1.2 数字视频监控系统 1.3 网络视频监控系统 1.4 智能视频监控系统 1.5 视频监控系统抗干扰方法 1.6 视频监控系统防雷设计 【主办单位】中国电子标准协会培训中心 【协办单位】深圳市威硕企业管理咨询有限公司第2章视频传感器 2h 2.1 传感器视频信号 2.2 CCD视频传感器 2.2.1 特种CCD传感器 2.2.2 360度全景摄像机 2.2.3 红外CCD热像仪 2.2.4 CCD传感器镜头 2.2.5 CCD视频时空域采样 2.2.6 ITU656-601规范 2.2.7 ITU1120规范

2.3 CMOS视频传感器 2.4 CIS视频传感器 2.5 视频传感器比较 第3章物理传感器 1h 3.1 雷达传感器 3.2 超声波传感器 3.3 红外传感器 3.4 声音传感器 3.5 振动传感器 3.6 磁开关传感器 3.7 气体传感器 3.8 温度传感器 3.9 湿度传感器 3.10 光电感烟传感器 第4章视频监控网络 1h 4.1 视频远程传输 4.2 视频控制总线 4.3 IP视频传输 4.3.1 流媒体技术 4.3.2 RTP协议 4.3.3 RTSP协议

4.3.4 DDNS协议 4.4 网络摄像机 第5章智能视频监控 1h 5.2 智能视频监控的功能 5.3 智能视频监控的体系结构5.4 智能视频监控的关键技术5.4.1 运动目标检测 5.4.2 运动目标分类 5.4.3 运动目标跟踪 5.4.4 行为分析和识别 5.5 智能视频监控的使用 5.6 智能视频监控的发展趋势第6章运动侦测和目标判别 2h 6.1 运动目标侦测 6.2 运动估计和运动矢量提取6.3 目标判断和分类 6.4 基于物体形状的目标判别第7章人脸检测和识别 2h 7.1 人脸区域检测 7.2 人脸特征提取 7.3 人脸特征匹配 第8章车牌检测和识别 2h

人眼的视觉特性

人眼的视觉特性 1、引言人眼的视觉系统是世界上最好的图像处理系统,但它远远不是完美的。人眼的视觉系统对图像的认知是非均匀的和非线性的,并不是对图像中的任何变化都能感知。例如图像系数的量化误差引起的图像变化在一定围是不能为人眼所觉察的。因此,如果编码方案能利用人眼视觉系统的一些特点,是可以得到高压缩比的。对人眼视觉特性的深入研究及由此而建立的各种数学模型,一直是各种图像数字压缩算法的基础。 2、人眼的视觉特性 人眼对380~780纳米不同波长的光具有不同的敏感程度,称为人眼的视敏特性。衡量描述人眼视敏特性的物理量为视敏函数和相对视敏函数。1)视敏函数在相同亮度感觉的条件下,不同波长上光辐射功率的倒数可以用来衡量人眼对各波长光明亮感觉的敏感程度。称为视敏函数 K(λ)=1/pr(λ) 。2)相对视敏函数实验表明,人眼对波长为555纳米的光最敏感,因此把任意波长的光的视敏函数与最大视敏函数值K(555)相比的比值称为相对视敏函数。 可见光波长 实验表明:视敏涵数的曲线的最大值位于555nm处当

光线微弱向左偏移最大值为507nm处,两者相差近50nm,人眼就相当于带通滤波器,这就表明人眼对亮度变化比较敏感。人眼对于蓝光的视觉灵敏度要比红光和绿光低的多.三条曲线的峰值比为R:G:B=0.54:0.575:0.053(蓝光放大20倍).三条曲线有相当一部分是重叠的.正常观察条件下,人眼得到的是二者的合成的视觉,不能将他们各自的数值区分开来.大脑根据三者的比例,感知彩色的色调和饱和度,而三者的和决定了光的总亮度。 2.1对比灵敏度人眼对亮度光强变化的响应是非线 性的,通常把人眼主观上刚刚可辨别亮度差别所需的最小光强差值称为亮度的可见度阈值。也就是说,当光强I增大时,在一定幅度感觉不出,必须变化到一定值I+ΔI时,人眼才能感觉到亮度有变化,ΔI/I一般也称为对比灵敏度。因此恢复图像的误差如果低于对比灵敏度,即不会被人眼察觉。此外,高频部分在相同的灵敏度阈值下,色差信号Y-R 空间频率只有亮度Y的一半,色差信号Y-B空间频率只有亮度Y的1/4。人眼对于运动图像的对比灵敏度与时间轴上信息的变化速度有关,随着时间轴变化频率的增加,人眼所能感受到的图像信息的误差阈值呈上升趋势,视觉上的这种动态对比灵敏度特性表现为图像序列之间相互掩盖效应。可见

视觉媒体特性(精)

视觉媒体特性 作者:佚名转贴自:本站原创点击数:64 人类信息交流中,最丰富的信息流是视觉媒体。凡是通过视觉传递信息的媒体,都属于视觉类媒体。它包括图形、图像、文字以及一切形象化的视觉信息形式。视觉类媒体特性研究,涉及光度学、色度学、图形学、数字信号处理和人类视觉生理心理特性等,认识和运用其基本特征,是视觉媒体处理的各种技术之基础。作为一名专业的图形设计员来说,了解视觉媒体特性是必不可缺的。下面我们将从几个不同的侧面来分析和说明视觉类媒体的主要特性。 一、可见光谱与光度学参量 人眼所看到的客观存在的世界,通常称之为景象。客观物体所发出的光线或是物体受光源照射后所反射、透射的光,在人的视网膜上成象,是一种自然的生理功能,它使人能借助视媒体去认识世界。近代科学的发展,特别是光电转换技术进步,使人类能够以各种方法来记录、处理、传输客观景象,如各类图片、照片、绘画、文稿、X光胶片等:不仅是获取和记录那些人眼可见的图像信息还可利用非可见光和其它手段成象,或利用适当转换装置将其变为人眼可视图像,例如红外成象、超声成象、微波成象等;科学技术使人的视觉能力逐步增强和延伸。从‘物理上讲,光线是电磁波的一种能量辐射形式。电磁波的主要参数包括:传播方向,所具能量,极化情况和波长。电磁波的频率范围很宽,根据波长不同,具有不同性质,包括无线电波、红外线、可见光谱、紫外线、X射线、’宇宙射线等。可见光谱在电磁波中仅是很窄的一段,其波长在380至780毫微米之间,波长不同呈现不同的颜色,从紫、蓝、绿、黄到橙、红,连续地变化。描述方法使用如下物理量:光源发光强度、光通量、照度、亮度,还使用视敏曲线反映人眼的感觉特性。 二、三基色原理 不同波长的单色光会引起不同的彩色感觉,然而同样的彩色感觉却可以来源于不同的光谱成分的组合,这个事实说明,光谱分布与彩色感觉之间的关系是多对一的,也说明在彩色重现过程中并不要求客观景物反射光的光谱成分,而重要的是人眼应获得原景物的相同的彩色视觉。实验证实,大自然中几乎所有颜色都可以用几种基色按不同比例混合而得到。三基色原理包括如下内容: 1.选择三种相互独立的颜色,即不能以其中两种混合而得到第三种作为基色,将这三基色按不同比例进行组合,可获得自然界各种彩色感觉。如彩色电视技术中选用红(R)、绿(G)和蓝(B)作为基色,印染技术中选用黄、品红、青作为基色。 2.任意两种非基色的彩色相混合也可以得到一种新的彩色,但它应该等于把两种彩色各自分解为三基色,然后将基色分量分别相加后再相混合而得到的颜色。 3.三基色的大小决定彩色光的亮度,混合色的亮度等于各基色分量亮度之和。

视觉检测系统的反馈机制研究

—197— 视觉检测系统的反馈机制研究 罗三定,孙喜梅 (中南大学信息科学与工程学院,长沙 410083) 摘 要:针对现有计算机视觉理论框架在指导视觉问题中很难克服精度差、受噪声影响大、计算复杂性高的问题,提出仿人的闭环视觉系统模型,引入反馈机制和高层知识的指导,并将其应用到车牌定位系统中。研究结果表明,以该模型实现的仿人视觉车牌定位系统容错性好、准确率高,可以有效地解决光照不均、牌照褪色,以及复杂背景干扰等情况下的车牌定位问题。 关键词:计算机视觉;人类视觉;反馈机制;车牌定位 Feedback Mechanism Investigation on Visual Detection System LUO San-ding, SUN Xi-mei (School of Information Science and Engineering, Central South University, Changsha 410083) 【Abstract 】Aiming at poor accuracy affected by noise and high complexity of calculating in computer vision theoretical framework guiding vision,a new humanoid vision of the closed-loop system model is put forward, a feedback mechanism and the guidance of high-level knowledge is introduced, and they are applied to vehicle license plate location system. Results show that the system not only can accurately locate vehicle license plate and have high fault tolerance, but also can effectively solve location problem under the circumstance of uneven illumination, depigmentation or complex environments interferences. 【Key words 】computer vision; humanoid vision; feedback mechanism; vehicle license plate location 计 算 机 工 程Computer Engineering 第36卷 第1期 Vol.36 No.1 2010年1月 January 2010 ·人工智能及识别技术·文章编号:1000—3428(2010)01—0197—04 文献标识码:A 中图分类号:N945.12 1 概述 计算机视觉理论和视觉系统技术之间存在较大距离。现有的视觉系统都是在特定条件或特定知识的指导下,检测特定目标的特征,完成对特定世界的认知。然而,这种从特定认知任务出发的视觉系统对开发者的经验和应用条件过分依赖,适应性和鲁棒性不高。 计算机视觉理论经过40多年的发展,相继出现了一些计算机视觉的理论框架,计算机视觉的研究也从二维发展到三维,从串行发展到并行。文献[1]的视觉计算理论立足于计算机科学,系统地概括了心理生理学、神经生理学等方面已取得的所有重要成果,但该理论并不完善,其所建立的视觉处理框架基本上是一个自下而上、完全由资料驱动的、单向无反馈的系统,并没有足够重视知识的应用。另外,视觉研究是否真的需要重建、信息处理是否全部需要定量完成等,也是存在的问题之一。相对于前者,Lowe 提出了基于知识的视觉理论框架;基于后者有学者提出了基于目的的主动视觉理论框架。基于知识的视觉理论框架尽管引入了反馈,强调高层知识对视觉的指导作用,但它否认计算视觉理论,认为人类视觉只是一个识别过程。主动视觉理论框架是根据Gibson 的生态学理论[2]提出的。主动视觉强调视觉系统应该基于一定的任务和目的,同时视觉系统应该具有主动感知的能力。虽然在目的视觉系统框架中以视觉任务为先导,引入了知识的学习和利用,但是目的视觉理论框架中也缺乏反馈和高层知识的指导。这种无反馈的结构不符合生物视觉系统,同时在视觉问题中将很难克服精度差、受噪声影响大、计算复杂性高的问题,也缺乏对问题和环境的自适应性。 本文从分析人类视觉的特点入手,给出人类视觉系统的并行处理机制模型,在分析该模型及计算机视觉与人类视觉 的差别的基础上,提出仿人的闭环视觉系统模型,并将其应用到车牌分割系统中。 2 闭环反馈视觉检测系统结构 2.1 人类视觉的特点 人类的视觉系统是一个闭环的多重反馈信息处理系统。作为人类视觉的核心,大脑具有高度的视觉信息理解知识与智慧,其特点是能够运用丰富的知识、经验与方法,具备针对性很强的有效信息选择和灵活的处理手段调节能力,能够在先验知识的指导下对信息进行主动获取、合理利用、适时取舍、方法试探、分析评价、实时反馈指导。 人类视觉感知是一个鲁棒性很强的、能抵御实际中各种变形和噪声干扰的具有良好容错性的识别系统。英国科学家Zeki 指出人类视觉系统使用精巧的策略或办法来统一不同性质的信息,即在几个不同水平上相互作用来多级地处理复杂的视觉信息,感知周围多彩生动的视觉世界。在物体某些信息缺失(如褪色、形状残缺)的情况下,人类仍然能够准确无误地识别物体。这是因为人类有先验知识的指导且在其指导下能够进行缺失信息的补充或者依据其他信息进行判断。 虽然当前人类通过视觉感知世界的机理尚不完全清楚,在计算机视觉系统理论中引入知识指导、综合、反馈机制却是非常必要的。 2.2 闭环反馈视觉系统 仿人计算机视觉并不是机械地模仿人类视觉,而是要从系统的处理目的出发,模仿实现人类识别事物的信息处理模 作者简介:罗三定(1955-),男,教授,主研方向:图像处理,工业视觉系统;孙喜梅,硕士研究生 收稿日期:2009-11-05 E-mail :ruiping_sun@https://www.doczj.com/doc/f34724713.html,

基于人眼视觉特性的图像质量评价方法研究

基于人眼视觉特性的图像质量评价方法研究 刘 江 苏未曰 摘要:本文是在传统图像质量评价模型的基础上,对人眼视觉理论和各种图像质量评价的主客观方法进行分析。利用小波变换与人眼视觉系统的多通道特性相匹配的特点,结合对比敏感度函数的带通特性和DCT域加权处理的方法,建立一个利用MATLAB语言实现的基于人眼视觉特性的图像质量模型评价。 关键词:数字图像;人类视觉系统;小波变换;多通道;对比敏感度 The Methods of Based on the HVS Image Quality Evaluation Liujiang Su Weiyue ABSTRACT: This paper analyzed the human visual theory and the various objective and subjective methods of image quality evaluation, and it is based on the traditional image quality evaluation model. Using the characteristic that wavelet transform match the features of human visual system multi-channel, and combining the characteristics that contrast sensitivity function with the band-pass,and the DCT territory weighting processing, it will use the MATLAB to establish an image quality evaluation model which based on HVS. Keywords: Digital Image; Human Visual System; Wavelet Transform; Multi-channel; Contrast Sensitivity Function 1前言 在遥感影像产品大量应用, 新的影像处理方法不断涌现的同时, 对如何评价遥感影像的质量问题却缺乏全面、客观和统一的方法, 影像质量的好坏常常是依靠观察者的主观感觉, 不但缺乏准确性, 而且也不适应海量数据处理的需要。同时评价方法的非客观与非准确性, 也使提高影像质量成为空谈。遥感影像作为一种产品, 对其质量的评价, 必将随着遥感影像应用的进一步深入而引起越来越多的关注。 2 传统图像质量评价方法 传统的图像质量评价方法可以分为主观和客观两类,主观评价方法主要是主观平均分(MOS),客观方法主要有均方误差(MSE)、峰值信噪比(PSNR)、信息熵。 1、主观评价方法 主观评价方法就是让观察者根据一些事先规定的评价尺度或自己的经验对测试影像按视觉效果提出质量判断,并给出质量分数。在具体作法上,可在一定的光照、视距、分辨率大小等条件下,由一组专家和非专家观察者分别对所评价的同一图像进行打分,然后按照一定的规则得出一个总的评价结果。主观评价主要有两种尺度,即绝对尺度和相对尺度[2],所谓绝对尺度就是对给定影像给出绝对的质量评分结果,而相对尺度就是确定某影像在一批相比较的影像中的相对质量尺度。主观方法相对于客观方法更有说服力,因为图像最终的服务

3D显示视觉感知特性研究

3D显示视觉感知特性研究 人们的日常生活中从外界接收的信息有80%是通过视觉系统获得的。随着信息技术的迅猛发展,人们自然而然地将图像传递作为信息传输的主体。3D显示技术不仅能够为观众提供更逼真震撼的视觉体验,也能为需要立体显示的行业和环境提供极大的便利和支持,例如3D远程手术,3D地图等。3D显示是一个比较广泛的研究领域,涉及到3D显示设备的设计和3D内容的制作等。 对3D显示效果的评价也多集中于显示参数的提高和优化,如超高分辨率,超大视角,高清晰度等等。然而3D显示的最终受众是人类,并且3D技术发展的目标是逼真准确的再现真实场景,因此,应该在提高3D显示性能的同时关注人眼对3D 显示的视觉感知特性,使3D显示更符合人的生理视觉特点,从而让这一技术真正的被大众接纳,进而有更长远的发展。本文针对3D显示视觉感知特性进行研究,主要研究内容和创新点如下:(1)基于3D显示环境的视觉感知特性研究研究要点1:在观看3D内容时,观看者总是处于一种特定的观看环境中,包括观看距离、观看角度、屏幕大小,以及室内的光线设置等。视觉刺激的参数也复杂多变,如色彩亮度、3D内容的复杂程度等。 在以往的研究中这些因素对立体视觉感知的影响通常是由被试者的主观感 受得出(如问卷调查),这种方法虽然在一定程度上可以反映观看环境设置对视觉感知系统的影响,但被试者心理或经验方面的差异会对统计结果造成一定的影响。针对这个问题本文首次提出了用垂直视差的融合能力作为定量评估指标,快速便捷的评估外界观看环境(包括光照、观看距离、屏幕尺寸)以及视觉刺激参数设置(包括背景亮度、3D内容复杂度)对人眼视觉系统造成的影响。通过分析各个因 素间的相关性及对视觉感知能力影响的显著性,为优化3D显示环境提供更贴近 实际显示情况的参考。研究要点2:以往研究中给出的关于垂直视差对立体视觉 感知影响的取值范围比较笼统,并没有充分考虑观看环境对人眼垂直视差融合能力的影响。 本文根据在研究要点1中找出的观看环境对人眼感知造成影响的关键因素(亮度和视网膜成像大小),进行了数据拟合建模,从而使对垂直视差融合能力的 预测更贴近真实测试情况,使评估更具有针对性。(2)人眼对多视点裸眼3D显示器深度信息感知阈值的研究研究要点3:在日常生活中,人眼接收到的视点数是

视觉感知异常特征及训练方法

视觉感知异常及训练方法 1.视觉感知异常特征: 视觉是个体获取信息、完成各种行为表达的重要感觉器官。若儿童视觉不稳定,不能再多向度平稳、流畅移动、将会导致阅读中遗漏/添加字词、跳行、前后信息不连贯导致理解错误、做功课费力等现象时常发生。 2.视觉感知运作和联系; 眼球的运动是在6条眼直肌的配合下进行,其准确性既受有关脑神经的直接控制,也会受到来自前庭觉、本体感觉等信息的影响。所以,视觉的感知活动是在多个系统的参与下进行的。 人的视觉感知发育是一个随年龄增长逐渐趋于稳定的过程,稳定的视觉感知是阅读、书写等学习活动以及各种手眼协调活动的基础。 结论:我们要训练儿童的视觉感知能力,需从参与其运作的几大系统着手,即:前庭觉、本体觉。 3.前庭觉训练方法: A,重要性

前庭系统不仅主导着个体的躯体平衡和空间方位感的调控,而且参与对个体各种感觉信息的统整、躯体感知、运动的协调、注意力的调节,对脑功能整体发展有重要的影响,是确保个体正常生活、学习、交往等方面的重要感觉系统。 B.训练的基本方法; ①旋转; 第一:绕身体垂直抽的旋转。(儿童取站立位的身体左/右扭转(脚原地不动),或移动脚达到全身原地旋转,或。。。。。。 第二:绕身体冠状轴的旋转。头部及躯干顺序进行的屈伸活动、身体不倒翁、游泳池中的躯体前后翻滚。 ②滚动; 卧立滚动侧滚。。。 ③起落与震动;跃起下落上下震动,奔奔床、大笼球、弹跳球。 ④骤起急停;起步立定、跑步中停止、折返跑、跳高跳远跳水。 ⑤反射性调正;儿童身体突然收到外力刺激失衡后,身体会对失衡对出调正。走独木桥大喊孩子的名字。 C.训练强度控制;2-3分钟让孩子静息。注意安全。 4.本体感觉功能训练; A.重要性;本体感觉训练对于发展儿童的运动企划、提高动作的精细

比视觉灵敏度表示人类视觉分光灵敏度特性

比视觉灵敏度表示人类视觉分光灵敏度特性 在光强度的测量方法中有辐射测量与测光法两种不同的方法。辐射测量法指的是对于光谱范围内的整个波长,包括紫外线、可见光和红外线,全部进行测量。测光法测量的仅仅是可见光。 而要将物理辐射量转换为表示人的眼睛所感知的明暗程度的测光量时,需要引入一个比视觉灵敏度的概念。所谓比视觉灵敏度,表示的是人类眼睛的分光灵敏度特性。在图 1.7 中,用虚线补充的就是光敏二极管 BS120 的标准比视觉灵敏度特性。 例如,在测量照度的是偶,可以将照度置换为人们感觉到了许多大程度明亮的数值,因此被纳入比视觉灵敏度之中。为此,就像图 1.7 那样,用于照度测量的光敏二极管 BS120,其分光灵敏度特性就制作得尽可能地与比视觉灵敏度相吻合。 短路电流的表示方法如表 1.1 所示,与照度相对应,约为 0.16μA/100lx。 但是,用于紫外线检测的光敏二极管 G3614 可以检测出人眼看不见的光线,因此表示为无法用比视觉灵敏度表示的辐射强度。从表 1.1 可以看出,光敏二极管 G3614 的辐射强度检测灵敏度为 60mA/W。 将光敏传感器与发光器件组合时的注意点 在红外遥控器中发光器件是与感光器件配对使用的。通常,使用发光二极管(LED)作为发光器件,而且尤其重要的是其发光特性应当与作为感光器件的光敏二极管相匹配。 图 1.9 给出的是与各种发光器件的波长相对应的而检测能力。从中可以找到与光敏二极管 PH302B 相对应的发光二极管。从表 1.1 可以查到,光敏二极管 PH302B 的峰值波长位于940nm;对照图 1.9 可以了解到,适合与之配套使用的发光二极管是 GaAs 红外发光二极管。

从视觉感知智能到视觉认知智能

邓志东教授/博士生导师 清华大学智能技术与系统国家重点实验室 清华大学计算机科学与技术系 清华大学人工智能研究院 michael@https://www.doczj.com/doc/f34724713.html, 从视觉感知智能到视觉认知智能 2019.10.31 成都2019年第七届输电技术年会

邓志东 清华大学智能技术与系统国家重点实验室教授, 人工智能研究院视觉智能研究中心主任 清华大学计算机系教授,博士生导师。现为中国 自动化学会会士,中国人工智能产业创新联盟专 家委主任,中国自动化学会智能自动化专委会主 任,新兴产业百人会专家等。 ?致力于视觉人工智能研究; ?积极推动“智能+”的跨界融 合发展与产业落地应用实践

提纲O UTLINES 1、人工智能产业生态 2、视觉感知智能成为通用赋能工具与研究范式 3、数据驱动的视觉感知智能面临的主要挑战 4、探索结合数据与知识驱动的视觉认知智能

提纲O UTLINES 1、人工智能产业生态 2、视觉感知智能成为通用赋能工具与研究范式 3、数据驱动的视觉感知智能面临的主要挑战 4、探索结合数据与知识驱动的视觉认知智能

涉及四个维度: 大数据,大计算,算法和应用场景 上游/基础层:大数据,AI 芯片,AI 基础算法,开源代码 框架,AI 基础设施(云-边-端,5G 等) 中游/技术层:视觉引擎,语音引擎,知识引擎 下游/应用层:AI +行业或行业+AI 人工智能产业链划分:

公开评测数据集:视觉物体检测、识别与分割-ImageNet ,MS COCO ,PASCAL VOC-2007 /VOC-2012,Caltech-101,Caltech-256,CIFAR-10,CIFAR-100,MNIST ,US-PS ,SVHN 等; 人脸识别-LFW ,PubFig ,MTFL ,Caltech 人脸数据库,FDDB ,CelebA ,CK+,FER-2013,JAFFE 等;交通标识识别-GTSRB ,TRoM 等 -开放的大数据资源:公开评测数据集是完备大数据,算法性能 仅反映了深度神经网络本身达到甚至超过人类水平的感知能力 产业上游:开放的大数据资源 大数据:真实条件下 有标签的巨量数据

人类视觉系统

人类视觉系统,即Human visual system。人类视觉系统只有3种视锥细胞,因此在缤纷的世界中,即使面对似锦的繁花,我们也可能犹如色盲,常常对一些色彩“视而不见”;而鸟类独特的视觉系统,拥有4种视锥细胞,能辨别出更多色彩,看见的世界也更加绚丽多彩,远远超越了人类。 对颜色/亮度的感知 人类对光的感知是依靠视网膜(retina)细胞。cones(圆锥细胞)负责感知光度(较强光)和色彩, rods(杆状细胞)仅能感知光度,不能感知颜色,但其对光的敏感度是cones的一万倍。在微弱光环境下rods起主要作用,因此我们不能在暗环境中分辨颜色。一些数码相机的夜光拍摄模式也模拟了这一特性。 视网膜中三种圆锥细胞(cones) 有重叠的频率响应曲线,但响应强度有所不同,他们分别对红(570nm), 绿(535nm), 蓝(445nm)光有最敏感,共同决定了色彩感觉。光度(luminance) 正比于视网膜细胞接受到的光强度能量,但人类对相同强度不同波长的光具有不同的敏感度。可感知的波长范围380nm~780nm,称为可见光。其中对绿色(550nm)光产生最大的光强敏感度。 视力 眼睛的空间分辨能力,即视力,通常用可分辨视角(degree)的倒

数为单位。正常人的最少可辨视觉阀值约0.5”,最大视觉范围200度(宽)×135度(高)。 空间频率 即影像在空间中的变化速度。用亮度呈空间正弦变化的条纹做测试,亮度Y(x,y) = B(1+mcos2πfx), 给定条纹频率f为一固定值(看作是宽度),改变振幅m(看作对比度),测试分辨能力。显然m越大分辨越清楚,测试不同条件下(不同cpd)可分辨的最少m值,定义1/mmin为对比敏感度(contrast sensitivity)。定义人眼的对空间感觉的角度频率:cpd: cycle / degree ,表示眼球每转动一度扫过的黑白条纹周期数。对给定的条纹,这个值与人眼到显示屏的距离有关,对于同样大小的屏幕,离开越远,cpd越大。 通常人眼对空间的感觉相当于一个带通滤波器。最敏感在2~5个cpd ,空间截止频率为30cpd。比如我们看油画和电视机屏幕时,当距离离开一定远,cpd增大,人的眼睛就分辨不了象素点细节,便感觉不到颗粒感了。 当人观察一个静止影像时,眼球不会静止一处(精神病人除外), 通常停留在一处几百毫秒完成取像后,移到别处取像,如此持续不断。这种运动称为跳跃性运动(saccadic eye movement)。研究表明跳跃性运动可以增大对比敏感度,但敏感度峰值却减少。 对时间频率的感知

相关主题
文本预览
相关文档 最新文档