当前位置:文档之家› 基于计算机视觉的手势跟踪与识别技术的研究毕业论文

基于计算机视觉的手势跟踪与识别技术的研究毕业论文

基于计算机视觉的手势跟踪与识别技术的研究毕业论文
基于计算机视觉的手势跟踪与识别技术的研究毕业论文

基于计算机视觉的手势跟踪与识别技术的研究

毕业设计(论文)原创性声明和使用授权说明

原创性声明

本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。

作者签名:日期:

指导教师签名:日期:

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。

作者签名:日期:

学位论文原创性声明

本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。

作者签名:日期:年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名:日期:年月日

导师签名:日期:年月日

注意事项

1.设计(论文)的内容包括:

1)封面(按教务处制定的标准封面格式制作)

2)原创性声明

3)中文摘要(300字左右)、关键词

4)外文摘要、关键词

5)目次页(附件不统一编入)

6)论文主体部分:引言(或绪论)、正文、结论

7)参考文献

8)致谢

9)附录(对论文支持必要时)

2.论文字数要求:理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于1.2万字。

3.附件包括:任务书、开题报告、外文译文、译文原文(复印件)。

4.文字、图表要求:

1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写

2)工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画

3)毕业论文须用A4单面打印,论文50页以上的双面打印

4)图表应绘制于无格子的页面上

5)软件工程类课题应有程序清单,并提供电子文档

5.装订顺序

1)设计(论文)

2)附件:按照任务书、开题报告、外文译文、译文原文(复印件)次序装订

教研室(或答辩小组)及教学系意见

1 绪论 (3)

1.1手势识别研究的意义 (3)

1.2手势识别国内外研究现状 (3)

1.3基于视觉的手势跟踪与识别流程图 (4)

2 基于计算机视觉的手势识别基础理论 (4)

2.1模式识别概述 (4)

2.2基于计算机视觉的手势跟踪理论 (5)

2.3基于计算机视觉的手势识别理论 (6)

2.3.1神经网络算法 (6)

2.3.2基于模板匹配的算法 (7)

2.3.3统计分析算法 (8)

2.3.4隐马尔可夫模型(HMM) (8)

2.4基于计算机视觉的手势跟踪与识别系统 (9)

3 手势图像预处理及特征提取 (9)

3.1手势图像预处理 (9)

3.1.1图像平滑 (10)

3.1 .2图像色彩空间转换 (11)

3.1 .3图像二值化 (12)

3.1 .4图像形态学处理 (13)

3.2手势图像特征提取 (14)

4 手势跟踪算法研究 (14)

4.1 Kalman跟踪算法 (14)

4.2 Camshift跟踪算法 (16)

4.2.1颜色概率模型 (16)

5 基于计算机视觉的手势跟踪与识别算法实验 (17)

5.2手势图像预处理及特征提取实验结果 (18)

5.2.1手势图像获取及手势样本库的建立 (18)

5.2 .2手势图像的预处理 (20)

5.2手势跟踪实验结果及分析 (21)

5.3实时手势识别实验结果及分析 (22)

5.3.1手势识别系统流程 (22)

5.4 手势跟踪与识别在人机交互中的应用 (22)

6 总结与展望 (24)

7 附录: (25)

7.1 程序重要部分代码 (25)

7.2 手势识别的视频 (29)

7.3 国内外生产手势识别软件的厂家 (29)

1 绪论

1.1手势识别研究的意义

在人机交互的发展过程中先后出现了基于文本方式的键盘、基于图形方式的鼠标等交互接,然而从某种程度上说,这些机械设备在人机交互方面是不方便和不和谐的。它把机器作为人机交互的中心,在人机交互时人需要去适应机器的输入输出设备,对机器没有主动控制的能力。随着计算机科学的快速发展,研究符合人类交流习惯的人机交互技术成为国内外关注的热点,这些研究包括人脸识别、面部表情识别、头部运动跟踪、眼睛识别、手势识别以及人体姿势识别等。总体来说,人机交互的研究已经从以计算机为中心转移到以人为中心,大大提高了人机交互的效率。

手势作为人类最自然的表达方式之一,在日常生活中得到了广泛的应用。手势生动、形象、直观,而且蕴涵着丰富的信息,是人与人沟通的重要媒介。目前基于手势的交互已经成为人机交互的重要内容。手势识别的应用前景十分广阔:(1)对于聋哑人而言,特别是文化程度比较低的聋哑人,使用手语和正常人交流更加方便和高效。手语是用手势表示意思的语言,对不熟悉手语的普通人来说,理解手语是非常困难的。如果有一套可以翻译手语的系统,则将大大方便聋哑人与正常人之间的交流;(2)利用手势对虚拟现实中的智能设备进行控制。比如在虚拟场景内利用手势实现虚拟钢琴的演奏,又如用机器人的虚拟手抓取物体等;(3)研究人类对于视觉语言的理解规律,提高计算机对人类语言的理解能力;(4)手势交互是虚拟现实中多通道接口的重要组成部分之一。

1.2手势识别国内外研究现状

根据外围设备采集手势图像方式的不同可以把手势识别分为两种:基于数据手套的手势识别和基于视觉的手势识别。

基于数据手套的手势识别是通过数据手套和位置跟踪来测量手势运动的轨迹和时序信息,其优点是系统的识别率高,缺点是输入设备昂贵,并且要求打手势的人穿戴复杂的数据手套,给人带来很多不便,因此这种方式不能成为未来发展的趋势。基于视觉的手势识别是计算机通过对摄像头拍摄的手势图像进行分析和处理提取出手的位置及形状。这种方法在实现时无需购买昂贵的设备,仅需要廉价的摄像头和低端处理能力的PC机即可。并且在操作时更加自然、方便,符合以人为本和自由性的要求,是手势识别未来发展的趋势。但是这种方法的识别效率比基于数据手套的手势识别低,而且能够识别的手势种类受到很大的限制,是目前亟待解决的问题。

国外很早就开始了对手势识别的研究工作。Huang创建的手语识别系统使用3D神经网络的方法识别了15个不同的手势。Stamert51等人使用隐马尔可夫模型(HMM)对输入视频序列中的美国手势中带有词性的40个词汇随机组成的句子进行了识别,其中HMM参数的估计采用的是EM算法。系统对分离单词的识别和由5个单词组成的句子(句子的结构限定为代词+动词+名词+形容词+代词)的识别分别进行了测试,识别正确率达90%。Zhu[6]使用主成分分析方法创建统计结构,从而识别活跃对象的形状,即模型化系统和弹性对象的识别。V ogler和MetaxastTl开发的手语理解系统通过固定在人身上的物理传感器和一个能够对手臂进行精确定位的摄像机来获取手臂位置信息。系统采用独立的语言模型对包括53个单词的

手语集进行了测试,识别率也达到90%。我国对手势识别的研究起步较晚,但近年来也取得了显著的成果。例如文献f81中使用神经网络方法和Hough变换对中国手语中的20种手势进行识别。在文献[91q丁采用基于表观的手势模型,提取八个手势特征组成特征向量,采用二次分类(粗分类和细分类)的方法对10个常用的静态手势进行识别。张秋余、姚开博等采用矩形特征描述手势,用改进的AdaBoost算法训练分类器,在复杂背景下对手势的跟踪与识别取得了不错的效果。中科院的单彩峰提出了结合均值漂移的粒子滤波(The Mean Shift Embedded Particle Filter,MSEPF),通过在时序模板中引入时空轨迹,提出了时序模板轨迹概念,将跟踪得到的手势运动轨迹压缩到单幅图像中,实现了对预先定义的动态手势的识别。山东大学的徐立群等提出了一种基于颜色概率模型并融合运动信息进行手势跟踪的新方法。利用肤色概率查找表将图像序列转换为肤色概率分布图,用运动信息和肤色概率分布对搜索窗口进行初始化,然后对肤色概率分布图进行迭代运算,得到手势的位置和大小,从而实现了对六种孤立手势的识别。

1.3基于视觉的手势跟踪与识别流程图

本课题的主要内容是研究基于计算机视觉的手势跟踪与识别。首先对手势跟踪与识别各个阶段的算法进行了分析,提出基于Hu矩特征和“一对多"径向基核函数支持向量机相结合的手势识别算法,并在Microsoft Visual C++6.0开发环境下,借助OpenCV开源库,实现了对从摄像头输入的10个常用手势的识别,以验证提出算法的可行性,并以此为基础建立了一个简单的手势交互系统。基于视觉的手势跟踪与识别流程图见图1-1。

图1-1 基于视觉的手势跟踪与识别流程图

2 基于计算机视觉的手势识别基础理论

在人与人的交际过程中,经常会用到手势,手势的语义强大并且直观,可以很好地表达思想,与自然语言形成互补。所以近些年来,手势识别的研究得到了很大的关注和发展。本章主要介绍基于视觉的手势识别的一些基础理论。

2.1模式识别概述

模式识别诞生于20世纪20年代,随着40年代计算机的出现,50年代人工智能的兴起,模式识别在60年代初迅速发展成--f]学科1131。它所研究的理论和方法在很多科学和技术领

域中得到了广泛的重视,推动了人工智能的发展,扩大了计算机应用的可能性。几十年来,模式识别研究取得了大量的成果,在很多方面都得到了广泛的应用。但是,由于模式识别涉及到很多复杂的问题,现有的理论和方法对于解决这些问题还有很多不足之处。

通常,我们把通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息称为模式,把各模式所属的类别称为模式类。模式识别是对表征事物或者现象的各种形式的信息进行分析和处理,来实现对事物或现象进行描述、辨认、分类和解释,是信息科学和人工智能的重要组成部分。人们为了掌握客观事物,就将事物按照相似度组成类别。模式识别的作用和目的就在于面对某一具体事物时将其J下确的归入某一类别。

有两种基本的模式识别方法,即统计模式识别方法和结构模式识别方法。与此相应的模式识别系统都由两个过程组成,即设计与实现。设计是指用一定数量的样本(叫做训练集或学习集)进行分类器的设计。实现是指用所设计的分类器对待识别的样本进行分类决策。基于统计方法的模式识别主要由4个部分组成:数据获取、预处理、特征提取和选择、分类决策,如图2-1所示。

图2-1 模式识别系统的基本构成

1.数据获取

为了使计算机能够对各种现象进行分类识别,要用计算机可以运算的符号来表示所研究的对象。通常输入对象的信息有一维波形、物理参量和逻辑值、二维图像3种类型,通过测量、采样和量化,可以用矩阵或向量表示二维图像或一维波形。这就是数据获取的过程。2.预处理

预处理的目的是去除噪声,加强有用的信息,并对输入测量仪器或其他因素所造成的退化现象进行复原。

3.特征提取

由图像或波形所获得的数据量是相当大的。例如,一个文字图像可以有几千个数据,一个心电图波形也可能有几千个数据。为了有效地实现分类识别,就要对原始数据进行变换,得到最能反映分类本质的特征。这就是特征提取和选择的过程。一般我们把原始数据组成的空间叫测量空间,把分类识别赖以进行的空间叫做特征空间,通过变换,可把在维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式。

4.分类决策

分类决策就是在特征空间中用统计方法把被识别对象归为某一类别。基本做法是在样本训练集基础上确定某个判决规则,使按这种判决规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小。

2.2基于计算机视觉的手势跟踪理论

手势分割与跟踪是手势识别的基础,其好坏将影响识别率的大小。手势分割的方法大体分为三种:基于运动信息的、基于运动模板的和基于颜色信息的。

基于运动信息的手势分割是通过对前后两帧图像做差分运算来检测手势的,当手势运动时则图像发生变化。运动估计的依据是图像强度发生变化,用图像序列中相邻图像的差来表示强度的变化。图像差运算非常简单,这是由于在图像差运算中仅仅涉及到了像素强度的相减。在实际的手势识别系统中,摄像机的位置是固定的,对手势序列中相邻两帧图像做差分运算便能有效地保留运动的部分(即手势),滤除图像中保持不变的背景区域。

基于运动模板的手势分割是用模板匹配方法寻找运动的手势,一般把二维可变形模板作为插值节点去近似物体轮廓。模板由平均点集合、点可变性参数和外部变形构成,平均点集合描述的是某一组形状的平均形状,点可变性参数描述的是可变形模板的全局运动。通常用基于可变形模板的人手模型来跟踪人手。二维模板实现简单,但对手的姿念有一定限制。三维模板则不受手的姿态的限制,但其参数过多使得实现困难。

基于颜色信息的分割在图像分割中占有重要地位。颜色分割与其他两种方法相比,具有高效性和鲁棒性等特点,得到了广泛的应用。但是在复杂背景的情况下或者光照变化快时,基于颜色的分割效果不好,为了解决这个问题,目前众多研究者尝试利用融合多种信息的技术进行手势分割。国内外对手势跟踪的研究很多,例如利用粒子滤波(Particle Filter)对手势跟踪获得了较好的效果。Camshift[巧J(ContinuouslyAdaptive Mean Shift)是一种基于颜色概率模型的跟踪算法,它是Mean Shift算法的改进与扩展,可以处理动态变化的分布。当视频序列一帧一帧变化时,Camshift能够自动调节搜索窗的大小和位置,定位被跟踪目标的中心和大小,并且用当前帧定位的结果来预测下一帧图像中目标的中心和大小,每帧图像都这样处理,就形成了连续的跟踪。

2.3基于计算机视觉的手势识别理论

基于视觉的手势识别可以分为基于单目视觉的手势识别和基于多目视觉的手势识别。基于单目视觉的手势识别就是通过单个摄像机来采集手势图像,从而建立平面手势模型。这种方法处理的数据量较小,识别速度快,但是对于用户手势的输入限制较大。基于多目视觉的手势识别是通过两个或两个以上的摄像机来采集图像,建立的是立体模型。这种方法对于用户手势的输入限制较小,可以实现更加自然的人机交互,但由于立体模型的复杂性,需要处理大量的数据,识别时间长,无法实现实时的识别。

基于视觉的手势识别算法可分为神经网络算法、模板匹配,统计分析算法、和隐马尔可夫模型(Hidden Markov Model HMM)等。

2.3.1神经网络算法

对人工神经网络的研究早在20世纪40年代就已经开始了。有人以包含0-1和1-0变化的随机模型作为模型化神经系统的基础。到了50年代中期和60年代初期,人们已设计出称为感知机(perceptrons)的学习机器,引起了模式识别理论界人士的重视。80年代中期提出的对多层感知机的新训练算法(称为以反扩散学习的广义德尔塔(Delta)规则)是非常有效的。广义德尔塔规则在许多实际问题中得到了成功的应用,使得多层感知机类机器成为目自玎使用神经网络的主要模型之一。

神经网络是指利用工程技术手段模拟人脑神经网络的结构和功能的一种技术,其目的是使机器具有人脑那样的感知、学习和推理功能。神经网络方法在手势识别领域得到了广泛的使用。它对信息处理具有自组织、自学习等特点,有较强的抗干扰能力。它是由许多具有非线性映射能力的神经元组成的一种大规模并行处理网络,神经元之间通过权相连。文献

『16]qb M .Yeasin 采用了TDNN(TimeDelay Neutral Network 时延神经网络)的手势识别技术。

BP 神经网络模型实现了多层网络学习的设想。它是一种单向传播的多层前向神经网络,除输入输出节点外还有一层或多层隐层节点,同层节点之I 、日J 没有耦合,输入信号从输入层节点依次传过各层节点,最后到达输出层节点。每一层节点的输出只影响下一层节点的输出。BP 神经网络结构分三层:输入层、隐含层和输出层。图2-2是一个三层前馈神经网络模型,输入层、中间隐含层和输出层的神经元个数分别为5、50和9。

图2-2 三层前馈神经网络模型

BP 网络学习是典型的有导师学习。训练集包含M 个样本,对第P 个训练样本(P=1,2,…,M),单元/的实际输出为郇.,,它的第i 个输入(也即第i 个神经元的输入)为pi O ,则:

∑==N i pi ji

pi O W u 0 (2-1)

BP 算法中大多选用S 型函数作为输出函数,即:

)

exp(11)(pj pj pi u u f O -+== (2-2) 2.3.2基于模板匹配的算法

模板匹配算法就是将输入的原始数据与预先存储的模板进行匹配,通过测量两个模板之间的相似度进行识别。模板匹配的方法多用于静态手势识别中,如Cui Yuntao 通过计算模板的相关系数来进行预测匹配。文献f181中张良国、吴江琴、高文等人首先改进了Hausdorff 距离,接下来通过比较预处理后的输入图像的Hausdorff 距离和标准模板库中各种图像的Hausdorff 距离进行判断。

Hausdorff 距离是描述两组点集之间相似程度的一种量度,它是两个点集之间距离的一种定义形式【191:假设有两组集合A={p a a a ...,,21},B={q b b b ...,,21 },则这两个点集之上的Hausdorff 距离定义为:

)),(),,(max(

),(A B h B A h B A H = (2-3)

b a B A h B

b A a -=∈∈min max ),( (2-4) a b A B h A

a B

b -=∈∈min max ),( (2-5) ?是点集A 和点集B 间的距离范式

这里,式(2-3)称为双向Hausdorff 距离,是Hausdorff 距离的最基本形式;式(2-4)(2-5)中的h(A ,B)和h(B ,A)分别称为从A 集合到B 集合和从B 集合到A 集合的单向Hausdorff 距离。即h(A ,B)实际上首先对点集A 中的每个点i a 到距离此点最近的B 集中点b ,之间的距离j i b a -进行排序,然后取该距离中的最大值作为h(A ,B)的值,h(B ,A)同理可得。 由式(2-3)知,双向Hausdorff 距离H(A, B)是单向距离h(A ,B)和h(B ,A)两者中的较大者,它度量了两个点集之间的最大不匹配程度。

2.3.3统计分析算法

统计分类算法是在模式识别发展的过程中建立的经典方法,它用概率统计模型得到各类别的特征向量分布,以达到分类的目的。统计分类算法是一种监督学习的模式识别方法。如何将分类器设计得更有效,识别率更高,是需要重点解决的问题。当几个类别的样本在特征空间的分布符合一定的拓扑结构,并且我们知道各个类别的概率分布函数时,我们就可以利用统计分类方法进行模式识别。常用的统计分类方法有很多,例如‘'by .product ”方法、决策树和决策表方法等。

模式的统计分类方法,又称为决策理论识别方法,它是将各模式类别看成是用某个随机向量实现的集合。属于同一类别的各个模式之间的差异,有些是由环境噪声和传感器的因素引起的,有些是模式本身所具有的随机性质引起的。在通常情况下,不同类别的两个模式之间的距离要大于同一类别的两个模式之间的距离,这样就可以将特征空间准确的划分为几个区域,其中各个区域同各个类别是一一对应的。若不满足上述条件,则对每个特征向量估计其属于某一类的概率,概率值最大的类就是该点所属的类别。统计分类方法常用的分类器主要有贝叶斯分类器、线性判别函数、树分类器、最小距离分类、近邻法分类、聚类分析等。

2.3.4隐马尔可夫模型(HMM)

在给定前一个状态的情况下,随机变量序列的下一个状态的出现是条件独立的。每一个时刻的随机变量有一个度量值,这个度量值的分布与该时刻的状态有关。这样的模型称为隐马尔可夫模型(HMM)。隐马尔可夫模型是在Markov 链的基础之上发展起来的。实际问题比马尔可夫链所描述的更为复杂,观察到的事件并不是与状态一一对应的,而是通过一组概率分布相联系的。它是一个双重随机过程:一是描述状态转移的马尔可夫链是基本随机过程;另一个是描述状态和观察值之间的统计对应关系是随机过程。基于以上原因观察者只能看到观察值不能直接看到状态,即让观察者通过一个随机过程去感知状态的情况,所以称之为“隐”Markov 模型。如图2-3为隐马尔可夫模型组成的示意图。HMM 作为信号的一种统计模型,已经在语音信号处理领域得到了广泛应用,近年来很多研究者也将HMM 用于手语识别领域。但是应用于手势识别时有很多约束。首先,动态手势信号不满足马尔可夫性质,也就是说随机向量当前的状态只与前一状态有关;其次,仅用隐马尔可夫模型对手势建模远远

不够,会导致隐马尔可夫模型将许多信号作为噪声处理。

图2-3:隐马尔可夫模型组成

2.4基于计算机视觉的手势跟踪与识别系统

计算机视觉研究就是计算机通过对一幅或多幅图像进行分析,从中获取三维世界的运动信息或者集合特征,例如物体的位置、形状、姿态运动等信息,接下来对这些信息进行分析、处理,以达到认识三维世界的目的。计算机视觉作为一门新兴的学科,正在受到越来越多的关注。视觉运动分析方法因具有适用范围广、抗电子干扰能力强、测量精度高和保密性好等优点,在军事、导航、机器人技术、气象分析、医疗诊断、交通管制、安全防范等领域得到了广泛的应用。

手势作为人类最自然的表达方式之一,在日常生活中得到了广泛的应用。同时,手势具有适应性强、形象生动及简便易行等特点,比较适合在非特定环境下对机器人的控制。通常一个完整的手势跟踪与识别系统,分为以下几个部分:

(1)手势的检测与跟踪:手势的检测与跟踪是手势识别的基础,其好坏将影响识别率的大小。手势分割的方法大体分为三种:基于运动信息的、基于运动模板的和基于颜色信息的。国内外对手势跟踪也做了大量研究,常用的有卡尔曼滤波(Kalmall Filter)、粒子滤波(Particle Filter)等跟踪方法。

(2)静态手势识别:静态手势识别是指对于静态图片中手的形状和手的姿势进行识别。国内外对静态手势识别做了大量研究。例如文献f81中提出了一种使用神经网络方法和Hough变换对中国手语中的20种手势进行识别。在文献『91中采用基于表观的手势模型,提取八个手势特征组成特征向量,采用二次分类(粗分类和细分类)的方法对10个常用的静态手势进行识别。(3)动态手势识别:动态手势识别是对连续的手势序列进行实时的跟踪,通过对跟踪到的手势运动的时空轨迹(spatial.temporal trajectory)或手势状态轨迹(state trajectory)进行处理,以识别摆手等动态手势。

3 手势图像预处理及特征提取

手势图像的预处理和特征提取是下一步要进行的手势跟踪与识别的前提,其质量的好坏既关系到手势的识别率,又关系到所建立的人机交互系统的整体性能。本章针对图像采集时所遇到的光照变化、旋转、平移等不确定因素,对手势图像的预处理和特征提取进行了分析。

3.1手势图像预处理

在手势图像的预处理阶段,为了得到理想的分割效果,本文对采集到的手势图像采用了图像平滑、色彩空间转换、图像二值化以及形态学处理等算法以得到准确的手势二值化图像。

3.1.1图像平滑

图像平滑的目的是为了消除噪声。图像噪声的来源有三种:一是在光电、电磁转换过程中引入的人为噪声;二是大气层电(磁)暴、闪电、电压、浪涌等引起的强脉冲性冲激噪声;三是自然起伏性噪声,由物理量的不连续性或粒子性引起,这类噪声又可分为热噪声、散粒噪声等。消除噪声的方法又可以分为空间域方法或频率域方法,亦可以分为全局处理方法或局部处理方法等。

1.邻域平均法

邻域平均法I 刎是简单的空域处理方法。这种方法的基本思想是用几个像素灰度的平均值来代替每个像素的灰度。假定有一幅NXN 个像素的图像),(y x f ,平滑处理后得到一幅图像),(y x g 。),(y x g 由下式决定:

∑∈=S n m n m f M y x g ),(),(1

),( (3-1)

式中,1,...,1,0,-=N y x S 是点伍纠所在领域的中点的坐标集合,但不包括),(y x 点;M 是集合内坐标点的总数。式(3.1)说明,平滑后的图像中),(y x g 每个像素的灰度值,均由似一邻域中包含的像素灰度值的平均值来决定。

2.中值滤波法

中值滤波【211是一种非线性滤波,由于它在实际运算过程中并不需要图像的统计特性,所以比较方便。中值滤波首先是被应用到一维信号处理技术中,后来被二维图像信号处理技术所引用。在一定的条件下,它可以克服线性滤波器所带来的图像细节模糊,而且对滤除脉冲干扰及图像扫描噪声最为有效。但是对一些细节,特别是点、线、尖顶细节多的图像不宜采用中值滤波的方法。

3.频域平滑技术

图像的平滑既能够在空域中进行,又能够在频域中进行。频域平滑技术是一维信号低通滤波器在二维图像中的推广。对于一幅图像,它的边缘、跳跃部分以及噪声都代表图像的高频分量,而大面积的背景区和变化缓慢的部分则代表图像的低频分量,用频域低通滤波器除去其高频分量就能去掉噪声,从而使图像得到平滑。

滤波器的数学表达式为:

),(),(),(v u F v u H v u G ?= (3-2) 其中F(u ,D 为原图像的傅立叶变换,),(v u G 为平滑后图像的傅立叶变换,),(v u H 是滤波器的转移函数。常用的低通滤波器有:

(1)理想低通滤波器

一个理想低通滤波器的传递函数为:

{

D v)D (u, 1 D v)D (u, 000),(≤>=v u H (3-3)

其中D 。为截止频率,()2122),(v u v u D +=是点(u ,v )到频率平面原点的距离。理

想低通滤波器在处理过程中会产生比较严重的模糊和“振铃”现象,这是由于H(u, v)在D 。处由1突变到0,这种理想的H(u, v ),D 对应的冲激响应h(u, v)在空域中表现为同心环的形式,并且此同心环数与D 。成反比,D 。小,同心环数越多,模糊程度越厉害。正是由于理想低通滤波存在“振铃"现象,其平滑效果才下降。

(2)巴特沃斯滤波器

一个巴特沃斯滤波器的传递函数为:

n D v u D v u H 20),(11

),(??????+= (3-4)

其中D 。为截止频率,当D(u, v)= D 。时,H(u ,v)降为最大值的1/2。,n 为阶数,取正整数,阶数刀控制曲线的形状。由于转移特性曲线较为平滑,没有振铃效应,故图像的模糊将减少。

(3)指数型滤波器

一个指数形滤波器的传递函数为:

)]),([exp(),(0

n D v u D v u H -= (3-5) 其中Do 为截止频率,n 为阶数,当D(u, v)= D 。时,H(u ,v)降为最大值的l /e 。用指数形滤波器滤波后的图像比用巴特沃斯滤波器滤波后的图像模糊一些,但没有振铃效应。

图3-1(a)(b)(c)(d)分别是原图像、加椒盐噪声的图像、中值滤波效果图以及3×3邻域滤波效果图。可见,用中值滤波的方法进行图像的平滑处理效果比较理想,因此本文在手势预处理中采用中值滤波法对图像进行平滑。

图3-1 图像平滑效果

3.1 .2图像色彩空间转换

计算机色彩理论认为,一种颜色在计算机中有多种不同的表达方式,从而形成了各种不同的色彩空间。事实上,各种色彩空间只不过是颜色在计算机内不同的表达形式而已,每一种色彩空『自J 都有它各自的应用领域、产生背景等。下面我们分析几种常用的色彩空间:

1.HSI 模式

HSI 模式的定义是以人眼对色彩的观察为依据的,在HSI 模式中,每种颜色都用色度、饱和度、亮度三个特征来表示。色度H 与波长有关,例如,不同波长的可见光具有不同的颜色。波长不同的光以不同比例混合能够形成各种各样的颜色。饱和度S 指颜色的强度,表示在色调中灰色成分所占的比例,用0%一100%(纯色)表示。亮度I 表示颜色的相对明暗程度,通常用0%(黑)一100%(白)来度量。

将RGB 转换为HSI 所用的变换为:

{G B G B 360≤>-=若若θθH (3-6)

其中:

(3-7)

3.1 .3图像二值化

图像的二值化就是指把多灰度级的图像变成只有两个灰度级的图像。把其中感兴趣的目标像素作为前景像素,其余部分作为背景像素。设图像),(y x f 的灰度值范围在[a,b],二值化的闽值设为t(b t a ≤≤),则图像一值化的一般表达式为:

{t

y)f(x, 1t y)f(x, 0),(≥<=y x g (3-8)

得到的),(y x g 就是二值图像,阈值t 不同,得到的二值图像),(y x g 也是不同的。因此要达到理想的分割效果,选择合适的闽值t 是至关重要的。图像二值化方法大致分为三种:整体闽值二值化、局部闽值二值化以及动态闽值二值化。仅由像素点),(j i 的灰度值),(j i f 确定阈值的方法称为整体阈值选择法。由像素点),(j i 的灰度值),(j i f 和像素周围点局部灰度特性确定阈值的方法称为局部闽值选择法。当闽值选择不仅取决于该像素阈值以及其周围各像素的灰度值,而且还与该像素坐标位置有关时,称之为动态闽值选择法。

1.模式法

模式法是指当扶度直方图具有双峰性的时候,目标物体和背景的扶度分别在两个山峰的附近,则将山谷的中心点作为模式法的闽值。但是,实际得到的灰度直方图不平杆,存在由于小的凹凸而产生的局部极小值,这样给自动判断造成诸多不便。针对这种情况,可以先对放度直方图进行平滑处理,再确定闽值。这样做会产生一些噪声,但对判断结果的影响不大。

2.动态阈值法

当光照不均匀时,用确定闽值二值化方法分割效果不理想。在这种情况下,我们可以用动志闽值法解决。把图像分成若干个予区域,对每一个子区域计算其灰度直方图。如果在子区域中同时存在背景和目标物体,那么其获度直方图呈双峰,这时可再用模式法等进行二值化处理。这种情况下,每个子区域一般都不相同,这种二值化方法称为可变阐值法。

3.最大类间方差法

最大类间方差法是通过使两组像素的组内方差最小来确定阈值的方法。首先定义直方图函数为概率函数P ,其中)(),...0(I p p 表示灰度值0,…,I 的直方图概率,

(){}C R i c r image c r i p ?==/),(,)(,其中RxC 是图像的空间区域。如果灰度直方图是双模式的,则通过灰度直方图求闽值就是确定最佳阐值t ,利用阙值t 把两种模式分开。根据阈值t ,可以确定灰度值小于或者等于t 的像素集的方差以及灰度值大于t 的像素值的方差。晟大类间方差法的最佳阈值是使组内方差的加权和最小的阈值,其中权分别代表各组概率。组内均衡性的测度是方差,则均衡性高的具有较低的方差,均衡性低的具有较高的方差。

本文用晟大类间方差法(Otsu)对手势图像做二值化处理。图3-3所示,(a)(b)(c)分别是Y 通道图像、cb 通道图像以及。通道图像的二值化效果图。Y 通道二值化图像也就是直接荻度化的效果,与西通道以及cr 通道的二值化图像相比,分割效果不佳,因此,本文采用虽大类问方差法对手势。通道图像进行二值化处理。

图3-3 Y 通道、cb 通道和cr 通道二值化图像

3.1 .4图像形态学处理

由于噪声的影响,使手势图像的分割效果不太理想。我们再采用形态学处理方法获得比较理想的手势分割效果。形态学处理的基本运算有膨胀、腐蚀、开运算和闭运算。

(1)膨胀:用结构元S 对二值图像进行膨胀运算表示为B ⊕S ,定义如下:

B ⊕S b B

b S ∈= (3-9) 用结构元S 扫描整幅图像。初始化输出图像的像素值为0,一旦结构元S 的原点遇N---值图像B 中值为1的像素时,结构元整体形状就与输出图像进行逻辑“或”运算。

(2)腐蚀:用结构元S 对二值图像曰进行腐蚀运算表示为B ΘS ,定义如下:

B ΘS={S s B s b b ∈?∈+|} (3-10)

腐蚀运算也是用结构元扫描整幅图像。针对二值图像上的每一个像素点,如果结构元上每一个值为1的像素都覆盖着二值图像上一个值为1的像素,则将二值图像B 上与结构元原点对应的像素与输出图像对应点进行逻辑“或"运算。

(3)闭运算:用结构元S 对二值图像曰进行的闭运算表示为B ·S ,定义:

B ·s=(B ⊕S) ΘS (3-11)

先膨胀后腐蚀的过程就称为闭运算。闭运算能够填充物体内细小空洞,连接邻近物体以及平滑边界。

(4)开运算:用结构元S 对二值图像B 进行的开运算表示为B 。S ,定义:

B 。S=(B ΘS) ⊕S (3-12)

先腐蚀后膨胀的过程称为开运算。开运算具有消除细小物体,在纤细处分离物体和平滑较大物体边界的作用。

本文利用Otsu 分割方法得到的图像还存在噪声,如图3-4(a)所示,二值化后的手势图手指区域分割并不完全,这会导致后续特征值的计算产生一定的偏差从而影响最终的手势识

别结果,所以我们把分割得到的图像先进行膨胀运算,如图3-4(b)所示,去掉分割不理想导致的小的“孔洞”;再进行腐蚀运算得到图像3-4(c)。

图3-4 手势图像形态学处理效果图

3.2手势图像特征提取

图像识别是根据图像特征进行的,显然这些特征的选择非常重要,它严重影响到图像识别分类器的设计、特性及识别结果的准确性。如果特征选择错误,就不能准确分类,甚至无法分类。所以特征选择是图像识别的一个关键问题。因为实际问题中很难找到那些最关键的特征,或者某些图像的特征会随着环境的变化而变化,这就使得特征的选择和提取更加复杂化。

如何从众多特征中找出那些最有效最关键的特征是特征选择和提取的基本任务。当样本数量不是很多时,需要用很多特征进行分类器的设计,而从计算复杂度和分类器的性能来看都是不合适的。根据待识别图像的特征,通过计算产生原始特征,称为特征形成。原始特征的量很大,或者说图像样本是处在一个高维空间中,通过映射降低维数,用低维空间来表示样本,即特征提取。而映射后得到的特征是原始特征的一种组合。特征提取在广义上是指一种变换。从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,叫特征的选择。良好的特征应具有可靠性、可区别性、数量少以及独立性等特点。在描述图像时,可以针对图像的特点采取多种不同的描述方法。每一种描述方法都有其优点、缺点,且不存在通用的方法或者最优方法。

4 手势跟踪算法研究

视频序列中运动物体的跟踪是计算机视觉中的一个重要研究课题。物体的跟踪可以理解为确定其在视频序列不同帧中相对位置的动态过程。视频是由一系列时间上连续的图像组成,它们具有逻辑上的相对次序关系。视频序列提供了比单帧图像更丰富的目标信息,我们通过对其进行分析能够更好地研究运动物体的跟踪过程。

4.1 Kalman跟踪算法

卡尔曼滤波是在分析已提取信号相关信息的基础上通过特定算法估计出所需信号。其中已提取的信号是由白噪声引起的随机响应,并且系统的状态转换方程和测量方程已知,其中状态转换方程描述的是激励源与响应之间的状态传递结构,而测量方程则表示量测量与被估

三种简单手势识别

简单手势识别

一、背景 随着计算机的发展,人机交互技术由传统的鼠标键盘时代发展到了以语音输入、动作识别等技术为代表的自然交互时代n1。特别是视觉计算技术的发展,使计算机获得了初步视觉感知的能力,能“看懂”用户的动作。手势识别作为一种直观自然的输入方式,把人们从传统接触性的输入装置中解放出来,可以以一种更自然的方式与计算机交互,使计算机界面变得更加易‘引。 手势主要分为静态手势和动态手势两种,动态手势可以看作是连续的静态手势序列。动态手势具有丰富和直观的表达能力,与静态手势结合在一起,能创造出更丰富的语义。利用动态手势识别构建新型的交互界面,是新一代的人机交互界面对输入方式自然性的要求,可以弥补传统交互方式的不足。基于视觉和手势识别研究正处于蓬勃发展的阶段,仍存着的许多值得研究的问题。研究基于视觉的动态手势识别对于构建更加好友的人机交互界面很有意义。

二、手势识别概述 2.1、手势识别的概念 手势是姿势的一个子集,姿势这个概念没有精确的定义。一般认为,手势概念经过人的手转化为的手势动作,观察者看到的是手势动作的图像。手势的产生过程如图2-1所示。 图2-1 手势的产生过程 手势识别的过程则找一个从图像V到概念动作G的变换而,如图2-2所示。

2.2、手势识别流程 随着计算机的发展,人机交互技术由传统的鼠标键盘时代发展到了以语音输入、动作识别等技术为代表的自然交互时代n1。特别是视觉计算技术的发展,使计算机获得了初步视觉感知的能力,能“看懂”用户的动作。手势识别作为一种直观自然的输入方式,把人们从传统接触性的输入装置中解放出来,可以以一种更自然的方式与计算机交互,使计算机界面变得更加容易。 手势主要分为静态手势和动态手势两种,动态手势可以看作是连续的静态手势序列。动态手势具有丰富和直观的表达能力,与静态手势结合在一起,能创造出更丰富的语义。利用动态手势识别构建新型的交互界面,是新一代的人机交互界面对输入方式自然性的要求,可以弥补传统交互方式的不足。基于视觉和手势识别研究正处于蓬勃发展的阶段,仍存着的许多值得研究的问题。研究基于视觉的动态手势识别对于构建更加好友的人机交互界面很有意义。

手势识别技术综述

手势识别技术综述 作者单位:河北工业大学计算机科学与软件学院 内容摘要: 手势识别是属于计算机科学与语言学的一个将人类手势通过数学算法针对人们所要表达的意思进行分析、判断并整合的交互技术。一般来说,手势识别技术并非针对单纯的手势,还可以对其他肢体动作进行识别,比如头部、胳臂等。

但是这其中手势占大多数。本文通过对手势识别的发展过程、使用工具、目的与市场等进行综述,梳理出手势识别发展的思路,让读者对手势识别有一个总体上的认识,同时也可以让读者在此基础上进行合理想象,对手势识别的未来有一个大体印象。 Abstract: Gesture recognition is an interactive technology using mathematical arithmetic to the analysis,judge and assembly meaning that people want to convey which belongs to computer science and Linguistics.In general, gesture recognition technology is not for simple gestures expressed by hands ,it can also aim to other body movement recognition, such as the head, arm and so on. But the gesture accounted for most of the analysis. In this paper, by describing the development process, tools used , objective and market of gesture recognition , we can sort out the ideas of the development of gesture recognition, and let readers have an overall understanding of gesture recognition. At the same time, it can let the reader imagine that on hand gesture recognition based on reason ,and have a general impression of its future. 1.定义 说到手势识别,首先要对手势识别中的手势有一个清晰的认知。手势在不同的学科中有不同含义,而在交互设计方面,手势与依赖鼠标、键盘等进行操控的区别是显而易见的,那就是手势是人们更乐意接受的、舒适而受交互设备限制小的方式,而且手势可供挖掘的信息远比依赖键盘鼠标的交互模式多。在学术界,人们试图对手势定义一个抽象、明确而简洁的概念以为手势及其应用的研究提供依据。1990年Eric Hulteen和Gord Kurtenbach曾发表的题为“Gestures in Human-Computer Communication”中定义:“手势为身体运动的一部分,它包括一部分信息,而且是一种能被观察到的有意义的运动。挥手道别是一种手势,而敲击键盘不是一种手势,因为手指的运动没有被观察,也不重要,它只表示键盘

计算机视觉课程设计1

燕山大学 课程设计说明书题目:基于矩形物体的旋转角度测量 学院(系)电气工程学院 年级专业: 学号: 1301030200 1301030200 学生姓名: 指导教师: 教师职称:讲师 燕山大学课程设计(论文)任务书

院(系):电气工程学院基层教学单位:仪器科学与工程系 说明:此表一式四份,学生、指导教师、基层教学单位、系部各一份。 2016年 12 月 22 日燕山大学课程设计评审意见表

摘要 本文主要研究对矩形物体旋转角度的测量,并且比较每种方法的处理速度。通过对图像的滤波、二值化、边框的识别等等操作,完成对矩形物体的角度测量。本文采用五种方法分别对同一个矩形物体进行旋转角度测量,并比较其处理时间。五种方式分别为,边缘直线角度测量、对角线角度测量、矩形内部标准角度测量、角点边缘角度测量、垂线角度测量。 关键词:图像处理二值化旋转角测量定位识别

目录 第一章矩形物体的识别 (1) 1、图像滤波 (1) 2、图像的边缘检测 (2) 3、图像的二值化处理 (3) 4、图像的区域选择及处理 (4) 第二章旋转角度的测量 (6) 1、边缘直线角度测量 (6) 2、对角线角度测量 (8) 3、矩形内部标准角度测量 (9) 4、角点边缘角度测量 (10) 5、垂线角度测量 (11) 第三章算法时间的比较 (15) 参考文献 (16) 附录一 (17) 1、边缘直线角度测量程序 (17) 2、对角线角度测量程序 (17) 3、矩形内部标准角度测量程序 (18) 4、角点边缘角度测量程序 (19) 5、二值化-垂线角度测量程序 (23) 6、Soble-垂线角度测量程序 (24) 附录二 (26)

基于压缩感知的实时手势检测和跟踪算法

Computer Engineering and Applications 计算机工程与应用 2016,52(20)1引言随着计算机视觉技术的不断发展,计算机视觉领域的研究成果得到了快速的应用和推广,使得基于计算机视觉的手势识别与跟踪技术越来越受到广泛关注,也将成为未来人机交互发展的主要方向。手势识别技术是由计算机通过视频输入设备,对使 用者的手势进行检测、分析与识别,进而输出预先设定结果的一种计算机交互技术。这种利用手势来实现人机交互的模式摒弃了对鼠标、键盘等硬件输入设备的依赖,是一种更自然、更和谐的人机交互方法。手势作为基于压缩感知的实时手势检测和跟踪算法 严权峰1,2,王岳斌1,白天1,沈燕飞3 YAN Quanfeng 1,2,WANG Yuebin 1,BAI Tian 1,SHEN Yanfei 3 1.湖南理工学院计算机学院,湖南岳阳414006 2.湖南大学计算机与通信学院,长沙410082 3.中国科学院计算技术研究所普适计算中心,北京100190 1.College of Computer Science,Hunan Institute of Science and Technology,Yueyang,Hunan 414006,China 2.College of Computer and Communication,Hunan University,Changsha 410082,China 3.Center for Pervasive Computing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China YAN Quanfeng,WANG Yuebin,BAI Tian,et al.Real-time gesture detection and tracking algorithm based on com-pressive https://www.doczj.com/doc/cf13729521.html,puter Engineering and Applications,2016,52(20):182-187. Abstract :Real-time detection and tracking of gesture based on computer vision is key technology in the human-computer interaction,many algorithms for detection and tracking of gesture have been investigated in recent decades,which consisted of detection and tracking algorithm as two independent modules.These algorithms are not applicable because they are easily impacted by the gesture posture,object occlusion,motion blur and external environment etc.In this paper,a novel algorithm for detection and tracking of gesture is proposed based on real time gesture detection and tracking,the main advantage compared with the traditional algorithm is that this proposed algorithm effectively fuses the results from detection and tracking modules.The proposed algorithm can initialize the gesture automatically and can recover by itself when the gesture is dropped.Experimental results show that the proposed algorithm can achieve rapid,accurate and continuous recognition of the gesture motion and meet the requirements of the human-computer interaction. Key words :compressive sensing;gesture detection;gesture tracking 摘要:基于计算机视觉的实时手势检测与跟踪算法是人机交互领域的一项关键技术,传统的手势检测与跟踪算法将检测和跟踪分成两个独立的模块进行,检测与跟踪结果受手势姿态变化、目标遮挡、运动模糊以及外界环境干扰等因素的影响。提出了一种基于压缩感知的实时手势检测和跟踪算法,将基于检测得到的手势信息与基于压缩感知跟踪算法得到的目标信息进行有效融合,从而实现有效的手势检测与跟踪,与传统算法相比,该算法能实现手势跟踪自动初始化和跟踪错误后自我恢复功能。实验结果表明,提出的算法能对手势运动进行快速、连续、准确的识别,满足人机交互的要求。 关键词:压缩感知;手势识别;手势跟踪 文献标志码:A 中图分类号:TP391.41doi :10.3778/j.issn.1002-8331.1512-0207 基金项目:国家自然科学基金面上项目(No.61471343)。 作者简介:严权峰(1974—),男,副教授,研究领域为数字图像处理与机器视觉;王岳斌(1963—),教授,研究领域为数字信号处 理;白天(1983—),博士,讲师,主要研究方向为并行算法设计;沈燕飞(1976—),副研究员,研究方向为数字图像处理、多媒体通信以及计算机视觉。 收稿日期:2015-12-17修回日期:2016-05-18文章编号:1002-8331(2016)20-0182-06 182万方数据

基于手势识别的智能电视交互专利技术综述

基于手势识别的智能电视交互专利技术综述 智能电视具有操作系统,支持第三方应用资源实现功能扩展,支持多网络接入功能,具备人机交互、与其他智能设备进行交互等。随着计算机视觉的发展和人机交互的需要,手势识别研究取得了蓬勃的发展,通过手势识别对智能电视进行控制和操作,能够更轻松、高效地使用电视设备。文章利用专利数据库对智能电视手势识别技术进行了数据统计和分析,对该领域的专利申请趋势等情况做了归纳总结。 标签:智能电视;手势识别;发展状况;专利 Abstract:Intelligent TV has the operating system,which supports the third party application resources to realize the function expansion,supports the multi-network access function,has the man-machine interaction,and carries on the interaction with other intelligent devices. With the development of computer vision and the need of human-computer interaction,the research of gesture recognition has made great progress. By controlling and operating intelligent TV through gesture recognition,one can more easily and more efficiently use TV equipment. This paper makes use of patent database to analyze the data of intelligent TV gesture recognition technology,and summarizes the trend of patent application in this field. Keywords:intelligent TV;gesture recognition;development status;patent 引言 电视是家庭娱乐休闲必不可少的家用电器。如今,电视依然是最为普及的信息传播载体,用户在观看普通节目的同时,还可以上网、娱乐等。从用户的角度出发,通过自然简单、人性化的方式完成交互,无疑是用户完成电视操作的最佳方式。而手势具有直观、自然、丰富的特点,是一种符合人们日常习惯的交互手段,是表達信息和特定意图的良好载体,由于手势具有上述特性,因此在对智能电视进行操控中得到了良好的运用,实现了对智能电视自然灵活地操作。 1 基于手势识别的智能电视控制技术发展状态分析 1.1 技术分解 本文通过检索获得的专利申请进行统计分析,对基于手势识别的智能电视控制所涉及的具体技术和应用领域进行分解。 根据手势采集设备可以将手势识别系统大致分为基于数据手套和基于视觉的两种手势识别系统。其中,数据手套通过多个传感器反馈各关节的数据,并通过位置跟踪器返回人手所在的三维坐标,从而获取手势在三维空间中的位置信息和手指的运动信息。通过数据手套可以直接获取人手在三维空间中的位置和运动

图像处理课程设计报告

图像处理课程设计报告 导语:设计是把一种设想通过合理的规划周密的计划通过各种感觉形式传达出来的过程。以下是XX整理图像处理课程设计报告的资料,欢迎阅读参考。 图像处理课程设计报告1 摘要:图像处理技术从其功能上可以分为两大类:模拟图像处理技术、和数字图像处理技术。数字图像处理技术指的是将图像信号直接转换成为数字信号,并利用计算机进行处理的过程,其主要的特点在于处理的精度高、处理的内容丰富、可以进行复杂、难度较高的处理内容。当其不在于处理的速度比较缓慢。当前图像处理技术主要的是体现在数字处理技术上,本文说阐述的图像处理技术也是以数字图像处理技术为主要介绍对象。数字图像处理又称为计算机图像处理,它是指将图像信号转换成数字信号并利用计算机对其进行处理的过程。近年来, 图像处理技术得到了快速发展, 呈现出较为明显的发展趋势, 了解和掌握这些发展趋势对于做好目前的图像处理工作具有前瞻性的指导意义。本文总结了现代图像处理技术的三点发展趋势。 对图像进行处理(或加工、分析)的主要目的有三个方面: (1)提高图像的视感质量,如进行图像的亮度、彩色变换,增强、抑制某些成分,对图像进行几何变换等,以改善图像的质量。(2)提取图像中所包含的某些特征或特殊信息,这些被提

取的特征或信息往往为计算机分析图像提供便利。提取特征或信息的过程是计算机或计算机视觉的预处理。提取的特征可以包括很多方面,如频域特征、灰度或颜色特征、边界特征、区域特征、纹理特征、形状特征、拓扑特征和关系结构等。 (3)图像数据的变换、编码和压缩,以便于图像的存储和传输。不管是 何种目的的图像处理,都需要由计算机和图像专用设备组成的图像处理系统对图像数据进行输入、加工和输出。 数字图像处理主要研究的内容有以下几个方面: 图像变换由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大。因此,往往采用各种图像变换的方法,如傅里叶变换、沃尔什变换、离散余弦变换等间接处理技术,将空间域的处理转换为变换域处理,不仅可减少计算量,而且可获得更有效的处理。目前新兴研究的小波变换在时域和频域中都具有良好的局部化特性,它在图像处理中也有着广泛而有效的应用。 图像编码压缩图像编码压缩技术可减少描述图像的数据量,以便节省图像传输、处理时间和减少所占用的存储器容量。压缩可以在不失真的前提下获得,也可以在允许的失真条件下进行。编码是压缩技术中最重要的方法,它在图像处理技术中是发展最早且比较成熟的技术。

关于计算机视觉的手势识别综述

关于计算机视觉的手势识别综述 蒋指挥 (江苏科技大学江苏镇江 213022) 摘要:计算机技术的高速发展也产生了许多新领域,在此对以计算机视觉为基础的手势检测识别技术展开综述。主要阐述该技术的发展历程、实现方法、研究现状以及其存在的不足之处和发展方向。结果表明简单的可穿戴设备的手势识别和深度视觉传感器的手势识别和多方法交叉融合的手势识别是未来该领域的发展方向。 关键词:计算机视觉;手势识别;人机交互 A survey of gesture recognition in computer vision//Jiang Zhi Hui Abstract;With the rapid development of computer technology, a lot of new fields have been developed. In this paper, the technology of gesture detection and recognition based on computer vision is reviewed. This paper describes the development of the technology, the realization method, the research status and its shortcomings and development direction. The results show that the simple wearable device for hand gesture recognition and depth vision sensor for hand gesture recognition and multi method cross fusion for gesture recognition is the future direction of the development of the field. Key words:Computer vision; gesture recognition; human-computer interaction 计算机在我们的生活中越来越不可或缺,我们同时也对计算机提出了更高的要求,计算机视觉的手势识别正是对计算机应用拓展的重要途径,例如现在的VR技术,就是应用了手势识别才实现的。ABIResearch公司高级分析师约书亚·弗拉德(JoshuaFlood)指出:“免提操作或手势识别很快将成为高端旗舰智能手机、媒体平板电脑和智能眼镜区别于其他同类产品的一个关键因素。三星电子最新推出银河S4已经将这项技术用于其手机中,并以其全新的用户体验获得用户交口称赞。此外,在一系列新型智能眼镜产品即将发布之时,不难想象这类技术将被采用。”其实手势识别技术涵盖了许多领域,比如物理学、生物学等,实现手势识别的方式有很多种从一开始的二维手型识别、二维手势识别到后来的三维手势识别,正是计算机视觉技术的发展使得手势识别的实现方式更加多样。但目前的技术仍然很繁琐,冗杂的可穿戴设备就直接影响了使用者的舒适感,其还有很大的发展空间。 1、手势识别的发展历程及其实现方法

人脸识别课程设计论文(完美版)

前言 在人类社会的发展进入到21世纪的今天,安全问题已经成为困扰人们日常生活的重要问题之一。社会的发展促进了人的流动性,进而也增加了社会的不稳定性,使得安全方面的需求成为21世纪引起广泛关注的问题。不论是享受各项服务如网上冲浪、还是居家、办公等都涉及到安全,以往这些行为基本上是通过符号密码来进行安全保护,但是随着服务数量的不断增加,密码越来越多以致无法全部记住,而且密码有时也会被他人所窃取,各种密码被破解的概率越来越高,因为通常由于记忆的原因,人们经常会选用自己或亲人的生日、家庭地址、电话号码等作为密码并长期使用,这些很容易被一些不法分子获取。可见在现代社会中,身份识别已经成为人们日常生活中经常遇到的一个基本问题。人们乎时时刻刻都需要鉴别别人的身份和证明自己的身份,以获得对特定资源的使用权或者制权,同时防止这些权限被他人随意的取得。传统的身份识别方法主要基于身份标识物(如证件、卡片)和身份标识知识(如用户名、密码)来识别身份,这在很长一段时期是非常可靠和方便的识别方法,得到了广泛的应用。但是,随着网络、通信、交通等技的飞速发展,人们活动的现实空间和虚拟空间不断扩大,需要身份认证的场合也变得无不在。人们需要携带的身份标识物品越来越多,身份标识知识也变得越来越复杂和冗长在这种情况下,传统身份识别方式的弊端日益彰显。身份标识物品容易被丢失和伪造,份标识知识容易被遗忘、窃取和破解,而身份标识的重要性又使得一旦失去了身份标识会给标识的所有者甚至整个社会带来重大的甚至难以弥补的损失。在美国,每年约有上百万的福利款被人以假冒的身份领取;每年发生的信用卡、ATM、移动电话和冒领支票等成的损失达数百亿美元[2]。面临着这样的状况,人们对身份识别的安全性、可靠性、准确和实用性提出了更高的要求,必须寻求身份识别的新途径。 于是,近年来人类生物特征越来越广泛地用于身份识别,而且生物特征可以更好的进行安全控制,世界各国政府都在大力推进生物识别技术的发展及应用。与原有的人类身分识别技术(如:个人密码、磁卡、智能卡等)相比,基于人类生物特征的识别技术具有安全可靠、特征唯一、不易伪造、不可窃取等优点。人类本身具有很多相对独特的特征,如DNA、指纹、虹膜、语音、人脸等。基于这些相对独特的人类特征,结合计算机技术,发展起众多的基于人类生物特征的人类身份识别技术,如DNA识别技术、指纹识别技术、虹膜识别技术、语音识别技术、人脸识别技术。 人脸识别和其他的生物识别比起来有以下几个优点:1、其他的生物特征识别方法都需要一些人为的行为配合,而人脸识别不需要。2、人脸识别可应用在远距离监控中。3、针一对现在的第一、二代身份证,每个身份证都有人脸的正面照片,也就是人脸库将是最完善的,包括人最多的,我们可以利用这个库来更直观、更方便的核查该人的身份。 4、相对于其他基于生物特征识别技术,人脸识别技术具有特征录入方一便,信息丰富,使用面广等优点,同时人脸识别系统更加直接友好。人脸识别技术作为生物识别技术的

跟踪触摸手势的检测及位置确定

跟踪触摸手势的检测及位置确定 触摸我的触摸屏时会发生什么? 本文将探讨跟踪触摸所涉及的所有内容,从电容感应的物理特性到屏幕上的最终动作。我们描述了如何检测手指以及确定手指位置的方法。我们将手指进一步插入手机的软件堆栈,看看它是如何到达正确的应用程序的。揭开捏和缩放等手势的神秘面纱。 如何检测到触摸? 几乎所有的智能手机触摸屏都会对手指的电容做出反应。触摸屏包含一系列传感器,可检测手指引起的电容变化。当您的手指触摸屏幕时,会影响每个传感器的自电容以及它们之间的互电容。大多数智能手机感应互电容感应而不是自电容。由于互电容是任何给定传感器对之间的相互作用,因此它可用于收集关于屏幕上每个位置的信息(X * Y点)。自电容仅能够检测每个传感器的反应而不是每个点(X + Y样本)。 图1:互电容基本原理。 电容式传感器包含多个层:顶层玻璃或塑料,然后是光学透明粘合剂(OCA)层,然后是触摸传感器,然后是LCD。触摸传感器是传感器网格,通常为约5mm×5mm。这些传感器使用氧化铟锡(ITO)制造。ITO具有一些有趣的特性,使其成为触摸屏构造的理想材料。它的透明度超过90%,但它也具有导电性。一些设计使用菱形图案,这在视觉上令人愉悦,因为它不与LCD图案对齐。其他人则使用更简单的“条纹和条纹”图案。如果以正确的角度检查设备并获得良好的照明,您可以在LCD关闭的情况下看到ITO传感器线。感应互电容与感应自电容根本不同。为了感测自电容,我们通常测量包含传感器的RC电路的时间常数。感测互电容涉及测量X和Y传感器之间的相互作用。检测在每条X线和每条Y线上驱动的信号以检测传感器之间的耦合水平。有趣的是,手指触摸会减少互电容耦合,同时手指触摸会增加自电容值。 图2:互电容感应响应。

手势识别---人工神经网络

手势识别---人工神经网络 一.手势识别综述 随着计算机性能的逐步提高和各领域对计算机使用的不断深入,人与计算机的交互活动越来越成为人们日常生活中的一个重要组成部分。鼠标和键盘等传统的的人机交互方式越来越显示出它们的局限性,尤其在虚拟现实、增强现实和可穿戴计算等新兴的应用中变得更为明显。近年来,手势交互作为一种新的人机交互方式被越来越多地采用,特别是基于视觉的手势交互,由于其简单、自然、直观和非侵犯性等特性已成为手势交互的重要方式之一。 手势是一种自然、直观、易于学习的人机交互手段。以人手直接作为计算机的输入设备,人机间的通讯将不再需要中间的媒体,用户可以简单地定义一种适当的手势来对周围的机器进行控制。手势研究分为手势合成和手势识别,前者属于计算机图形学的问题,后者属于模式识别的问题。手势识别技术分为基于数据手套和基于计算机视觉两大类。 1.1 手势识别的发展 最初的研究主要集中在做一种专用硬件设备来进行输入。例如数据手套,即人可以戴上一个类似于手套的传感器,计算机通过它可以获:取手的位置、手指的伸展状况等丰富信息。如l993年B.Thamas等人做的自由手遥控目标的系统是凭借数据手套作为输入的媒介,但这需要实验者呆上一个专用设备。之后人们又致力于标记手势的研究,即通过在手上作标记,例如在手腕和手指处贴上或画上特殊颜色的圆点,用来识别手势。这虽然给识别带来了方便,但同样给实验者带来麻烦。最后人们终于把注意力集中到自然手上,通过专用加速硬件和脱机训练,一些研究者成功地研制了手势系统,但其识别的手势仅限几种。例如Freeman 和Roth等人提出的基于方向直方图的手势识别系统。l994年,作

基于摄像头的手势识别技术初步版本

基于摄像头的手势识别技术 1、手势识别的概念 手势是姿势的一个子集,姿势这个概念没有精确的定义。一般认为,手势概念经过人的于转化为的于势动作,观察者看到的是于势动作的图像雎1。手势的产生过程如图1-1所示。 图1-1 手势识别的过程则找一个从图像V到概念动作G的变换而,如图下所示。 2、手势识别流程 手势识别流程包手势图像获取、手势分割、手势特征提取、手势识别四大部分,如图2-1所示。 图2-1

3. 手势建模 在手势识别框架中,手势模型是一个最基本的部分。根据不同的应用背景,于势识别采用的模型会有不同,而对于不同的手势模型,采用的手势检测与跟踪算法、特征提取、识别技术也会有差别。手势建模主要分为基于表观的手势模型与基于三维的于势模型。 基于表观的手势建模是一种二维建模,从二维平面观察得到的平面图像信息描述于的特征。 基于表观的手势模型主要包括基于颜色的模型与基于轮廓的模型两种。 基于颜色的手势模型是把手势图像看作像素颜色的集合,通过提取手部的颜色的特征来描述手势。 基于颜色的手势模型的常用特征是颜色直方图。基于轮廓的手势模型是把手看作一个轮廓,通过提取手部图像中手的轮廓的几何特征来描述手势。 4. 手势检测与跟踪 手势检测与跟踪是手势识别处理流程中最前端的处理部分,它处理从摄像头获取到手势图像(序列),从中检测和分割手势对象。如果是动态手势识别,还要对手进行跟踪。 基于运动信息的方法: 基于运动信息的方法是假设在视频中只有手是运动物体。 其中一种方法是背景减法。 它要求背景静止不变,把视频中的每帧与背景相减,背景相同的部分变为零,不同的部分就认为是运动的物体,即手。

计算机图形学课程设计书

计算机图形学课程设计 书 文档编制序号:[KKIDT-LLE0828-LLETD298-POI08]

课程设计(论文)任务书 理学院信息与计算科学专业2015-1班 一、课程设计(论文)题目:图像融合的程序设计 二、课程设计(论文)工作: 自2018 年1 月10 日起至2018 年1 月12日止 三、课程设计(论文) 地点: 2-201 四、课程设计(论文)内容要求: 1.本课程设计的目的 (1)熟悉Delphi7的使用,理论与实际应用相结合,养成良好的程序设计技能;(2)了解并掌握图像融合的各种实现方法,具备初步的独立分析和设计能力;(3)初步掌握开发过程中的问题分析,程序设计,代码编写、测试等基本方法;(4)提高综合运用所学的理论知识和方法独立分析和解决问题的能力; (5)在实践中认识、学习计算机图形学相关知识。 2.课程设计的任务及要求 1)基本要求: (1)研究课程设计任务,并进行程序需求分析; (2)对程序进行总体设计,分解系统功能模块,进行任务分配,以实现分工合作;(3)实现各功能模块代码; (4)程序组装,测试、完善系统。 2)创新要求: 在基本要求达到后,可进行创新设计,如改进界面、增加功能或进行代码优化。

3)课程设计论文编写要求 (1)要按照书稿的规格打印誊写课程设计论文 (2)论文包括封面、设计任务书(含评语)、摘要、目录、设计内容、设计小结(3)论文装订按学校的统一要求完成 4)参考文献: (1)David ,《计算机图形学的算法基础》,机械工业出版社 (2)Steve Cunningham,《计算机图形学》,机械工业出版社 (3) 5)课程设计进度安排 内容天数地点 程序总体设计 1 实验室 软件设计及调试 1 实验室 答辩及撰写报告 1 实验室、图书馆 学生签名: 2018年1月12日 摘要 图像融合是图像处理中重要部分,能够协同利用同一场景的多种传感器图像信息,输出一幅更适合于人类视觉感知或计算机进一步处理与分析的融合图像。它可明显的改善单一传感器的不足,提高结果图像的清晰度及信息包含量,有利于更为准确、更为可靠、更为全面地获取目标或场景的信息。图像融合主要应用于军事国防上、遥感方面、医学图像处理、机器人、安全和监控、生物监测等领域。用于较多也较成熟的是红外和可见光的融合,在一副图像上显示多种信息,突出目标。一般情况下,图像融合由

计算机视觉前沿与深度学习

视觉研究中投入巨大,在IEEE 模式分析与机器智能汇刊(IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE TPAMI)、计算机视觉国际期刊(International Journal of Computer Vision, IJCV)、IEEE图像处理汇刊(IEEE Transactions on Image Processing, IEEE TIP)、IEEE国际计算机视觉大会(IEEE Inter-national Conference on Computer Vision, IEEE ICCV)和IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vi-sion and Pattern Recognition, IEEE CVPR)等顶级国际期刊和会议上发表了许多重要学术论文,产生了许多国际一流的研究成果。其中最受到关注的研究是深度学习,而深度学习领域发表的论文70%以上是关于视觉图像识别方面的。 为了更好地开展学术交流,推动国内计算机视觉学科发展,进一步提升我国计算机视觉研究在国际领域的影响力,中国计算机学会成立了“计算机视觉专业组”。在本期专题中,计算机视觉专业组特别邀请了多位著名的视觉专家从不同角度撰文,介绍计算机视觉前沿与深度学习研究方面的最新进展。 香港中文大学助理教授王晓刚、博士孙祎、教授汤晓鸥共同撰写的《从统一子空间分析到联合深度学习:人脸识别的十年历程》文章,回顾了人脸识别近十年的发展历程。他们的团队使用深度学习开发了DeepID2+系统,在人脸识别最受关注的LFW(labeled faces in the wild)1数据集上取得了人脸确认任务的世界第一,识别率99.47%。深度学习在人脸识别上的巨大成功,并非只是利用复杂模型拟合数据集。DeepID2+系统的神经元响应有很多重要的性质,比如它是中度稀疏的,对人物身份和人脸属性有很强的选择性,对局部遮挡具有良好的鲁棒性。这些性 计算机视觉通常是指用摄像机和计算机代替人眼对目标进行识别、跟踪/测量来实现对客观三维世界的理解。计算机视觉既是科学领域中富有挑战性的理论研究,也是工程领域中的重要应用,在图像检索、安全监控、人机交互、医疗诊断和机器人等领域具有广阔的应用前景。美国和欧洲等先进国家将计算机视觉列为对经济和科学有广泛影响的重大基本问题,计算机视觉也是“谷歌大脑”、“百度大脑”等研究计划中的核心项目。 计算机视觉作为一门学科始于20世纪60年代。随着个人计算机的普及,计算机视觉在80年代取得了重要进展。最近10年,随着计算机性能的大幅提升和互联网的快速发展,新的视觉特征、大数据、稀疏低秩、深度学习等技术的不断涌现,使计算机视觉又迎来了一次突飞猛进的发展,开辟出许多新的研究领域。国内高校与科研单位在计算机特邀编辑:王 涛1 查红彬2 1爱奇艺公司 2北京大学 计算机视觉前沿与深度学习关键词:计算机视觉 深度学习 1 标注过的户外脸部测试数据集。

计算机视觉系统及其应用

课程设计 课程名称工业自动化专题 题目名称_计算机视觉系统及其应用学生学院_____自动化________ 专业班级______ 学号 学生姓名____ 指导教师___________ 2013 年 6月 25日

机器视觉系统及其应用 摘要:主要介绍机器视觉系统的概要,简要分析机器视觉的特点、优越性和应用,具体介绍了机器视觉技术在印刷行业、农业、工业、医学中的实际应用,并且分别举例说明。机器视觉的诞生和应用在理论和实际中均具有重要意义。 关键词:机器视觉;标签检测;药物检测;水果品质检测;硬币检测。 1. 机器视觉系统 1.1 机器视觉系统简介 机器视觉系统是指利用机器替代人眼做出各种测量和判断。机器视觉是工程领域和科学领域中的一个非常重要的研究领域,它是一门涉及光学、机械、计算机、模式识别、图像处理、人工智能、信号处理以及光电一体化等多个领域的综合性学科。 机器视觉系统通过图像摄取装置将被摄取目标转换成图像信号,传送给专用的图像处理系统,根据像素分布和亮度、颜色等信息,转变成数字化信号。机器视觉系统可以快速获取大量信息,而且易于自动处理,也易于同设计信息以及加工控制信息集成。 机器视觉系统的优点有:1.非接触测量,对于被检测对象不会产生任何损伤,而且提高了系统能够的可靠性;2.较宽的光谱响应范围,例如使用人眼看不见的红外测量,扩展人眼的视觉范围;3.长时间稳定工作,人类难以长时间对同一对象进行观察,而机器视觉系统则可以长时间地作测量、分析和识别任务。 现在,机器视觉系统在工业、农业、国防、交通、医疗、金融甚至体育、娱乐等等行业都获得了广泛的应用,可以说已经深入到我们的生活、生产和工作的方方面面。 1.2 基本原理 图 1 是机器视觉系统的基本结构,在一定的光照(包括可见光,红外线甚至超声波等各种成象手段)条件下,成象设备(摄象机,图像采集板等)把三维场景的图像采集到计算机内部,形成强度的二维阵列——原始图象;然后,运用图像处理技术对采集到的原始图像进行预处理以得到质量改善了的图像;其次,运用机器视觉技术从图像中提取感兴趣的特征分类整理;,构成对图像的进一步,运用模式识别技术对抽取到的特征进行描述;最后,运用人工智能得到更高层次的抽象描述。完成视觉系统的任务。 图1机器视觉的基本结构

人工智能计算机视觉发展分析

人工智能计算机视觉发展分析 计算机视觉是用电脑去识别物体的一种新技术。作为视觉来讲,必须要有眼睛与大脑两部分。计算机视觉的主要组成部分不是“眼睛”,而是“大脑”。 2011年,计算机视觉迎来了最伟大的突破。当年,谷歌人工智能实验室的杰夫·迪恩与斯坦福大学计算机系教授吴恩达合作,他们动用上万台电脑的计算资源,让计算机用深度学习算法在YouTube上观看了一千万段关于猫的视频,最后计算机终于完成了“猫脸识别”。这个项目是谷歌大脑在计算机视觉领域取得的巨大成功。 到了2014年,计算机视觉领域的ImageNet比赛第一次超越了人类肉眼识别图片的准确率——这标志着计算机视觉已经比人眼更加精准,因此具有极大地应用价值。 ImageNet国际挑战赛是计算机视觉领域最著名的比赛,被誉为国际计算机视觉领域的“奥林匹克”。它是2010年由美国斯坦福大学人工智能实验室的李飞飞教授主导推出的。早在2009年,ImageNet对1500万张图片进行了标注,涉及22000个类别的物体,李飞飞她们建立了一个规模空前的数据库。而且,她们公开了整个数据库,免费提供给全世界的人工智能研究团队。有了这个培育计算机大脑的数据库,科研工作者教会了计算机识别物体。 计算机视觉的基本原理

想要实现计算机视觉,首先需要有一个摄像头,然后把拍摄的照片成像在CCD上形成电子照片。这些电子照片是以像素为单位存储在计算机上的。每一个像素都可以看成是三个矩阵元,这些矩阵元给出了像素的RGB数值(每个数值都是整数,取值在0到255之间)。其中,R表示红色,是red的首字母; G表示绿色,是green的首字母;B表示蓝色,是blue的首字母。有了这三种基本颜色,就可以按照不同的权重叠加出千变万化的色彩。 计算机视觉所处理的主要对象就是这个RGB数值,因为每一张照片的像素很多,因此整张照片可以被看成是三个大的矩阵。 计算机视觉的本质,其实就是处理这三个矩阵,然后从这三个矩阵中提取出“特征信息”,比如对于动物的图片,可以提取的特征是“有没有尾巴?”以及“有没有毛?”等。通过对特征信息的提取与判断,可以实现“猫脸识别”或者“人脸识别”。人工智能是通过机器学习的方法,提取不同物体的特征,然后用分类器对各种事物进行分类识别。 计算机视觉的头部公司之一商汤科技与华东师范大学合作,编写了中国第一本人工智能教材《人工智能基础(高中版)》,在书中详细介绍了计算机视觉的算法实现及其基本原理。 计算机视觉有哪些相关企业与落地应用? 计算机视觉领域的应用非常广泛,其主要的落地应用有以下几个大类。

基于手势识别的人机交互综述

基于手势识别的人机交互综述 摘要:近年来,得益于虚拟现实、人机界面技术、计算机视觉等领域的发展,基于手势识别的人机交互技术得到大力的推动。本文就基于手势识别的人机交互技术展开综述。首先概括手势交互的涉及领域,回顾其发展史和国内外研究现状。接着阐明它的基本界定和分类,并在此基础上分析其热点关键技术。然后实例讨论了几种类型手势交互的典型应用。最后给出了结论。 关键词:虚拟现实;手势交互;计算机视觉;手势识别;特征跟踪 1.引言 人机交互技术通过输入、输出设备,以有效的方式实现交互主体与交互客体的对话。当前的人机交互技术已经从过去交互主体适应交互客体,发展为交互客体不断地适应交互主体的习惯和以交互主体为中心的新阶段[1,2,3,4]。以用户为中心的,新型、自然的人机交互技术逐渐成为开发者和科研工作者的关注重点。这类交互方式要求输入与输出能够最大限度地符合交互主体的行为习惯,并能够在交互主体的脑中顺利构建交互环路。由于手势具有极强的信息表述功能,加之人手操作行为本身就是人与世界相互作用的主要方式,因此,基于手识别的人机交互技术相关研究有着重要的理论价值和应用价值。基于手势识别的人机交互技术涉及计算机科学、认知心理学、行为学等诸多方面的知识。本文不能面面俱到,仅就手势交互的基本问题:手势语义的分类,以及当前发展概况、研究热点技术和典型系统应用等相关问题进行综述。 2.研究现状 目前,基于视觉的手势交互已被广泛的研究,由于手势本身的多义性及时空差异性,加之手形变的高维度及视觉问题本身的不适定性,基于视觉的手势识别一直是一项极富挑战性的究课题[5]。需要解决的核心问题是对手形的识别,对手势的跟踪等。传统的方法主要分为两大类:(1)基于模型(model-base)的方法;(2)基于表征(appearance-based)的方法[6]。这些方法及其衍生算法极大程度地依赖于计算机科学中虚拟现实、机器视觉、模式识别、人机交互等多个领域的交流与合作。相关的国际会议:CHI、ICCV、CVPR、ICAT、IEEE VR 为研究者提供了一个能充分交流的空间,并吸引了越来越多的研究人员共同参与合作。此外,学科之间的交流也吸引了心理学研究人员的共同参与。他们以从用户为中心出发,为基于手势交互研究和开发提出了宝贵意见[7]。纵观手势交互的发展历程,其研究重点也从早期简单的系统框架、低层特征提取[8]、手形模板匹配[8]等问题转变到关节式物体跟踪[9,10, 11]、跟踪性能评价[12]、操作型手势解析[14]等问题上。我国在基于手势识别的人机交互领域的研究近年来得到了长足的发展。研究机构集中在国内的研究所和高校的科研单位。目前国内手势交互的研究成果主要有:中国科学院软件研究所[15]的研究中,对二阶自回归过程动力学模型(Auto-Regressive Process, ARP)进行训练和学习,进而建立基于ARP 的预测模型,实现了人手运动的鲁棒性跟踪,在出现跟踪丢失的情况下在后续序列中可以自动恢复正确跟踪。中国科学院自动化研究所模式识别实验室提出一种基于区域的多连接体(手指)的三维运动跟踪算法[13],用多约束融合的方法以及手指的运动特性,建立多刚体的三维运动描述,通过三类基本约束条件,把跟踪问题归结为一个约束误差优化问题。清华大学的崔锦实博士,提出一种基于回归-优化方法的关节式物体的姿态估计方法[16]。该方法把回归分析与全局优化搜索相结合,保证了估计的精度和连续性;针对现有滤波器在高维非线性多峰

相关主题
文本预览
相关文档 最新文档