手语识别与合成技术
- 格式:doc
- 大小:29.50 KB
- 文档页数:4
中国手语识别方法及技术综述
蒋贤维;孙计领;张艳琼;王立平;蒋小艳;韩雪
【期刊名称】《现代特殊教育》
【年(卷),期】2024()6
【摘要】中国手语具有自己独特的文化内涵和复杂表达,是近3000万听障人士融入社会的重要手段。
手语识别技术能帮助听障人士走出信息孤岛,和健听人建立有效沟通。
中国手语识别方法大致经历了传统技术识别和现代智能识别两个时期。
前者主要包含数据收集、预处理、特征提取和分类识别四个主要阶段,主流技术有HMMs、SVM和DTW等,基于手语手形数据完成识别,不依赖海量样本数据;后者主要利用深度神经网络和人工智能技术,强调深度学习,迁移学习和技术融合,模型对样本数据量的依赖程度较高。
我国已经开始广泛建设各类手语语料库,但需要进一步规范和推广。
【总页数】12页(P47-58)
【作者】蒋贤维;孙计领;张艳琼;王立平;蒋小艳;韩雪
【作者单位】南京特殊教育师范学院数学与信息科学学院
【正文语种】中文
【中图分类】G760
【相关文献】
1.基于词根的中国手语识别方法
2.手语识别方法与技术综述
3.一种基于证据理论的中国手语单手静态词识别方法
4.《中国医院管理》投稿要求及稿件处理
5.基于手语表达内容与表达特征的手语识别技术综述
因版权原因,仅展示原文概要,查看原文内容请购买。
手语识别技术研究与实现手语作为一门独立的语言,是聋哑人士主要的沟通方式之一。
然而,当今社会中对于手语的认识和运用仍然存在着诸多问题,如缺少统一的手语标准和不易统计的使用人数等。
面对这些问题,我们不妨从技术角度来探索,即手语识别技术。
手语识别技术,顾名思义,就是通过人工智能、图像识别等技术手段来实现对手语的自动识别和转换。
这项技术的发展与普及,可以使得更多的人能够理解和使用手语,为聋哑人士提供更多便利。
那么,手语识别技术是如何实现的呢?一、手语识别技术的基本原理手语识别技术通常需要使用深度学习等方法,进行手势图像的处理和特征提取,然后建立对应手语与语言的转换模型,进行手语语音的转换。
在实际应用中,手语图像采集设备可以选用摄像头或者激光设备等。
通过对图像进行预处理、特征提取和转化等多环节,就可以实现对手语进行识别和转换。
这些技术在人工智能的领域有了广泛的应用,如物体识别、人脸识别等。
二、手语识别技术的应用手语识别技术可以使得聋哑人士与正常人之间的交流更为便捷和自然。
这对于聋哑人士在学习、工作、生活等方面都具有积极的作用,可以促进社会的融合和多元发展。
同时,手语识别技术还可以应用在许多领域,如智能家居、数字化教育、虚拟现实等。
比如,智能家居中的手势识别可以实现通过手势来控制电器等设备的开关、调节音量等功能,这样可以使得使用更为便捷和自然。
数字化教育中,可以配合手语来进行教材阅读和语言翻译。
在虚拟现实领域,通过手语识别技术的应用,可以实现更为自由和灵活的体验和互动。
三、手语识别技术的未来手语识别技术的发展和应用,还面临着许多挑战和问题。
如手语的复杂性、手势差异化等,这些都需要技术人员进行深入的研究和设计。
同时,手语识别技术也需要与社会、行业沟通合作,逐步建立起标准化的手语系统和应用体系。
这将需要多方面的资源和支持,包括技术、政策、资金等。
总的来说,手语识别技术作为一项新的技术,正在快速发展和进步。
它能够为聋哑人士提供更多便捷和自然的交流方式,并且在许多领域的应用也具有广泛的前景和潜力。
人工智能语音合成技术原理及应用随着科技的发展,人工智能(AI)技术逐渐渗透到我们的生活和工作中,其中的一个重要应用就是语音合成技术。
人工智能语音合成技术指的是利用计算机算法和复杂的模型,将文本转换成自然的语音音频,使得计算机可以模拟人类的语音表达。
一、原理语音合成技术是基于语音信号处理、自然语言处理和机器学习等领域的技术,其基本原理是通过分析大量的语音数据和文本语料库,建立起一个合成模型,实现从文本到语音的转换。
这个合成模型包含了三个核心的部分:语音生成、语音波形形成和语音信号控制。
例如,当我们输入一段文字,例如“今天天气不错”,语音合成技术首先需要将这个文字转换成语音的音素表示,即将文本分割成一个个音节。
然后根据语音生成模型,生成相应的音素序列,并将其转化成语音的声学特征。
最后,利用语音波形合成技术,将声学特征转换成最终的语音波形,并通过语音信号控制技术,使得输出的语音具有自然、流畅、清晰的语音质量和音调。
二、应用人工智能语音合成技术在生活和工作中有着广泛的应用,其中最常见的应用之一就是电子设备的语音播报功能,例如手机的Siri和语音助手、智能音响和车载导航等。
此外,人工智能语音合成技术还有着诸如自动售票机、语音电子书、在线阅读、语音翻译、智能客服等方面的应用,这些应用都旨在帮助人们更加高效和便捷地进行日常生活和工作。
对于特殊群体来说,人工智能语音合成技术也是一项重要的技术。
例如,对于失聪失语者和语言残障者,语音合成技术成为了与外界沟通的重要途径,让他们可以通过电脑、手机或其他设备语音输出他们所想表达的信息。
三、挑战与前景人工智能语音合成技术的发展迎来了前所未有的挑战与前景。
虽然当前的语音合成技术已经取得了很多进展,使得语音合成具备自然、流畅、清晰的语音质量和音调。
但是,语音合成技术仍然面临着很多挑战。
首先,语音合成技术需要更加准确地识别文字,并生成更加自然、流畅的语音波形。
这需要对现有的语音合成算法和模型进行优化和改进。
基于Leap Motion手语语音转换的设计与实现随着人工智能技术的发展,语音识别和手势识别技术已经成为了越来越火热的研究领域。
Leap Motion是一家致力于开发手势识别技术的公司,他们推出的Leap Motion手势识别设备可以实现对手部动作的高精度识别。
本文将探讨如何基于Leap Motion手势识别技术实现手势语音转换的设计与实现。
一、研究目的和意义语音识别技术已经在很多领域有了广泛的应用,比如智能语音助手、语音翻译等。
但传统的语音识别技术还存在一些局限性,比如在嘈杂环境下的识别效果不佳、不能准确识别各种方言等。
而手势识别技术可以弥补这些不足,因为手势是一种不受环境限制的语言,可以准确表达人们的意图。
基于Leap Motion手势识别技术实现手势语音转换具有重要的实际意义和研究价值。
二、技术原理Leap Motion手势识别设备是一款能够实现对手部动作的高精度识别的传感器设备,它能够实时捕捉手部动作并将其转化为计算机可识别的数据。
通过对这些数据进行分析和处理,我们可以得到用户的手势信息,从而实现手势语音转换的技术。
手势语音转换的实现主要包括两个方面:手势识别和语音合成。
我们需要将Leap Motion设备捕捉到的手势数据进行分析和处理,从中提取出用户的手势动作信息。
然后,我们需要将这些手势信息转化为计算机可识别的指令,以触发相应的语音合成引擎进行语音合成。
最终,用户的手势动作将被转化为自然语音输出。
三、系统设计在手势识别模块中,我们需要利用Leap Motion SDK提供的API对设备的手势数据进行实时捕捉和处理。
通过分析这些数据,我们可以得到用户的手势信息,比如手指的位置、运动轨迹、手势形状等。
通过对这些信息进行分析和处理,我们可以得到用户的手势动作,比如手势方向、手势速度等。
这些信息将被传递到语音合成模块进行处理。
在语音合成模块中,我们需要利用语音合成引擎将用户的手势信息转化为自然语音输出。
手语识别技术的研究与开发一、前言手语识别技术是指通过机器识别人的手势,把手势转换成文字或语音信息。
这种技术的出现与发展,使得聋哑人士能够以更自然的方式与其他人交流,同时也可用于涉及与手势有关的行业,如运动、医疗等领域。
二、研究现状目前,手语识别技术已逐渐成熟,取得了重要的进展。
其中最主要的研究手段是计算机视觉技术和机器学习技术。
目前,国内外已经有一定数量的学者和研究机构对手语识别技术进行了研究,并取得了丰硕的成果。
在机器学习方面,深度学习成为了最主要的研究手段。
深度学习技术通过构建卷积神经网络,对手语进行训练和分类。
这种方法的好处在于,可以大大降低手语识别的复杂度,同时也能提高准确率。
国内外许多公司和研究机构都已经采用了这种技术,并设计出许多智能手语识别产品。
例如国内的讯飞科技,研发出了智能手语翻译器,能够识别手语并转换成文字或语音输出,使得手语盲区得到了极大的缩小。
在计算机视觉方面,主要就是利用摄像头拍摄人的手势,然后通过算法进行分析,来实现手语的识别。
这种方法具有灵活性,但是难度相对较大,需要考虑很多因素,例如环境光线、遮挡等,会影响手语识别的准确度。
目前,手语的语言种类非常丰富,不同的国家和不同的地区都有自己独特的手语语言。
因此,研究人员也需要针对不同的手语语言进行研究和训练,以提高手语识别的准确性和实用性。
三、手语识别技术的应用1、辅助聋哑人士手语识别技术可以帮助聋哑人士更加方便的与其他人交流。
戴上手语识别设备,就能够识别出使用手势的聋哑人士想要表达的内容,并将其转化成语音或文字。
这让聋哑人士的日常生活变得更加普通。
2、运动训练手语在运动训练中也有着广泛的应用。
例如篮球教练可以利用手语进行指示,或是对手势进行训练。
同时,团队运动也可以更加便捷的采用手语来交流和协调。
3、医疗行业手语识别技术还可以应用在医疗行业。
医生可以用手语与聋哑患者进行交流,进行更好的医疗服务。
同时,也可以用于对患者的康复训练中,提高训练效果。
融合多模态数据的动态手语识别研究融合多模态数据的动态手语识别研究摘要:手语是聋人的主要交流方式之一,而动态手语的识别对于促进聋人与正常人之间的沟通具有重要意义。
然而,由于手势的复杂性和多样性,动态手语的识别一直是一个具有挑战性的研究领域。
为了提高动态手语的识别性能,许多研究者开始探索融合多模态数据的方法。
本文对融合多模态数据的动态手语识别研究进行了综述,并讨论了未来的研究方向。
一、引言手语作为聋人的主要交流方式之一,为聋人提供了与正常人交流的途径。
而动态手语的识别对于促进聋人与正常人之间的沟通具有重要意义。
然而,由于手势的复杂性和多样性,动态手语的识别一直是一个具有挑战性的研究领域。
传统的动态手语识别方法主要基于单一模态的数据,如视频或传感器数据。
然而,单一模态的数据往往难以捕捉到手势的细节和变化,从而限制了动态手语识别的性能。
二、融合多模态数据的动态手语识别方法近年来,许多研究者开始探索融合多模态数据的方法来提高动态手语的识别性能。
多模态数据指的是通过不同的传感器获取的多种类型的数据,如视频、声音和肌电信号等。
通过融合多模态数据,可以从多个角度获取手语的信息,提高手语识别的准确度和鲁棒性。
融合多模态数据的动态手语识别方法主要可以分为以下几类:1. 视频-声音融合方法:该方法通过同时获取手语的视频和声音数据,并将二者进行融合来进行手语识别。
视频可以捕捉到手语的动态特征,声音可以提供语音信息。
通过将视频和声音进行融合,可以更准确地识别出手语的含义。
2. 视频-肌电信号融合方法:该方法通过同时获取手语的视频和肌电信号数据,并将二者进行融合来进行手语识别。
视频可以提供手势的形态信息,肌电信号可以提供手势的运动信息。
通过将视频和肌电信号进行融合,可以全面地捕捉手语的特征,提高手语识别的准确度。
3. 多模态融合方法:该方法通过同时获取手语的视频、声音和肌电信号等多种类型的数据,并将多种数据进行融合来进行手语识别。
手语识别与翻译技术在智能手语手套中的应用智能手语手套是一种将手语识别与翻译技术应用于人工智能的产物。
它的出现为聋哑人士提供了更加便利和直观的交流方式,也为普通人了解手语文化提供了新的途径。
本文将从手语识别技术、手语翻译技术以及智能手语手套的应用三个方面,探讨这项技术在未来的发展前景和意义。
一、手语识别技术手语识别技术是指将手语姿势转化成数字化的过程,使计算机能够识别手指和手掌的位置、姿势、移动轨迹等信息。
手语识别技术最早是应用于虚拟现实和游戏控制中,但后来因为人工智能技术的发展而逐渐普及。
目前,手语识别技术已经可以应用于智能手语手套中,为聋哑人士和其他人士提供了交流工具。
手语识别技术主要分为两种,一种是基于传感器的手语识别技术,另一种是基于计算机视觉的手语识别技术。
基于传感器的手语识别技术主要采用压力传感器、伺服电机和惯性测量单元等传感器,通过采集手部动作数据并传输到计算机实现手语的识别。
基于计算机视觉的手语识别技术则通过摄像头等设备,采集手部图像数据,再通过图像处理、特征提取和分类等技术实现手语的识别。
二、手语翻译技术手语翻译技术是指将手语翻译成文字或语音的过程。
手语翻译技术主要分为两种,一种是机器翻译技术,另一种是语音合成技术。
机器翻译技术通过将手语识别的数字化信息翻译成文字,再通过自然语言处理技术将文字翻译成口语或其他语言。
语音合成技术则通过将文本转化成口语的过程,将机器翻译技术翻译出来的文本转化成语音输出。
手语翻译技术的主要难点在于手语与语言之间存在巨大的差异。
手语是以手部姿势、运动和空间位置为主要手段进行交流的语言,而语言则是以音、词汇和语法为主要手段进行交流的语言。
因此,手语翻译技术需要借助人工智能技术中的机器学习、深度学习等技术,以及手语语言学知识,来实现手语到语言的翻译。
三、智能手语手套的应用智能手语手套是一种将手语识别和翻译技术应用于手套的产物。
它使用压力传感器、惯性测量单元等传感器采集手部动作数据,实现手语识别,再将手语翻译成文字或语音输出。
手语识别与翻译技术研究手语是聋哑人群体的一种重要交流方式,它通过手势、动作和表情来传达信息。
然而,由于手语是一种非口语交流方式,对于非聋哑人群体来说,理解和学习手语是一项挑战。
为了帮助聋哑人群体更好地融入社会,近年来,手语识别与翻译技术得到了广泛的研究与应用。
手语识别技术是指通过计算机视觉和图像处理技术,将手语动作转化为文字或语音输出的过程。
在过去的几十年里,研究者们已经开发了许多手语识别系统,其目标是通过捕捉和分析手势动态来理解手语交流的含义。
通过使用摄像头捕捉手势动作并应用计算机算法,我们能够实现实时或离线的手语识别。
手语识别技术主要包括手势检测、手势跟踪和手势识别三个关键步骤。
首先,手势检测是通过计算机视觉技术检测图像或视频中的手势区域。
通过使用图像分割和背景建模等算法,我们能够将手势区域从背景中分离出来。
接下来,手势跟踪是通过计算机视觉技术跟踪手势的运动轨迹和姿态。
这可以通过使用特征点检测和运动跟踪算法来实现。
最后,手势识别是通过模式识别和机器学习技术将手势动作转化为文字或语音输出。
这需要建立一个手势数据库来训练分类器,并使用分类器来对手势进行分类和识别。
除了手语识别技术,手语翻译技术也是促进手语交流的重要工具。
手语翻译技术通过将手语动作转化为本地语言的文字或语音输出,帮助非聋哑人群体理解和交流。
手语翻译技术主要包括手语输入和语音输出两个关键过程。
首先,手语输入是将手势动作转化为计算机能够理解的形式。
这可以通过使用手语识别技术,将手势动作转化为文字或其他计算机编码形式,实现手势到计算机输入的转化。
接下来,语音输出是将手语转化为本地语言的文字或语音输出。
这可以通过使用文本-to-speech(TTS)或语音合成技术来实现。
手语识别与翻译技术的研究面临着一些挑战。
首先,手语的多样性和复杂性使得手语的识别和翻译变得复杂。
不同地区和文化有着不同的手语系统,手势动作的形式和含义也可能存在差异。
因此,建立一个通用的手语识别和翻译系统是一项挑战。
基于图像处理的手语识别系统设计与实现手语是一种以手的动作、姿势和手指代表词汇、语序和语法的语言。
因为用手表示,所以对于聋哑人士而言是一种重要的交流方式。
但是,对于不懂手语的人而言,往往很难理解手语的含义。
因此,基于图像处理的手语识别系统应运而生。
基于图像处理的手语识别系统可以将手语转化为文本或者语音,使得人们可以更加方便地与聋哑人士进行交流。
该系统的核心是手语识别技术。
在现代技术的帮助下,手语识别技术越来越发达,目前已经出现了多种手语识别系统。
本文将介绍如何设计和实现一种基于图像处理的手语识别系统。
一、手语识别技术手语识别技术是用来识别和理解手语的一种技术,常被用于聋哑人士的交流。
有三个主要的手语识别技术:手部姿势和动作识别、手部形状识别和手部运动轨迹识别。
手部姿势和动作识别是通过识别手部的姿势和动作来识别手语。
这种技术需要用到计算机视觉技术,通过提取图像中的手部轮廓和特征来识别手语。
手部形状识别是通过识别手掌的形状来识别手语。
这种技术需要用到形状识别技术,可以通过比较手掌的形状来判断手语的含义。
手部运动轨迹识别是通过识别手部运动轨迹来识别手语。
这种技术需要用到动作识别技术,可以通过比较手部的运动轨迹来判断手语的含义。
二、基于图像处理的手语识别系统设计为了设计一个基于图像处理的手语识别系统,需要考虑下列因素:1、图像采集与预处理在输入图像前,需要进行图像采集和预处理。
为了减少噪声和提高图像质量,需要对图像进行预处理,比如灰度化、滤波和边缘检测等操作。
2、特征提取与图像分类进行特征提取和分类是识别手语的关键。
通过图像的灰度值和形状等特征,可以将手语进行分类,进而识别出手语对应的词汇或语音。
这里可以选择使用SVM (支持向量机)等机器学习算法,训练模型,然后用该模型预测手语的识别结果。
可以使用Python的OpenCV和sklearn等库进行程序设计。
3、输出结果根据输入图像的手语内容来输出对应的文本或者语音。
手语识别算法的设计与实现手语是一种重要的沟通方式,尤其对于听力障碍者来说。
如今,随着科技的发展,人们对于手语识别技术的需求也日益增加。
手语识别算法,就是一种能够实现手语自动识别的技术,它可以帮助聋哑人士更加方便快捷地进行交流与沟通。
本文将会探讨手语识别算法的设计与实现过程。
一、手语的基本知识手语是以手部的运动及手指的形态为基本元素,传达语言含义的一种语言形式。
在手语中,每个手势都代表着一个或多个词语。
手语的表达方式通常有两种:一种是手语文字记录法,另一种是手语动作传达法。
手语文字记录法是一种将手语记录下来的技术,可以便于后续的学习和传播。
手语动作传达法是一种通过手部动作来传达信息的技术,由于其实用性而受到了广泛的关注。
二、手语识别算法的设计思路手语识别算法的设计核心是如何将手语姿势转换为能被计算机识别的信号。
首先需要对手语的脉冲信号进行采集和处理,然后运用机器学习算法对采集到的信号进行分类和识别。
于是,整个识别算法的流程就分为采集、处理和分类识别三部分。
采集手语识别算法中,采集部分主要是对手语脉冲信号的采集,这样才能获取到需要识别的手语动作信号。
利用压力传感器、陀螺仪等传感器将手语脉冲信号转化为数字信号,再通过模数转换器转为模拟信号送入电脑进行处理。
处理采集到的信号需要经过一定的处理,处理的目的主要是为了提高识别的准确性。
首先,需要对数据进行滤波、降噪等处理方式,去掉噪音。
其次,需要对数据进行降维或者特征提取,来达到减少数据量和提高识别效率的目的。
最后,需要对结果进行标准化和规范化处理,以便于训练和分类。
分类和识别在完成前两步处理后,整个手语识别的关键部分就是利用已有的数据及算法实现对手语动作的分类和识别。
在分类阶段中,机器学习是常用的方法,对已有数据进行判别分析或模式识别,将手语信号分为不同的类别。
在识别阶段中,对已有的标准库进行匹配,从而判断输入信号所代表的手语动作。
三、手语识别算法的实现技术在实现手语识别算法时,需要结合机器学习技术和深度学习技术。
在听取了别人的建议后,他打开了首都之窗网站的主页,在“奥运场馆”服务的列表下找到了这样一个栏目:《中国手语奥运常用语》。
安装好插件后,他即刻进入了中国手语奥运会常用语教学频道的界面:轻点鼠标,一位身穿中国红颜色外套的三维虚拟人就会适时地将“奥林匹克”、“残奥会”,以及“欢迎光临!”、“您想吃什么?”等常用词汇和句子演示为标准手语。
小张很高兴,有这样的老师帮助学习,自己一定能够顺畅地和聋哑朋友们交流。
历时八年的成果
或许很多人还不知道,为中国手语奥运会常用语教学提供技术支持的是中国科学院计算技术研究所的研究人员。
该所的手语识别与合成课题组历时8年,开发出了先进的手语识别与合成技术。
“顾名思义,手语识别与合成技术包括手语识别和手语合成两部分。
”参与该课题研究的中国科学院计算技术研究所普适计算研究中心常务副主任陈益强说
所谓“手语识别”,是指通过计算机采集设备获得聋哑人的手语数据,采用模式识别算法,结合上下文知识,获知手语含义,进而翻译成语音,传达给不懂手语的正常人。
这样,正常人就可以“听懂手语”。
而“手语合成”则是指正常人通过语音表达自己的意图,计算机将语音翻译为手语并表现出来,向聋哑人传递信息。
这样,聋哑人就能够“看懂声音”。
据了解,我国听力、语言残障人士超过2000万人,而且每年还在以2万~3万名的速度递增。
对手语——这类人群最重要的交际手段——进行研究,不仅有助于改善和提高这些残疾人士的生活、学习和工作条件,为他们提供更好的服务,同时也可以应用于计算机辅
助哑语教学、电视节目双语播放、虚拟人研究、电影制作中的特技处理、动画制作、医疗研究、游戏娱乐等诸多方面。
北京电视台的《新闻手语》栏目创办于1989年,是在国内最早推出的一档手语节目,曾引领全国电视公益事业先河。
2007年1月1日开始,《新闻手语》在北京卫视的播出时间由每日5分钟延长为8分钟,并在全国第一次启用数字模拟机器人打手语,手语播报更加标准化、程序化。
“为它们提供技术支持的就是我们。
”陈益强自豪地告诉记者。
据记者了解,此前电视台在播放手语新闻时,都是由一名手语翻译员来完成这一工作。
不过,在中科院计算技术研究所研制的电视台用手语电视节目制作系统的帮助下,新闻文本已经可以通过计算机自动合成手语视频窗口,与电视节目同步播放。
在2008年北京奥运会和残奥会举办过程中,由该所研制的奥运新闻实时播报系统也得到了展示,对奥运志愿者进行培训的奥运手语在线互动教学系统更是获得了北京市信息办和残联等各部门的支持,成为2008年残奥会志愿者必备的学习软件。
攻克五大难关
“尽管‘手语识别与合成’技术的出现,使得聋哑人与健听人之间的‘对话’成为可能,但要完全实现‘听懂手语,看懂声音’的目标还需要解决很多技术难点。
”陈益强说。
据了解,这些难点主要包括手语运动数据获取不完整、多维手语运动数据识别、大词汇量识别、非特定人的识别、手语多模态表达的复杂性及手语运动数据的重定向等。
为了解决这些难题,从2000年到现在,中科院计算所手语识别与合成项目组一直在着力攻克五大难
关,并在此过程中研发出了大量核心技术,申请国家发明专利20余项,其中手语编辑、手语翻译等相关专利已获授权。
“这五大难关主要包括数据采集和处理、大词汇量手语识别、非特定人手语识别、手语多模态表达以及手语运动数据重定向。
”陈益强说。
据介绍,手语识别系统主要分为基于数据手套的识别和基于视觉(图像)的手语识别系统。
基于数据手套的手语识别系统,是利用数据手套和位置跟踪器测量手势在空间运动的轨迹和时序信息。
这种方法的优点是系统的识别率高,缺点是打手语的人要穿戴复杂的数据手套和位置跟踪器,并且输入设备比较昂贵。
不过,由于摄像头在将三维立体的手语数据转为平面二维数据时会丢失很多数据信息,而数据手套获取三维数据信息的效果很好,因此手语识别与合成课题组决定主要以数据手套的方式采集数据。
“我们使用了2只数据手套和3个六自由度位置跟踪器,基于运动跟踪的原理,记录真实人体演示每个手语词的运动数据,以建立初始的手语词运动数据库。
然后,再对每个手语词的运动数据进行编辑与微调,最后得到高质量的手语词运动数据库。
”陈益强告诉记者。
据了解,在10多位聋校老师和很多聋校学生的帮助下,手语识别与合成课题组已建立了中国最大的手语词汇库,共有5500个词,并采用手语词根建模的识别方式来解决大词汇量的识别问题。
这已经走在了国际前列。
与实用的距离
“目前手语识别与合成技术与实用还有一定距离。
”陈益强毫不讳言。
据介绍,建立非特定人的识别模式是手语识别技术走向实用的关键。
然而,非特定人手语识别因为需要训练库包含更多人的手语样本,其数据多且差异大的特点导致模型训练难以集中。
此外,从不同人的数据中提取有效的共同特征也较为困难。
为此,手语识别与合成课题组采用了“自组织特征映射/隐马尔可夫模
型”(SOFM/HMM)相结合的模型。
实验结果表明,该模型比传统的HMM模型识别率提高近5%,较好地解决了非特定人识别问题。
此外,残疾人之间互相交流时,不仅看手的动作,还要通过表情和唇动等方式传递丰富的辅助信息。
手语识别与合成课题组由此提出利用大量真实多模式行为数据进行学习训练,获取单模式行为的韵律模型以及多模式行为之间的协同关联模型,从而实现虚拟人多模式行为之间的协同。
陈益强透露,在聋校的测试实验表明,经过多模式行为协同而合成的连续手语,其可懂度达到94.6%,比没有多模式协同的手语可懂度提高近6%。
即便如此,让陈益强遗憾的是,手语识别与合成技术目前仍在理解自然手语方面存在一定困难。
他希望未来能通过与从事机器翻译研究的人士合作越过这一障碍。
据悉,除此之外,手语识别与合成课题组还确立了新的目标框架。
他们一方面要将手语技术继续整合于功能日益强大的个人助理终端,完善软件功能;一方面则想基于计算技术领域最新成果,为用户提供新颖和更加人性化、个性化的服务。
如利用无线定位技术和行为识别技术,实时感知聋哑人所处位置和状态,向用户或监护人提供及时的视频播放服务或监护提示服务等。