基于视频的人体运动捕捉综述_李豪杰
- 格式:pdf
- 大小:356.31 KB
- 文档页数:7
《基于视觉的人体动作识别综述》篇一一、引言随着计算机视觉技术的快速发展,人体动作识别已经成为智能监控、人机交互、医疗康复等领域的重要研究课题。
基于视觉的人体动作识别技术能够从图像或视频中提取和解析人体动作信息,从而实现对人体行为的自动识别和理解。
本文旨在综述基于视觉的人体动作识别的研究现状,包括相关技术、方法和挑战,以期为后续研究提供参考。
二、人体动作识别的技术基础1. 特征提取:特征提取是人体动作识别的关键步骤,主要目的是从图像或视频中提取出与人体动作相关的特征。
常见的特征包括形状特征、纹理特征、光流特征等。
2. 模型构建:基于提取的特征,构建分类模型进行动作识别。
常用的模型包括支持向量机、隐马尔可夫模型、深度学习模型等。
三、基于视觉的人体动作识别方法1. 基于深度学习的方法:深度学习在人体动作识别中发挥着重要作用,尤其是卷积神经网络(CNN)和循环神经网络(RNN)的应用。
通过大量数据的训练,深度学习模型能够自动提取和识别人体动作特征。
2. 基于光流的方法:光流描述了图像序列中物体的运动信息,通过计算光流场可以提取出人体动作的动态特征。
基于光流的方法在人体动作识别中具有较高的准确性和实时性。
3. 基于骨骼信息的方法:通过深度相机或立体相机获取人体骨骼信息,进而进行动作识别。
该方法能够更准确地捕捉人体动作的细节,但需要较高的硬件设备支持。
四、人体动作识别的应用领域1. 智能监控:通过人体动作识别技术,可以实现智能监控和安防报警等功能,提高社会安全水平。
2. 人机交互:人体动作识别技术可以应用于虚拟现实、游戏、医疗康复等领域,实现自然、直观的人机交互。
3. 医疗康复:通过分析患者的康复动作,可以帮助医生评估患者的康复情况,为患者提供个性化的康复方案。
五、挑战与展望1. 数据获取与标注:大规模、多样化的数据集对于提高人体动作识别的性能至关重要。
然而,目前公开可用的数据集仍存在数据量不足、标注不准确等问题。
基于深度学习的视频人体动作识别与姿态估计研究视频人体动作识别与姿态估计是计算机视觉领域的一个重要研究课题,通过利用深度学习算法来自动识别人体在视频中的动作,并推断出其准确的姿态信息。
这项技术具有广泛的应用前景,例如智能监控、体感游戏、虚拟现实等领域。
在过去的几十年里,人体姿态估计和动作识别的研究取得了长足的进步。
传统的方法主要是基于手工设计的特征和简单的分类器进行动作识别和姿态估计。
然而,这些方法在面对复杂场景、光照变化等问题时表现不佳。
近年来,随着深度学习的兴起,基于深度学习的方法在视频人体动作识别与姿态估计领域取得了显著的突破。
深度学习模型能够从大量的数据中学习到特征表示,可以自动地从原始输入中提取出有用的特征信息。
这种端到端的学习方式使得模型可以直接从原始视频数据中学习,无需手工设计特征,从而在动作识别和姿态估计任务上取得了更好的性能。
在基于深度学习的视频人体动作识别与姿态估计研究中,有几个关键的技术和方法被广泛采用。
首先,卷积神经网络(Convolutional Neural Network,简称CNN)在视觉任务中取得了巨大成功,被广泛应用于姿态估计和动作识别任务中。
CNN可以自动地从图像或视频中提取出特征表示,然后通过全连接层和分类器进行动作的识别或姿态的估计。
其次,循环神经网络(Recurrent Neural Network,简称RNN)也被广泛用于动作识别和姿态估计任务。
循环神经网络可以对序列数据进行建模,因此非常适合处理时间序列的动作数据。
通过将CNN和RNN结合起来,可以在时空上对视频进行建模,从而更好地捕捉到动作中的时序信息。
除了CNN和RNN,注意力机制(Attention Mechanism)也被引入到动作识别和姿态估计中,用于提升模型的性能。
注意力机制可以自动地学习到图像或视频中重要的区域或帧,从而改善模型的鲁棒性和准确性。
此外,为了提升模型的泛化能力和适应能力,一些研究还引入了数据增强、迁移学习、多模态融合等技术。
基于视频流的人体识别技术研究人体识别技术是一种正在迅速发展的技术,特别是在视频监控、人脸识别、社交网络和虚拟现实等领域中的应用方面,人体识别技术的发展越来越受到广泛的关注。
本文将主要探讨基于视频流的人体识别技术,包括技术原理、应用场景和发展趋势等方面的内容。
一、技术原理基于视频流的人体识别技术主要是通过图像处理、计算机视觉和模式识别等技术,对视频中人体进行自动分析、识别和跟踪。
该技术包括以下主要组成部分:1.视频输入:从视频源(如摄像头)中获取待识别的视频流。
2.图像处理:对获取的视频流进行图像采集、去噪、增强等处理,以提高图像质量。
3.特征提取:从图像中提取人体的特征信息,如轮廓、颜色、纹理等。
4.模式识别:通过训练和识别模型,对提取出的特征信息进行分类和识别,以确定图像中所包含的人体的类型和状态。
5.跟踪:对于视频流中的每个待识别的人体,通过目标检测和跟踪算法,实现其在视频中的连续追踪和位置跟踪。
综合上述组成部分,基于视频流的人体识别技术可以自动识别和跟踪视频中的人体,从而实现视频监控、安保、行为分析、人机交互等广泛应用。
二、应用场景基于视频流的人体识别技术可以应用于许多领域,以下是其中的几个具有代表性的应用场景:1.智能安防:基于视频流的人体识别技术可以在监控系统中自动检测和识别行人、车辆等目标,并判断是否存在异常行为,进而提高安全性。
2.智能交通:通过识别视频流中的行车载具,可以实现车辆违章监测、自动收费、智能红绿灯控制等。
3.智能零售:基于人体识别技术,可以对顾客行为进行监测和分析,从而在营销、服务等方面进行个性化推荐和提高销售额。
4.虚拟现实:基于人体识别技术,可以实现人体姿态捕捉和动作识别,从而实现虚拟现实游戏、互动娱乐等应用。
三、发展趋势基于视频流的人体识别技术具有巨大的市场潜力和广泛的应用前景。
未来,随着人工智能、大数据等技术的发展和应用,人体识别技术将得到进一步的发展和完善,主要表现在以下几个方面:1.高精度识别:未来人体识别技术将在提高识别精度的基础上,进一步提高对大范围、复杂情况下的人体特征识别能力。
中国科学院计算技术研究所硕博连读生转博资格论文基于视频的人体运动捕捉刘国翌指导教师李华中科院计算所研究员学科专业名称计算机应用论文提交日期 2002.4基于视频的人体运动捕捉:摘要摘要本文的主要研究是在国家973项目“数学机械化方法和自动推理平台”(G1998030600)、“奥运科技项目”以及中科院计算所青年创新基金的支持下完成的。
本文系统地总结了当前基于视频的人体跟踪技术的研究进展,对涉及人体跟踪的基础理论和技术难点做出了详尽的讨论。
本文在总结前人工作的基础上,应用图象处理及运动预测等有关跟踪的相关技术,实现了从一段足球比赛视频录像中跟踪多个球员位置。
同时本文还从录像中自动提取禁区和球门区的边界线的参数表示,并利用提取结果进行摄像机定标和球员定位。
本文根据“奥运科技项目”的具体要求,针对举重运动项目,搭建了试验各种算法的实验平台,包括基于人体骨架模型的三级跳运动仿真,摄像机定标和基于人体轮廓的定性分析。
关键词:人体运动跟踪,视频捕捉,运动建模与分析基于视频的人体运动捕捉:AbstractVideo-Based Human Motion CaptureLiu GuoyiDirected By Li HuaThis report addresses the technique of Video-based Human Motion Capture ,gives a detail survey on the theories and techniques of Video-based Human Motion Capture and discusses the difficulties of motion capture and the possible solutions.This report also presents the work of tracking players from soccer match videos. Many tracking technique is used in this work, including image processing, mathematical morphology and Kalman filter to determine players’ positions in the video sequence. A method is presented to implement a quick segmentation and extraction of feature lines from a soccer video. The parameters of the white lines, which are around penalty area and goal area, are detected automatically. These parameters can be used to determine the camera parameters, reconstruct the soccer field, and compute the soccer players’ real positions.In order to prepare the ‘Technologically Advanced Olympiad’ project, this report discusses a framework of motion analysis on weight lifting. Some tests plants are set up to try various motion capture techniques including a 3D stick model, camera calibration and qualitative analysis on human’s silhouette.Keywords: human motion capture, motion extraction, motion modeling and analysis目录第1章绪论 (1)1.1 基于视频的人体运动捕捉技术及其应用 (1)1.2 问题描述和一般的跟踪框架 (2)1.3 跟踪问题难点 (3)1.4 今后研究趋势 (4)1.5 对前人所做系统的介绍和分析 (4)1.5.1 Pfinder 系统 (5)1.5.2 基于twist motion和exponential maps的方法...... 错误!未定义书签。
《基于视觉的人体动作识别综述》篇一一、引言随着计算机视觉技术的快速发展,人体动作识别技术在许多领域中得到了广泛的应用,如智能监控、人机交互、运动分析、医疗康复等。
基于视觉的人体动作识别是利用图像处理和计算机视觉技术,从视频或图像中提取并分析人体动作信息,从而实现对人体动作的识别和解析。
本文将对基于视觉的人体动作识别的研究现状、关键技术、应用领域以及挑战和未来发展趋势进行综述。
二、人体动作识别的研究现状近年来,基于视觉的人体动作识别技术得到了广泛关注,并在多个领域取得了显著的进展。
该领域的研究主要集中在特征提取、算法优化、数据集构建等方面。
目前,人体动作识别的准确性和实时性都有了显著的提高,为后续的应用提供了有力的支持。
三、关键技术1. 特征提取:特征提取是人体动作识别的关键步骤,主要包括基于手工设计的特征和基于深度学习的特征。
手工设计的特征如HOG、SIFT等,能够提取人体运动的时空信息;而深度学习特征则通过神经网络自动学习数据的特征表示,具有更强的表征能力。
2. 算法优化:针对不同的应用场景,研究人员提出了多种优化算法,如基于深度学习的卷积神经网络(CNN)、循环神经网络(RNN)和长短时记忆网络(LSTM)等。
这些算法能够有效地处理时序数据和空间数据,提高人体动作识别的准确性和实时性。
3. 数据集构建:数据集的规模和质量对人体动作识别的性能具有重要影响。
目前,研究人员已经构建了多个大规模的人体动作数据集,如UCF-101、KTH等。
此外,还有一些公开的竞赛平台如Kinetics等,为研究者提供了丰富的数据资源和交流平台。
四、应用领域基于视觉的人体动作识别技术在多个领域得到了广泛应用。
在智能监控领域,该技术可用于监控公共安全、交通监控等;在人机交互领域,该技术可实现自然的人机交互方式;在运动分析领域,该技术可用于运动员的技术分析和训练;在医疗康复领域,该技术可用于患者的康复训练和评估等。
五、挑战与未来发展趋势尽管基于视觉的人体动作识别技术取得了显著的进展,但仍面临一些挑战。
《基于视觉的人体动作识别综述》篇一一、引言随着计算机视觉技术的飞速发展,基于视觉的人体动作识别技术在许多领域中得到了广泛应用。
这种技术可以实现对人体动作的自动识别与理解,对于人机交互、智能监控、体育分析、医疗康复等领域具有重要意义。
本文旨在全面综述基于视觉的人体动作识别技术的研究现状,并展望其未来发展趋势。
二、人体动作识别的基本原理基于视觉的人体动作识别主要通过计算机视觉技术,对人体在空间中的运动轨迹进行捕捉、分析和理解。
其基本原理包括图像采集、特征提取、分类识别等步骤。
首先,通过图像采集设备(如摄像头)获取人体运动的视频或图像序列。
然后,利用图像处理技术提取出人体运动的特征信息,如关节点位置、运动轨迹、速度等。
最后,通过分类器对提取的特征信息进行分类识别,实现人体动作的识别。
三、人体动作识别的关键技术1. 特征提取:特征提取是人体动作识别的关键技术之一。
目前常用的特征包括关节点特征、光流特征、形状特征等。
其中,关节点特征通过检测人体骨骼关键点来描述人体动作,具有较高的准确性。
2. 深度学习:深度学习在人体动作识别中发挥了重要作用。
通过训练深度神经网络,可以自动学习和提取人体动作的复杂特征,提高识别的准确性和鲁棒性。
3. 行为分析:行为分析是对人体动作进行深入理解的过程。
通过分析人体动作的时空关系、运动规律等信息,可以实现对人体行为的全面理解。
四、人体动作识别的应用领域1. 人机交互:基于视觉的人体动作识别可以实现人与计算机之间的自然交互,提高人机交互的便捷性和智能化程度。
2. 智能监控:通过识别和跟踪人体动作,可以实现对公共场所的安全监控和预警。
3. 体育分析:对人体运动进行精确的识别和分析,可以用于运动员的训练和比赛分析,提高运动成绩。
4. 医疗康复:通过分析患者的康复训练过程,可以评估康复效果,帮助医生制定更有效的康复方案。
五、人体动作识别的研究现状与挑战目前,基于视觉的人体动作识别技术已经取得了显著的进展,但在实际应用中仍面临一些挑战。
《基于视觉的人体动作识别综述》篇一一、引言随着计算机视觉技术的飞速发展,基于视觉的人体动作识别技术已成为人工智能领域的重要研究方向。
人体动作识别技术能够通过捕捉、分析和理解人体运动信息,实现对人体行为的自动识别和判断,具有广泛的应用前景。
本文旨在综述基于视觉的人体动作识别的基本原理、研究现状、挑战与展望,为相关研究提供参考。
二、人体动作识别的基本原理基于视觉的人体动作识别主要依赖于计算机视觉技术,通过捕捉人体运动过程中的图像信息,提取特征并进行分类识别。
其基本原理包括图像采集、特征提取、分类识别三个阶段。
1. 图像采集:通过摄像头、红外传感器等设备获取人体运动的图像信息。
图像的分辨率、帧率等参数直接影响后续的特征提取和动作识别的准确率。
2. 特征提取:对采集到的图像信息进行预处理,提取出能反映人体运动特征的信息,如关节点轨迹、身体姿态等。
特征提取是动作识别的关键步骤,直接影响到识别准确率。
3. 分类识别:将提取出的特征信息输入到分类器中进行训练和识别。
分类器可采用各种机器学习算法,如支持向量机、神经网络等。
通过训练得到模型后,可对新的人体动作进行识别和判断。
三、人体动作识别的研究现状基于视觉的人体动作识别技术在多个领域得到了广泛应用,如体育训练、医疗康复、智能监控等。
目前,国内外学者在人体动作识别方面取得了丰富的研究成果。
1. 动作识别方法:研究人员提出了多种基于视觉的动作识别方法,包括基于模板匹配的方法、基于关键点的方法、基于深度学习的方法等。
其中,深度学习在人体动作识别中取得了显著成果,能够自动提取高层次的特征信息,提高识别准确率。
2. 数据集与模型:随着深度学习技术的发展,大量公开的人体动作识别数据集和模型被发布,如UCF-101、KTH、NTU RGB+D等数据集以及各种深度学习模型。
这些数据集和模型为人体动作识别的研究提供了便利。
3. 应用领域:人体动作识别技术在多个领域得到了广泛应用。
第18卷第11期2006年11月计算机辅助设计与图形学学报JO U RNAL OF COM PU T ER -AI DED DESIGN &COM PU T ER GRA PHI CS Vol 118,N o 111Nov 1,2006收稿日期:2005-10-17;修回日期:2006-07-28基金项目:北京市自然科学基金重点项目(4051004);北京市科技计划项目(D0106008040291,Z0004024040231)基于视频的人体运动捕捉综述李豪杰1,2)林守勋1) 张勇东1)1)(中国科学院计算技术研究所虚拟现实技术实验室 北京 100080)2)(中国科学院研究生院 北京 100049)(hjli@ict 1ac 1cn)摘要 系统地总结和介绍了基于视频的人体运动捕捉研究的技术方法和最新进展1将基于视频的人体运动捕捉方法分为自顶向下的方法和自底向上的方法2大类,阐述了每一类中各种方法的原理、技术特点和研究现状,最后分析了该领域的难点问题和发展趋势1关键词 计算机视觉;人体运动捕捉;人体运动跟踪;姿态估计中图法分类号 T P391A Survey of Video Based Human Motion CaptureLi Haojie 1,2) Lin Shouxun 1) Zhang Yongdong 1)1)(Virtual Reality L aboratory ,Institute o f Comp uting Technology ,Chinese Academy o f Scie nc es ,Beijing 100080)2)(Grad uate University of Chinese Academy o f Sciences,Beij ing 100049)Abstract A comprehensive survey of the research and recent developments of video based human motion capture (HM C)is presented 1The various approaches of H MC are classified into tw o categories:Top -dow n c ategory and Bottom -up category 1The approaches in each category are described and their principles and technical c haracteristics are summarized 1Finally,the open issues and technical trends of HMC are discussed 1Key words computer vision;human motion capture;human body tracking;pose estimation 基于视频的人的运动分析和理解是近年来计算机视觉领域广受关注的一个研究热点,其涉及的关键技术之一就是人体运动捕捉(human motion capture,HM C,本文专指基于视频的人体运动捕捉)1HM C 是指从一个或多个视角已同步的图像序列中恢复出人体姿态参数(关节点位置或关节角度)的过程,这里的姿态指头、躯干和四肢的运动,不包括表情和手语等小尺度的动作[1]1HM C 和分析的研究始于20世纪80年代初[2],因其重要的学术价值和广阔的应用前景,近几年已成为计算机视觉的一个活跃的研究领域1首先,HM C 技术涉及计算机视觉的许多基本问题,如运动检测、目标识别、刚体和非刚体跟踪、场景恢复与表示、多摄像机数据融合等,其研究成果可为计算机视觉其他领域所借鉴;HM C 还融合了图像处理、计算机图形学、人体运动学、最优化及机器学习等多学科的理论,极具挑战性1其次,HM C 技术有着极为广泛的潜在应用,如智能视觉监控中人的跟踪和行为分析,人机交互中的身体姿势、手势识别,体育和医学康复中的人体运动分析,虚拟现实中的交互式游戏、远程控制,以及动画和影视制作等[1,3]1因此,国内外一些重要学术机构都开展了与HMC 技术相关的研究[4-10]1文献[1]从系统功能角度将H MC 系统分成初始化、跟踪、姿态估计和识别4个阶段,并将姿态估计分为基于模型的方法、间接使用模型的方法和非模型的方法3类;文献[3,11]主要侧重于运动分析,分别按照人运动的分析方法和一般处理框架对相关工作进行了评述:这些文献概括的都是2000年以前的研究工作1由于应用驱动和新理论的引入,H MC 技术近几年取得许多新进展,发表了大量相关学术论文,本文重点概括了对H MC 研究近5年的相关工作,并对今后的发展趋势进行探讨,以期对本领域研究技术人员有所裨益11 自顶向下的捕捉方法HM C 是从2D 投影图像或图像序列中恢复场景中的3D 人体运动信息,这是一件非常困难的事情,原因如下:1)投影过程中会失掉深度信息,使恢复成为一个病态过程;2)人体是一个高自由度的关节连接结构,其运动复杂且存在自遮挡现象;3)图像噪声、摄像机运动等因素使得无法提取可靠的底层特征1自顶向下的捕捉方法通常称为基于模型的方法,该方法将人体模型投影并与图像匹配,以获得人体姿态参数1借助人体模型,可利用人体几何结构、运动模型等先验知识,有效地克服上述困难1本文将目前文献中基于模型的人体运动跟踪归入这类方法1自顶向下的捕捉方法采用/分析)合成0的方式,跟踪是在/预测)匹配)修正0的循环中实现的,其一般处理框架如图1所示1跟踪时,根据上一帧跟踪结果和运动模型预测当前状态,将预测的人体几何模型投影到图像平面,计算模型投影特征与图像特征的匹配误差,结合运动学约束,根据误差修正预测的状态,从而得到当前帧的人体姿态1图1 自顶向下的基于模型的人体运动跟踪处理框架采用自顶向下方法的运动跟踪系统涉及人体几何模型、人体运动学约束和运动模型、特征提取及优化算法等研究内容,除特征提取部分将在第3节介绍外,其余内容均在本节详细阐述1111 人体模型及其表示研究人员提出了各种人体结构和几何形状的表示方法,主要人体模型有棍图模型、2D 模型和3D 体模型等,如图2所示1图2 人体模型1)棍图模型是最简单的人体结构表示方法,它由如图2a 所示点和线段组成,分别表示关节点和骨骼1棍图模型可用来指导对图像特征的拟合,以获得人体姿态,也可作为运动捕捉的一种结果输出形式12)2D 模型用于单目视频的跟踪,对人体朝向或拍摄角度进行了限定,如要求被跟踪者平行于摄像机平面或面向摄像机运动等1最常用的是如图2b 所示的Cardboard 模型[12]和如图2c 所示的SPM (scaled prismatic model)[13]13)3D 模型包含深度信息,能有效地解决自遮挡和自碰撞问题,一般用在多摄像机跟踪中1该类模型包括骨架模型和形状模型2个部分1骨架模型用棍图表示,定义各骨骼长度及关节间连接关系;形状模型表示附着在骨架上的人体外围组织,一般用如图2d 所示基本体素(如圆台[5]、超二次曲面[14]等)的组合表示1上述模型除Cardboard 模型外,都属分层的树型结构1一般将骨盆或躯干定义为树的根,整个人体运动可视为由根节点的全局运动和子节点绕其父节点的旋转运动组成,因此,人体姿态可用根节点的位置、方向参数和关节角参数组成的状态向量表示1基于模型的人体运动跟踪就是在由状态向量张成的状态空间中搜索合适的点,使该点对应姿态的投影与图像特征最为匹配1112 人体运动的先验知识人体运动的先验知识是指人体运动学约束和运1646计算机辅助设计与图形学学报2006年动模型,在裁剪状态空间和运动预测时起重要作用11)人体运动学约束是指人运动时应遵从的限制,包括关节角的运动范围约束和身体各部分不能相互穿透的约束1这些约束可作为硬约束将状态空间分成合法部分和非法部分,以减少搜索范围[15];也可作为软约束,即惩罚因子,如刘国翌等[9]在其跟踪框架中建立了一个身体自相交代价函数,以避免产生身体部分相互穿透的结果12)运动模型描述人体运动规律,一般针对特定的运动模式(如行走、跑步、舞蹈等),用统计学习方式获得,它能大大地缩小解的搜索空间,且有助于解决遮挡问题,因此很多学者对此进行了研究1根据运动复杂程度,运动模型分成单层模型和分层模型2种1单层运动模型适合简单运动模式,如行走等,主要建模方法有主元分析法(principle c omponent analysis,PC A)[16]、高斯法[7]等1Sidenbladh 等[16]用商业运动捕捉系统获得行走的3D运动数据,将其按运动周期手工分割对齐后用多元PCA降维,得到一个主元表示的、紧凑的行走运动模型来指导跟踪1由于人的运动本质上是复杂的非线性过程,更多的学者使用分层的运动模型1在分层模型中,底层表示为线性过程,高层表示为这些线性过程间的转移概率,常用工具有隐马尔科夫模型[17]、可交换线形动态模型[18]、有限状态机[19]等1为对高维非线性状态空间进行建模,一般要进行降维聚类分析,主要有分层主成分分析[20]、最小描述长度法[19]等1基于单目视频的3D运动跟踪对某些应用(如视觉监控及对已存档视频的运动分析)十分有用,而从单目视频恢复3D姿态,运动模型具有重要意义1 113优化算法在自顶向下的跟踪中,优化是通过对状态空间的搜索来完成的,即在姿态参数空间中寻找合适的点,使该点所对应模型投影的表面形状与图像中的人体形状最为相似1然而,对由几十个自由度构成的高维状态空间搜索非常困难,除使用各种先验知识对状态空间进行剪枝外,还必须采取适当的优化算法进行搜索,这也是运动跟踪的核心内容1主要优化算法如下:1)微分法[6,9]1一种常用的优化方法,首先建立一个可微的目标函数,一般是模型投影特征与图像特征的差值函数,通过雅可比矩阵建立模型参数微分和图像坐标微分的联系;然后沿负梯度方向迭代地对模型参数修正,直到满足优化条件1该方法收敛速度快,但无法保证收敛到全局最优点,不适合跟踪大幅度运动12)动力学法[21-22]1在预测模型投影与图像数据(如人体轮廓)间生成一种物理力,类似弹簧弹力1力的方向由模型指向图像,当二者偏离时,该力使二者趋于重合,根据该力不断地修正模型参数,直至二者匹配为止1该方法可以跟踪大幅度运动,但无法保证其收敛性13)局部搜索法[14]1一种传统人工智能的方法,通过生成-测试的方式,在预测位置附近进行启发式搜索,寻找与模型最匹配的位置1为有效地搜索高维空间,一般要对状态空间进行分解,然后采用分层搜索方式1该方法速度较慢,且易陷入局部最优点14)Kalman滤波[23]1一种常用的跟踪算法,首先用前一时刻状态进行预测;然后根据预测状态和误差协方差确定搜索范围,在该范围内查找特征进行匹配得到测量值,用测量值差和增益矩阵对预测状态修正,得到状态参数的后验估计1Kalman滤波由于用概率来描述跟踪过程中的不确定信息(如噪声、杂乱背景等),同时保留了尽可能多的历史信息,因此跟踪更加鲁棒1但Kalman滤波是线性滤波器,要求系统状态和噪声都是单峰分布,这在实际中很难满足15)粒子滤波1在人体运动跟踪中,因噪声、杂乱背景及非线性动态系统的影响,状态分布呈多峰形式1此时Kalman滤波不再适用,而粒子滤波提供了一种方便、有效的计算多高斯后验概率的方法,在目标跟踪中获得广泛应用1粒子滤波是一种非参数的方法,用离散的带权重的样本(即粒子,一个粒子对应状态的一个假设)集合表示后验概率分布,利用概率传播采样点来模拟状态分布随时间的演化1将粒子滤波算法用于人体运动跟踪是近年来一个重要进展[5-8,16,24-26]1但在跟踪高自由度的人体运动时,该算法所需样本数随自由度增加呈指数增长,致使其效率极低1因此,目前基于粒子滤波的人体运动跟踪研究都集中在对算法效率的改进上,主要方法有:a1改进重采样方式[5],提高重采样样本的有效性;或用局部优化获得的协方差指导采样[6]以提高采样效率1b1与局部优化相结合1在前一时刻只保留少量局部最优假设,当前时刻仅从这些假设出发用梯度下降法优化[25],从而降低所需样本数目1c1分解状态空间,降低搜索维数,如将整个人体分成头P躯干和四肢,先对头P躯干采样,再对四肢部分采样[8]1d1使用辅助信息,如用底层特征检测获取人体姿态的一部分参数,以降低搜索维数[26];或将底层信息融入重要性函数[51],提高采样效率1粒子滤波具有全局搜索的性质,能避免局部164711期李豪杰等:基于视频的人体运动捕捉综述极值点,且允许底层特征提取有噪声;缺点是计算量太大,且跟踪结果不如前4种方法精确1114存在的问题自顶向下的捕捉方法,通过人体模型可方便地使用先验知识,解决遮挡问题,且跟踪结果较精确,适合运动分析方面的应用1但缺点也很明显:1)目前文献中大多采取手工标定方式进行人体模型的初始化,很难自动初始化;2)跟踪过程中会因误差累积、噪声等影响致使跟踪失败,难以自动恢复;3)优化速度慢,难以达到实时要求12自底向上的捕捉方法自底向上的捕捉方法是一类非模型匹配的姿态估计方法,通过对底层特征的跟踪、分析或推理获取人体姿态信息1主要有特征跟踪法、形状分析P标记法、识别法和推理法1211特征跟踪法特征跟踪法的捕捉原理是对输入图像序列,首帧标注或检测出人体关键点位置,后续帧中通过跟踪建立起帧间特征的对应关系,即可获得各时刻人体的姿态参数1该方法一般要求有明显的特征,如罗忠祥等[10]要求被跟踪者穿上特制的紧身衣,其各关节点处为不同的色块,通过对色块的跟踪得到2D 关节点位置序列;Pfinder系统[27]通过特定的姿势分析出头、手、脚的位置,对每个区域用空间位置和颜色建模,然后用颜色对这些区域进行跟踪,从而获得各帧的姿态1与基于模型的跟踪不同,在基于特征的跟踪中,各特征点间独立进行匹配,不考虑全局结构约束,因此处理简单、速度快,但人体不规则运动常使特征点出现重叠、自遮挡等现象,致使跟踪很不可靠1212形状分析P标记法该方法在文献[1]中被称为间接使用模型的方法,意指人体模型不直接用来匹配图像数据,而是作为启发式知识指导对图像特征(人体剪影或轮廓)进行分析和标记,以获得姿态信息1主要步骤如下: Step11获取人体剪影或轮廓(获取方法见第3节)1Step21对轮廓进行分析,找出轮廓上的特征点[28],如凸凹点(对应肢体末端,如头、手、脚、肘、膝等);或将轮廓分解成不同的部分[29](对应肢体及躯干)1Step31对分析出的特征点或部分进行标记或识别1通常有2种方法:a1基于规则的方法,针对特定姿势用人体模型的结构约束进行标记,如Haritaoglu等[28]用轮廓的水平和垂直投影人体分成4种基本姿势,然后根据特定姿势下人体轮廓上身体特征点之间的相对距离和拓扑顺序,将找出的凸凹点映射为身体不同部位;b1基于概率的方法,如Zhao[29]使用局部形状和全局几何关系作为相似度量,用贝叶斯方法对分割的各部分进行识别1形状分析P标记法无需初始化,对智能监控和人机交互等应用基本可达到实时要求1但其仅限对简单动作进行分析,所得结果亦不精确,且需提取准确的人体区域,对环境、光照要求较严格1213识别法该类方法需要训练数据,对事先标注的运动库建立索引或从中学习特征与姿态的对应关系,通过最近邻检索或函数映射获得人体姿态参数,从而将姿态估计问题转换为模式识别问题1识别法可分为模板匹配法和映射法2类11)模板匹配法先建立模板库,模板包括特征及相应的姿态1对测试图像提取特征后,用某种度量与模板库中的样例比较,用最相似样例的姿态作为估计结果1 Mori等[30]以边缘为特征,用形状关联匹配从模板库中找到最相似样例,从该样例获得输入图像的2D 关节点位置,再用T aylor法恢复出3D人体姿态1对复杂人体运动,不同姿态的图像投影特征可能非常接近,即特征与姿态的对应是1B N关系1为此,How e[31]从模板库中检索出相近的多个样例,对候选样例序列用时域相似性约束选出每帧的最佳匹配1除静态图像外,还可对运动序列进行匹配,如E-fros等[32]用光流作为描述子,从运动库中检索出最相近的动作姿态序列作为输出12)映射法通过监督学习获得映射函数,建立底层特征与姿态间的映射关系1该方法直接将底层特征映射为相应的姿态参数,无需保留样本库1常用映射工具有:神经网络[33]、相关向量机[34]、贝叶斯估计[35]等1 Ag arw al等[34]用人体轮廓的形状关联作特征,用Relevance Vector Machine作回归器,对输入特征直接输出相应的3D姿态参数;Elgammal等[33]用Lo-cal Linear Embedding技术对高维轮廓特征空间降维后,用广义径向基函数来学习映射关系1识别法无需人体模型和对高维空间的搜索,速度快、鲁棒性好,可获得3D姿态1但也存在如下缺陷:a1只能识别已知动作,且所得结果可能不精确; b1对于复杂运动,其训练样本集的覆盖性和代表性很难保证1214推理法在自顶向下的捕捉方法中使用的是全耦合的树型结构,树结构的缺点是难以融入底层信息,如人脸或身体其他部分的检测结果等,因此不易做到自动1648计算机辅助设计与图形学学报2006年初始化和失败恢复;且树结构的状态空间很难分解,导致计算量大1为克服这一困难,近年来很多学者用松耦合的图模型表示人体结构,采取自底向上方式,先独立检测或预测身体各部分位置,再通过概率推理获得满足人体几何结构约束的姿态配置1该类方法也可看作是对第113节中粒子滤波算法的改进1在图结构中,每个身体部分用变量X i表示,相应的图像观测特征为Z i,相邻部分间的连接是软约束,用势函数W i j(X i,X j)表示,前后帧同一部分间的时域约束也用势函数表示1这样,身体部分X i的后验概率p(X i|Z)的计算便包括:X i本身的先验分布W i(X i)、相似度p(Z i|X i)和其近邻的势函数对该部分产生的约束3部分,因此可对X i进行局部滤波1尽管如此,直接计算p(X i|Z)仍很复杂,一般采用近似推理算法,如中值场蒙特卡罗算法[36]、信念传播算法[37]、动态规划[38]等1这种基于身体部分检测结果推理的方法包括2个步骤:Step11身体部分的检测或预测,如人脸检测、肤色区域检测、基于模板的肢体检测[37]及帧间预测[36]等1这里不要求各部分的检测结果十分可靠,往往是含噪声的多个候选位置1Step21人体结构配置的推理,即通过贝叶斯推理求解满足约束的最大后验分布1由于对各部分进行局部滤波,推理法计算复杂度远小于对整个树模型的滤波方法,其局限性在于很难使用高层知识来处理自遮挡现象13特征提取本节介绍H MC中常用底层特征及其提取方法1特征提取是从图像中提取出边界、区域、轮廓、光流等底层特征,将前景与背景分离的过程1特征提取对HMC极其重要,在自顶向下的跟踪中,特征的选择决定了可采取的搜索策略及匹配的准确性和鲁棒性;在自底向上的方法中,姿态恢复的准确性则直接取决于特征提取结果1目前常用特征及提取方法如下:1)边缘1一般用来与模型投影边界进行匹配,用边缘作匹配能得到较精确的位置1提取边缘不要求背景固定,可用简单边缘提取算子,但易受背景和人体本身纹理的干扰,因此一般需要在相似度函数中考虑噪声的统计特性[6]12)剪影1即图像中的人体区域,用来与模型投影区域匹配1与边缘相比,剪影不易受噪声影响,但易丢失细节信息,一般可通过减背景、去除阴影、形态学滤波等操作得到[39]13)外轮廓1即剪影的边界,也是一种边缘特征1它可通过主动轮廓[21]变形得到,在能量函数中可融入多种测度,因此比边缘方法鲁棒,但计算量大14)图像模板1像素的灰度或颜色是一种最直接的特征,可将人体表示为一个或多个图像模板,跟踪时用模板匹配的方法将模板对齐到当前帧[12],但该方法存在模板更新问题15)光流1一种时序数据,反映帧间点或特征的一致运动,光流提取不要求背景固定,但计算量大、抗噪性差,该方法可用来估计模型的运动参数[26]16)小区域特征1如颜色块[10]、Blob[27]等,一般用在基于特征的跟踪中,用颜色模板或者颜色统计特征来表示17)3D数据1近年来很多研究者用3D特征数据进行跟踪和分析,如利用多摄像机立体匹配得到密集的3D点云[40],或使用轮廓重建技术得到人体的体数据表示[22]等1使用3D特征可避免优化中对模型多次投影,提高效率,但目前3D重建算法还不很成熟14难点问题和技术发展趋势经过20多年的研究,HM C技术虽已取得很大进展,但仍处于实验室研究阶段,现有系统一般都限于简单场景,且仅能捕捉单人或几个人的简单动作,其鲁棒性、精确性和速度离实用还有很大距离1很多难题还有待解决:1)不加约束的人与背景的自动分离问题1在动态环境中,因受摄像机运动、光照变化、杂乱背景及人与背景颜色相近等影响,该问题一直未得到很好解决;2)遮挡问题1在遮挡情况下,特别是当上肢与躯干服饰的颜色纹理相近时,很难从图像中将它们区分开来;3)人体建模问题1不同个体间身体结构、外形、衣着等差异使得人体形状的精确建模非常困难,而身体模型直接影响跟踪的精确性;4)人体模型的自动获取和失败恢复问题1目前算法多用手工初始化,因误差累积等原因无法对长序列跟踪,因此算法的/自举0性是实际应用时必须解决的难题;5)处理速度问题1人体姿态包含几十个自由度,如何对这一高维空间快速搜索以达到实时要求,也是亟待解决的1尽管面临众多难题,重要理论价值和广阔的应用前景仍是H MC研究的强大动力1我们认为,一个164911期李豪杰等:基于视频的人体运动捕捉综述鲁棒、精确的运动捕捉系统取决于测量技术和估计技术的进步,下面从这两方面分析HM C的发展趋势1在测量技术方面,使用多摄像机仍将是未来的技术趋势,借助多个摄像机,不仅可解决遮挡问题,还能恢复深度信息得到3D姿态;另外,结合多种类型的感知设备(如红外摄像机、3D扫描仪器、高清晰度摄像机等),将大大地提高观测特征的准确性和可靠性1在这方面,多视角及多类型数据的融合是重要研究方向1在估计技术方面,基于模型的3D跟踪能获取精确的3D姿态信息,具有更广泛的用途,仍将是研究重点,针对基于模型跟踪的难点,以下几个方面值得关注:1)结合计算机图形学建立更精细的人体模型,如Plankers等[40]用人体动画模型从不同层次对人体进行表示,以提高逼真性和跟踪精度;2)研究将自底向上和自顶向下的方法结合起来以弥补二者缺陷的方法,如Curio等[41]将底层特征映射得到的人体姿态,用于跟踪中模型的自动初始化和失败自动恢复;3)使用多种特征提高跟踪的鲁棒性1综合使用多种图像特征(如颜色、纹理、边缘、剪影及运动信息)能取长补短,将有效地提高跟踪的鲁棒性;此外,采用3D数据也是一个发展趋势;4)运动建模技术1使用运动模型能大大地提高跟踪效率和鲁棒性,但对任意人体运动或对人的大多数动作建模非常困难,借鉴语音识别方法,建立一些类似字母表的基本动作单元,从而构建动作库是一种可行的途径[24];5)为提高搜索速度以达到实时性要求,除期待新的理论算法外,采用并行处理是一种可行的方式[39];6)鉴于日常生活中人的交互行为的重要性,对多人体运动进行捕捉、理解也是重要趋势1参考文献[1]M oeslund T B,Granum E1A survey of com puter vision-basedhuman motion capture[J]1Com puter Vision and Image Under-standing,2001,81(3):231-268[2]O.Rourke J,Badler N I1M ode-l based image analysis of humanmoti on using constraint propagation[J]1IEEE Transactions onPattern Analysi s and M ach i ne Intelligence,1980,2(6):522-536[3]W ang Liang,Hu Weiming,T an T ieniu1Recent developmentsin human moti on analysi s[J]1Pattern Recogni tion,2003,36(3):585-601[4]Bregler C,M alik J,Pullen K1Tw ist based acqui sition andtracking of animal and human k i nematics[J]1Internati onalJournal of Computer Vision,2004,56(3):179-194[5]Deutscher J,Blake A,et al1Articulated body motion captureby annealed particle filteri ng[C]P P Proceedings of IEEE Interna-tional Conference on Computer Vision and Pattern Recognition,H il ton Head,2000,2:126-133[6]Sminchisescu C,T riggs Bill1Covariance scaled sampli ng formonocular3D body track i ng[C]P P Proceedings of IEEE Interna-tional Conference on Computer Vision and Pattern Recognition,H aw aii,2001:447-454[7]Ning Huazhong,Wang Li ang,e t al1Articulated model basedpeople track i ng usi ng motion models[C]P P Proceedings of IEEEInternati onal Conference of M ultimodal Interfaces,Pittsburgh,2002:383-388[8]Chen Rui,Liu Guoyi,et al13D human motion tracking basedon sequential M onte Carl o method[J]1Journal of Com puter-Aided Design&Computer Graphics,2005,17(1):85-92(inChinese)(陈睿,刘国翌,等1基于序列蒙特卡罗方法的3D人体运动跟踪[J]1计算机辅助设计与图形学学报,2005,17(1):85-92)[9]Liu Guoyi,Ch en Rui,et al1Vi deo-based3D human body mo-tion capture[J]1Journal of Computer-Aided Design&Comput-er Graphics,2006,18(1):82-88(in Chinese)(刘国翌,陈睿,等1基于视频的三维人体运动跟踪[J]1计算机辅助设计与图形学学报,2006,18(1):82-88)[10]Luo Zhongxiang,Zhuang Yueting,Pan Yunhe,e t al1Videobased motion capture[J]1Journal of Image and Graphics:A,2002,7(8):752-758(in Chinese)(罗忠祥,庄越挺,潘云鹤,等1基于视频的运动捕获[J]1中国图像图形学报:A版,2002,7(8):752-758)[11]Gavrila D M1The vi sual analysis of human movement:a survey[J]1Computer Vi sion and Image Understandi ng,1999,73(1):82-98[12]Ju S,Black M,Yacoob Y1Cardboard people:a param eterizedmodel of articulated motion[C]P P Proceedings of InternationalConference on Automatic Face and Gesture Recognition,Killing-ton,1996:38-44[13]M orris D D,Rehg J1Singularity analysis for articulated objecttracking[C]P P Proceedings of IEEE International Conference onComputer Vision an d Pattern Recogniti on,Santa Barbara,1998:289-296[14]Gavrila D M,Davis L S13-D mode-l based tracking of humans inaction:a mult-i view approach[C]P P Proceedings of IEEE Inter-nati onal Conference on Com puter Vi sion and Pattern Recogn-ition,San Franci sco,1996:73-80[15]M oeslun d T B,Granum E1Pose es timati on of a human arm usingki nematic constraints[OL]1[2005-10-17]1http:P P ww w.cvmt.dk P projects P puppet P html P publications P publications.html[16]Sidenbladh H,Black M,Fleet D1Stochastic tracking of3D hu-man figures using2D image motion[C]P P Proceedi ngs of Euro-pean Conference on Computer Vision,Dublin,2000:702-718 [17]Karaulova I A,Hall P M,M arshall A D1A hierarchical modelof dynamics for tracking people w ith a single video camera[C]P P Proceedings of British M achine Vision Conference,Bristol,2000:262-3521650计算机辅助设计与图形学学报2006年。