二维人体姿态估计研究综述
- 格式:pdf
- 大小:1.38 MB
- 文档页数:5
2d人体姿态估计算法2D人体姿态估计算法引言:2D人体姿态估计是计算机视觉领域的一个重要研究方向,旨在通过分析图像或视频中人体的姿态信息,实现对人体关节位置和姿态角度的准确估计。
该技术在人机交互、运动分析、行为识别等领域具有广泛的应用前景。
本文将介绍几种常见的2D人体姿态估计算法,并对其原理和特点进行详细阐述。
一、基于深度学习的2D人体姿态估计算法近年来,随着深度学习技术的迅猛发展,基于深度学习的2D人体姿态估计算法取得了重要突破。
这类算法通常使用卷积神经网络(Convolutional Neural Network,CNN)作为主干网络,通过对图像进行特征提取和姿态回归,实现对人体姿态的估计。
1. Hourglass网络Hourglass网络是一种经典的基于深度学习的2D人体姿态估计算法,其特点是通过堆叠多个Hourglass模块来实现对多尺度特征的融合和姿态回归。
每个Hourglass模块由对称的上采样和下采样组成,通过逐步减少分辨率和增加通道数,提取多尺度的特征表示。
该算法能够有效地处理遮挡和姿态变化等复杂场景,具有较好的鲁棒性和准确性。
2. OpenPoseOpenPose是另一种基于深度学习的2D人体姿态估计算法,其主要思想是将姿态估计问题转化为关键点检测问题。
该算法通过在CNN 网络中引入多分支结构,同时回归多个关键点的位置,实现对人体姿态的估计。
OpenPose算法具有较高的准确性和实时性,在人机交互、动作识别等领域具有较广泛的应用。
二、基于传统计算机视觉方法的2D人体姿态估计算法除了基于深度学习的方法,传统的计算机视觉方法也被广泛用于2D 人体姿态估计。
这类方法通常基于手工设计的特征提取和机器学习算法,虽然在准确性上不及深度学习方法,但仍具有一定的应用价值。
1. 随机森林随机森林是一种常用的机器学习算法,可以应用于2D人体姿态估计。
该算法通过构建多个决策树,使用随机的特征子集和样本子集进行训练,实现对人体关节位置的回归。
1引言人体姿态估计课题的发展已越来越贴近实际,例如在步态分析、人机交互以及视频监控等领域,人体姿态估计均具有广泛的应用前景。
目前主流的人体姿态估计算法可以划分为传统方法和基于深度学习的方法。
传统方法一般是基于图结构和形变部件模型,设计2D 人体部件检测器,使用图模型建立各部件的连通性,并结合人体运动学的相关约束不断优化图结构模型来估计人体姿态。
传统方法虽然拥有较高的时间效率,但是由于其提取的特征主要是人工设定的HOG(Histogram of Oriented Gradient)[1]和SHIFT(Scale Invariant Fea-ture Transform)[2]特征,无法充分利用图像信息,导致算法受制于图像中的不同外观、视角、遮挡和固有的几何模糊性。
同时,由于部件模型的结构单一,当人体姿态基于深度学习的人体姿态估计方法综述邓益侬,罗健欣,金凤林中国人民解放军陆军工程大学指挥控制工程学院,南京210007摘要:基于深度学习的人体姿态估计方法旨在通过构建合适的神经网络,直接从二维的图像特征中回归出人体姿态信息。
主要按照2D人体姿态估计到3D人体姿态估计的顺序,并从单人检测与多人检测、稀疏的关节点检测与密集的模型构建等方面,对近年来基于深度学习的人体姿态估计方法进行系统介绍,从而初步了解如何通过深度学习的方法得到人体姿态的各个要素,包括肢体部件的相对朝向和比例尺度、骨骼关节点的位置坐标和连接关系,甚至更为复杂的人体蒙皮模型信息。
最后,对当前研究面临的挑战以及未来的热点动向进行概述,清晰地呈现出该领域的发展脉络。
关键词:人体姿态估计;深度学习;关节点坐标;人体模型;检测回归文献标志码:A中图分类号:TP391.4doi:10.3778/j.issn.1002-8331.1906-0113邓益侬,罗健欣,金凤林.基于深度学习的人体姿态估计方法综述.计算机工程与应用,2019,55(19):22-42.DENG Yinong,LUO Jianxin,JIN Fenglin.Overview of human pose estimation methods based on deep puter Engineering and Applications,2019,55(19):22-42.Overview of Human Pose Estimation Methods Based on Deep LearningDENG Yinong,LUO Jianxin,JIN FenglinCollege of Command&Control Engineering,Army Engineering University of PLA,Nanjing210007,ChinaAbstract:Human pose estimation is a research hot point in the field of computer vision.The human pose estimation methods based on deep learning get directly human pose information from two-dimensional image features through an appropriate neural network.This paper mainly follows the sequence from2D to3D human pose estimation,from the single-person detection to multi-person detection,from sparse node detection to dense model building,has systematically introduced the human post estimation methods in recent years based on deep learning to give a preliminary understanding of how to acquire the elements of human pose through deep learning,including the relative orientation and ratio scale of limb parts,the position coordinates and connection relations of joint points,and the information of the even more complex human skin model information.In the end,it summarizes the current research challenges and future hot point trends, which clearly present the development venation of this field for readers.Key words:human pose estimate;deep learning;joint point coordinates;body model;detection and regression作者简介:邓益侬(1990—),男,硕士研究生,主要研究领域为深度学习,E-mail:nongyanquan@;罗健欣(1984—),男,博士,讲师,主要研究领域为深度学习、智能信息处理、图形学;金凤林(1972—),男,副教授,主要研究领域为计算机网络、卫星通信。
2D人体姿态估计综述作者:岳程宇闫胜业来源:《现代信息科技》2020年第12期摘 ;要:在神经网络深度学习流行的今天,2D人体姿态估计作为其他计算机视觉任务的研究基础,它的检测精度和速度对后续其他检测等任务有着重大的影响,并且引起了学者们的广泛关注。
文章针对该方向的研究内容进行了综述,阐述了研究意义和应用,对数据库和评价指标进行介绍,接着结合代表作分析研究了姿态估计的传统方法、深度学习方法,最后总结讨论现阶段研究的问题和趋势。
关键词:计算机视觉;姿态估计;人体关键点中图分类号:TP391.41 ; ; ;文献标识码:A 文章编号:2096-4706(2020)12-0090-03Abstract:Under the popularity of neural network and deep learning,2D pose estimation,the precision and speed of it has a great influence on the next task,and it has attracted wide attention of scholars. For this research details,this paper expounds the meanings and applications,introduces the databases and the evaluation indexes,then analyses the conventional methods and deep learning methods. Finally,it summarizes and discusses the current research problems and trend.Keywords:computer vision;pose estimation;key points of human body0 ;引 ;言2D人体姿态估计是计算机视觉研究中的一个重要分支,其研究结合了检测、识别、跟踪的相关方法。
人体姿态识别技术综述1.引言人体姿态识别技术作为计算机科学与人工智能领域的一个重要研究方向,已经取得了显著的进展。
该技术能够利用计算机对人体的姿态和动作进行准确识别和分析,为人机交互、虚拟现实、智能监控等领域提供了重要支持。
本文将对人体姿态识别技术的基本原理、现有方法以及应用领域进行综述,旨在系统地介绍该领域的进展和展望。
2.人体姿态识别技术的基本原理2.1 图像采集与预处理在人体姿态识别技术中,首先需要通过图像传感器或深度摄像头采集人体图像或视频。
然后,对采集到的图像进行预处理,包括图像去噪、图像增强、人体分割等,以便更好地提取人体姿态信息。
2.2 特征提取与表示特征提取与表示是人体姿态识别中的核心步骤。
常用的特征包括人体关节点位置、骨架结构、人体形状等。
在二维图像中,可以通过检测人体关键点或者骨架来提取姿态特征;在三维场景中,可以通过深度信息进行姿态估计。
2.3 姿态分类与识别基于提取到的姿态特征,可以通过机器学习算法或深度学习模型来实现人体姿态的分类与识别。
常见的方法包括支持向量机(SVM)、人工神经网络(ANN)和卷积神经网络(CNN)。
这些方法能够对人体的姿态进行准确分类和识别,为后续的应用提供关键信息。
3.现有的人体姿态识别方法3.1 基于传统计算机视觉的方法传统的计算机视觉方法主要包括模板匹配、卡尔曼滤波、矩形拟合等。
这些方法在处理简单场景和静态图像时具有一定的效果,但在复杂场景和动态环境下表现不佳。
3.2 基于深度学习的方法随着深度学习的快速发展,基于深度学习的人体姿态识别方法逐渐成为主流。
深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)等在人体姿态识别领域表现出色。
这些模型能够从大量图像或视频数据中学习人体姿态的特征,并实现高效准确的姿态估计与识别。
4.人体姿态识别技术的应用领域4.1 人机交互人体姿态识别技术可以为人机交互提供更加自然和智能的方式。
人体姿态估计算法的研究与实现正文:一、绪论人类的日常活动与工作中,持续时间长、站姿不正、歪脖子撇肩等不良姿态现象普遍存在,使得人们的身体健康受到了很大的威胁。
姿态估计技术是解决这些问题的重要方法之一,也广泛应用于医学、体育、电影、虚拟现实等领域。
本文就人体姿态估计算法的研究与实现进行探讨。
二、人体姿态估计算法人体姿态估计算法的研究包括基于图像的方法和基于传感器的方法。
1. 基于图像的方法基于图像的姿态估计方法通常采用计算机视觉技术,基于单目或多目相机对人体图像的处理、提取特征和估计姿态。
其中比较成熟的包括基于模型的方法和基于深度学习的方法。
- 基于模型的方法基于模型的方法使用已知的人体模型来拟合人体姿态,包括人体骨骼结构和肌肉组织等。
通过对模型姿态参数的估计,实现对真实人体姿态的估计。
- 基于深度学习的方法基于深度学习的方法主要采用卷积神经网络(CNN)和循环神经网络(RNN)等模型,通过训练模型学习特征和姿态估计。
常见的网络结构包括Stacked Hourglass和OpenPose等。
2. 基于传感器的方法基于传感器的姿态估计方法通常采用陀螺仪、加速度计、磁力计和传感器融合等技术,通过传感器采集数据并融合处理,实现对人体姿态的估计。
其中比较成熟的包括惯性测量单元和磁力计惯性导航系统等。
三、姿态估计实现技术人体姿态估计的实现技术包括人体建模、特征提取和姿态估计三个步骤。
1. 人体建模人体建模是人体姿态估计基础。
人体建模需要将人体模型与图像对齐,即将一个三维人体模型映射到二维图像平面上。
建模技术主要包括基于形状的建模和基于纹理的建模两种方法。
其中基于形状的建模使用体素网格、三角网格等技术,基于纹理的建模使用纹理参数化、模型展开等方法。
2. 特征提取特征提取是从人体图像中提取有用的信息作为姿态估计的输入,包括人体关键点、人体骨骼信息和肢体关系等。
特征提取常采用卷积神经网络和深度学习技术,根据不同的应用场景和任务,可以设计不同的特征提取网络。
二维人体姿态估计研究综述李崤河; 刘进锋【期刊名称】《《现代计算机(专业版)》》【年(卷),期】2019(000)022【总页数】5页(P33-37)【关键词】深度学习; 人体姿态估计; 关键点检测【作者】李崤河; 刘进锋【作者单位】宁夏大学信息工程学院银川750021【正文语种】中文0 引言人体姿态估计长久以来一直是计算机视觉领域的一个热点问题。
其主要内容,是让计算机从图像或视频中定位出人物的关键点(也称为关节点,如肘、手腕等)。
人体姿态估计作为理解图像或视频中人物动作的基础,一直受到众多学者的关注。
随着计算机技术的迅猛发展,人体姿态估计已经在动作识别、人机交互、智能安防、增强现实等领域获得了广泛应用。
人体姿态估计按维度可分为二维和三维两种:二维人体姿态估计通常使用线段或者矩形来描述人体各关节在图像上的投影位置,线段的长度和角度表示了人体的二维姿态;三维人体姿态估计通常使用树模型来描述估计的姿态,各关节点的位置使用三维坐标确定。
在实际应用中,目前获取的大多数图像仍是二维图像,同时三维姿态估计可以使用二维预测进行推理[1],所以二维姿态估计有着重要的研究价值。
自人体姿态估计的概念提出以来,国内外的学者对此做出了不懈的努力。
传统的姿态估计算法主要是基于图结构(Pictorial Structures)模型[2]。
该模型将人或物体表示为多个部件的集合,这些部件之间含有空间约束,通过人工指定的特征检测组件实现关节点检测。
传统方法过于依赖手工设计的模板,难以应付复杂的姿态变换并且推广到多人姿态估计。
随着深度学习技术在计算机视觉领域大放异彩,部分学者开始研究如何利用深度学习来解决人体姿态估计问题。
Toshev 等人利用深度卷积神经网络对人体姿态进行全局推断,提出了完全基于神经网络的模型DeepPose[3]。
DeepPose 是第一个将深度学习方法应用于人体姿态估计的主要模型。
该模型实现了SOTA 性能并击败了当时的传统模型。
基于深度学习的人体运动姿态估计技术研究近年来,随着人工智能技术的不断发展,深度学习已经成为了人工智能领域的热点话题。
深度学习算法通过大量数据的训练,可以自动学习特征,从而实现对于复杂问题的解决。
在计算机视觉领域中,深度学习技术得到了广泛应用,其中的基于深度学习的人体运动姿态估计技术也逐渐成熟。
1. 人体姿态估计技术的意义人体姿态估计技术是指通过计算机对人体运动姿态进行识别和分析,得到人体部位的三维位置和运动状态等信息。
这项技术可以广泛应用于体育教学、运动训练、视频游戏、健康管理等领域。
在体育教学中,通过对运动员的姿态进行计算和分析,可以评估运动员的动作、减少运动员的受伤风险,提高运动员的表现水平。
在运动训练方面,对运动员的姿态进行测量和分析,可以为运动员的训练提供更加科学的依据,从而提高运动员的训练效果。
而在健康管理方面,人体姿态估计技术可以通过检测人体姿态,提供姿势不良的改正建议,并且可以通过定期对身体姿态的检测来评估身体的健康状况。
2. 基于深度学习的人体姿态估计技术基于深度学习的人体姿态估计技术是指利用深度学习算法对人体运动姿态进行识别和分析。
深度学习技术可以通过网络模型对大量的数据进行训练,从而实现对于人体运动轨迹的自动学习和预测。
目前,基于深度学习的人体姿态估计技术主要分为两种方法:一种是基于二维图像的姿态估计,另一种是基于三维点云的姿态估计。
(1)基于二维图像的姿态估计基于二维图像的姿态估计是指利用摄像机采集到的图像对人体进行分析和识别,从而得到人体运动姿态的信息。
该方法通常基于卷积神经网络(ConvolutionalNeural Networks,CNN)来进行分析和识别。
CNN模型可以通过对大量的图像进行训练,从而实现对人体姿态的自动识别和分析。
(2)基于三维点云的姿态估计基于三维点云的姿态估计是指利用激光雷达、立体相机等设备对人体进行采集,从而获取人体三维点云数据,再利用深度学习模型对三维点云数据进行分析和处理。
人体姿态识别与追踪算法综述摘要:人体姿态识别与追踪算法在计算机视觉和机器人领域具有重要的应用价值。
本文综述了人体姿态识别与追踪的相关算法和技术,包括基于深度学习的方法、基于传统机器学习的方法以及基于传感器的方法。
同时,我们还探讨了算法的优缺点以及未来的发展方向。
1. 引言人体姿态识别与追踪算法是一种通过计算机视觉技术对人体姿态进行自动检测的方法。
它在人机交互、智能驾驶、运动分析等领域具有广泛的应用。
本文将综述目前常见的人体姿态识别与追踪算法,并对其进行分析和比较。
2. 基于深度学习的方法深度学习在图像处理领域取得了显著的成果,也被广泛应用于人体姿态识别与追踪任务。
基于深度学习的人体姿态识别算法主要基于卷积神经网络(CNN)和循环神经网络(RNN)。
例如,OpenPose算法通过将人体姿态识别问题转化为关键点检测问题,使用了一个多阶段的卷积神经网络来预测人体的关键点坐标。
Hourglass网络通过堆叠多个子网络来提取多尺度特征,从而更加准确地估计人体姿态。
这些基于深度学习的方法在准确性和鲁棒性方面取得了显著的提升。
3. 基于传统机器学习的方法除了深度学习方法,传统的机器学习方法也被应用于人体姿态识别与追踪任务。
这些方法主要基于特征提取和分类器训练两个步骤。
例如,隐马尔可夫模型(HMM)被广泛用于动作识别和轨迹追踪。
支持向量机(SVM)在人体姿态的分类和识别中表现出良好的性能。
这些传统机器学习方法在一些特定场景下仍然具有一定的应用优势。
4. 基于传感器的方法传感器在人体姿态识别与追踪中扮演重要角色。
通过使用传感器,可以获取更加精确和丰富的人体姿态信息。
例如,惯性测量单元(IMU)可以用于测量人体的运动状态,通过与图像处理算法结合使用,可以实现更加准确的人体姿态识别。
此外,激光扫描仪、红外热像仪等传感器也可以用于获取人体姿态相关的信息。
5. 算法的优缺点不同的人体姿态识别与追踪算法具有各自的优缺点。
基于深度学习的方法虽然在准确性方面表现出色,但其模型复杂度高,对硬件要求较高,且需要大量的训练数据。
人体运动姿态识别算法综述人体运动姿态识别是近年来计算机视觉领域的研究热点之一。
它的应用非常广泛,涵盖动作捕捉、运动分析、人机交互等许多领域。
随着深度学习技术的发展,许多基于深度学习的人体运动姿态识别算法也应运而生,这些算法在性能上已经可以达到甚至超过传统的基于手工特征的算法。
本文将综述一下常见的人体运动姿态识别算法。
1、朴素贝叶斯分类器朴素贝叶斯分类器是一种基于统计学习的分类方法,它的思想是利用贝叶斯定理来预测样本的类别。
在人体运动姿态识别中,朴素贝叶斯分类器可以用来区分不同的姿态,例如抬手、握拳等。
该方法的好处是算法简单、执行速度快,但是它的准确率相对其他算法比较低。
此外,朴素贝叶斯分类器对于连续型变量的应用不太适合,因为它假设样本的属性之间是相互独立的。
2、支持向量机支持向量机是一种广泛应用于模式识别和分类的机器学习方法。
它的基本思想是将样本映射到高维空间中,然后找到一个超平面来分隔不同类别的样本。
在人体运动姿态识别中,支持向量机可以用来实现多类别分类,例如区分站立、跑步、跳跃等不同的运动状态。
支持向量机的优势在于可以处理高维数据、泛化能力强、适用于非线性分类等方面。
3、隐马尔可夫模型隐马尔可夫模型是一种基于统计的序列分类模型。
它的核心思想是,通过转移矩阵和发射矩阵来描述样本之间的关联关系。
在人体运动姿态识别中,隐马尔可夫模型可以用来识别动作序列,例如区分连续起跳和单次起跳等。
该方法的优点在于能够处理序列数据,并且可以适应不同的时间长度。
4、深度学习算法深度学习算法是当前人体运动姿态识别领域研究的热点之一。
它的基本思想是通过多层神经网络来学习抽象的特征表示。
在人体运动姿态识别中,深度学习算法可以用来实现端到端的姿态估计,例如使用卷积神经网络来预测人体骨架的姿态。
深度学习算法的优点在于它能够自动地学习特征表示,克服了传统手工特征需要耗费大量时间的问题。
总之,人体运动姿态识别是一个非常重要的领域,有许多不同的算法可以用来实现它。
人体姿态估计技术及其在医学影像中的应用研究随着科技的不断进步,人体姿态估计技术也得到了日益广泛的应用。
人体姿态估计是指通过计算机视觉、模式识别、计算机图形学等技术,对人体在三维世界中的姿势进行检测和分析,从而获取人体各关节角度、空间位置等信息。
该技术在医学影像领域中的应用尤为突出,能够为医生提供更加精准、有效的数据,从而提升医疗诊断和治疗水平。
一、人体姿态估计技术的分类与发展目前,人体姿态估计技术主要分为两类:一种是基于单目RGB图像的2D人体姿态估计技术,主要应用于人脸识别、动作识别等方面;另一种是基于深度传感器的3D人体姿态估计技术,主要应用于医学影像、虚拟现实等领域。
随着深度学习技术的发展,2D和3D人体姿态估计技术都得到了不断完善。
目前,应用最为广泛的是基于深度传感器的3D人体姿态估计技术。
该技术利用深度传感器获取场景中人体的深度信息,利用深度图像进行三维点云重建并进行人体姿态计算。
该技术具有精度高、稳定性好、鲁棒性强等优点,已广泛应用于虚拟现实、医学影像、运动分析等领域。
二、人体姿态估计技术在医学影像中的应用人体姿态估计技术在医学影像中的应用主要是利用深度传感器进行三维重建,获取人体各关节的角度、空间位置等信息,从而为医生提供更加准确、有效的数据,从而提升医疗诊断和治疗水平。
1.关节识别与分析人体关节是各种运动的枢纽,人体姿态估计技术可以快速、准确地识别人体各个关节,并分析其运动状态。
例如,运用该技术可以准确测量髋、膝、肩等关节的角度和活动范围,并结合病人的病历记录,帮助医生进行更加精准的诊断和治疗。
2.运动分析与康复训练人体姿态估计技术可以通过对运动的跟踪和分析,为康复训练提供更加科学、有效的数据和方式。
例如,在康复训练中,可以通过该技术准确跟踪运动员的关节运动情况,并通过数据分析和图像对比,在调整训练计划和康复方案方面提供更加科学的依据。
3.疾病筛查与监测通过应用人体姿态估计技术,医生可以更加高效地进行疾病筛查,监测病人的健康状况,从而更好地制定诊疗计划。
文章编号:1007-1423(2019)22-0033-05DOI:10.3969/j.issn.1007-1423.2019.22.007二维人体姿态估计研究综述李崤河,刘进锋(宁夏大学信息工程学院,银川750021)摘要:人体姿态估计一直是计算机视觉中一个备受关注的研究热点,在智能安防、人机交互、动作识别等领域有着重要的研究价值。
近年来,随着深度学习技术的快速发展,人体姿态估计效果不断提升,已经开始广泛应用于计算机视觉的相关领域。
梳理二维人体姿态估计算法的发展与现状,总结传统算法与基于深度学习的姿态估计算法的发展与改进,并做出对比;讨论二维人体姿态估计所面临的困难与挑战,并对未来的发展方向做出展望。
关键词:深度学习;人体姿态估计;关键点检测基金项目:宁夏高等学校科学研究项目(No.NGY2015044)0引言人体姿态估计长久以来一直是计算机视觉领域的一个热点问题。
其主要内容,是让计算机从图像或视频中定位出人物的关键点(也称为关节点,如肘、手腕等)。
人体姿态估计作为理解图像或视频中人物动作的基础,一直受到众多学者的关注。
随着计算机技术的迅猛发展,人体姿态估计已经在动作识别、人机交互、智能安防、增强现实等领域获得了广泛应用。
人体姿态估计按维度可分为二维和三维两种:二维人体姿态估计通常使用线段或者矩形来描述人体各关节在图像上的投影位置,线段的长度和角度表示了人体的二维姿态;三维人体姿态估计通常使用树模型来描述估计的姿态,各关节点的位置使用三维坐标确定。
在实际应用中,目前获取的大多数图像仍是二维图像,同时三维姿态估计可以使用二维预测进行推理[1],所以二维姿态估计有着重要的研究价值。
自人体姿态估计的概念提出以来,国内外的学者对此做出了不懈的努力。
传统的姿态估计算法主要是基于图结构(Pictorial Structures)模型[2]。
该模型将人或物体表示为多个部件的集合,这些部件之间含有空间约束,通过人工指定的特征检测组件实现关节点检测。
传统方法过于依赖手工设计的模板,难以应付复杂的姿态变换并且推广到多人姿态估计。
随着深度学习技术在计算机视觉领域大放异彩,部分学者开始研究如何利用深度学习来解决人体姿态估计问题。
Toshev等人利用深度卷积神经网络对人体姿态进行全局推断,提出了完全基于神经网络的模型DeepPose[3]。
DeepPose是第一个将深度学习方法应用于人体姿态估计的主要模型。
该模型实现了SOTA性能并击败了当时的传统模型。
之后,越来越多基于深度学习的人体姿态估计方法相继提出。
本文总结了近几年来二维人体姿态估计的发展历程,从早期的基于模板匹配算法到目前的基于深度学习的姿态估计算法,分析比较相关算法的优缺点及性能,并结合现有问题对未来发展进行了展望。
1传统算法早期的人体关键点检测算法基本都是在几何先验的基础上基于模板匹配的思路进行的,其中Fischler[2]于1973年提出的图结构是其中一个较为经典的算法思路。
它将物体表示为多个部件的集合,部件之间具有一定的空间约束。
2005年,Felzenszwalb和Huttenlo⁃cher[4]将图结构归入统计学的框架,并假设各个部件之间服从树形结构。
这极大地降低了计算复杂度,使图结构在人体姿态估计领域得到了很好的应用。
此后,一系列基于图结构的人体姿态估计算法被提出。
图结构主要包含两个部分,其一是部件模型(Part Model),用于描述组成物体的各个部件;其二是空间模型(Spatial Model),用于描述各个部件之间的空间关系。
大多数的研究致力于寻找表达能力更强的部件模型和空间模型来提高姿态估计的准确率。
与早期方法相比,部件模型中使用了表达能力更强的图像特征,例如,HOG[5]和SIFT[6]特征。
Ramanan从图片中提取具有表达能力的模板来解决关节匹配问题。
此外,前景分割技术也被集成到姿态估计中[7],更具判别性的部件检测器被训练出来用于姿态估计[8]。
空间模型方面,非树形结构的模型被提出,用于解决人体姿态估计中的自遮挡问题[9]。
Yang和Ra⁃manan[10]提出的混合部件(Mixtures of Parts)模型能够表达更为复杂多样的空间约束。
该模型包含多种对姿态估计非常重要的信息,例如,部件的几何形变约束、部件的外观信息等。
除了关注两个部件之间的空间约束,也有一些工作关注更大范围的约束。
例如,用于上半身姿态估计的Armlet[11]和用于整体姿态估计的Pose⁃let[12]。
2基于深度学习的方法传统的姿态估计算法依赖于物体的外观特征,如纹理、边缘、颜色、前景轮廓或手工设计的局部特征,有一定的局限性。
卷积神经网络的提出极大地促进了计算机视觉技术的发展。
随着Toshev等人提出Deep⁃Pose网络[3],人体姿态估计的研究开始从经典方法转向深度学习方法。
近几年提出的姿态估计算法普遍采用ConvNets作为模型的主要构建单元,这一策略极大地提升了姿态估计的准确率。
基于深度学习的人体姿态估计主要分为单人姿态估计和多人姿态估计两个方向。
单人姿态估计指输入图像中只包含一个人物,算法的主要任务是检测出该目标的所有关键点。
多人姿态估计的输入图像中包含不定数量的人物,该研究方向更适用于实际场景。
同时,多人姿态估计不光要检测出图像中所有的关键点,还要对关键点进行聚类,将同一个人的关键点分配到一起。
2.1单人姿态估计(1)相关算法Toshev[3]将姿态估计设计为一个基于神经网络的人体关节点回归问题。
与基于图模型的方法相比,该方法不需要显式地设计出部件的特征表示和部件检测器,也不需要显式地设计出模板间的拓扑关系。
更进一步,作者使用了基于神经网络的级联回归器。
这种级联回归器能够增加关节点定位的精度。
Carreira[13]针对前馈神经网络不能很好地对输出空间中的依赖关系进行有效建模问题,提出了一个自校正模型——迭代错误反馈(Iterative Error Feedback),该模型通过反馈错误预测逐步调整初始预测。
同时,一部分学者[14-15]将图结构作为人体先验知识加入神经网络模型中,借此提高模型的学习能力。
2015年之前的主要方法将关节点直接回归到精确的坐标点(x,y),这增加了学习复杂度,降低了模型的泛化能力,因此在某些场景表现很差。
随后,Tompson[16]对网络模型进行了改进。
该网络输出低分辨率、逐像素的热图,热图描述了该部件可能位置的概率分布,而不是直接回归预测关节点坐标,提高了关节点定位的鲁棒性。
然后将各部件位置的概率分布作为先验输入“位置细化”模型计算出部件的最终位置。
这种输出模型非常成功,许多后续的论文都采用了这种方法。
为了增强网络模型对不可见关节点的预测能力,Tompson[14]和Yang[17]将图模型应用到神经网络中。
同时,部分学者通过构建多阶段CNN回归模型[18-20],增加网络的感受野,以此提高模型的预测能力。
例如,Wei[18]提出的卷积姿态机(Convolutional Pose Machine)可以同时学习图像特征和依赖于图像的空间模型;Newell[19]构造的经典网络结构——堆叠沙漏网络,可以更好地混合全局和局部信息。
(2)性能比较单人姿态估计的公开数据集主要有MPII单人数据集[21]、LSP数据集[22]和FLIC数据集[23]。
评价指标为PCK(Percentage of Correct Keypoints)即关键点正确估计的比例,通常需要计算检测的关键点与其对应真值之间的归一化距离小于设定阈值的比例。
MPII数据集中是以头部长度的50%作为归一化参考,即PCKh@ 0.5。
目前MPII单人数据集的算法排名如表1所示。
表1单人姿态估计算法性能对比2.2多人姿态估多人姿态估计计单人姿态估计的输入图像中仅包含单个目标,算法只需要确定单人的关键点坐标即可,应用场景简单。
而多人姿态估计需要确定图像中不定数量人体的关键点坐标,同时将同一个人的关键点聚类到一起,算法更为复杂。
目前,多人姿态估计有两种主流的研究方法:自顶向下(Top-Down)和自底向上(Bottom-Up)。
(1)基于自顶向下的方法该类方法的基本思路是先使用目标检测算法检测出多个人,再对每个人应用单人姿态估计。
该方法的精度依赖于目标检测算法的输出精度和单人姿态估计的精度。
同时,多人图像中遮挡问题更加严重,如何准确预测出不可见关节点是多人姿态估计中的一个重要研究方向。
Papandreou[29]构建了一个二阶段网络,其中第一阶段使用Faster R-CNN检测出可能包含人物的区域,第二阶使用全卷积残差网络预测每个人的关节点坐标。
作者在第二阶段引入了两个偏移参数来提高关节点的预测精度。
Chen等人[30]通过将第一阶段网络得到的所有层次特征整合到一起,并结合在线困难关键点挖掘(Online Hard Keypoint Mining)技术,着重于“困难”关键点的检测。
针对自顶向下方法可能会产生的检测框定位误差以及对同一个目标重复检测等问题,Fang[31]提出了RMPE(Regional Multi-person Pose Estimation)框架。
其中,SSTN(Symmetric Spatial Transformer Net⁃work)网络可以从一个不准确的目标框中提取高质量的单人区域;参数化的姿态非极大值抑制算法用于消除冗余位姿。
(2)基于自底向上的方法该类方法主要包含两部分,关键点检测和关键点聚类。
其中,关键点检测需要将图片中所有类别的所有关键点全部检测出来,然后对这些关键点进行聚类,将不同人的不同关键点连接到一起,从而聚类产生不同的个体。
这方面的论文主要侧重于对关键点聚类方法的探索。
Cao等人[32]使用向量场对人体的不同肢体结构进行建模,解决了单纯使用肢体中间点产生的错连问题。
Xia[33]则采用部位分割的思想对关键点间的关系进行建模,该方法既可以显示的提供人体关键点之间的空间先验知识,同时也对关键点的聚类产生辅助作用。
Newell等人[34]提出了一个单阶段的端到端多人姿态估计网络,通过使用高维空间向量来编码不同人体的不同关键点之间的关系,实现了检测和分组同步进行。
(3)性能比较多人姿态估计的基准数据集主要有MPII多人数据集[21]和MSCOCO关键点数据集[35]。
评价指标主要为mAP。
表2展示了多人姿态估计算法在MPII多人数据集上的性能比较。
表2多人姿态估计算法性能对比3结语由于人体姿态的多变性,以及受人物着装、自遮挡、复杂背景和相机视角等多重因素影响,人体姿态估计一直是计算机视觉领域的一大挑战。
本文对二维人体姿态估计算法进行了简单回顾,较为详细地介绍了姿态估计的分类以及几种常见算法。