当前位置：文档之家› 自然的人体动作识别

自然的人体动作识别

黄飞跃徐光祐

清华大学计算机科学与技术系，普适计算教育部重点实验室，北京，100084

摘要：人体动作识别是计算机视觉的一个重要研究课题。目前大多数动作识别的研究都

假设是在特定受限的场景下，即特定的视角、位置、对象、背景和光照条件下工作。其中，

尤以要求特定的视角和位置对实际应用的限制最为严重。本文致力于研究能处理视角和位

置变化并可用于非特定对象的人体动作识别方法。我们把它称为自然的人体动作识别方法。

为此我们提出了"包容形状"的人体表示，这种表示不受视角、位置的变化影响，充分利用了

两个正交摄像机拍摄的轮廓信息以去除由人的身体旋转引起的影响。利用包容形状，我们

取得了非特定人、任意视角下的自然人体动作识别较好的实验结果。同时我们也介绍了该

识别方法在实际智能家居——老人看护系统中的应用。

关键词：自然动作识别；包容形状

1．引言

人体动作识别是计算机视觉里一个活跃的研究方向，有不少综述，力图把以前的相关研究方法进行总结和分类，比如[1], [2], [3], [4]。至今为止，关于动作识别的大多数研究工作都是在特定受限的场景下展开，比如特定的视角、动作人、背景和光照。在这之中，尤以视角和位置的限制最为突出。我们认为要实现自然场景下的动作识别，就必须消除应用条件中的这些限制。为此，我们在这篇论文中，重点研究了动作识别中与视角和位置无关的体态表示，以实现非特定人、任意视角下的自然人体动作识别。

现阶段已经开展了不少视角无关的动作识别研究工作，比如Cen Rao [5]，Vasu Parameswaran[6]。但是还有很多问题亟待解决，大多数的方法依赖鲁棒的语义特征点检测或者是点对应，而这些是比较难实现的。

在本文中，我们提出使用了一种“包容形状”的体态表示。在仿射摄像机投影模型的假设下，这种表示对于视角和位置的变化具有不敏感性，同时不需要依靠任何较难提取并且对误差很敏感的语义点检测和点对应。利用这种表示，我们开发了自己的动作识别系统并且把它部署到实际应用：智能家居—老人看护系统中。实验结果表明我们的系统对于非特定人、任意视角和位置下的自然动作有着很理想的识别能力。

资助项目：国家自然科学基金资助项目（60673189，60433030）

联系作者：黄飞跃， Email：hfy01@https://www.doczj.com/doc/f910563958.html,

2．自然的动作识别

在人体动作识别中，人体姿态(简称为体态)表示一直是基本而关键的问题。自然的人体动作识别要求体态表示具有良好的视角和位置不变特性。视角和位置的变换可以分成两个部分，平移和旋转。在动作识别中，大多数体态表示都已经有了平移不变特性，所以我们只需要考虑旋转不变量。旋转量可以拆分为绕着三个垂直方向轴旋转的分量。通常，对人体动作而言，如果只有绕着竖直方向轴旋转分量(称之为偏转)的话，我们把会这些体态归为同一个分类中；而如果还存在另外两种旋转分量的话，我们会把它们归为不同的分类中。例如，一个人直立站着和躺在地面上，这时候存在其余两种方向的旋转分量，那我们会把它们看成是两种不同的体态。当一个人仅仅是站立着把他的身体旋转到另一个朝向的话，我们可以认为他的体态还是同一种的。所以，在大多数动作识别中，我们只需要考虑视角绕着竖直方向轴旋转情况下(称之为偏转)的不变量。

2.1 “包容形状”的表示

为了获得视角绕着竖直方向轴旋转情况下的不变量表示，我们采用了如图1的双摄像机配置方案。这两个摄像机的成像平面都和竖直轴Y 平行，它们的光轴是正交的。在人体动作识别的实际应用场景之中，由于人体的深度变化相对于人体到摄像机的距离通常很小，我们可以采用仿射摄像机模型。现考虑人体的一个水平截面，在这个截面上的所有点到像平面1上的投影都在直线l 上，而在这个截面上的所有点到像平面2上的投影都在直线l’上。直线l 是点p’的外极线，而直线l’则是点p 的外极线。为了发掘人体仅做偏转时的不变量，我们只需要分析人体二维水平截面在旋转时的变化即可。

如图2，假设有一个二维截面 “S ”，它在原始的二维坐标系UV 中的投影线段是AB 和BC ，那么“S ”在矩形ABCD 里面。在另外一个旋转了某个角度θ的坐标系U’V’图1 双摄像机配置方案图

2 二维水平截面旋转分析

中，它的投影在线段EF 和FG 中。这里，我们定义原始投影线段的长度为x 和y ，而新的投影线段的长度则是x’和y’。我们可以得到如下的关系式：

θθsin cos 'y x x +≤ θθsin cos 'x y y +≤

公式 (1)

让我们来定义“r ”： 22y x r +=.

公式 (2) 那么

r xy y x xy y x y x r 222sin 2''222222'≤++≤++≤+=θ 公式 (3)

取 r 0 是所有旋转对应的各个“r ”中的最小值，那么在任何的旋转下，相应的“r ”值都会满足如下取值区间：

002r r r ≤≤ 公式 (4)

和原始投影值x’ 与x 或者 y’ 与 y 的无限的比值范围区间相比较，这是一个相当小的取值区间，也就是说我们找到了一种视角不敏感的人体表示。对于每一个水平截平面，我们利用公式（2）来计算一个“r ”值。这样，对于每一帧静态的人体体态，我们可以得到一个“r ” 值的向量。由于r 比轮廓投影x 和y 值都大，可以看成这个向量把人体的轮廓包围在内部，我们把这个“r ”值向量称作为“包容形状”（“Envelop Shape ”）。我们给出一些在不同视角下合成人体模型的包容形状图。如图3是两种体态围绕着竖直轴旋转了八个不同角度时的情况。每种体态前两行是两个正交摄像机拍摄的轮廓图像，而第三行则是包容形状图。从图中，我们可以看到在视角变化时，包容形状的变化很小。

图3 不同视角下和包容形状

虽然我们提出这两个摄像机的摆放按照图1，需要保证成像平面和竖直轴平行同时光轴正交。但是，实际上并不需要严格的摄像机标定。摄像机的摆放大致满足要求即可。正如我们前面提出的，这种表示仅仅是视角不敏感，它的取值是被限制在一个较小的范围内变化。我们将在下一节中展示我们的实验。我们的视频数据都是利用两个大致摆放

未严格校准的摄像机采集的，而我们可以看到实验结果依然非常理想。

2.2 动作识别系统流程

利用这种“包容形状”的表示，我们设计了一个自然动作识别系统。图4表示了系统的流程图。我们首先采用“PFinder”算法来提取人体外轮廓[7]。然后，由两个摄像机对应的轮廓序列作为原始输入，根据公式（2），我们为每一帧生成了相应的“包容形状”r向量。然后利用主分量分析（PCA）对r向量降维到10维向量。对于每一个视频段，经过如上的预处理和体态表示模块，我们可以得到对应的时序特征向量序列，然后再采用连续隐马尔可夫模型来进行动作的训练和识别。

图4 动作识别系统流程图

3．实验、应用和总结

为了证明本文所述识别方法的可行性，我们做了一些识别实验。采集了七个不同动作者的动作，动作包括：走路、举手、拿东西、挥手、指向。动作者在三个任意朝向和位置时重复每个动作三遍。我们取五个动作者的数据作为训练集，另两个动作者的数据作为测试集，结果参见表1。可以看出我们很好的实现了任意位置下的非特定人动作识别。图5是一个实验数据示例，前两行是两个摄像机的原始图像，接下来的两行是利用“PFinder”方法提取得到的人体轮廓，最后一行则是正规化以后的“包容形状”向量生成的图像。（每一个实际的动作包含约30帧图像，这里只显示了动作序列的部分采样。）

图5 “走路”动作序列示例

由于本文中介绍的自然动作识别方法应用和部署简单，只需添加一对近似垂直的摄像机即可，因此可以应用于各种需要识别自然动作的系统中。目前，我们正在尝试把它添加和应用于原有的智能家居—老人看护系统中。该系统利用视频上下文信息，通过基于视频的人体动作识别为基础来提供在智能家居中的隐含监控。该系统可以自动判断和描述各种事件，然后利用先验情景模型，结合上下文信息进行融合，以达到在智能家居中对于老人的安全进行辅助的功能。智能家居—老人看护系统的布景如图6，实验场景实际示例参见图7。其中2号摄像机和3号摄像机照图1所示双摄像机配置方案部署摆放，用以获取包容形状数据。这样我们就可以用这种方法来识别老人看护系统中常见待识别的行为，例如：走路、挥手、摔倒、弯腰、躺倒、坐着、喝水等等。

表１：非特定人动作识别实验识别率集合

走路举手拿东西挥手指向

训练集

100% 100% 95.6% 95.6% 97.8% 测试集 94.4% 100% 94.4% 88.9% 100% 总的来说，通过“包容形状”的体态表示，我们实现了不受观察视角、动作者位置限制的自然的非特定人动作识别。实验表明，这种识别方法具有较好的识别率和容忍度。这种自然的动作识别方法具有很好的实用性。我们也介绍了在实际应用：智能家居——老人看护系统中的部署。当然在实际应用系统中还存在一些待解决的问题，其中包括遮挡问题、动作的自动分割等等，这些都是我们在下一步研究工作中需要完成的。

参考文献

[1] C. Cedras, M. Shah, Motion-based recognition: a survey, Image and Vision Computing, 13(2) (1995)

129-155.

[2] J.K. Aggarwal, Q. Cai, Human motion analysis: a review, Computer Vision and Image Understanding, 73 图6 智能家居系统布景图7 智能家居实验示例图

(3) (1999) 428-440

[3] T.B. Moeslund, E. Granum, A survey of computer vision-based human motion capture, Computer Vision

and Image Understanding, 81 (3) (2001) 231-268.

[4] Liang Wang, Weiming Hu, Tieniu Tan, Recent Developments in Human Mo-tion Analysis, Pattern

Recognition, Vol. 36, No. 3, pp.585-601, 2003

[5] Cen Rao, A. Yilmaz,M. Shah, View-Invariant Representation And Recognition of Actions, International

Journal of Computer Vision, Vol. 50, Issue 2, 2002

[6] Parameswaran, V., Chellappa, R, Using 2D Projective Invariance for Hu-man Action Recognition,

International Journal of Computer Vision, 2005

[7] Wren C, Azarbayejani A, Darrell T and Pentland A. Pfinder: real-time tracking of the human body. IEEE

Trans on Pattern Analysis and Machine Intelligence, 1997, 19 (7): 780-785.

Unrestricted Action Recognition

Huang Feiyue, Xu Guangyou

Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China

Huangfeiyue: E-mail: hfy01@https://www.doczj.com/doc/f910563958.html,

Key words：Unrestricted action recognition, Envelop Shape

Abstract：Action recognition is a popular and important research topic in computer vision. However, so far, most researches in action recognition remain rooted in certain restricted scenarios, such as restricted viewpoint, specified actor, specified background and illumination. Among them, restricted viewpoint and position are most bothering. This paper aims to research on unrestricted action recognition and dispels restriction of action recognition on viewpoint and position. To solve this problem, we propose a representation named “Envelop Shape” which is viewpoint insensitive. “Envelop Shape” is easy to acquire from silhouettes using two orthogonal cameras. It makes full use of two cameras’ silhouettes to dispel influence caused by human body’s vertical rotation, which is often the primary viewpoint variance. With the help of “Envelop Shape”, we set up one unrestricted action recognition system, which uses “Envelop Shape” as representation vector and applies Hidden Markov Model to train and recognize actions. We obtained inspiring results on action recognition independent of subject and viewpoint. Results indicate that “Envelop Shape” representation contains enough discriminating features for unrestricted action recognition. We also introduced the application of our method on a real applied system: smart home-elderly care system.

基于MATLAB的人体姿态的检测课程设计

基于视频的人体姿态检测一、设计目的和要求 1.根据已知要求分析视频监控中行人站立和躺卧姿态检测的处理流程，确定视频监中行人的检测设计的方法，画出流程图，编写实现程序，并进行调试，录制实验视频，验证检测方法的有效性，完成系统软件设计。 2.基本教学要求：每人一台计算机，计算安装matlab、visio等软件。二、设计原理图像分割中运动的运用（运动目标检测）首先利用统计的方法得到背景模型，并实时地对背景模型进行更新以适应光线变化和场景本身的变化，用形态学方法和检测连通域面积进行后处理，消除噪声和背景扰动带来的影响，在HSV色度空间下检测阴影，得到准确的运动目标。噪声的影响，会使检测结果中出现一些本身背景的区域像素点被检测成运动区域，也可能是运动目标内的部分区域被漏检。另外，背景的扰动，如树枝、树叶的轻微摇动，会使这部分也被误判断为运动目标，为了消除这些影响，首先对上一步的检测结果用形态学的方法进行处理，在找出经过形态学处理的后的连通域，计算每个连通域中的面积，对于面积小于一定值的区域，将其抛弃，不看做是前景运动目标。 2.2bwlabel函数用法：L = bwlabel(BW,n) [L,num] = bwlabel(BW,n)，这里num返回的就是BW中连通区域的个数。返回一个和BW大小相同的L矩阵，包含了标记了BW中每个连通区域的类别标签，这些标签的值为1、2、num（连通区域的个数）。n的值为4或8，表示是按4连通寻找区域，还是8连通寻找，默认为8。四连通或八连通是图像处理里的基本感念：8连通，是说一个像素，如果和其他像素在上、下、左、右、左上角、左下角、右上角或右下角连接着，则认为他们是联通的；4连通是指，如果像素的位置在其他像素相邻的上、下、左或右，则认为他们是连接着的，连通的，在左上角、左下角、右上角或右下角连接，则不认为他们连通。

人体运动的检测和识别研究

模式识别中文核心期刊《微计算机信息》（测控自动＇ｆ：．１５）２００８年第２４卷第２－１期文章编号：１００８—０５７０（２００８）０２…１０２１００２人体运动的检测和识别研究ＳｔｕｄｙｏｎＤｅｔｅｃｔｉｏｎａｎｄＩｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＨｕｍａｎＭｏｖｅｍｅｎｔ（北京榭吏大学）宋修雷王志良ＳＯＮＧＸＩＵＬＥＩＷＡＮＧＺＨＩＬＩＡＮＧ摘要：本文针对人体运动视觉分析中的行为理解和分析等高层视觉问题进行分析，研究了一种静止摄像机条件下的行为理解和分析的算法，它以运动序列中的关键帧为基础，针对关键帧提取人体的骨架信息，然后通过Ｈｕ不变矩来提取特征，最后组成特征向量，通过对ＨＭＭ模型的训练来识别特定运动序列的语义。关键词：运动识别：计算机视觉；Ｉ－ＥＶｌｌＭ中图分类号：ＴＰ３９１．４文献标识码：ＡＡｂｓｔｒａｃｔ：Ｔｈｉｓｐａｐｅｒｆｏｃｕｓｅｓｏｎｖｉｓｕａｌａｎａｌｙｓｉｓｏｆｈｕｍａｎｍｏｖｅｍｅｎｔａｎｄｔｈｅｕｎｄｅｒｓｔａｎｄｉｎｇｏｆｈｉｇｈｌｅｖｅｌｖｉｓｕａｌｐｒｏｂｌｅｍｓ．ＩｔｇｉｖｅｓａｎａｌｇｏｒｉｓｍｔｏｃｏｍｐｒｅｈｅｎｄａｎｄａｎａｌｙｓｉｓｐｅｏｐｌｅＳｍｏｖｅｍｅｎｔｉｆｔｈｅｃａｍｅｒａｉｓｎｏｔｍｏｖｅｄ．Ｗｅｐｒｅｓｅｎｔａｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｋｅｙｆｒａｍｅｓ，ｔｈｉｓｔｅｃｈｎｉｑｕｅｃａｎｂｅｍｏｒｅｅｆｆｅｃｔｉｖｅｉｎｔｈｅｏｒｉｇｉｎａｌｓｅｑｕｅｎｃｅｂｙｒｅｄｕｃｉｎｇｔｈｅｉｎｔｅｒｆｅｒｅｎｃｅｏｆｄｅｔｅｃｔｉｏｎａｎｄｉｄｅｎｔｉｆｉｃａｔｉｏｎ．Ｋｅｙｗｏｒｄｓ：ｍｏｖｅｍｅｎｔｉｄｅｎｔｉｆｉｃａｔｉｏｎ，ｃｏｍｐｕｔｅｒｖｉｓｉｏｎ，ＨＭＭ１引言计算机视觉是计算机科学和人工智能领域的一个重要分支．它研究的主要内容是怎样利用各种成像系统代替视觉器官作为信号输入手段，用计算机代替大脑完成对信息的处理和解释。计算机视觉的最终研究目标，就是使计算机能象人那样通过视觉观察和理解世界。运动物体的检测、跟踪和行为的理解与描述是计算机视觉领域的一个重要课题。也是计算机能否象人那样通过视觉观察和理解世界的关键所在。目前在运动物体检测领域，国内外有关这方面的研究很多，但是目前的许多方法都受到了一定条件的局限性。比如我们在使用背景差对运动目标进行检测时，发现了这种方法受光线亮度变化的影响很大，同时当背景中有物体移人或移出时．这种方法检测的效果正确性受到很大影响。对行为的理解与描述国内外的文献相对较少。可以说是一个比检测和跟踪更加困难的研究领域。针对这些问题，我们提出一种能够在简单背景下对人体行为进行理解和描述的方法。该方法将运动的检测、跟踪和行为的理解和描述联系到一起，使两者相辅相成。解决了两者分离情况下研究中的难点问题。２关键帧算法直接比较的人体的运动来识别运动的语义是不可能的，因为人体区域随着肢体的摆动而呈现非刚性的变化。这里我们对运动序列进行分解，原则是提取运动序列中的关键帧进行分析。关键帧的定义是在运动方向发生变化的时刻对应的图像帧。从运动中来看，运动方向发生变化的时刻，必定是序列图像在水平或者是垂直方向的投影在时间轴上出现了极值。所以我们就可宋修雷：硕士研究生基金项目：本论文得到国家自然科学基金（Ｎ０．６０５７３０５９）、北京市“现代信息科学与网络技术”重点实验室基金（Ｎｏ．ＴＤＸＸ０５０３）和北京科技大学重点基金的支持以根据这条规则来从运动序列中提取关键帧。一个完整的具有具体语义的运动序列可以由一个相对应的关键帧序列来表示。通过关键帧的方法完成了对运动序列的第一次特征提取。图１是对关键帧提取的一个示例。图２是一个行走运动序列的关键帧表示。图１关键帧的提取彳彳ｋｋ图２行走运动序列的关键帧表示３特征提取３．１骨架算法首先要从待处理的序列图像中抽取出目标人体的轮廓，获一２１０—３６０元，年邮局订阅号：８２－９４６　万方数据

动作识别与行为理解综述

_________________________ 基金项目: 国家自然科学基金资助项目(60673189) 收稿日期: 2008-11-28 改回日期:2008-12-03 第一作者简介: 1940.现为普适计算教育部重点实验室，清华大学计算机系人机交互与媒体集成研究所教授，博士生导师。目前他的主要研究领域为计算机视觉，人机交互，普适计算计算技术。IEEE 高级会员，CCF 会员。动作识别与行为理解综述徐光祐曹媛媛普适计算教育部重点实验室清华大学计算机科学与技术系北京，100084）摘要随着“以人为中心计算”的兴起和生活中不断涌现的新应用，动作识别和行为理解逐渐成为计算机视觉领域的研究热点。本文主要从视觉处理的角度分析了动作识别和行为理解的研究现状，从行为的定义和表示、运动特征的提取和动作表示以及行为理解的推理方法三个方面对目前的工作做了分析和比较。并且指出了目前这些工作面临的难题和今后的研究方向。关键词以人为中心动作识别行为理解中图法分类号：TP391 文献标识码：A Action Recognition and Activity Understanding: A Review XU Guangyou, CAO Yuanyuan (Key Lab of Pervasive Computing, Ministry of Education, Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China) Abstract As the “Human-centered computing ” is getting more and more popular and novel applications are coming up, action recognition and activity understanding are attracting researcher s’ attention in the field of computer vision. In this paper, we give a review of the state in art of work on action and activity analysis, but focus on three parts: Definition of activity, low-level motion features extraction and action representation, and reasoning method for activity understanding. Furthermore, open problems for future research and potential directions are discussed. Keywords human-centered computing, action recognition, activity understanding 引言计算正渗透和影响到人们生活的各个方面，根据传感器数据来识别和理解人的动作和行为就成为未来”以人为中心的计算”(Human-centered computing)中的关键[1]。其中基于视觉的动作识别和行为理解尤为重要。因为在人之间的人际（interpersonal ）交互过程中，视觉是最重要的信息。视觉可以帮助人们迅速获得一些关键特征和事实，如对方的表情、手势、体态和关注点等，这些视觉线索综合起来反映了对方的态度，潜在意图和情绪等信息。未来人机交互和监控中，机器要感知人的意图很大程度上就需要依靠视觉系统。此外，视觉传感器体积小、被动性和非接触式的特点，使得视觉传感器和视觉信息系统具备了无所不在的前提。近年来，在对计算机视觉提出的层出不穷的新要求中，行为理解是一个具有挑战性的新课题，在诸如智能家居，老年人看护，智能会议室等应用中都起着至关重要的作用。它要解决的问题是根据来自传感器（摄像机）的原始图像（包括图像序列）数据，通过视觉信息的处理和分析，识别人体的动作，并在上下镜(context)信息的指导下，理解人体动作的目的、所传递的语义信息。行为理解作为近几年开始兴起的研究，正在逐渐获得越来越多的关注。人体检测、定位以及人体的重要部分（头部，

基于骨骼数据的人体行为识别分析

基于骨骼数据的人体行为识别摘要人体动作姿态识别是计算机视觉研究领域中最具挑战的研究方向，是当前的研究热点。对人体动作姿态进行自动识别将带来一种全新的交互方式，通过身体语言即人体的姿态和动作来传达用户的意思，如在机场、工厂等喧闹的环境下，采用手势、动作姿态识别等人机交互技术能够提供比语音识别更加准确的信息输入。总之，在智能监控、虚拟现实、感知用户接口以及基于内容的视频检索等领域，人体动作姿态的识别均具有广泛的应用前景。该文首先简单介绍了人体动作姿态序列的分割，然后对人体动作姿态识别的方法进行了分类介绍，并对一些典型的算法的研究进展情况及其优缺点进行了重点介绍。关键词：人体动作姿态识别; 人工智能; 隐马尔可夫模型; 动态贝叶斯网络; 模板匹配前言人体姿态识别是计算机视觉的一个重要研究方向，它最终目的是输出人的整体或者局部肢体的结构参数，如人体轮廓、头部的位置与朝向、人体关节点的位置或者部位类别。姿态识别的研究方法应该说，几乎涵盖了计算机视觉领域所有理论与技术，像模式识别、机器学习、人工智能、图像图形、统计学等。到目前为止，已经有众多识别方法被提出，并且也取得了许多重要的阶段性的研究成果，但是以往的方法都是基于普通光学图像，比如常见的RGB 图像，这类图像容易受光照、阴影等外界变化的影响，尤其在环境黑暗的情况下无法来识别人体姿态，并且由于人体关节自由度大，及人的体型、着装较大差异性，常导致姿态识别系统识别率低。尽管有研究者利用多个摄像机获取采集的图像来获取人体深度信息以克服以上问题[1]，但是该类方法恢复的深度信息不是唯一的，而且计算量非常大，尤其是这种方法要求事先用人工对传感设备进行标定，而在选取场景中的标定物时，往往又会遇到实际环境操作困难的问题。随着光电技术的快速发展，深度传感设备的成本逐渐降低，人们获取深图像的途径及方法也越来越多。该方向的研究也逐渐成为计算机视觉领域的研究趋势。具体原因包括：一方面，深度传感设备不仅操作简单，并且极大简化了普通摄像机的标定过程；另一方面，得到的深度图像由于直接包含了人体的深度信息，能够有效的克服普通光学图像遇到的上述问题。到目前为止，较有影响力的基于该类图像的人体姿态识别算法，应该是 Shotton 等人利用一种深度传感器 Kinect 来实时捕捉人体运动的算法，该算法虽然能够满足人们对识别系统实时性的要求，但其对硬件要求特别高，并且不适合低分辨率图像中的人体关节点提取，容易导致人体骨架扭曲。下文将具体陈述人体运动分析的主要用途和前人在不同时期对这些难题的处理办法。主题基于计算机视觉的人体运动分析不仅在智能监控、人机交互、虚拟现实和基于内容的视频检索等方面有着广泛的应用前景，更是成为了未来研究的前瞻性方向之一。Gavrila 总结了它的一些主要应用领域[2,3,4]，下面据此对其典型应用做出进一步的介绍。智能监控(Smart Surveillance) 所谓“智能监控”是指监控系统能够监视一定场景中人的活动，并对其行为行分析和识别，跟踪其中的可疑行为(例如在一些重要地点经常徘徊或者人流密集的场合下突发的人群拥挤等状况)从而采取相应的报警措施。智能监控系统应用最多的场合来自于那些对安全

人体行为识别技术

成误报)。另外一种“智能”是指系统能够监视一定场所中人的活动，并对其行为进行分析和识别，跟踪可疑行为(如经常在重要地点徘徊等等行为)从而采取相应的报警措施。通常把报警系统设置于银行、机场、车站、码头、超市、办公大楼、住宅小区等地，以实现对这些场所的智能监控。 ②虚拟现实跟踪现实世界人的姿态，从而创建一个虚拟的仿真场景，实现人与这个虚拟世界的交互。该领域的具体应用涉及视频游戏、虚拟摄影棚、计算机动画等方面。 ③高级用户接口指可以通过对用户手势的识别来代替传统的鼠标和键盘输入，从而实现人与计算机之间的智能交互。此外，通过对手势语言的理解，还可以进行聋人与计算机之间的手语交流。 ④运动分析人体运动分析可以运用于基于容的视频检索领域。例如可以检索在运动会上单杠比赛中运动员的杠上动作。这样可以节省用户大量的查询视频资料的时间和精力。另外一种应用是用于各种体育项目中，提取运动员的各项技术参数(如关节位置、角度和角速度，等等)，通过分析这些信息，可以为运动员的训练提供指导和建议，有助于提高运动员的训练水平。此外，还可以用于体育舞蹈动作的分析，以及临床矫形术的研究等领域。 ⑤基于模型的视频编码通过提取一定的静态场景中人物的形态特征参数和3D姿态参数，以较低的数据量对视频数据流加以描述，实现视频数据的压缩和低比特率传送。可以用于在因特网上展开远程视频会议以及VOD（Video-On-Demand）视频点播。

固定场景下的人体姿态识别

2018.11收稿日期：2018-08-15 当前人工智能技术的热点,固定情景下对于人体姿态识别具有十分重要的研究意义,对于我国实现现代化建设具有一定的推动作用,因此加强技术分析研判就显得十分重要。早在上世纪70年代,我国已经开始了对人体行为分析方面的研究,这些研究对于我国人工智能的发展有了较强的推动作用,在特定情景下或者说在比较标准的场景中分析较为简单的姿态和动作已经成为了可能,但这些工作的开展大多停留在理论的层次,并没有付诸实践,要想将这些分析技术真正应用到实际场景中仍然需要大量的实验进行探索。 1人体姿态识别人体姿态识别主要在于研究描述人体姿态以及预测人体行为,其识别过程是指,在指定图像或视屏中,根据人体中关节点位置的变化,识别人体动作的过程。人体姿态识别的算法主要分为两类,一是基于深度图的算法,另一类直接基于RGB图像的算法。深度图是指由相机拍摄的图片,其每个像素值代表的是物体到相机XY平面的距离。这种算法的应用容易因采集设备的要求而受限,但基于RGB图像的算法直接通过对红、绿、蓝3个颜色通道的变化以及它们相互之间的叠加来得到的颜色进行识别,不会受到其他因素的干扰限制,因此更具有发展前景,同时也取得了不少成果。目前,即使是在较为复杂的、某种固定的场景中,基于RGB图像的人体姿态估计算法相较于基于深度图的人体姿态估计算法也能达到很好的识别效果。无论是深度图技术还是RGB图像技术,都是通过计算机强大的运算能力进行人体姿态的动作预算,通过这样的方式能够一定程度地实现人工图像的监测,并且能够为人工智能的普及奠定良好的基础。随着我国社会水平的不断提升,人们对于社会生活的质量要求也在不断增加,因此在实际的生活过程中视频监控已经成为人们不可或缺的一种安全措施,基于视频分析的技术要求也越来越高。例如在智能家装,医疗领域及运动分析等行业中都得到了较为广泛的应用,固态场景下的人体姿态识别在各领域起到的作用显而易见。特别是近年来,我国安保工作的加强,对于大城市人口密集流动以及犯罪分子的甄别等都有较强需求。 2人体姿态识别的实现人体姿态是被主要分为基于计算机视角的识别和基于运动捕获技术的识别。基于计算机视觉的识别主要通过各种特征信息来对人体姿态动作进行识别,比如视频图像序列、人体轮廓、多视角等。基于计算机视觉的识别可以比较容易获取人体运动的轨迹、轮廓等信息,但没有办法具体实现表达人体的运动细节,以及容易存在因遮挡而识别错误等问题。基于运动捕获技术的人体姿态识别,则是通过定位人体的关节点、储存关节点运动数据信息来识别人体运动轨道。相较于计算机视角的人体姿态识别,基于运动捕获技术的人体姿态识别可以更好地反应人体姿态信息,也可以更好地处理和记录运动细节,不会因为物体颜色或被遮挡而影响运动轨道的识别。技术的革新对人体姿态的分析捕捉有较强的辅助作用,并且能够更好地展现动作的细节,对于专业人士进行动作分析的痕迹管理有较高的参考价值。通过良好的运动前景预算能够,在各种计算方法中做出合理的预测,并且在各种环境中的适应能力也能够得到一定程度的加强。由于未来的监控实现的方向是在全领域的视频监控,因此对于用户的特定化要求也应该及时进行技术革新,用户对于技术的需求就是技术革新的发展方向, 固定场景下的人体姿态识别赵一秾（辽宁科技大学，辽宁鞍山114000）摘要:近年来，随着信息技术的发展和智能科技的普及，全球科技变革正在进一步推进，云计算、物联网、大数据和人工智能等技术也在飞速发展，其中，人体姿态识别技术已开始在计算机视觉相关领域中广泛应用。就固定场景下的人体姿态识别做出研究分析。关键词:人体姿态识别；云计算；人工智能 150

基于视频序列的人体动作识别

密级：学校代码：10075 分类号：学号：20081194 工学硕士学位论文基于视频序列的人体动作识别学位申请人：刘涛指导教师：张欣教授学位类别：工学硕士学科专业：电路与系统授予单位：河北大学答辩日期：二○一三年六月

Classified Index: CODE: 10075 U.D.C.: NO: 20081194 A Dissertation for the Degree of Master Human Action Recognition Based on Video Sequences Candidate：Liu Tao Supervisor：Prof. Zhang Xin Academic Degree Applied for：Master of Engineering Specialty：Circuits and Systems University：Hebei University Date of Oral Examination：June, 2013

河北大学学位论文独创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写的研究成果，也不包含为获得河北大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了致谢。作者签名：日期：年月日学位论文使用授权声明本人完全了解河北大学有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。本学位论文属于 1、保密□，在年月日解密后适用本授权声明。 2、不保密□。（请在以上相应方格内打“√”）

人体姿态捕捉方法综述

人体姿态捕捉方法综述 XXX （大连理工大学软件学院，辽宁大连116600）摘要：人体姿态捕捉技术在人机交互和虚拟现实等领域的重要性日益突出，为了满足人们对于高精确度、高效率的动作捕捉技术的需求，科学家从各个方面进行了创新性的尝试。文章介绍了动作捕捉技术发展历史，并给出了其概念和基本组成；并阐述了目前国内外发展现状；其次详细地对主流方案进行优缺点分析；然后结合现实，给出了常见应用领域；最后对动作捕捉技术面临难题进行总结并介绍了发展趋势。关键词：动作捕捉；虚拟技术；人机交互；算法 Overview of Human gesture capture XXX （Dalian university of technology College of Software，Liaoning Dalian 116600）Abstract：The human body gesture capture technology in human-computer interaction and virtual reality and other areas of importance is day by day prominent, in order to meet people for high accuracy, high efficiency of motion capture technology needs, scientists from all aspects of innovative attempt. This paper introduces the motion capture technology development history, and gives the concept and basic composition; And expounds the current situation of the development at home and abroad; Secondly detail schemes to mainstream advantages and disadvantages analysis; And then combining with reality, gives the common application fields; Finally, the motion capture technology difficulties was summarized and introduced the development trend. Key words: Motion capture ；Virtual technology；Human-computer interaction；Algorithm

运动人体图像识别

学习报告一．意义和背景随着信息技术的快速发展壮大和应用的普及,利用计算机视觉的技术在图像处理方面和模式识别领域中研究,并对视频图像进行人体运动特征提取与有效识别已成为人们关注的热点问题。计算机视觉技术对人体运动的视频或者图像进行识别是基于对其视频或者图像的序列进行分析处理；对检测出的人体运动目标进行运动特征提取和分类识别,从而达到理解和描述其行为的目的。基于视频图像的人体运动特征分析在智能视频监控、智能接口、虚拟现实等领域有着相当广阔的应用前景。人体运动特征的提取与识别需要结合生物识别技术来识别和判断运动中人的行为、区别个体身份。所谓生物识别技术,其具体操作就是利用人体与生俱来的生物特征进行个体身份认证,最显著的特点是具有不变性和唯一性。人体运动特征包括：肢体摆动特征,步态特征,人体轮廓投影特征,人体对称特征等,其中从视觉监控的角度来看,步态特征是远距离场景条件下最具有代表性最典型的人体运动特征,近年来备受关注,同时也涌现出大量富有意义的步态识别算法。二．人体运动特征识别研究运动特征识别在当今的科研领域中涉及面广泛，主要涉及到图像处理，多传感器技术，虚拟现实，模式识别，计算机视觉和图形学，

计算机辅助设计，可视化技术，智能机器人等一系列研究领域。针对人体运动图像序列进行分析处理的运动人体视觉分析技术，一般情况下可分为以下几个过程，运动目标检测，运动目标特征提取以及识别复杂背景下的运动目标身份。图1 典型的运动特征识别系统运动特征识别的主要研究方法目前运动特征识别中的运动特征包含了两种分量：结构化分量和动态分量。其中结构化分量也就是静态分量，它负责记录运动人体的身高，步幅等身体形状信息；而动态分量则形象地表征出了在运动过程中人体的胳膊摆动，肢体倾斜度，迈腿方式等运动特征，依据上述两种类型分量，现有的运动特征识别算法大致分为两类：基于统计的方法和基于模型的方法。

自然的人体动作识别

自然的人体动作识别黄飞跃徐光祐清华大学计算机科学与技术系，普适计算教育部重点实验室，北京，100084 摘要：人体动作识别是计算机视觉的一个重要研究课题。目前大多数动作识别的研究都假设是在特定受限的场景下，即特定的视角、位置、对象、背景和光照条件下工作。其中，尤以要求特定的视角和位置对实际应用的限制最为严重。本文致力于研究能处理视角和位置变化并可用于非特定对象的人体动作识别方法。我们把它称为自然的人体动作识别方法。为此我们提出了"包容形状"的人体表示，这种表示不受视角、位置的变化影响，充分利用了两个正交摄像机拍摄的轮廓信息以去除由人的身体旋转引起的影响。利用包容形状，我们取得了非特定人、任意视角下的自然人体动作识别较好的实验结果。同时我们也介绍了该识别方法在实际智能家居——老人看护系统中的应用。关键词：自然动作识别；包容形状 1．引言人体动作识别是计算机视觉里一个活跃的研究方向，有不少综述，力图把以前的相关研究方法进行总结和分类，比如[1], [2], [3], [4]。至今为止，关于动作识别的大多数研究工作都是在特定受限的场景下展开，比如特定的视角、动作人、背景和光照。在这之中，尤以视角和位置的限制最为突出。我们认为要实现自然场景下的动作识别，就必须消除应用条件中的这些限制。为此，我们在这篇论文中，重点研究了动作识别中与视角和位置无关的体态表示，以实现非特定人、任意视角下的自然人体动作识别。现阶段已经开展了不少视角无关的动作识别研究工作，比如Cen Rao [5]，Vasu Parameswaran[6]。但是还有很多问题亟待解决，大多数的方法依赖鲁棒的语义特征点检测或者是点对应，而这些是比较难实现的。在本文中，我们提出使用了一种“包容形状”的体态表示。在仿射摄像机投影模型的假设下，这种表示对于视角和位置的变化具有不敏感性，同时不需要依靠任何较难提取并且对误差很敏感的语义点检测和点对应。利用这种表示，我们开发了自己的动作识别系统并且把它部署到实际应用：智能家居—老人看护系统中。实验结果表明我们的系统对于非特定人、任意视角和位置下的自然动作有着很理想的识别能力。资助项目：国家自然科学基金资助项目（60673189，60433030）联系作者：黄飞跃， Email：hfy01@https://www.doczj.com/doc/f910563958.html,

运动人体识别技术

二、运动人体识别技术 1.概念运动人体识别技术是一种以图像处理，模式识别，计算机视觉等技术为基础，为运动人体进行识别处理的一项技术。其中图像处理（影像处理）是用计算机对图像进行分析，以达到所需结果的技术；模式识别是通过计算机用数学技术方法来研究模式的自动处理和判读，其中环境与客体统称为“模式”；计算机视觉技术是一门研究如何使机器看的学科，简单的说，就是用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步作图像处理，使电脑处理成更适合人眼观察或传送仪器检测的图像。 2.运动人体识别的研究进展与现状运动人体识别的研究主要包括图像处理、多传感技术、虚拟现实、模式识别、计算机视觉和图形学、计算机辅助技术、可视化技术以及智能机器人等。针对人体运动图像系列进行分析处理的运动人体视觉分析技术，一般情况下可分为：运动目标检测，运动目标特征提取以及识别复杂背景下的运动目标身份。其主要的研究方法为结构化分量和动态分量。其算法又分为基于统计的方法和基于模型的方法。现状是运动人体科学由宏观向微观理论研究深入发展，与运动人体科学相关的一些学科，快速成长为深入研究性学科，运动人体科学的竞技体育和体育保健。研究方向为：智能安全监控、人机接口、视频会议等方面，这些方面具有广泛的应用前景和巨大的潜在经济价值。 3.运动人体识别算法概述（1）运动人体识别过程一般分为目标检测和处理、特征提取和分析、模式分类和识别。（2）主要方法：目标检测和处理的特点为检测出原始图像中的运动目标，在一副图像中，局部目标的表象和形状能够被梯度或者边缘的方向密度分布很好的描述；特征提取和分析的特点为通过映射和变换的方法可以将高维空间中的特征描述用低维空间的特征来描述；模式分类和识别的特点是通过计算机用数学技术方法来研究模式的自动处理和判读，其中环境与客体统称为“模式” （3）特征提取模式识别的方法在很多实际问题中，往往不容易找到那些最重要的特征，或者因为外界干扰不能提取出自己想要的特征信息。因此在测量时，我们总希望能够获取更多的信息来加以判断。除此之外，我们还能够用数据，比值，梯形图等等的一些展现方法来突出自己想要的特征信息。为了设计出效果好的分类器，通常需要对原始的测量值集合进行分析，经过选择和变换处理，组成有效的识别特征。 4.未来的发展趋势以及存在的问题人体识别技术的发展趋势是：面对着全球化、信息化越来越提倡的社会背景下，识别技术会越来越广，深度也会不断加深。其虽然有着自己独特的优势，但并不是没有缺点，举个例子，在指纹识别上，面临指纹膜冒充指纹蒙混过关的问题；人面识别也许简单易个容就能过关；虹膜识别技术对黑眼睛存在识别难得问题；对于盲人和眼睛有疾病的患者实在是无能为力；声音、笔记也并不难以模仿；静脉识别也存在着易受温度干扰影响识别率的问题。

一种运动人体行为识别的改进方法

一种运动人体行为识别的改进方法摘要：隐马尔可夫模型主要用于根据系统外部观测量来预测该事件的未知序列，本文将它引入运动人体行为识别中。在获得了运动目标的整体轮廓以后，论述了怎样对规则行为建模，并结合隐马尔可夫原理识别出运动人体行为。针对人体轮廓单通道图像对比的局限，提出了一种轮廓对比和质心跟踪相结合的方法改进了算法，通过实验证明该改进的算法具有较好的性能。关键词：行为模型隐马尔可夫模型质心轮廓中图法分类号:TP3文献分类标识码:C4 An Improved Method for Human Motion Recognition Abstract:The Hidden Markov Models is widely used in forecasting the unknown sequence based on observation on outside system. In this paper, it is applied in human motion recognition. With the human’s silhouettes, the paper deals with how to get the models of regular actions and combine with HMM to recognize the motions of mobile human. As for the localization on gray images of silhouettes, silhouettes contrasting and center of mass tracking algorithm is put forward to solve this problem. The results show that the new algorithm has better performance. Key words:Motion models, HMM, Centroid, Silhouette 1引言目前，“人的观察”（looking at people）向“理解人”（understanding people）转变是计算机视觉领域中最活跃的研究主题之一，其核心是利用计算机视觉技术从图像序列中检测、跟踪、识别人并对其行为进行理解与描述，其重要目标是摆脱传统的人机交互方式（如:键盘、鼠标等设备信息输入），让计算机系统具备自动分析，获取外部信息的能力，并通过分析做出相应的响应，让计算机系统更加智能化和人性化。动态现场视觉监控是计算机视觉领域一个新兴的应用方向。视觉监控区别于传统意义上的监控系统在于其智能性[1]。简单而言，不仅用摄像机代替人眼，而且用计算机代替人、协助人，来完成监视或控制任务，从而减轻人的负担.视觉监控具有广泛的应用前景和潜在的经济价值。运动目标行为识别作为整个视觉监控的重点和难点，国内外提出了许多方法，比如区域分割[2]，关节点法等，但实现起来相当复杂。针对一些常见的非规则行为（比如跳，爬行，打斗，偷窥等）本文采用了一种隐马尔可夫模型和质心理论相结合的方法，简单的运用自然语言理解，能够比较高效的识别出这些非规则行为，并且具有比较大的可扩展空间。

人体行为识别技术讲解学习

人体行为识别技术

人体行为识别技术在计算机视觉领域中，人体运动行为识别是一个被广泛关注的热点问题，在智能监控、机器人、人机交互、虚拟现实，智能家居，智能安防，运动员辅助训练等方面有巨大应用价值。行为识别问题一般遵从如下基本过程：数据图像预处理，运动人体检测、运动特征提取、特征训练与分类、行为识别。着重从这几方面逐一回顾了近年来人体行为识别的发展现状和常有方法。并对当前该研究方向上待解决的问题和未来趋势做了分析。行为理解可以简单地认为是时变数据的分类问题，即将测试序列与预先标定的代表典型行为的参考序列进行匹配。通过对大量行为理解研究文献的整理发现：人行为理解研究一般遵从特征提取与运动表征、行为识别、高层行为与场景理解等几个基本过程。特征提取与运动表征是在对目标检测、分类和跟踪等底层和中层处理的基础上，从目标的运动信息中提取目标图像特征并用来表征目标运动状态；行为识别则是将输入序列中提取的运动特征与参考序列进行匹配，判断当前的动作处于哪种行为模型；高层行为与场景理解是结合行为发生的场景信息和相关领域知识，识别复杂行为，实现对事件和场景的理解。【2】 1、行为识别的应用从应用领域的分类来讲，可以将人体运动分析的应用分成如下几个领域：①智能监控这里所指的“智能”包含两个方面的含义。一种“智能”是指系统能够在一定的场景中检测是否有人的出现（如通过检测人脸的方法）防止只是简单的通过运动目标检测所造成的错误报警（例如因为动物活动或者刮风摇动树枝等等而造成误报）。另外一种“智能”是指系统能够监视一定场所中人的活动，并对其行为进行分析和识别，跟踪可疑行为（如经常在重要地点徘徊等等行为）从而采取相应的报警措施。通常把报警系统设置于银行、机场、车站、码头、超市、办公大楼、住宅小区等地，以实现对这些场所的智能监控。 ②虚拟现实跟踪现实世界人的姿态，从而创建一个虚拟的仿真场景，实现人与这个虚拟世界的交互。该领域的具体应用涉及视频游戏、虚拟摄影棚、计算机动画等方面。 ③高级用户接口指可以通过对用户手势的识别来代替传统的鼠标和键盘输入，从而实现人与计算机之间的智能交互。此外，通过对手势语言的理解，还可以进行聋人与计算机之间的手语交流。 ④运动分析人体运动分析可以运用于基于内容的视频检索领域。例如可以检索在运动会上单杠比赛中运动员的杠上动作。这样可以节省用户大量的查询视频资料的时间和精力。另外一种应用是用于各种体育项目中，提取运动员的各项技术参数（如关节位置、角度和角速度，等等），通过分析这些信息，可以为运动员的训练提供指导和建议，有助于提高运动员的训练水平。此外，还可以用于体育舞蹈动作的分析，以及临床矫形术的研究等领域。