当前位置：文档之家› 基于视频序列的人体动作识别

基于视频序列的人体动作识别

密级：学校代码：10075

分类号：学号：20081194

工学硕士学位论文

基于视频序列的人体动作识别

学位申请人：刘涛

指导教师：张欣教授

学位类别：工学硕士

学科专业：电路与系统

授予单位：河北大学

答辩日期：二○一三年六月

Classified Index: CODE: 10075 U.D.C.: NO: 20081194

A Dissertation for the Degree of Master Human Action Recognition Based on

Video Sequences

Candidate：Liu Tao

Supervisor：Prof. Zhang Xin

Academic Degree Applied for：Master of Engineering

Specialty：Circuits and Systems

University：Hebei University

Date of Oral Examination：June, 2013

河北大学

学位论文独创性声明

本人郑重声明：所呈交的学位论文，是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写的研究成果，也不包含为获得河北大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了致谢。

作者签名：日期：年月日

学位论文使用授权声明

本人完全了解河北大学有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。

本学位论文属于

1、保密□，在年月日解密后适用本授权声明。

2、不保密□。

（请在以上相应方格内打“√”）

保护知识产权声明

本人为申请河北大学学位所提交的题目为（基于视频序列的人体动作识别）的学位论文，是我个人在导师（张欣）指导并与导师合作下取得的研究成果，研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费资助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定的各项法律、行政法规以及河北大学的相关规定。

本人声明如下：本论文的成果归河北大学所有，未经征得指导教师和河北大学的书面同意和授权，本人保证不以任何形式公开和传播科研成果和科研工作内容。如果违反本声明，本人愿意承担相应法律责任。

声明人：日期：年月日

作者签名：日期：年月日

导师签名：日期：年月

摘要

人体动作识别是当今机器视觉领域的研究热点，它涉及到图像处理、模式识别、人工智能等多个学科的相关知识。基于视频的人体动作识别包括人体区域检测、动作及姿态分割以及用于进行动作识别的目标分析和行为理解等。在分析总结该领域研究人员相关工作的基础上，本文针对俯卧撑运动的特点进行动作和姿态分割，并对其完整动作进行识别。

本文的主要研究内容如下：

1、本文针对目标动作的特点提出了一种基于动作变化率特征的动作及姿态分割方法。首先获取图像中动作区域的轮廓信息，根据连续图像序列中轮廓信息的变化情况挖掘出动作的变化率，然后利用量化后的动作变化率界定动作及姿态的分割点，最后按照对动作识别的意义大小，将不同的姿态划分为关键姿态和非关键姿态。由于关键姿态携带了进行动作识别的绝大部分信息，因而只利用关键姿态进行动作识别，这种方式有效地降低了计算复杂度，提高了实时性。

2、本文针对视频采集和处理过程中产生的偶然性误差提出了一种基于向量模的误差消除算法，用于消除数据序列中异常数据引起的误差，其基本原理是在原有数据序列的基础上利用多维向量的模构建一组新的数据序列。首先采用某一数据节点及其相邻数据模拟多维向量各方向上的各个分向量，然后计算此多维向量的模并将其作为与当前数据节点对应的新数据序列中的节点。

3、本文在动作及姿态分割的基础上采用了基于棍状模型的动作识别方法，通过分别建立各关键姿态的人体模型并与实际动作人体进行比较的方式进行目标分类和动作识别。结合大量的实验对以上方法和算法进行稳定性和准确性的验证，验证结果令人满意。

关键词俯卧撑动作分割姿态分割向量模模型匹配动作识别

Abstract

Human action recognition is a hot research field of machine vision today, it comes to the knowledge of image processing, pattern recognition, artificial intelligence and other disciplines. After analyzing and summarizing the work of the researchers in the field, we segment the movements and postures of push-up based on its characteristics, at last we identify the complete action of push-up with the previous works.

The main contents are as follows:

1.In this paper, contrary to the characteristics of the target action, we proposed a gesture

segmentation method based on the characteristics of the change rate of action. First, obtain the contour information of the operation area in the image, digging out the operation according to the contour information changes in a continuous sequence of images. Then defines the split point of the movement and the posture with the quantized action change rate. Finally in accordance with the significance for the action recognition, the gesture is divided into the critical gestures and non-critical ones.

2.This paper presents an algorithm to eliminate errors, this algorithm is based on the

magnitude of a vector, and it is used to eliminate the errors caused by the abnormal data in the data sequence. The basic principle is to build a set of vectors using several adjacent data.

3.This paper uses a stick-shaped model method for action recognition, create the model of

the key postures, and compare with the actual human body, by this way the target classification and action recognition. Combined with a large number of experiments, the stability and accuracy of the above methods and algorithms is verified, and the results are satisfactory.

Keywords: push-up, action segmentation, gesture segmentation, norm of vector, model matching, action recognition

第1章绪论 (1)

1.1 人体动作识别 (1)

1.2 人体动作识别的应用领域 (2)

1.3 人体动作识别方法简述 (3)

1.3. 1 基于概率统计的方法 (3)

1.3.2 基于语法的方法 (4)

1.3.3 基于模型的方法 (4)

1.4 人体动作识别的难点和面临的挑战 (5)

1.5 本文的研究意义及主要工作 (6)

1.5.1 研究意义 (6)

1.5.2 主要工作 (7)

第2章人体区域检测 (8)

2.1 人体区域检测方法 (8)

2.1.1 静态背景下的人体区域检测 (8)

2.1.2 动态背景下的人体区域检测 (9)

2.2 本文中的人体区域检测 (9)

2.2.1 建立背景模型 (9)

2.2.2 利用背景减除法得到人体区域 (10)

2.2.3 人体区域处理 (10)

第3章动作特征提取 (12)

3.1 基于特征的方法 (12)

3.2 基于模型的方法 (13)

3.3 本文的动作特征提取 (16)

3.3.1 从人体区域中提取轮廓特征 (16)

3.3.2 利用轮廓特征的变化获取动作变化率特征 (17)

3.3.3 动作变化率的优化 (18)

第4章俯卧撑运动的动作及姿态分割 (20)

4.1 动作分割简述 (20)

4.2 动作分割中的难点 (21)

4.2.1 动作过渡区的问题 (21)

4.2.2 解决方法 (21)

4.3 基于动作变化率的动作及姿态边界检测 (22)

4.3.1 动作分割 (22)

4.3.2 姿态分割 (22)

4.4 俯卧撑的动作及姿态分割过程及结果 (22)

4.4.1 运动人体的提取与处理 (22)

4.4.2 运动状态特征提取与优化 (23)

4.4.3 俯卧撑的动作及姿态分割 (23)

第5章俯卧撑运动的动作识别 (25)

5.1 人体动作识别概述 (25)

5.1.1 人体动作识别存在的难点 (25)

5.1.2 人体动作识别所需的理想化条件 (25)

5.1.3 人体动作识别方法分类 (26)

5.2 基于运动特征的人体动作识别 (27)

5.2.1 运动特征选择 (27)

5.2.2 运动特征匹配 (28)

5.3 基于模型的人体动作识别 (28)

5.3.1 人体模型建立 (28)

5.3.2 俯卧撑模型的建立 (29)

5.3.3 模型评价 (30)

5.4 实验过程及结果 (31)

5.4.1 俯卧撑模型参数的确定 (31)

5.4.2 利用模型识别待测样本 (33)

第6章总结与展望 (34)

6.1 本文总结 (34)

6.2 工作展望 (34)

参考文献 (36)

致谢 (41)

第1章绪论

1.1 人体动作识别

人类认识世界、接收信息的最主要途径是通过视觉，视觉不仅是指对外界光源的感知，也包括对信息的获取、处理和理解的多个过程。已有的研究表明，人类大脑所接受信息中有80%以上都是来自于视觉。由此可见，作为人类交流中信息传递的最重要方式，视觉在人类的生活和生产中都扮演着极为重要的角色。近年来，随着影视、网络等媒体的高速发展和广泛普及，视频无疑已经成为人们获取信息的重要工具，自动采集和识别视频信息的需求也越来越多。

目前，基于视频序列的人体动作识别是一个非常活跃的研究领域，由于人体动作识别的最终目标是让计算机可以自动识别和理解人的行为，包括个人活动、人与人的交流、人与周围事物的交互行为等，而人体动作作为人体运动的构成元素或单元，是进行人体运动识别和分析的基础，因此在该领域内，许多研究人员非常关注对人体动作进行自动识别和分析。

针对人体动作所展开的识别工作可追溯到上世纪70年代心理学家Johansson对于运动感知所进行的一系列实验。他通过设置人体的运动的关节点，将人体动作抽象为关节点的位置和变化。实验表明：通过实验中产生的关节点集合序列，就可以获得许多有意义运动信息，例如，可以辨别走路、跑步等运动形态。在过去的二、三十年中，基于视频序列的人体动作识别一直受到研究人员的关注，付出了许多努力，提出了许多行之有效的研究方法，包括对视频序列中运动人体的检测、识别、跟踪以及对其动作进行理解和识别。

人体动作识别根据研究对象来分，可以分成针对整体运动的识别和针对身体局部动作展开的识别。其中，整体运动包括两种，一是整体运动轨迹，二是全身所有动作部位共同组成的整体动作。局部动作也可进一步划分成两类：以人脸、唇、手势等为动作部位的小尺度运动和以手臂挥舞、腿部迈动等动作形式的较大尺度运动。

从研究内容来分，人体动作识别可以按照难易程度分为静态姿势识别和动态过程识别。初期的动作识别是以静态姿势识别为主，通过将人体运动的动态过程转化成一组静态的姿态进行识别。如今随着人体动作识别技术的不断发展，无论是从识别方法上，还

河北大学工学硕士学位论文

是从计算机的处理能力上来看，都已经具备了识别人体动态过程的条件，这也是当前研究的重点。

1.2 人体动作识别的应用领域

运动的连续性是视频的重要特性之一，也是形成视频数据处理的复杂性的主要因素。随着视频采集设备（摄像机、实时监控设备等）的价格不断下降以及计算机性能的持续提高，使得视频序列的采集和视频信息的处理都变得更为容易，这也使得相关行业关于人体动作识别的需求越来越多，使人体动作识别和分析成为新的研究热点。人体动作识别的目的在于，成功实现人体运动视频的采集，在此基础上通过分析计算得到人体动作的特征参数，自动识别和评价人体运动类型及运动状态。对人体动作进行自动识别和分析将带来一种全新的交互方式，它在高级人机交互、体育运动分析、自动视频监控、基于内容的检索等方面具有广阔的应用前景[1]。

1）高级人机交互

人体动作识别的主要应用领域之一就是高级人机交互。人类交流的方式分为两种，包括自然语言和人体语言，其中对人体语言的理解，包括手势、头部运动、肢体活动等身体动作。在未来的智能化环境中，人与计算机或其它设备之间的交互将不再局限于键盘和鼠标，这种交互要求计算机通过视频采集设备收集人体语言的视频信息，并理解人体动作所表达的内容，从而达到人与机器顺利交互的目的。利用人体语言进行交互的方式不容易受到环境噪声和距离的限制，能从中获取较多细节，对于在自然场景中进行人机之间的智能交流非常有用。

2）体育运动分析

人体动作识别是体育运动识别的核心部分，而体育运动分析也是人体动作识别的应用领域之一。以往对于人体在体育运动及活动中的识别主要是通过人眼观察和运动经验进行判断和改进。当前，越来越多的体育运动开始借助于智能的人体动作识别，这有助于对体育运动进行客观和量化的分析，统计运动数据，提供科学直观的辅助识别手段。人体动作识别可以用于创建个性化的体育训练和分析系统，，加速数字化体育运动训练进程，甚至可以在转播体育比赛的过程中，为观众提供比赛评注和赛况讲解等实时信息。

步态识别作为人体运动的重要组成部分是目前被研究较多的运动形式之一[2][3]。医学领域的步态识别可用于为诊断和治疗病患提供支持，正常步态与病患的步态的比较，

第1章绪论

可以作为诊断的依据。步态作为一种生物的自然特征，在人与人之间具有差异性，目前已被用于远距离的身份验证，有望成为一种新式的简单有效的安全防控手段。

3）自动视频监控

人体动作识别和分析的另一个重要应用是自动视频监控。自动视频监控系统不仅要求能够感知视频序列中的人体，而且要求能够识别并分析人的动作，即：是否有人？他在干什么？步态识别是人体动作识别中的一个研究方向，它可以通过对视频中人走路的形态数据进行识别，从而实时对行为人进行访问控制，可以在一定程度上保障公共安全。自动视频监控的过程一般包括运动目标识别、目标分类、目标跟踪和行为识别等几个部分。通过这些步骤，计算机可以在不借助人工干预的情况下自动监视摄像头所在的场景，在出现异常时发出警报。

4）基于内容的检索

针对规模较大的视频数据库，我们需要对这些视频进行高效的管理与访问。但是要使检索视频能够像检索文本一样，就要对视频数据作基于内容的检索。通过对视频中的人体运动和动作信息进行识别和识别，正确标识不同类型的视频，帮助人们在视频数据库中快速找到目标片断，从而实现高效地管理和查询视频数据库，提高视频信息的使用效率。

人体动作识别在多个其它相关领域也有十分重要的应用。例如，影视片、虚拟现实以及游戏中的动作制作需要使用人体动画技术，通过视频采集人体的动作信息，利用计算机对这些信息进行恢复和重建，然后驱动动画角色做出相似的动作，达到更为形象、逼真的效果。此外，人体动作识别技术的发展还能够对于人体生理和心理学的研究产生一定的促进作用。可见，如今人体动作识别已经渗透在人们日常生活的多个方面，它对于提高和改善人们的生活品质有重要的作用和意义，因此越来越多的研究人员都投入到了该课题的研究当中。基于视频序列的人体动作识别是一项涉及多个学科的研究工作，与之相关的领域包括：机器学习、图象处理、模式识别、计算机视觉等，而且它的研究成果可以应用到其他领域，能够对计算机视觉的整体研究工作产生广泛的推动作用。1.3 人体动作识别方法简述

1.3. 1 基于概率统计的方法

概率统计的方法基于这样的描述：在任意时刻一个系统均可被描述为处于若干个独

河北大学工学硕士学位论文

立状态中的某一种状态，系统每隔一定时间都会根据与连续状态的概率从而转换到下一个状态。使用概率统计方法来进行动作分析是将动作内的不同姿势各自定义为一个状态或者是状态的集合，然后利用网络的方式将这些状态进行连接，使用概率来描述状态之间的转换情况，可以将一个动作看成是一次这些状态的遍历。

设输入点集合D = { d1，d2，…，dt } 表示可获取的动作特征数据，输出点集合O = { o1，o2，…，ot } 为可预测的输出状态，分析目的是获得一个状态集合O*，使得由该状态集合观测到D的概率P(O|D)最大，其数学表达式为：

O* = argmaxP(OID)

基于概率统计的方法将运动的微小变化在时间和空间上采用概率的方法建模，并且充分考虑到人体动作发生时的动态过程。因此，基于概率统计的方法对于动作序列在时间和空间上的微小变化具有非常好的鲁棒性，目前已经成为主流的动作分析方法。其中，隐马尔可夫模型（HMM）是最常用的概率图模型[4][5][6][7]。

1.3.2 基于语法的方法

人体动作识别的目的是为了服务于智能化的机器理解。即除了识别人体的动作种类并获取相关的动作信息之外，还需要分析系统或设备理解动作的意义或质量，然后采用更为高级的表达形式，最终完成对人体动作的分析和表达。

近些年来，基于语法的分析方法引起了许多研究人员的注意，并被越来越多地应用于人体运动识别和动作分析。语义是以动作特征为基础而抽象出的高层含义，它可以跨越一些底层信息难以表达的细节，而对人体动作进行准确而详尽的细节表述，是描述动作信息的高级形式。使用基于语法的方法来实现人体动作识别，可以很容易过渡到自然语言。例如Ivanov和Bobick [8]对智能体的行为交互进行的检测和识别就采用了上下文无关的随机句法分析技术；Cho[9]等人以多个关节体运动的组合来表达人的行为和动作，应用统计语法推理自动识别人的行为动作[10,11]。尽管如此，在人体动作识别和分析领域还很不成熟，处于刚刚起步的阶段，有待研究人员的进一步发展。

1.3.3 基于模型的方法

许多识别和分析在根本上属于分类问题，而对于分类问题，最易理解、最直观的方法就是当前样本与预先准备好的静态模型进行比对，即基于模型的方法。基于模型的方法的主要思想是将图像序列转换为一系列静态形状模型，然后将其在识别过程中和动作

第1章绪论

样本进行比较，依据相似程度来进行分类，文献[12][13]采用了这用方法。主要方法有模型匹配（Template Matching）、动态规划（Dynamic Programming）和动态时空规整（Dynamic Time Warping）[14][15]。

1.4 人体动作识别的难点和面临的挑战

目前，人体动作识别技术虽然已经有了一定的发展和成果，但仍然处于研究阶段，研究人员依然很难设计一套高性能的、完善的人体动作识别方案，还有许多问题有待解决，这些问题产生的主要原因在于：

1）人体结构的复杂性和非刚体的人体运动

人体是许多部位借助肉体和关节结合的复杂的有机体，一项运动往往包含若干个不同的动作或姿态。人体运动属于非刚体运动，动作作为运动过程中的某个阶段，身体各个部位有不同的姿势以及运动方向，对于计算机处理来说，动作中就会包含复杂的运动特征。除此之外，由于人与人之间所存在的身形体貌、运动习惯等差异，也会使不同的人在做相同的动作时表现出差异，这也会增加识别难度。

2）运动分割的准确性

运动由一连串不同的动作构成，许多动作之间并没有明显的界点，要进行显式分割非常困难。并且，不同的动作在进行转换时还会有不规则连接姿态，这些连接姿态也不尽相同，同样对运动的分割造成困难。因此，要利用计算机成功地处理人体的连续运动，一个不可忽略的关键因素就是提高运动分割的准确性。

3）视频序列与理想数据的差异

计算机要处理自然影像，首先要将其存储为视频序列，但由于受到多种因素的制约，这些视频不会是理想的运动数据。造成这些状况的主要因素有：运动人体的晃动、背景干扰、摄像机的抖动、视频的清晰度、光照条件的微弱变化、运动人体的阴影等。因此，在人体动作识别中消除误差也是一个非常重要的环节。

4）算法的鲁棒性有待改进

尽管人体动作识别已经开始应用到现实生活中，但当前的应用都比较简单，对算法的鲁棒性要求不高，与人工识别和识别有着显著的差距。如果要将该技术更多地应用于生活中，提高分析效果的准确性，朝着更为智能化、人性化的方向发展，就需要进一步提高系统的鲁棒性。

河北大学工学硕士学位论文

另外，动作分析还受限于其它方面的因素：

1）运动的分类和定义。目前，对于不同的人体运动形式，国际国内都还没有一个明确的划分标准，运动、行为、行动、基元、动作、姿态等已有的运动层次界限模糊。除此之外，一个具体动作由哪几个姿态构成，可以分成几个阶段，起始结束如何界定，这些内容都是研究人员按照经验和实验需求自行定义和划分。

2）数据来源。在相同的标准下进行比较才有意义，同样，只有在相同数据平台上进行的研究实验才会有横向比较的意义，但是就各种人体运动来说，标准数据库还很少，甚至没有，这也加剧了对研究成果价值进行判定的难度。

1.5 本文的研究意义及主要工作

1.5.1 研究意义

在军事训练及体育运动中，人体动作的识别和分析应用相对较少，绝大多数情况下训练动作的观察和物理分析都是依靠人力解决。这种模式存在以下劣势：1）日常训练和体能考核都是人对人的模式，一对一的监督训练模式对人力造成一定的浪费，尤其是在军事体能训练中，有时甚至还会出现多人监督一人的情况。

2）在人力监督的情况下，训练中的动作标准难以统一，在监督标准相差较大的情况下，训练和考核的效果就会受到不利影响。

3）不能记录训练和考核的过程，不便于日后对训练和考核进行分析或指导。

随着视频处理技术的发展以及视频处理硬件设备成本的降低，在军事训练以及体育训练中使用基于视频的动作分析技术不仅有助于避免人力浪费、提高工作效率，还有利于建立规范的训练标准，提升训练效果。

当前国内军事科技化程度不断提高，数字化技术越来越多地投入到军事领域，并且日趋紧张的国际国内形势也对军事领域的方方面面提出了更高的要求。提高军队的作战能力，除了要对日益重要的军事装备进行升级，更为关键的因素还在于人的军事素质，其中体能素质军人最基本的军事素质，也是其作战能力的基础。本文着眼于这种态势，选择军事训练过程中的最基本体能动作俯卧撑作为研究对象，研究用视频记录体能训练动作并对其进行识别和分析的过程和方法。

第1章绪论

1.5.2 主要工作

人体动作识别是对运动序列中的人体动作进行识别和理解，本文进行识别的过程主要可以分为人体区域检测、特征提取、动作分割、动作识别。其中，人体区域识别是从视频序列或图像序列中将人体区域检测出来；特征提取是从运动序列中确定并提取必要的动作信息；动作分割是根据所选择的动作特征将一个完整地动作进行分割，姿态分割是将动作具体化为姿态层次，然后将分割出来的姿态库按照重要程度进行分类，便于在后续的识别工作中根据其所含信息权重采取差异化处理，着重识别计算那些具有重要意义姿态，这种处理方式有助于提高自动分析的程度，降低分析的复杂度。动作识别则是借助一定的识别方法在视频序列中对人体动作进行分类，最终确定动作的类别和质量。此外，我们还对识别中出现的偶然性误差进行校正，采用向量的某个维度模拟误差的产生，并用向量差的方式消除误差。

围绕以上内容，本文按照以下章节进行组织：

第1章绪论

第2章人体区域检测

第3章动作特征提取

第4章俯卧撑运动的动作及姿态分割

第5章俯卧撑运动的动作识别

第6章总结与展望

河北大学工学硕士学位论文

第2章人体区域检测

视频序列中的人体区域检测是一个重要且十分困难的研究领域，在人体运动分析中，人体区域的识别与提取是后续跟踪识别和活动分析的基础。要从图像序列中提取运动人体首先要进行运动目标的检测，运动目标检测是滤除图像中与运动对象无关的信息。正确检测运动目标能极大地提高跟活动分析以及踪识别的正确率。运动目标检测的方法主要可以分为三种：第一种是时间差分法，利用时间序列图像间的差分来检测运动目标；第二种是背景减除法[16]，将图像序列中的单帧图像与参考背景模型相减来检测运动目标；最后一种是光流法[17][18]，是对图像的运动场进行估计，将相似的运动矢量合并，形成运动目标的检测。

2.1 人体区域检测方法

人体区域检测是指从视频序列中提取静态图像序列，在其中检测出目标人体，并将其与背景图像分离[19][20]。人体区域检测是进行动作识别的必要前提。检测过程中可能遇到两种类型的背景：静态和动态背景。当视频采集设备位置固定且图像序列中只有人体区域发生变化，背景可视为静态。背景减除法和帧间差分法是在静态背景下经常使用的两种人体检测方法。在图像序列中除了人体还有其他物体发生变化，背景则视为动态的，动态背景下的人体区域检测要相对复杂得多。

2.1.1 静态背景下的人体区域检测

背景减除方法是目前从图像序列中检测人体区域时最常用的方法。背景减除法比较适合于视频采集设备位置固定的情况，其基本原理是将当前视频帧的图像和预先构建背景模型图像进行差值运算和阈值化，进而检测出人体区域。背景减除法的处理过程一般分为三个步骤：背景模型建立、当前图像与背景模型差分、图像的进一步处理。背景模型建立的相关研究人员已经做了很多意义重大的工作，Lin等人[21]提出了将背景模型更新方法分为盲目性更新[22]和选择性更新，Lee[23]对混合高斯模型的更新方法进行了改进并获得了良好效果。经过背景差分初步获得人体动作区域后，通常还需要对差分图像进行进一步的处理，去除阴影和噪声、进行腐蚀膨胀等。本文进行的实验中，视频采集设备位置固定，应用环境中的光照情况也较为稳定，因此采用背景减除方法检测人体区域。

第2章人体区域检测

帧间差分法[24][25]一般从视频序列中提取相邻的两帧或三帧图像，依次进行差分，得到图像帧间的不同，然后以阈值化的方式检测人体区域。Collins等人[26]采用三帧差分并进行了改进，他们通过结合自适应的背景减除法从而更为迅速地检测出人体区域。帧差法无需建立背景模型，能在一定程度上适应光照变化，因此可以适用在某些动态环境中，但是其获得的特征数据点往往不够完整，检测出的人体区域完整性不好，并且在选择相邻图像的数目和间隔时还需要参照人体的运动速度，使用的场合受到制约[27]。

2.1.2 动态背景下的人体区域检测

（1）基于变化区域的检测方法，通常认为相邻帧间的背景在全局运动估计和运动补偿后是静止的，这时可通过相邻帧图像的差分检测到运动区域。Neri[28]认为动作目标具有很强的结构性而噪声具有高斯特性，可利用互帧差的四次高阶统计量分割出背景区域和动作区域。

（2）基于光流场和运动参数估计的方法，找出与动作模型的象素区域相匹配的区域，然后连接这些区域构成动作对象。为了适应动态的背景，可以通过计算光流场和运动参数估计，在相邻帧之间进行差分检测到动作区域。文献[29]利用了光流法，对不同目标和背景的区分借助了运动速度信息。但因为光流估计的可靠性较差，提出了基于贝叶斯法的运动分割方法。贝叶斯法可以做到同时进行分割并进行运动估计，效果较为理想，但计算量大，并且先验参数不好估计，不适用于实时处理系统。针对这些问题，Nuno[30]又提出了一种改进的贝叶斯运动分割算法，此算法并不需各种先验参数，需要的仅仅是一个合适的先验表示。

2.2 本文中的人体区域检测

本文着重研究军事训练中的人体动作识别，在很多情况下，这些动作都是在相对固定的位置内由身体的某个或几个部位协同完成的，因此，我们采用背景减除法进行实验，通过将视频中的图像序列与预先建立的背景模型进行差值计算，可以呈现完整的人体动作。

2.2.1 建立背景模型

建立背景模型的主要方法有：平均背景模型，非参数化背景模型，高斯背景模型以及CodeBook背景模型。

河北大学工学硕士学位论文

本文采用平均背景模型。

在进行人体动作的视频录制的过程中，当人体还未进入取景范围时，或是人体已经完成动作走出取景范围后，视频采集设备获取的视频序列实际上是纯背景图像。借助这些纯背景图像，我们可以建立平均背景模型。

2.2.2 利用背景减除法得到人体区域

在提取视频序列中的人体区域时，本文采用了背景减除法。通过平均背景模型的方法建立背景图像，然后将背景图像与后续待测的视频序列中的图像做差值运算并取其结果的绝对值，得到在背景图像的基础上发生变化的图案。

检测当前帧的人体区域时，需要用该帧的像素值),(y x I 减去背景模型中相同位置像素的平均值),(y x u ，得到差值),(y x d ，将),(y x d 与一个阈值TH 进行比较，那么得到输出图像output 的值如下：

),(),(),(d y x u y x I y x -=

???>=otherwise TH y x d y x output ,0),(&,1),(

图2.1为减除图像背景的示例，左侧为背景图像，中间为动作序列中的某一帧图像，右侧为前两者作差后取绝对值的图像。

图2-1 背景减除 2.2.3 人体区域处理

由于在进行动作及姿态分割时只需要动作主体的轮廓及边缘等信息，而不涉及颜色等信息，因此，本文在提取出人体区域后将差值图像进行二值化处理，以降低计算的复杂度，提高系统的实时性，图2.2 是参数为二值化阈值为0.1时得到的二值化图像。

基于MATLAB的人体姿态的检测课程设计

基于视频的人体姿态检测一、设计目的和要求 1.根据已知要求分析视频监控中行人站立和躺卧姿态检测的处理流程，确定视频监中行人的检测设计的方法，画出流程图，编写实现程序，并进行调试，录制实验视频，验证检测方法的有效性，完成系统软件设计。 2.基本教学要求：每人一台计算机，计算安装matlab、visio等软件。二、设计原理图像分割中运动的运用（运动目标检测）首先利用统计的方法得到背景模型，并实时地对背景模型进行更新以适应光线变化和场景本身的变化，用形态学方法和检测连通域面积进行后处理，消除噪声和背景扰动带来的影响，在HSV色度空间下检测阴影，得到准确的运动目标。噪声的影响，会使检测结果中出现一些本身背景的区域像素点被检测成运动区域，也可能是运动目标内的部分区域被漏检。另外，背景的扰动，如树枝、树叶的轻微摇动，会使这部分也被误判断为运动目标，为了消除这些影响，首先对上一步的检测结果用形态学的方法进行处理，在找出经过形态学处理的后的连通域，计算每个连通域中的面积，对于面积小于一定值的区域，将其抛弃，不看做是前景运动目标。 2.2bwlabel函数用法：L = bwlabel(BW,n) [L,num] = bwlabel(BW,n)，这里num返回的就是BW中连通区域的个数。返回一个和BW大小相同的L矩阵，包含了标记了BW中每个连通区域的类别标签，这些标签的值为1、2、num（连通区域的个数）。n的值为4或8，表示是按4连通寻找区域，还是8连通寻找，默认为8。四连通或八连通是图像处理里的基本感念：8连通，是说一个像素，如果和其他像素在上、下、左、右、左上角、左下角、右上角或右下角连接着，则认为他们是联通的；4连通是指，如果像素的位置在其他像素相邻的上、下、左或右，则认为他们是连接着的，连通的，在左上角、左下角、右上角或右下角连接，则不认为他们连通。

基于骨骼数据的人体行为识别分析

基于骨骼数据的人体行为识别摘要人体动作姿态识别是计算机视觉研究领域中最具挑战的研究方向，是当前的研究热点。对人体动作姿态进行自动识别将带来一种全新的交互方式，通过身体语言即人体的姿态和动作来传达用户的意思，如在机场、工厂等喧闹的环境下，采用手势、动作姿态识别等人机交互技术能够提供比语音识别更加准确的信息输入。总之，在智能监控、虚拟现实、感知用户接口以及基于内容的视频检索等领域，人体动作姿态的识别均具有广泛的应用前景。该文首先简单介绍了人体动作姿态序列的分割，然后对人体动作姿态识别的方法进行了分类介绍，并对一些典型的算法的研究进展情况及其优缺点进行了重点介绍。关键词：人体动作姿态识别; 人工智能; 隐马尔可夫模型; 动态贝叶斯网络; 模板匹配前言人体姿态识别是计算机视觉的一个重要研究方向，它最终目的是输出人的整体或者局部肢体的结构参数，如人体轮廓、头部的位置与朝向、人体关节点的位置或者部位类别。姿态识别的研究方法应该说，几乎涵盖了计算机视觉领域所有理论与技术，像模式识别、机器学习、人工智能、图像图形、统计学等。到目前为止，已经有众多识别方法被提出，并且也取得了许多重要的阶段性的研究成果，但是以往的方法都是基于普通光学图像，比如常见的RGB 图像，这类图像容易受光照、阴影等外界变化的影响，尤其在环境黑暗的情况下无法来识别人体姿态，并且由于人体关节自由度大，及人的体型、着装较大差异性，常导致姿态识别系统识别率低。尽管有研究者利用多个摄像机获取采集的图像来获取人体深度信息以克服以上问题[1]，但是该类方法恢复的深度信息不是唯一的，而且计算量非常大，尤其是这种方法要求事先用人工对传感设备进行标定，而在选取场景中的标定物时，往往又会遇到实际环境操作困难的问题。随着光电技术的快速发展，深度传感设备的成本逐渐降低，人们获取深图像的途径及方法也越来越多。该方向的研究也逐渐成为计算机视觉领域的研究趋势。具体原因包括：一方面，深度传感设备不仅操作简单，并且极大简化了普通摄像机的标定过程；另一方面，得到的深度图像由于直接包含了人体的深度信息，能够有效的克服普通光学图像遇到的上述问题。到目前为止，较有影响力的基于该类图像的人体姿态识别算法，应该是 Shotton 等人利用一种深度传感器 Kinect 来实时捕捉人体运动的算法，该算法虽然能够满足人们对识别系统实时性的要求，但其对硬件要求特别高，并且不适合低分辨率图像中的人体关节点提取，容易导致人体骨架扭曲。下文将具体陈述人体运动分析的主要用途和前人在不同时期对这些难题的处理办法。主题基于计算机视觉的人体运动分析不仅在智能监控、人机交互、虚拟现实和基于内容的视频检索等方面有着广泛的应用前景，更是成为了未来研究的前瞻性方向之一。Gavrila 总结了它的一些主要应用领域[2,3,4]，下面据此对其典型应用做出进一步的介绍。智能监控(Smart Surveillance) 所谓“智能监控”是指监控系统能够监视一定场景中人的活动，并对其行为行分析和识别，跟踪其中的可疑行为(例如在一些重要地点经常徘徊或者人流密集的场合下突发的人群拥挤等状况)从而采取相应的报警措施。智能监控系统应用最多的场合来自于那些对安全

计算机视觉+人体姿态识别+双目视觉

Computer vision application 院（系）电子与信息工程学院专业集成电路工程学生吕广兴14S158054

Computer vision application The directory Report: Computer vision application (2) 1.The object of the project (2) 2.The method and the principle applied to the project (2) 2.1 Platform (2) 2.2 The principle of transform the RGB image to the gray image (2) 2.3 The principle of image enhancement (2) 2.4 The principle of thresholding (3) 2.5 The principle of classifier (3) 3.The content and the result of the project (4) 3.1 The main steps in the project (4) 3.2 About human body posture recognition (4) About three kinds of methods are most common: (4) 3.3.Stereo vision (11) 4.Reference (18)

Report: Computer vision application 1.The object of the project The object of the project is Gesture recognition and location in the interior of people. 2.The method and the principle applied to the project 2.1 Platform The platform is based on Visual Studio 2012 and OpenCV 2.4.10. 2.2 The principle of transform the RGB image to the gray image There are three major methods to transform the RGB image to the gray image. The first one is called the maximum value that is set the value of R, G, and B to the maximum of these three. Gray=R=G=B=max(R, G, B) The second one is called mean value which is set the value of R, G, and B to the mean value of these three. Gray=R=G=B=(R+G+B)/3 The third one is called weighted average that is giving different weights to the R, G and B according to the importance or other indicators, and then adding the three parts together. In fact, human’s eye is very high se nsitive to green, then red, last blue. Gray=0.30R+0.59G+0.11B 2.3 The principle of image enhancement Image enhancement is the process of making images more useful. There are two broad categories of image enhancement techniques. The first one is spatial domain technique, and it is a direct manipulation of image pixels that includes point processing and neighborhood operations. The second one is frequency domain technique, and it is a manipulation of Fourier transform or wavelet transform of an image. The principle of the median filter is to replace the value of a pixel by the median of the gray levels in the neighborhood of that pixel(the original value of the pixel is included in the computation of the median). It forces the points with distinct gray levels to be more like their neighbors.

基于视频序列的人体动作识别

密级：学校代码：10075 分类号：学号：20081194 工学硕士学位论文基于视频序列的人体动作识别学位申请人：刘涛指导教师：张欣教授学位类别：工学硕士学科专业：电路与系统授予单位：河北大学答辩日期：二○一三年六月

Classified Index: CODE: 10075 U.D.C.: NO: 20081194 A Dissertation for the Degree of Master Human Action Recognition Based on Video Sequences Candidate：Liu Tao Supervisor：Prof. Zhang Xin Academic Degree Applied for：Master of Engineering Specialty：Circuits and Systems University：Hebei University Date of Oral Examination：June, 2013

河北大学学位论文独创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写的研究成果，也不包含为获得河北大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了致谢。作者签名：日期：年月日学位论文使用授权声明本人完全了解河北大学有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。本学位论文属于 1、保密□，在年月日解密后适用本授权声明。 2、不保密□。（请在以上相应方格内打“√”）

人体行为识别技术

人体行为识别技术在计算机视觉领域中，人体运动行为识别是一个被广泛关注的热点问题，在智能监控、机器人、人机交互、虚拟现实，智能家居，智能安防，运动员辅助训练等方面有巨大应用价值。行为识别问题一般遵从如下基本过程：数据图像预处理，运动人体检测、运动特征提取、特征训练与分类、行为识别。着重从这几方面逐一回顾了近年来人体行为识别的发展现状和常有方法。并对当前该研究方向上待解决的问题和未来趋势做了分析。行为理解可以简单地认为是时变数据的分类问题，即将测试序列与预先标定的代表典型行为的参考序列进行匹配。通过对大量行为理解研究文献的整理发现：人行为理解研究一般遵从特征提取与运动表征、行为识别、高层行为与场景理解等几个基本过程。特征提取与运动表征是在对目标检测、分类和跟踪等底层和中层处理的基础上，从目标的运动信息中提取目标图像特征并用来表征目标运动状态；行为识别则是将输入序列中提取的运动特征与参考序列进行匹配，判断当前的动作处于哪种行为模型；高层行为与场景理解是结合行为发生的场景信息和相关领域知识，识别复杂行为，实现对事件和场景的理解。【2】 1、行为识别的应用从应用领域的分类来讲，可以将人体运动分析的应用分成如下几个领域： ①智能监控这里所指的“智能”包含两个方面的含义。一种“智能”是指系统能够在一定的场景中检测是否有人的出现(如通过检测人脸的方法)防止只是简单的通过运动目标检测所造成的错误报警(例如因为动物活动或者刮风摇动树枝等等而造成误报)。另外一种“智能”是指系统能够监视一定场所中人的活动，并对其行为进行分析和识别，跟踪可疑行为(如经常在重要地点徘徊等等行为)从而采取相应的报警措施。通常把报警系统设置于银行、机场、车站、码头、超市、办公大楼、住宅小区等地，以实现对这些场所的智能监控。 ②虚拟现实跟踪现实世界人的姿态，从而创建一个虚拟的仿真场景，实现人与这个虚拟世界的交互。该领域的具体应用涉及视频游戏、虚拟摄影棚、计算机动画等方面。 ③高级用户接口指可以通过对用户手势的识别来代替传统的鼠标和键盘输入，从而实现人与计算机之间的智能交互。此外，通过对手势语言的理解，还可以进行聋人与计算机之间的手语交流。 ④运动分析人体运动分析可以运用于基于内容的视频检索领域。例如可以检索在运动会上单杠比赛中运动员的杠上动作。这样可以节省用户大量的查询视频资料的时间和精力。另外一种应用是用于各种体育项目中，提取运动员的各项技术参数(如关节位置、角度和角速度，等等)，通过分析这些信息，可以为运动员的训练提

自然的人体动作识别

自然的人体动作识别黄飞跃徐光祐清华大学计算机科学与技术系，普适计算教育部重点实验室，北京，100084 摘要：人体动作识别是计算机视觉的一个重要研究课题。目前大多数动作识别的研究都假设是在特定受限的场景下，即特定的视角、位置、对象、背景和光照条件下工作。其中，尤以要求特定的视角和位置对实际应用的限制最为严重。本文致力于研究能处理视角和位置变化并可用于非特定对象的人体动作识别方法。我们把它称为自然的人体动作识别方法。为此我们提出了"包容形状"的人体表示，这种表示不受视角、位置的变化影响，充分利用了两个正交摄像机拍摄的轮廓信息以去除由人的身体旋转引起的影响。利用包容形状，我们取得了非特定人、任意视角下的自然人体动作识别较好的实验结果。同时我们也介绍了该识别方法在实际智能家居——老人看护系统中的应用。关键词：自然动作识别；包容形状 1．引言人体动作识别是计算机视觉里一个活跃的研究方向，有不少综述，力图把以前的相关研究方法进行总结和分类，比如[1], [2], [3], [4]。至今为止，关于动作识别的大多数研究工作都是在特定受限的场景下展开，比如特定的视角、动作人、背景和光照。在这之中，尤以视角和位置的限制最为突出。我们认为要实现自然场景下的动作识别，就必须消除应用条件中的这些限制。为此，我们在这篇论文中，重点研究了动作识别中与视角和位置无关的体态表示，以实现非特定人、任意视角下的自然人体动作识别。现阶段已经开展了不少视角无关的动作识别研究工作，比如Cen Rao [5]，Vasu Parameswaran[6]。但是还有很多问题亟待解决，大多数的方法依赖鲁棒的语义特征点检测或者是点对应，而这些是比较难实现的。在本文中，我们提出使用了一种“包容形状”的体态表示。在仿射摄像机投影模型的假设下，这种表示对于视角和位置的变化具有不敏感性，同时不需要依靠任何较难提取并且对误差很敏感的语义点检测和点对应。利用这种表示，我们开发了自己的动作识别系统并且把它部署到实际应用：智能家居—老人看护系统中。实验结果表明我们的系统对于非特定人、任意视角和位置下的自然动作有着很理想的识别能力。资助项目：国家自然科学基金资助项目（60673189，60433030）联系作者：黄飞跃， Email：hfy01@https://www.doczj.com/doc/a22554765.html,