行为识别国内外现状
- 格式:doc
- 大小:35.50 KB
- 文档页数:5
人体行为轨迹识别与分析研究随着科技的不断发展,人工智能技术的应用也越来越广泛,其中人体行为轨迹识别与分析技术便是其中之一。
人体行为轨迹识别与分析技术,顾名思义,就是通过对人体的行为轨迹进行分析和识别来推断人体的行为动作、情感状态和心理活动等信息。
该技术已广泛应用于生物医学、心理学、社会学、安防和智能交通等领域。
一、人体行为轨迹识别技术的研究现状目前,人体行为轨迹识别技术的研究重点主要包括以下几个方面:动作识别、情感识别、心理状态识别、人物识别、动态轨迹生成和恶意行为检测等。
动作识别是指通过对人体行为轨迹的分析和识别来推断出人体进行的动作。
目前,常见的动作识别方法主要包括传统的人工特征提取和机器学习算法。
其中,机器学习算法主要分为传统的监督学习和无监督学习两种。
传统的监督学习算法主要包括支持向量机、决策树、神经网络和贝叶斯分类器等;无监督学习算法主要包括聚类、降维和异常检测等。
现代的深度学习技术,如卷积神经网络、循环神经网络和生成对抗网络等,也被应用于动作识别领域,并取得了不错的成果。
情感识别是指通过对人体情感状态的分析和识别来推断出人体的情感状态。
情感识别技术常用的方法主要包括语音识别、面部表情识别和生理信号识别等。
其中,面部表情识别和生理信号识别常用于观察人体的心理状态,如焦虑、压力、愉快等;而语音识别则主要用于推断人体的情感倾向,如友好、敌对等。
心理状态识别是指通过对人体生理信号和行为轨迹等多种信息的分析和识别来推断人体的心理状态。
常用的心理状态识别方法主要包括心率变异性分析、电脑断层扫描(CT)、磁共振成像(MRI)和核磁共振波谱等。
人物识别是指通过对人体行为轨迹的分析和识别来推断人体的身份信息。
人物识别技术常用的方法主要包括人脸识别、指纹识别、虹膜识别和声纹识别等。
动态轨迹生成是指通过对人体行为轨迹的分析和识别来推断出人体的运动轨迹。
传统的轨迹生成方法主要包括高斯过程回归、粒子滤波和卡尔曼滤波等。
摘要随着视频获取技术和互联网的飞速发展,视频迅速成为人们日常生活中信息来源的重要载体。
视频数据量正处在指数级的增长状态,巨量的视频在丰富日常生活的同时,也带来了诸多难题,比如视频在检索和人体行为分类等方面都存在不小的难度。
视频的人体行为识别已经成为一个研究热点,本文针对该课题进行研究,首先从视频数据中提取出能有效表达人体行为的特征,然后充分融合视频的长短时间信息,最后搭建起卷积神经网络,实现视频中的人体行为识别。
论文的主要工作如下:①针对视频相对于图像来说多出时间维度这一特点,采用视频长短时间信息融合的方法提取视频的有效特征。
通常卷积神经网络是处理单帧图像,面对含有时间信息的视频,本文先利用光流算法得到包含视频短时信息的光流特征。
为了短时时间信息更加鲁棒,将多帧光流特征叠加作为卷积神经网络的输入;为了得到视频的长时时间信息,将视频均分多段并把每段的光流特征输入网络,把网络输出结果再做融合。
最后实验表明利用视频长短时间信息能提高行为识别的准确率。
②针对视频片段静止时光流算法无法提取到有效特征等问题,提出采用鲁棒主成分分析算法提取视频稀疏、低秩特征然后结合神经网络进行行为识别。
将视频数据看成一个整体,由稀疏成分和低秩成分组成,低秩成分表征视频的背景,稀疏成分能有力描述视频中人体行为。
该算法能够从复杂的视频中分离出低秩背景特征和稀疏前景特征,这两种特征都是由像素级别组成,能有效表征人体行为特征,并且有着很好地鲁棒性。
③近几年深度学习飞速发展,涌现了一大批优秀的网络,比如AlexNet、VGG、Inception-bn、ResNet等。
在实验过程中,发现训练不同的网络得到不同的行为识别准确率,在这几类网络中残差网络具有最好的特征提取能力。
针对采用何种卷积神经网络搭建模型的问题,本文搭建了稀疏流和低秩流的双流网络,稀疏特征和低秩特征经过残差网络之后经过融合再送入分类器,最后实验分析验证了残差双流网络提高识别的准确率。
基于机器学习的行为识别研究随着现代科技不断进步,机器学习在近年来的发展中成为了一个备受关注的领域。
当下,机器学习的应用场景越来越广泛,其中之一就是行为识别。
本文将围绕基于机器学习的行为识别研究展开探讨,分析其应用现状、技术原理及未来发展趋势。
一、应用现状基于机器学习的行为识别广泛应用于智能家居、智慧城市、物联网等领域。
在智能家居领域,通过识别居住者的行为,系统可以自动智能化地调整灯光、空调甚至家电等设备,提升生活品质,同时改善能耗和环境状况。
在智慧城市领域,通过对行人、车辆等运动物体进行行为识别,可以提高城市治理、监控交通安全、智能路灯等设施的配套能力,让城市更加智能化。
在物联网领域,通过识别物体的行为,可以实现个性化服务和产品,提高物联网服务和产品的用户体验。
二、技术原理基于机器学习的行为识别,是指通过分析用户行为及其相关的环境参数,在经过大量数据训练后,能够自动识别用户行为或物体行为,并根据行为提供相应的智能服务。
目前基于机器学习的行为识别主要包括两个技术路线:传统机器学习和深度学习。
传统机器学习技术主要包括决策树、支持向量机、贝叶斯网络等,通过对输入数据进行分类和预测,来对用户行为进行识别。
其中,决策树是一种将输入空间划分为不同区域的分类模型,通过从根节点开始,按照特定的分类规则来逐层进行分类,最终确定用户的行为。
支持向量机是一种用于二分类的线性分类工具,通过找到最优的分类超平面,将两类之间的间隔最大化,从而对数据进行分类。
贝叶斯网络通过计算概率推断出各个变量之间的关系,然后用该概率模型来对用户行为进行分类。
深度学习是一种类似于人类神经网络的学习方式,通过多层神经元之间的连接,将输入数据转换为特征表示,最终进行分类。
深度学习技术主要包括卷积神经网络、循环神经网络等。
其中,卷积神经网络是指一种多层神经网络,可以自动提取数据中的特征,并对这些特征进行分类或者回归等预测任务。
循环神经网络是指一种可以记忆过去信息的神经网络,可以处理序列数据,在对用户行为进行识别时,可以自动考虑用户行为序列之间的时序关系,从而提高精度。
《人体行为识别关键技术研究》篇一一、引言随着人工智能技术的飞速发展,人体行为识别技术已经成为计算机视觉领域的研究热点。
人体行为识别技术可以通过对视频或图像中人体动作的识别与分析,实现对人体行为的自动理解和判断。
该技术在智能监控、人机交互、医疗康复、虚拟现实等领域具有广泛的应用前景。
本文将重点研究人体行为识别的关键技术,分析其发展现状及存在的问题,并提出相应的解决方案。
二、人体行为识别技术的发展现状人体行为识别技术主要通过图像处理、计算机视觉、模式识别等技术手段,对人体在特定环境中的行为进行识别和分析。
近年来,随着深度学习技术的发展,人体行为识别的准确性和实时性得到了显著提高。
目前,人体行为识别技术主要应用于智能监控、人机交互、医疗康复等领域。
在智能监控领域,通过识别异常行为,有助于提高安全防范能力;在人机交互领域,通过识别用户的行为意图,实现更加自然的交互方式;在医疗康复领域,通过分析患者的康复动作,为康复训练提供科学的指导。
三、人体行为识别的关键技术1. 特征提取技术特征提取是人体行为识别的关键步骤之一。
通过提取人体行为的时空特征、运动轨迹特征、骨骼关节特征等,实现对行为的准确描述和表达。
常用的特征提取方法包括深度学习算法、光流法、轮廓分析法等。
2. 深度学习技术深度学习技术在人体行为识别中发挥着重要作用。
通过构建深度神经网络模型,实现对人体行为的自动学习和识别。
目前,卷积神经网络(CNN)、循环神经网络(RNN)和长短时记忆网络(LSTM)等在人体行为识别中得到了广泛应用。
3. 多模态信息融合技术多模态信息融合技术可以将不同传感器获取的数据进行融合,提高人体行为识别的准确性和鲁棒性。
例如,将视频图像信息和音频信息进行融合,实现对人体行为的全方位识别。
四、存在的问题及解决方案1. 数据集不足和不平衡问题目前,人体行为识别的数据集相对较少,且存在类别不平衡问题。
这导致模型在训练过程中容易出现过拟合和泛化能力差的问题。
基于深度学习的动物行为识别技术研究动物行为识别技术在生态学、动物行为学和野生动物保护方面都有重要的应用。
过去几十年,研究者们通过观察动物行为,寻找规律并研究其适应性和生态意义。
但是传统的观察方法很难涵盖所有动物行为,并且需要大量的时间和人力。
而现代技术的出现为我们带来了更多的可能性。
目前,深度学习作为一种机器学习技术,在动物行为识别领域也表现出巨大的优势。
本文将介绍基于深度学习的动物行为识别技术的研究现状、优势以及存在的问题。
1. 研究现状基于深度学习的动物行为识别技术主要包括两个步骤:特征提取和分类器训练。
其中,特征提取是非常关键的一步。
一些研究者采用传统的基于手工特征的方法来提取特征,例如局部二值模式、方向梯度直方图等等。
这些方法需要大量的人力和经验,并且很难对动物行为之间的相似度进行有效的区分。
而近年来,研究者们开始探索基于深度学习的自动特征提取方法。
例如,将卷积神经网络应用于动物行为识别中。
有些工作采用了预训练的深度神经网络作为特征提取器,通过微调或者使用SVM(支持向量机)等分类器进行分类,同时有些方法采用端到端的训练方法来进行分类。
目前深度学习在动物行为识别领域已经取得了一些重要的进展,例如鸟类识别、海豚识别、猴子识别等等。
相较于传统方法,基于深度学习的方法在精度、有效率、特征提取等方面都表现得更具优势。
2. 优势2.1 精度深度学习能够自动学习可用于动物行为识别的特征,在提高分类准确率方面起到了望尘莫及的效果。
传统的方法需要数据标注者提取具有代表性的特征,这是一项费时且需要经验的任务。
相比之下,深度学习算法能够发现和挖掘数据中的特征,从而大大地提高动物行为识别的精度。
2.2 可迁移性深度学习的另一个重要优势是其具有很强的可迁移性,也就是说,它可以在不同的数据集和任务上使用相同的特征提取器。
因此,深度学习算法能够很容易地适应和应用于多个动物行为识别任务,这大大提高了算法的适用性和扩展性。
人工智能行为识别技术研究随着人工智能技术的快速发展,人工智能的应用范围也在不断拓宽。
其中,人工智能行为识别技术被广泛应用于安防、智能家居、司法、医疗等领域。
人工智能行为识别技术可以通过对人类行为的感知和分析,判定行为是否合理、是否违法、是否危险等,从而保障人们的生命财产安全,提升社会治安和人民的生活质量。
一、人工智能行为识别技术的背景人工智能技术是指让机器实现人类智力的一种技术手段。
行为识别技术是人工智能技术中的一种。
它是一个涉及模型建立、特征提取、算法优化和实现等多个环节的复杂系统。
行为识别技术要求对行为进行全面地感知、记录和分析,并通过数据挖掘、机器学习、人工神经网络等技术手段对行为进行分类和判断。
人工智能行为识别技术已经广泛应用于社会生活中,包括安防监控、智能家居、医疗、交通等。
二、人工智能行为识别技术的现状人工智能行为识别技术的现状:1、人工智能技术已经广泛应用于社会生活中,包括安防监控、智能家居、医疗、交通等。
2、随着人工智能技术的发展,人工智能行为识别技术的应用范围和技术水平也在不断拓宽和提高。
3、当前,国内外研究机构和企业都在开展人工智能行为识别技术相关的研发和创新,取得了一定的成果。
三、人工智能行为识别技术的应用领域人工智能行为识别技术可以被应用在很多领域,包括以下方面:1、安防人工智能行为识别技术可以对进出出入口、车辆、人员进行实时监控,一旦发生违规行为,系统会自动报警。
目前在公共场所、办公场所等地都有广泛的应用。
2、智能家居人工智能行为识别技术可以通过对居住环境的综合分析和智能化的操作,实现人性化的智能家居系统。
例如,当家中老人、儿童或其他无法自理的人有意外情况时,能够及时通过人工智能行为识别技术识别出问题,并及时处理救治。
3、司法人工智能行为识别技术可以在司法领域发挥重要作用。
例如,可以对犯罪行为进行协助鉴定,协助法院进行案件审理,减轻法官的工作难度。
4、医疗人工智能行为识别技术可以对患者进行行为监测,发现异常情况及时报警,对于科学治疗和病情监测都有非常好的帮助。
视频监控系统中的行为识别算法研究随着科技的不断发展,视频监控系统已经成为现代城市安全保障的重要组成部分。
然而,传统的视频监控系统往往需要大量的人力管理和检查,效率较低。
而行为识别算法,则可以帮助我们对视频图像中的行为进行自动检测和分类,从而提高视频监控系统的效率和准确性。
一、行为识别算法的基本原理行为识别算法是指通过视频监控系统中的图像处理技术,对监控范围内的人物、车辆等进行实时监测,并对其行为进行分类和判断的技术。
其基本原理是通过对视频图像序列进行分析和处理,提取出人物的运动信息、人物间的交互关系、场景背景等特征,再通过机器学习等算法对这些特征进行分类和识别。
其中,视频图像分析部分主要涉及图像预处理、对象检测、轨迹跟踪等技术;而分类识别部分则主要包括特征提取、特征选取、分类器设计等算法。
在行为识别算法中,常用的特征包括运动特征、形态特征、纹理特征等。
二、行为识别算法的应用场景行为识别算法的应用场景非常广泛,包括城市安防、交通管理、环境监测等领域。
其中,城市安防领域是行为识别算法的主要应用场景,主要涉及视频监控、异常检测、事件识别等方向。
在城市安防方面,行为识别技术能够对视频图像进行自动化分析和识别,从而提高监控效率和准确度。
例如,在公共场所的视频监控系统中,行为识别算法可以对人物的行走轨迹、停留时间、姿态等信息进行收集和分析,从而识别出异常行为,警示管理人员做出相应的处理措施。
此外,在交通管理领域,行为识别技术也有着重要的应用。
例如,在路口的视频监控系统中,行为识别算法可以对车辆的行驶速度、路径、违规行为等进行检测和识别,从而实现交通违规行为的自动监测和处理,提高交通管理的效率。
三、行为识别算法的研究现状目前,国内外在行为识别算法研究方面都有多个研究团队进行深入探究。
其中,国外主要以美国、英国、法国等发达国家为主,主要涉及计算机视觉、机器学习、数据挖掘等领域;国内则涉及多个领域,如图像处理、模式识别、人工智能等方向。
驾驶员行为识别研究一、引言随着交通事故的发生率不断上升,驾驶员的行为安全性成为了当前交通行业亟需解决的问题之一。
而驾驶员行为识别技术的应用,是提高道路交通安全的重要途径之一。
本文将围绕驾驶员行为识别展开研究,具体分为以下几个方面:二、驾驶员行为识别技术的研究现状1.传统驾驶员行为识别技术在传统的驾驶员行为识别技术中,主要采用的是汽车内装传感器等硬件设备,通过采集驾驶员的生理参数以及车辆的运行数据等信息进行驾驶员行为分析。
这种技术不仅具有高精度和高可靠性的优点,而且可以获得更加详尽和准确的行为特征信息,对于驾驶员的行为识别更加准确。
2.基于机器学习的驾驶员行为识别技术随着机器学习技术的不断发展与完善,基于机器学习的驾驶员行为识别技术逐渐成为研究的重点。
该技术主要通过采集驾驶员的车速、方向盘转角、刹车与油门踏板的信息等,建立对应的行为识别模型,实现对驾驶员行为的自动识别。
三、驾驶员行为识别技术在实际应用中的问题及解决方案1.数据采集问题对于驾驶员行为识别技术而言,数据采集是研究识别算法的重要环节。
然而,在实际应用中,数据采集的难度和局限性令人担忧。
例如,数据采集设备的存储容量有限,会导致采集数据量不足,而且采集到的数据可能存在噪声等情况。
解决方案:多数研究团队通过人工标注数据的方式解决数据不足的问题,但这种方法非常耗时费力;同时,对于数据噪声的清除,可以通过各种数据处理技术实现。
2.特征提取问题特征提取是决定识别成功率的关键性环节之一。
如何从大量的数据中得到有效的特征,是驾驶员行为识别技术需要解决的问题之一。
传统特征提取方法在面对复杂数据时很难完成有效的特征抽取,导致特征提取效果不佳。
解决方案:近年来,深度学习技术的兴起为驾驶员行为识别技术提供了全新的思路和解决方案。
通过深度神经网络构建特征提取模型,可以大大提高特征提取的效率和精度。
四、驾驶员行为识别技术的应用前景随着识别算法的不断完善,驾驶员行为识别技术在智能交通、汽车安全等领域有着广泛的应用前景。
1.原始视频的特征提取(1)光流场光流场是空间运动物体在观测成像面上像素运动的瞬时速度。
它利用图像序列中的像素强度数据的时域变化和相关性来研究图像的灰度在时间上的变化与场景巾物体结构及其运动的关系。
光流法通常假设相邻帧的图像差异非常小,从而获取对真实运动场的近似估计【31。
它不用预知任何先验知识,即能提供有关运动速度及图像中运动区域的简洁描述,适用于摄像机运动的情形。
但光流法易受噪声及光照变化的影响,且计算较为复杂,很难用于实时的视频监控系统。
(2)点轨迹目标的运动轨迹也可以作为特征,从而大致推断出目标运动所属的行为类别。
但图像平面上的轨迹对平移、旋转和缩放等变换比较敏感,因此在大多情形下,此特征显得不够可靠。
常用的替代特征表达有轨迹速度、时空曲率等【4,51。
运动轨迹的获取比较依赖于精确的跟踪算法。
从原始视频中提取点轨迹特征同样容易受到噪声、遮挡及混乱背景等的影响。
(3)人体形状表达在摄像机固定的情形下,假设背景已知,通过背景剪除法可以很容易得到运动人体形状。
基于全局、边界及骨架等的描绘子都可以用来表达人体形状。
全局方法16,71如剪影、矩等是在整体形状区域内计算描绘子,而边界方法仅考虑形状轮廓【8l,骨架i方法则是用一组lD 骨架曲线代表一个复杂的人体形状,比如中轴变换[91等。
(4)滤波器响应空时滤波器响应是一个广义上的分类。
Zhang等【lo】存时间轴上计算高斯导数,将滤波器响应较高的区域作为运动区域。
LaptevI¨1利用一组空时高斯导数滤波器将Harris角点检测扩展应用于三维的视频数据从而检测出空时兴趣点。
这类方法大都基于简单的卷积操作,运算快速而简便。
当视频分辨率较低的情形下,提取光流或剪影特征较为困难,利用滤波器响应特性可以从视频数据中提取有效的底层特征。
2.低层特征的描述与识别我们将低层特征的描述与识别方法分为三类①:非参数方法、空时体方法和参数时序法,分别对现有方法进行归类,并作一个简短的综述。
1.原始视频的特征提取(1)光流场光流场是空间运动物体在观测成像面上像素运动的瞬时速度。
它利用图像序列中的像素强度数据的时域变化和相关性来研究图像的灰度在时间上的变化与场景巾物体结构及其运动的关系。
光流法通常假设相邻帧的图像差异非常小,从而获取对真实运动场的近似估计【31。
它不用预知任何先验知识,即能提供有关运动速度及图像中运动区域的简洁描述,适用于摄像机运动的情形。
但光流法易受噪声及光照变化的影响,且计算较为复杂,很难用于实时的视频监控系统。
(2)点轨迹目标的运动轨迹也可以作为特征,从而大致推断出目标运动所属的行为类别。
但图像平面上的轨迹对平移、旋转和缩放等变换比较敏感,因此在大多情形下,此特征显得不够可靠。
常用的替代特征表达有轨迹速度、时空曲率等【4,51。
运动轨迹的获取比较依赖于精确的跟踪算法。
从原始视频中提取点轨迹特征同样容易受到噪声、遮挡及混乱背景等的影响。
(3)人体形状表达在摄像机固定的情形下,假设背景已知,通过背景剪除法可以很容易得到运动人体形状。
基于全局、边界及骨架等的描绘子都可以用来表达人体形状。
全局方法16,71如剪影、矩等是在整体形状区域内计算描绘子,而边界方法仅考虑形状轮廓【8l,骨架i方法则是用一组lD骨架曲线代表一个复杂的人体形状,比如中轴变换[91等。
(4)滤波器响应空时滤波器响应是一个广义上的分类。
Zhang等【lo】存时间轴上计算高斯导数,将滤波器响应较高的区域作为运动区域。
LaptevI¨1利用一组空时高斯导数滤波器将Harris角点检测扩展应用于三维的视频数据从而检测出空时兴趣点。
这类方法大都基于简单的卷积操作,运算快速而简便。
当视频分辨率较低的情形下,提取光流或剪影特征较为困难,利用滤波器响应特性可以从视频数据中提取有效的底层特征。
2.低层特征的描述与识别我们将低层特征的描述与识别方法分为三类①:非参数方法、空时体方法和参数时序法,分别对现有方法进行归类,并作一个简短的综述。
2.1非参数方法(1)模板匹配法这类方法需要对每种行为的特征建立相应的模板,将获取的特征数据与模板相匹配,通过计算两者之间的相似度进行识别。
Polana和Nelson[4刀将整个序列分解为多个周期行为,利用二维网格特征识别各种行为。
Bobick和Davis[391将图像序列转换为运动能量图像(膨酣)和运动历史图像(朋m)模板,MEI反映运动覆盖的范围及强度,而MHI反映运动在时间上的变化情况。
Weinland等【拍】提出运动历史体积(MHV)模板,从多个视角重建目标并将其投影到圆柱坐标系,提取Fourier变换特征以描述行为。
Wang和Suter[451也将整个行为过程融合为基于轮廓的平均运动形状(MMS)和基于运动前景的平均运动能量(彳^扭)两个模板。
模板匹配法计算复杂度低、实现简单,但它本身无法描述动态系统,也不能完全反映数据在空问上的分布属性,具有一定的局限性。
而且不同行为之间执行速率的不同、噪声、光照等因素都会影响模板匹配的准确性。
(2)目标建模法行为可以通过建立人体动态表观模型进行描述。
常见的人体模型有棍图模型【109]、2D模型例及3D模型51。
3D人体建模是最常用的人体结构表征方法,通过跟踪人体模型中主要关节点的坐标、关节之间的角度、关节点运动的速度及角速度可以分析人体各种行为。
3D模型包含深度信息,因此它能够有效解决自遮挡和自碰撞问题。
行为本身也可以看成是一个3D空时目标,如Mahmood等【1刁在联合X.Y-T空间将整个行为表示为圆柱体模型。
Yalmaz和Shahll31将跟踪获得的人体2D轮廓堆叠成联合X.Y-T空间中的目标,这种表达同时刻画了人体表观及动态运动特性。
从X.Y玎空问的表达中提取的各种几何特征,如峰、凹点、谷及脊等,可以作为目标表面的捕述,但它需要建立序列帧点与点之间的对应关系。
Gorelick等【6】采用背景剪除后的二值剪影替代人体轮廓,构造出X.Y-T空间一上的空时目标,虽然它不需要建立序列l;!!ji之间轮廓点之间的对应关系,但仅适用于摄像机固定的情形。
(3)流形学习法行为识别中所处理的视频数据处于三维空间,若将序列中每帧图像转换为向量并按时序排列构成矩阵处理,将会遭遇“维数灾难”,同时也会引起小样本问题。
而流形学习方法假设数据均匀采样J:高维欧氏空间中的低维流彤,从高维采样数据中恢复低维流形结构,并求出相应的嵌入映射,以实现降维。
它可分为线性方法及非线性方法。
线性流形学习假设数据位于线性空问,包括PCA、ICA等方法。
但在实际情形下,数据并非位于线性空间,需要从大量样本中学习流形的内部几何结构。
非线性流形学习方法大体分为两类,一类基于全局方法,如等距映射(届∞纠尸),计算每一个数据点与其他数据点关系而建立全连接图。
另一类方法基于局部,即考虑每个数据点与它邻域内的点的关系,定义图中的边及其权重,如拉普拉斯特征映射。
一些非线性方法的线性近似,如Lppt48,108l,加入类别信息的流形方法如LSTDE[491,可以直接求得投影矩阵用于解决新样本的低维嵌入问题。
流形学习方法可用于行为分析中原始数据的降维,采用NN/kNN、SVM 及Boosting等方法对低维空间中的特征数据进行分类可以识别不同行为。
2.2空时体方法(1)空时滤波法视频数据可以看成由每帧图像按时序构成的空时体,具有三维空时结构的滤波器可以用来描述视频数据的空时特性,进而提取行为特征。
Chomat和Crowley/¨1从视频中分割出不同的空时体,用方向和空间上的不同尺度及时问上的单一尺度构成的Gabor滤波器组在每个像素点上计算局部表观模型,通过每帧中单个像素点概率空间的平均值对行为进行识别。
为了适应不同的执行速率,Manor等f”】在时间上的不同尺度得到空时梯度表示的归一化局部直方图,并使用卡方距离度量它与存储模板之间的相似度。
滤波器方法虽然实现简单,但在实际应用中,滤波器的合适带宽并非先验已知,需要不同空间和时间尺度上的滤波器组获取其动态行为,且每个滤波器产生的响应与输入体的维数相同,因此这种方法必须付出较高的计算代价。
(2)基于部分的方法视频数据可以看成是局部的集合,其中每个子部分都包含着明显的运动模式。
Laptev[111将Harris角点检测器扩展到空时表示形式,在不同级别的尺度上计算空时梯度,由每个点及其邻域内的梯度信息产生空时二阶矩的估计,从而提取局部特征。
Dollar等fl 61在训练数据中的空时兴趣点上提取空时梯度,采用K 均值聚类方法获取特征原型,对视频体进行建模。
Niebles掣"1从包含空时兴趣点的子体积中提取特征并聚类乍成Bag.of-Words模型,采用SVMs识别各种行为。
不同的行为可能包含相似的空时子部分,而子部分之间的几何关系却各不相同。
但以上这些方法都不能对局部的全局几何进行建模,在不同行为之间可能造成歧义性。
Boiman等f18】和Wong掣1叨将全局几何引入到基于部分的视频体表示,将其看成是各子部分的星群。
当子部分数目较多时,这种方法的计算量也会相应地增大。
Song等1201采用三角化的方法逼近星群之问的连接关系,从而解决计算花费偏高的问题。
Niebles和Li[2”提出一个层级模型,其中较高的层级是各部分的星群,星群中的各部分则由低层Bag.of-Features构成。
基于部分的方法大多需要基于空时兴趣点提取梯度或强度特征,在比较平滑的运动中,兴趣点十分稀疏,在行为本身不连续或视频质量不高的情形下,梯度或强度特征也显得不够可靠。
(3)分体匹配法分体匹配法一般通过匹配输入视频体与三维模板分体之间的相似度从而对人体行为进行分析。
与基于部分的方法不同,它不需要在不同尺度空问中获取行为特征,而是直接判断其所包含的局部空时片段(Local Spatio.Temporal Patches)之间的运动相似度来寻求匹配。
然而,从视频体分割出分体再进一步得到空时片段,反复地匹配空时片段之间的相似度,同样也会产生巨大的计算花费。
Shechtman和Irani[221通过发掘空时运动之间的相关性实现未知行为数据与模板之间的匹配。
Ke掣241通过空间观上的像素点聚类得到分体,分体是空间上的连续区域,而视频体可以看成是任意形状分体的集合。
给定的一段视频被重复分割成多个分体,将每个分体区域与已知行为的模板相匹配,寻找与模板达到最大匹配的最少分体的集合。
Yuan等【5I】利用基于贝叶斯的互信息最大化方法将提取的空时兴趣点根据其所属的行为类别按正/负投票输出,行为检测即是寻找包含最大投票输出值的分体。
分体匹配法容易受到背景变化的影响,但对噪声及遮挡等干扰因素则具有一定征【23】,则可降低这类方法对表观变化的敏感性。
(4)基于张量的方法将行为表示为三维空时体,则可以很自然地作为一个三阶张量,其中两维表示空间,另一维表示时间。
传统的视频处理方法需要将视频中人体行为所在的每帧图像转为向量并按时问顺序堆叠成矩阵处理,由于矩阵的向量由图像转换而来,一般具有很高的维数,以100x120大小的图像为例,对应于矩阵中的向量为12000维。
与这种传统表示相比,张量以自然地形式表示数据,既避免造成了维数灾难,又保留了视频数据内部图像的窄问结构信息。
Kim等【25】将典型性相关分析(CCA)扩展应用到三阶张量情形,实现测试行为与已知类别行为之间相关性的直接度量。
Vasilescu[261将行为类别、人的身份及关节轨迹分别作为张量独立的一维,构成高阶(三阶或三阶以上)张量,张量分解为对应的模式则可得到行为类别或行为者的身份。
Wblf等[27】把Low.Rank SVM扩展到张量空间并用于行为识别。
当然,张量方法也可与其它方法相结合,如凌等【521采用Tensor PCA、Tensor LPP及有监督的Tensor LPP获取行为的低维特征表示,进而通过最近邻方法识别各种不同行为。
基于张量的方法不需要中间层表示,比如部分、分体等,直接在行为之间实现整体匹配。
其它特征如光流场、空时滤波响应等也可加入到张量框架中,作为张量空间中任何独立的一维构成高阶张量,以增强不同行为之问的可辨识度。
2.3参数时序方法非参数方法和空时体方法一般用于识别简单行为固,而参数时序法则更适用于复杂行为,如芭蕾舞视频中的旋转动作,交响乐中的指挥手势等。
(1)隐马尔可夫模型(删)隐马尔可夫模型能够匹配时变数据,是一种比较常用的状态空问法。
它涉及训练和分类两个阶段。
训练阶段指定模型的隐藏状态数,优化相应的状态转换和输m 概率,便于产生与特定行为特征相对应的输出类别符号。
分类阶段需要计算HMM 对应于行为特征的不同测试符号的概率。
Yamato等【281对每个行为类别的前景图像序列建模,能够识别击球、拦网等网球动作。