人体行为识别的数据库对比研究
- 格式:pdf
- 大小:1.20 MB
- 文档页数:2
CHINA SCIENCE AND TECHNOLOGY INFORMATION Sep 2017中国科技信息2017年第17期
一l『”II.菌稽蕊 行业曲线 61万~200万§ 圜 DOI・10.3969/j.issn.1001—8972.2017.17.033
分析视频中人体的行为是行为识别研究的重要内容,作 为计算机视觉范畴的重要研究课题,行为识别不仅具有重要 的科学意义,而且具有十分关键的现实应用价值,对我们的 生产生活有很大影响。现在的计算机的计算能力越来越强大, 而价格却越来越便宜。计算机的出现和使用,最大限度地减 轻了人的压力,避免了人力和物力的浪费。用于行为识别的 数据库是实现行为识别研究的第一步,本文将针对现有的数 据库做出总结和分析。 基于RGB的人体行为识别库 近些年来,科研人员对人体动作行为分类和识别的探索 一般都是针对彩色视频和图像,用的比较多的基于RGB的 人体行为识别库是Weizmann数据库和KTH数据库。 Weizmann数据库[1]共包含了10种运动,分别 是walk,run,jump,gallop sideways,bend,one-hand— waving,two-hands-waving,jumping in place,jumping Jack,skipping。每种动作由9个人完成,数据库的采集是 在同一静止的背景下进行的。数据库中所包含的每个视频, 完成动作的时间是2秒,视频帧的速率是25 f/s,分辨率为 180X 144。 KTH数据库共包合了6种运动,分别是walk、iogg、 run、box、handwvaving、hand.1apping。每种动作由 25个人完成。数据库的采集是在4种不同的场景下进行 的,这四个场景分别是outdoors、outdoors with scale variation、outdoors with difierent clothes、indoors。数 据库的采集是在静止的背景下进行的。但是,每个动作是在 不一样的尺度下和不同的背景下完成的。数据库中所包含的 每个视频,完成动作的时间是2秒,视频帧的速率是25 f/s, 97一 影响力 真实度 行业关联度
分辨率为160 X 120。KTH数据库共有600个视频片段。 基于RGB—D的人体行为识别库 与彩色图像对比,深度数据仅与物体的空间位置相关, 具有空间颜色无关性,能直接反映出物体表面的三维特性; 受光照强弱以及外界环境改变等因素的影响较小且便于处理 遮挡问题。所以,人体行为识别结合深度数据,可以更准确 地完成人体行为识别,提高识别率。将深度信息作为彩色图 像序列的补充,可以有效地突破可见光图像识别与行为分析 中遇到的问题和瓶颈,深度图像的研究和利用,使得人体姿 态估计取得了较大进步。常见的基于RGB-[)的人体行为识 别库有MSR Daily 3D动作数据库、MSR Action 3D动作 数据库和DHA深度数据库。
图1 Wei
zmann数据库 I科学I ◎61万一200万 中国科技信息2o17年女 | Jc.ggu]8 R, ̄mm8 e。硎g 诎 d吨H曲dc i i 。 幽
叠 瞳t 图2 KTH数据库
图3 MSR Daily 3D数据库中的部分样例动作 MSR Daily 3D[31动作数据库是用Kinect传感器采集 图像构建的行为识别数据库。共包含16种运动:drink, eat,read book,call cellphone,write on a paper, Lise laptop,use vacuum cleaner,cheer up,sit still, toss paper,play game,lay down,walk,play guitar, stand up,sit down。每种动作由10个人完成,每人做2 次:该数据库在采集时,要求完成动作的人站着完成一次, 坐在沙发上完成一次,基本包括了生活起居可能发生的行为, 并且根据距离阈值法把拍摄时的复杂场景去除。MSR Daily 3D数据库中的部分动作样例参见图3。 MSR Action 3D[41动作数据库是用Kinect传感器采 集图像构建的行为识别数据库。一共有20组动作,包括 horizontal arm wave,hammer,forward punch,high throw,hand clap,bend,high arm wave,draw X, hammer,draw tick,draw circle,two hand wave, side-boxing,forward kick,side kick,jogging,tennis swing,tennis serve,golf swing,pickup&throw。每 种动作由7个人完成,每个人做3次,每个人在完成动作时 都正向面对采集图像的摄像头。该数据库包括4020个动作 样本,共23979帧深度图片。每帧深度图像的分辨率大小 是640 X 480,MSR Action 3D数据库建立的背景依据是 体感游戏,可以看出其包含了丰富的手部、腿部和躯干动作。 数据库中的部分动作样例参考图4。, DHA[5_7]动作数据库共有23种动作,包括bending, JaCklng,JumpIng,PJump,FUnn,ng,side,skipping, walking,one ̄and-waveing,two-hands-wave,front— claping,side-claping,a rm-swing,a rm-cu rl,leg— kick,leg-curI,rod-sw,ng,golf-swing,front—t)oxing, side-boxing,tai-chi,pitch,kick。每种动作由21个人完成, 每人做1次。DHA数据库采集的数据既包含彩色图像,又 包括深度图像,两种图像的每帧图像的分辨率大小都是640 图4 MSR Action 3D部分样例动作
图5 DHA数据库中的部分样例动作 X 480,共包含483个图像序列。数据库所包含的部分样例 动作如图5所示。 总结 分析视频中人体的行为是行为识别研究的重要内容。用 于行为识别的数据库是实现行为识别研究的第一步,不同的 识别方法针对不同的数据库对识别结果有很大的影响。基于 RGB的数据库,Weizmann数据集的背景和视角都是静止 的,并且提供了前景的轮廓;KTH数据库包括四种不同的 场景,不仅有人物外形的变化,持续时间的不同,还有视角 的变化,KTH数据库比Weizmann数据库复杂得多;基于 RGB-[)数据库,MSR Action 3D数据库包含深度信息和骨 骼信息,相较于MSR Action 3D数据库,MSR Daily 3D 数据库中每个动作样本较少,对于同一个动作不同人的区别 比较大,而且包含一些复杂的动作,这些动作通过Kinect很 难得到完整的骨骼序列。 _
盗逝