estimating change in head pose from low resolution video using lbp-based tracking
- 格式:pdf
- 大小:1.21 MB
- 文档页数:6
基于AlphaPose模型的远距离行人头部姿态估计算法基于AlphaPose模型的远距离行人头部姿态估计算法引言:在计算机视觉领域,行人姿态估计一直是一个具有挑战性的问题。
传统的方法需要大量的手工设计特征和复杂的学习算法,而近年来深度学习的兴起为姿态估计任务带来了革命。
AlphaPose模型是一种先进的深度学习模型,通过联合估计人体姿态和关键点检测,取得了令人瞩目的成果。
本文旨在介绍基于AlphaPose模型的远距离行人头部姿态估计算法,并探讨其在实际应用中的潜力和挑战。
一、AlphaPose模型的简介AlphaPose模型是一种基于卷积神经网络的姿态估计模型,其设计灵感来自于人体的骨架结构。
该模型首先通过卷积层提取图像特征,然后通过多层卷积和池化操作逐渐降低特征维度。
接下来,通过一个残差网络对特征进行进一步的提取和融合,最终输出人体姿态和关键点的估计结果。
二、远距离行人头部姿态估计的挑战远距离行人头部姿态估计与传统的行人姿态估计任务相比,面临着更大的挑战。
首先,由于距离的增加,行人头部在图像中的表现会变得更加模糊和不清晰,这对姿态估计的准确性提出了更高的要求。
其次,远距离行人的特征维度相对较小,提取有效的特征表示是一个困难的问题。
此外,由于视角的变化和图像中的遮挡等因素,远距离行人头部姿态估计的精确性也受到了限制。
三、基于AlphaPose模型的远距离行人头部姿态估计算法为了解决远距离行人头部姿态估计的挑战,我们提出了一种基于AlphaPose模型的改进算法。
该算法主要包括以下几个步骤: 1. 数据预处理:由于远距离行人头部的模糊性,我们首先需要对图像进行预处理,包括降噪、锐化和增强对比度等操作,以提高图像的清晰度和可辨识度。
2. 特征提取:利用AlphaPose模型的卷积层提取图像特征,采用多层卷积和池化操作逐渐降低特征维度。
为了充分利用信息,我们还引入了图像金字塔和多尺度融合的策略,以提高特征的多样性和表达能力。
使用计算机视觉技术进行光流估计的方法计算机视觉技术是一门涉及图像和视频处理的领域,它可以通过算法和技术来模拟人类视觉系统的功能。
光流估计是计算机视觉中的一个重要任务,它可以通过分析图像中各个像素点的运动来推断出物体的运动轨迹和速度。
在本文中,我们将介绍几种常见的光流估计方法。
一、基于亮度约束的光流估计方法基于亮度约束的光流估计方法是光流估计的经典方法之一。
它假设同一个物体上的像素在不同时间点的亮度是保持不变的,然后通过计算不同时间点的图像之间的亮度差异来估计像素的运动。
最简单的亮度约束光流估计方法是亮度差法,它利用亮度变化的大小和方向来估计像素的运动向量。
二、基于相关性的光流估计方法基于相关性的光流估计方法是另一种常见的光流估计方法。
它利用相关性来比较不同像素点之间的图像相似度,进而推断出像素的运动向量。
常用的相关性光流估计方法包括归一化互相关(Normalized Cross-Correlation)和相位相关(Phase Correlation)等。
这些方法适用于处理具有复杂纹理的图像,并且能够提供更精确的光流估计结果。
三、基于能量最小化的光流估计方法基于能量最小化的光流估计方法是一种通过优化问题来求解光流估计的方法。
它将光流估计问题转化为一个能量最小化的问题,通过最小化能量函数来估计像素的运动。
最常见的基于能量最小化的光流估计方法是Horn-Schunck光流估计算法和Lucas-Kanade光流估计算法。
这些方法通过建立优化模型,并采用迭代优化的方式来求解光流估计问题,能够提供较为精确的光流估计结果。
四、基于深度学习的光流估计方法近年来,随着深度学习的快速发展,基于深度学习的光流估计方法也得到了广泛应用。
这些方法通过构建深度神经网络模型,并利用大量的标注数据进行训练,来学习图像之间的光流关系。
基于深度学习的光流估计方法能够处理更复杂的场景,并获得更准确的光流估计结果。
常用的基于深度学习的光流估计方法包括FlowNet和PWC-Net等。
文章编号:
1671 -4598(2022)07 - 0246 - 09 DOI:10. 16526/j. cnki. 11-4762/tp.
2022. 07. 037
中图分类号:TP36
文献标识码:
B
计算机测量与控制.
2022. 30(7)
・246・
Computer Measurement &
Control
k k 乂 乂 J: J ” ■ J: J J .<■ .<■ Jr
激光飞秒手势识别算法建模及其 简易导航微系统实现
(南昌职业大学信息技术学院,南昌
330500)
摘要:为了解决演示场合展示办公应用的高性价比手势导航产品系统的需求,
提出并阐述了基于高性能的激光飞秒测距传感
和人工智能深度学习自适应进行手势识别的算法模型,做到了准确可靠、工效卓著和低成本,有力的突破了现有传统手势识别的 局限;以此激光飞秒手势识别为核心,结合Lora短距离无线传输、WinUSB便捷接口和视窗控制软件处理的组合优势,
独辟蹊
径,实现了高性价比的简易导航微产品系统,使手势识别走向大众化常规应用,达到了教学、论坛、会展、会议等演示办公廉价 便捷运用的期求。
关键词:激光飞秒测距;人工智能深度学习;BP_NN;手势识别算法模型;LoRa长距离无线通信;WinUSB接口;
视窗展
示控制
Modeling of Laser Femtosecond Gesture
Recognition
Algorithm
and Implementation
of Simple Navigation
Microsystem
KAI Zhaoqian, SHI
Jifeng
(Institute o£ Information Technology» Nanchang Vocational University, Nanchang 330500, China)Abstract:
In order to solve the demand of the high cost performance gesture navigation product system for the office application in
小型微型计算机系统Journal of Chinese Computer Systems 2021年1月第1期Vol.42 No. 12021结合通道注意力的特征融合多人姿态估计算法黄晨\高岩21 (华东师范大学软件工程学院,上海200333)2 (华东师范大学计算机学院,上海200333)E-mail :*****************摘要:为了提高二维复杂场景下多人姿态估计准确度和速度,提出了一种M o b ile-Y O L O v3模型与多尺度特征融合全卷积网 络相结合的自顶向下多人姿态估计方法.利用深度可分离卷积改进Y O L O v3网络以作为高效的人体目标检测器•针对网络特 征下采样过程中上层高分辨率信息不断遗失问题,在经典U型网络结构中嵌入多尺度特征融合模块,从而使网络中的低尺度 特征也包含高分辨率信息,并在特征融合模块中引入通道注意力机制,进一步突出多尺度融合特征图的关键通道信息.试验结 果表明:相比于堆叠沙漏网络(Stacked H ourglass N etw o rk,S H N)和级联金字塔网络(C ascaded Pyram id N etw ork,C P N),文中所 提出的人体姿态估计算法在C O C O数据集上的姿态估计平均准确率分别提高了 4.7和3.7.关键词:多人姿态估计;深度可分离卷积;U型网络;多分辨率特征;通道域注意力中图分类号:TP391 文献标识码:A文章编号:1000-1220(2021)01 ^0142>05Multi-person Pose Estimation Algorithm Based on Channel Attention and Feature FusionHUANG Chen1, GAO Yan21( School of Software Engineering, East China Normal University, Shanghai 200333, China)2 ( School of Computer Science,East China Normal University,Shanghai 200333 .China)Abstract : In order to improve the accuracy and speed of multi-person pose estimation in two-dimensional complex scenes, a top-down multi-person pose estimation methcxl is proposed which combines the Mobile-YOLOv3 mcxlel with the multi-resolution feature fusion network. The YOLOv3 network is improved by using the depth separable convolution as an efficient human body target detector. And aiming at the problem of the continuous loss of high-resolution information in the upper layer during the process of network feature down-sampling,the multi-scale feature fusion module is embedder in the structure of classic U-shaped network,so that the low-scale features in the network can also contain high-resolution representation information, and the attention mechanism of channel domain is introduced in the feature fusion module to further highlight the key channel information of feature map after multiscale fusion. The experimental results show that compared with the stacked hourglass network ( SHN) and cascaded pyramid network (CPN) , the average accuracy of the proposed algorithm in the COCO data set is improved by 4.7 and 3.7 respectively.Key words : multi-person pose estimation ; depth-wise separable convolution ;U-net; multi-resolution features ; channel domain attentioni引言人体动作识别作为人类行为智能分析领域一项基础而困 难的任务在智能监控系统、人机交互[1]、游戏控制和智能机 器人等多个领域具有广泛的应用.人体动作识别就是借助摄 像头或其他传感器设备,在复杂背景、不同人群的前提下对人 体做出的动作进行快速、准确的识别,而人体姿态估计是人体 动作识别的基础.因此,对人体姿态估计方法进行研究具有十 分重要的现实意义.人体姿态估计[2]是将检测到的如颈,肘和膝等人体关键 点联系以对人体姿态进行估计.近年来,随着深度学习方法的 流行,产生了许多基于单人姿态估计的研究成果,C M U的Y a s e r S h e i k h研究小组提出了卷积姿态网络m(C o n v o l u t i o n a l P o s e Ma-c h i ne,C P M),首次对人体骨架关键点信息显式建模,通过输出热力图(Heatmap)按C h a n n e l寻找最大响应点.同时,由于行人检测算法的提升,出现了如Faster RCNN[4],YOLO[51等许多优秀的检测模型,使得多人姿态估计算法的 研究成为主流.按照实现流程的不同,可将多人姿态估计算法 分为自底向上(Bottom-Up)和自顶向下(Top-Down)两类算 法.Bottom-Up类方法是先检测所有关键点再将关键点按照 所属人体目标进行组装,最有代表性的当属2016年COCO 比赛冠军-OpenPose. OpenPose—是基于C P M组件来搜索图 像中所有骨架关键点的位置,并采用肢体亲和场(Part Affinity Fields,PAF) 方法对关键点进行组装.Top-Down 类方法是 先进行人体目标检测,然后将截取的目标分别进行单人姿态 估计.旷视科技提出了C P N网络⑴,其是一种由粗到细(Coarse-to-Fine)的网络结构,充分利用了单人上下文信息. 相比Bottom-up类方法,Top-Down类方法有两点优势:1)对 人体目标检测的召回率更好;2)基于单人目标进行姿态估计 时的关键点准确度更高,但是在人数较多的时候,Top-Down收稿日期:202C M)6-22收修改稿日期:202(H)7-10基金项目:国家自然科学基金项目(61972157,6167223"7)资助.作者简介:黄展,男,1995年生,硕士研究生,C C F会员,研究方向为人工智能和深度学习;高岩,男,1973年生,博士,副教授,研究方向为计算机图形学、图像处理.黄晨等:结合通道注意力的特征融合多人姿态估计算法143 1期速度上会处于劣势,这就需要采用更轻便,高效的人体目标检 测器来提升检测速度.本文提出了一种M o b i l e-YOLOv3人体检测器和多尺度 融合网络相结合的Top-Down类多人姿态估计算法.首先,采 用M o b i l e-YOLOv3作为人体检测器,将原YOLOV3模型主干 网络中的常规卷积结构替换为深度可分离卷积结构(D e p t h-w i s e S e p a r a b l e C o n v o l u t i o n s)以提升人体 目标检测速度.然后 以经典U型网络为基础,嵌人了基于通道注意力机制的多尺 度特征融合模块,对融合后的关键特征通道信息进行筛选,提 高了姿态估计准确度.最后在C O C O数据集上的试验结果验 证了文中多人姿态估计算法的有效性和优越性.2编码-解码U型网络关键点热力图计算均方误差,网络总损失即为所有沙漏输出 的均方误差之和.在推理阶段则直接使用最后一个沙漏结构 的输出作为最终网络预测结果.本文提出的姿态估计网络的基础结构同属于U型网络,再采用多阶段不断堆叠基础模块的方式形成粗到细(C o a r s e-t o-F i n e)的完整网络结构.3多人姿态估计模型本文提出的自顶向下多人姿态估计模型包括人体目标检 测和姿态估计两部分,整体流程如图3所示.编码-解码U型网络[8]包含图像下采样编码和上采样解码两个阶段,根据输出层和损失函数的不同,可分别用于语义分割,人体姿态估计等图像任务上,网络模型如图1所示.X f l K图1编码-解码U型网络结构F i g. 1C c x l i n g a n d d e c o d i n g U-s h a p e d n e t w o r k s t r u c t u r e下采样编码阶段是通过连续的堆叠池化层或步长大于i 的卷积层来实现图像特征的提取,越靠近底部的特征尺度越 小,语义信息越丰富.像素级图像任务需要网络的输出结果接 近于原图尺度,于是在经过下采样特征提取之后需要进一步 对特征进行上采样解码,常用的上采样基础模块有插值法[9]和反卷积.文献[10]提出用于人体姿态估计的堆叠沙漏网络(S t a c k e d h o u r g l a s s N e t w o r k,SHN),其是由一系列称为“沙漏 (H o u r g l a s s)”的基础网络结构堆叠而成,沙漏结构实质上也 是一种U型网络,最低得到4 x4的尺度.下采样采用的是卷 积串联Max-P o o l i n g的模式,上采样采用最近邻插值结合跨 层连接,其结构如图2所示.图2沙漏模块结构F i g.2 H o u r g l a s s m o d u l e s t r u c t u r e为了避免梯度下降时出现梯度消失的问题,S H N网络在 训练过程中采用了中间监督(I n t e r m e d i a t e S u p e r v i s i o n)方法,每个沙漏结构在训练过程中的输出结果都会与训练集标注的图3自顶向下方法流程F i g.3 T o p-d o w n m e t h o d f l o w首先对Y〇LOv3目标检测模型进行改进,将原YOLO v3 模型主干网络中的常规卷积结构替换为深度可分离卷积结构 以提升人体目标检测速度,并减少输出通道数,在专业行人检 测数据集上进行重训练.其次,提出的姿态估计模型中设计了 基于通道注意力机制的多尺度融合模块,高分辨率特征学习 肢体关键点位置信息,低尺度特征学习肢体连接关系,改进了 常规U型网络中只有同尺度上通道互连的缺点,进一步提髙 了姿态估计准确率.3.1 M o b i l e-YOLOv3 模型图像卷积操作是深度学习中图像处理算法的(C o n v o l ut i o n a l N e u r a l N e t w o r k s,C N N)的基础 ,通过 卷积核 的滑动 ,提 取出整张图片的特征.常规卷积过程在特征通道数过大情况 下,卷积核的参数数量会非常庞大,从而计算效率较低.不同于常规卷积中每个卷积核对图片各通道同时进行操 作,深度可分离卷积(D e p t h w i s e S e p a r a b l e C o n v o l u t i o n)是采 用不同卷积核对多通道图片中的不同通道分别进行卷积,整 个卷积操作分解为分离卷积过程和点卷积过程两步进行.假 设有通道数为C的W x W x C的图片,卷积核3 x3 (设P a d=1.S t r i d e= 1),通过分离卷积操作分别得到每个通道的特征图(F e a t u r e Map).常规卷积过程的参数和深度可分离卷积过程的参数量分 别如式(1)和式(2)所示:P, =3 x3x C x K(1)P2 =3 x3 xC+ 1xl x欠(2)常规卷积过程和深度可分离卷积过程的乘法运算量分别 如式(3)和式(4)所示:Ct=H x W x C x K x3x3(3) C2=H x W x C x3x3+H y.W x C y K(4)通过对比式(1)和式(2),式(3)和式(4),深度可分离卷 积过程不论是在参数量还是乘法运算量上都远远小于常规卷 积过程,故采用深度可分离卷积结构有利于网络模型的轻量144小型微型计算机系统2021 年化,对后续人体关键点检测速度的提高具有很大的提升作用.YOLOv3[n]人体目标检测算法在保证检测精度的同时,检测速度相比于其它深度学习目标检测算法有了非常大的提 升.文中为了进一步提高人体目标检测的速度,将2.1节介绍 的深度可分离卷积过程应用到YOLOv3模型中,将D a r k n e t-53结构中的常规卷积层替换为深度可分离卷积层,以减少网 络模型的计算量.3.2通道注意力的多尺度融合网络姿态估计网络中不同尺度的特征信息都有重要意义,其 中髙分辨率的特征信息较好的保留了局部信息,用于姿态关 键点位置的检测;低尺度的特征信息则包含整个目标的全局 信息,能够推理关键点之间的连接关系.在网络中引人多尺度融合模块将高分辨率表征信息和低 尺度提取的语义特征信息在通道维度上进行融合,使低尺度 特征图上也能获得高分辨率局部信息,而高分辨率特征也能 融合全局推理信息.高、中、低3种不同尺度输人的融合结构 图如图4所示.制在训练时以对数似然函数丨〇gP •为目标函数,根据多项分布有:p{a k) =ak(6)目标函数乙模型参数0的梯度如式(7)所示:^L= I((a)ii2£^i l+ 1(7)80d0d0为了增强对输人向量的非线性表达能力,整个通道注意 力机制的聚合过程可以分为3个步骤.首先,通过全局池化层 将特征图提取出包含各通道全局信息的1xl x C特征向量,如式(8)所示:(8)其中,和C分别为特征图的长、宽和通道数,/,为特 征图每个格点的值.然后,利用全连接操作对全局池化层得到的特征向量进 行缩放,参数优化完后再通过全连接层恢复维度,对应输人向 量的权重,如式(9)所示:图4多尺度合并与通道注意力融合模块结构F i g.4 M o d u l e s t r u c t u r e o f m u l t i s c a l e m e r g i n ga n d c h a n n e l a t t e n t i o n f u s i o n图4中,整个融合模块分为多尺度合并和通道注意力融 合两个阶段,第一阶段是不同尺度的特征在C h a n n e l维度上 的合并,融合时的下采样模块采用的是步长为2的3 x3卷积 核,上采样模块是采用最近邻插值方法.融合特征的不同Ch a n n e l对该尺度检测的重要性不同,故在多尺度合并之后引人通道域注意力机制(C h a n n e l-W i s e A t t e n t i o n),使模型可以学习不同C h a n n e丨特征的重要程度.深度学习中的注意力机制来源于人类视觉中注意力特 点,即人类可以专注于观察某一事物,而忽略无关对象112].通 道注意力本质上是建立显式模型来重新定义C h a n n e l间的关 系,即对不同C h a n n e l进行特征重标定,加强有用信息而弱化 无关信息.卷积网络中的特征W x H x C可以当作是C h a n n e l维度 上的向量集合,注意力机制用来计算出针对当前特征每个向量^的权重,得到权重之后就可以对输入向量 进行选择,如式(5)所示:=<#>( |2tl ,t a t| )(5)其中,</>是聚合函数,其根据输人向量和对应的权重来输 出结果,标注的标签结果为将权重A作为概率,注意力机s= a(a i l S((〇2g))(9)其中,和%为全连接层权重,a为ReLU激活函数.8 为S i g m o i d激活函数.最后,将经过两个全连接层得到的权重乘回输人向量中,得到该尺度下融合之后的结果.由S H N网络结构启发,文中完整姿态估计网络采用分阶 段堆叠多尺度融合模块的方式.从输入到输出分为3个阶段,各个阶段内网络特征的尺度数目呈依次增加的形式,如第1阶段只有2种尺度特征,第2阶段包含3种尺度,依次递增直 到最后第3阶段包含4种尺度.从上往下特征图的尺度依次 减半,通道数倍增,如图5所示.0、Stage 1Stage 2Stage 3W/4H/4 CW/8H/8鲁丨W/16H/16 CW/32H/32 CI l O j P j F u...J ^ Conv、D o w n sample图5完整姿态估计网络结构F i g.5 C o m p l e t e n e t w o r k s t r u c t u r e o f p o s e e s t i m a t i o n考虑到骨架网络不需要单位像素级精细度的要求,最后 输出层的特征维度为输人尺寸的4倍下采样,通道数为17, 对应C O C O数据集的17个骨架关节点,每个通道上最大响 应位置即为该关节点预测位置.4实验结果与分析实验的硬件环境为i7-9700处理器,RTX2080Ti显卡•4.1人体目标检测实验文中提出的自顶向下多人体姿态估计方法分为人体目标 检测和姿态关键点估计两部分,文献[丨3]采用SSD-512作为 人体目标检测器,相比于使用Faster RC NN,将姿态关键点估 计精度提升了 6. 9%,可见高效的人体目标检测器对整个多1期黄晨等:结合通道注意力的特征融合多人姿态估计算法145人姿态估计方法至关重要.将 Mobile-YOLO v 3 模型在 Pasc al VO C、COCO 数据集上 重新进行训练,最后在C a l t e c h 人体目标数据集上测试,为了 进一步评估文中改进的人体检测器性能,与YOL 〇V 3、t i n y Y -OLOv 3(YOLOv 3轻量版,速度更快精度稍差)进行对比,评价行人检测器的指标有:1) 査准率(P r e c i s i o n ):正确被检测出的目标数与总检测 数之比.2) 召回率(R e c a l l ):正确被检测出的目标数与总有效目标数之比.P r e c i s i o n -R e c a l l 是一组矛盾度量指标,将设定的检测阈 值调低必将使得P r e c i s i o n 升 髙,同时伴随R e c a l l 值下降.当 设定多组不同阈值便可得到P -R 曲线,所有检测模型均在同样数据集训练同样轮次,得 到P -R 曲线如图6所示.P -R 曲线下方面积即检测 器的平均准确率A P 值,显然曲线位置越高同样的召回率下査准率也越髙,即意味着该检 测模型的效果越好,从图中可以看出本文提出的M o b i l e -YOLOv 3模型效果与原版YOLOv 3模型效果十分接近.另外,由于人体目标检测只是人体姿态估计的一个预筛选环节, 故对检测速度提出要求,不同检测器的权重大小、检测速度以 及准确率如表1所示.表1人体目标检测器效率性能对比图6人体目标检测器P -R 曲线F i g . 6 P -R c u r v e o f hu mant a r g e t d e t e c t o r常直立姿态以及模糊遮挡等情况,文中所提方法仍能较好的 检测出人物姿态的关键点.姿态估计算法的定量度量方法是计算算法模型的平均准确度(A v e r a g e P r e c i s i o n , AP )值,人体 姿态估计的A P 值是综合了不同关键点类型和人体大小尺寸 的归一化结果,如对于膝盖一类的大范围关键点和眼睛一类的小范围关键点,相同绝对偏差计算得到的误差百分比将会有很大区别.图7多人姿态估计结果图F i g . 7 R e s u l t p i c t u r e s o f m u l t i -p e r s o n p o s e e s t i m a t i o nT a b l e 1 E f f i c i e n c y a n d p e r f o r m a n c e c o m p a r i s o n o f hu mant a r g e t d e t e c t o r s检测器权重大小检测时间检测准确率YOLOv3237M89 m s 85.6tinyYOLOv333.8M 5 ms 71.184.8MobileYOLOv320.5M4ms从表i 中可以看出,本文改进的检测模型采用深度可分 离卷积层作为基本卷积结构,极大减小了卷积权重参数和运算量,相比原版Y O L O v3模型精度有稍许下降,但网络推理 检测时间仅为其5% ,同时比同一速度量级的tinyYOLOv3在 平均准确率上有19. 2%的提升,综合性能最佳,可以为后续 人体姿态关键点检测提供高精度的实时目标输人.4.2通道注意力的多尺度融合网络采用CO C O 人体关键点数据集来评估文中所提网络结 构的性能,C O C O 数据集由超过200000张样本图片组成,包含 250000个人体目标及17个标注的姿态关键点.先将检测到的人体目标图像裁剪缩放到488 x 288分辨率再输入网络,在训 练过程中采用了如旋转、水平翻转等数据扩增方法,使用Adam 方法更新网络参数,总共迭代训练20000轮,前1_轮的学 习率设置为10'后续训练的学习率下降到10'文中所提多人姿态估计方法在包含多人体目标图像上的关键点检测结果如图7所示.从图7中可以看出,即使输入图像包含诸如多人物、非正关键点检测的准确度(P r e c i s i o n )计算如式(10)所示:T Pprecision = T p 今汗(10)其中,TP 为检测正确的目标数,FP 为错误检测的目标数.姿态关键点相似性指标O K S 定义如式(11)所示:Iexp ( -<^i /l s 2k ])S (v i >0)rwc _ '________________ /II 、其中,r f ,为估计的关键点与真实关键点的欧氏距离.为 该关键点是否遮挡的标志,S 为目标尺寸,t ,是每个关键点的 乘积常数.A P 为O K S 分别取(0. 55 0. 6…0.9 0• 95 )值时所有 准确度的平均值.首先验证文中设计的通道注意力多尺度融合模块的性能,设置3种不同网络结构:不使用融合模块、仅使用多尺度 合并、多尺度合并加上通道注意力融合.对3种网络分别进行 训练,得到结果如表2所示.表2不同网络结构的结果T a b l e 2 R e s u l t s o f d i f f e r e n t n e t w o r k s t r u c t u r e sAP FLOPS (B N )Multi-Scale FuseChannel-Wise Attention70.16.471 7[i5]6.5V73.1[i6]6.8V 74.27.1VV表2第2种结构为所示文献[15]的姿态估计模型,仅在146小型微型计算机系统2021 年最后特征输出阶段采用了基于注意力的融合方式,对估计结 果的精度提升有限;第3种结构为HRNET[I6]模型,该模型将 不同尺度特征直接在通道维度上进行拼接,而本文模型在融 合阶段加人了通道注意力机制,在全局语义信息中心突出了 关键点的位置信息,网络运算量仅提升了约4. 2% ,姿态估计 的A P值提升了 1.1,有效提升了姿态估计准确度.在不同输入分辨率下,与堆叠沙漏网络(S t a c k e d H o u r-g l a s s N e t w o r k,SHN)、级联金字塔网络(C a s c a d e d P y r a m i d N e t w o r k,CPN)的比较如图8所示.图8不同输入分辨率对模型性能影响F i g.8 E f f e c t o f d i f f e r e n t i n p u t r e s o l u t i o n so n m o d e l p e r f o r m a n c e从图8可以看出,相比其他姿态估计模型,本文所提模型 在越低的输入分辨率上提升越明显,主要是由于文中模型的多 分辨率融合网络结构使得任一子网络都能始终保留原始输入 分辨率信息,从而丰富了局部特征提高了关键点检测准确度.5结束语多人二维姿态估计是视频人体动作识别的关键技术.文 中提出了一种M o b i l e-YOLCW3人体检测器和多尺度融合网 络相结合的多人姿态估计算法.将原YOLOv3模型主干网络 中的常规卷积结构替换为深度可分离卷积以提升人体目标检 测速度.姿态估计模型中设计了基于通道注意力机制的多尺 度融合模块,其中高分辨率特征学习肢体关键点位置信息,低 尺度特征学习肢体连接关系,进一步提高了姿态估计准确率. 试验结果表明:相比于S H N和C PN算法,本文提出的多人姿 态估计模型在C O C O数据集上姿态估计平均准确度在最高 448 x288分辨率时提高了 4.7和3. 7.文中提出的姿态估计网络采用多阶段堆叠多尺度融合模 块的方式进行搭建,结构设计灵活,文中采用3阶段网络结构 时在速度与精度上取得了较好的效果.实际工程应用中,可根 据任务需求增减网络阶段数,如在对精度要求不髙的任务环 境下(摔倒检测等大幅度体态改变),可采用2阶段网络结构 以提高检测速度.R e f e r e n c e s:[1] Chakraborty B K,Sarma D,Bhuyan M K,e t al. Review of constraints on vision-based gesture recognition for human-computer interaction [ J ]. IET Computer V ision,2018,12( 1) :3-15.[2] Dai Qin,Shi Xiang-bin,Qiao Jian-zhong,et al. Human pose estimation with global-constellated model [ J ]. Journal of Chinese Computer Systems ,2018,39(12): 2687 -2693.[3] Shih-En W ei, Varun Ramakrishna, Takeo Kanade,et al. Convolutional pose machines [ C]//IE E E Conference on Computer Visionand Pattern Recognition (CVPR) ,2016:4724-4732.[4] Ren Shao-qing,He Kai-ming,Girshick,Ross,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J ]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2015 ,39(6) : 1137-1149.[5]Joseph Redmon, Santosh Divvala, Ross Girshick. You only lookonce:unified,real-time object detection[C]//IE E E Conference onComputer Vision and Pattern Recognition ( CVPR) , DEEE,2016:779-788.[6] Cao Z,Sim on T,W ei S E,et al. Realtime multi-person 2D pose estimation using part affinity fields [ C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017 :1302-1310.[7] Chen Yi-lun,W ang Zhi-cheng,Peng Yu-ziang,et al. Cascaded pyramid network for multi-person pose estimation [ C ]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) ,2018:7103-7112.[8] Ronneberger O, Fischer P,B rox T. U-Net: convolutional networksfor biomedical image segmentation [ C ] //International Conference on Medical Image Computing and Computer-Assisted Intervention,Springer International Publishing,2015 :234-241.[9] Zhang X,L i Y,Kotagiri R,et al. KRNN:k rare-class nearest neighbour classification [ J ]. Pattern Recognition ,2017,62 : 33-44.[10] Newell A,Yang K,Deng J. Stacked hourglass networks for humanpose estimation [ C]//C om puter Vision-ECCV, Cham:Springer,2016:483499.[11] Xu Shou-kun,Ni Chu-han,Ji Chen-chen,et al. Research on imagecaption method based on safety helmet wearing detection [ J ]. Journal of Chinese Computer System s,2020,41 (4) :812-819.[12] Wang Ji-li,Peng Dun-lu,Chen Zhang,et al. AM-CNN a convolution neural network architecture for text classification based on attention mechanism [ J ]. Journal of Chinese Computer Systems,2019,40(4) :710-714.[13] Fang H S,X ie S,Tai Y W,et al. Rmpe:regional multi-person poseestimation[ C]//Proceedings of the IEEE International Conferenceon Computer Vision,2017:2334-2343.[14] Lin T Y,Maire M,Belongie S,e t al. Microsoft coco:common objects in context[ C]//Proceedings of the European Conference onComputer Vision ,2014 : 740-755.[15] Chu X,Y ang W,Ouyang W,et al. Multi-context attention for human pose estimation[ C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2017 : 1831-1840.[16] Sun K,X iao B,L iu D,e t al. Deep high-resolution representationlearning for human pose estimation[ C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, 2019:5693-5703.附中文参考文献:[2]代钦,石祥滨,乔建忠,等.基于整体-星型模型的人体姿态估计[J] •小型微型计算机系统,20丨8,39(12):2687-2693.[11 ]徐守坤,倪楚涵,吉晨晨,等.一种基于安全帽佩戴检测的图像描述方法研究[J].小型微型计算机系统,2020,41(4):812;19. [12]王吉俐,彭敦陆,陈章,等.AM-CNN: —种基于注意力的卷积神经网络文本分类模型[J].小型微型计算机系统,2019,40(4):710-714.。
基于深度学习的人体姿态估计与检测技术研究人体姿态估计与检测技术在计算机视觉领域具有广泛的应用,包括人机交互、运动分析、安防监控、虚拟现实等。
传统的姿态估计方法需要人为设计特征或采用手工提取特征的方式,存在着效率低、准确率不高等问题。
而深度学习技术的兴起为解决这些问题提供了一种有力的方法。
一、深度学习与人体姿态估计技术深度学习是一种实现人工智能的新型算法,其核心思想是通过建立多层神经网络,让计算机自动学习特征,达到提高分类、识别、回归等任务的准确度的目的。
人体姿态估计技术是指通过分析图像或视频等数据,推测出人体的姿态信息,包括身体的位置、朝向、关节点的坐标等。
传统的人体姿态估计方法采用线性回归、支持向量机等算法,需要人为地设计姿态特征,效率低不便于实时应用。
而基于深度学习的姿态估计技术可以自动地学习特征,准确度更高,实时性更好。
二、深度学习在人体姿态估计领域的应用基于深度学习的人体姿态估计技术已经在许多领域得到应用,如运动分析、人机交互、安防监控等。
(一)运动分析基于深度学习的运动分析技术可以分析运动员的动作特征,帮助教练更好地指导训练。
例如,通过跟踪运动员在场上的动作,提取出不同阶段的动作特征,可以判断运动员是否符合技术要求。
比如基于多视角摄像机的足球比赛分析技术,可以通过深度学习的方法,在比赛视频中提取出球员的姿态信息,并实时识别球员的运动轨迹、枪腿和进球等动作。
(二)人机交互基于深度学习的人机交互技术可以让计算机更好地获取用户的意图,提供更为人性化的交互方式。
例如,可以使用基于深度学习的姿态估计技术,让计算机能够识别人的手势,完成自然的操作。
如微软的Kinect游戏机器,可以使用RGB-D传感器,捕捉人的屏幕前的动作,并进行相应反应。
KAIST大学的DeepHand姿态估计系统以每秒70帧的速度精确地识别人的手势和手指位置,可以应用在虚拟现实、手势交互等场景。
(三)安防监控基于深度学习的安防监控技术可以帮助警方快速发现可疑行为,保障社会安全。
2022⁃07⁃10计算机应用,Journal of Computer Applications2022,42(7):2170-2176ISSN 1001⁃9081CODEN JYIIDU http ://基于点线特征融合的低纹理单目视觉同时定位与地图构建算法潘高峰,樊渊,汝玉,郭予超(安徽大学电气工程与自动化学院,合肥230601)(∗通信作者电子邮箱yuanf@ )摘要:当图像因相机快速运动造成模糊或者处在低纹理场景时,仅使用点特征的同步定位与地图构建(SLAM )算法难以跟踪提取足够多的特征点,导致定位精度和匹配鲁棒性较差。
而如果造成误匹配,甚至系统都无法工作。
针对上述问题,提出了一种基于点线特征融合的低纹理单目SLAM 算法。
首先,加入了线特征来加强系统稳定性,并解决了点特征算法在低纹理场景中提取不足的问题;然后,对点、线特征提取数量的选择引入了加权的思想,根据场景的丰富程度,对点线特征的权重进行了合理分配。
所提算法是在低纹理场景下运行的,因而设置以线特征为主、点特征为辅。
在TUM 室内数据集上的实验结果表明,与现有的点线特征算法相比,所提算法有效地提高了线特征的匹配精度,使得轨迹误差减小了大约9个百分点,也使得特征提取时间减少了30个百分点,使加入的线特征在低纹理场景中发挥出积极有效的作用,提高了数据整体的准确度和可信度。
关键词:单目视觉;点线融合;线匹配;低纹理场景;特征加权中图分类号:TP242.6文献标志码:ALow -texture monocular visual simultaneous localization andmapping algorithm based on point -line feature fusionPAN Gaofeng ,FAN Yuan ,RU Yu ,GUO Yuchao(School of Electrical Engineering and Automation ,Anhui University ,Hefei Anhui 230601,China )Abstract:When the image is blurred due to rapid camera movement or in low -texture scenes ,the SimultaneousLocalization And Mapping (SLAM )algorithm using only point features is difficult to track and extract enough feature points ,resulting in poor positioning accuracy and matching robustness.If it causes false matching ,even the system cannot work.To solve the problem ,a low -texture monocular SLAM algorithm based on point -line feature fusion was proposed.Firstly ,the line features were added to enhance the system stability ,and the problem of insufficient extraction of point feature algorithm in low texture scenes was solved.Then ,the idea of weighting was introduced for the extraction number selection of point andline features ,and the weight of point and line features were allocated reasonably according to the richness of the scene.The proposed algorithm ran in low -texture scenes ,so the line features were set as the main features and the point features were set as the auxiliary features.Experimental results on the TUM indoor dataset show that compared with the existing point -line feature algorithms ,the proposed algorithm can effectively improve the matching precision of the line features ,has the trajectory error reduced by about 9percentage points ,and has the feature extraction time reduced by 30percentage points.As the result ,the added line features play a positive and effective role in low -texture scenes ,and improve the overallaccuracy and reliability of the data.Key words:monocular vision;point -line fusion;line matching;low -texture scene;feature weighting0引言同时定位与地图构建(Simultaneous Localization AndMapping ,SLAM )是指机器人等主体上搭载特定传感器,在没有环境先验信息的情况下,在运动整体过程中建立环境信息的模型,同时估计自己的各种姿态运动[1]。
基于深度学习的驾驶员头部姿态参数估计阮志强;方向忠【期刊名称】《信息技术》【年(卷),期】2017(41)2【摘要】To detect whether if dirver watched rearviewmirror,and meet the requirement of real-time processing in driver action evaluation system.This paper propsed a method to use the graphics processing unit and deep learning to get the head pose estimation of driver.Firstly,it uses cascade and calibration Convolutional neural networkto locate the box offace.Secondly,it uses shift and scale to change the face box.Then,it unifies the size of im ages to 32 × 32 and normalize all pixels of the image to zero mean and unit st it uses convolutional neural network and support vector machine to train the dataset.The method has a accuracy rate of 95.1%.The proposed method runs at 40 FPS real-world experiment.%为解决检测机动车驾驶员在驾驶过程中,是否有观察左右后视镜的问题,并且能充分满足驾驶动作评估系统中实时性的要求,依据计算机硬件的特点,充分利用图像处理器(Graph-ics Processing Unit,GPU)强大的并行计算能力,和深度学习(Deep Learning)出众的学习能力,介绍了一种基于深度学习的驾驶员头部姿态参数估计方法.该方法首先在图像中利用级联卷积神经网络检测出人脸,经过基于卷积神经网络的校准网络校准人脸区域,使其达到更佳的检测结果.然后充分利用平移,尺度变化等特点选取人脸区域,并归一化32×32的尺寸和消除光照影响.最后利用选取的区域通过卷积神经网络和支持向量机联合网络训练.实验结果表明,该方法在处理相应数据集上的准确率达到了95.1%.在真实环境测试中,处理一帧图像的平均时间达到了25ms,基本满足了实时性的需求.【总页数】6页(P97-101,105)【作者】阮志强;方向忠【作者单位】上海交通大学电子信息与电气工程学院,上海200240;上海交通大学电子信息与电气工程学院,上海200240【正文语种】中文【中图分类】TP391.41【相关文献】1.基于ASM局部定位和特征三角形的列车驾驶员头部姿态估计 [J], 赵磊;王增才;王晓锦;张万枝2.基于面部特征三角形的机车驾驶员头部姿态参数估计 [J], 张万枝;王增才;徐俊凯3.基于3D人脸模型的驾驶员头部姿态鲁棒跟踪算法 [J], 邹奇敏;辛乐;陈阳舟4.基于头部姿态眼睛差分定位的\r驾驶员疲劳检测 [J], 唐阳山;徐忠帅;杨语尧5.基于深度学习的三维点云头部姿态估计 [J], 肖仕华; 桑楠; 王旭鹏因版权原因,仅展示原文概要,查看原文内容请购买。