NMS详解——精选推荐
- 格式:pdf
- 大小:841.07 KB
- 文档页数:7
NMS详解
参考博客
⼀、NMS(⾮极⼤抑制)概念
NMS即non maximum suppression即⾮极⼤抑制,顾名思义就是抑制不是极⼤值的元素,搜索局部的极⼤值。在最近⼏年常见的物体检测算法(包括
rcnn、sppnet、fast-rcnn、faster-rcnn等)中,最终都会从⼀张图⽚中找出很多个可能是物体的矩形框,然后为每个矩形框为做类别分类概率。
就像上⾯的图⽚⼀样,定位⼀个车辆,最后算法就找出了⼀堆的⽅框,我们需要判别哪些矩形框是没⽤的。
所谓⾮极⼤值抑制:先假设有6个矩形框,根据分类器类别分类概率做排序,从⼩到⼤分别属于车辆的概率分别为A
(1) 从最⼤概率矩形框F开始,分别判断A、B、C、D、E与F的重叠度IOU是否⼤于某个设定的阈值;
(2) 假设B、D与F的重叠度超过阈值,那么就扔掉B、D;并标记第⼀个矩形框F,是我们保留下来的。
(3) 从剩下的矩形框A、C、E中,选择概率最⼤的E,然后判断A、C与E的重叠度,重叠度⼤于⼀定的阈值,那么就扔掉;并标记E是我们保留下来的第⼆
个矩形框。
(4) 重复这个过程,找到所有被保留下来的矩形框。
⼆、YOLO中的NMS
参考⽂章
对于每⼀个种类的概率,⽐如Dog,我们将所有98个框按照预测概率从⾼到低排序(为⽅便计算,排序前可以剔除极⼩概率的框,也就是把它们的概率置
为0),然后通过⾮极⼤抑制NMS⽅法,继续剔除多余的框:
NMS⽅法在这⾥如何运⾏呢?⾸先因为经过了排序,所以第⼀个框是概率最⼤的框(下图橘⾊)。然后继续扫描下⼀个框跟第⼀个框,看是否IOU⼤于
0.5:
的确IOU⼤于0.5,那么第⼆个框是多余的,将它剔除:
继续扫描到第三个框,它与最⼤概率框的IOU⼩于0.5,需要保留:
继续扫描到第四个框,同理需要保留:
继续扫描后⾯的框,直到所有框都与第⼀个框⽐较完毕。此时保留了不少框。
接下来,以次⼤概率的框(因为⼀开始排序过,它在顺序上也⼀定是保留框中最靠近上⼀轮的基础框的)为基础,将它后⾯的其它框于之⽐较。
如⽐较第4个框与之的IOU:
IOU⼤于0.5,所以可以剔除第4个框:
总之在经历了所有的扫描之后,对Dog类别只留下了两个框:
这时候,或许会有疑问:明显留下来的蓝⾊框,并⾮Dog,为什么要留下?因为对计算机来说,图⽚可能出现两只Dog,保留概率不为0的框是安全的。不
过的确后续设置了⼀定的阈值(⽐如0.3)来删除掉概率太低的框,这⾥的蓝⾊框在最后并没有保留,因为它在20种类别⾥要么因为IOU不够⽽被删除,要
么因为最后阈值不够⽽被剔除。
上⾯描述了对Dog种类进⾏的框选择。接下来,我们还要对其它19种类别分别进⾏上⾯的操作。最后进⾏纵向跨类的⽐较(为什么?因为上⾯就算保留了
橘⾊框为最⼤概率的Dog框,但该框可能在Cat的类别也为概率最⼤且⽐Dog的概率更⼤,那么我们最终要判断该框为Cat⽽不是Dog)。判定流程和法则
如下:得到最后的结果:
三、Python程序实现NMS
NMS的算法步骤如下:
# INPUT:所有预测出的bounding box (bbx)信息(坐标和置信度confidence), IOU阈值(⼤于该阈值的bbx将被移除)
for object in all objects:
(1) 获取当前⽬标类别下所有bbx的信息
(2) 将bbx按照confidence从⾼到低排序,并记录当前confidence最⼤的bbx
(3) 计算最⼤confidence对应的bbx与剩下所有的bbx的IOU,移除所有⼤于IOU阈值的bbx
(4) 对剩下的bbx,循环执⾏(2)和(3)直到所有的bbx均满⾜要求(即不能再移除bbx)
需要注意的是,NMS是对所有的类别分别执⾏的。举个栗⼦,假设最后预测出的矩形框有2类(分别为cup, pen),在NMS之前,每个类别可能都会有不只⼀个bbx被预测出来,这个时候我们需要对这两个类别分别执⾏⼀次NMS过程。
我们⽤python编写NMS代码,假设对于⼀张图⽚,所有的bbx信息已经保存在⼀个字典中,保存形式如下:
predicts_dict: {"cup": [[x1_1, y1_1, x2_1, y2_1, scores1], [x1_2, y1_2, x2_2, y2_2, scores2], ...], "pen": [[x1_1, y1_1, x2_1, y2_1, scores1], [x1_2, y1_2, x2_2, y2_2, scores2], ...]}
即⽬标的位置和置信度⽤列表储存,每个列表中的⼀个⼦列表代表⼀个bbx信息。详细的代码如下:
import numpy as np
def non_max_suppress(predicts_dict, threshold=0.2):
"""
implement non-maximum supression on predict bounding boxes.
Args:
predicts_dict: {"stick": [[x1, y1, x2, y2, scores1], [...]]}.
threshhold: iou threshold
Return:
predicts_dict processed by non-maximum suppression
"""
for object_name, bbox in predicts_dict.items(): #对每⼀个类别的⽬标分别进⾏NMS
bbox_array = np.array(bbox, dtype=np.float)
## 获取当前⽬标类别下所有矩形框(bounding box,下⾯简称bbx)的坐标和confidence,并计算所有bbx的⾯积
x1, y1, x2, y2, scores = bbox_array[:,0], bbox_array[:,1], bbox_array[:,2], bbox_array[:,3], bbox_array[:,4]
areas = (x2-x1+1) * (y2-y1+1)
#print("areas shape = ", areas.shape)
## 对当前类别下所有的bbx的confidence进⾏从⾼到低排序(order保存索引信息)
order = scores.argsort()[::-1]
print("order = ", order)
keep = [] #⽤来存放最终保留的bbx的索引信息
## 依次从按confidence从⾼到低遍历bbx,移除所有与该矩形框的IOU值⼤于threshold的矩形框
while order.size > 0:
i = order[0]
keep.append(i) #保留当前最⼤confidence对应的bbx索引
## 获取所有与当前bbx的交集对应的左上⾓和右下⾓坐标,并计算IOU(注意这⾥是同时计算⼀个bbx与其他所有bbx的IOU)
xx1 = np.maximum(x1[i], x1[order[1:]]) #当order.size=1时,下⾯的计算结果都为np.array([]),不影响最终结果
yy1 = np.maximum(y1[i], y1[order[1:]])
xx2 = np.minimum(x2[i], x2[order[1:]])
yy2 = np.minimum(y2[i], y2[order[1:]])
inter = np.maximum(0.0, xx2-xx1+1) * np.maximum(0.0, yy2-yy1+1)
iou = inter/(areas[i]+areas[order[1:]]-inter)
print("iou =", iou)
print(np.where(iou<=threshold)) #输出没有被移除的bbx索引(相对于iou向量的索引)
indexs = np.where(iou<=threshold)[0] + 1 #获取保留下来的索引(因为没有计算与⾃⾝的IOU,所以索引相差1,需要加上)
print("indexs = ", type(indexs))
order = order[indexs] #更新保留下来的索引
print("order = ", order)
bbox = bbox_array[keep]
predicts_dict[object_name] = bbox.tolist()
predicts_dict = predicts_dict
return predicts_dict
四、⾏⼈检测中的NMS
参考博客:
如果两个⼈靠得很近,将很难确定NMS的阈值,太⼤则会导致误检多,太⼩导致漏检多