NMS详解——精选推荐

格式：pdf
大小：841.07 KB
文档页数：7

下载文档原格式

/ 7

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

NMS详解

参考博客

⼀、NMS（⾮极⼤抑制）概念

NMS即non maximum suppression即⾮极⼤抑制，顾名思义就是抑制不是极⼤值的元素，搜索局部的极⼤值。在最近⼏年常见的物体检测算法（包括

rcnn、sppnet、fast-rcnn、faster-rcnn等）中，最终都会从⼀张图⽚中找出很多个可能是物体的矩形框，然后为每个矩形框为做类别分类概率。

就像上⾯的图⽚⼀样，定位⼀个车辆，最后算法就找出了⼀堆的⽅框，我们需要判别哪些矩形框是没⽤的。

所谓⾮极⼤值抑制：先假设有6个矩形框，根据分类器类别分类概率做排序，从⼩到⼤分别属于车辆的概率分别为A

(1) 从最⼤概率矩形框F开始，分别判断A、B、C、D、E与F的重叠度IOU是否⼤于某个设定的阈值;

(2) 假设B、D与F的重叠度超过阈值，那么就扔掉B、D；并标记第⼀个矩形框F，是我们保留下来的。

(3) 从剩下的矩形框A、C、E中，选择概率最⼤的E，然后判断A、C与E的重叠度，重叠度⼤于⼀定的阈值，那么就扔掉；并标记E是我们保留下来的第⼆

个矩形框。

(4) 重复这个过程，找到所有被保留下来的矩形框。

⼆、YOLO中的NMS

参考⽂章

对于每⼀个种类的概率，⽐如Dog，我们将所有98个框按照预测概率从⾼到低排序（为⽅便计算，排序前可以剔除极⼩概率的框，也就是把它们的概率置

为0），然后通过⾮极⼤抑制NMS⽅法，继续剔除多余的框：

NMS⽅法在这⾥如何运⾏呢？⾸先因为经过了排序，所以第⼀个框是概率最⼤的框（下图橘⾊）。然后继续扫描下⼀个框跟第⼀个框，看是否IOU⼤于

0.5：

的确IOU⼤于0.5，那么第⼆个框是多余的，将它剔除：

继续扫描到第三个框，它与最⼤概率框的IOU⼩于0.5，需要保留：

继续扫描到第四个框，同理需要保留：

继续扫描后⾯的框，直到所有框都与第⼀个框⽐较完毕。此时保留了不少框。

接下来，以次⼤概率的框（因为⼀开始排序过，它在顺序上也⼀定是保留框中最靠近上⼀轮的基础框的）为基础，将它后⾯的其它框于之⽐较。

如⽐较第4个框与之的IOU：

IOU⼤于0.5，所以可以剔除第4个框：

总之在经历了所有的扫描之后，对Dog类别只留下了两个框：

这时候，或许会有疑问：明显留下来的蓝⾊框，并⾮Dog，为什么要留下？因为对计算机来说，图⽚可能出现两只Dog，保留概率不为0的框是安全的。不

过的确后续设置了⼀定的阈值（⽐如0.3）来删除掉概率太低的框，这⾥的蓝⾊框在最后并没有保留，因为它在20种类别⾥要么因为IOU不够⽽被删除，要

么因为最后阈值不够⽽被剔除。

上⾯描述了对Dog种类进⾏的框选择。接下来，我们还要对其它19种类别分别进⾏上⾯的操作。最后进⾏纵向跨类的⽐较（为什么？因为上⾯就算保留了

橘⾊框为最⼤概率的Dog框，但该框可能在Cat的类别也为概率最⼤且⽐Dog的概率更⼤，那么我们最终要判断该框为Cat⽽不是Dog）。判定流程和法则

如下：得到最后的结果：

三、Python程序实现NMS

NMS的算法步骤如下：

# INPUT：所有预测出的bounding box (bbx)信息（坐标和置信度confidence），　IOU阈值（⼤于该阈值的bbx将被移除）

for object in all objects:

(1) 获取当前⽬标类别下所有bbx的信息

(2) 将bbx按照confidence从⾼到低排序,并记录当前confidence最⼤的bbx

(3) 计算最⼤confidence对应的bbx与剩下所有的bbx的IOU,移除所有⼤于IOU阈值的bbx

(4) 对剩下的bbx，循环执⾏(2)和(3)直到所有的bbx均满⾜要求（即不能再移除bbx）

需要注意的是，NMS是对所有的类别分别执⾏的。举个栗⼦，假设最后预测出的矩形框有2类（分别为cup, pen）,在NMS之前，每个类别可能都会有不只⼀个bbx被预测出来，这个时候我们需要对这两个类别分别执⾏⼀次NMS过程。

我们⽤python编写NMS代码，假设对于⼀张图⽚，所有的bbx信息已经保存在⼀个字典中，保存形式如下：

predicts_dict: {"cup": [[x1_1, y1_1, x2_1, y2_1, scores1], [x1_2, y1_2, x2_2, y2_2, scores2], ...], "pen": [[x1_1, y1_1, x2_1, y2_1, scores1], [x1_2, y1_2, x2_2, y2_2, scores2], ...]}

即⽬标的位置和置信度⽤列表储存，每个列表中的⼀个⼦列表代表⼀个bbx信息。详细的代码如下：

import numpy as np

def non_max_suppress(predicts_dict, threshold=0.2):

"""

implement non-maximum supression on predict bounding boxes.

Args:

predicts_dict: {"stick": [[x1, y1, x2, y2, scores1], [...]]}.

threshhold: iou threshold

Return:

predicts_dict processed by non-maximum suppression

"""

for object_name, bbox in predicts_dict.items(): #对每⼀个类别的⽬标分别进⾏NMS

bbox_array = np.array(bbox, dtype=np.float)

## 获取当前⽬标类别下所有矩形框（bounding box,下⾯简称bbx）的坐标和confidence,并计算所有bbx的⾯积

x1, y1, x2, y2, scores = bbox_array[:,0], bbox_array[:,1], bbox_array[:,2], bbox_array[:,3], bbox_array[:,4]

areas = (x2-x1+1) * (y2-y1+1)

#print("areas shape = ", areas.shape)

## 对当前类别下所有的bbx的confidence进⾏从⾼到低排序（order保存索引信息）

order = scores.argsort()[::-1]

print("order = ", order)

keep = [] #⽤来存放最终保留的bbx的索引信息

## 依次从按confidence从⾼到低遍历bbx，移除所有与该矩形框的IOU值⼤于threshold的矩形框

while order.size > 0:

i = order[0]

keep.append(i) #保留当前最⼤confidence对应的bbx索引

## 获取所有与当前bbx的交集对应的左上⾓和右下⾓坐标，并计算IOU（注意这⾥是同时计算⼀个bbx与其他所有bbx的IOU）

xx1 = np.maximum(x1[i], x1[order[1:]])　#当order.size=1时，下⾯的计算结果都为np.array([]),不影响最终结果

yy1 = np.maximum(y1[i], y1[order[1:]])

xx2 = np.minimum(x2[i], x2[order[1:]])

yy2 = np.minimum(y2[i], y2[order[1:]])

inter = np.maximum(0.0, xx2-xx1+1) * np.maximum(0.0, yy2-yy1+1)

iou = inter/(areas[i]+areas[order[1:]]-inter)

print("iou =", iou)

print(np.where(iou<=threshold)) #输出没有被移除的bbx索引（相对于iou向量的索引）

indexs = np.where(iou<=threshold)[0] + 1 #获取保留下来的索引(因为没有计算与⾃⾝的IOU，所以索引相差１，需要加上)

print("indexs = ", type(indexs))

order = order[indexs] #更新保留下来的索引

print("order = ", order)

bbox = bbox_array[keep]

predicts_dict[object_name] = bbox.tolist()

predicts_dict = predicts_dict

return predicts_dict

四、⾏⼈检测中的NMS

参考博客：

如果两个⼈靠得很近，将很难确定NMS的阈值，太⼤则会导致误检多，太⼩导致漏检多

NMS详解——精选推荐

合集下载

文档推荐

最新文档