登陆

速度提升一倍,无需实例掩码预测即可实现全景分割

admin 2019-10-28 217人围观 ,发现0个评论

选自arXiv

作者:Daan de Geus等

机器之心编译

参加:高璇、张倩

全景切割是图画切割的一个子范畴,是语义切割和实例切割的结合。在这篇论文中,来自荷兰埃因霍芬理工大学的研讨者提出了一种用于快速全景切割的端到端网络——FPSNet。该网络无需核算成本极高的实例掩码猜测或交融启示算法,比现有的全景切割办法更快,一同切割质量也有必定的竞争力。

用 FPSNet 在不同分辨率图画上完成的全景切割成果。

论文链接:https://arxiv.org/pdf/1910.03892.pdf

在论文中,研速度提升一倍,无需实例掩码预测即可实现全景分割讨者介绍了这种名为 FPSNet 的全景切割网络。它无需核算成本极高的实例掩码猜测或交融启示算法,而是经过将全景使命转换为自定义的像素级密布分类使命来完成,该使命将类别标签或实例 ID 分配给每个像素。他们在 Cityscapes 和 Pascal VOC 数据集上评价了 FPSNet,发现 FPSNet 比现有的全景切割办法速度更快,一同能够完成相似乃至更好的全景切割功能。

在 Cityscapes 验证集上,关于分辨率为 1024x2048 的图画,FPSNet 的猜测时刻为 114 毫秒(是一切办法中最快的),全景质量得分为 55.1%(一切办法的最佳得分是 60.2%)。关于 Cityscapes 数据集和 Pascal VOC 数据集的较低分辨率图画,FPSNet 别离以每秒 22 和 35 帧的速度运转。

现在的全景切割有什么问题

全景切割的方针是为图画中的每个像素猜测类标签和实例 ID,在 thing(图画中有固定形状、可数的物体,如人、车)和 stuff(图画中无固定形状、不可数的物体,如天空、草地)之间进行区别。关于具有可数方针的 thing,实例 ID 用于区别不同的方针。而一切 stuff 类均具有相同的实例 ID,因为图画的这些部分一般是不可数的。

全景切割与语义切割和实例切割的使命严密相关。当时的全景切割办法利用了这两个使命之间的联系。

在这项工作中,研讨者提出了一种用于快速全景切割的端到端深度神经网络架构,该架构能够完成实时的切割使命。

图 1. Cityscapes 验证集上各种办法的猜测时刻与全景质量。

虽然现有的全景切割办法到达了最高的全景切割质量,但是在速度和核算要求方面仍存在一些缺乏。首要,交融启速度提升一倍,无需实例掩码预测即可实现全景分割示式算法一般在 CPU 上履行,速度提升一倍,无需实例掩码预测即可实现全景分割而且需求遍历一切猜测,花费的核算成本是巨大的。

其次,这些启示式算法需求实例掩码,而且实例切割猜测一般比鸿沟框方针检测的核算开支更大且更耗时。

一种极速的全景切割计划

为了补偿这些缺乏,埃因霍芬理工大学的研讨者提出了快速全景切割网络(FPSNet),这是一种端到端的网络架构,能够学习处理类与实例之间的抵触。它不需求核算成本巨大的实例掩码或交融操作。FPSNet 架构与任何能够生成单一特征图以进行全图画密布切割的方针检测主网络都兼容。

图 2. 在 Cityscapes 验证集上针对不同输入分辨率图画的 FPSNet 猜测。每种色彩表明不同的 thing 实例或 stuff 类别。

他们提出的快速的全景切割架构 FPSNet 具有以下特性:

运用全新的架构进行端到端全景切割,不需求实例掩码猜测或交融启示式算法。比现有办法速度更快,一同到达相似或更好的全景切割质量。

快速全景切割网络

为了完成快速全景切割,研讨者的方针是省掉以下过程:

  • 进行实例切割猜测;
  • 兼并或拆分猜测的后处理过程。

他们经过引进新式卷积神经网络模块(panoptic head)来完成这一方针。此模块有两个输入:1)能够在其上履行密布切割的特征图,2)表明 thing 实例存在的注意力掩码,以及与这些实例相对应的类,它们是从惯例鸿沟框方针检测器中取得的。

由此,模型被练习为:1)对 stuff 类履行语义切割;2)将注意力掩码变为 thing 实例的完好像素级实例掩码;3)在单一特征图中输出 stuff 类和 thing 实例的猜测,咱们能够在其进步行像素级分类。该模块与所需的特征提取器和鸿沟框方针检测器一同在单个网络中进行了端到端练习。

图 3. FPSNet 架构概述。尺度表明输入图画上的空间步长(如 1/8)和特征深度(如 128)。⊕表明逐元素加法。在练习过程中,仅在两个着重的区域(detection head 和 panoptic head)参加丢失。虚线表明在练习过程中该途径中没有梯度活动。

在用于快速全景切割的新式全景模块中,假设有来自一般方针检测器的鸿沟框方针检测,以及运用密布图画切割的单个特征图。鸿沟框用于生成注意力掩码,以显现物体在图画中的方位,并确认物体在输出时的次序。

首要将注意力掩码进行改换,然后连接到特征图,最终将其运用于全卷积网络,即 panoptic head。panoptic head 的架构如图 5 所示。

图 5.panoptic head 架构。

试验

为验证 FPSNet 并评价其功能,研讨者进行了以下试验:

速度和精度:因为 FPSNet 是为速度和精度而规划的,因而研讨者经过不同分辨率的图画进行评价,并与现有办法进行比较。试验中用到的是 Cityscapes 数据集 [25]。

控制变量研讨:研讨者进行了控制变量试验,展现了各种规划挑选的作用,即注意力掩码改换、运用强注意力掩码以及调整 Natt 和 Catt。研讨者也在 Cityscapes 数据集进步行了速度提升一倍,无需实例掩码预测即可实现全景分割评价。

在 Pascal VOC 上的功能:为了证明 FPSNet 的遍及适用性,研讨者在 Pascal VOC 数据集进步行了评价 [26]。

在下表 I 中,他们列出了 FPSNet 和现有办法的 PQ 得分和猜测时刻。除非还有阐明,不然一切分数和猜测时刻均与各篇论文共同。从表 I 能够看出,FPSNet 比现有的全景切割办法要快得多,一同仍能在全景质量上有必定竞争力。

在下表 II 中,他们将 FPSNet 与现在最优的全景切割办法进行了比较。他们还比较了运用 ImageNet 初始化和相似主网络的办法。由此可见,虽然重点是快速全景切割,但 FPSNet 在全景切割质量上仍具有必定竞争力。

研讨者还在 Cityscapes 验证集进步行了一系列控制变量试验。他们运用从检测分支输出搜集的原始注意力掩码和运用 ground-truth 鸿沟框生成的注意力金鱼怎么养掩码来评价该办法。

他们在 Pascal VOC 2012 上评价了成果,并在 PQ 和总猜测时刻方面与表 V 中的其他办法进行了比较。

图 7. FPSNet 在 Pascal VOC 2012 验证会集进行的示例猜测。每种色彩表明不同的 thing 实例。

请关注微信公众号
微信二维码
不容错过
Powered By Z-BlogPHP