Content-Aware Unsupervised Deep Homography Estimation

论文地址:https://arxiv.org/pdf/1909.05983.pdf

项目地址:https://github.com/JirongZhang/DeepHomography

Homography estimation is a basic image alignment method in many applications. It is usually conducted by extracting and matching sparse feature points, which are error-prone in low-light and low-texture images. On the other hand, previous deep homography approaches use either synthetic images for supervised learning or aerial images for unsupervised learning, both ignoring the importance of handling depth disparities and moving objects in real world applications. To overcome these problems, in this work we propose an unsupervised deep homography method with a new architecture design. In the spirit of the RANSAC procedure in traditional methods, we specifically learn an outlier mask to only select reliable regions for homography estimation. We calculate loss with respect to our learned deep features instead of directly comparing image content as did previously. To achieve the unsupervised training, we also formulate a novel triplet loss customized for our network. We verify our method by conducting comprehensive comparisons on a new dataset that covers a wide range of scenes with varying degrees of difficulties for the task. Experimental results reveal that our method outperforms the state-of-the-art including deep solutions and feature-based solutions.

在许多应用中,单应性估计是一种基本的图像对齐方法。它通常是通过提取和匹配稀疏特征点来进行的,这些稀疏特征点在弱光、低纹理图像中容易出错。另一方面,以往的深度单应性方法要么使用合成图像进行有监督学习,要么使用航空图像进行无监督学习,都忽视了在实际应用中处理深度差异和运动物体的重要性。为了克服这些问题,在这项工作中,我们提出了一个无监督的深层单应性方法和一个新的架构设计。根据传统方法中RANSAC程序的精神,我们专门学习了一个离群值掩码,只选择可靠的区域进行单应性估计。我们根据所学的深度特征计算损失,而不是像以前那样直接比较图像内容。为了实现无监督训练,我们还为我们的网络设计了一种新的三重态损耗。我们通过对一个新的数据集进行全面的比较来验证我们的方法,该数据集涵盖了任务的不同难度的各种场景。实验结果表明,该方法的性能优于现有的深度解和基于特征的解。

Abstract

单应性可以将从不同角度拍摄的图像对齐,如果它们大致经历旋转运动或场景近似于平面[13]。对于满足约束的场景,单纯形可以直接对齐它们。对于违反约束的场景,例如,包含多个平面或包含移动对象的场景,单应性通常是在更高级的模型(如网格流[20]和光流[16])之前的初始对齐模型。大多数情况下,这种预对准对最终质量至关重要。因此,单应性被广泛应用于多帧HDR成像[10]、多帧图像超分辨率[34]、突发图像去噪[22]、视频稳定[21]、图像/视频拼接[36,12]、SLAM[26,42]、增强现实[30]和相机校准[40]。

近年来,随着深度神经网络(DNN)的发展,基于DNN的单应性估计方法逐渐被提出,如有监督的[7]和无监督的[27]等。对于前一种方法,它要求单应性作为地面真实性(GT)来监督训练,从而只能生成经过GT单应性扭曲的合成目标图像。虽然合成图像对可以在任意的尺度下产生,但由于训练数据中没有真实的深度差,所以它们与实际情况相差甚远。因此,该方法对真实图像的泛化能力较差。为了解决这个问题,阮等人。提出了后一种无监督的解决方案[27],该方案最大限度地减少了实际图像对的光度损失。然而,这种方法有两个主要问题。一种是根据图像强度计算的损耗不如在特征空间中计算的有效,并且在整个图像中均匀地计算损耗,而忽略了类RANSAC过程。因此,该方法不能排除运动目标或非平面目标造成的最终损失,从而可能降低估计精度。为了避免上述现象,阮等。[27]必须对远离相机的航空图像进行处理,以尽量减少视差深度变化的影响。

为了解决上述问题,我们提出了一种基于内容感知学习的单应性估计的无监督解决方案。它是专门为具有小基线的图像对而设计的,因为这种情况通常适用于连续视频帧、突发图像捕获或双摄像头手机拍摄的照片。特别是,为了稳健地优化单应性,我们的网络隐式地学习了一个深层的对齐特征和一个内容感知掩码来同时拒绝离群区域。学习的特征用于损失计算,而不是像[7]中那样使用光度损失,学习内容感知掩码使网络集中于重要和可注册的区域。我们进一步提出了一种新的三重态损失来优化网络,从而实现无监督学习。实验结果证明了所有新涉及的技术对我们的网络的有效性,定性和定量评估也表明我们的网络优于最先进的技术,如图所示。1、6和7。我们还介绍了一个全面的图像对数据集,它包含5类场景以及人类标记的GT点对应关系,用于其验证集的定量评估(图5)。总之,我们的主要贡献是:

–一种新颖的网络结构,能够在较小基线的情况下从两幅图像中进行内容感知鲁棒单应性估计。
–为无监督训练设计的三重态损失,以便可以生成一个最佳单应矩阵作为输出,以及一个用于对齐的深层特征图和一个突出显示作为中间结果隐式学习的对齐内联的掩码。
–一个全面的数据集涵盖了图像对齐模型的无监督训练的各种场景,包括但不限于单应性、网格扭曲或光流。

Related works

传统单应性。单应性是一个3×3矩阵,它补偿两幅图像之间的平面运动。它由8个自由度(DOF)组成,每个2个自由度分别用于缩放、平移、旋转和透视[13]。为了解决单应性问题,传统的方法通常是检测和匹配图像特征,如SIFT[23]、SURF[4]、ORB[29]、LPM[25]、GMS[5]、SOSNet[32]、LIFT[35]和OAN[38]。在两幅图像之间建立了两组对应关系,然后采用鲁棒估计方法,如经典的RANSAC[9]、IRLS[15]和MAGSAC[3],在模型估计过程中剔除异常值。在没有图像特征的情况下,也可以直接求解同伦问题。直接方法,如开创性的卢卡斯-卡纳德算法[24],计算两幅图像之间的平方差之和(SSD)。这些差异引导图像的移动,产生单应性更新。用这种方法迭代优化随机初始化的单应性[2]。此外,为了提高鲁棒性,可以用增强相关系数(ECC)代替SSD[8]。

深度单应性。继光流[33,16]、密集匹配[28]、学习描述子[32]和深度特征[1]等各种深度图像对齐方法的成功之后,2016年[7]首次提出了深度单应性解决方案。该网络以源图像和目标图像为输入,生成源图像的4个角点位移矢量,从而得到单应性。采用GT单纯形法对训练进行监控。然而,用GT单应性生成的训练图像没有深度差。为了克服这一问题,阮等。[27]提出了一种无监督的方法来计算两幅图像之间的光度损失,并采用空间变换网络(STN)[17]进行图像扭曲。然而,他们计算的损失直接在强度和一致的图像平面。相比之下,我们学习内容感知面具。值得注意的是,用于有效估计的预测掩模在其他任务中也有尝试,例如单目深度估计[41,11]。本文介绍了无监督单应性学习。

图像拼接。传统的全景图像拼接方法[36,37]是针对大尺寸图像的拼接方法[6]。缝合后的图像往往拍摄到的视角差异很大。在这项工作中,我们将重点放在具有小基线的多帧图像上。

Algorithm

3.1 Network Structure

我们的方法建立在卷积神经网络的基础上。它以Ia和Ib两个灰度图像块为输入,从Ia到Ib生成一个单应矩阵Hab作为输出。整个结构可分为三个模块:特征提取器f(·)、掩模预测器m(·)和单应性估计器h(·)。f(·)和m(·)是完全卷积网络,可以接受任意大小的输入,h(·)利用ResNet-34的主干网[14]产生8个值。图2(a)示出了网络结构。

特征提取。与以往直接利用像素强度值作为特征的基于DNN的方法不同,我们的网络可以从输入中自动学习一个深度特征,以实现鲁棒的特征对齐。为此,我们构建了一个全卷积网络(FCN),它以H×W×1为输入,生成H×W×C的特征映射,对于输入Ia和Ib,特征抽取器共享权值并生成特征映射Fa和Fb,即。

当应用于loss计算时,相比于像素强度,学习到的特征更加鲁棒。特别对于有亮度变化的图像。

mask predictor. 在非平面场景,特别是那些包含移动目标的,没有单独的单应变换可以用于连接两个视角。在传统的算法中,RANSAC被广泛应用于单应变换中搜寻内点,从而解出场景对齐中的最大估计矩阵。参照了相似的想法,我们构建了一个子网络用于自动地学习内点的位置。特别地,一个子网络m()学习一个内点概率图或者mask, 强调特征图中对于单应估计贡献比较多的内容。mask的尺寸与特征图相同。我们利用得到的masks进一步加权提取到的特征图f, 在f被送到单应估计器之前。从而我们获得两个加权的特征图如下。

学习到的mask有两个作用,一方面用于作为注意图,另一方面作为outlier rejecter.

Homography estimator. 给定加权的特征图Ga和Gb, 我们拼接他们以构建一个特征图。然后它被输入到单应估计网络中,接下来4个2Doffset(偏移?)向量(8个值)被生成。有了4个偏移向量,可以通过解一个线性系统来直接获得8个自由度的齐次矩阵。我们利用h()去表示整个过程。

骨干h()遵照ResNet-34结构。

3.2 Triplet Loss for Robust Homography Estimation

有了估计的单应矩阵Hab,我们扭曲图像Ia到Ia’,然后进一步地提取它的特征图F’a。如果单应矩阵足够精确,F’a应该对齐到Fb,导致两者之间较低的l1损失。考虑到现实场景中,仅仅一个单应矩阵通常不能满足两个视角之间的变换,我们也计算M’a和Mb之间的l1损失。扭曲的Ia和Ib之间的损失如下,

直接最小化等式4很容易导致琐碎的解决方案,其中特征提取器只产生所有的零映射, F’a=Fb=0。在这种情况下,学习到的特征确实描述了I’a和Ib“很好地对齐”的事实,但是它不能反映出原始图像Ia和Ib是错误对齐的。为此,我们涉及到了另一场Fa和Fb之间的损失,

并且进一步最大化它,当最小化上一个公式。这个策略避免了琐碎全零解,并且使得网络学习一个判别的特征图。

与上面的操作相似,我们同样计算了Ln(I’b, Ia)。我们也加了一个限制,强迫Hab和Hba是可逆的。因此,网络的优化过程可以表示为:

3.3 Unsupervised Content-Awareness Learning

如前所述,我们的网络包含一个子网络m(·)来预测一个更高的概率掩码。它的设计使得我们的网络可以通过两个角色来实现内容感知。首先,我们使用掩模Ma,Mb显式地对特征Fa,Fb进行加权,使得只有突出显示的特征才能完全输入单应性估计器h(·)。这些掩模实际上是特征映射的注意力映射。第二,它们也隐含在归一化损失公式4中,作为一个加权项。通过这样做,只考虑那些真正适合对齐的区域。对于那些包含低纹理或移动前景的区域,由于其不可分辨或对对齐有误导性,因此在优化三重线损耗时,自然会将其去除用于单应性估计。这样的内容意识是完全通过无监督的学习方案实现的,没有任何GT掩模数据作为监督。为了证明面具作为两种角色的有效性,我们通过禁用面具作为注意力图或损失加权项的效果进行了消融研究。如表2(c)所示,在任何一种情况下,当去除掩模时,精度都会显著降低。

我们还在图4中举例说明遮罩效能。例如,在图4(a)(b)中,场景包含大的动态前景,我们的网络成功地拒绝了移动的对象,即使运动不明显如(b)中的喷泉,或者对象占据了(a)中的大空间。这些情况下,RANSAC很难找到健壮的内联线。图4(c)是低纹理的示例,其中天空和雪地几乎占据了整个图像。由于无法提供足够的特征匹配,传统的方法具有很大的挑战性。我们所预测的掩模集中在对准的地平线上。最后,图4(d)是低光示例,其中只有可见区域包含如所示的权重。我们还举例说明一个例子,以在图4的底部2行中显示作为单独角色的掩码的两个效果。关于这项烧蚀研究的细节将在第二节后面介绍。4.3。

发表评论

邮箱地址不会被公开。 必填项已用*标注