快速、可端到端训练的导向滤波

作者: Valar_Morghulis | 来源:发表于2022-09-15 17:17 被阅读0次

快速、可端到端训练的导向滤波
导向滤波、快速导向滤波
DCFnet - Discrimitive Correlatio
论文解读|An End-to-End Trainable Neu
[ECCV2020]论文翻译:Character Region
个性化对话系统Personalization in Goal-o
Mint-UI 快速开发移动客户端应用
20.11.03 butter滤波，c代码
思路启发：山世光采访实录：人脸识别领域的「激荡 20 年」
端到端加密

Fast End-to-End Trainable Guided Filter

作者:Huikai Wu, Shuai Zheng, Junge Zhang, Kaiqi Huang

日期：March, 2018

CVPR 2018

原文：https://arxiv.org/abs/1803.05619

开源: https://github.com/wuhuikai/DeepGuidedFilter

相关工作：何恺明的导向滤波见http://kaiminghe.com/eccv10/

摘要：通过利用全卷积网络（FCN）的能力，提高了密集像素图像预测。FCN的一个中心问题是处理联合上采样的能力有限。为了解决这一问题，我们提出了一种新的FCN构建块，即导向滤波层，其设计用于在给定相应的低分辨率输出和高分辨率导向图(guidance map)的情况下有效地生成高分辨率输出。该层包含可学习参数，可与FCN集成，并通过端到端训练进行联合优化。为了进一步利用端到端训练，我们插入了一个可训练的转换函数，用于生成任务特定的导向图。基于所提出的层，我们提出了一种像素级图像预测的通用框架，称为深度导向滤波网络（DGF）。在五个图像处理任务上对所提出的网络进行了评估。在MIT-Adobe FiveK数据集上的实验表明，DGF运行速度快10-100倍，并达到最先进的性能。我们还表明，DGF有助于提高多个计算机视觉任务的性能。

1 引言

像素级图像预测是一个基本的图像处理和计算机视觉问题，具有广泛的应用。在图像处理中，密集像素图像预测能够平滑图像，同时保留边缘[7]–[9]，增强图像的细节[3]，[10]，从参考图像[11]，[12]转移样式[4]，[13]–[15]，并对图像进行全局色调调整[2]。在计算机视觉中，像素级图像预测不仅解决了将图像分割为语义部分的问题[16]–[18]，而且有助于从单个图像[19]估计深度，并检测图像[20]、[21]中最显著的对象。

最近的方法[22]-[24]通常在这些应用中采用全卷积网络（FCN），实现最先进的性能。然而，FCN通常在高分辨率输入图像上具有巨大的计算复杂性和内存使用，这限制了像素级图像预测算法在现实应用中的部署。为了加速FCNs，我们提出了一个通用框架，该框架遵循从粗到精的方式，首先对输入图像进行下采样，以低分辨率执行算法，然后将结果上采样回原始分辨率。主要的挑战是将低分辨率输出恢复到原始分辨率，具有丰富的细节和锐利的边缘。

这一挑战可以表述为联合上采样，其目的是在给定相应的低分辨率输出和高分辨率制导图的情况下生成高分辨率输出。然而，FCN的现有构建块处理此类问题的能力有限。为了增强FCN的联合上采样能力，我们建议将广泛使用的导向滤波器[25]重新表述为完全可微的构建块，该构建块可以（1）与FCN联合训练，（2）通过可学习参数适应不同任务，以及（3）直接由高分辨率真值监督。

为此，我们提出了一种新的FCN构建块，称为导向滤波层。具体地说，原始导向滤波器被表示为一个计算图(computational graph)，由具有可学习参数的扩展卷积和逐点卷积组成，这样可以适应不同的任务。在提出的层中引入了可训练的变换函数，可以生成任务特定的导向图。因此，可以通过端到端训练以数据驱动的方式学习导向滤波层的所有参数。此外，这种层可以容易地与预定义的FCN集成，而无需额外的努力。通过为FCN配备导向滤波层，我们提出了一种用于像素级图像预测任务的通用框架，称为深度导向滤波网络（DGF），它可以大大降低计算复杂度和内存使用。所提出的框架可广泛用于许多图像处理和计算机视觉任务，如图1所示。实验表明，DGF在质量、速度和内存使用方面达到了最先进的性能。

总之，本文的主要贡献在于：（1）我们开发了具有可学习参数和可训练导向图的端到端可训练导向滤波层，这增强了FCN的联合上采样能力；（2）通过与FCNs相结合，所提出的层显著改善了多个图像处理任务的最新结果，并比备选方案运行速度快10-100倍；（3）额外的实验表明，我们的方法可以很好地推广到许多计算机视觉任务，并比基线方法取得了显著的改进。

本文的早期版本[1]出现在IEEE计算机视觉和模式识别会议（2018）上，我们对其进行了大量扩展。改进如下：（1）[1]将原始导向滤波器表示为一系列空间变化的线性变换矩阵，没有任何可学习参数。在本文中，我们将原始导向滤波器重新构造为具有可学习参数的扩展卷积和逐点卷积块。这样的公式使得导向滤波层能够通过端到端训练来适应特定任务。（2）基于改进的导向滤波层，我们进一步提高了DGF在五个图像处理任务中的性能。（3）我们对五种图像处理任务进行了系统的消融研究，以分析DGF中每个超参数的影响。（4）我们通过综合实验证明了所提出的层在联合上采样中的能力的上界。（5）发布了训练代码和测试代码，以再现本文的实验结果，并支持进一步的研究和其他应用。

2 相关工作

A 联合上采样

与我们的方法最相关的工作是沿着联合上采样的方向。已经开发了许多算法来解决这个问题。联合双边上采样[26]将双边滤波器[27]应用于高分辨率导向图，从而产生分段平滑( piecewise-smoothing)的高分辨率输出。底层双边滤波器通常需要大量的计算资源。因此，提出了许多方法[28]-[30]，以降低计算复杂度。基于联合双边上采样，Barron等人[31]提出了一种新的双边空间优化形式，有效解决正则化最小二乘优化问题，以产生双边平滑且接近输入的输出。Gharbi等人[32]首先计算从高度压缩输入到输出的转换描述。则可以通过将配方应用于高质量输入来构造输出的高保真近似。类似地，双边导向上采样[33]首先将图像算子与低分辨率输入/输出对上的局部仿射模型网格相匹配。然后通过将局部仿射模型应用于高分辨率输入图像来生成高分辨率输出。该方法用作后处理操作，而我们的方法可以与整个FCN联合训练。深度双边学习[22]将双边滤波器与FCN相结合，可通过端到端训练共同学习。然而，该方法需要在获得输出之前产生仿射系数，这缺乏来自真值的直接监督。对于计算机视觉任务，仿射系数的数目通常非常大，这成为性能和速度的瓶颈。除双边滤波器外，导向滤波器[25]还广泛用于联合上采样，其从局部线性模型导出，并通过考虑导向图像的内容来计算滤波输出。与之相比，我们的方法被表述为具有可学习参数的完全可微构建块，可以与FCN联合训练，并根据特定任务自适应调整。类似地，Yuan等人[34]采用局部仿射模型将低分辨率原始图像的补丁与高分辨率JPEG图像关联起来。

上述方法基于边缘保持局部滤波器。不同的是，其他方法[35]–[37]通过优化涉及所有或多个像素的手动设计目标函数来产生高分辨率输出。目标函数通常由数据项和正则化项组成，如总变差（TV）[35]、加权最小二乘法（WLS）[36]和比例图方案[37]。按照这些方法，Shen等人[38]提出了相互结构，以保留两幅图像中包含的结构信息。类似地，Ham等人[39]将问题表述为非凸优化问题，并通过优化最小化算法解决。与我们的方法相比，这些方法的主要缺点是：（1）它们依赖于手工设计的目标函数，（2）它们通常很耗时。

B 基于深度学习的图像滤波器

最近，在图像处理任务中提出了基于深度学习的方法，这在很大程度上提高了最先进的性能。这些任务包括图像去噪[40]、图像去马赛克[41]、图像模糊[42]、抠图[43]、雨滴去除[44]、图像消模糊[45]和图像着色[46]。

上述方法主要集中于解决一个特定的图像处理任务。不同的是，一些其他工作[47]-[49]旨在近似一类一般的算子。Xu等人[47]采用深度神经网络，通过梯度域训练程序来近似各种边缘保持滤波器，而Liu等人[48]结合卷积网络和一组递归网络来近似各种图像滤波器。

Xu等人[47]和Liu等人[48]部署神经网络直接生成高分辨率输出，通过专门设计的网络架构加速操作。类似地，Chen等人[23]提出了上下文聚合网络来加速各种图像处理算子，其性能优于先前的工作[33]、[47]、[48]、[50]、[51]，在速度和准确性方面实现了最佳结果。我们的方法是对这种方法的补充，它可以提供相当或更好的结果，运行速度快10-100倍。

与所有相关工作相比，所提出的导向滤波层可以通过整个网络进行端到端训练，并可以很好地推广到从图像处理到计算机视觉的不同任务，同时在质量和速度方面都达到了最先进的性能。

3 导向滤波层

A 问题Formulation

给定高分辨率图像 $I_h$ 和相应的低分辨率输出 $O_l$ ，联合上采样旨在生成高分辨率输出 $O_h$ ，其视觉上类似于 $O_l$ ，并保留 $I_h$ 的边缘和细节。在联合上采样的文献中，导向滤波器[25]是最广泛使用的算法之一，在速度和精度之间的权衡方面表现出更好的性能。

B 回顾导向滤波器

为了解决联合上采样，导向滤波器[25]将低分辨率图像 $I_l$ 、对应的高分辨率图像 $I_h$ 和低分辨率输出 $O_l$ 作为输入，产生高分辨率输出 $O_h$ 。具体而言，首先通过最小化 $\hat{O}_l$ 和 $O_l$ 之间的重建误差来获得 $A_l$ 和 $b_l$ ，其中 $\hat{O}_l$ 服从局部线性模型：

$\hat{O}_l^i = A_l^k I_l^i + b_l^k, \forall i \in \omega_k$ （1）

其中 $\omega_k$ 是 $I_l$ 上的第k个局部正方形窗口， $I_l^i$ 是 $\omega_k$ 内的第 $i$ 个像素。然后通过上采样 $A_l$ 和 $b_l$ 生成 $A_h$ 和 $b_h$ $b_h$ 。最终通过线性变换模型生成高分辨率输出 $O_h$ ：

$O_h = A_h * I_h + b_h$ （2）

其中 $*$ 是元素相乘。

C 完全可微导向滤波器

原始导向滤波器只能用作后处理操作，这是不可微的，并且不能用FCN进行端到端训练。为了增强FCN的联合上采样能力，我们提出了一种新的构造块，将导向滤波器重新构造为完全可微层。这种层称为导向滤波层，可以从零开始与FCN联合训练，并由高分辨率目标直接监督。

导向滤波层的计算图如图2所示。通过对 $I_l$ 和 $O_l$ 采用平均滤波器 $f_{\mu}$ 和局部线性模型获得 $A_l$ 和 $b_l$ ，其中 $f_{\mu}$ 被实现为box filter，以降低计算复杂度。然后通过双线性上采样 $f_\uparrow$ 生成 $A_h$ 和 $b_h$ 。 $A_h$ 、 $b_h$ 和 $I_h$ 作为线性层的输入，最终产生 $O_h$ 。 $r$ 是 $f_{\mu}$ 的半径， $\epsilon$ 是正则化项，默认设置为1和1e-8。

算法1中显示了通过导向滤波层传播梯度的方程。通过将每个算子公式化为可微函数，Oh的梯度通过计算图反向传播到 $O_l$ 、 $I_l$ 和 $I_h$ ，从而实现FCN和导向滤波层的联合训练，以及来自高分辨率目标的直接指导。因此，FCN可以学习为导向滤波层生成更合适的 $O_l$ ，以恢复 $O_h$ 。

D 学习生成特定任务的指导图

在第2-C节中，假设 $I_h$ 、 $I_l$ 和 $O_h$ 、 $O_l$ 具有相同数量的通道。当通道大小不同时，需要使用转换函数将 $I_h$ 和 $I_l$ 转换为具有与 $O_h$ 和 $O_l$ 相同数量通道的导向图。即使通道大小相同，也需要比 $I_h$ 和 $I_l$ 更好的导向图来提高性能。现有的方法通常为不同的任务手动设计转换函数，需要大量的努力和尝试。相反，由于所提出的导向滤波层是完全可微的，我们可以通过端到端训练自动学习转换函数以生成更合适的、任务特定的导向图。

如图2所示，变换函数 $F(I)$ 将 $I_h$ 和 $I_l$ 变换为任务特定的导向图 $G_h$ 和 $G_l$ 。 $F(I)$ ，是一个由两个卷积层组成的FCN块，其中两层之间是自适应归一化层[23]和LeakyReLU层。两个卷积层的核大小都设置为1×1，默认情况下第一卷积层通道大小设置为16。

E 卷积导向滤波层

除了 $F(I)$ ，所提出的导向滤波层是一个无参数块，对于所有不同的任务，其行为方式相同。然而，由于任务之间的巨大差异，没有可学习参数的单一导向滤波层无法在所有场景中都表现良好。为了解决这个问题，我们通过将非参数运算替换为卷积层，将可学习参数引入导向滤波层。因此，改进的层，卷积导向滤波层，在处理各种应用时变得更加强大，可以通过端到端训练自适应地适应特定任务。

卷积导向滤波层的结构如图4所示。与图2相比，引入了扩张卷积来代替平均滤波器 $f_{\mu}$ ，并且由逐点卷积组成的卷积块代替了局部线性模型。对于第III-C节中的超参数， $\epsilon$ 被去除， $r$ 表示扩张卷积中的扩张率。

4 深度导向滤波网络

基于所提出的导向滤波层，我们提出了一种用于像素级图像预测任务的通用框架，称为深度导向滤波网络（DGF）。通过以从粗到细的方式将所提出的层与FCN集成，DGF可以生成高分辨率、边缘保持输出，计算成本和内存使用率低得多。

DGF的结构如图3所示。首先，我们对原始输入图像 $I_h$ 进行下采样，以获得低分辨率输入 $I_l$ 。然后，将FCN $C_l(I_l)$ 应用于 $I_l$ ，生成相应的低分辨率输出 $O_l$ 。最后，以 $I_l$ 、 $I_h$ 和 $O_l$ 作为输入通过导向滤波层生成高分辨率输出 $O_h$ 。整个网络是端到端可训练的，可以从头学习。

A 完全卷积网络 $C_l(I_l)$

DGF是像素级图像预测任务的通用框架，它可以显著降低底层算法的计算复杂度和内存使用。具体地，给定特定的像素级图像预测任务，可以设计FCN $C(I)$ 以实现优异的性能，而不考虑速度和存储成本。为了获得速度和内存方面的显著优化，我们可以简单地将 $C(I)$ 放入所提出的框架DGF中，作为 $C_l(I_l)$ ，而无需任何其他修改。由于 $C(I)$ 以低分辨率而不是原始分辨率处理输入图像，因此速度和内存使用可以大大提高。此外，由于所提出的导向滤波层，我们的系统的性能也可与先前的最先进系统相比。这是因为所提出的导向滤波层显著增强了FCN在联合上采样任务中的能力。

B 导向滤波层

在本文中，根据导向滤波层的不同配置，共有四种DGF变体。

1） $\text{DGF}_s$ ：原始导向滤波器[25]被用作后处理操作，无需任何训练。 $C_l(I_l)$ 在插入 $\text{DGF}_s$ 之前用低分辨率输入/输出对进行训练。

2） $\text{DGF}_b$ ：图2中的导向滤波层用于 $\text{DGF}_b$ 。当输入和输出具有相同数量， $F(I)$ 是恒等函数。当通道大小不同时， $F(I)$ 通过沿通道轴取平均值将输入转换为灰色图像。 $C_l(I_l)$ 和导向滤波层在直接来自高分辨率目标的监督下从零开始联合训练。

3） $\text{DGF}_b^c$ ：与 $\text{DGF}_b$ 相比，导向滤波层由图4中的卷积导向滤波层代替。

4） $\text{DGF}^c$ ：与 $\text{DGF}_b^c$ 相比，引入了第3-D节中提出的 $F(I)$ ，它可以学习生成面向任务的导向图，而无需手动设计。因此， $\text{DGF}^c$ 不仅是端到端可训练的，而且通过调整可训练卷积权重和可学习 $F(I)$ ，可以更好地适应不同的任务。

C 目标函数

DGF在高分辨率目标的直接监督下进行端到端训练。具体而言，给定高分辨率输出 $O_h$ 和相应的目标 $T_h$ ，目标函数定义为 $L(O_h, T_h)$ 。具体公式因不同任务而异。通常，训练 $C(I)$ 的目标函数可以直接用于训练DGF，而无需任何调整。

5 实验：图像处理任务

为了证明我们方法的有效性，我们使用DGF克隆了五种广泛使用的图像处理算子。具体地说，首先通过对输入图像应用L0平滑算子[7]、细节操纵算子[3]、风格转移算子[11]、非局部解模糊算子[4]和图像修饰算子[2]来生成真值图像。然后，输入/真值对用于以有监督的方式训练DGF，以克隆相应的图像处理算子。

A 五个图像处理算子的详细信息

1） L0平滑：L0平滑[7]可有效锐化主边缘，同时通过使用L0梯度最小化消除次边缘。为了生成真值图像，我们使用带有默认参数的官方实现。http://www.cse.cuhk.edu.hk/∼leojia/projects/L0smoothing

2）细节处理：多尺度细节处理[3]通过增强多尺度的特征来增强图像。具体地说，在给定输入图像的情况下，首先构造CIELAB亮度通道的三级分解（粗基级 $b$ 和两个细节级 $d^1$ 、 $d^2$ ）。然后通过 $b$ 、 $d^1$ 和 $d^2$ 的非线性组合获得结果图像。为了生成真值图像，我们首先使用官方实现和默认参数生成粗尺度、中尺度和精细尺度图像。然后通过对三个图像进行平均来生成最终输出。http://www.cs.huji.ac.il/∼danix/epd

3）风格转换：摄影风格转换[11]旨在将参考图像的摄影风格转换为输入图像。为了生成真值图像，我们使用了具有默认设置和默认参考图像的官方实现。生成的输出是灰色图像，将其转换为RGB图像作为真值。http://www.di.ens.fr/∼aubry/code/matlab fast llf and style transfer.zip

4）非局部去噪Non-local Dehazing：非局部去噪[4]采用非局部先验方法来消除输入图像中大气吸收和散射的影响。我们使用带有默认参数的官方实现来生成真值图像。https://github.com/danaberman/non-local-dehazing

5）图像修饰：图像修饰旨在通过全局色调调整自动提高输入图像的美学质量。人类专家被雇佣来产生真值。

B DGF的详细信息

我们使用上下文聚合网络（CAN）[23]作为所有五个图像处理操作的 $C_l(I_l)$ 。 $C_l(I_l)$ 和 $F(I)$ 的详细架构如表I所示。AdaptNorm表示Chen等人[23]提出的自适应归一化。采用LeakyReLU作为非线性，其中负斜率设置为0.2。对于目标函数，我们按照先前工作[22]、[23]的惯例使用L2损失。

C 实验设置

我们的实验是在MIT-Adobe FiveK数据集[2]上进行的，该数据集包含2500/2500张高分辨率照片作为训练/测试图像。在数据集中，每张照片包含来自五位专家的五个注释，这些注释可以用作图像修饰的真值。我们使用专家A的注释作为真值，而不是所有五个注释。对于其他四个图像处理操作员，根据第V-A节中的说明生成真值图像。

对于训练，我们首先训练网络150个epoch，输入/目标图像的大小调整为512s（原文注：xs表示短边缩放到x，不改宽高比）。为了提高泛化能力，我们进一步训练网络30个epoch，训练数据随机调整为512s和1672s之间的特定分辨率。对于 $I_l$ ，无论 $I_h$ 的分辨率如何，空间分辨率均为64s。Adam被用作优化器，学习率设置为0.0001，批量大小设置为1。

我们的主要基线是深度双边学习（DBL）[22]，它与我们的架构类似，并在质量和速度之间实现了良好的平衡。另一个强大的基线是CAN[23]，它实现了最先进的性能，同时运行相当快。为了确保公平比较，我们使用两种方法的官方实现和训练程序来训练模型。

D 实验结果

1）运行时间和内存使用情况： 运行时间和存储器使用情况如图5所示，在配备Intel E5-2650 2.20GHz CPU和Nvidia Titan X（Pascal）GPU的工作站上测量。

在GPU设备上， $\text{DGF}_b$ 和 $\text{DGF}_b^c$ 处理分辨率在512^2到3072^2之间的图像所需的时间都不到10毫秒。由于使用了 $F(I)$ ， $\text{DGF}_c$ 稍微慢一些，但它仍然在分辨率为3072^2的图像上实时运行。在所有分辨率中，我们方法的所有三种变体都比CAN和DBL运行得快得多。具体而言， $\text{DGF}_b$ 、 $\text{DGF}_b^c$ 和 $\text{DGF}_c$ 在2048^2图像中分别需要6ms、6ms和21ms。在2048^2中的图像中，CAN需要160ms，这比我们的方法慢25倍、25倍和7倍。在相同设置下，DBL需要51ms，比CAN稍快，但比 $\text{DGF}_b$ 和 $\text{DGF}_b^c$ 慢8倍以上。随着分辨率的增加，我们的方法在速度上的优势更加显著。

对于具有 $h \times w \times n_I$ 的 $I_h$ 和具有 $h \times w \times n_O$ 的 $O_h$ ， $\text{DGF}_b$ 、 $\text{DGF}_b^c$ 、 $\text{DGF}_c$ 和DBL的理论计算复杂度分别为 $\mathcal{O}(n_O\times h \times w)$ 、 $\mathcal{O}(n_O\times h \times w)$ 、 $\mathcal{O} ( (n_I+n_O)\times h\times w )$ 和 $\mathcal{O} ( n_I\times n_O\times h \times w )$ 。

至于内存使用，我们的方法比两种基线方法占用更少的GPU内存空间。CAN是最内存低效的方法，需要近10G GPU内存来处理分辨率为2048^2的图像。 $\text{DGF}_c$ 占用的内存空间与DBL相似，但随着分辨率的增加，其增长速度变慢。 $\text{DGF}_b$ 和 $\text{DGF}_b^c$ 是内存效率最高的方法，即使在分辨率为3072^2的图像上，它们占用的内存也不到1G。

2）定量和定性比较： 在MIT-Adobe FiveK数据集的测试集上评估了每种方法的性能，输入/目标图像的大小调整为1024s。MSE、PSNR和SSIM用作评估度量。

如表II所示，我们的方法在风格转换、非局部去模糊和图像修饰方面实现了最先进的性能；同时在L0平滑和多尺度细节操作中获得可比较的结果。具体而言，DGFc实现了26.17 dB的风格转换峰值信噪比，分别比CAN和DBL提高了4.86 dB和2.85 dB。与DBL相比，我们的方法在所有三个指标的所有五个任务中都大大优于它。

定性结果如图8所示。更多的结果见http://wuhuikai.me/DeepGuidedFilterProject/#visual.

3）导向滤波层的作用： 为了显示卷积导向滤波层和 $F(I)$ 的效果，我们将 $O_l$ 替换为低分辨率真值以生成 $O_h$ 。获得的结果表示每个DGF变体的性能上限。如表III所示，通过将导向滤波层重新表述为可学习卷积层， $\text{DGF}_b^c$ 在所有五个任务中都优于 $\text{DGF}_b$ 。通过进一步将 $F(I)$ 引入卷积导向滤波层， $\text{DGF}_c$ 实现了最佳性能。

在表II中可以观察到类似的结果。通过联合端到端训练， $\text{DGF}_b$ 在大多数任务上都比 $\text{DGF}_s$ 取得了更好的性能。具体而言，对于非局部去模糊和细节操作， $\text{DGF}_b$ 分别提高了1dB和0.83dB（PSNR）。通过比较 $\text{DGF}_b$ 和 $\text{DGF}_b^c$ ，通过将其重新表示为卷积导向滤波层，性能得到了进一步提高。通过添加可学习 $F(I)$ ，我们在若干任务中获得了显著改进，特别是在依赖于分辨率的任务中。表II显示，与 $\text{DGF}_b^c$ 相比， $\text{DGF}_c$ 将PSNR提高了2.56 dB和1.62 dB，用于样式转换和细节操作。

DJF[52]是联合上采样的最先进方法。为了验证我们方法的有效性，我们将DGF中的导向滤波层替换为DJF。表2中的结果表明，我们的方法在所有任务中都优于DJF。此外，我们的方法运行速度也比DJF快得多，在分辨率为1024^2的图像上，DJF比DJF花费的时间少9倍（5ms v.s.46ms）。

4）不同分辨率的泛化： 在主要实验中，我们的方法在1024s图像上进行了评估。为了显示DGF处理不同分辨率图像的泛化能力，将预训练的DGF直接用于512s、1024s、1536s和2048s中的图像，而无需微调。如图6所示，我们的方法在除样式转换之外的所有任务上的不同分辨率上都表现相同。原因是样式转换高度依赖于分辨率。具体地说，给定具有固定分辨率的参考图像，对于具有不同分辨率的输入图像，输出的样式是不同的。

5）消融研究： 本节进行了一系列实验，以验证所提出的导向滤波层中每个超参数的效果。

半径r的作用如图7a所示。随着r的增长，性能迅速下降，默认设置（r=1）获得最佳PSNR分数。

$I_l$ 分辨率的影响如图7b所示。对于L0平滑、多尺度细节操纵和非局部去模糊，性能随着 $I_l$ 分辨率的增加而增长。对于样式转换和图像修饰，较高的分辨率并不总是更好。相应的运行时间和内存使用如表IV所示。当 $I_l$ 的分辨率为128或256时，我们的方法不仅可以获得优异的性能，而且运行速度非常快。

还通过改变扩张率来探索 $F(I)$ 函数。图7c显示，增加扩张率可以在一定程度上提高性能。

六实验：计算机视觉任务

所提出的导向滤波层可以在精度、速度和内存使用方面显著提高多个图像处理任务的性能。此外，我们的方法也可用于在许多计算机视觉应用中取代耗时的条件随机场（CRF）。为了评估我们方法的有效性，我们在三个计算机视觉任务上进行了实验，从低水平视觉到高水平视觉，即深度估计[19]、显著性对象检测[20]和语义分割[16]。

A 三项计算机视觉任务的详细信息

1）深度估计：深度估计由Saxena等人[19]提出，旨在预测具有单目线索的图像的每个像素处的深度。对于这项任务，KITTI[53]是使用最广泛的数据集，其中包含来自61个场景的42382个校正立体对。在本文中，来自官方训练集的29000/1159幅图像用于训练和评估，涵盖33个场景。官方训练集的其余28个场景包含200幅高质量视差图像，用于本文的测试。

2）显著性对象检测：显著性对象检测用于检测图像中最显著的对象，这被表述为图像分割问题[20]。MSRAB[54]和官方训练/验证/测试集[54]用于我们的实验。

3）语义分割：语义分割旨在将图像的每个像素分配给预定义标签之一[16]。为了评估我们的方法，本文使用了PASCAL VOC 2012基准[55]，其中包括20个前景对象类和一个背景类。原始数据集包含分别用于训练、验证和测试的1464、1449和1456个像素级标记图像。通过额外注释[56]进一步扩充训练集，得到10582幅图像。我们使用10582张增强图像进行训练，使用1449张验证图像进行测试。

B DGF的详细信息

当将DGF应用于计算机视觉任务时，高分辨率输入图像由 $C_l(I_l)$ 直接处理，无需下采样，生成低分辨率输出 $O_l$ 。对于 $C_l(I_l)$ ，MonoDepth7[6]、DSS8[5]、DeepLab-V29[24]分别用于深度估计、显著性检测和语义分割。相应的训练和测试程序以及损失函数也用于训练我们的网络。对于导向滤波层的超参数， $r$ 和 $\epsilon$ 通过验证集上的网格搜索确定，如表V所示。值得注意的是，在显著性检测任务中应用第二个导向滤波层以实现更好的性能。

C 主要结果

我们的方法和基线方法的性能如表VI所示。对于深度估计，DGFs比基线获得了0.177的均方根改进。通过端到端训练和添加可学习指导图，我们在rms中实现了最佳性能（5.887）。在显著性检测和语义分割中也获得了类似的结果。Fβ从90.61%增加到91.29%。用 $\text{DGF}$ 代替 $\text{DGF}_s$ ，Fβ进一步提高到91.75%。对于分割， $\text{DGF}$ 获得73.58%的平均IOU，与基线方法相比提高了1.79%。

我们还将我们的方法与常用于显著性检测和语义分割的DenseCRF[57]进行了比较。实验表明，我们的方法在显著性检测方面与DenseCRF相当，并且在语义分割方面获得了更好的性能。此外，该层的性能至少比DenseCRF快10倍。平均而言，我们的方法处理512^2图像需要34ms，而DenseCRF需要432ms。

图9显示了我们的方法和基线的可视化结果。通过我们的方法获得的结果更好地保留了边缘和细节。更多可视化结果见http://wuhuikai.me/DeepGuidedFilterProject/#visual

七结论

我们提出了一种新的FCN构造块，即导向滤波层，旨在增强FCN的联合上采样能力。通过将导向滤波器构造成具有可学习卷积核的完全可微模块，基于FCN的像素级图像预测方法可以受益于端到端训练并生成高质量结果。我们使用可学习的转换函数进一步扩展了所提出的层，通过生成任务特定的导向图，使其能够很好地推广到不同的任务。我们将导向滤波层与FCNs集成，并在五个图像处理任务和三个计算机视觉任务中对其进行评估。实验表明，该层可以实现最先进的性能，同时减少10-100倍的计算成本。我们还进行了一项全面的消融研究，证明了每个组件以及超参数的贡献。

快速、可端到端训练的导向滤波
Fast End-to-End Trainable Guided Filter 作者:Huikai Wu, Shu...
导向滤波、快速导向滤波
目录 1. 导向滤波(Guided Image Filtering, 2010) 2. 快速导向滤波(Fast G...
DCFnet - Discrimitive Correlatio
摘要基于判别相关滤波器（DCF）的方法现在成为在线对象跟踪的主要方法。在本文工作中，提出一个轻量级的端到端训练的...
论文解读|An End-to-End Trainable Neu
一种为基于图像的序列识别设计的可端到端训练神经网络及其对场景文本识别的应用作者： Baoguang Shi, X...
[ECCV2020]论文翻译:Character Region
Abstract 场景文本检测器由文本检测和识别模块组成。已经进行了许多研究，以将这些模块统一为端到端的可训练模型...
个性化对话系统Personalization in Goal-o
原文代码摘要建模人类对话的主要目标是创建可以在开放式和目标导向场景中与人员交互的代理。端对端训练的神经对话系...
Mint-UI 快速开发移动客户端应用
Mint UI提供基于vue.js 的移动端组件库，可快速开发移动客户端应用程序，移动端应用以网页访问的方...
20.11.03 butter滤波，c代码
最近要把巴特沃斯滤波算法移植到嵌入式端，之前一直是在服务器端用python搞的，简单粗暴，几行代码就解决问题了，如...
思路启发：山世光采访实录：人脸识别领域的「激荡 20 年」
tips: 1）数据驱动训练端到端的训练，减少人工干预，少做人为假设，机器自己学习最优参数。 2）对齐和检测识别合...
端到端加密
冯晓东端到端加密无疑是软件安全性和隐私性的最高皇冠，端到端加密多少服务，端到端加密有多强，都决定了服务的安全性。...