美文网首页
Theoretically Principled Trade-o

Theoretically Principled Trade-o

作者: 馒头and花卷 | 来源:发表于2020-03-12 14:24 被阅读0次

Zhang H, Yu Y, Jiao J, et al. Theoretically Principled Trade-off between Robustness and Accuracy[J]. arXiv: Learning, 2019.

@article{zhang2019theoretically,
title={Theoretically Principled Trade-off between Robustness and Accuracy},
author={Zhang, Hongyang and Yu, Yaodong and Jiao, Jiantao and Xing, Eric P and Ghaoui, Laurent El and Jordan, Michael I},
journal={arXiv: Learning},
year={2019}}

从二分类问题入手, 拆分\mathcal{R}_{rob}\mathcal{R}_{nat},\mathcal{R}_{bdy}, 通过\mathcal{R}_{rob}-\mathcal{R}_{nat}^*的上界建立损失函数,并将这种思想推广到一般的多分类问题.

主要内容

符号说明

X, Y: 随机变量;
x\in \mathcal{X}, y: 样本, 对应的标签(1, -1);
f: 分类器(如神经网络);
\mathbb{B}(x, \epsilon): \{x'\in \mathcal{X}:\|x'-x\| \le \epsilon\};
\mathbb{B}(DB(f),\epsilon): \{x \in \mathcal{X}: \exist x'\in \mathbb{B}(x,\epsilon), \mathrm{s.t.} \: f(x)f(x')\le0\} ;
\psi^*(u): \sup_u\{u^Tv-\psi(u)\}, 共轭函数;
\phi: surrogate loss.

Error

\tag{e.1} \mathcal{R}_{rob}(f):= \mathbb{E}_{(X,Y)\sim \mathcal{D}}\mathbf{1}\{\exist X' \in \mathbb{B}(X, \epsilon), \mathrm{s.t.} \: f(X')Y \le 0\},
其中\mathbf{1}(\cdot)表示指示函数, 显然\mathcal{R}_{rob}(f)是关于分类器f存在adversarial samples 的样本的点的测度.

\tag{e.2} \mathcal{R}_{nat}(f) :=\mathbb{E}_{(X,Y)\sim \mathcal{D}}\mathbf{1}\{f(X)Y \le 0\},
显然\mathcal{R}_{nat}(f)f正确分类真实样本的概率, 并且\mathcal{R}_{rob} \ge \mathcal{R}_{nat}.

\tag{e.3} \mathcal{R}_{bdy}(f) :=\mathbb{E}_{(X,Y)\sim \mathcal{D}}\mathbf{1}\{X \in \mathbb{B}(DB(f), \epsilon), \:f(X)Y > 0\},
显然
\tag{1} \mathcal{R}_{rob}-\mathcal{R}_{nat}=\mathcal{R}_{bdy}.

因为想要最优化0-1loss是很困难的, 我们往往用替代的loss \phi, 定义:
\mathcal{R}_{\phi}(f):= \mathbb{E}_{(X, Y) \sim \mathcal{D}} \phi(f(X)Y), \\ \mathcal{R}^*_{\phi}(f):= \min_f \mathcal{R}_{\phi}(f).

Classification-calibrated surrogate loss

这部分很重要, 但是篇幅很少, 我看懂, 等回看了引用的论文再讨论.


在这里插入图片描述 在这里插入图片描述

引理2.1

在这里插入图片描述

定理3.1

在假设1的条件下\phi(0)\ge1, 任意的可测函数f:\mathcal{X} \rightarrow \mathbb{R}, 任意的于\mathcal{X}\times \{\pm 1\}上的概率分布, 任意的\lambda > 0, 有
\begin{array}{ll} & \mathcal{R}_{rob}(f) - \mathcal{R}_{nat}^* \\ \le & \psi^{-1}(\mathcal{R}_{\phi}(f)-\mathcal{R}_{\phi}^*) + \mathbf{Pr}[X \in \mathbb{B}(DB(f), \epsilon), f(X)Y >0] \\ \le & \psi^{-1}(\mathcal{R}_{\phi}(f)-\mathcal{R}_{\phi}^*) + \mathbb{E} \quad \max _{X' \in \mathbb{B}(X, \epsilon)} \phi(f(X')f(X)/\lambda). \\ \end{array}
最后一个不等式, 我知道是因为\phi(f(X')f(X)/\lambda) \ge1.

定理3.2

在这里插入图片描述

结合定理3.1, 3.2可知, 这个界是紧的.

由此导出的TRADES算法

二分类问题, 最优化上界, 即:


在这里插入图片描述

扩展到多分类问题, 只需:


在这里插入图片描述

算法如下:


在这里插入图片描述

实验概述

5.1: 衡量该算法下, 理论上界的大小差距;
5.2: MNIST, CIFAR10 上衡量\lambda的作用, \lambda越大\mathcal{R}_{nat}越小, \mathcal{R}_{rob}越大, CIFAR10上反映比较明显;
5.3: 在不同adversarial attacks 下不同算法的比较;
5.4: NIPS 2018 Adversarial Vision Challenge.

相关文章

网友评论

      本文标题:Theoretically Principled Trade-o

      本文链接:https://www.haomeiwen.com/subject/ceiujhtx.html