Equivalence of Several L1 Sparsity Problem

有这么几个 $\ell_1$ -norm 相关的稀疏优化问题在某种意义下是等价的。首先是如下问题：

$x^a(\lambda) = \operatorname*{arg min}_x \frac{1}{2}\|Ax-y\|^2 + \lambda \|x\|_1$

这个形式通常来自于 regularized linear regression 等问题，其中使用 $\ell_1$ -norm 作为 regularizer 会偏向于得到稀疏的解，我们之前也曾简要地讨论过这个问题。同样的形式还可以解释为使用 Laplace prior 的 MAP 参数估计所得到的目标函数。

另一个问题是主要来自于 Compressive Sensing 的如下形式：

$x^b(\epsilon) = \operatorname*{arg min}_x \|x\|_1\quad s.t. \|Ax-y\|^2\leq \epsilon$

第三个是把目标函数和 constraint 的位置反过来一下的形式，这实际上是 LASSO 的原始形式：

$x^c(t) = \operatorname*{arg min}_x \frac{1}{2}\|Ax-y\|^2\quad s.t. \|x\|_1\leq t$

关于这几个问题的等价性似乎直观上来讲也是可以接受的，而且大部分论文在提及这里的等价性的时候也都只是一笔带过或者只是很模糊地提了一下在相应的参数（这里要求它们都是正实数） $\lambda$ 、 $\epsilon$ 和 $t$ 之间满足某个对应关系的时候它们的最优解是可以对应起来的。不知道有没有记错的是，好像若干年前还在某次组会上被提起，老师问大家有没有谁能上黑板写一下为什么等价，大家面面相觑…… ^_^bb今天在这里简单总结一下，似乎也并不是 trivial 的。

开始之前需要一点点关于 subgradient 和 subdifferential 的了解，可以参考我们之前所给的定义另外，知道如下的性质会对 subdifferential 的计算带来方便。

定理 1(Theorem 23.8 (Convex Analysis, by R.T. Rockafellar)). 令 $f=f_1+\ldots+f_m$ ，其中 $f_1,\ldots,f_m$ 为 $\mathbb{R}^n$ 中的 proper convex function，则对任意 $x$ ，我们有：

$\partial f(x) \supset \partial f_1(x) + \ldots + \partial f_m(x)$

如果更进一步地，凸集 $\text{ri}(\text{dom} f_i), i=1,\ldots,m$ 有非空交集的话，对任意 $x$ ，我们有

\partial f(x) = \partial f_1(x) + \ldots + \partial f_m(x)

再知道一下凸函数 $f$ 在 $x^*$ 处取到最优值当且仅当 $0\in \partial f(x^*)$ ，就可以开始我们的分析了。为了方便起见，我们把三个问题分别叫做 URLS (Unconstrained Regularized Least Square)、CS (Compressive Sensing) 和 LASSO（注意这些并不是标准的叫法，只是在这篇文章中用的临时名字），并定义如下三个目标函数：

$\begin{aligned} f^a(x) &= \frac{1}{2}\|Ax-y\|^2 + \lambda \|x\|_1 \\ f^b(x) &= \|x\|_1 + \delta(x|B_2^{\epsilon}) \\ f^c(x) &= \frac{1}{2}\|Ax-y\|^2 + \delta(x|B_1^t) \end{aligned}$

其中集合 indicator 函数 $\delta(x|C)$ 定义为

$\delta(x|C) = \begin{cases}0 & x\in C\\ \infty & x\not\in C\end{cases}$

而 $B_1^t$ 和 $B_2^{\epsilon}$ 则分别是对应的 $\ell_1$ -ball 和 $\ell_2$ -ball 集合。通过使用这种非 regular 的函数，可以在形式上把后面两个问题也写成 unconstrained 的问题，在分析上变得方便一点。

首先来看一下 URLS 和 LASSO 之间的等价性，也就是 $x^a(\lambda)$ 和 $x^c(t)$ 什么时候会相等。

第一点可以明确的是，如果 $t < \|x^a(\lambda)\|_1$ ，那么两者最优值肯定是不想等的，因为此时 URLS 的最优解在 LASSO 问题下是 infeasible 的。反过来，如果 $t > \|x^a(\lambda)\|_1$ 也是不行的。假设不然， $x^a(\lambda)=x^c(t)$ ，此时 LASSO 问题的最优解在 $B^t_1$ 的内部取到，而在内部目标函数 $f^c(x)$ 是可微的，于是 subdifferential 也退化为单点集：

$\partial f^c(x^c) = \{A^T(Ax^c-y)\}$

根据最优解的充要条件， $A^T(Ax^c-y)=0$ 。但是这会和 $0\in \partial f^a(x^a)$ 的条件矛盾，这里我们需要计算一下 $\ell_1$ -norm 的 subdifferential，因为 $\|x\|_1=\sum_i |x_i|$ ，所以可以利用刚才的定理 (thm: 1) 来做计算。而对于每一个 component $h_i(x)=\lambda |x_i|$ ，根据定义可以算出：

$\partial h_i(x) = \begin{cases} \{\alpha e_i: \alpha\in[-\lambda,\lambda]\} & x_i = 0 \\ \{\lambda\text{sign}(x_i)e_i\} & x_i\neq 0 \end{cases}$

其中 $e_i$ 是第 $i$ 维上的单位向量。根据定理 (thm: 1) 和最优解相等的假设，我们有

$\begin{aligned} \partial f^a(x^a) &= A^T(Ax^a-y) + \sum_i \partial h_i(x^a) \\ &= A^T(Ax^c-y) + \sum_i \partial h_i(x^a) \\ &= \sum_i \partial h_i(x^a) \end{aligned}$

所以为了要求 $0\in \partial f^a(x^a)$ ，而 $\lambda\neq 0$ 的情况下，就只能 $x^a$ 的每一个分量都必须等于零了。小结一下就是：除非两个问题的最优解同时是 $x^c=x^a=0$ 这种特殊情况，否则在 $t > \|x^a(\lambda)\|_1$ 的时候也会导出矛盾。

因此就只剩下 $t=\|x^a(\lambda)\|_1$ 的情况了。很容易看到这种情况下 $x^c$ 必须等于 $x^a$ ，因为如果不是这样的话，根据 $x^c$ 是 LASSO 问题的最优解（而 $x^a$ 不是），我们可以得到

$\|Ax^c-y\|^2<\|Ax^a-y\|^2$

另一方面，根据 $x^c$ 的 feasibility，我们有 $\|x^c\|_1\leq t = \|x^a\|_1$ 。这样一来，我们实际上有

$f^a(x^c) < f^a(x^a)$

因此 $x^a$ 不可能是 URLS 问题的最优解，得到矛盾。这个是充分性，必要性同样可以通过分析 subdifferential 的结构来得到。因此结论是，在参数满足关系 $t=\|x^a(\lambda)\|_1$ 的情况下，LASSO 问题和 URLS 问题是等价的。需要注意的是这虽然是一个一一对应（因为接下来我们要导出逆向的映射），但是并不是有一个显式的易于计算的映射可以用于在实际问题中直接得出一个问题关于另一个问题的等价形式——因为我们可以看到要得到映射的结果需要先把其中一个问题的最优解算出来。

反过来的映射，我们还是通过 $0\in \partial f^a(x^a)$ 这个条件，根据刚才我们得到的 $\ell_1$ -norm 的 subdifferential 的形式，可以再把这个条件显式地写出来：

$\begin{aligned} \left( A^T(y-Ax^a) \right)_i &= \lambda \text{sign}(x_i^a),\quad \text{if } x^a_i\neq 0 \\ \left| \left( A^T(y-Ax^a) \right)_i \right| &\leq \lambda, \quad\text{if }x^a_i=0 \end{aligned}$

所以除非是 $x^a=0$ 这个解的话，我们必须有 $\lambda = \max_i |(A^T(y-Ax^a))_i|$ 。此时如果两个最优解相等的话， $\lambda$ 和 $t$ 的关系自然就变成了 $\lambda=\max_i |(A^T(y-Ax^c(t)))_i|$ 。这是必要条件。

反过来如果我们直接令 $\lambda = \max_i |(A^T(y-Ax^c(t)))_i|$ 的话，显然将 $x=x^c(t)$ 带入是可以满足上面的条件的，根据凸优化解的唯一性，也就有 $x^a(\lambda)=x^c(t)$ 。

小结一下，URLS 问题和 LASSO 问题之间有一个参数的一一对应关系使得对应的问题等价，虽然在实际中一般没法直接计算，不过形式上两者之间的相互映射如下：

$\begin{aligned} t &=\|x^a(\lambda)\|_1 \\ \lambda &= \max_i |(A^T(y-Ax^c(t)))_i| \end{aligned}$

用同样的方法可以分析 URLS 和 CS 之间的关系。具体来说，我们可以验证，当 $\epsilon = \|Ax^a(\lambda)-y\|^2$ 时，会有 $x^a(\lambda)=x^b(\epsilon)$ 。而当两个最优解相等的时候，CS 问题如果排除了零解这种情况，那么最优解肯定出现在 $B_2^{\epsilon}$ 边界上，于是反过来也能得到

$\epsilon = \|Ax^b(\epsilon)-y\|^2 = \|Ax^a(\lambda)-y\|^2$

逆向的从 $\epsilon$ 到 $\lambda$ 的映射则和之前的分析完全一样了，就不重复写一遍了。

一般来说，从 CS 或者 LASSO 的形式往 URLS 的形式转化的场合比较多一点，因为后面两者问题的 constraint 的具体值的“物理”意义通常可以比较容易诠释，而且这类的 formulation 会更多地直接从具体问题中抽象出来。但是另一方面 URLS 的优化算法方面的研究似乎又是最多的，所以在实际中通常需要把后两种问题转化成第一种，但是实际中通常 $\lambda$ 等价情况下的具体值是没法事先算出来的——如果先算出原始问题的最优解再带入上面的公式，则问题都已经解决了后续的步骤就毫无意义了。所以有时候会直接采用经验或者纯 empirically 地使用 cross validation 选择最优的 $\lambda$ 之类的；另外一种可能就是可以使用像 LARS 之类的 Homotopy Method，解出随着 $\lambda$ 变化所能得到的一系列 $x^a(\lambda)$ 解，然后再在得到的一系列解中去找和原始问题的对应关系。

TK (2013年6月27日)

大神您真是太helpful了。。前一阵看HMM和CRF，您就出了个HMM的文章。最近看Feature selection，您就出了这一篇。。

YQ (2013年7月18日)

偶尔看到这篇blog。其实并不需要用复杂的推导来计算，constraint和objective function之间这样的关系是convex optimization中典型的duality，L1 constraint相当于是这种一般情况的特例，类比而言，L2 constraint也有这样的性质。

pluskid (2013年7月18日)

恩，目的是想把 explicit formula 写出来（虽然最后得到的关系其实完全不 explicit）。所谓推导其实也都是重复了一下凸优化里的内容了。

Kelvin Hu (2013年7月24日)

楼主的公式渲染挺不错，看了下网页源代码，好像是用的MathJax，这货设置起来复杂么？

TK (2013年7月29日)

用wordpress的话就是后台装个插件的事儿……

Kelvin Hu (2013年7月29日)

我把blog放在github pages上......不过看了看它的getting started文档，感觉挺简单的，设置一下js就可以了，有时间折腾下~~

最近Github+markdown做博客好像很流行的样子。。

我不用markdown，我用org mode。。 >_<

Guest (2013年7月30日)

不明觉厉！

pluskid (2013年7月29日)

不复杂，基本上 html header 加一条语句就可以了。

嗯，看了下文档，确实挺简单，近期折腾下。。

LQ (2013年8月9日)

楼主好牛啊！@

Ray (2013年9月4日)

博主好。关于这篇博文我想请教：第一个问题：您的证明中用到了“凸优化解的唯一性”，我记忆中是：严格凸问题有唯一（全局）解；仅仅是凸的话，只能保证全局解的存在性但全局解可能不唯一。这里讨论的三个问题，显然都不是严格凸的（Hessian阵半正定）。这个困惑求解释。第二个问题：文中提到lambda、epsilon和t之间的关系是一一对应，这个结论有论文明确地提出来过（有严格证明更好）吗？如果有，能否给个链接？第一个问题让我有点怀疑给出的对应关系（是对的）是否是映射。。。

pluskid (2013年9月5日)

L2 norm 是严格凸的啊，而且 L1 norm 不可微，不知道你如何得出 Hessian 阵半正定的结论的？

Ray (2013年9月6日)

好，我解释下。(1/2)||Ax-b||^2_2求二阶导：transpose(A)*A（Hessian），因为A是overcomplete，所以存在非零向量x，使得Ax＝0，这样transpose(A)*A半正定（这里要说抱歉：我指的Hessian阵半正定是这一部分。）；对于1范数，确如博主所言，在零分量不可微，那我们从严格凸的定义解释：举个反例：x_1=transpose([0,0,...,0])，x2=transpose([5,5,...,5])，for every a in (0,1)，||(1-a)x1+ax2||_1=(1-a)||x1||_1+a||x2||。

pluskid (2013年9月6日)

你好，不好意思，你说得没错。||Ax-b||^2 确实当 A overcomplete 的时候 Hessian 半正定的。严格凸能够保证解的唯一性，但是非严格凸并不一定就会解不唯一。当然对于这里来说还是有可能出问题的，如果 Ax - b = 0 定义的 affine 子空间和 L1-ball 的边界平行了的话，确实就解不唯一了，这一点之前都没有考虑过。

对于文中给的证明的话，一方面是求当两个问题的解相等的时候他们对应的参数 lambda、t 之类的满足什么样的关系。这个方向应该是没有问题的，即使有多个解也可以。但是反过来证明当 lambda、t 满足某个关系的时候最优解相等就必须要用到解的唯一性了，这里就比较有问题了。也许还是有一定的“对应关系的”，就是一边的解空间里的一个元素会有另一边有一个解对应起来。

另外就是 A 是 overcomplete 的情况经常会出现在 Compressive Sensing 相关的问题里，不过 CS 里研究的情况都是要求 A 满足一定的性质，此时必须要得出文中的第二个问题的解是唯一的。我想在这样的情况下应该也可以推出其他两个问题在这样的条件下解也是唯一的。

至于文献的问题，我在查找资料的时候看到的大都是随便提一句或者零零散散有一点相关的证明，并没有看到专门把这个提出来仔细讲的文章，不好意思。

Ray (2013年9月8日)

非严格凸确实不一定解不唯一，可以举出反例来。对于文中的三个问题来说，解确实不唯一，我想这是A的零空间非空所决定的。

我猜想lambda、epsilon、t之间的一一对应关系是成立的。只是需要更严格（甚至更复杂）的证明。

CS中往往假设A的列取自某个分布，这种情况下解的唯一性可能以概率1成立。

虽然博文的分析并不完善，但博主讨论的话题（包括其它博文）确实很有意思也很有意义，读过后引发很多思考，就直接写在评论里希望和博主讨论。谢谢博主的长回复，这个问题我想我还会继续思考下去。

pluskid (2013年9月11日)

谢谢，如果发现/想到什么比较完善的结果也请告知一下。

lemon (2013年11月24日)

博主，你好强大的说。有没有关于l0等价性的证明或者相关结论呢？

pluskid (2013年11月25日)

l0 和 l1 在一些前提下的等价性可以参见 Compressive Sensing 相关的内容。

lemon (2013年11月25日)

你好，是l0各模型之间的等价性，不是l0和l1之间的。

------------------ 原始邮件 ------------------
发件人: "Disqus";<notifications@disqus.net>;
发送时间: 2013年11月25日(星期一) 晚上9:46
收件人: "Amsterdam学院大学联"<459857767@qq.com>;

主题: Re: New comment posted on Equivalence of Several L1 Sparsity Problem

Settings

A new comment was posted on Free Mind

pluskid

8:46 a.m., Monday Nov. 25

Reply to pluskid

pluskid’s comment is in reply to lemon:

You're receiving this message because you're signed up to receive notifications about replies to disqus_sywwrYZcr6.
You can unsubscribe from emails about replies to disqus_sywwrYZcr6 by replying to this email with "unsubscribe" or reduce the rate with which these emails are sent by adjusting your notification settings.

lemon (2013年12月2日)

博主你好，在推导URLS问题和LASSO问题的逆向映射时，用到下面这个公式，针对每一个不为0的分量，都可以解出一个lambda，但是lambda的值只能有一个，这不就等于要求最优解只能有一个非零项吗？这样的要求不合理呀！

pluskid (2013年12月2日)

不同的非零项可以解出相等的 lambda 啊。

博主，怎么得到lambda的那个表达式呢？你直接就得到了，我怎么看不懂啊？为什么满足URLS问题的解的最优性条件的lambda是那个形式呢？我推不出来刚才发给你的那个有关lambda的公式。

------------------ 原始邮件 ------------------
发件人: "Disqus";<notifications@disqus.net>;
发送时间: 2013年12月2日(星期一) 晚上9:27
收件人: "Amsterdam学院大学联"<459857767@qq.com>;

8:27 a.m., Monday Dec. 2

博主你好，在推导URLS问题和LASSO问题的逆向映射时，用到下面这个公式，针对每一个不为0的分量，都可以解出一个lambda，但是lambda的值只能有一个，这不就等于要求最优解只能有一个非零项吗？这样的要求不合理呀！
Read more

博主你好，关于这篇文章，我想和你进行深入探讨，不知道你有兴趣吗？我认为证明中存在一些瑕疵，有可能导致结论的正确性，我很有兴趣和你探讨他们之间的等价性结论，并希望能够完善这个证明。

pluskid (2013年12月3日)

你好，如果你想要通过邮件讨论的话，可以直接给我发邮件。这样直接回复邮件 disqus 把一大堆 quote 全部都贴在评论里了。

Hengbin Cui (2014年3月20日)

博主，您好！
对于等价的推导，我有个很基本的疑问：如何描述这几种稀疏优化问题的等价性？具体说，就是当我们说URLS和LASSO问题等价时，充分和必要条件分别是什么？
对等价性，我有这样两种理解：URLS的最优解也是LASSO问题的最优解，反之亦成立；另一种，就是两种问题可以相互转化。
博主的文中对上述两方面似乎都谈到了，但我没太理清楚证明逻辑是怎样的。希望得到您的解答，谢谢！

pluskid (2014年3月20日)

你好，URLS 和 LASSO 问题都有各自的参数，当参数匹配上的时候两个对应的问题“等价”，他们之间的解关联起来。

Guest (2014年5月17日)

博主，您好。这里面的指的是什么？好像没什么上下文就直接蹦出来了。

Jun Cheng (2014年5月17日)

博主，您好。请问下图红色方框内的符号代表什么，好像没什么上下文就突然出现了。

哦，看明白了，分别表示a和c情况下的最优解

Equivalence of Several L1 Sparsity Problem

Comments