Sparsity and Some Basics of L1 Regularization

Sparsity 是当今机器学习领域中的一个重要话题。John Lafferty 和 Larry Wasserman 在 2006 年的一篇评论中提到：

Some current challenges … are high dimensional data, sparsity, semi-supervised learning, the relation between computation and risk, and structured prediction. John Lafferty and Larry Wasserman. Challenges in statistical machine learning. Statistica Sinica. Volume 16, Number 2, pp. 307-323, 2006.

Sparsity 的最重要的“客户”大概要属 high dimensional data 了吧。现在的机器学习问题中，具有非常高维度的数据随处可见。例如，在文档或图片分类中常用的 bag of words 模型里，如果词典的大小是一百万，那么每个文档将由一百万维的向量来表示。高维度带来的的一个问题就是计算量：在一百万维的空间中，即使计算向量的内积这样的基本操作也会是非常费力的。不过，如果向量是稀疏的的话（事实上在 bag of words 模型中文档向量通常都是非常稀疏的），例如两个向量分别只有 $L_1$ 和 $L_2$ 个非零元素，那么计算内积可以只使用 $\min(L_1,L_2)$ 次乘法完成。因此稀疏性对于解决高维度数据的计算量问题是非常有效的。

当然高维度带来的问题不止是在计算量上。例如在许多生物相关的问题中，数据的维度非常高，但是由于收集数据需要昂贵的实验，因此可用的训练数据却相当少，这样的问题通常称为“small $n$ , large $p$ problem”——我们一般用 $n$ 表示数据点的个数，用 $p$ 表示变量的个数，即数据维度。当 $p\gg n$ 的时候，不做任何其他假设或者限制的话，学习问题基本上是没法进行的。因为如果用上所有变量的话， $p$ 越大，通常会导致模型越复杂，但是反过来 $n$ 有很小，于是就会出现很严重的 overfitting 问题。例如，最简单的线性回归模型：

$f(\mathbf{x}) = \sum_{j=1}^pw^jx^j = \mathbf{w}^T\mathbf{x}$

使用 square loss 来进行学习的话，就变成最小化如下的问题

$J(\mathbf{w})=\frac{1}{n}\sum_{i=1}^n (y_i-f(\mathbf{x}_i))^2 = \frac{1}{n}\left\|\mathbf{y}-X\mathbf{w}\right\|^2$

这里 $X=(\mathbf{x}_1,\ldots,\mathbf{x}_n)^T\in\mathbb{R}^{n\times p}$ 是数据矩阵，而 $\mathbf{y}=(y_1,\ldots,y_n)^T$ 是由标签组成的列向量。该问题具有解析解

$\hat{\mathbf{w}} = \left(X^TX\right)^{-1}X^T\mathbf{y} \label{ed61992b37932e208ae114be75e42a3e6dc34cb3}\tag{1}$

然而，如果 $p>n$ 的话，矩阵 $X^TX$ 将会不是满秩的，而这个解也没法算出来。或者更确切地说，将会有无穷多个解。也就是说，我们的数据不足以确定一个解，如果我们从所有可行解里随机选一个的话，很可能并不是真正好的解，总而言之，我们 overfitting 了。

解决 overfitting 最常用的办法就是 regularization ，例如著名的 ridge regression 就是添加一个 $\ell_2$ regularizer ：

$J_R(\mathbf{w}) = \frac{1}{n}\left\|\mathbf{y}-X\mathbf{w}\right\|^2 + \lambda\|\mathbf{w}\|^2$

直观地来看，添加这个 regularizer 会使得模型的解偏向于 norm 较小的 $\mathbf{w}$ 。从凸优化的角度来说，最小化上面这个 $J(\mathbf{w})$ 等价于如下问题：

$\min_{\mathbf{w}}\frac{1}{n}\left\|\mathbf{y}-X\mathbf{w}\right\|^2, \quad s.t. \|\mathbf{w}\|\leq C$

其中 $C$ 是和 $\lambda$ 一一对应的是个常数。也就是说，我们通过限制 $\mathbf{w}$ 的 norm 的大小实现了对模型空间的限制，从而在一定程度上（取决于 $\lambda$ 的大小）避免了 overfitting 。不过 ridge regression 并不具有产生稀疏解的能力，得到的系数 $\mathbf{w}$ 仍然需要数据中的所有特征才能计算预测结果，从计算量上来说并没有得到改观。

不过，特别是在像生物或者医学等通常需要和人交互的领域，稀疏的解除了计算量上的好处之外，更重要的是更具有“可解释性”。比如说，一个病如果依赖于 5 个变量的话，将会更易于医生理解、描述和总结规律，但是如果依赖于 5000 个变量的话，基本上就超出人肉可处理的范围了。

在这里引入稀疏性的方法是用 $\ell_1$ regularization 代替 $\ell_2$ regularization，得到如下的目标函数

$J_L(\mathbf{w}) = \frac{1}{n}\left\|\mathbf{y}-X\mathbf{w}\right\|^2 + \lambda\|\mathbf{w}\|_1 \label{86d03bd30d14d5172a9ff0865cea33353abe0a54}\tag{2}$

该问题通常被称为 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一个 convex optimization 问题，不过不再具有解析解。它的优良性质是能产生稀疏性，导致 $\mathbf{w}$ 中许多项变成零。

可是，为什么它能产生稀疏性呢？这也是一直让我挺感兴趣的一个问题，事实上在之前申请学校的时候一次电话面试中我也被问到了这个问题。我当时的回答是背后的理论我并不是很清楚，但是我知道一个直观上的理解。下面我们就先来看一下这个直观上的理解。

首先，和 ridge regression 类似，上面形式的 LASSO 问题也等价于如下形式：

$\min_{\mathbf{w}}\frac{1}{n}\left\|\mathbf{y}-X\mathbf{w}\right\|^2, \quad s.t. \|\mathbf{w}\|_1\leq C$

也就是说，我们将模型空间限制在 $\mathbf{w}$ 的一个 $\ell_1$ -ball 中。为了便于可视化，我们考虑两维的情况，在 $(w^1,w^2)$ 平面上可以画出目标函数的等高线，而约束条件则成为平面上半径为 $C$ 的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解。如图 (fig: 1) 所示：

(a)

(b)

图 1(a) $\ell_1$ -ball meets quadratic function. $\ell_1$ -ball has corners. It’s very likely that the meet-point is at one of the corners. (b) $\ell_2$ -ball meets quadratic function. $\ell_2$ -ball has no corner. It is very unlikely that the meet-point is on any of axes.

可以看到， $\ell_1$ -ball 与 $\ell_2$ -ball 的不同就在于他在和每个坐标轴相交的地方都有“角”出现，而目标函数的测地线除非位置摆得非常好，大部分时候都会在角的地方相交。注意到在角的位置为产生稀疏性，例如图中的相交点就有 $w^1=0$ ，而更高维的时候（想象一下三维的 $\ell_1$ -ball 是什么样的？）除了角点以外，还有很多边的轮廓也是既有很大的概率成为第一次相交的地方，又会产生稀疏性。

相比之下， $\ell_2$ -ball 就没有这样的性质，因为没有角，所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了。这就从直观上来解释了为什么 $\ell_1$ regularization 能产生稀疏性，而 $\ell_2$ regularization 不行的原因了。

不过，如果只限于 intuitive 的解释的话，就不那么好玩了，但是背后完整的理论又不是那么容易能够搞清楚的，既然这次的标题是 Basics ，我们就先来看一个简单的特殊情况好了。

接下来我们考虑 orthonormal design 的情况： $(1/n)X^TX=I$ 。然后看看 LASSO 的解具体是什么样子。注意 orthonormal design 实际上是要求特征之间相互正交。这可以通过对数据进行 PCA 以及模长 normalize 来实现。

注意到 LASSO 的目标函数 (eq: 2) 是 convex 的，根据 KKT 条件，在最优解的地方要求 gradient $\nabla J_L(\mathbf{w}) = 0$ 。不过这里有一点小问题： $\ell_1$ -norm 不是光滑的，不存在 gradient ，所以我们需要用一点 subgradient 的东西。

定义 1(subgradient; subdifferential). 对于在 $p$ 维欧氏空间中的凸开子集 $U$ 上定义的实值函数 $f:U\rightarrow \mathbb{R}$ ，一个向量 $p$ 维向量 $\mathbf{v}$ 称为 $f$ 在一点 $\mathbf{x}_0\in U$ 处的 subgradient ，如果对于任意 $\mathbf{x}\in U$ ，满足 $f(\mathbf{x}) - f(\mathbf{x}_0) \geq \mathbf{v}\cdot(\mathbf{x}-\mathbf{x}_0)$ 由在点 $\mathbf{x}_0$ 处的所有 subgradient 所组成的集合称为 $\mathbf{x}_0$ 处的 subdifferential ，记为 $\partial f(\mathbf{x}_0)$ 。

注意 subgradient 和 subdifferential 只是对凸函数定义的。例如一维的情况， $f(x)=|x|$ ，在 $x=0$ 处的 subdifferential 就是 $[-1,+1]$ 这个区间（集合）。注意在 $f$ 的 gradient 存在的点，subdifferential 将是由 gradient 构成的一个单点集合。这样就将 gradient 的概念加以推广了。这个推广有一个很好的性质。

性质(condition for global minimizer). 点 $\mathbf{x}_0$ 是凸函数 $f$ 的一个全局最小值点，当且仅当 $0\in\partial f(\mathbf{x}_0)$ 。

证明很简单，将 $0\in\partial f(\mathbf{x}_0)$ 带入定义 (def: 1) 中的那个式子立即就可以得到。有了这个工具之后，就可以对 LASSO 的最优解进行分析了。在此之前，我们先看一下原始的 least square 问题的最优解 (eq: 1) 现在变成了什么样子，由于 orthonormal design ，我们有

$\hat{\mathbf{w}} = \frac{1}{n}X^T\mathbf{y} \label{67364f6b44ff80f9f952d5a46f2307425d2ee9ac}\tag{3}$

然后我们再来看 LASSO ，假设 $\bar{\mathbf{w}}=(\bar{w}^1,\ldots,\bar{w}^p)^T$ 是 $J_L(\mathbf{w})$ 的全局最优值点。考虑第 $j$ 个变量 $\bar{w}^j$ ，有两种情况。

gradient 存在，此时 $\bar{w}^j\neq 0$

由于 gradient 在最小值点必须要等于零，我们有

$\left.\frac{\partial J_L(\mathbf{w})}{\partial w^j}\right|_{\bar{w}^j}=0$

亦即

$-\frac{2}{n}\left(X^T\mathbf{y} - X^TX\bar{\mathbf{w}}\right)_j + \lambda\text{sign}(\bar{w}^j) = 0$

根据 orthonormal design 性质以及 least square 问题在 orthonormal design 时的解 (eq: 3) 化简得到

$\bar{w}^j = \hat{w}^j - \frac{\lambda}{2}\text{sign}(\bar{w}^j)$

从这个式子也可以明显看出 $\bar{w}^j$ 和 $\hat{w}^j$ 是同号的，于是 $\text{sign}(\bar{w}^j)$ 等于 $\text{sign}(\hat{w}^j)$ ，所以上面的式子变为

$\bar{w}^j = \hat{w}^j - \frac{\lambda}{2}\text{sign}(\hat{w}^j) = \text{sign}(\hat{w}^j)\left(\left|\hat{w}^j\right|-\frac{\lambda}{2}\right)$

再用一次 $\text{sign}(\hat{w}^j)=\text{sign}(\bar{w}^j)$ ，两边同时乘以 $\text{sign}(\bar{w}^j)$ ，可以得到

$\left|\hat{w}^j\right|-\frac{\lambda}{2} = \left|\bar{w}^j\right| \geq 0$

于是刚才的式子可以进一步写为

$\bar{w}^j = \text{sign}(\hat{w}^j)\left(\left|\hat{w}^j\right|-\frac{\lambda}{2}\right)_+ \label{d20da8b6b2900b1772cb16581253a77032cec97e}\tag{4}$

这里 $(x)_+ = \max\{x, 0\}$ 表示 $x$ 的正部。

gradient 不存在，此时 $\bar{w}^j=0$

根据 subgradient 在最小值点处的性质的性质，此时比有

$\begin{aligned} 0=\bar{w}^j\in\partial J_L(\bar{\mathbf{w}})&= \left\{-\frac{2}{n}\left(X^T\mathbf{y}-X^TX\bar{\mathbf{w}}\right)_j + \lambda e:\; e\in [-1,1]\right\} \\ &= \left\{2\bar{w}^j-2\hat{w}^j + \lambda e:\; e\in [-1,1]\right\} \end{aligned}$

亦即存在 $e_0\in[-1,1]$ 使得

$0 = 2\bar{w}^j - 2\hat{w}^j + \lambda e_0 = -2\hat{w}^j + \lambda e_0$

于是

$|\hat{w}^j| = \frac{\lambda}{2}|e_0| \leq \frac{\lambda}{2}$

又因为 $\bar{w}^j=0$ ，所以这个时候式子也可以统一为 (eq: 4) 的形式。如此一来，在 orthonormal design 的情况下，LASSO 的最优解就可以写为 (eq: 4) ，可以用图 (fig: 2) 形象地表达出来。

图 2Lasso, Ridge 与 Least Square 的示意图。

图上画了原始的 least square 解，LASSO 的解以及 ridge regression 的解，用上面同样的方法（不过由于 ridge regularizer 是 smooth 的，所以过程却简单得多）可以得知 ridge regression 的解是如下形式

$\frac{n}{1+n\lambda}\hat{w}^j$

可以 ridge regression 只是做了一个全局缩放，而 LASSO 则是做了一个 soft thresholding ：将绝对值小于 $\lambda/2$ 的那些系数直接变成零了，这也就更加令人信服地解释了 LASSO 为何能够产生稀疏解了。

nangua (2012年6月12日)

公式时而出错时而正常

pluskid (2012年6月12日)

能否问一下你是什么系统和浏览器？我试过 Windows 下的 Firefox 和 IE 还有 Linux 下的 Firefox 都可以正常显示。不过一开始加载的时候确实比较慢，好像是因为要下载 webfonts 。

呵呵，我用google chrome和IE第一次加载的时候都出错了，刷新后就都正常了

恩，MathJaX 是第一次加载的时候会比较痛苦。有时间我会尝试一下用图片的方式来显示，不过这些总之都是各有各的优缺点吧。

jimmy (2012年6月26日)

我用chrome加载公式的时候是有点卡，但是出来效果很赞！

windows下的

Lynn (2012年6月13日)

因为L1 norm sparsity的问题找到你的博客解释得挺清楚的非常感谢！zju校友一枚～

顺便赞一个博客风格~干净清爽~

想请问下一个小弱问题。目标函数是 min ∥w∥1 约束条件是w都是非负值，那这个目标函数跟我直接min w的各分量的和是等同的么？不知道我说的清不清楚～本身不是学这方面专业的，有点半路出家，如果大牛能帮忙就太感谢啦～！

pluskid (2012年6月13日)

不等同的吧？直接 min w 各分量而没有约束条件的话的话，就可以取负无穷了啊。要么就是我没明白你什么意思。

嗯那个还是有约束条件的我问的就是下面两个问题是否等同 :)

min w1+w2+w3
s.t. w_i ≥ 0 i = 1,2,3

跟min ||w1+w2+w3||_1
s.t. w_i ≥ 0 1,2,3

那样的话，是等价的（虽然你上面的记号还有点问题）。因为 w_i >= 0 的时候，|w_i| 和 w_i 是相等的，所以两个问题的目标函数也是相等的。

Lynn (2012年6月20日)

okay～谢谢！～不过你说的记号有问题是指什么？

pluskid (2012年6月20日)

||w1+w2+w3||_1 这个记号

wh (2012年6月15日)

"注意 subgradient 和 subdifferential 只是对凸函数定义的"貌似不对，我记得不是仅仅针对凸函数的。

pluskid (2012年6月15日)

这个也许没有统一的定义吧？我是在 wikipedia 上看到这个定义的，不同的定义可能会在不同的场合下有用，这里应该是需要这个定义的，否则的话比如上面的性质 1 就不一定能导出来了。

zhuyue (2012年6月19日)

pluskid,请教两个问题，condition for global minimizer的证明是怎样的？没看懂~~~可否补下？
第二个问题，等式3又是如何得到的？

pluskid (2012年6月19日)

把 0 代入定义中的 v 就可以立即证明了。等式 3 根据等式 1 ，然后由于 orthonormal design 的定义也立即得到。

orthonormal design是什么定义呢？正交设计？能给个链接看看否？

在定义一那个框往前面数两段的第一句话。

呵呵，谢谢你耐心的回答，因为这篇文章分好几看的，所以中间可能看漏了。
这个思想在什么地方有用到呢？例如什么算法呢？这里只是介绍原理，有没有实际的应用例子？有没有典型的算法用到呢？

zaeneas (2012年6月19日)

请教一个问题，如果X与X不是独立的，cov(X_i,X_j) \not 0 ，那么l1,l2 Regularization是否仍然能用?

我在考虑对于一个高维度的采样，如果采样数目较少，能不能用l1,l2 Regularization计算出较准确的相关性（之前使用的是Naive的方法，直接将其中一些相关性设为0）

你好，可以用的，这里之所以做了一个比较强的限制是因为在这样的简单情况下可以比较轻松地推导出一个结果来“先睹为快”。事实上 l1、l2 regularization 很多时候都是用在纬度比 sample 数目大很多的情况，这个时候文中的正交假设是没法成立的。所以要得到理论上的结论的话就需要更复杂的东西了。不过仍然是可以用的。

另外，如果你明显地知道其中哪些变量是相互关联的话，还可以考虑使用 group LASSO 之类的更复杂的 regularization 。

zaeneas (2012年6月20日)

group LASSO是不是这个
www-stat.stanford.edu/~tibs...
蠕动着阅读中，虽然有可能最后半路放弃了

请问如果想要了解Regularization请问应该如何做比较好?
(好吧，如果想要了解XXX应该怎样做比较好的确是一个很难回答的问题.......)

嗯，group LASSO 就是那些东西。了解 regularization 的话，比较基础的可以参考一下 Andrew Ng 的 ml-class (https://class.coursera.org/... 第三周的课有比较 intuitive 的介绍。如果你喜欢深一些的内容，可以看一看比如《Learning with kernels》里面都有专门讲 regularization 的。

Thank you!

Idleft (2012年6月22日)

我之前理解L1 sparsity的时候，只是单纯的考虑l1 norm就是要minimize非零项系数的个数，所以在目标函数值最小的前提下，使用最少的非零项系数……不知道这么理解对不对阿？

pluskid (2012年6月22日)

l0-norm 才是计算非零项的个数，l1-norm 计算的是各项绝对值之和。

Idleft (2012年6月23日)

Sorry，表述错了，谢谢回复~不过似乎最开始Sparse模型是用的L0，由于不能求解从而转化为求L1...

pluskid (2012年6月23日)

嗯，所以需要证明转化后的问题（L1）得到的解是原来问题（L0）的解或者从某种意义上来说和原来的解是“相似”的。

pramanc (2012年10月15日)

曾看过博主说要看黎曼几何，不知道有什么收获？对机器学习这方面感觉有大帮助么？还有博主对computer graph了解么?

pluskid (2012年10月15日)

如果你要打算从很几何的角度来研究 manifold learning 的话，黎曼几何当然是有帮助的。graphics 的话不了解了

jeswang (2012年11月21日)

博客的主题和背景是自己做的吗？好崇拜。

pluskid (2012年11月21日)

背景是自己做的，主题是在 twitter-bootstrap 的基础上改的。

zaeneas (2013年1月10日)

一个问题，为什么在处理这种情况时采用的是regression，而非是用贝叶斯方法反算 \omega 的概率分布?
或者之前是否有人比较过 bootstrap + regression会不会明显比regression更好?

pluskid (2013年1月10日)

Bayesian vs. Frequentist 不是从来都没有争论清楚过么？谁好谁坏是无法一概而论的啊。而且 Bayesian 角度来说的话计算量是明显会变复杂很多啊。

JerryHao (2013年1月13日)

而目标函数的测的线除非位置摆得非常好，这里是测地线吧？

pluskid (2013年1月16日)

你好，改过来了，非常感谢。

zaeneas (2013年2月18日)

一个问题，为什么偏向于 norm 较小的w常常会得到正确或者可用的解？是否有数学上的解释?

是否有比较清楚或者的教科书章节(看论文总觉得比看教科书痛苦)

pluskid (2013年2月18日)

regularization 可以从很多角度来解释，从数值稳定性来说可以去看 Tikhonov regularization；从 Bayesian 的角度可以去查 Max a posterior 相关的资料，prior 分布就对应 regularization；从 learning theory 的角度则是限制 Hypothesis Space 的 capacity，可以去看 Vapnik 的大部头书或者其他 Learning Theory 的资料。

其他的正在看,bayesian角度指的是，在没有观测的时候，假定
p(w_1)>p(w_2) 当 |w_1|>|w_2|么?

如果是这个假设，那么这个假设的原因是这个好用还是有更深的数学或者别的方面的考虑?
谢谢

不是，就是指任意的关于 w 的先验，Gaussian、Laplace 之类的

明白了，谢谢

Guest (2013年6月9日)

公式没编号！（恕我完美主义）

pluskid (2013年6月10日)

有编号啊

timedcy (2013年6月9日)

\[
\bar{不错}^test \frac{我说这排版}{和样式}
\]

mathjax 没有为 comments 开放

maxime2046 (2013年7月4日)

在稀疏的表达中，正则化项前的lambda该如何去确定？是实验测试，还是有什么理论依据的，

pluskid (2013年7月4日)

实际中一般是实验确定，也可以根据问题的本身需求来确定，这种情况下用其他的几个形式一般物理意义比较清楚一点，可以参考一下我最近写的那篇文章里描述了关于三个相关的稀疏形式之间的等价性。

hlhlf4 (2013年7月29日)

博主，你给出的图例很直观的解释了L1比L2更容易产生稀疏解，便于理解，但能不能给出数学上的证明？或者给出出处？

pluskid (2013年7月29日)

简单情况的证明文中已经给出了，更多的内容可以参考《Statistics for High Dimensional Data》一书。

hlhlf4 (2013年8月2日)

博主，向你请教ANN方面的问题。对于训练过程，我们对权重的限制是一范的还是二范的？对节点响应的限制是一范的还是二范的？亦即，对于权重和节点响应这两者，我们对哪一个取稀疏限制？
另外，假设我有一个10000维的输入，隐藏层节点数为100，输出层为10000维、与输入层对应（应用于deep learning自编码器），这样的模型（全互联）毫无疑问落入局部极小值，请问不改变architecture的前提下如何促使它的权重训练至最优？

pluskid (2013年8月6日)

你好，神经网络我不是很熟悉，不过一般应该主要是对 weight 做 sparsity 限制吧。ANN 这样的非凸目标函数用迭代法训练原本就无法保证达到全局最优。不过似乎不少结果来看局部最优的效果也都挺好的样子吧。

Guest (2013年8月9日)

博主您好，您写的很好。但是，能解释一下LASSO的非约束形式为什么等价于约束的形式呢？

pluskid (2013年8月10日)

参见这里 http://freemind.pluskid.org...

LQ (2013年8月12日)

perfect！

Zheng (2013年8月28日)

那 L0.5-norm 是不是更容易产生稀疏性呢？

pluskid (2013年8月28日)

不过 L0.5-norm 不是凸的。

哦~ 主人您真棒！

Ray (2013年8月30日)

博主好。我的理解，Fig1中函数等高线（等值线），如果函数是凸的，越靠外的等值线对应的值越大。如果函数非凸，情况就复杂了。这说明L1能产生稀疏解的性质和目标函数的凸性是紧密相关的。您觉得对吗？

pluskid (2013年9月2日)

我觉得一个原因应该是非凸的函数分析起来比较复杂，所以是否解具有稀疏性这个问题就不是那么简单可以刻画的了，所以也不能说是非凸的函数就无法具有稀疏性。

Ray (2013年9月3日)

谢谢回复。Fig1是针对LASSO的等价形式画的，我想如果脱离这个问题，假设最小值点在某个和坐标轴无交点的内环上并且这个内环和L1 ball相交，就没有可能得到稀疏解了。

Zhang jian (2013年9月30日)

博主你好。我作MIMO通信方面的。你写的目标函数里，我可以这样认为，从多个天线中选择其中的几个（稀疏性）进行通信，在满足一定约束条件的同时，功率最小化。我想请问，w的1-范数的平方是否也具有这样的性质吗？可以数学证明吗。谢谢1

pluskid (2013年10月1日)

你好，应该是有的。因为 regularizer 的形式是和 constraints 的形式等价的话，constraints 的形式就可以很容易两边开根号化归到这里的正常形式。

Zhang jian (2013年10月5日)

谢谢你的回复！

liang jian (2013年11月14日)

博主你好，想请教一下，B和λ是怎么对应的？

pluskid (2013年11月25日)

对应关系并不是可以通过一个解析式直接能算出来的，参见：http://freemind.pluskid.org...

王建平 (2014年1月3日)

> <

Violet (2014年2月3日)

问一个小弱问题，别的地方都能follow，只有一个：从这个式子也可以明显看出和是同号的，这个，好像没有明显的看到…… 楼主原谅我……

pluskid (2014年2月3日)

你可以假设一个是正的一个是负的然后会发现等号两边符号不匹配。

xitongyang (2014年2月4日)

谢谢讲解！想问一下，为什么说“有两种情况：gradient存在，w不等于0；gradient不存在，w等于0“。怎么理解？为什么没有其他情况？谢谢！

pluskid (2014年3月7日)

因为 gradient 除了“存在”和“不存在”没有第三种状态了吧？

Wayne Xue (2017年7月25日)

因为在 w_j != 0 时，J 对 w_j 的偏导数才存在。若 w_j == 0，从图像看，L1 norm 约束在那里是一个尖角，自然导数就不存在了，所以题主引入了 subdifferential 进行分析。

chaos (2014年3月7日)

你好，eq:2 前两个式子l2-regularization 最后应该不是平方吧，是表示2范数的意思？初学者，看后受益很多，谢谢。

你好，是 2 范数的平方。

Si Zhang (2014年3月7日)

p>n的时候，应该是X不满秩，XTX不正定吧

嗯，是啊，有什么问题吗？

peghoty (2014年4月15日)

想请教一个问题，对于gradient不存在的情形，“根据 subgradient 在最小值点处的性质的性质，此时必有”后面的那个式子是怎么来的？subdifferential 为什么可以写成花括号里面的表示？

pluskid (2014年4月15日)

可导的部分直接求 gradient 就可以了，绝对值的 subgradient 就是后面那个样子。

JP (2014年5月15日)

gradient不存在时，下面公式第一个等号是怎么得到的？

pluskid (2014年5月15日)

见你楼上的评论

skxiaozi (2014年12月7日)

gradient不存在，此时w-j=0. 请问一下，梯度不存在看，也不一定是能推出在第j个分量处为零吧，可能是在别的分量处为零啊

pluskid (2014年12月8日)

这里因为是一个分量一个分量地考虑的，所以 gradient 不存在就是指针对 w_j 的 gradient 不存在。

skxiaozi (2014年12月8日)

谢谢

------------------ 原始邮件 ------------------
发件人: "Disqus";<notifications@disqus.net>;
发送时间: 2014年12月8日(星期一) 中午11:21
收件人: "晴天"<996654694@qq.com>;

主题: Re: New comment posted on Sparsity and Some Basics of L1 Regularization

Settings

A new comment was posted on Free Mind

pluskid

10:21 p.m., Sunday Dec. 7 | Other comments by pluskid
Reply to pluskid

pluskid’s comment is in reply to skxiaozi:

gradient不存在，此时w-j=0. 请问一下，梯度不存在看，也不一定是能推出在第j个分量处为零吧，可能是在别的分量处为零啊
Read more

You're receiving this message because you're signed up to receive notifications about replies to skxiaozi.
You can unsubscribe from emails about replies to skxiaozi by replying to this email with "unsubscribe" or reduce the rate with which these emails are sent by adjusting your notification settings.

cjlfun (2014年12月9日)

能不能说下在用梯度下降算法或者随机梯度下降算法的时候，在加入L1正则化后，怎么用？

或者说直接求出不加正则化限制的参数w值，然后再用公式eq.4调整得到最后的结果就相当于加入了L1正则化限制的结果？

pluskid (2014年12月15日)

是的。当然 l1 正则化也可以直接用梯度下降求解，因为 l1 norm 不可导，所以需要变成 sub-gradient descent。另外还有一些其他专门针对 l1 norm 设计的算法。

xiexiexxs (2014年12月23日)

这是有前提的吧？在满足博主提到的正交假设的情况下。

博主你好，讲的很赞！有两个地方没弄明白，一是最后那个ridge regression的解的形式，为什么分子和分母上会有个2呢？第二个问题是中间gradient存在情况下的推导，每一步都正确，但是很奇怪原始的最优解为什么就大于lambda/2了？这两个本是无关的东西，lambda还是自己设置的参数，为什么在lasso问题中就满足这种关系？gradient存在和不存在两种情况的一步步推导都看明白了，但是不理解这么做的目的。希望能指点一下

pluskid (2014年12月27日)

你好，ridge regression 那里，我仔细看了一下，感觉像是笔误呢，我觉得应该是把 2 全部换成 n 才对哈。多谢指出了，我回头会修正一下。

然后，第二个问题你是说“问题在 orthonormal design 时的解 (eq: 3) 化简得到”下面那个式子吗？那里你假设 w_hat 和 w_bar 两个符号如果不相同的话，就会在那个式子两边导出矛盾，比如左边是正数右边是负数这个样子。

xiexiexxs (2014年12月28日)

谢谢博主回复。本文中ridge regerssion我推导的系数是1/(1+lambda)。第二个问题是那些公式推导我都一步步看明白了确认正确，但是整体推导思路不理解。就是原始的最优解和参数lambda本是无关的东西，为什么就能推导出来一个大于关系呢？好奇怪。

pluskid (2014年12月31日)

是这样的，原文分了两种情况，w_bar = 0 和 w_bar 不等于 0，在 w_bar 等于零的情况下，就可以得到原来最优解的那个 component 不小于 lambda/2。比如你把 lambda 设置得很大，那么得到的结果就是所有的 w_bar 的 component 全都是零了，都变成了第二种情况，我感觉没有什么矛盾的。不知是否有解释清楚？

hkx (2015年1月10日)

你好，为什么可以说
w_bar{j}与w_hat{j}同号呢，不是还要减去一个lambda/2*sign(w_bar{j})吗？如果lambda较大，岂不是异号了么？

pluskid (2015年1月10日)

参见你楼上的讨论。

> quote: 是这样的，原文分了两种情况，w_bar = 0 和 w_bar 不等于 0，在 w_bar 等于零的情况下，就可以得到原来最优解的那个 component 不小于 lambda/2。比如你把 lambda 设置得很大，那么得到的结果就是所有的 w_bar 的 component 全都是零了，都变成了第二种情况，我感觉没有什么矛盾的。不知是否有解释清楚？

Wei Xue (2015年9月26日)

亦即存在e .....下面一个公式有错误。w_bar, w_tild前面的符号反了。

pluskid (2015年9月30日)

恩，确实有 typo，修正了一下！

Alan (2016年7月22日)

请问为什么

请问为什么梯度存在，w_j！=0？

Cong Qin (2020年7月14日)

请问前辈，L2的目标函数是不是也是凸的？

pluskid (2020年7月14日)

是的，根据三角不等式可以得出它是 convex 的。

Sparsity and Some Basics of L1 Regularization

Comments