A Compressed Sense of Compressive Sensing (II)

今天在吃饭的时候，其中一个人得知我的学校之后非要出一些 puzzle 来考我……口算都很困难的我觉得压力山大，要给本校的 CS 算法天才们丢脸了。然后其中一道题就是十二球重量的问题，似乎是一个经典面试题。当时想了一下觉得确实是可以放在之前看的一些 Compressive Sensing 框架下来考虑这个问题，后来去查了一下，发现果真如此。

十二球问题是说，现在有十二个球，其中有一个是“异类”，除了这个异类之外，其他十一个球的重量是相等的，而这个异类球可能比其他轻或者重，现在提供一个天平，要求你通过最多三次天平测量，找出哪个球重量和其他不一样，并得出是轻还是重的结论。

仔细想一下发现做一次天平测量相当于做一次 linear measurement，将球编号为 $x_1,\ldots,x_{12}$ ，排成一个向量记为 $x$ 的话，做一次测量相当于用 $x$ 去内积一个向量 $w$ ，其中 $w$ 的元素可能是 $\pm 1$ 或者 $0$ 。 $-1$ 表示放在天平左边， $+1$ 放在天平右边。用 $m$ 表示正常球的质量， $M\neq m$ 表示异常球的质量，则

$x = m\mathbf{1} + (M-m)e_k$

其中 $\mathbf{1}$ 是一个全 $1$ 的向量，而 $e_k$ 是第 $k$ 个位置为 $1$ ，其他位置为零的向量，这里假设第 $k$ 个球是异类球，但是 $k$ 的值目前未知。注意我们在测量的时候一定是会在左边和右边放上同样数目的球，否则测出的结果一般情况下得不到任何有用的信息：所以 $w$ 向量里正负 $1$ 的数目应该是一样多的，于是 $\langle w,\mathbf{1}\rangle=0$ ，也就是说： $\langle w,x\rangle = (M-m)w_k$ 。

题目要求我们使用三次测量，分别记为 $w^1, w^2, w^3$ ，排成矩阵为

$W = \begin{pmatrix}w^1 & w^2 & w^3\end{pmatrix}^T$

我们用 $W_{:j}$ 表示 $W$ 矩阵的第 $j$ 列，则

$Wx = (M-m)W_{:k}$

由于我们 $w$ 的编码中 $-1$ 表示放左边， $+1$ 表示放右边，所以如果左边重，我们的观察值 $\langle w,x\rangle$ 会是负数，右边重是正数，一样重是零。由于我们的天平实际上不是刻度天平，所以我们的观察值实际上是

$\text{sign}(Wx) = \text{sign}\left( (M-m)W_{:k} \right) = \text{sign}(M-m)W_{:k}$

也就是说，我们的观察值实际上将会是矩阵的第 $k$ 列或者该列的相反数，具体取决于异类球的质量是比正常球大还是小。所以说，如果我们能将矩阵 $W$ 设计为任意两列以及它们的相反数都互不相等的话（当然还必须满足每一行的 $\pm 1$ 个数相等），就可以根据这个测量矩阵找出异类球的位置 $k$ 了。具体的做法就是直接拿测量结果去和 $W$ 的每一列比较，如果和其中第 $k$ 列相等的话，那么异类球就是第 $k$ 个，并且重量比其他球大；否则再用测量结果的相反数去和 $W$ 的每一列比较，相同的那一列对应的就是异类球的标号，并且此时异类球的质量比普通球要小。

那么这样的矩阵究竟能不能构造出来呢？首先矩阵每一个元素可能的取值范围是三个，矩阵有 3 行，所以所有可能的不同的列的个数为 $3^3=27$ 个，除去全零（永远不测量该球）这种极端的情况，还剩 26 种，由于每一种情况和它的相反数的情况对应起来，因此我们实际上会得到 13 种，任选 12 种填满这十二列。下面是一个例子：

$W = \begin{pmatrix} 1 & 0 & 0 & -1 & 0 & -1 & 1 & -1 & 0 & 1 & -1 & 1 \\ 0 & 1 & 0 & -1 & -1 & 0 & -1 & 0 & 1 & 1 & 1 & -1 \\ 0 & 0 & 1 & 0 & -1 & -1 & 0 & 1 & -1 & -1 & 1 & 1\end{pmatrix}$

类似的算法可以推广到做 $N$ 次测量，可以在多少个球中找出异类球来上，就不在这里再具体说了。所以这和 Compressive Sensing 有什么关系呢？当然在很多地方都是很相似的。首先 $x$ 是一个“稀疏”的向量（除了一个位置之外其他的位置值都一样），然后现在通过数目远小于 $x$ 的维度的测量来恢复出原始的 $x$ 来。其中有一点和普通的 CS 不一样的是：这里并不是直接做原来的线性测量，而是在通过一个矩阵进行线性投影之后，测量结果的符号： $\text{sign}(Wx)$ ，稍微忽略掉等于零的情况的话，一个符号 $\pm 1$ 可以用一个 bit 来表示，所以这样的特殊的设定通常称为 1-bit Compressive Sensing。

由于 $\text{sign}$ 是一个非线性函数，所以这里的测量也是和普通 CS 不同的非线性测量。问题的设定也有些不同，因为很容易可以看到的是：原始向量 $x$ 的长度信息永久丢失了，因为对于任意正数 $\alpha>0$ ， $\text{sign}(\alpha Wx) = \text{sign}(Wx)$ ，所以通常情况下会尝试恢复一个单位长度的向量 $x'$ 。更常见的设定是只寻找 $x$ 的非零元素的位置，而不去管具体的值，比如对应我们刚才的问题，就是找出 $k$ 是多少，通常叫做 support recovery。这通常被认为是更加 achievable 的目标。

在 1-bit CS 里，除了普通 CS 里常用的随机高斯或者伯努利测量矩阵之外，由于问题设定和 Computer Science 里的 Group Testing 问题也联系更加紧密一些，所以还有许多通过巧妙地构造出来的特殊矩阵配合上专门的恢复算法（而不是简单的 $\ell_1$ -norm 最小化）可以来完成给定的目标。

另外，介于 1-bit CS 和普通的 CS 之间还可以有 $K$ -bits CS，因为我们在电子计算机上处理数据的时候实际上是没有用无限精度来表示测量值的，总是在一定程度上做了 quantization，这个 quantization 的步骤（也就是用 $K$ 个 bit 来近似真正的观察值）会产生怎样的影响，以及 $K$ 的取值会对结果精度产生什么样的 trade-off，这也是目前 CS 里正在被研究的一个问题。

Zang MingJie (2013年8月15日)

W里面为何要去掉全一和全负一这两个向量？

实际上只需要保证w和-w不同时在W里面就可以了吧，所以只需要去掉(0,0,0)，因为-(0,0,0)=(0,0,0)导致w和-w同时在W里面

剩下13个向量里面随便选12个组成W，保证W*1=0都能满足要求吧，比如这样

100-10-11-101-11
0-10-1-10-101111
0010-1-101-1-111

pluskid (2013年8月15日)

恩，有道理！我之前没有仔细想，以为是全 1 的列会导致行内的 +1、-1 数目不平均了。

Zang MingJie (2013年8月16日)

另外，一共有13个向量可以选，但是13个全放进去无法满足W*1=0，但是如果提供一个参考球（已知重量一致的球），我们就只需要保|证|W*1|<1，这样可以同时测量13个球了

pluskid (2013年8月16日)

如果已知了一个重量一致的球，直接把它去掉测量剩下的十二个球不就好了？

13个未知的球，外加一个已知的

AI (2013年8月17日)

Kurt Bryan, Tanya Leise, Making Do with Less: An Introduction to Compressed Sensing, SIAM REVIEW, Vol. 55, No. 3, pp. 547–566, 2013 这篇文章讲得比较详细

pluskid (2013年8月19日)

多谢！这篇文献之前确实是没看到过。

AI (2013年8月22日)

您客气了，等您继续Compressed Sensing Theory and Applications的读书笔记

idiot (2013年9月25日)

发现一个小错误：

−1 表示放在天平左边，−1 放在天平右边。

是−1 表示放在天平左边，+1 放在天平右边。么

pluskid (2013年9月26日)

确实！多谢指出，已经更正了！

HyperGroups (2013年9月28日)

楼主用啥建博客呢，看起来有点像是jekyll弄的效果。首页的文章标题好像有一种被挤压的感觉，有点窄。

Yajie Zhang (2013年12月31日)

这个问题的关键在于，每次称量时如何确定小球在天平两边的摆放策略（选择几个？选择哪几个？），以使得三种情况（左边重，右边重，一样重）尽量等概出现。这时，这次称量得到的信息量是最大的（理想情况是三种结果等概，此时得到的信息量是lg3）。12个小球时，理论上的最少称量次数是 lg（12*2）/lg3 。不可能用比这个数少的称量次数就解决问题。一般来说，第二次的摆放策略要根据第一次的结果来确定。因为当我们已经知道第一次结果的情况下，如果还坚持事先设定好的第二次摆放策略，不能保证第二次称量得到最大的信息量。（即，第一次的结果会影响第二次测量结果的概率分布。事实上，我们采用 adaptive 的测量方法的目的是为了避免第二次测量得到的信息已第一次得到的信息有交集。）所以我认为楼主采用 non-adaptive 的测量方法可能欠妥。
只是一家之言，纰漏之处还望指出。

A Compressed Sense of Compressive Sensing (II)

Comments