我们在前一篇文章中提到,artwork,特别是比较近现代的 artwork 中的一个重要元素就是 beholder‘s share,原因在于我们人在 perceive visual stimuli 的时候,实际上在做一个 interpretation 或者甚至是 hypothesis testing 的工作,其最终结果取决于观众自己脑补过程中添加的元素。

而 beholder’s share 重要的另一个原因则在于,artwork 本身以物理世界的一种实体的方式存在,在构造过程中受到很多 constraints,其媒体形式能承载的信息量也受到限制,因此即使艺术家希望把自己的想法原封不动地传达给观众而忽略所有 beholder’s share,在我们发明人对人的意识直接拷贝技术之前,应该都是非常困难的。

What is (the Purpose of) Art

在继续讨论之前,我们需要搞清楚的一个论题就是:艺术是什么,或者说艺术的目的是什么。当然这是一个非常宽泛的问题,也没有任何正确答案,从宗教到政治再到我们的日常生活,随处都可以看到艺术的影子。艺术是关于美吗?也许是,但是显然并不总是。不过这里我们不妨给出一个比较宽泛一点的定义:艺术的目的是为了传达一个想法(convey an idea),或者传递一条信息(communicate a message)。

Pablo Picasso - Guernica, 349.3 cm × 776.6 cm, 1937. Currently in Museo Reina Sofia, Madrid, Spain.

简而言之:artist 脑子里有一个 idea,通过艺术品的形式让这个 idea 在物理世界中实体化,然后 viewer 看到这个艺术品之后再在自己脑袋里形成一个 idea,由此完成 communication。“在物理世界中实体化”这是一个 information bottleneck,或者 (lossy) compression channel,会有大量的信息丢失,需要 viewer 进行 reconstruct,其中有一些本来就是无关紧要的,有一些可能是艺术家很想传达的主要信息中的一部分。

咋一看似乎有一些反直觉,因为一个 idea 或者 message 似乎是一个很简单的东西,但是一个艺术品却非常复杂,所以似乎并不能称作是一个 compression 或者信息丢失的过程。从某些方面来讲这样也算合理,但是取决于我们如何去定义一个“idea”,结果会很不一样。比如我们虽然有一些词汇可以表达一些常见的 idea,比如“美丽的风景”,或者“悲伤的心情”之类的东西,但是实际上这是非常简化的描述,原本的 idea 则会有更多的细节和微妙的内容,如果将其看做是艺术家脑回路中某一部分在某一时刻的神经元状态集合的话,那它本身也是包含了巨大的信息量的。比如即使规定使用“文字“作为媒介,仅仅是写下”好吃好吃好吃“这几个字,能够传达的信息其实是非常有限的,观众也根本无法体会到究竟是辣辣地好吃还是甜甜地好吃之类的 nuance。而那些长篇巨著的长篇文学作品的存在(以及被简化缩写之后就失去了原来的味道的事情),大概就算是一种”idea“究竟可以有多么复杂和微妙的一种证明吧。同时也算是 justfy 了为什么”传达一个 idea“这样简单的事情会需要通过创作艺术品这么复杂的过程来实现:因为太多的东西都难以三言两语说得清楚了。

《氷菓》第十八話「連峰は晴れているか」。

How to Communicate Effectively

在明确了 art 的目的是 communicate 之后,能否有效地进行信息交流就很自然地成为了评价一个艺术品的标准之一。虽然艺术品很难直接用”好“和”坏“来形容,不过为了避免我们的用词过于饶舌,不妨在这里将能够实现 effective communication 的作品称为好的,否则是坏的。

首先很明显的一点就是,并不是包含信息量越大越细节的作品就是越好的。比如摄影,即使你有超好的镜头和相机,也不一定能拍出 powerful 的照片来;绘画也是类似,即使你能做到跟电脑一样精细地把每一根毛发每一块石头都能原封不动地画下来,也不一定就能保证你的画不是一个无聊的作品;也许文学方面的例子更直观一点:一个有起承转合的作品,和一个包含所有细节的流水账,大概谁也不愿意看后者吧。

保留所有信息的 communication 方式不好的原因在于 viewer 那一头在接受的时候并不是直接一个 identity 函数,而是我们上一篇文章中讲到的很复杂的脑补过程,涉及到 viewer 的 attention、hypothesis formation 等各方面的因素,即使艺术品的物理媒介允许你记录非常多的信息,viewer 在接受的时候也有一个信息瓶颈,包含太多细节的一个问题就在于 viewer 会在过多的信息中迷失,从而无法定位到真正的 main message 上。因此为了进行有效的 communication,人们通常会采用两种办法:

  1. de-emphasize 无关紧要的内容;
  2. emphasize 重要的内容。

de-emphasize 在摄影中有一个很典型的例子,就是背景虚化效果,a.k.a. Bokeh。因为摄影不像绘画那样可以随意对相框里的元素进行修改调整,所以对于背景非常复杂的情况,直接拍摄出来就会是一张比较杂乱的照片,找不到主题,而避免让背景干扰摄影主体(比如通常是人像等),我们可以将相机聚焦在主体上,同时使用长焦、大光圈等元素达到 shallow depth of field,使得主体之外的东西因为失焦而变得模糊。因为我们人眼其实也是类似的工作原理,除了视域中央的高分辨率区域之外,其他地方可以说是相当模糊的(我们在上一篇文章中提到大脑通过脑补让我们忽略了自己眼睛的这个限制,“以为”自己眼前看到的是一张完整的统一清晰度的图像),所以我们并不会觉得这样的照片看起来“不真实”或者“怪怪的”,甚至很多时候我们都不会注意到背景被模糊了;同时在背景被通过虚化的方式 de-emphasize 之后,主体就自然地被凸显出来,成为比较 eye catching 的图像。

bokeh 示例,图片来自于 unsplash(@lvnatikk@pistos)。

如上图所示,背景里杂乱的屋子在虚化之后不再和前景中的猫猫“打架”要吸引我们的注意力了;而右边的鸟儿大概是用了超长焦的镜头,背景已经虚化到完全看不出任何内容来了。因为 Bokeh 非常容易制造出比较有视觉 impact 的照片,所以一直是摄影中比较受 popular 的一种手段——毕竟几乎不用任何构图技巧就能拍出好看的图,这两年 iPhone 和 Pixel 这些手机费尽心思用软件模拟的 portrait mode 基本上就是想要制造这么一个效果。不过有时候也会觉得有点被过度使用而略显得 boring 了,而且并不是所有拍摄主题都有一个明确的前景和背景区分的(比如风景,夜空之类的)。

相比于摄影中通过 out of focus 来对背景进行 de-emphasize,在绘画中我们简直就可以为所欲为了。在各种人像绘画中直接不画任何背景的例子简直不要太多,除了直接不画之外,用大笔刷大色块画出抽象风格的印象也会显得非常有风格。比如下面这幅画,可能许多人都不会注意到有什么“不一致”的地方,但是仔细看就会发现,除了脸部和手部刻画得很细致之外,头发、衣服以及背景几乎是“随便画了几笔”(当然是否是“随便”画的很有待商榷,看起来很随便的几笔有可能是经过艺术家精心计划之后的结果),图中我们随便截取了大约跟脸部同样大小的一块区域放大来看,几乎就如同抽象画一样看不出任何东西来。

Richard Schmid - “Nancy’s Velvet Cape” Detail, 1994。

和摄影中的 bokeh 相比,绘画中的 de-emphasization 更 flexibile 的地方在于它几乎可以用在任何主题、风格的作品上。注意到到目前为止我们介绍的 de-emphasize 的例子都有一个共同点就是“没有违和感”,或者“不影响信息的传播”,所以如果不是像 portrait 这样的有单一明确主体的情况,选择哪些元素进行省略,以及如何表达省略后的内容,其实是非常难的一个问题。这里不妨再引用一下文学方面的一句名言来阐释一下这个问题在各种媒介的艺术中都是类似的:

I didn’t have time to write a short letter, so I wrote a long one instead. Mark Twain

而在省略细节方面更加典型的例子大概就是平面设计以及漫画了。drawing 和 painting 比起来本身就是一种限制更加大的媒介,因为所有的东西都需要用线条这个元素去刻画,几乎没有渐变,也没有模糊(所以没法 Bokeh),颜色就不用说了,连灰度图也算不上:对比一张黑白照片中可以有的各种深浅的灰度值,在漫画中基本上只有黑白两色,或者在加上网纸模拟出来的一个灰色值,等等……如何在丢掉了几乎所有的 details 之后仍然能够传达原来的 message,就成了比较困难的问题。当然漫画这个风格也发展了很多年,人眼对 boundary contour 的敏感性,以及对人脸相似元素的 over-interpretation 这些事情都已经被掌握并融入到了漫画绘画技法中。

比如下面的例子中左下图里男主的脸只用了两条线画出了眼睛,一个点表示鼻子,一个大一点的点表示嘴,而旁边的女主则更是脸上什么都没有画。还有一个我比较喜欢的细节是对于砖墙的描绘:作者并没有把所有的砖块全部画出来,作者看似随机地直接将大部分砖墙面留白了,但是我想大部分人应该都不会注意到这个,相反如果把所有的砖块细节全部都画出来,反而会由于画面过于“busy”而影响解读。右下的图用了类似的方法,这里的留白和背景里几乎纯黑的树对比起来甚至还产生一种烈日高照的“过曝”的感觉。

高田裕三,《3x3 eyes》第四百零一话。

而 emphasize 重要内容的方法,其实和 de-emphasize 不重要内容的方法本质上是一样的,因为不管是 emphasize 还是 de-emphasize,几乎都是在有(“强”和“弱”的)对比的情况下才能做到。比如前面的 Bokeh 可以说是虚化背景,也可以说是强调前景。

在绘画中可以用的对比强调的方式非常多,最常见的可能是颜色值(Value)的深浅对比,因为人眼对于高对比度的东西比较敏感,所以比较容易引起注意,大概是因为高对比度的东西能够有效地帮助我们区分物体的边界吧,有相关的 neuroscience 的研究表明人的 low level vision 系统中有一些神经元起着类似于 edge detector 的作用。虽然现在线条画在漫画等题材中随处可见,但是梵高在那阵子直接用黑线描边的画法(特别在他的很多人像绘画中)大概还是比较前卫的一种“强调”手法吧,因为现实世界中的物体边缘并不存在真正的“线条”。意识到画并不一定要尽可能地模拟现实世界,通过适当的扭曲、强调和描绘一些“不存在”的元素可以给 viewer 带来更强的视觉和情感方面的冲击,应该算是表现主义的一个特点了。

关于颜色的另一个常用的对比则是色调冷暖的对比(橙色、黄色等属于暖色调,蓝色、紫色等属于冷色调)。比如以浪费黄颜色著称的梵高其实在不少画中都加入了对应的补色蓝色来形成更加强烈的冷暖对比效果。

Vincent van Gogh - Wheatfield with Crows, 1890. 50.2 cm x 103 cm. Currently at Van Gogh Museum, Amsterdam.

下面这幅 Sargent 的画也是一个很好的例子。注意到灯笼周围的颜色非常 dark,通过这样的对比能让我们看起来好像灯笼是在发光,因为颜料本身并不是光源,所以如果不用很强烈的对比的话很难画出发光的效果来。同时整个画面背景的蓝色调也和灯笼以及映照在小朋友们的脸上的火光形成对比烘托出整个气氛。

除此之外,绘画中还有很多的对比强调可以用,因为人眼非常善于总结 pattern 并找到 outlier,各种各样的画中显得“与众不同”的地方都会起到强调和对比的作用从而吸引注意力的作用。比如构图方面凝聚成一团一团的人群和一个单独的周围空白的人,后者就会有强调的作用;再比如在一个风景画里充满了山水等“organic”的元素,但是某一处突然有一个很方方正正棱角分明的人造建筑,也能起到强调和对比的作用。等等等等。

John Singer Sargent - Carnation, Lily, Lily, Rose, 174.0 cm x 153.7 cm, 1885. Currently in Tate Britain.

Expressionism

对什么东西进行 emphasize 以及通过什么样的方式去实现,很大程度上取决于艺术家最开始想传达和表达的东西。这里我们回到本文的主题,主要基于上一篇文章中的讲到的《The Age of Insight》这本书的内容来聊一聊表现主义 (expressionism)。表现主义总体来说是一个比较难定义的艺术派系,因为跟许多其他相关的派系都关系密切。这里我们直接给出一些 quotes:

… artistic style in which the artist seeks to depict not objective reality but rather the subjective emotions and responses that objects and events arouse within a person … Its typical trait is to present the world solely from a subjective perspective, distorting it radically for emotional effect in order to evoke moods or ideas. Wikipedia, Expressionism

Expressionism is characterized by the use of exaggerated imagery and unnatural, symbolic colors to heighten the viewer’s subjective feeling when looking at art. The Age of Insight. Chapter 9, the Depiction of the Psyche in Art

大致可以看出表现主义对于现实物理世界的刻画并不关心,而更注重传达内心世界的内容,而其主要的传达方式主要是夸张扭曲和强调。我对艺术史不是特别熟悉,根据《The Age of Insight》里的描述,艺术家们开始往这样的方向前进也是由各种错综复杂的缘由导致的。这里可以简述其中两个:首先是摄影的出现和逐渐普及对于绘画艺术的冲击。

Like other modern artists faced with the advent of photography, Klimt sought newer truths that could not be captured by the camera. … turned the artist’s view inward—away from the three-dimensional outside world and toward the multidimensional inner self and the unconscious mind. The Age of Insight. Chapter 1, an Inward Turn: Vienna 1900

而另一方面则来自于医学、哲学、心理学等方面的一些进展。比如尼采等人主张人类的心智其实大部分是由非理性构成的,弗洛伊德由此发展出他关于潜意识 (Unconscious mind) (虽然在中文里统称作“潜意识”,但是英文里有 unconscious 和 subconscious 两个词,弗洛伊德一开始使用后者,但是后来逐渐废弃了该叫法而直接使用 unconscious,详见这里。)的理论和精神分析法 (在《The Age of Insight》中关于生物学和神经科学的部分还介绍了一些近现代关于意识和潜意识之间的关系和区别的科学上的研究和进展,感兴趣的同学可以参考相关章节。)。而医学方面,在法国大革命的余波之下,诸如(尸体)解剖等医学上的各种限制逐渐被放宽,医学药学诊疗等也逐渐变得更为系统和科学,人们开始认识到仅仅通过评估患者的外部症状很难确定真正的病因病理,因为同样的症状可能会由器官不同部分的异常或者甚至是完全不同的病理引发。Rokitansky主张:

to discover the truth, we must look below the surface appearance of things.

这样的观点逐渐扩散到神经内科学精神病学精神分析学以及文学,当然还包括以 Gustav KlimtOskar KokoschkaEgon Schiele 等人为代表的表现主义艺术学派。

Like many other artists of his time, Klimt was aware of the increasing technological refinement and popularity of photography, including the emergence of nude photography in Paris in 1850. His response to the realism of photography can be seen in his paintings, in which he moves from literal depiction to more symbolic representation … As a first step in going deep beneath the surface of consciousness, Klimt realized that he would have to overcome the limitations inherent in painting on canvas … to portray the depth of the human psyche on a flat, two-dimensional surface, Klimt needed new artistic strategies. In devising them, he turned for inspiration to a much earlier style of painting, Byzantine art … These two stylistic changes—flatness and ornamentation—ushered in Klimt’s Golden Phase, a relatively brief period that dates from his return to Vienna in 1903 until 1910. The Age of Insight. Chapter 8, the Depiction of Modern Women’s Sexuality in Art

Gustav Klimt - Portrait of Adele Bloch-Bauer I, 138 cm x 138 cm, 1907. Currently in Neue Galerie, New York.

上面是 Klimt 的代表作之一(2006 年被以一亿三千五百万美元买下,现藏于纽约的 Neue Galerie),可以看到虽然“脸”和“手”这两个元素使用了写实的画法,但是一反常规的“要将前景和背景通过对比等方式分隔开来”的画法,画中人物的衣服、身后的椅子以及背景几乎融为一体,使得画面完全扁平化,同时在画中大量使用了装饰性元素——根据《The Age of Insight》中的解读,(和他的其他一些同期的诸如 The Kiss 的画类似)方块状的装饰形状象征着 sperm,而椭圆形的装饰形状象征则 female fertility。

The changing boundaries in the painting and the dense, symbolic ornamentation of the dress convey the idea that the stark, ordered geometry of the background is restrictive and socially imposed, whereas the symbols on Adele’s dress reveal her instinctual drives. The Klimt historians Sophie Lillie and Georg Gaugusch comment on this conflict when they write that “Klimt’s painting appears a compelling visual expression of Freud’s theory … that emotions buried in the subconscious rise to the surface in disguised form.” … As his work evolved from Art Nouveau to Modernism, Klimt focused on two themes … that came to characterize Expressionism: sexuality and death. Thus, simultaneously with Freud and Schnitzler, Klimt embarked on an exploration of the unconscious instincts that drive human behavior. He became a painter of the unconscious, revealing the interior lives of women. The Age of Insight. Chapter 8, the Depiction of Modern Women’s Sexuality in Art

在将注意力从对外在的物理世界的描绘逐渐转移到对人类内心世界的描绘的过程中,人们认为艺术品必须要忠实的表现出“the unconscious strivings that motivate men and women alike”。裸体人像在整个绘画历史中并不少见,在很早期人类文明的出土文物中可以找到一些崇拜 fertility 的诸如夸大女性乳房、臀部等的雕塑(参见 wikipedia:Venus figurines),但是在进入“文明社会”之后人们对于女性裸体的描绘通常都是象征则圣洁、或者人体的完美,而极力避免任何 sexuality 相关的寓意的,而维也纳的画家们在追寻前卫艺术的过程中则抛弃了这样的避讳。

在下面这几幅描绘 Judith beheading Holofernes 的故事的绘画中就可以看到很明显的区别。这个故事大致讲述了一个美丽勇敢的寡妇为了保卫家乡,将敌军首领灌醉之后割下其首级的事情。在历史上有很多以此为主题的画作。在下图中可以看到,虽然 Judith 是通过美色诱惑而获得了刺杀的机会,但是在 Caravaggio 和 Bigot 的描绘中都省略了其魅惑的性质而刻画出传统的贞洁神圣的形象。而 Klimt 则完全抛弃了这些忌讳。

Illustrations of the story ‘Judith beheading Holofernes’ by different artists.

Klimt provides an extreme interpretation of the pious widow, depicting her as a symbol of the devastating power of the female erotic urge. Judith, barely clothed and fresh from the seduction and slaying of Holofernes, glows in her voluptuousness. Her hair is a dark sky between the golden branches of Assyrian trees, fertility symbols that represent her eroticism. This young, ecstatic, extravagantly made-up woman confronts the viewer through half-closed eyes in what appears to be a reverie of orgasmic rapture. While beckoning the viewer to enter into her ecstatic state, Judith reveals Holofernes’ severed head … Klimt’s Judith is a true femme fatale: she evokes in men both lust and fear, and she obtains pleasure from both … the painting discloses the psychological problem that Freud predicted would accompany the liberation of women’s sexuality: namely, men’s nightmares about sexual anxiety and the relationship between sex and aggression, life and death. Klimt recognized this problem before Freud ever wrote about castration anxiety. The Age of Insight. Chapter 8, the Depiction of Modern Women’s Sexuality in Art

表现主义画家们在追溯本源的过程中和先辈们的一个重要的区别在于:虽然以前的艺术作品中也时常有“痛苦”、“恐惧”等各种情绪的刻画,但是这些都是属于“conscious emotion”的范畴,而此时的维也纳画师们所追寻的则更多的是潜意识(“unconscious ecstasy and aggression”),所以自然地和弗洛伊德的一切都源自于“性”的哲学思想互相影响,很大一部分内容都是关于对 sex, aggression, death 和 unconscious instincts 的探索和刻画。

那当时的表现主义中的带有情色性质的画作和今天的 pornography 又有什么区别呢?这是一个非常有争议的话题,在 wikipedia 的 Erotica and pornography 一节有一些讨论和相关文献。值得一提的是当时在探寻人类的基本欲望的过程中一个重要主题是女性自身的内心和本能——作为主体,而不是被物化或者附属的存在。比如在 Klimt 的很多 drawing (drawing 应该翻译做“素描”?) 中都有女性 masturbation 的刻画(其大部分 drawing 在其生前并未公开展出)。为了和谐起见,我就不在这里放样例图了,好奇的同学可以去看《The Age of Insight》或者 Klimt 的 wikipedia 页。

在 Klimt 所开创的新风格的引领下,Kokoschka 和 Schiele 进一步对 sex、aggression 和 death 相关话题进行探索,从他们跟 Klimt 迥然不同的画风可以看到表现主义更多的是关于内在表达和主题,而不是某一种统一的外在 visual style。后两者发展出了更加戏剧性,在美学(或者丑学?)上更加具有视觉冲击的艺术风格,极大地挑战了过去人们对于艺术中“美即真实”的认识,使用大胆的、不自然的颜色,狰狞的笔触,和扭曲的身体等元素来分析和表现模特的 interior life。

Oskar Kokoschka - The Bride of the Wind, 181 cm x 220 cm, 1913. Currently in Kunstmuseum Basel, Switzerland. Egon Schiele - Death and Maiden, 150 cm x 180 cm, 1915. Currently in Österreichische Galerie Belvedere, Vienna.

Kokoschka 和 Schiele 虽然传承了 Klimt 的忽略外在元素,深入内在意识或潜意识,进行“直击灵魂”的刻画的艺术目标,但是他们的(外在)绘画风格却和 Klimt 的平面装饰风格很不一样。关于他们的表现手法的更多的介绍,诸如如何使用手和脸等元素去表现 social 的交流和交互等,以及他们的一些代表作的分析,可以参见《The Age of Insight》第 9 章。

注意到我们一直在讨论的 emphasize 和 de-emphasize 的手法去和人脑的潜意识、perception system 等进行 communication,这里的“人”主要指的是 viewer。但是在这几位表现主义画家的画中很多时候试图分析解剖的是 sitter,也就是模特本人的内心状态,特别是 Kokoschka 和 Schiele 都画了很多自画像,这种时候其实是对画家本人的心智在进行剖析。当然这几者最终全部纠缠在一起,在画布上对模特进行分析刻画,然后在 viewer 内心产生反响和共鸣。

DeepDream, a.k.a. the Inceptionism

在本文末尾我们来聊一下最近在 Deep Learning 大潮下出现的一个叫做 Inceptionism 的东西。Deep Learning 在计算机视觉中的一个重要应用就是做跟人的 perception 系统差不多的一些事情,比如找到图像或者视频中的物体的位置,识别出它们的类别,推断出物体的深度等 3D 位置信息等等。目前卷积神经网络在这些相关应用中取得了巨大的成功,虽然卷积神经网络或者更加宽泛的人工神经网络的算是 inspired by 大脑的神经网络结构,但是其计算和学习的机制到底有多少的相似性目前还没有一个定论,并且我们在上一篇文章中讨论过,人脑的 perception 系统有很多反馈,re-attention,的过程,与记忆、情绪等模块有复杂的关系,最终形成一个更类似于 hypothesis testing 的识别过程,而大部分神经网络都是一个简单的 feedforward 的过程。当然,如果把神经网络当做一个 universal approximator,而如果识别过程的黑盒子能表达成一个连续函数的话,也很难说人工神经网络不能实现大脑的运作机制(比如记忆可以被存储在神经网络的 weights 中,而 attention 可以通过一开始就把所有的信息采集过来,再在内部进行选择等等),另一方面,从 computer science / engineering 的角度来说,一个人工神经网络(或者任何其他的算法或系统)如果有另一种更适合基于硅芯片的通用计算机来实现 perception 的机制,那么这种机制是否实现了人脑的计算机制并不重要。

抛开这些未解的问题,人们对于深度神经网络和大脑之间的联系还是非常感兴趣的,有不少工作在研究诸如神经网络和视觉系统中的 response 之间的关系,比如 I. Kuzovkin et al. 的 Activations of deep convolutional neural networks are aligned with gamma band activity of human visual cortex. Communications Biology (2018). 和 D. Yamins et al. 的 Performance-optimized hierarchical models predict neural responses in higher visual cortex. PNAS 2014. 等等。

我们这里要讲的 DeepDream,和之前提到的一些研究工作相比,一开始更多的是一个好玩的 project,不过却似乎很契合表现主义 (Expressionism) 的一些观点,所以又经常被叫做 Inceptionism——因为一开始被用来实现这个 DeepDream 算法里用到的神经网络是 Google 的研究团队设计的一个叫做 Inception 的神经网络。DeepDream 的想法很简单:在艺术(特别是表现主义)中,人们一直在寻求什么样的 image 会产生更强的 visual / emotional impact,并通过强调 contour 描线、色彩对比、或者是人脸等各种元素来尝试对 visual response 进行增强;现在既然神经网络被设计来做和人类视觉系统类似的事情,那么我们不妨来看看人工神经网络又会更偏好什么样的 image 呢?在人工神经网络的 context 里问这样的问题的好处在于,很多概念都可以明确地定义并计算出来,比如“stronger impact”,我们可以定义为某一些 neuron 的 activation maximization,而 impactful image 则可以通过 gradient descent 的方式直接在输入空间中寻找能够最大化给定的那些 neuron 的 activation 的图像的方式得到。

DeepDream example from wikipedia. The picture on the right is the deepdream enhanced image of the picture on the left, for a neural network that is trained to perceive dogs.

当然“所有图像”的空间是非常大的,假设红黄蓝三个 channel 中每一个像素能取 256 个值,那么一个 100x100 的图像可以有多少张不同的图像呢?我算术不太好,你们自己算了……总之这中间有非常一小部分的图像可以算是 natural image 或者其相似的图像,大部分其他图像对人来来说都只能是

Doesn’t look like anything to me. Dolores Abernathy, from Westworld

所以通常的做法是从一张已有的图像出发,计算一个神经网络在每一层的 activation,然后以某一层为目标,去对给定的图像进行修改,来最大化那一层的 activation。这有点类似于寻找神经网络在这张图里“看到了”什么,或者说,根据这张图“脑补出了”什么,然后我们通过修改输入图像来增强其 response,来 visualize 在输入图像中的重要的部分。比如如果神经网络认为某个地方看起来像一张人脸,那么理想情况下我们的图像增强算法将会把那部分变得越来越像一个真正的人脸,来增强神经网络的 response。当然这里还有许多其他的问题,比如神经网络觉得最“像”人脸的图像,并不一定是人类觉得最“像”人脸的图像,因为人脑和神经网络机制的不同;甚至是针对神经网络的 activation maximization 得到的结果可能对人来说并不 make sense;以及 Gradient Descent 算法有可能陷入一个 local minimum 而没有得到最优解等等。

为了让生成出来的图片看起来更加有趣一点,在 DeepDream 算法中并不是单单对原图进行 activation maximization 的增强,而是一个递归的多步增强过程。简单地来说,如果“增强”是一个通过 Gradient Descent 对输入图像进行 activation maximization 的子函数,那么 DeepDream 算法先将图片缩小到不同的 scale,然后从最小的缩略图开始,调用“增强”子函数进行增强,将结果放大一级,和稍大一级的缩略图通过半透明的方式 blend 到一起,然后再以此为输入再调用“增强”子函数,如此反复直到最大的原来的图像的尺寸。不同大小的缩略图可以让算法 focus 在不同 scale 的 visual feature 上,使得最终结果中有不同 scale 的 hallucination。有点密集恐惧症,不过是不是也和 Klimt 的平面 decoration 风格有些类似呢?

不过为了避免麻烦我就直接找了 Wikipedia 上的图做例子,网上还可以找到其他一些更有趣的 DeepDream 的例子,有一些示例是以一张蓝天白云为基础图片,然后效果好的 visualization 中可以看到神经网络把不同形状的云当成了猫啊狗啊之类的……是不是自己有时候也会玩类似的游戏呢?😛 除了 Google 原始的代码之外,网上还能找到许多其他的实现和 ipython notebook 的示例,有兴趣的同学可以去玩一玩,另外 distill.pub 上还有一篇相关内容的讨论,可以看一看。

ps: Inceptionism 并不是 Neural Style Transfer 哦,不要搞混了。