在哥本哈根的丹麦国家艺术画廊里有这么一个小楼梯,路标箭头写着“超现实主义”,仿佛在挑战你的胆量。我不禁在想,是否这个路标本身也是一件现代艺术作品?

对于现代艺术,大概跟我一样对其非常纠结的人不算少数。如果不小心去了一个现代艺术博物馆,也必须得小心翼翼地分辨哪些是真正的艺术品哪些是工作人员临时摆在那里的杂物。时不时会在社交网络上传播的“尝试区分抽象艺术作品和五岁小孩的涂鸦”的挑战游戏,据说连许多专业人员也碰到了困难(反正我是只能随机猜)。我有一阵子甚至认真在互联网上搜索了一下,整个现代艺术行业是不是基于明星效应进行吹捧和运作的一个社会大阴谋,或者甚至是某种洗钱的工具之类的……不过并没有找到什么类似的阴谋论。

那为什么要写这篇博客呢?莫非是某个特殊的宇宙射线击中了我的脑袋,让我某天突然茅塞顿开,理解了现代艺术?当然不是,实际上我现在依然对于现代艺术、当代艺术、抽象艺术、后现代艺术这些是傻傻分不清的。不过去年暑假的时候一位友人向我推荐了两本书。出自于同一个作者 Eric Kandel,他在 2000 年基于在神经元的记忆机制方面的研究成果获得诺贝尔生理学·医学奖。两本书分别是 2012 年出版的《The Age of Insight: The Quest to Understand the Unconscious in Art, Mind, and Brain, from Vienna 1900 to the Present》和 2016 年出版的《Reductionism in Art and Brain Science: Bridging the Two Cultures》。

对现代艺术比较有了解的同学可能能认出两本书的封面分别是 Gustav KlimtMark Rothko 的代表作。看完了这两本书之后我也具有了这样的技能(认出这两幅画),但是真正对于现代艺术的理解,却还是有点无力。不过我觉得这两本书提出了一个非常有趣的视角,就是艺术与认知科学之间的联系;虽然并没有一下子打通我的任督二脉,让我彻底理解了现代艺术,但是让我找到了一些着力点,帮助我去思考现代艺术乃至于更加 general 的艺术本身。所以在希望写这篇博客来介绍着两本书,同时借题展开,聊一些我自己的想法。现代艺术现在已经发展到包罗万象,比如这罐价值约三十万欧元的艺术家的屎,不过我们这里只限于讨论绘画艺术,或者说 visual arts。

首先简单介绍一下两本书的主要内容:大致来讲,两本书覆盖的话题是比较类似的,都是讲艺术和脑科学、认知科学的关系,两本书最明显的区别就是它们 focus 在不同的地域:《Insight》主要集中在维也纳的表现主义艺术学派,以及差不多时期那里的心理学、医学方面的发展;而《Reductionism》则主要集中讲发源于纽约抽象表现主义艺术学派。

两本书都可以当做是(书中讲到的阶段的)简短艺术史和相关的心理学、认知科学和神经科学的一个 survey,以及科学和艺术之间的对话的一个总结。虽然该阶段的艺术的发展关系被理得很顺,但是我想两本书的大部分内容其实是关于科学的(毕竟作者是科学家)。其中第一本书更厚内容更详实,大致分为三个部分:

  1. 心理学部分:又细分为精神分析学(例如弗洛伊德和他关于潜意识的研究)和认知心理学(关于 attention、记忆、视觉等认知模块的心理学研究)两个部分。
  2. 生物学部分:大致又分为主要集中在 Perception 的神经系统和主要集中在 Emotion 的内分泌系统两个部分。
  3. 艺术和科学之间的对话。

关于艺术和艺术史的介绍则杂糅在心理学和生物学的 survey 之中。而第二本书大约只有前一本三分之一的页数,但是内容相对更新一些,比如之前有一阵子刷爆朋友圈的“白金裙子和蓝黑裙子之争”也有提及(以下图片来自 wikipedia)。

第二本书的结构也很简单:分别 survey 了脑科学和艺术中的 reductionism,最后再总结式地讲了科学和艺术之间的对话。

The Beholder’s Share

虽然两本书讨论的主题有点不太一样,但是我觉得贯穿两本书的观点的有一个基本思想就是所谓的 the beholder’s share。奥地利的艺术史学家 Alois Riegl 最早提出这个概念,后来由 Ernst Gombrich 加以阐释并冠以这个名称(Gombrich 有一本很经典的书《Art and Illusion, A Study in the Psychology of Pictorial Representation》,不过我还没看过)。

对于绘画来说,这里的 Beholder 就是只看画的“观众”,而 the beholder’s share 的中心思想是:一幅画必须要在观众的参与之下才能成为一件完整的艺术品。

Art is incomplete without the perceptual and emotional involvement of the viewer.

脑洞大开

The beholder’s share 的概念的提出反应了我们对自己的大脑的视觉和认知系统的逐渐了解:实际上,我们的视觉系统要完成的任务充满了各种 ambiguity,但是我们大脑强大的脑补功能帮助我们解决了这些 ambiguity。这里我先插一张看似由随机色块组成的图,你可以先猜一猜这个图里显示的是什么东西,我们在本文末尾会再回过来讲它。

Peripheral Vision

最简单的一个脑补功能就是“粘贴全景图”:现在的手机大都有这样的功能,慢慢移动手机摄像头,系统自动拍摄出很多张照片并拼贴在一起形成一个全景图。其实人的视觉系统也在做类似的事情。我们虽然看不到背后,但是正面的视觉范围感觉上是覆盖了整个 180° (完爆各种超广角相机镜头),但这个“感觉”实际上是我们的视觉系统在偷梁换柱。人眼的真正高分辨率视觉其实只有在中央的很小的一块。人眼视域正中大约 5° 的范围称为 fovea,而边缘的则是 peripheral vision。在边缘视觉区域内我们不仅对颜色的辨识几乎完全丧失,而且灰度图像的分辨率也很低。但是我们平时并没有为这一点困扰,是因为大脑通过不断地移动注视方向快速地获取不同区域的信息,并将它“缓存”起来,“粘贴”成一幅完整的图像,让我们觉得好像是同时看到了全景。一个简单的实验是固定一个点作为一个凝视中心,然后集中注意力不要移动你的眼球,再把手机或者什么其他东西放在你的斜对面,看自己是否能识别出来手机屏幕里现实的具体内容。

视觉系统进化出这样的功能很大程度上应该是去适应了我们所处的物理世界的时空连续性:因为处在某一个位置的某一个物体通常不会在很短的时间内突然消失或者变成完全不一样的颜色、形状之类的,同时我们的人眼会自动地被吸引到快速发生变化的区域,去及时更新“缓存”。至于为什么不直接对全视域进行高分辨率采集,也许可能是那样能耗太大,亦或者是那样信息量太大大脑处理不过来,或者大脑为了处理那样级别的信息量能耗太大、存储功能不够等等,另一方面在我们自然界中其他动物身上其实有各种各样风格的眼睛和视觉系统……

不过反过来,人眼和“拼贴全景图”也有几个重要的区别。首先人眼并不是像相机那样视域本身比较窄,其实人眼是很广角的“镜头”,只是在边缘视域的分辨率等各方面性能指标都特别低,大部分时候都没有足够的信息量来识别出具体是什么内容,这个时候就需要靠之前扫描留下的“缓存”;而更重要的一个区别是人眼并不会采用诸如规律地“逐行扫描”这样的方法来对全视域进行地毯式采样,而是只会去关注一小部分“值得关注的地方”,也就是叫做 focal point。我们前面说了人眼会自动被吸引到快速变化的区域,这大概是进化中为了能看到突然跳出来的野兽而获得的技能;同时为了能够更好地 social,我们也进化出了会自动对视域中的人脸进行关注的技能,等等……这些信息不仅在科学研究中很有用,在诸如绘画、摄影等 visual arts 中如何能够做出 visually powerful 的作品也很有用。(下图是来自 wikipedia 的 Yarbus (1967) 的人眼移动的 tracking 实验结果示意)

但是这样一来,对于“不重要的”区域,我们就没有了过去“扫描”过的“缓存”,只能靠很低分辨率的信息来强行识别,这个时候可能大脑会运用 long term memory,比如你自己的房间里各个物品通常都是怎样摆设的,或者运用一些 heuristics,根据上下文进行推测,当然最有可能的大概还是直接忽略,“不用在意,反正对生活影响不大”,如果真的很在意,移动一下眼球看一看就行了呀。不过这里有一个 tricky 的点在于,视觉系统明明偷懒了,但是却给我们一种“一切都在掌握之中”的错觉。

The Invisible Gorilla

事实上,我们在视觉系统的“虚张声势”中错过的信息是非常多的,即使之前“扫描”过的“缓存”信息其实也非常不靠谱。关于这个现象,历史上已经有很多的研究,并且有很多很有意思的实验,其中最著名的一个大概就是 the invisible gorilla 的实验了,在这个页面可以找到这个实验的各种版本的视频,和一些相关的实验的视频。这里我就不对这个实验的细节做详细介绍了,因为如果你之前没有看过的话,剧透之后实验有可能就会失效。

在该页面下方的一些视频里是一些比较弱化一点的实验,即使剧透之后通常也很难注意到。实际上我们在网上有时候会看到一些电影穿帮镜头截图,比如明明是古装剧,演员却戴着手表之类的。实际上绝大部分人在看的时候可能都不会注意到这样的细节,并且电影拍摄中大量利用了人的视觉系统的这方面的“弱点”,因为我们都知道电影是一幕一幕地拍摄然后剪辑起来的,有时候连续的两个镜头可能拍摄时间甚至相隔了几个月,如果每次拍摄都要完美地还原所有道具、化妆、位置等各种细节,基本上是不可能做到的,但是好处在于对于大部分“无关紧要”的细节,人的视觉系统几乎完全不会注意到前后的区别。而上面提到的 The Invisible Gorilla 页面下方的 movie perception test 则具体地演示了这个效果。关于这一点我最喜欢的一个例子来自一个叫做 Test Your Awareness : Whodunnit? 的 Youtube 视频,强烈推荐(在 Awareness Test 的页面还收集了一些其他相关的测试视频)。

The Sensing of Depth

由于我们生活在一个三维的物理世界里,所以从(平面)视觉图像中获取第三维的深度信息是很重要的一项技能(比如在无人驾驶车里我们就需要感知周围的车辆和物体到底距离有多远)。通常认为人的视觉系统基于双目视觉进行深度感知(并且效果很好)。双目视觉深度感知的基本原理如下图(来自 Wikipedia):

非常粗略地来讲,由于两只眼睛的位置差别,感知到的两张二维图片中内容的位置会有细微差别,通过对比两张图片中对应点的位置差可以对深度信息进行推算。但事实上,人眼的深度感知并不十分精确,并且其实基于双目视觉的深度感知只在比较有限的距离内比较有效,《Age of Insight》中提到:

In fact, at a distance of more than twenty feet(注:约 6 米), the images seen by the retina of each eye, though separated a small distance by the nose, are essentially the same. As a result, viewing an object at such a distance is equivalent to viewing it with one eye.

因此距离远一点的深度感知还是靠“脑补”。有一个简单有趣的实验,放一个水瓶或者其他什么瘦高的物体在面前(手能够着的地方),最好是闭着眼睛放,以免自己大脑“缓存”住这个水瓶的位置。然后只睁开一只眼睛,这个时候尝试精准地用一个手指去摸瓶的顶部,会出现下手太靠前或者靠后的情况;但是如果同时睁开两只眼睛,就不会有任何障碍。这证明了我们在近处确实依赖于双目视觉来感知深度信息。但是反过来,对于远处的场景,我们闭上一只眼睛的情况下估算深度完全没有任何障碍,并不会突然搞不清楚远处的山和房子之间的先后顺序,此外,我们在观看纸上或者显示器上的照片的时候,也很容易能够辨认出深度信息并进行单图三维重建的脑补过程。

事实上,在历史中画家们已经对人脑对深度感知和三维重建的过程中使用的主要的一些 heuristics 有了一个比较完整的认识,因为特别是在西方的学院派绘画中,表现精确的三维场景是一个重要的元素。因此对于人脑如何 interpret 深度信息的知识,就有助于艺术家们创作出看起来更加“真实”的绘画。在 wikipedia 的 Depth perception 页面有一个详细的列表,这里我们简单介绍一下绘画里常用的一些深度感知暗示。

Aerial perspective(空气透视):由于空气的散射,远处的物体看起来会和近处不一样:远处对比度饱和度会比近处小,颜色会有点偏蓝,例如下面这张来自于Unsplash的照片。

物体相对大小对照:近大远小是一个最基本的光学原理,人脑会自动选取相似的物体,然后根据他们的相对大小来获取它们的相对深度信息。例如这幅来自于 Craig Mullins 的画中,我们看到很多重复的“物体”,也就是人,根据他们的相对大小,大脑很容易就猜出深度信息,此外,大脑在寻找“相似物体”的模式匹配的过程中其实也非常 agressive 地在进行主观脑补,比如如果你盖住画面下半部分的话,“远处”那些人其实几乎分辨不出是人还是草或者是其他什么东西,但是当我们大脑在识别出画面下方有详细细节的人之后,就会自动地把后面那些看着差不多的色块也当做人(通常在绘画中有大量重复元素,比如花、人之类的时候,将 focal point 处描绘出细节,而其他则只留一些刚好让大脑能够脑补出来的 visual cue,会比把所有细节都画出来的情况更加 visually appealing)。

在运用相对大小的时候,除了同一张图中有重复的物体之外,我们还熟练掌握了一些常见物体的大小,比如我们大概知道一个人是多大,一个普通房子是多大,一棵正常的树大概有多高等等,这个时候就不需要专门的重复物体我们也能对相对尺寸进行估计。所以有时候在拍摄风景照片时有时在场景中包括进人等熟悉的物体会更容易传达场景的尺寸一些:例如下面这张来自于 Unsplash 的关于冰川的照片。

此外,在绘画和照片中都同样经常被用到的还有一个明显的暗示就是线性透视,例如刚才那幅 Craig Mullins 的绘画中屋子边缘行程的线条,逐渐交汇到远处的 vanishing point,这是非常强的三维深度暗示。

The Sensing of Human (Faces)

在上面这张照片中可以看到,即使是小到差不多只剩几个像素,我们也能够很容易地找到视域中的人。对于人、特别是人脸的特殊的定位、识别和跟踪技巧,大概是人类在进化的过程中为了更有效地实现社会化的组织而发展和强化出来的能力。

我们对于人脸和人体高效的跟踪、识别一定程度上是通过牺牲精确度来得到的(在 ROC curve 上取了很偏的一个点),这一点主要体现在“草木皆兵”这个成语上。简单来讲我们很容易把各种其实不是人脸的东西认成人脸,比如意大利画家 Giuseppe Arcimboldo 的这幅画:

我们几乎一下子就能看出这是一张人脸,虽然它其实只是一些摆成特定模样的水果。类似的情况还很多,由于我们对“人脸”这个概念的宽容程度,导致在相关的艺术创作上可以有非常大的自由,比如日本漫画、动漫中的人脸造型,认真来讲,不止几乎完全缺失了 3D 信息(日本漫画风格主要基于描线),而且五官各方面也经常在比例或者位置方面变得非常夸张。比如下面这张来自于一拳超人漫画原画的图,虽然看着不是很美观,但是我们并没有任何困难辨认出里面的人脸。

总的来说,我们大脑在脑补关于我们自己(人和人脸)的脑补能力达到了超强水平,在寥寥几笔线条的暗示下就能让我们识别出一张完整的人脸来。在《Reductionism》一书里还提到了另一个例子,来自于 Thomas D. Albright 2012 年的论文 ON THE PERCEPTION OF PROBABLE THINGS。其中的一张图就是我们在前面的“脑洞大开”一小节的开头显示的那张看起来像随机色块的图。那张图的“清楚”版本是下面这个:1

这里我们可以清楚地辨认出一个人脸。而论文中讲述的有趣的点在于,(如果你之前没有辨认出前面的图中的随机 patern 是一张人脸的话)在看过这张图之后,你再回过去看之前那张图,发现就能立刻认出是一张人脸了,不仅如此,这个过程似乎是不可逆的,你再也无法将它“看成”是一堆随机的色块了,在看到这里这张图的一瞬间,相当于你的大脑神经网络的某一部分就已经被永久性地修改了,从此以后你再看到之前的那张图都会立刻认出是人脸来。

这里我们再做一个简单的小实验,把原来那张图黑白反色一下。如下图所示,可以看到,即使在看过“清楚”版本的图之后,下面这张反色过后的图(和反色之前的图相比)还是比较难辨认的。即使我们能勉强辨认出人脸的形状,在反色之前的图中,我们甚至能清楚辨认出脸部的三维结构,比如凸起的鼻梁和颧骨,凹陷的眼窝之类的,而在下面这张图中我们则几乎完全 parse 不出三维结构来——即使在辨认出人脸的情况下。

关于这一点的一个解释同样来自于人在进行三维重建时使用的一个 hint,或者叫做 prior knowledge,因为我们生活在地球上,头顶上的太阳在绝大部分时期都是我们的主要光源(特别是考虑到人造光源的发明在人类进化的历史上是非常短暂的一个时间段),因此我们最常见到的情况是物体朝上的面是亮面,而朝下的面是阴影。于是在反色之前的图中虽然只有简单的色块,但是由于阴影的位置和形状比较符合预期,我们毫不费劲地(强行)进行了三维重建,但是在这里这张图中黑白反过来之后很不符合我们的直觉,于是出现了 parsing 困难(为什么在黑暗中从下巴用手电筒把脸照亮看起来很可怕也是类似的原因)。

脑洞与 Beholder’s Share

再这样一条一条地介绍下去可能永远也说不完,在这里讲了这么多其实主要是为了展示一下我们功能丰富的脑洞,而中心思想在于:人类的 perception 并不是一个简单的 Convolutional Neural Network 那样的一路 feedforward,抽取特征、模板匹配,最终对物体进行分类的一个过程,而是涉及到很多 feedback 的因素,将大脑的其他很多部分牵涉进来,比如上面这个人脸随机 pattern 的图的例子就说明了“记忆”在其中所起的作用,不论是在漫长的人类进化过程中积累起来的 prior knowledge,还是我们个人在成长过程中所经历的事情,都会直接或者间接地影响到我们 perception 的结果。在本文介绍的两本书中甚至还有更 agreesive 的观点认为:feedback 并不是 feedforward 的辅助,而是反过来,人的 perception 在很多时候实际上是一个 hypothesis testing 的过程,人脑形成一个个的 hypothesis,然后再主动去在当前的 visual inputs 中进行模式匹配,验证 hypothesis 是否是合理的。

Hypothesis testing 的 formulation 有一个好处就是避开了 visual recognition 或者 3D reconstruction、depth sensing 这些问题中的 intrinsic ambiguity。根据一个 2D 图像重建 3D 场景,可能会有无穷多可能的解。但是如果反过来,先构造一个 3D 场景的 hypothesis,再去验证当前的 2D 输入是否是这个 3D 场景的一个投影就变成了一个简单的唯一解问题。当然 hypothesis 的构造会依赖于当前的输入,但是可能也会很大程度地依赖于当下的 context、情绪、过去的经历等等各种因素。之前的人眼 attention 和 invisible gorilla 的例子算是一个正面支持的证据:因为我们的视觉系统并不会去处理视域里看得到的所有内容,而是在形成一个 hypothesis 之后重点关注 relevant 的部分(去尝试验证 hypothesis 的正确性),而其他绝大部分(我们认为和当前的 hypothesis 不相关的)信息是被丢弃的。上面的人脸随机色块的例子也在一定程度上是支持这样的观点的,在看到清楚版本之后我们形成了一个人脸的 hypothesis,再去看原来的图的时候就立刻匹配上了这个 hypothesis,而再难以将它看成随机色块了。还有一些例子我们可能可以在一定程度上控制自己的大脑选择哪个 hypothesis,比如很有名的一个动图就是一个在旋转的人,有些人看起来她是在向左转,有些人看起来她在向右转,而有些人可以在两种模式中自由地切换。

这样,再回到 the beholder’s share 的话,就不难理解我们一开始的那一句 quote 中提到的,(visual) arts 在没有观众的(perceptual and emotional)参与的情况下是不完整的了。一件艺术品,即使是最写实风格的绘画,也仅仅是三维世界的一个二维投影;即便是有完整三维信息的雕塑,也丢失了真实世界的材质等各种信息;而甚至是最高清的三维虚拟现实渲染,在进入我们大脑的路上也会经过眼睛这个二维化投影的 bottleneck;总而言之,viewer 在欣赏这样一件艺术品的过程中都会体验到 ambiguity,并引入自己的脑补才能 interpret,只是从写实到抽象,不同风格的作品其 ambiguity 的程度不一, viewer 本身脑补的参与程度也会不同。假设一件艺术品的目的是 artist 和 viewer 之间的一个 communication 的话,那么(在结合了 viewer 的脑补过程之后)这个最终的 interpretation 在 viewer 的大脑中成形的一刻应该可以算是这个 communication 完成的一个标志。

近现代艺术的发展和变革可以说是受到了各方面的冲击和影响,比如摄影技术的出现导致人们开始思考写实以外的风格;精神分析、心理学、认知科学方面的发展让人们开始对于 emotion、subconscious 等相关联的艺术手段感兴趣;而两次世界大战也让艺术家们渐渐开始用艺术去表达“美”以外的其他东西;等等。从结果来看,近现代艺术变得越来越偏离写实,作品开始扭曲、甚至抽象化,作品本身的 ambiguity 不断增加,导致对于 viewer 的参与度要求也不断增加。

从某种意义上来说,夸张扭曲的作品(例如 Egon Schiele 等的 expressionism 画作)和极度简化抽象的作品(例如 Mark RothkoPiet Mondrian 等的 abstract expressionism 画作)都是在寻找人类的 perception 和 emotion 等 system 的 “essential signals”。其实在音乐中我们可以找到一个很正面的例子:除了带有歌词的音乐之外,我们社会中还有大量纯音乐(特别是古典和一些民族音乐),它们是不“存在”于我们的物理世界的完全抽象的东西,但是在很多时候能触发我们强烈的情绪。

又或者,用当下比较流行的词汇来说,这有点类似于在寻找 human perception system 的 (counter-) adversarial example,只是艺术家们既不能对人脑的神经网络进行求导,也无法对人脑进行亿万量级的 query 来做 derivative free optimization,所以,目前的一些现代艺术作品许多人都不太能理解或者完全不为所动,会不会只是因为艺术家在寻找效果更好的抽象或者夸张艺术表现形式的道路上还没有能走到足够远呢?关于这个问题和其他许多相关的话题,我们不妨留到之后的文章中再来讨论好了。