《临界:智能的设计原则》目录和内容提要(购买链接更新)

《临界:智能的设计原则》目录和内容提要(购买链接更新)

大家好。因为各种假期的原因,我的这本盐系列新电子书《临界:智能的设计原则》今天(9 月 30 日)已经上市。欢迎各位朋友捧场购买,与购买这本电子书有关的信息大家可以关注专栏「知乎周刊 - 知乎专栏」稍后的更新,我也会在这篇文章同步更新各种购买方式。

购买链接:

这本电子书的少数章节基于本专栏所发表的文章,大部分的文章是新写的或者基于原来写过的文章重写的。在这本电子书的写作过程中,我请了几位好朋友对本书的内容进行了审读和批评,在此特别感谢曹海元、郭瑞东、田凯文、徐建峰、易子立、赵思家和 Appcell 几位朋友为本书的草稿所提的各种数百条批注或修改意见,尤其是《日常神经科学》的作者赵思家少女,她在百忙之中为本书写了一个远比我更有趣的序言,还给我提出了许多很好的建议。要阅读赵思家为本书写的序,请点击:当物理模型邂逅神经科学 ——《临界》序

这本新书的封面正如题图所示。前几天当我看到新书的封面时,感觉非常激动,于是发了这样一条微博(以及朋友圈):

知乎的设计团队特别厉害!这本书是关于「临界」的,书中第一个自组织临界的例子是沙堆,封面中的沙堆处在一个倒置的光锥里,所以这个封面还意味着来源于历史的信息驱动让系统在未来实现了「临界」——也就是书中所说的「智能」。

事实上,「光锥」在现在被公众所熟知,可能不只是因为 2005 年国际物理年的标志,更多的可能是因为《三体》为光锥做了宣传。遗憾的是,我在朋友圈里说完我对这个封面的解读之后,很多朋友纷纷反应——并看不懂我说了什么,所以我觉得有必要用人类能听懂的语言再次介绍一下这本书的主要内容,以及我对这个封面的理解。

对于光锥的理解,其实《三体》中说得已经很好了。虽然我并没有看过《三体》,但因为这段话的引用实在铺天盖地,相信不少朋友也会很熟悉:

“光的传播沿时间轴呈锥状,物理学家们称为光锥,光锥之外的人不可能了解光锥内部发生的事件。……”

“光锥之内就是命运。”

封面图片的光锥(就是那两个倒立放置的圆锥)标出了一个正方向,那个正方向就是时间的方向,因此那个圆锥意味着「未来」,而上面的那个圆锥意味着「过去」。

好了,知道了光锥是什么,接下来是「沙堆」。沙堆的自组织临界是这本书一开头就有所讨论的内容。在这本书的第二节,我介绍了一个对沙堆模型更简化、更直观的理解。

在各种「单位」办过事情的人一定会对工作人员的各种「这不归我管」记忆犹新,这种官僚主义的推卸责任也是一个「沙堆模型」。把「沙堆模型」用一个充满官僚气息的办公室来描述是物理学家 Peter Grassberger 的原创,一个部门里面有若干办事员,不断有一份一份的文件(沙粒)被送来,当然,真相就是这些办事员从来不会真的办事(所以总文件数不会减少)。对每个办事员而言,如果桌上的文件少于 4 份,他们连动都懒得动,当桌上的文件大于等于四份时,他们终于会动起来,他们把文件交给坐在自己附近的(前后左右共四人)人,让他们代劳……当每个人都这样不断推卸责任时,有可能当一份文件被送过来时,一大片办事员都会站起来,忙着推卸责任,只是因为这样一份小小的文件,甚至可能导致整个部门都忙碌起来——当然,他们并不是去忙于工作,他们只是忙于推卸责任而已。

从这个例子里面可以隐约感受到沙堆模型的神奇之处。随着沙粒不断下落,有时落下一粒沙,沙堆的崩塌仅仅在于局部,但有时一粒沙可能会影响很大一片的区域,就像发生了「雪崩」(avalanches)。大多数情况下,一个沙粒的下落只会影响其附近的格点,然而也会有一定的概率出现极大范围(甚至蔓延整个沙堆)的崩塌现象。在沙堆模型中对崩塌进行统计,会发现崩塌的尺寸服从幂律分布(power law)。幂律分布是大自然中广义的「80-20原则」,即:大量的崩塌只涉及到较小范围内的格点,但存在少量的崩塌可能会是大尺度上的「雪崩」,如果在双对数坐标上画出雪崩规模(雪崩所影响的格点数)的概率分布,会发现所有的点都处在一条直线上。这种幂律分布是自组织临界的一个最明显的统计特征。在本专栏的上一篇文章(《图灵的错误》)中,也介绍到,大脑中的信号发放也与这种「沙堆」或者「雪崩」的性质相似,沙堆和我们的大脑似乎都处在某种「临界」态上。

「临界」是物理学家描述相变的概念,可为什么又说它可能是「智能的设计原则」呢?想象一个简单的例子,一根棍子,如果倒下去,那么它的能量最低,如果棍子「站起来」,这种平衡是一种不稳定平衡。一个受过训练的杂技演员不但可以让棍子保持站立,还可以在棍子上放置各种各样的锅碗瓢盆,这种平衡的实现就是某种「智能」的体现。因为锅碗瓢盆的运动导致棍子会自然地倒向某些方向,棍子一旦倒下,那么他就选择了某个特定的方向——这就是对称破缺。而杂技演员可以用自己的手去抵消掉这些影响,让棍子保持在不发生对称破缺的状态,这种让棍子保持挺立不倒的状态,就是处在临界态,因为这时它有着「最多的可能性」,即它可以往各个方向去倒。如果人的手在大多数时候需要撑在地上,显然很多动作不能通过手来实现,而人类直立行走,让手获得了解放,因此人的手可以尝试做各种事情,这时人类的手有了更多的可能性,因此人类显得更「智能」。在各种游戏中,如果我们自己总能让自己有「最多的可能性」,那么我们很可能可以在游戏中保持优势地位,这时的我们显得非常「智能」。可如果我们自己处于守势,对手很可能能看穿我们下一步会做出怎样的选择,这种时候,我们就是相对不智能的。

我的这本书是从「临界」这个问题出发,讨论复杂系统中的许多问题,尤其是与「智能」有关的一些问题。事实上,从「临界」的角度,已故的物理学家 Per Bak 曾经写过一本《大自然如何工作》,他是自组织临界领域的开创者之一,并且他早就敏锐地发现我们的大脑就像处于临界态的沙堆。我的这本电子书也是从同样的角度切入,幸运的是我有机会看到更多在这一领域不断推进的许许多多新的研究进展。在这本电子书中,几乎所有的主要结论和想法都来自于其他学者的论文或者学术报告,我所做的只是用自己的方式把这些内容串在一起。类似的科普书籍还有很多,例如《复杂》《失控》《混沌》《链接》《爆发》《同步》等等,这些书每一本都尝试着从不同的角度来看这些不同学科中共同关注的问题,我只是想提供一个新的看问题的角度。

本书的前两章分别讨论的是集体智慧和大脑的智能两个不同的问题。其中第一章主要介绍集体智能的设计原则。作为背景,首先简要介绍了临界和幂律的概念,然后介绍了许多自然现象(如森林大火)和社会现象(如恐怖袭击)中的「临界性」。以此为基础,讨论了动物集体行为中「集体智能」的各种现象以及可能的形成原理。接下来,本书的第二章主要讨论与大脑的临界性有关的问题,本书中不但讨论了大脑中神经网络结构与我们的「智能」之间的关系,并且还将这些讨论延伸到了与机器学习和人工智能的有关问题中,简要地分析了大脑的结构与「意识」的产生和人工神经网络算法之间的联系。

本书的后两章主要谈各种应用问题。因为「幂律」正是临界性的一个重要的表现,本书第三章简要介绍了对复杂系统问题进行建模的有关方法,为了让更多的读者对本书的内容产生兴趣,本章尝试从互联网产品设计和推广、社区运营等问题的角度出发进行了一些简单的讨论。而本书的第四章则讨论了一些试图「超越幂律」的时间序列分析方法,尝试从服从幂律分布的时间序列中提取其它有价值的信息,例如对语言、地震等问题中「隐藏的关联」的统计分析、对突变前的预警信号的捕捉等等。这样看起来还是有些抽象,再举个例子吧。我们知道人类的语言会有 Zipf 定律,即我们说话的时候,大部分时候说的是「我,的,这,和,不……」这些常用词,而很少出现「幂律」「临界」这些不常见的词。对语言中词语出现频率进行统计,同样会出现像沙堆一样的幂律分布。类似的,地震也有类似的性质:大的地震极少发生,而小的地震发生概率则很大(Gutenberg-Richter 定律),或许在我们不经意间,我们的脚下曾经都发生了很多次里氏一二级地震了。对地震的分析和对语言的分析方法是否可能有些相互借鉴之处?一篇文章出现了一个罕见词,是否就像突然发生了一场震级剧烈的地震?我们知道现在自然语言处理的发展日新月异,是否我们可以考虑某种对地震的「自然语言处理」?例如当一篇文章提到罕见词「幂律」,这篇文章或许也可能会出现「临界」,这与地震的余震也有某种相似性,我们能否还从幂律分布的一些数据中再挖掘出一些其它信息来?这些就是本书后两章要讨论的内容。


——————————————————————————————————

以下是本书的目录和各节内容提要。

序·赵思家

自序 迷宫的十字路口

第一章 集体智慧和模仿游戏

从沙堆到生命

(一)沙堆的比喻
(二)自组织临界和自相似结构
(三)「临界」和「幂律」
在许多「智能」的系统中,「临界点」可以自发地吸引着那些不处在临界态的系统朝着该点运动,并且一直让系统保持在这样的临界点附近。当系统处在临界态时,常常会出现许多自相似结构,而包含了自指、递归和自相似结构的「无限循环」给人留下了深刻的视觉印象;其中有的符号已经成为了我们流行文化的一部分;这些独特的结构还会让人思考其背后显得有些诡异的逻辑悖论、或者考虑这种迭代背后的数学和物理(相变、湍流等等);更重要的,这些结构还可能暗示了「自指」与「意识」之间的某些联系。

森林大火、恐怖主义和反脆弱

(一)森林大火
(二)恐怖主义的模型
(三)炸裂的临界:爆炸渗流
森林火灾模型⁠也是沙堆模型的一个变体,从森林火灾的规模和概率之间的幂律关系来看,它也是处在「临界」态上的。 在森林大火问题的讨论中,我们已经知道「先放一把火」可能会是降低大规模森林火灾出现概率的重要方法。 在日常生活中,黑天鹅事件常常都在各种各样的网络上发生。网络上的各种事件与森林大火模型相比有更复杂的拓扑结构:森林大火只会从一个位置烧到与之相邻的少数几个位置,而在各种各样的复杂网络的局部一旦出现各种崩溃性的事件,则由网络拓扑结构的不同,可能会造成或大或小的影响。在「看得见的手」的种种调控因素的作用下,我们连「先放一把火」的类似局部调整都很少见到,这种控制策略是理性的吗?

临界的鸟群:集体行为中的临界现象

(一)自驱动粒子群的模拟:Vicsek模型及其它
(二)集体行为中的临界现象
「临界」的特征对生物群体来说有着重要的意义,在草原上迁徙的羊群,天空中飞翔的鸟群,河流中洄游的鱼群都常常会遇到相似的问题,因为捕食者可能会从各个方向靠近来捕猎群体中的某些个体。 生物群体能对外界环境的刺激做出快速的集体反应,这暗示着群体被组织在了某种「团结紧张,严肃活泼」的「临界态 (critical state)」上。

模仿游戏:信息论、进化和集体智慧的起源

(一)模仿游戏
(二)从「模仿游戏」到「机器学习」
(三)对称破缺和 Goldstone 模式
(四)动物的社交网络和集体智能
如果博弈有多人参与,我们并不能期待周围存在一个稳定的环境,而且每个玩家的目标并不相同,当不同的玩家抱持着不同的目标时,互相影响、互相博弈,系统究竟会往什么方向演化呢?对于集体而言,「集体智慧」应该怎样定义呢?是否可能存在一个最优化的状态,从而可以让整个群体变得「最智能」呢?

第二章 临界的大脑

我们真的需要一个临界的大脑吗?

(一)分支过程:图灵的错误
(二)适应性:输入驱动的临界
(三)长程关联和临界的大脑
(四)模块化、层级化和临界性
(五)物理问题、生物问题或是算法问题?
大脑对于复杂环境的适应性是大脑结构的「临界性」的最佳例证。我们的大脑也像鸟群、沙堆,是一直处在临界状态上的。这种「临界性」同样反映了某种稳定性和可塑性的平衡,正是通过这种平衡,我们的大脑才实现了这种适应性。 人类并不是被训练成只能解决某些简单问题的机器,而是能够用同样的一个机器(我们的大脑)尝试去解决各种不同的问题,并且可以通过训练,像机器一样,在某些特殊的方面表现出优秀的能力。 不过下一个问题马上也就又来了,这种临界是怎样形成的?如果大脑需要精确地根据外界的输入调节其分支率才能实现「临界」——正如我们必须非常小心地选择恰当的温度才能让相变停留在转变态附近那样——那么这种临界是怎么维持的?或者,大脑有某种神奇的方法可以比较容易地就达到临界?

意识和机器学习

(一)意识和智能:从「信息整合」到「整合信息」
(二)深度学习:设计临界的大脑?
A. 无监督学习和临界的大脑
B. 监督学习和蛋白质折叠
如果找到了某些特定结构形成的方法,这些方法对于我们理解生物过程以及各种心理学实验是否又可以有些帮助呢?对大脑中结构和连接形成物理机制的研究是否有可能应用于当前迅猛发展的机器学习领域呢? 根据整合信息理论,我们可以把所有的事物都看成是有意识的(或者有智能的),只是「意识」的程度不同,而整合信息 Φ 就是对「意识」的水平的度量。 「整合信息」与「特征提取」二者其实异曲同工,而临界的大脑可能为最强的「整合信息」提供了结构基础。 我们很可能忍不住会思考下面的两个问题:其一,临界的大脑是怎样处理类似无监督学习的问题的;其二,对于那些有监督学习问题,应该怎样设计类似的「半智能」系统——或者,是否存在着其它的一些与机器学习的问题高度相关的优化机制。

第三章 黑客和物理学家

黑客和物理学家

(一)先「建构」、后「理解」
(二)从「本质」到「普适类」
(三)寻求更多的可能性
在我看来,理论物理学家才是更具有黑客精神的人。因为物理学家还常常更进一步——著名的物理学家费曼(Richard Feynman)曾经说过一句著名的话 “What I cannot create, I do not understand⁠”,费曼的这句话的意思其实是说:「如果我们无法从一些(我们已经理解或者假定的)基本事实出发建构一套(用以解决某些问题的)理论,那么我们就无法理解这些问题。」如果这种「建构」是「出于兴趣,解决某个难题」,这种思路其实是极符合黑客精神的。

幂律与互联网产品的「黏性」

(一)将「幂律」设计为 KPI 考核指标
(二)产品的竞争力:层次种群和分层网络
(三)「探索者」与「保守者」
(四)大数据时代的黑客物理学家
我们回到「知乎」,将它作为一个躺枪的实例,来分析「幂律」和一些互联网产品黏性有关的问题。 假如有两个非常类似的网络社区采用了不同的反馈机制,那么这两个社区的用户成长就会完全不同,即使它们有相似的用户总量,但用户的活跃程度以及对社区的黏性也是非常不同的。说到这里,读者马上会想到:刻画「优先连接」幂律的指数可能可以作为一种 KPI (绩效考核指标)。 如果关注于推广和社区的黏性,我们需要的是用户数,而社区的维护不但需要 UV 和 PV,还需要有健康的讨论空间。随着新用户的涌入,在短期内,社区的黏性自然还是存在的,幂律可能也依然很稳定,社区还可以持续成长甚至更快地成长,但对于一个问答社区而言,这却不一定总是一件好事,因为这样的社区依然是热闹的,但对追求高质量的问答社区来说,这却可能造成「生态环境」的破坏,造成高质量用户的流失,对社区的运营而言是很不利的。类似的问题应该怎样建立模型进行简单的分析?

第四章 寻找隐藏的关联

超越幂律

(一)自然语言处理和自关联函数
(二)阵发:重新思考技术面分析
(三)高阶关联和股票的杠杆效应
(四)混沌、噪声和非线性数据的降维
(五)抓住突变前的警戒信号
Zipf 定律⁠或许是最为著名的一个「幂律」。这一定律与人类的语言有关,在各种不同人类语言中,如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的「频率」与它的「排名」也满足幂律的关系。 如果一个语言中各种词不存在关联,那么这对猴子来说将是一个特大喜讯,因为它们有了简单的方法可以敲出莎士比亚,只要保证猴子们敲击按键时按照「莎士比亚式」的词语出现频率随机出现各种单词,那么猴子甚至还有希望创作出新的莎翁作品,可这显然是不太可能的。这些例子都告诉我们,如果要超越幂律,我们需要考虑的「组合」和「顺序」的问题。本节中将介绍许多分析这种「组合」和「顺序」的方法,这些分析中我们可以看到一些有意思的方法,这些方法试图寻求的就是一个时间序列自身内部的关联。

临界性:批评和自我批评

(一)自我批评:物理约束和设计原则
(二)总结:「临界」的几个特征
国外的畅销书常常整本书反复强调一个事实,并为这个事实不断添砖加瓦、添油加醋,最终整本书显得极具说服力。不过当我自己合上这些书的时候,我总会想,似乎情况并不完全如此——例如:一万小时的训练常常可能不能让一个人变成天才,因为他还可能会进行低水平的重复、或者反复挑战远高于自身能力的一些技巧、又或者缺乏正确的训练方法等。考虑到这一点,我想,我的这本电子书应当与此恰恰相反,在介绍完各种有趣的临界现象之后,我想来泼几盆冷水。

后记

编辑于 2015-10-15

文章被以下专栏收录

    本专栏将讨论各种生命现象中的「设计原则(Design Principle)」问题,即讨论那些在进化中可能影响重大的一些「优化」。