气和深度学习1:综述

春节假期在国外旅游,看了一篇别人分享的一篇文章和两本书。

文章是《扬.克里克:前往人工智能的未来,要先回到中国的历史》

书是:

《Fundamentals of Deep Learning (Nikhil Buduma)》

《Chinese Philosophy: An Introduction (Ronnie L. Littlejohn)》

有不少想法,所以,我想通过这个系列几篇文档把这些想法整理一下。

首先说一些泛泛的想法,首先是,我有个感觉,文化真的是无法翻译的,那本《Chinese Philosophy》我感觉已经对很多中文经典的语义表达得非常接近了,但我几乎可以肯定,看那本书的外国人,根本不知道这是在说什么。

这里面有个很大的问题,是词语的多义性。我们说“天地”,可不是说“Heaven and Earth”。我们的天地,不仅仅表示天空和土地,它还表示天地中间的万物。而且如果加上天地人,它还表示我们关注的三极。这就是所谓语义的内涵和外延,每个词语表示的意思不仅仅是那个语义本身的意思。反过来,英语中说Heaven,对应的可不是Earth,它常常还对应Hell。Heaven是The place where God lives and where good people go after they die。

你说这种外延你怎么翻译?

所以,哲学要翻译不是不可能,但必须重建语言空间,基于对应的文化来翻译才有可能,我也能给我印度和英国的朋友解释什么是道德经,但原句翻译只是胡猜。

反过来也是一样的,优美的英语无法直接翻译为中文。下面是《傲慢与偏见》国内版本的第一句:

有钱的单身汉总要娶位太太,这是一条举世公认的真理。

看完这句话我看下去的信心就受到打击了,这种胡言乱语完全打动不了我。

然后你再看看英文版:

It is a truth universally acknowledged, that a single man in possession of a good fortune must be in want of a wife.

英国人那种尖酸刻薄跃然纸上。

中国人说“一条举世公认的真理”,是严肃的,正经的。但英国人说a truth universally acknowledged,是过度的,夸张的,明显不正经的。中国人说单身汉,大部分时候指缺乏势力的,一个吃饱,全家不饿的。英国人说一个single man in possession of a good fortune,说的可不是这个意思,这说的是“一个有钱人,但他为大家提供了一个机会,那就是成为他的老婆,就可以拿到他的地位和钱”。所以这句话的重点不是“单身汉有钱了想要找老婆”,而是“这个有钱佬居然没有结婚!机会啊,机会!”

如果仅仅从表面的语义上说,这里的中文翻译没有任何问题,但它基本上丢失原文的全部感觉。

这是我想说的第一个感想:各位做软件的同行,还有即将的同行们,好好学好英语是正道啊。现代工业文化,在几十年间,很大程度上都被聚焦到美国了,重要的知识都是用英语表述的,被翻译过的书籍折损率很高的,这种捷径选不得的。

在我看这本《Fundamentals of Deep Learning》之前,我其实看过相当不少的国内翻译的,或者国内专家写的关于深度学习的介绍和教材的。反正我只是懂了一点点“事实”和“表象”,根本没有搞清楚深度学习本质是什么。但这本书很短时间内就给我把事情说得相当清楚了。那种举重若轻的能力,是大部分国内能看到的书没有办法比的。所以,真心要学东西,还是多逛逛Google图书,整个环境和文化背景不同,两者的层次还是很不一样的。我毫不怀疑,再经过几十年的技术冲刷,我们也会产生同级别的大师和“小师”,毕竟知识还是来自实践,但显然不是现在。

这里准备写3到5篇博文,总结一下,我现在理解到的Deep Learning是什么。


在本文开始的时候,我提到《扬.克里克:前往人工智能的未来,要先回到中国的历史》,我倒不是要推荐这个文章。这种标题,总能让我想到某种陷阱:“中国人看了以为外国人崇尚中国文化,外国人看了觉得中国文化真是土鳖”。纠缠在这种“他看不看得起我”的名上,本身就是土鳖行为。

我提到这个文章,是要指出里面一个大部分人都会误会的对中国文化概念的错误理解,这就是气。

什么是“气”?

“气”是一种天地能量,驱动着这个世界的发展?你这样理解,就表示你完全不明白中国文化,不明白“有拱璧而先驷马,不如坐进此道”的道理。

看下面这条线:

现在把它修改一下:

你还能看到那条线吗?实际上,你能。你脑子里可以补出那根线来。这中间断掉的,就是“气”。

这里面有“能量”吗?

这和能量毫无关系,这是Pattern!

为什么你认为它是能量?因为你想得到它,控制它,改变它。你希望“吸收天地灵气”,然后来个“龟-波-气-功——Bong!”

所以你不明白为什么中国哲学是一种“自然哲学”(Ontology)。自然之道,不是拥有,不是改变,而是顺应和利用,是和它合一。

我们的“天地”变成现在这个样子,不是有外部的“气”在牵引着它,而是组成天地的每个实体都拥有自己的能量,它们综合作用形成现在的样子,这些样子里面有Pattern,我们发现了这个Pattern,这是“气”。“气”不需要理由,因为“理由”(就算它存在),背后也是复杂度——我们只知道它是这样的,但我们不知道为什么。“气”不在万物之外,“气”是万物本身(的Pattern)。

这是气的道理。

也是深度学习的道理。

我们来看看下面这个成绩表:

你能看出什么东西来吗?你从这里最多能找你家儿子及格了没有。

我们从这个角度来看呢?:

这些图我都用抽取其中两个维度作为横坐标和纵坐标绘制的(当然,大部分简单学过统计都知道这是“散点图”),从这些点的聚集,我们可以看到这个班这次考试的特点:平时成绩好的,考试也成绩好。男同学比女同学多,最好成绩,最差成绩的都是男同学,女生都在平均的位置。动手能力也具有相关性,考试成绩好的,实验成绩也好。

为什么会这样?你当然可以找理由,但我们不关心,我们首先认知的是:它呈现这样的“特征”。既然它现在呈现这样的特征,它的下一次发生,“很可能”也呈现这样的特征,至于为什么?那是另一个话题,我们首先关心这个可能性,我们不那么关心那个“为什么”。

这是个很有趣的事情,信息在某个大小,和提取的情况下,才呈现出特征来。《上帝掷骰子吗》里面举过一个类似的例子,大概是这样的:

下面这美女长得怎么样:

你根本不知道。

放大一点呢?

你可能觉得不错(网上随便下的图,侵删)。

再放大呢?:

我不知道你怎么看。

但特征只在特定的大小和角度上呈现的。


这是我们形成思考的基本方式,我们不是基于“逻辑”来思考的,我们是基于特征来思考的。我们再看一个简单的例子:加入我们“关注”了这个时间的某个现象。这个现象我们“感觉”和三个“原因”相关,我们把这个现象表达为一个方程q=f(x,y,z),我们看着它的发生,我们要猜它的规律,这个过程可能是这样的:

第一次经验:f(1,2,3)=14:按人的一般线性思维,他自然用线性逼近,认为f(x,y,z)=ax+by+cz。所以——啊,知道了,(a,b,c)=(7,2,1),(基本上是胡诌,没有经验嘛)

第二次经验:f(3,2,1)=10:啊,看起来把a弄得太大了,缩一下吧,(a,b,c)=(2,3,2)

第三次经验:f(1,1,1)=6:看来还是不太好,再来调整一下?(a,b,c)=(1,2,3),完美

如果后面再发生一万次经验,都和这个经验一致,那我们就认为这个规律是这样的了。第一万零一次不是呢?——啊,那是“例外”,例外很多怎么办?那就接近就可以了,这叫线性回归:

这样,我们对这个世界的理解就可以简单用截矩和斜率来解释了,虽然有偏差,但大部分时候是“接近正确”的,背后是否有确定性的因素在左右着?也许吧,但我们不Care,没有确定饭的卡路里含量难道就不吃饭了?差不多就行啦。

当然,规律不总是线性的,聚焦就好了,它还可以是这样的:

这是聚集到一个点了。

或者更复杂是这样的:

这就需要更复杂的参数来做“归纳”了。

我们很自然可以发现,参数越多,逼近得越好。那么,有没有一种万能的逼近方法,通过这种方法来逼近更多的Pattern呢?

啊,那就是现在炒得热火朝天的神经网络了,它的具体原理我们下一篇讨论,我们先简单理解:神经网络是用成千上万个参数来逼近高维空间中的大量的(几百万之类的)的点,尝试逼近出一种模式来。

我们先不讨论这种逼近算法的方法和效果。我们回到最基本的问题上来:

首先,我们一直以为,思维的本质是逻辑,是严格的,但从前面的讨论看来,人的思维似乎并非如此,严格的逻辑思维只是我们很多非严格思维的精华,但就如同吃饭,我们吃的大部分不是“精华”,只吃“精华”你只会营养不良。我们过去对智能的理解是错误的,智能大部分不是逻辑,而是Pattern。

而且,很多Pattern还被冠以“逻辑”之名。就好比我在这里写的一堆文档,说得似乎头头是道,其实我只是把几个现实强行用逻辑关联在一起而已,等更多的点进来训练我,这些逻辑就变了。

第二,我们以为“认识”,是了解一个事物的“本质”,但从这里的讨论,我们发现,认识并非了解事物的本质,而是通过忽略某些数据,从而从数据中提取出Pattern来。然后拿Pattern来做逻辑思维的判断。

那么,我们提取参数的不同,就会获得完全不同的判断。所以神经网络中层数和算法仅仅决定了逼近的精确度,真正决定能否提取成功的是选取的训练参数(要素)和分辨率——我们能否把那张照片放大或者缩小到可以提取出模型来那个大小,才是事情成败的关键。

就好比我这个文档:PCIE总线的地址问题,里面的信息大部分都是PCIE中的,都已经存在的东西,再写一个有什么意义?——实际上是有意义的,因为它提取了一个Pattern,得到了其中一个“特征”,“学习”,大部分时候就这么回事,如果什么都吸取进来的话,特征就不存在了。这个观察很重要,这是虚弱的机器学习(如果用CNN对比人脑的话)的意义所在,人的脑子虽然牛,但它的输入是被视听触感所限制的,输入被限制,能提取的Pattern也被限制了,而机器学习大大扩展了这个范围。

同一份知识,换一个参数提取Pattern,会得到完全不同的东西。


你知道吧,这两个“认识”,让我相当不爽——老子半辈子制造和研究“逻辑”(写程序嘛),到头来,我们新兴的技术是一种“不要逻辑”的技术。它强调的是“试”,“感觉”,“灵光一闪”,“经验”,“调整”……这些它么没有脑子的,缺乏逻辑的,神神兜兜的,缺乏共性的,却极耗算力的玩意儿……


好了,现在我们最后来谈谈“气”这个问题。我前面简单的归纳,说“气”其实是个Pattern,这说起来仿佛是这样的:我们人的思考,是一个神经网络(比人工神经网络复杂得多的神经网络),但我们的理智,仅仅是神经网络的输出,但神经网络的中间,有一组很大的参数,在控制着我们每波经验的实际输出过程,这形成了一组非理智的“感觉”,这种感觉里面,也有Pattern,会改变我们的实际决策,所以,知识,除了有“理智的,有逻辑的知识”,还有“感性的,无逻辑的知识”,这种知识,同样在左右我们的最终决策。


而基于气的思维,更接近传统中国哲学,而基于逻辑的思维,更接近“现代思维”——我这里不用“西方思维”,原因是其实一直以来,就算没有其他思维的侵入,我们也不断尝试用逻辑思维来考虑问题。逻辑思维的直观性很好,人类思维在发展后,会越来越趋向于使用这种思维,但这种思维不是万能的。这里面有一个“有-无”之辩在里面。

设想一下,你有一群人,要排队过关,一个接一个,这时效率是最高的。这时,突然来了一个旅行团,10个人,导游过来说,“大家行行好,我们的飞机马上就要起飞了,让我们先去吧”,这没有问题,让他们插个队,这个事情仍可以维持高效。但后面一位大爷出来说了,“你们这样搞不行,我也快要迟到了,本来还好,他们这么一插队,我怎么办?事情总要讲个先来后到吧?”,导游说,“你跟我说,先来后到?刚才上电梯的时候不是你插队,让我们一个团友多等了3趟,我们也不会现在才到”。旁边一个女士不答应了:“你那个团友多等也不能怪旁人,如果不是他有狐臭,大家都不想他进那个电梯,怎么会有这么件事?”

“对于狐臭这个问题,我们要来谈谈契约社会的问题了……”

“……”

“你的这个问题,我们要从明朝时候,我太爷爷的一个夜壶说起……”

看到没有?关注逻辑的缺陷在于,逻辑是无穷无尽的,如果深究逻辑,就可能什么都得不到。而“气”一说,是说,在设定目标以后,我要用我已有的训练模型,直接找一个模式出来,这个模式不一定对,但它是“存在模式”的。深度学习的关键也在这里,它不强求逻辑,它求的是某种维度下的模式。以及这种模式和目标的关系。

对于这个问题,这里有一个更好的例子:道德经讲了什么?为什么它广受推崇?,请参考文末的第三个补充注释。

编辑于 2018-03-07

文章被以下专栏收录