脑科学和人工智能的思考

一、脑科学人工智能是AI的未来

很多人认为通用人工智能没有头绪,是遥不可及的事。但是我的观点是脑科学已经有足够多的积累,给我们指引了正确的方向。我们需要做的就是理解大脑工作的本质,将各种零散的科学发现系统地整合起来,实现具有大脑处理信息功能的系统。

1.1 什么是智能?

人工智能的终极目标是实现通用人工智能。大脑是非常神奇的,它是目前已知的可以实现这种“智能”的结构。这就是为什么我们需要借鉴大脑的工作原理来实现通用人工智能。

智能是经常被误解和滥用的概念。“智能”不是快速计算的能力,不是会处理统计的能力,不是会打游戏或下棋的能力,也不是记忆力强的能力。它是大脑处理自然界非标准化信息的过程中的外在体现,也就是说大脑在处理信息的过程中让人觉得“它是有智能的”。大脑的本质就是处理内外部的输入信息,对输入信号进行识别,然后做出相应的反应或输出。处理非标准化信息的能力才体现了个体适应自然界的能力。

1.2 为什么火爆的深度学习并不是真正的AI?

深度学习取得了巨大的成功,但是它并不是真正的“智能”。它取得的成功是有限的,并且正在快速达到了瓶颈。Gary Marcus 说道“深度学习只是一个对样本数据做分类的统计方法”。他在一篇文章中列举了深度学习的10大缺点,我们这里主要关注其中的两点。

1、数据依赖

深度学习需要大量的数据。数据处理占据了一般项目投入的50%以上。即使采用了pre-trained 的模型,还是需要上万的样本数据。在现实生活中,这是非常有问题的。如果一个生物需要重复百万次才能学习一项能力,那么它早就会灭亡了。

2、黑匣子

深度学习网络的参数有超过百万,甚至上亿个,这就导致了几乎没有办法debug这个系统。深度学习系统有时候会给出一些奇怪的结果:比如在停车标志上贴个小的标签,系统就会误认为是一个限速标志;有些奇怪条纹状的图案会被系统认为是企鹅。在关键的应用场景,如自动驾驶、医学影像,我们需要理解系统结论的原因以防止事故的发生。如果我们不知道系统的决策机制,就很难纠正这个问题。

深度学习没有坚实的理论基础。注定了它很难有长期发展,就好像没有坚实的地基,就不可能建造摩天大楼一样。从脑科学的角度来看,深度学习还根本没有触及智能的表面。基于深度学习的AI走得是一条和真正的人工智能背离的路,一条通向死胡同的路。

1.3 什么是脑科学人工智能?

我始终相信现在的深度学习只是一盘小菜,真正有潜力的是基于脑科学的人工智能。什么是“脑科学人工智能”?它指的是将大脑的工作原理应用到AI系统的设计。在这个过程中,我们需要关注的是大脑在信息处理过程中各环节输出的效果,而不是什么特定的神经网络结构。

脑科学人工智能的核心不在于用什么神经网络,而在于信号是如何一步一步处理的:神经网络只是表象,不过是实现信息处理的一种方式。只要我们知道了信息处理的效果,有多种方式都可以实现。大脑的构造已经足够复杂了,关注它的表象只能让事情变得更加复杂。举例来说,在怀特兄弟发明飞机以前,大家都在模仿鸟的解剖结构。但是怀特兄弟抓住了飞行的本质,利用空气动力学实现了飞行的效果。

脑科学人工智能也不是学术界的计算神经生物学(computational neuroscience)。学术界的人通常只是关注某个孤立的问题,主要用途是发文章,实用价值有限。而我们关注的是如何系统范围内将各个脑科学发现有机整合在一起,实现大脑处理信息的效果。

二、正确的科学观:抓住现象的本质

这篇文章的本意是要介绍如何实现人工智能的,但是考虑到这是一个新兴领域,市面上各种观点横飞,鱼龙混杂,伪科学大行其道,很多人都处于懵逼状态。我觉得有必要先从科学方法论方面谈一下自己的观点。

2.1 不要迷信权威

人们通常是对权威是非常尊敬的,甚至有些盲从。当然,如果权威是在他们熟悉的领域发表观点,你可以信任他们。可在专业范围以外,他们基本上就和普通人没有什么两样。在脑科学人工智能领域,现在还没有一个权威,所谓的专家基本上都是处于盲人摸象状态。那些具有光鲜亮丽,炫目头衔的,不管是千人计划或者专家院士或者Jeff Hinton, Demis Hassabis, 或者是Google, facebook or BAT,在这个领域都是门外汉。

大脑的决策机制决定了人通常是具有思维定式的。每个人都有自己的专长,以游戏起家的即使做AI也会从游戏模拟的角度来做,以社交媒体起家的会从社交媒体的角度来做AI。不要指望他们能够跨界做出什么突破性的东西。真正的创新不是靠砸钱和拼人力来实现的,否则排名第一的公司就永远会保持第一。优秀的公司如GE和Intel也在走下坡路,疲态尽显。

创新分0 → 1和 1 → 10。1 → 10创新可以靠投入人力和财力实现,是资源型玩家的游戏,他们适合拿来主义;而0→1才是真正的创新,对所有人都是平等的,不会因为某人有院士头衔而眷顾他,它只会光顾某类有创新精神的人。

经常看到专家们今天在这个论坛,明天那个论坛高谈阔论,畅谈人工智能的趋势,对人类的威胁。这纯粹是杞人忧天,连怎么实现都搞不清楚,以什么样的形态存在都不知道,说得都是些虚头巴脑的东西,没有任何凭据的讨论是没有意义的。

那些认为大脑太复杂需要用量子力学来解释的专家,可以说他们和古代的巫师基本上没有什么两样。在早期的人类社会,社会精英阶层会通过占卜的方式来对国家大事做决策,预测自然现象。在现代人看来是愚昧的事,是因为以前的人对自然现象的原理没有足够的认知。同理,在自己不熟悉的领域发表意见,专家也会产生荒唐的想法。

2.2 如何判断一个新生事物

首先要抓住事物的本质,只有从本质的角度才能简单直观又准确地对新事物做出判断。只有抓住了本质,我们才能区分什么是魔术,什么是科学。Ray Dalio 提到的“原则”其实就是在经济领域的本质。不仅如此,在科技和社会领域都存在相应的原则。

我们存在的物质世界充满了神奇,暂且不管自然界的各种法则是怎么产生的,人类存在的一个很重要的目的就是要探索这些法则并加以利用,这样才会越来越接近自然界的本质。人类社会在科技、社会方面不断的进步就是建立在掌握这些法则的基础上的。在脑科学领域,我们也会找到它的法则。

懂了事物的本质,就会有融会贯通,旁触类通的感觉,对事物有更透彻的理解。事情会变得越来越简单,越容易理解,而不是越来越复杂。没有抓住本质,就可能会穷其一生,也找不到门槛。不但将自己引到死胡同,另外还误人子弟,浪费社会资源,成为一个“寻章摘句老雕虫”。

举例来说,如果我们要判断小狗和人类婴儿谁的神经系统更好,要从本质上去判断。从表象来看,小狗出生1个月后就能走路。而人的孩子到1年后才能勉强站立,蹒跚学步,那我们能说小狗比人强吗?

类似的在AI领域,现在大家衡量模型的好坏,就是看它们处理大数据的速度,用统计学的方法来看谁的准确率高;或者看谁的游戏得分高。这是非常奇怪的现象,这个体现了专家们连什么是智能都搞不清楚,不能从本质上进行鉴别,只能从肤浅的表象来判断。深度学习本质上更接近统计方法,是与智能没有什么关系的,就以统计的指标来衡量一个人工智能系统的性能,就像是将小狗和人类小孩进行对比一样荒唐。

2.3 大脑的本质

关于大脑,人们一直存在很多疑问:大脑是如何做决策的?什么是意识?为什么会有创新?为什么有不同的性格?为什么天才通常在精神方面显得有些“缺陷”?为什么会有宗教信仰?为什么有喜恶爱憎各种情感?为什么我们会对艺术产生美感?理解了大脑的工作原理,这些都会有答案。

理解大脑本质的意义远不止与此。除了可以用于开发AI系统,从更宏观层面来说,人类社会所有的各项活动都是大脑运作的结果,了解大脑的本质和决策机制后,我们甚至可以洞察人类社会各项活动的规律,可以将一个国家的实力提升几个数量级。

大脑是物质的,并没有什么神秘的力量在后面。我们所体验的一切感知和思考都是可以物化成一堆神经元的连接和活动。但是需要注意的是,大脑的本质不是神经网络,而在于信息处理的方式。当某人说他的模型采用了神经网络,我都持保留态度。现在主流的思路提到大脑就大谈什么神经网络,SNN等,这些只是停留在神经结构的表象,其实重要的是功能层面对信号的处理方式。

三、脑科学到AI的转化

3.1 脑科学向AI的转化的挑战

实现脑科学人工智能存在巨大挑战,因为在脑科学和人工智能之间存在很大的鸿沟:一方面,在神经生物学领域积累越来越多的科学发现,人们对大脑有更多的了解;另一方面,这些科学发现通常是碎片化的,如何将这些发现整合起来,对大脑的运作机制形成统一的理解,并将这种理解应用到人工智能基本上是没有任何进展。

从脑科学到人工智能,有很多种流派,每个人都坚信自己的方法是对的。但是在真正的人工智能实现之前,一般人是没有办法判断到底谁对谁错的。Deepmind、Vicarious的初衷就是做基于脑科学的AI,但是他们还是走偏了。Vicarious 早在2013年就发表了他们的方法,到现在还没有实用的产品开发出来,反而退回到做工业机器人的老路上。他们的方法没有延展性,在现实世界应用价值不大。HTM的创始人Jeff hawking也是花了大半辈子研究大脑的工作原理,可惜还是停留在非常肤浅的理解,可能也不会做出什么名堂。不少人以为抓住了某个科学发现,就可以做出什么大的成就,这在脑科学是不存在的,因为这是一个系统工程,需要将多个科学发现有机的整合在一起。

从神经生物学到人工智能的难点在于:针对同一种现象,不同的人会有不同的理解和不同的解释,不同的实现方式。大部分人只是停留在形态结构的表面层次,比如弄个神经网络。我们的方法则是关注大脑处理信息的本质,而不是解剖结构。就好像莱特兄弟在发明飞机时,不是模仿鸟的结构,而是通过研究空气动力学来了解飞行的本质。

只有从信息处理的功能来理解才是接近大脑工作本质的方法,才是简单有效的,才能将零散的科学发现整合起来,设计一个协调统一的人工智能。这是一个需要长期积累、沉淀的过程。例如,大脑里的定位细胞,主流的思路是用这种技术来开发定位功能SLAM,如室内导航的扫地机器人,但是这只是粗浅的理解,在我们的系统里,对这种特征有更巧妙的应用,它会承担更重要的角色。

基于对大脑工作机制的理解,我们认为实现脑科学人工智能的合理路径是先实现基础感官模块的设计如视觉或语音识别,然后再开发更高级功能如语言、逻辑思维等。

为什么需要这样分阶段来实现?简单的来说,很低等的动物就具备完善的视觉/听觉感官功能了,而语言思维只在极少数高等动物才具备。这个至少说明了语言思维功能的复杂程度更高。现在有人用深度学习用来做语言,做逻辑推理的应用,直接略过了基础感官模块。虽然给人的感觉好像是具有语言功能,但是做出来的东西最多就像鹦鹉学舌,不能真正理解语言的含义。如果用来做客服的话,是会有很高投诉率的。

从脑科学的角度来看,语言、决策、逻辑、推理功能是建立在理解基础感官的信息基础上的,越过基础环节只能做出一个没有根基的噱头,是空中楼阁,只能在人为设定的狭窄环境下运行,没有延展性,没有在真实场景下的应用价值。

3.2 案例介绍-视觉识别系统

做人工智能不能脱离应用场景,否则就是耍流氓。我们的目标是打造基于脑科学的人工智能,一种采用和大脑运作原理一样的人工智能。短期目标是开发出智能的视觉识别系统,和现有主流的深度学习算法相比,具有不依赖数据,结果可解释的优点。在医学影像和自动驾驶方面有优势。从长远趋势来看,这项技术具有非常深远的意义,因为它搭建了从脑科学到人工智能的桥梁。

基于脑科学的视觉识别系统的方案以及演示可参考下面链接:

https://www.http://bilibili.com/video/BV1cJ41117hq/

https://www.http://bilibili.com/video/BV1yE41177d4/

这里演示的是一种基于脑科学原理设计的视觉识别系统。就目前来说,主要集中在1D特征的处理,能够进行简单的字符识别和符号识别。但是这个系统具有延展性,通过对这个系统进行基础特征的升级,就可以扩展到处理2D特征以及3D特征,从而实现更完善的功能,在医学影像分析和自动驾驶方面有巨大的潜力。

这个视觉系统是借鉴了大脑在信息处理时遵循的原则来设计的,它的算法在某些方面和传统的CV算法有相似的地方,也就是说得到了传统CV算法的印证。比如算法里包含了类似HOG、template、shape prior、bag of features的设计。但是它们又有本质的区别, 传统CV算法有符合脑科学原理的地方,也有不符合的地方,并且这些算法之间是比较孤立的。这样不可避免的存在缺陷,很难应用于实际场景。而我们的算法在整体设计上借鉴了大脑在处理视觉信息时的设计,实现了各个功能算法之间的有机组合,弥补了传统算法本身存在的缺陷。

举例说明,传统CV算法中,“template”在做分割时效果很好,但是没有延展性。这是因为它们的template通常是手工打造的,这样限制了算法的通用性和延展性,开发出来的应用只能应用到预先设定的应用场景。如果每个应用场景都需要进行手工打造的话,需要的投入的很大的,不太现实。在我们的系统里,”template”是自动产生的,我们需要手工设定的只是产生template的规则,这些规则是基于脑科学发现,有生理意义的,并且数量很少的,从而适用于几乎所有的应用场景,增加了系统的泛化性。

另外,视觉系统的信号通路分成“what”和“where”通路,视觉信息的流向包括“Top - down” 和“Bottom – up”。这些规则在我们的系统都有实现。通过对系统的优化设计,我们发现这些大脑采用的视觉算法不仅有效,而且是必需的。当然其他人应该也尝试过Top down和bottom up的设计,但是没有取得良好的效果。主要原因是他们没有从系统整体的角度将其它信息处理模块有机的整合起来。除了Top down和bottom up外,还有其它的信息处理原则,缺了任一部分都可能达不到效果。这也是脑科学转化成人工智能的挑战,学术界的人通常只是关注在事物局部,很难获得全局的理解。

通过对视觉识别系统的设计,更加坚定了我们打造脑科学人工智能的信心,因为这个过程就是将各种相关的信息处理原则整合在一起的过程。采用类似方法,我们以后也可以开发其它功能模块。等各功能模块都开发完成后,将它们组合起来就可以形成通用人工智能了。脑科学提供了搭建这个系统的蓝图,我们只需要根据脑科学的原理一步一步的完成这个系统。

3.3 脑科学视觉识别系统的优势

我们的视觉系统原则上是依据脑科学的原理来设计的。具有如下显著优势。

1、对数据没有依赖性:系统从图片提取基础特征以及产生物体内部表征的方法都是根据生物学意义设计的,需要的样本量极少。

2、可解释性:这个系统的每个决策环节都是可追溯的。

3、普适性和可扩展性: 现在这个系统主要关注的是形状信息,可以应用于简单的物体识别。但是我们知道识别一个物体需要结合形状和外观方面的信息。如果需要这个系统在复杂情况下完成任务,只需要将更多的基础特征以及相应的处理流程包括进来就可以了。而总体的框架不变。

系统的这些优势在需要做关键决策或者数据量小的应用场景尤为重要。它是非常适合数据量小,同时对决策结果要求严格的场景的:比如自动驾驶,医学影像,工厂验损。

脑科学人工智能基于大脑的工作原理,有扎实的理论基础。它的另外一个很重要的优势就是可以用更少的投入,更短的时间开发出具有商业应用价值的产品。

四、结语

脑科学人工智能的壁垒在于对大脑运作机制本质上的理解以及将这种理解转换成可执行的系统设计。这个系统不是依赖某个单一的技术,而是设计出来的,从整体的框架到某个具体模块的信息处理都借鉴了大脑的运作机制。

虽然我对宗教持保留态度,但是觉得《圣经》里关于窄门的描述很有道理,包含了人生社会的哲理。当大家一窝蜂的扎堆追求短期利益的时候,他们离成功就会越来越远。大自然给人类布置了各种谜题,解决了它们就会让我们获得新的力量,会越来越接近自然或宇宙的真理,从而实现人类的演化。

“引到灭亡,那门是宽的,路是大的,进去的人也多。

引到永生,那门是窄的,路是小的,找着的人也少。”

耶稣对众人说:“你们要努力进窄门。我告诉你们:

将来有许多人想要进去,却是不能。

------《圣经:新约马太福音》7章13-14节

发布于 04-13