TensorFlow的前世今生

TensorFlow的前世今生

谷歌在11月9号开源了 TensorFlow,就好似在开源界和人工智能 界同时投下了重磅炸弹,开源后短短一周就冲到Github活跃榜榜首,风头一时无两。可能在未来看TensorFlow,或是开启了人工智能新篇章,或是小时了了,大未必佳。

随着谷歌在网络上获取到越来越多的文本,图片,音频,视频以及用户隐私数据,如何能够真正理解这些数据,同时将理解后的输出作为谷歌各个产品的输入,进一步提升用户的使用体验,成为了摆在谷歌面前的巨大的挑战。

然后就有了谷歌大脑的横空出世,成立于2011年的谷歌大脑项目,起初只是一个带有预研性质的研究团队,团队最初只有两位成员:四位Google Fellow之一的Jeff Dean,这位老兄可是一个传奇人物,高中时写就的20万行的流行病统计分析工具,现在仍旧在美国流行病控制中心使用着;去斯坦福做讲座时,现场拥挤的让高德纳都只能坐在地上;MapReduce和BigTable的发明者。另一位是吴恩达,这个老兄大家一定知道,前斯坦福人工智能副教授,现百度首席科学家。这两位大牛鼓捣出的基于神经网络的大规模深度学习系统,就是TensorFlow的前身,谷歌大脑的第一代深度学习系统DistBelief。DistBelief在2012年就运行在了16000台计算机上,从一千万张 YouTube视频截取的图片中成功的识别出了所有带猫的照片。Android操作系统的语音识别,YouTube的视频推荐,Google+的图片搜索,背后的智囊团都是DistBelief。

时光飞逝,岁月荏苒,吴恩达已经是百度那位嘴角带笑的华裔科学家,DistBelief尽管在大规模集群系统中有良好的表现,和其本身的复杂度也是正相关。为了方便研究和开源,谷歌大脑项目组将DistBelief分布式的部分进行了极大的简化,内核部分使用了C++进行了重写,隆重推出了我们现在看到的TensorFlow。

TensorFlow的 Tensor(张量)表示无限的数据,Flow表示节点,流程和处理。就如同神经信号在大脑内纵横驰骋,TensorFlow模拟了一个人造的大脑。TensorFlow内核定义了一系列的深度学习方法:卷积神经网络,使用 GPU 的反向传播算法,交叉熵。神经网络的每一层都可以映射到一个或者多个方法,方便扩展其它深度学习算法,同时架构适合在高性能计算机系统中工作,和底层的具体计算机硬件无关。

TensorFlow可以利用一个长短期记忆神经网络将输入序列映射到多维序列,同时使用另一个长短期记忆神经网络从多维序列中生成输出序列。想象一下,如果输入序列是英文,输出序列是中文,TensorFlow就组成了一个智能翻译系统;如果输入序列是问题,输出序列是答案,TensorFlow就组成了一个Siri;如果输入序列是图片,输出序列是文字,TensorFlow就组成了一个图片识别系统。还有很多种如果,让TensorFlow有了无限的可能。

随着TensorFlow的推出,引来海量围观的同时,也引出了无数的疑问,首当其冲的第一个问题就是谷歌为啥要开源这么重要的深度学习框架?其实TensorFlow中用到的深度学习算法,在几十年的跨度中陆续被提出,本身并无太多新意。我们可以将 TensorFlow 比喻成人脑,假设这样一个场景,两个具有同样智商的人,一个被扔到荒无人烟的孤岛,另一个被扔到汗牛充栋的哈佛大学,经过十年的训练,请问两个人谁在学术上更胜一筹,答案无疑是后者。所以说人脑本身固然重要,外在的环境,输入和训练才是一个人水平最终的决定因素。对于深度学习系统也是同样道理,在深度学习算法固定的情况下,谁拥有大数据,谁拥有最能体现人类思维,人类行为和人类隐私的数据,谁才真正拥有了开启人工智能的金钥匙。而纵观当今科技界,拥有最多这类数据的,无疑是谷歌,且不论谷歌通过互联网获取的天量文本,图片,音频,视频,地理信息;光就是人们在谷歌中输入的关键词,浏览网站的记录,以及在 Chrome浏览器和Andriod系统中的各种行为,喜欢看什么Youtube视频,通过Gmail 发送了什么邮件,这些信息就足够把TensorFlow训练的极度聪明了。正因为谷歌没有公开数据,没有公开分布式深度学习框架,没有公开谷歌内部真正使用的深度学习框架,所以谷歌才能够慷慨的说,我们开源TensorFlow,同时也让TensorFlow具有了成为未来人工智能和深度学习的工业标准的可能性。


我们可以说TensorFlow是一个单机版简化版研究性质的深度学习框架,但是毕竟TensorFlow开源了,而且吸引了全球无数的精英围观,后续的发展,可能会远远的超出大家的想象。要知道人民的力量可是无穷的,当年人民只是看到了谷歌的MapReduce,Google File System 和 BigTable三篇论文,就鼓捣出了Hadoop 这样的大数据框架。如今的TensorFlow,谷歌可是源码都贡献了出来,未来的前景,一定不在 Hadoop 之下。所以童鞋们,啥都不要犹豫了,跳进去吧!
编辑于 2015-11-27

文章被以下专栏收录