心跳之局:AlphaGo强大,柯洁伟大!

心跳之局:AlphaGo强大,柯洁伟大!

王咏刚王咏刚

柯洁和 Google AlphaGo 的第二局棋无论从围棋角度,还是从 AI 角度,加多少感叹号都是不够的。

跟这局棋比,当湖十局、耳赤之局、镰仓十番棋都黯然失色。如果还有另一局棋比这局更值得青史留名,那没准儿会是后天柯洁主动要求执白下的对 AlphaGo 最后一局。

如果非要给这局棋加一个符合围棋史传统的名字,也许可以称之为“心跳之局”?——还记得柯洁赛后说他在紧要关头捂住心口,试图让狂跳的心脏稍稍平稳一些吗?

中午我要赶到 CSDN 开会。那时柯洁正准备随时引爆左下角的大劫。开车路上一直在想,这个劫,爱好者水平是完全看不懂、算不清了,除了热血沸腾,我们还能做些什么?柯洁到底选择什么时机开劫,劫材够不够?AlphaGo 年初在 Master 60 局里表现出来的打劫水平到底能不能从容应付这种复杂度?会不会像绝艺在此前的某些棋局里那样发生突然死大龙的情况?停了车,瞄了一眼棋谱,发现柯洁正一路把对杀引向右上,双方六七块棋相互纠缠。那一刻,我这个爱好者的心跳可能未必比乌镇现场的柯洁慢多少。上楼进门,就直接问 CSDN 的掌门人蒋涛(蒋涛有业余高段的实力),劫材够不够,劫争赢了没有?看见蒋涛一脸遗憾,登时心凉如水。

下午一边看赛后直播的记者会,一边看蒋涛把这盘棋摆了两遍,还现场打电话给昨天向唐韦星、柯洁献计的陈经,听蒋涛和他的点评。会后许久,才觉得心态平复,可以打开电脑,把今天的感受记录下来。

一、感性速评

武林里侠客对决的比喻未必恰当,因为柯洁和 AlphaGo 根本不是一个物种。非要比喻的话,前天的对局是一个人间大侠在一条钢铁巨龙面前,虽奋力搏斗,却毫无收效。今天的对局,则是大侠突然用近身肉搏,把巨龙拖到悬崖边上,一场恶斗,飞沙走石,天昏地暗,大侠赌对手也和自己一样看不清脚下的虚实,双方都有跌落悬崖的可能。谁想那巨龙煞是了得,在混沌危急之中,仍然稳住了阵脚,重新回到举重若轻的境界。大侠这一边,就只留下了英雄末路的悲壮和残阳如血的凄美。

其实,今天好几个讲棋的职业高手都不约而同地使用了“尊严”这个字眼儿。人类这种生物真是莫名其妙的有趣:平日里经营算计、小肚鸡肠,整天想着积累自己的财富,延续自己的基因,或是将自己的愚蠢思想强加于他人;可一到涉及面子或尊严的时刻,人类族群中就总有英雄会挺身而出,用大无畏、大智慧甚至大牺牲来证明人类不会自甘没落。《独立日》里的人类英雄如此,心跳之局中的柯洁更是如此!

AlphaGo 确实强大,柯洁却可称伟大。

强大者,可以用力量终结所有幻想;伟大者,可以在幻想破灭时,为自己和族群保留最后的尊严。

二、回归理性

理性一点说,柯洁对战 Google AlphaGo 还不到跨物种对决的程度。单论技术,擅长 AI 技艺的 AlphaGo 团队与擅长围棋技艺的柯洁一样伟大。在 AI 技术的高峰上攀登、修行,一点儿也不比围棋国手们追求“神之一手”的道路简单。我们无论是看待围棋,还是看待 AI 技术,都要有敬畏心,都要讲事实,讲逻辑。这两天柯洁一下棋,网上就充斥着各路专家的高谈阔论。不懂围棋的强说棋理,不懂 AI 的硬讲算法,连棋都没怎么看就说这两天的对局中 AlphaGo 大多每 10 秒就走一步,还据此断言 AlphaGo 新算法如何如何……情绪太强,必然有些膨胀,这也是人之常理。

AlphaGo 团队暂时还没公开新论文,但从昨天乌镇现场的技术讲解看,AlphaGo 的基本技术框架并没有翻天覆地的变化。策略网络、价值网络、搜索等都还在。那么随之而来的问题就是,AlphaGo 相比于去年的进步是如何取得的?棋力进步巨大,下棋时耗费的机器、TPU 资源也有所减少,这其中的算法优化从何而来?

David Silver 提到 AlphaGo 去年和李世石第四局出现的 bug 已经被修改掉了。但好像没有官方公开信息提及这个 bug 的详细情况。DeepMind 官网棋谱中的评注是,“或许白棋的 78 并不成立,但是李世石这最后的一击却使 AlphaGo 不知所措。黑棋 79 退,白棋 80 挡,局部黑棋已经无法净吃白棋了。”去年在莱顿大学演讲时,黄博士简单地说,“地平线效应?正确解答在树中藏得太深。价值网络弱点?训练集中相关位置的样本太少。”那么,该如何理解黄博士的这两个讲解?后来采用了何种方法来覆盖更多的搜索空间,或者提高价值网络训练样本的覆盖率?很好奇 AlphaGo 团队将要发布的论文会不会详细解释。

昨天传出 AlphaGo 可以让去年的版本 3 个子的时候,围棋界一片哗然,可 David Silver 又发了补充声明,说这个差距,必须考虑 AlphaGo 自我对局时的过拟合问题,跟人类高手对局时,差距不会有这么大。用深度学习、强化学习来训练围棋程序,如何解决过拟合问题,是个特别关键的技术。去年的 AlphaGo 论文简单提到,训练价值网络时,为了避免过拟合,强化学习会随机选取不同水平的机器对手,会从自我对弈的每局棋谱里分别抽样等等。很想知道今年的 AlphaGo 在这方面有哪些改进。

以去年 AlphaGo 论文的技术公开程度,似乎还不足以制造出与 AlphaGo 水平相当的围棋程序。我感觉腾讯绝艺不仅仅是个积累时间的问题。绝艺在很多棋的风格上与 AlphaGo 差距比较大,比如有人说绝艺好杀,这可能是绝艺与 AlphaGo 使用的初始数据集不同,也可能是绝艺与 AlphaGo 在具体算法的调参,甚至算法实现层面有不同。那么,不同思路,或不同参数、配置细节的围棋软件,是不是还有各自发展并相互竞争的必要?AlphaGo 要不要干脆开源,给大家一个惊喜?当然,也许 AlphaGo 的下一篇论文,就足以支持绝艺等软件在棋力上更上一层楼了。

从更大的层面来说,以赢棋、棋力为目的再进一步发展围棋对弈软件,还是不是一件特别有价值的事?Demis Hassabis 总说研发 AlphaGo 能帮助人工智能发展,还总把“通用”人工智能挂在嘴边。这么说当然没错,AlphaGo 的基本技术,比如卷积神经网络、强化学习之类,也几乎都是人工智能里的通用技术。但进一步发展围棋对弈技术,对发展更加通用的强化学习到底有多大帮助,这个我暂时存疑。另外,Demis Hassabis 说的“通用”,和“通用人工智能”(Artificial general intelligence,Strong AI,强人工智能)还不是一回事,有点儿为了宣传而刻意混淆视听的意思。AlphaGo 用的深度学习、强化学习技术,当然可以用在其他领域,但这不代表同一个 AI 算法/模型可以像人一样做各种各样的事,特别是跨领域的推理。

即便 AlphaGo 像围棋之神一样强大,这事儿也不等于机器智慧可以快步达到人类水平。AlphaGo 的论文里,没有一项技术可以有逻辑地指向人类的抽象能力、自我意识等目前还很难说清的层面。如果哪一天,AlphaGo 会顿悟并告诉人类棋手说,围棋的终极目的在于快乐而非输赢,那才是最需要我们担忧的事情。

三、扯点儿不大相关的

围棋之后,生活还会继续。AI 已近在眼前,却还是一副神秘莫测的模样。AI 商业化、产业化的历程必然充满波折、坎坷,AI 技术突破也多半会像此前的深度学习那样,在你不经意间突然窜出来,给全世界一个惊喜。下一个技术突破在哪里?我只是个工程师,更习惯于追着前沿的论文,把最新技术实现到工程项目里。技术突破,还是交给科研领域的顶级大牛们吧。作为一个普通人,我只希望下一个技术突破离生活更近一点,离商业也更近一点,又可以造就一大批年薪百万美金的技术新贵。

当然,技术无论如何迭代,历史都会记住 2017 年的柯洁,就像我们已经牢牢记住了 1997 年的卡斯帕罗夫。

如果未来的历史也由 AI 来撰写,那我猜,人类史将直接等同于科技史:所有推动过科技进步的,都会名留青史,光耀万世;所有不懂技术还非要用非技术的名义封杀、阻碍科技传播的,都会化为尘垢,随风飘散。

文章被以下专栏收录
18 条评论