从《华为的冬天》到AI的冬天(完整版)

从《华为的冬天》到AI的冬天(完整版)

大纲

一、华为的冬天:The Dominoes

二、互联网之夏:Numbers Game

三、AI Winter:1984

四、深度学习:炼不出银弹

五、产业之痛:无尽的驻场

六、几度春秋:水暖谁先知

利益相关:AI从业者、《Rebooting AI》中文版译者。

长文预警完整版2.4万字,以史为鉴,从技术、产业和资本角度看AI换季。有八卦故事,也有硬核技术,聊当下问题,也看未来趋势,涉及技术处尽量浅显,非从业者酌情略过,不影响理解。

与火柴Q&甲小姐合作的1.5万字精华版已在“甲子光年”首发,快10万+了。该版本略有删节,去掉了上世纪AI冬天的历史,以及AI工程落地的部分深度内容。

非从业者可直接看1.5万字版本,观点鲜明,可读性强。AI或IT从业者建议往下看,相信能启发你的思考,也期待你在评论区与我互动。引发你的共鸣或争鸣,是我写作的最大动力。

一、华为的冬天:The Dominoes

失败这一天是一定会到来,大家要准备迎接,这是我从不动摇的看法,这是历史规律。……冬天已经不远了,我们在春天与夏天要念着冬天的问题。……沉舟侧畔千帆过,病树前头万木春。网络股的暴跌,必将对二、三年后的建设预期产生影响,那时制造业就惯性进入了收缩。眼前的繁荣是前几年网络股大涨的惯性结果。记住一句话:“物极必反”,这一场网络设备供应的冬天,也会像它热得人们不理解一样,冷得出奇。没有预见,没有预防,就会冻死。那时,谁有棉衣,谁就活下来了。
——任正非《华为的冬天》,2000

2000年,华为前所未有的高速发展,全年销售额220亿,利润29亿。看上半年形势大好,华为当年10月大规模校招,向2001届毕业生发放了一万个offer,按任正非在内部大会上说的话,“这些毕业生要为2001年销售400个亿、2002年销售600个亿做战略贮备”【1】。

华为当年在计算机电子通信等院系,按宿舍宴请毕业生,劝签协议

但也就在同一时间,通信设备市场发生了变化,有运营商在Q4开始砍年初做的项目计划。10月份,任正非开始反省,于是2000年底有了《华为的冬天》一文,“表达了任正非矛盾的心情以及任正非在冬天里失去了方向的情况”【2】,时任董事长的二把手孙亚芳看完说:“任总,你这不是在对兄弟们说——以后公司办不下去了,可别怪我啊!”遂将此文押后到2001年2月,待兄弟们过完元宵节,才在华为内刊《管理优化》发表。随之而来的是,华为01年一季度销售额降至30亿,人力部门也采取措施,当年实际报到的毕业生缩到6500名左右。

其实,在华为进校园大肆招聘的半年以前,市场下行信号就已出现。2000年2月,美联储开始新一轮加息。3月20号,美国《巴伦周刊》发表文章《Burning Up》,预估207家互联网公司中的51家现金流面临枯竭,按上一年Q4的Burn Rate来算,几乎所有网络公司都撑不过12个月,包括Amazon。祸不单行的是,当时科技股市值第一的微软惹上的垄断案也在3月中旬面临判决,监管可能要求这家科技巨头分拆,必然导致其衰退。两个消息加在一起引发的市场恐慌,让3月10号刚冲上5048.62点历史高点的纳斯达克一路向下。

股价一下跌,靠融资过日子的互联网公司不得不节衣缩食,削减设备采购和网络带宽需求,产业链上游的电信运营商和网络设备商也就少了订单。而且,公开上市的运营商和设备商还在资本市场上受到了重挫。唯一因祸得福的只有网络会议服务商WebEx,由于经济不景气,许多企业要求员工降低出差频率,这使得远程开会的需求旺盛起来。

图中箭头表示钱的流向。当互联网泡沫造成的市场信心高涨时,所有箭头上的钱都依次增加,反之,市场崩盘时,所有箭头上的钱都会变少甚至清零,涉及到的企业和个人就会像多米诺骨牌一个接一个的倒下。不幸中的万幸,作为不上市、不拿VC投资的网络设备商,华为还只受到了设备采购缩减的间接影响,企业风险并未被资本市场放大。而当任正非面对危机下决心走国际化道路时,他在全球市场上的竞争对手朗讯、北电、思科,由于资本的放大效应,正面临着更寒冷的冬天。

可能有人会问:为什么企业风险会被资本放大?上市公司的股票已经出手卖给机构或股民了,为什么股价下跌还会影响公司运营呢?原因是,公开市场上的股价,跟公司的资产额、可控的现金数量都息息相关。上市公司的股权可以用来并购投资,做员工股权激励,做抵押担保贷款(乐视就常用股权质押来借款),股价越高,付出的股权就越少,同等股权数量条件下可抵用的金额就越高。北电、朗讯、思科在股价较高时,通过贷款发债等方式比华为拿了更多的资金,财大气粗,花起钱来也更为激进,例如,北电2000年以80亿美元收购的互联网公司Alteon Websystem,泡沫破裂之后几乎一文不值;北电思科朗讯竞相向新兴的网络公司和小型运营商提供高额的贷款购买计划,结果在冬天里全变成了坏账。而当北电等公司的自身股价也大幅下跌时,不但很难再用股权去借新钱,而且老债主还会更急迫地讨还欠款,因为之前抵押的股权价值很可能已经低于债务金额了。

1996-2005互联网泡沫十年变迁(曲线底图来源:华尔街日报)

把华为带入冬天的这轮互联网泡沫(dot-com bubble)有3个阶段:泡沫形成期、泡沫破裂期、产业恢复期。在泡沫破裂阶段,华为写《冬天》、砍offer,北电大减值、大裁员;全球2000多家互联网公司关门,其中美国537家;从01年到04年初,单硅谷就减少了20万份工作。然而,这个泡沫当初是用什么吹起来的呢?在美国如此成熟的证券监管和估值体系中,网络公司的估值为何如此脆弱?

二、互联网之夏:Numbers Game

The value of a business is its future cash flows. ……if the market is attractive enough and big enough, and if we can find the company that is going to be a leader, the challenge is to find out how customers can be monetized.
商业价值在于未来现金流。……如果一个市场足够大足够有吸引力,如果我们又找到了这个市场的未来领导者,剩下的挑战就是如何将用户变现。
——互联网女皇 玛丽·米克尔


When CEOs tout EBITDA as a valuation guide, wire them up for a polygraph test.
如果有CEO鼓吹用EBIDTA来给他们的公司估值,就把他绑起来做个测谎吧。
——沃伦·巴菲特

玛丽·米克尔被《巴伦周刊》称为互联网女皇(Queen of the Net)是在1998年。早在1995年,她在摩根斯坦利参与的Netscape IPO被视为互联网时代的开端,因为Netscape是公司不挣钱却能在上市第一天暴涨的第一只股票。1996年初,她发布的300多页的互联网报告成为网络投资者的圣经,据说英特尔的安迪格鲁夫在夏威夷度假时看到这份报告后醍醐灌顶,决定英特尔也要大力拥抱互联网。随之,米克尔正式成为投资者和网络公司心目中的明星分析师。华尔街日报将她与格林斯潘和巴菲特并称为最有影响力的市场推手。硅谷创业者时刻关注她的行程,猜测她会搭乘哪一趟红眼航班,刻意制造飞机上的偶遇。准备上市的网络公司会点名要求她参与编写公司的报告,否则就不让摩根斯坦利承接他们的IPO项目,尤其是那些希望挂上互联网概念、拥有互联网估值的传统公司,更需要女皇的背书。在上市高峰期,米克尔会同时参与30家公司的研究报告编写。

女皇在摩根斯坦利的职位是分析师,但又不限于此。她私下把Netscape叫作My baby。她认为,自己帮着搞上市的公司,自己就负有责任,不能说太多负面(really aggressive on the downside)。风险投资之王、Netscape和Amazon的投资人约翰杜尔也说:

“我不认为玛丽米克尔是分析师,她是面向投资者、企业家和管理团队的服务提供者。”

之所以投资者和网络公司都听她的,是因为互联网太新了,没有什么过往经验可参考,所有人都需要一个权威来告诉自己,应该怎么应对这样的新事物。这个“新”,尤其体现在企业的估值上:证券市场头一次接受一大批没有多少资产、不盈利甚至还不知道如何盈利的公司入场,传统的P/E、P/B方法都不适用了,那怎么向投资者要钱呢?

在给Netscape做IPO的时候,米克尔创造了一个方法:终值贴现估值法(discounted terminal valuation),基于5年后的预估利润和增长率来估算现在的价值。但随着IPO的数量增多,上市企业的商业化阶段更趋于早期,她开始使用越来越多的非财务指标。在1998年针对Yahoo的报告中,她将Eyeball和PV跟估值挂上了钩

“4000万独立眼球(可理解为独立用户)以及浏览时间和数量(PV)的增长,这个价值应该比Yahoo现有的100亿美元市值更高才对。”

在分析Drugstore和HomeStore这两个网站时,米克尔提出Engaged Shopper(浏览超过3分钟的用户)和Mind Share(在同类网站中占据用户浏览时长的占比)这两个指标。

米克尔所强调的估值指标,看似符合互联网商业逻辑:用户量和使用时长越高,未来可能获得的收入也越高;如果市场占有率领先,就有机会统治这个市场领域,等到这个市场的商业化条件成熟,就能大规模收割。

以电商网站为例,看互联网公司从用户到收入的转化链条

回首当年,证券市场大量使用女皇这套指标对互联网公司估值,问题在哪儿?首先,图中越靠右的指标(例如销售额/GMV市占率)跟财务相关性越大,也就越接近公司能否盈利的真相,但米克尔有意无意的忽略了这一点,主要采用了靠左的指标,因为这些数字更漂亮。其次,如果图中打问号的转化链条做得还不成熟,甚至还没开始运转,说明商业化逻辑还不清晰,那这种公司不应该走上公开的证券市场,而应通过VC来融资。摩根斯坦利的另一位分析师Steve Galbraith后来也感慨道,在网络泡沫中,证券市场的投资者实际干了风险投资的事儿。

互联网公司没有收入,新的商业模式没法拿老一套来估值。这也就罢了。但当年还有另一类公司,有大家所熟悉的商业模式,但因为跟互联网关系密切,也搭上了泡沫的快车,这就是网络运营商。

以Winstar为例,这是一家美国的本地运营商,商业模式比较传统,其实是以投资换收入,买设备建网络,维护运营网络,向用户收取网络服务费。Winstar的投资者包括微软和顶级PE投资机构Welsh Carson等,在泡沫期也获得了大量资本的追捧,疯狂的建设扩张之下,盈利是不可能盈利的了,没法儿按传统方法算P/E(股价除以收益,不盈利的时候是负的),但要上市,那股价怎么估值呢?华尔街总有办法,他们把利润换成了另一个口径:EBITDA,税息折旧及摊销前利润。这个口径的妙处在于,投资并购的资产、一次性购买的固定资产,根据使用周期分N期折旧摊销,这原本是要在利润中扣除的,但新的EBITDA就不用扣除了

在EBITDA指标的掩护下,Winstar玩起了一系列的神操作。例如,他们在2000年投资了一家B2B电子商务公司Wam!Net,价格是1.45亿美元,其中9500万是现金,这个投资同时带来了Wam!Net的网络带宽服务采购合同,Wam!Net作为Winstar的客户,一次性支付2000万服务费,并在后续的7年中,每季度再递增支付500~2500万。相当于Winstar用9500万现金投资换来了2000万当期收入+7年约4.2亿的预估收入。划重点:这9500万的资产折旧摊销在EBITDA里不算成本,但凭空涨了收入!

Winstar还跟一家光纤提供商Williams Communications达成了“默契”交易:Winstar在7年之内支付6.44亿美元,获得Williams Communications的光纤设备和服务;Williams Communications则在4年之内支付4亿美元,来使用Winstar的无线宽带网。同理,Winstar的EBITDA上增加了1亿美元的年收入,而对应每年付出的0.92亿则作为资产费用摊销,不计入EBITDA。

Winstar跟客户的报表双赢,本质上就像这个Bullshit GDP的笑话

这样玩下去的结果,就是收入高速增长,理论上想涨多少就涨多少,因为可以跟客户做交换,EBITDA也很好看,因为默契交易的金额只体现收入不体现成本,但真实的亏损却越拉越大,直到股市崩盘的那一天。

这样简单的数字游戏,难道投行的分析师和老练的投资者就看不出来么?他们为什么会接受这样的EBITDA数字?一位分析师说:

“EBITDA唯一的好处,就是华尔街可以通过这个指标促成更多交易,也让Winstar融到更多的钱。”

另一位曾研究过Winstar的分析师说:

“分析师总希望推动下一单成交,因此他们会有意无意的蒙上自己的眼睛。”

其实,在这场泡沫中,有些分析师不但蒙上了自己的眼睛,而且还蒙上了他们的客户——投资者的眼睛。例如,2000年10月20日,美林证券前首席网络投资分析师布洛杰特在内部电子邮件中称InfoSpace的股票是垃圾,但布洛杰特和美林证券在面向投资者的时候并未发出警告,反而积极的推荐买入。

美林证券分析师内部意见,认为InfoSpace是Piece of junk

又如,为了讨好一位AT&T的董事,所罗门美邦的分析师格鲁伯曼调高了AT&T的股票评级。而这位董事同时也是花旗集团的董事,他因此而支持了沙蒂威尔在花旗的CEO竞选。最后,沙蒂威尔通过花旗集团(所罗门美邦的母公司)向曼哈顿某幼儿园提供了100万美元赞助,帮助格鲁伯曼的孩子获得了入学资格。

罪恶的源泉居然是学区房?美国SEC(相当于中国的证监会)恐怕不会同意,他们认为,在网络泡沫中频繁出现分析师不顾投资者利益的行为,其根源在于投行承销业务与证券分析师之间防火墙的倒塌。

在投行、分析师、企业和投资者形成的四角关系中,原本的规矩是:分析师的客户是投资者并且只有投资者,分析师不能跟企业有利益关系,也不能牵涉到投行面向企业的服务之中,否则研究报告就会失去中立性客观性,会误导投资者,造成投资者的损失。

然而在网络泡沫中,分析师和投行业务的界限逐渐模糊。投行给分析师发放的薪酬里包含了给企业服务的部分,甚至分析师会个人投资某些企业,双方的利益纠缠在一起。分析师甚至认为,跟企业的密切关系有利于信息的沟通,从而能写出更准确的分析报告。

前面提到的为孩子入托费尽心机的那位格鲁伯曼就曾说过:

“证券分析与企业服务的关系,以前是利益冲突,现在反倒形成了协同增效。”

或许,股票涨的时候这是对的,分析师、企业、投资者皆大欢喜。可下跌的时候还是被监管了,2002年,格鲁伯曼受到62起诉讼索偿,不但被迫辞职,个人也受罚1500万美元。同时,美国证券业也提出了亡羊补牢的措施:要求投行内部研究部门必须独立,严格限制分析师的个人投资交易,分析师薪酬与投行交易经纪业务脱钩,等等。

但这些措施恐怕也难以解决问题。证券研究报告如果以传统的内容付费商业模式,投资者的“打赏”并不足以支撑高水平分析师的投入,这跟互联网业务做用户内容付费还是挣商家广告佣金是一个道理。这里的灰度会永远存在。

三、AI Winter:1984

In spite of all the commercial hustle and bustle around AI these days, there’s a mood that I’m sure many of you are familiar with of deep unease among AI researchers who have been around more than the last four years or so. This unease is due to the worry that perhaps expectations about AI are too high, and that this will eventually result in disaster… it is important that we take steps to make sure [an] “AI Winter” doesn’t happen — by disciplining ourselves and educating the public.
抛开近来围绕着AI的许多商业上的纷繁扰攘,在研究AI超过4年以上的人们当中,出现了一种深深的不安情绪,我想在座的你们也了解这种感觉吧。这种不安是一种担心,担心对AI的期望过高了,担心这种期望最终会把事情搞砸……重要的是,我们应该采取措施来阻止AI冬天的到来,这些措施包括对我们自己的约束,也包括对大众的教育。
——Drew McDermott,在1984年AI大会上的发言

曾经历过70年代AI衰落的两位学术领军人物Roger Schank和Marvin Minsky在1984年向产业界发出警醒:AI的热度又有点失控了,期望越高,摔得越惨,一旦进入冬天,意味着连锁反应:AI社区发出悲观言论->媒体发表悲观文章->投入AI的资金快速缩减->学术界大幅减少AI研究->AI发展进入停滞期

一语成谶,两位大佬的警示却成了对冬天的成功“预测”。仅仅三年后,美国国防部高级研究计划局(DARPA)的Jack Schwarz就粗暴的砍掉了大部分AI项目预算。他认为,DARPA应该在科技的海洋里冲浪,而不是光玩花哨的狗刨【7】,所以要把资金聚焦在真正有前景的技术上。显然,在Schwarz眼里,人工智能并不是下一个大浪,当时AI主推的专家系统只是一种新颖的编程技巧而已

专家系统的兴起,来自于1980年卡内基梅隆大学给DEC做的一套专家配置系统,XCON。当客户要订购DEC的VAX计算机时,XCON会解析客户需求,按照预设的专家规则自动配置零部件,减少人工参与的成本。在投入使用的6年内,XCON处理了8万个订单,号称节约了4000万美元。受此影响,各行各业也纷纷研发部署自家的专家系统,成立企业内的AI部门,到1985年,估计企业界在AI上的投入超过了10亿美元。配套的产业链也起来了,有提供专家系统支撑软件的,也有做专用硬件如LISP机的。

模仿人类专家进行推理决策的机器,背后的原理是逻辑推理和知识表示,这其实是学术界研究多年的东西了。借着专家系统的热度,1981年,日本计算机界大佬、东京大学教授TohruMoto-Oka向日本通产省提交了一份报告——《知识信息处理系统的挑战:第五代计算机系统》,提出新一代的计算机不再以硬件工艺来划分,更应看重新的体系结构和软件。

日本通产省相当于中国原来的信产部+科技部,在此前的几年内,刚通过“政府牵头组织立项拨款+企业整合资源协作攻关”的集中力量办大事策略,打赢了DRAM存储芯片研发的日美产业战。因此,对于五代机,通产省也信心满满的制订了十年计划,日本政府拨款8.5亿美元,加上企业匹配对等的资金,选择逻辑程序机这一体系结构,希望走出冯诺依曼架构之后的新路子,在计算机产业上击败美国。

然后,日本通产省请来的美国顾问、专家系统之父费根鲍姆,拿着日本的五代机十年计划,回到美国去游说政府:日本人已经开干了,咱就光看着吗?在半导体和汽车产业纷纷被日本赶超的“日本威胁论”阴影下,1982年,美国成立了微电子与计算机联盟(MCC),每年投资7500万美元,拉上美国各大科技公司参与,作为对日本五代机的回应。DARPA也在国防项目中加大了对AI的投资。专家系统带来的AI热潮越发火爆,费根鲍姆自己也拿了不少项目经费。

时代背景:1981美日贸易战,芝加哥汽车工人在砸一辆丰田卡罗拉

专家系统商业化挣钱+政府项目拨款拿钱,看起来这轮AI浪潮有了双保险。然而,当专家系统在各行业推广落地时却发现,不同行业场景下的专家知识是不一样的,甚至同行的企业之间都有差异,专家系统技术只解决了知识表示和规则推理,但知识的获取和更新还得靠人工手段,要行业专家与知识工程师配合,把专家脑子里的经验归纳成计算机能看懂能处理的知识和规则,还要尽可能全面、不遗漏,这实施门槛不是一般的高。知识没法自动学习,知识量往往不够用,系统就无法提供可用的商业体验,而且,如果专家归纳的不完整,碰到未知输入时就会出错,这些都是专家系统落地的痛点。这个时候,坐拥巨大资源的政府项目和学术界却在全力钻研更高大上、更有“含金量”的体系结构、性能和硬件,然而,在体系结构中貌似核心的推理或规则引擎、领域语言,并不能解决知识获取更新的实际问题;性能如存储量和计算速度也并非应用的瓶颈,那通过专用硬件去解决性能问题就更无必要了。

Tom Alexander在文章《Teaching Computers the Art of Reason》中说:

“在AI身上常常会发生‘第一步谬误’,人们会假设,在一个简单的系统中获得成功,就意味着AI向实用的智能机器迈出了关键的第一步。然而,当他们准备迈出下一步的时候,往往会发现,各种因素增加带来的复杂度组合爆炸会使得下一步的成本非常昂贵,甚至难以承受。”

1980年的XCON,成为了专家系统在此前十年中最好的商业案例,不幸的是,这或许也是后续十年中最好的案例。

在AI领域,好的开头并不等于成功的一半

政府统一规划组织的项目也并不如想象中美好。到80年代末,五代机项目会议中充斥着各种为了拿钱而挂羊头卖狗肉的AI项目。为逻辑程序量身定制的专用硬件(也就是所谓的五代机),性能被支持规则引擎(如CLIPS)的通用硬件所超越,何况专用硬件还更昂贵,因此这一成果变得毫无价值。政府和学术界也曾畅想要解决知识获取的问题,通过一种“信息融合(information fusion)”系统,从多种信息来源完全自动化的搜集、合成和分析信息,输出专家结论和建议,但这样的目标还遥不可及。

在DARPA砍AI项目预算的5年之后,日本通产省也于1992年6月宣布正式中止五代机项目,已开发的软件无偿赠送给任何公司。近期的技术解决不了AI商业化落地的关键问题,AI学术界想研究的问题又跟商业化目标不一致,最大的资本方——政府终于失去了耐心。全球化的AI冬天正式到来了。

这一轮由专家系统和五代机为旗帜的AI浪潮,冬天里,还是在少数几块地里留下了种子,等着开春萌芽。金融征信巨头FICO收购了几个专家系统公司,将其中的规则引擎用于风控反欺诈。专家系统还在客服支持(产品知识问答、故障定位)、医疗(分诊)等场景中顽强的生存着。DARPA当年留着没砍的3个项目中,飞行员辅助系统、战场管理系统都用上了人机自然语言界面,而DARPA无人驾驶车项目则在后面的20年中都引领着业界潮流。

与此同时,AI的另一派系也在酝酿自己的春天。1986年,Geoffrey Hinton发表《Learning representations by back-propagating errors》,将神经网络反向传播BP算法进行改进后,复活了70年代诞生的这一算法。1989年,法国人Yann LeCun在贝尔实验室,开始用卷积神经网络来识别手写数字。这两位深度学习的代表人物,将在30年后携手捧回图灵奖。

四、深度学习:炼不出银弹

There's a self-congratulatory feeling in the air ... If you are building a photo sharing system, Alchemy is OK, but we are beyond that now. Now we are building systems that govern healthcare and mediate our civic dialogue we influence elections. I would like to live in a society whose systems are built on top of verifiable rigorous thorough knowledge and not on Alchemy.
(机器学习界的)空气中有一种沾沾自喜的味道……如果你做的是照片分享系统,炼金术没问题,但我们远不止于此。我们现在要做的系统,将会管理社会医疗健康,影响公民对话以至于政治选举。社会系统的智能应该基于可验证、严谨而完备的知识,而不是依赖于炼金术;我希望自己能生活在这样一个社会中。
——Ali Rahimi,2017 NIPS大会Test of Time Award演讲


深度学习也落入了“寻找银弹”的陷阱,用充满“残差项”和“损失函数”等术语的全新数学方法来分析世界,依然局限于“奖励最大化”的角度,而不去思考,若想获得对世界的“深度理解”,整个体系中还需要引入哪些东西。
——Gary Marcus, 《Rebooting AI》,2019


只要听见说“xxxx方法是否是人工智能的关键”,最可能的回答就是“不是”。……人工智能是一个大集合,往往是各种方法的融会贯通才能达到最终的效果。
——深度学习框架Caffe作者Jia Yangqing


2017年底, AI界顶级的NIPS大会上,Test of Time论文奖项获得者Ali Rahimi在掌声中登场了。Blablabla……讲完他的获奖论文之后,Rahimi在大屏幕上放出了出人意料的一页:Alchemy,炼金术

炼金术是中世纪的一种化学哲学的思想和始祖,是当代化学的雏形。其目标是通过化学方法将一些基本金属转变为黄金,制造万灵药及制备长生不老药。现在的科学表明这种方法是行不通的。但是直到19世纪之前,炼金术尚未被科学证据所否定。包括艾萨克·牛顿在内的一些著名科学家都曾进行过炼金术尝试。……炼金术在中国古代成为“炼丹术”,其引用许多道家理念……通过炼金术,人们积累了化学实验的经验,发明多种实验器具,认识许多天然矿物。在欧洲,炼金术成为现代化学产生和发展的基础。
——维基百科

Rahimi将近来快速发展的机器学习(主要指深度学习)比作炼金术:方法虽然有不错的效果,但缺乏严谨完备可验证的理论知识,业内人士根本不理解自己做的东西是怎么运作的

发给Rahimi的邮件,抱怨TensorFlow一个参数调整带来不可预知的问题

例如,不小心修改一个参数就会带来模型效果天翻地覆的变化,或者,极简两层线性网络中遇到的问题,在增加网络复杂度之后就奇怪的消失了……但没人能说清为啥会这样。深度学习社区对问题的解决方案,往往是在原本很神秘的技术栈上再叠加一层神秘的技巧。例如,业界都知道,批量归一化可以降低Internal covariant shift(ICS)从而加快模型训练速度;但是,似乎没人知道为什么降低ICS就能加速训练,也没有证据证明批量归一化就一定能降低ICS,甚至整个业界都缺乏对ICS的严格定义!Rahimi说,自己虽然不懂飞机的飞行原理,但他不怕坐飞机,因为他知道有一大批飞机专家掌握了原理。深度学习界最让人担心的是,他自己不知道原理,而且,他知道其他人也不知道。【11】

By Randall Munroe,XKCD

吐槽完案例之后,Rahimi呼吁AI社群要一步一个脚印,把更多的研究精力花在算法模型原理和运行机制上,而不是一味的追求性能和效果,否则,一是做起实际项目来太痛苦,问题不可复现、没有规律、不好调试,只能碰运气不断试错;二是不敢将深度学习用在鲁棒性要求高的应用场景中,AI也就不可能成为吴恩达所说的electricity。

Rahimi的演讲在AI社群中引起了不少共鸣,以至于惊动了深度学习界的大佬Yann LeCun。经历过AI两大路线多年斗争的LeCun,似乎嗅到了意识形态攻击的危险,他对此回应道【13】:神经网络确实没法在理论上证明自己一定收敛,但我们在实践中效果很好啊,仅仅因为深度学习理论跟不上实践就进行批判,这就像把孩子跟洗澡水一起倒掉,这是很危险的!当年正是因为这种批判态度,让神经网络遭到AI社群抛弃超过十年之久,绝不能让历史重演!

要知道,两大主义之间的路线斗争,贯穿了人工智能60多年的发展历史;而在2010年之前的大部分时间里,联结主义(神经网络)一方是被符号主义打压的对象。Rahimi演讲中的一句话“As aggravating as the NIPS rigor police was, I miss them and I wish they come back(我怀念十年前NIPS上对理论严谨性吹毛求疵的学术警察)”,一定会让老人家回忆起AI界由于意识形态“迫害”所带来的多年浩劫,1995-2007年之间,坚持神经网络研究的LeCun和Hinton、Bengio等人组成的加拿大CIFAR小团体,论文被各种顶会拒绝,拿不到经费和算力资源,更招不到好学生。现在终于熬出来了,可Rahimi同学,你居然怀念那个年代的NIPS学术警察?将深度学习比作炼金术,且不说是否恰当,至少很不吉利,Rahimi你可知道,早在50多年前,著名智库Rand公司就赞助发表过一篇论文《炼金术和人工智能》(Alchemy and Artificial Intelligence),引发了AI的第一次冬天

LeCun大佬虽然反应激烈,但并没有反驳Rahimi所说的深度学习在严谨完备可验证方面的不足,只是他希望大家要多看好的一面,别总盯着问题不放。

可是,还真有盯着不放的。Rahimi说完刚过一个月,AI符号主义老一辈代表人物Steven Pinker在MIT的学生、纽约大学心理学与神经科学教授、曾干过机器学习创业、曾任Uber AI实验室负责人的Gary Marcus就发表了一篇论文《Deep Learning: A Critical Appraisal》(对深度学习的严格评价;注意,Critical Appraisal其实是研究领域的一种固有方法,如果翻译成“批判”就有点存心引战了)。在文中,Marcus提出了深度学习的十大挑战和问题,认为当前的AI被高估和过度炒作,可能会对AI行业带来风险。【14】

在这篇论文引发的一片争议声中,作为Marcus的NYU同事,LeCun大佬只是轻描淡写的发推说:即便我认为别人的工作方向错了,我也从不批评人家;我只是干我自己相信的事情,有结果就发表;我们做的是工程,拿结果说话

乍看LeCun大佬每次论战都避实就虚,或引到意识形态上,或单以效果论英雄。但其实不然,早在Marcus论文发表前的3个月(2017年10月),他俩就在NYU的辩论会上正面探讨过具体问题,辩论主题是Does AI need more innate machinery,是否AI光靠后天学习是不够的,需要结合更多的先天知识?【15】

辩论中,Marcus的观点是,既然深度学习(或者扩大到“自底向上的统计方法”)没有在语言、推理、规划、常识等领域形成突破,要不要在算法中预置一些先天知识,就像人类一样?(原话是Maybe it’s time we gave innateness a chance,这小心翼翼的口吻,言外之意大佬别吃独食,也给符号主义一点机会呗?)

2017 NYU AI辩论会,左Marcus右LeCun(网友弹幕不代表本文观点)

LeCun则认为,跟人的智能相比,深度学习确实还有不足,但AI现在缺乏的不是先天预置的知识结构,而是要找到一种新的学习范式,如何通过对世界的观察和交互,无监督的学习到关于世界的模型,然后知识结构自然就有了。这种无监督学习的例子有:人类司机不需要自己开车撞树,就能预测出如果撞树会发生什么;婴儿脑袋左移20公分,发现前方物体A的视觉发生了变化,就能学会depth的概念,再看别的物体B,同样就可以预测,如果自己左移20公分会看到什么样的景象。

这次辩论中,真正的分歧在于:LeCun认为,先天预置知识(innateness)并不是不能用,而是应该遵循奥卡姆剃刀原则,能少用就少用,能不用就不用。他在几十年职业生涯中都在探索,如何用最少的预置结构来获得最佳的学习效果和可接受的性能。有人问过LeCun,CNN做图像识别时,有些低级特征例如边缘形状在过去已经积累了很成熟的知识,为什么不预置在模型里呢?CNN之父反问:我能通过训练直接算出来,为啥还要内置?

过去的三四十年中,AI的许多领域如语音识别、图像识别、NLP都在降低预置结构的数量;IBM语音识别专家Fred Jelinek说过,我每解雇一个语言学家(代表减少模型中的先天知识),语音识别错误率会降低10%;LeCun自己也有类似的经验,人工设定和预置结构越少,越多的依靠数据来学习,则效果越好。

对于符号主义与深度学习结合的机会,LeCun认为,传统的推理方法用到符号和逻辑,但符号和逻辑跟深度学习是不兼容的,因为深度学习更适合处理连续和可微分(differentiable)的东西。如果要通过学习来获得对世界的理解,必须将符号换成向量,将逻辑换成代数。

针对当前深度学习的局限性,LeCun提出了一个深度学习新范式,预测性学习(后来改名为自监督学习),要构建更巨大的网络,让机器观看现实世界中的海量视频,根据已经播放的视频来预测尚未播放的内容,从而学习关于世界的知识。更多的知识结构会是这个新方法产出的结果,而不是原因或驱动力。

机器看视频、尝试预测,就能学习关于世界的知识

他认为,深度学习已经在模式识别方面证明了自己,未来也可以做好抽象推理。甚至于,LeCun在思考人脑的机制时,都代入了深度学习的思路:人脑是怎样做梯度下降来最小化损失函数的?


从这次辩论可以看出,LeCun相信自己找到了AI的银弹,坚定不移的走纯粹的深度神经网络路线,继续加宽加深网络,训练更海量的数据,优化升级新的范式,就能让AI在图像语音识别领域的成功复制到更多的领域。

辩论的另一方Marcus自然不会同意,他认为,深度学习的向量无法映射到人脑的计算过程,任何一个学过逻辑学的本科生都不会同意向量能替代逻辑。Marcus同意在感知(图像语音,模式识别问题)和某种程度的语言翻译(语言映射而非理解)问题上可以多靠训练,深度学习可以做的很好;但抽象的理解和决策必然需要常识和推理。至于深度学习新范式要看视频来学习世界,可能过于理想了:现代影视剧里各种倒叙插叙补叙分叙的手法,连人都半懂半猜的,何况机器;就算是遵循正叙,一个镜头和下一个镜头之间的时间关系,是过去了一分钟还是一天还是一个月,机器也够呛能懂,如果不了解不同片段之间的时间关系,如何靠视频理解世界?

辩论会最终在欢乐祥和的气氛中落下了帷幕;没有陪审团,自然也没有结论。而关于深度学习是不是银弹,作为第三方的Deepmind也发出了声音。他们在2018年关于图网络的论文【16】中谈到,就像生物界同时使用了nature(对应innateness)和nurture(对应learning),Deepmind并不认为先天结构和学习灵活性是互斥的,而是会寻求发挥他们融合的优势,从而获得人类拥有的组合泛化的能力(将已知的组件进行组合,获得新的推理、预测和行为)。

论文中还指出,LeCun的深度学习方法倾向于端到端设计,强调先天预置知识的最小化,尽力避免显式结构和人工设计。这样做的前提假设是“数据和算力可廉价获得”,是以降低数据效率为代价,换取更灵活、不受限的学习方式。换言之,如果在某些场景下,这些前提假设不成立,则LeCun的方法未必适合。

说到这里,终于要进入正题了:走出学术象牙塔,来到这一轮AI浪潮的产业前线,有多少商业场景符合LeCun的前提假设?深度学习又能在哪里大展拳脚呢?

五、产业之痛:无尽的驻场

吴恩达曾经给出这样的期许,“如果普通人能在不到一秒的时间内完成某一项脑力工作,那么我们很可能可以在现在或不远的将来用AI将其自动化”。而更切合实际的观点可能是:“如果普通人能在不到一秒钟的时间内完成某一项脑力工作,而且我们能收集到大量直接相关的数据,那么我们就有机会争取用AI将其自动化,只要我们实际遇到的问题与训练数据别相差太远,而且该领域随时间发展别有太大的变化。”
——Gary Marcus, 《Rebooting AI》,2019


在传统的软件工程中,针对模块的单元测试、端到端的系统测试都非常重要,但在机器学习的项目中,面对不断变化的数据环境,这些测试不足以证明系统是否会按预设运行。于是,现场对系统行为的监控就尤为关键了。
——Google论文《Machine Learning: The High-Interest Credit Card of Technical Debt》


双法,即华罗庚从“斐波那契”与“黄金分割”等数学方法中总结出的“统筹法”和“优选法”——指导一系列管理和生产流程,为工农业生产服务。……1972年起,华罗庚组织了“推广双法小分队”,跑遍了全国28个省市的一百多个县,上千个工厂、矿山和村庄,总计行程约20万公里,被称为“一次和平年代普及推广科学的新长征”。……走向极端的“数学有用”,是一种低效率的“数学有用”,它导致一系列后果:分工不合理,才能不匹配,理论研究被打压,人才培养被扰乱,因而应用上的发展也缺乏后劲。
——甲子光年《烟火数学》,2019


经过前几轮PK的洗礼,Gary Marcus在他2019年的新书《Rebooting AI》中,又将深度学习的问题重新归纳为3点:

  1. 对数据的极度贪婪和依赖;
  2. 运行机制和模型的不透明;
  3. 脆弱性,错误不可控。

在深度学习浪潮驱动的AI产业化进程中,这3个问题确实是AI在各行各业落地的重大挑战,也引发了AI供需上的几大落差。首当其冲的,就是想象中的大数据与现实情况的小数据、脏数据、假数据、违规数据、孤岛数据之间的落差

在数据行业摸爬滚打多年、最近转行到AI创业公司的数据分析师小J颇有感悟:

“这些年,媒体和各行各业言必称大数据,所以客户看到自己数据库存储多少TB甚至PB了,有些还上了Hadoop,毋庸置疑的就有大数据了,在谈AI的时候,问到某某数据有没有,客户通常也满口答应说有,等实际入场之后才发现数据质量根本不可用,有些字段错的离谱,有些字段又太稀疏,等你做完清理之后,剩下的数据可能跑个逻辑回归都勉强,根本没法上深度学习。
有些数据需要手工生成,质量也不可靠。有一次做浙江某轮胎厂的故障检测项目,故障样本是工厂每个月被客户退回来的问题轮胎,几百上千个在露天的空场上堆成小山,落满了灰。只好雇人爬上去把灰擦一擦看清楚型号批次,再把信息和故障记录下来。太热天的,当然又脏又累啊,后来就有人学会了偷懒,假造数据。……理论上可以通过数据质检来把关,但还是会有很多疏漏,不容易。
还有所谓的数据孤岛,A企业的数据维度比较单一,例如有用户的位置信息,需要跟其他行业例如B企业的用户消费行为数据放到一起,才能产生价值,但A和B出于监管考虑是不能交换数据的。甚至于在一些大企业内部都会有数据孤岛,实际上是部门竞争不愿配合,但嘴上说的是隐私问题或者技术困难,都要闹到大老板那儿去拍板,即使拍板下来要打通,也会有各种手段让你效果大打折扣,脱敏啊,二次加工啊,延时等等。
……数据来源有时打打擦边球也是公开的秘密了。一些信息安全措施不那么严格的行业,通过内部人的硬盘拷贝出来是最经济有效的。有节操的还会先脱敏再拷贝出来。爬虫是几乎所有公司都在用的,也有一些是在灰色地带,前不久刚被抓的那个巧达科技,爬简历个人隐私牟利,算是行业反面教材了。”


第二个落差也跟数据有关——AI训练测试数据跟实际运行环境数据之间的落差。Facebook的LÉON BOTTOU在ICML大会演讲《Two big challenges in machine learning》【18】中指出,机器学习给软件工程带来了新的混乱,原因是生产环境下数据的必然变化,使得AI模型或算法无法按预期输出稳定的结果。

机器学习模型软件模块的合约举例

如果把训练好的模型作为软件模块来集成,模块的输出受输入数据分布的变化影响,不能按模块之间的合约(contract)“办事”,造成其他模块无法正常工作,更难受的是,什么时候、什么情况下会“违约”,无法预先界定。传统软件工程中靠抽象封装解耦来解决大规模系统复杂度的问题,这其中最关键的模块合约,被机器学习这个“捣乱”分子破坏了;模块之间的弱合约会带来“抽象泄露Abstraction Leak”,不可依赖的子系统会让整个系统崩溃。

关于系统模块弱合约(Weak contract)的例子,试想你购买了一辆自动驾驶汽车,说明书上写着:在我司测试环境下,行人检测模型准确率为99.99999%;在您的实际驾驶环境下,预计准确率在97%~99%之间,但我司不能确保准确率有多少,而且也无法判断在何种情况下检测准确率会发生异常;随车附送100万保额的第三者责任险,祝您和您遇到的行人好运。

弱合约在自动驾驶这种高鲁棒要求的场景下会对用户及产业造成伤害

如果把训练算法作为软件模块来集成呢?也有新的问题——训练算法的输出依赖于训练数据,而生产环境中的训练数据又受到太多因素的干扰:隐藏的信息反馈循环、未声明的调用模块,都会让数据相互影响,在系统运行阶段出现不可控甚至不好追查的问题。此外,在做真实的客户AI项目时,不同客户项目、同一客户项目的不同阶段,都会对数据产生不同的理解,从而影响到算法网络结构设计和模型参数设定

有多年工程及算法经验、既干过互联网大厂也干过ToB项目的老P说:

“做AI项目,客户第一次会给一小撮数据样本让你理解业务数据,等你入场做POC测试会拿到批量的真实历史数据,等项目上生产环境你会碰到更实时的数据,等运行一段时间后又必然会遇到各种新的情况,例如客户业务的人群定位调整了、外部行业政策有变导致业务环境变了等等,这四个不同阶段,你所认知的客户数据特点和分布都会发生变化,而这个变化就意味着超参数要重新调整、网络结构可能要重新设计甚至算法重新取舍……是很折腾啊,但没办法,这就是做AI项目的命。”

“很折腾”,而且,更要命的是“折腾”的时间地点人物,是长期的折腾而不是一次性折腾,要在客户现场折腾而不是远程的云折腾,得有炼金经验的算法工程师而不是普通软件工程师去折腾。


这就引出了AI供需上的第三个落差,也是最现实的挑战:AItoB项目对于高级算法人才长期驻场的强需求跟此类人才驻场成本和意愿之间的落差

为什么ToB项目通常都要驻场?现阶段,大中型企业才有足够的数据、业务场景和钱来做AI,而大公司对于数据又有超强敏感性和保护意识,数据不出门、不落地,要碰数据可以,请到客户现场来,有时还要求用客户提供的电脑干活。(某些感知类的AI应用除外,例如人脸识别、语音识别,有通用的数据可用,对客户数据的依赖程度较低。)

为什么要算法人才长期驻场?从典型的AI ToB项目过程来看:

1,初步理解客户业务场景和需求

2,初步调研客户数据情况

3,可行性判断和初步方案设计

4,深度理解客户业务,细化或调整AI算法目标和达到目标的路径

5,深度理解客户数据构成、语义、质量和分布等细节,细化或调整算法方案和模型结构

6,数据清洗和特征工程

7,测试环境部署,模型训练并调参(效果不好的话要回到步骤456进行优化)

8,生产环境部署上线,调试生产bug(如数据泄露)

9,持续监控生产环境输入输出数据变化并随时回到步骤456

这里面的456789是必须在客户现场完成的,12可以远程完成但也需要与客户交互,只有步骤3完全不涉及客户环境。先说步骤45678,短则两三月,长则大半年,跟客户配合程度有关,跟数据质量有关,跟问题复杂度成熟度有关,更重要的,跟炼金的运气有关。

麻烦的是,前面的步骤即使周期再长,也有结束的那一天,但最后的步骤9(生产环境监控优化)却永无宁日,因为业务环境和数据的变化是不可避免的,而算法模型不敢保证一定能自动适应到最佳状态。

为什么要高级算法人才驻场?正如Ali Rahimi指出的那样,深度学习的理论不完备,算法模型的运行机制不可知,因此,各种调试优化能不能成功,靠的是经验加运气,调对了不知道为啥对,错了也搞不清为啥错,自然这经验也就不容易传承。这里的“高级”指的是做过的项目多、遇到的情况多、调试成功和失败的经验都多的老中医,而初级医师要想成长起来,除了有老中医手把手指点,同样要走一遍师傅之前的路,靠项目和悟性不断积累“望闻问切”的经验。

确实,要做好AI项目,驻场需求很强烈。但想让高级算法工程师长期驻场,太难了。首先,驻场意味着人员很难复用,没法一人同时干N个项目了,高级算法人才的薪资成本是个问题。其次,搞技术的通常就不喜欢到别人家里驻场,尤其有经验的高级人才就意味着岁数不小了、有家有娃了,长期出差有困难。最后,公司里许多高级算法人才可能是在基础研究或底层架构部门,项目工程团队要调用的时候未必调得动。

BAT某云的行业销售负责人、一度对AI项目满怀憧憬但后来宁可去卖CDN的销售老鸟阿K说:

“我们今年中了一个千万级的标,其中AI的模块很关键。中标之后项目组都很兴奋啊,但是要干活的时候,麻烦了。客户对于数据信息安全很看重,对外部驻场人员的管理也很严格,每天8点半上班要指纹打卡,封闭会议室办公,要自己保持桌面清洁,否则罚款甚至通报批评。客户给的IT支持比较少,我们工程师都说,驻场的SDE(Software Develop Engineer)实际上是Someone Do Everything,跟原来在自家公司的时候比,驻场干的事太杂了,还说这没有延续性,不利于他们技术发展。现场要跟客户沟通,接口方案总有些技术上的分歧,人家好歹是甲方啊,我不提醒吧,有些工程师能让客户下不来台,我说他两句吧,人就说驻场要看客户脸色,不想干了。结果这个项目还没做到一半,比较资深的两个AI工程师就回去了,只好换了几个毕业没多久的顶替,项目进展很慢,搞得客户很不爽,别给我搞烂尾了,哎。”

BAT另一朵云的行业售前总监、最近绞尽脑汁往自己行业里集成AI元素的老W说:

“有一次客户让我们做AI的项目POC(Proof of Concept,可行性验证),要比较高级的人驻场。我好说歹说,找我们AI研究部门借了几个人,出差去客户那边干了一个半月,结果项目没成。以后再找他们,就再也不愿意搭理了。人家本来就不爱参与客户项目,又发不了paper,这么贵的人工成本花出去了,还不一定能捞到年终绩效上能记一笔的业绩。他们说,可从来没出过那么长时间的差。”

听起来很棘手,A公司的算法工程师到B公司驻场,交易成本太高了。但驻场这件事并不新鲜,从软件行业诞生的第一天起,研发和服务人员就在企业里驻场。参考软件行业过去的办法,有3种解决的模式。

一是客户组建自己的团队,这个交易成本为零,在传统行业大型企业、互联网的大中型企业中比较常见,但企业的组织成本很高:算法的人能否融入传统行业的体制和文化;算法的人这么贵,会不会打乱原有的薪资体系;这么贵,企业有没有能力让他充分发挥出作用来。

二是AI ToB公司的工程师去客户那驻场,也是目前行业内的主流模式。问题就是算法驻场带来的交易成本太高,很难持续,很难大规模铺开。

三是通过AI产业生态中的合作伙伴来驻场,也就是传统软件行业中的集成商(SI)。这些SI更适合完成驻场的任务:公司团队分布在全国各地,出差的问题要少很多;人员外包驻场的管理运行机制非常成熟,跟客户关系好,甚至知道怎么对付客户打卡记工时的要求。但当前的问题是,传统意义上的SI很难招到有经验的算法工程师,通常只能做些数据清洗、业务上的对接开发、工程上的部署维护,做不了算法模型的调优。正因为如此,AI公司也就无法做到真正意义上的产品化(从业务运营角度的产品化),因为客户项目的POC、交付和维护环节,自己都脱不了身,也就无法大规模的扩张。

AI在各行各业的商业化,就是在一路打怪过关:只吹技术不泡客户,就摸不准行业痛点;找到痛点了,搞不定优质足量的数据,就做不好效果;搞出效果了,如果客户之间业务数据差异大,就抽象不出标准产品;即便是功能上做出标品了,自家渠道生态里没有能搞算法的交付伙伴,也做不到产品化规模化发展。

吴恩达那句著名的话,Gary Marcus给了一个更靠谱的修改版(见本节引言),但或许还可以这样改:“如果普通人能在不到一秒的时间内完成某一项脑力工作,那么我们很可能可以在现在或不远的将来用AI将其自动化,至少可以找到一个符合条件的客户,把我们最贵的算法科学家砸进去,做一个demo出来。

六、几度春秋:水暖谁先知

交谈起来不会让你有挫败感、真正能理解你意思的个人虚拟助理,不会因误解语言而犯错的翻译机器,灵巧而柔软、能把碗碟拿到洗碗机里放好的机器人……做出这些东西来,如果花的时间太长,比投资人或研究者所期望的时间更长的话,就会出现AI的冬天。但也不会是一个彻头彻尾的寒冬了,围绕机器学习已经存在一个巨大的产业,这些产业不会就此消失。
——Yann LeCun,2018年5月接受Bloomberg采访


亭亭白桦,悠悠碧空,微微南来风。
木兰花开山岗上,北国的春天,啊,北国的春天已来临。
城里不知季节变换,不知季节已变换。
妈妈犹在寄来包裹,送来寒衣御严冬。
故乡啊故乡,我的故乡,何时能回你怀中。
——日本歌曲《北国之春》

2018年8月发布的Gartner技术成熟度曲线中,这轮AI的代表性技术——深度学习正在“期望膨胀(也可说是泡沫)”的顶峰,往后的期望值会加速下落到幻觉破灭的谷底,再随着商业的成熟而缓慢回升。如此说来,这轮AI浪潮已是强弩之末,马上要入冬了吗?

实际上,在潮水当中,不同的人由于立场和经历不同、接触信息深度和先后不同,会感受到不同的温度,而温度的传导又是需要介质和时间的。我们换一个视角来画AI的曲线:

先看资本,一级市场已经走出明显的下行趋势。根据亿欧2019年人工智能投资市场研究报告,2019年1-5月,AI行业投资总额163.4亿元人民币,平均投资额2.1亿元/笔,较2018年的4.2亿元/笔下跌50%。2019年1-5月投资频数是2018全年的23.7%。

再看媒体,AI专业媒体跟从业者和投资圈走得近,体感温度是类似的。而大众媒体热度并未减退,后续如果再出现索菲亚机器人公民,或者脑机黑客帝国这类事情,恐怕还能再火上几次。

arXiv数据库,类别为人工智能的论文数量

在学术和教育界,对AI的重视程度仍在攀升,从人工智能论文数量的增长就可见一斑。而2019年3月,中国教育部下文批示:今年全国共有 35 所高校获首批人工智能新专业建设资格。

至于AI的行业客户和从业者,如果按不同行业、不同规模、不同应用场景来划分,会分布在不同的曲线位置。例如互联网推荐和广告应用很成熟,安防行业挣到大钱了,他们算是跳过了幻觉破灭期而直接进入了平台期;而信息化程度较低的一些行业或中小型的企业,可能刚开始接触AI,期望值还在上升期;自动驾驶、金融、教育、医疗等行业则分布在中间地带。此外,同行业的不同企业和机构对水温也会有不同的感知。某AI技术公司的市场负责人老D说:

“虽然AI也做烂过一些项目,但客户需求还是源源不断的,因为面上的口碑不会差到哪去。技术乙方抓住一个成功案例,甚至某个特定条件下的优化指标就能吹3年,哪怕其他条件下的数字没法看。甲方也得说好话啊,即使AI不能上线真正用起来,至少还完善了数据体系、提升了信息化、锻炼了队伍吧,否则他在内部领导那儿怎么交代呢。成功不成功,官网新闻都会成功的,对甲乙双方都好,甲方也需要这个PR。……况且,每个机构内部的场景、数据、要求确实不一样,不试试总是不知道好坏的。头部企业做完了做二三线,二三线做完了还有政府事业单位,客户尤其是领导对AI的期望值还是有的。”


回到Gartner曲线的五段论。Phase-2夏天的高温,是由于不切实际的高估(或鼓吹)了AI能创造的价值和发展速度,同时有意无意的低估(或忽略)了实现的难度、成本和所需的时间。Phase-3从盛夏极速降温直接入冬,则一定是发现并证实了现实与期望之间的马里亚纳海沟,通常有几个标志性事件来摧毁信心。而如果想略过3直接到Phase-4/5,那就得在资本和产业相关机构彻底心灰意冷之前,尽快实现AI的应用价值

那么,这一次不切实际的高估是怎么发生的?现实与期望的鸿沟都有哪些?AI还有机会从Phase-2直接跳到4吗?

科技智库甲子光年在《科创板,一瓶AI的卸妆水?》【21】中总结了这波AI浪潮不同阶段的估值公式。我们借此为线索,来看高估的期望值是如何累积起来的。


V(2012-2016)=f(算法,人才)

在Phase-1,深度学习在学术界取得突破,但尚未被大众广泛认知,创业公司还没有产品甚至没有demo,估值主要看技术奖项、科学家名气和团队博士数量。此类公司的特点非常鲜明,绵延流传至今。

能源行业的一位资深咨询顾问老Z说:

“(2019年)5月份我去中石油搞的一个行业论坛,CV四小龙之一的某公司上台做报告,PPT前5页都是创始人简历,还有团队骨干哪哪牛校毕业的、赢过什么国际大赛、平台有什么先进算法、技术指标百分之多少、这率那率的,过了十多分钟才开始讲能源相关的内容,一共才20分钟的讲话啊。这气质,在这行业论坛里真是独一份呢。”


V(2016-2018)=f(算法,人才,市梦率↑,行业地位↑)

Phase-2,AlphaGo横空出世吸引眼球后,迅速推高了全社会对AI颠覆世界的期望,估值也一路推高。看到AI下棋赢了,就以为机器人很快会抢走大部分人类的工作;看到一个demo跑的不错,就以为能用在企业实际生产中;看到一个客户案例,就以为能快速复制到整个行业。从而,想象的价值空间可以无限大,因为全行业全人类的市值都可以算成AI产业的基数。而这样美丽的“误会”,不仅发生在大众、媒体、资本和客户身上,也让身在此山中的AI从业者产生了激情与梦想——没准儿真可以呢。

历史总是惊人的相似。在AI入夏的这个阶段,可以看到dot-com泡沫年代或AI第二次浪潮中发生过的各种现象。各行各业的公司都在想办法贴上AI的标签,只要挂上羊头就能拿到更高的估值或补贴,反正AI也没有严格的定义。生产GPU服务器的硬件公司市值也水涨船高,产量自然也加速扩张。看到企业为AI科学家和工程师开出的价码,不少程序员和大学生竞相转型,各种AI培训班也应运而生。特朗普在贸易战背景下签署行政令,倡议美国要保持AI领导地位,美国国防部也很配合,立马给出AI发展策略,后续自然少不了DARPA的大手笔资金。而且这一次,超越历史的是,美国不光现任总统关心AI,连未来的总统候选人在选战中也打出了AI牌

将在2020年竞选总统、曾在2000年干过dot-com创业的民主党华裔候选人Andrew Yang,把AI作为他竞选纲领中的重要武器,声称AI等新技术会消除三分之一的人类工作岗位,因此要给每个人每月1000美元的全民基本收入(UBI)。这与比尔盖茨2017年提出的向机器人征税的想法不谋而合。在华尔街日报的采访中,Yang预测了AI会从Phase-2直接跳到Phase-4或5,原话是:

“AI即将走出实验室的炒作阶段,真正变成有用的产品,这将影响到数百万的工作岗位……我们需要让美国人民觉醒,夺走这些工作的,是新技术而不是移民。”

他还在跟硅谷的OpenAI组织会面之后,发表文章《AI AND AMERICA》说:“美国在AI研究领域有落后的危险……中国靠政府资助建设了‘AI岛’,可容纳数以万计的计算机。”就冲着这位Andrew,美国媒体在AI话题上暂时也不会熄火了吧。


V(2018)=f(算法↓,人才↓,市场空间↑,数据↑,行业地位↑)

V平台=f(合作伙伴/开发者数量,调用次数,调用均价,数据量)

V应用=f(市场空间,客户数,客单价/单次调用价格,年订单总额,复购率)

V= V平台+ V应用

在Phase-2末期以及2到3之间的转折点上,由于2018年资本市场萎缩,钱少了,钱更现实了,看市梦率的自然也少了,市场逐渐回归价值。但价值如何衡量?软件行业的常规指标是P/E(看利润)或P/S(看销售收入),而AI公司多数尚未盈利,或者利润较少且极不稳定,所以只能用P/S。这一阶段,许多AI公司的估值往往是年销售收入的好几十倍,高出二级市场的软件公司P/S很多,根据中信证券英博前瞻文章,美股软件板块市值10-30亿、30-100亿、100亿美元以上的公司,P/S分别为3.8、6.8和7.6倍,SaaS云计算平均也才10.7倍。AI公司抛掉市梦率和博士数量等估值因素后,算起来有点尴尬,那只能再想办法把收入做高,把P/S降下来,才能让资本继续买单。AI做收入,一靠努力,二靠财技。

自己创过业、做过VC、现在混FA的小L说:

“你说的dot-com时代的那个Winstar,老外那点手段算什么?别说收入和EBITDA可以做出来,利润也可以做出来。战投做单了解一下,对赌自充值了解一下……(此处省略1000字)”


不管怎么说,期望值已经到了这个份上,AI产业在现实中要做到怎样,才能缩小期望落差,延缓甚至避免冬天的到来呢?

学界代表李飞飞和LeCun认为,要避免冬天到来,就得继续加快AI基础研究,取得更大的突破,在产业应用中打破弱AI的局限性。这或许也是他们分头辞去Google Cloud AI负责人和Facebook Fair主管职务,更多回到研究中来的原因之一吧。其中,李飞飞专注在AI可解释性方面下功夫,LeCun则是坚持“以发展的办法解决发展中的问题”,做下一代的深度学习——“看视频学知识”自监督预测学习,利用强化学习+关于世界的模型(RL with a learned internal model of the world),通过假想模拟来做trial and error,如果世界模型不能涵盖的,再用传统RL来做试错,大大降低试错的时间和成本。此外,LeCun的自监督学习不需要大量的数据人工标注,而是从数据中自动提取弱标注,同时预测出剩余的标注,也解决了数据稀缺的问题。

LeCun主打的自监督预测学习,对世界的模拟

当然,还有Gary Marcus极力推崇的在深度学习中加入更多innateness或者structures的各种方法,也在朝着更通用AI的目标前进,例如Deepmind和Google等机构联合提出的图网络GNN(Graph Neural Network),用深度学习来对知识图谱进行操作,并获得新的知识,其中的知识图谱有部分是专家预置的(input),部分是学习出来的(output)。关于“神经网络+符号推理”的更多方法,详见《Neural-Symbolic Learning and Reasoning: A Survey and Interpretation》

当年的科研突破是这一次AI浪潮的基础,如果真能在大金主们(资本、大企业、政府机构)失去耐心之前取得实质性成果,那将是人工智能的另一个春天,也许,也是最后一个春天。

然而,原创性基础研究所需的时间和成功概率极不可控,就连乐天派LeCun也坦承目前进展较慢,估计要“2年?5年?10年?20年?”。那么,在AI的产品和商业化领域,有没有缩小现实与期望差距的办法呢?


P(winter is coming) = f(Gap) = f(Expectation – Reality)


降低入冬概率最简单的办法,就是在别人发现并证实这个差距之前,抢先主动降低期望值。这招理论上成本和风险最低,认个怂就行,能有多难?

2019年4月,Elon Musk在特斯拉的投资者见面会上,很有勇气的宣称将在年内实现Level-5自动驾驶,明年二季度,司机就可以100%释放双手和眼睛,2020年将有100万辆特斯拉自驾出租车在路上载客。然而,被认定目前仍处于Level-2或2.5的Autopilot系统,如何在短时间内升级到Level-5,见面会上并没有给出任何说明或演示,而且,本次见面会一个多月前,一位特斯拉Model 3司机刚在高速路上用Autopilot驾驶撞卡车死亡,在这样的背景下,Musk还要硬着头皮给投资人如此的高期望,他是想不开吗?为了兑现自己2017年说过的两年实现Level-5的承诺,就不惜背上巨大的交付压力和生命安全的责任,非得追加一个mission impossible的承诺,以此来续命一年吗?

这个话题可以展开很多,但一言以蔽之,上山容易下山难,大环境(资本、银行、客户、供应链、渠道、团队、媒体等等)给Musk们预设的路线只有一路向上,山顶有豪华专机接你。创业如此,投资如此,大公司里的业务部门亦如此。主动降低期望值,或许可以避免崩盘,提高活下来的概率,但不一定是Musk们以及他们周围的人想要的活法。务实,是冬天里的美德,而有趣的地方在于,如果在入冬之前想通过践行这一美德来避开冬天,反倒有可能加快冬天的到来。

因此,降低期望值这个“避冬”手段能否奏效,归结为一个问题:大环境可以给务实认怂的美德更多的机会吗?


另一方面,“避冬”寄希望于提升AI在现实中的应用价值。

AI产业从2015年热到今天,各行各业几乎都有人尝试过了,大面上看都有场景、有需求,但就是做不好、做得慢、不挣钱。究其原因,还是上一节提到过的AI供需三大落差。

首先,想象中的大数据与现实情况的小数据、脏数据、假数据、违规数据、孤岛数据之间的落差。

解决小数据,靠行业信息化,而且是带着数据意识而建设的信息化。

解决脏数据假数据,靠堆人,而且是往客户现场堆大量的人。

解决孤岛数据,靠企业之间利益交换,或政府发文要求。此外,Google最早提出、近期AAAI Fellow杨强教授力推的联邦学习,也是一种折衷的解决办法(不换数据换模型,舍部分精度,保数据隐私)。

其次,AI训练测试数据跟实际运行环境数据之间的落差。

这个落差反映到实际应用当中,会造成AI跟传统软件工程完全不同的不可测、不可说、不按合约办事、调试永无止境的“技术债务”,导致项目投入大、做不好、做不完。

数据落差是不可改变的现实,必须要自动适应新数据,这本来就是机器学习出现的初衷。解决或缓解问题的办法只能从科研和工程上突破Google论文《Machine Learning: The High-Interest Credit Card of Technical Debt》中指出了几种解决方案,并倡议学术界和产业界把更多的科研力量投入到解决这些AI技术债务上来,虽然看起来没有新算法新模型那么性感闪亮,但更有益于AI的长期健康发展。Facebook的LÉON BOTTOU则给出更具体的建议:AI论文的审稿人应该要求论文给出算法的局限性,例如,算法适应哪些数据分布,不适应哪些情况,“强迫”所有人关注算法模型的实际应用场景,共同提高AI在工程中的可用性

Ali Rahimi在跟他眼中的Role Model-LeCun之间的隔空喊话中,也进一步阐明过自己的诉求:深度学习大佬们就像是神话剧中的救世主,一出手便解决别人一辈子都搞不定的问题,但从不多费口水解释;而AI需要民主化,要让更多的人成长为高手,呼吁大佬们花更多的时间,总结自己对深度学习的理解,形成更系统化、模块化、从小入手、以小见大的教学法。

在降低AI门槛的AI民主化方面,近期大火的AutoML走出了跟Rahimi不同的一种思路,通过自动化选择模型和调参,在降低人的参与度的同时,实际上也造了一个更大的黑盒,进一步削弱了对于神经网络内部的理解。

而在软件工程方法上,阿里巴巴借鉴ISO-9126软件质量模型,提出的数据质量模型和相应的测试工具让数据及时性、完整性、准确性、可理解性、可满足性、时间特性等数据质量从不可测到部分可测,从专家经验判断到部分客观量化甚至自动化测试【28】。在注重鲁棒性的自动驾驶领域,也有研究者分析了机器学习规范性和可解释性的不足对安全验证标准化方法的削弱,并基于传统的《道路车辆功能安全标准》(ISO-26262),提出了针对性的安全验证补充方案【29】。这些成果虽然还不完备、不成熟,也算在AI工程化方向上迈出了脚步。

最后,AI ToB项目对于高级算法人才长期驻场的强需求跟此类人才驻场成本和意愿之间的落差。

驻场需求和驻场成本的降低,需要前面提到的AI科研和工程的成果,打造更靠谱、更标准化的AI软件工程,形成低门槛可复制的“套路”。但驻场意愿的提升,并没有什么取巧的办法

2001年互联网泡沫崩溃后,华为决意all in国际化战略,当时的高级副总裁徐直军说:

“干部分为三类,第一类是全世界所有地方任由公司安排,第二类是国内所有区域任由公司安排,第三类是只愿意在国内经济发达地区。我们将第一类干部作为公司优先考虑提拔的人选。”

同年3月,任正非访问日本,思考华为冬天的对策,后在其名篇《北国之春》中写道:

“我曾数百次听过《北国之春》,每一次都热泪盈眶,都为其朴实无华的歌词所震撼。《北国之春》原作者的创作之意是歌颂创业者和奋斗者的,而不是当今青年人误认为的一首情歌。当一个青年背井离乡,远离亲人,去为事业奋斗,唯有妈妈无时无刻不在关怀他,以至城里不知季节已变换。”

后来,任正非还在《以客户为中心,以奋斗者为本》的讲话中说:

“我们所有的一切行为都归结到为客户提供及时、准确、优质、低成本的服务。以客户为中心,道理不用多说了,没有客户我们就饿死了。以奋斗者为本,其实也是以客户为中心。把为客户服务好的员工作为企业的中坚力量,以及一起分享贡献的喜悦,就是促进新客户的力量成长。长期艰苦奋斗,也是以客户为中心。你消耗的一切都是从客户来的,你的无益消耗就增加了客户的成本,客户是不接受的。你害怕去艰苦地区工作,害怕在艰苦的岗位工作,不以客户为中心,那么客户就不会接受、承认你,你的生活反而是艰苦的。”


若能逐步解决关于数据、工程和人的这三大落差,就能聚焦重点项目做出效果,做出效果后形成产品化规模复制,不光功能可复制,而且交付服务可复制。这就是提升reality价值从而“避冬”的理想途径。

既然是“理想”,能否成立,还得归结到以下问题:

AI科研能否放下“模型指标提升百分之几”的执念,花大力气在AI软件工程的技术债务方面形成突破?AI大佬们能否沉淀出跟其他行业(如光学、机械)同等粒度的、系统化的AI教学法,改善炼金的现状?

联邦学习、AutoML等新方法在生产应用中能否生效,现实数据条件是否满足,在使用的同时不过多损失其他指标?

要等各行业信息化程度到满足AI数据要求的那一天,是否太久?要只争朝夕,如何借助行业IT服务商的力量,打包信息化+数据化+AI?

AItoB的最后一公里,AI公司自建交付服务团队的组织成本太高,能否找到这么多具备数据算法调试实施能力的集成商?或者,如何根据自家平台特性和规范,打造模板化低门槛的方法和流程,帮助合作伙伴多快好省的建设数据算法实施团队?帮助完了之后,如何防止伙伴用这些能力来给竞争对手干活?

在这里,又想起搞能源那位资深顾问老Z说的话:

“我们是BAT的ISV,也做过他们的集成商,但我不喜欢BAT。以前他们不懂ToB,所以不愿意跟他们合作;这两年他们懂一些了,但我还是不喜欢。因为好的人都被他们抢走了,更重要的是,把人才价格和心态都炒高了。”

……不管想什么招数,如果符合能力要求的数据算法工程师还是太贵,最后一公里招不起,是否必须等到冬天人才降价之后,这个“理想”才能实现?


终归还是回到那个话题:2019,AI真的要入冬吗?

有人已经在过冬,有人正忙着秋收,有人还在炎炎盛夏开暖气,有的人在孕育着下一个春天。人类的悲欢并不相通,每个人的答案也都不尽相同。

在这次AI浪潮向峰顶攀登的途中,李飞飞曾有过这样的思考:

人们把80年代和当下视为两次“AI的春天”,因为在这两个阶段,专家系统和深度学习两度掀起了对AI的兴奋感、投资、创业、人才战争、媒体关注等各方面的热潮。而我更愿意称之为“AI的夏天”,而不是春天。在我看来,AI的春天是这两次夏天之间,从90年代到21世纪初,“百花齐放”的这个阶段。学术界一边享受这份难得的清静,一边产出各种新的想法和模型。
许多基础理论和原型在这时候涌现出来了:图像分类、物体识别、场景理解、3D重建、优化、图像模型、SVM、神经网络、推理算法、开源数据集、基准测试挑战……与媒体所愿意渲染的冬天景象不同,我们在这一时期提出并检验了许多新的想法,围绕这些想法进行了许多辩论、检查、质疑、提升、进一步提升和传播。
诚然,这些只是原型,还不能满足工业产品的可伸缩性和精确度要求。但回首看来,今天的深度学习、AR、VR、自动驾驶等技术都来源于此。在这一时期培养出来的学生和研究人员,也成为了当前AI和机器学习产业研发的中坚力量。
因此,我的观点是:AI有夏天,很好,但我们要认识到持续投入基础科研的重要性,我们要尊重科技发展的规律,继续加强AI学术研究和AI技术人员的培训。
——李飞飞,2016年7月11日Twitter“周日沉思录”

而回看2000年dot-com的崩盘,并不是互联网技术的崩盘,而是“人人都要做.com”的崩盘。两年以后,在冬天生存下来的Google,以贴近底部的成本雇来了大批的硅谷互联网工程师,并以搜索商业上的突破,成功定义了互联网技术Hype曲线的Phase-4,顺便让互联网女皇“被黑”的某些理论也得到了平反。

华为在2001年控制住人员规模,卖掉安圣电气,公司454个总监级以上干部“自愿”降薪10%。然后,在泡沫破裂导致光传输过剩的情况下,抓住朗讯北电等巨头撤出的机遇,实行鸡肋战略,啃巨头们扔下的骨头,从低端光传输做起,扩展到中高端,并利用光接口标准化程度高的特点,进入英法德印等大国。终于,2005年YouTube大带宽业务的出现,让华为等到了光传输市场的又一个春天。

第二次AI浪潮中做LISP并行机的Danny Hillis,五代机失败后成立新公司,沿专家系统的语义技术路线做知识图谱,后被Google收购,成为Google Knowledge Graph的基础,发展出上千亿的实体规模。2018年,他又在MIT启动新一代知识图谱The Underlay,建设分布式、来源透明、机器可读的公共知识库,有望成为下一代“神经网络+符号推理”AI的基础设施之一。

(全文完)

参考资料

  1. 汤圣平《走出华为》
  2. 华为总裁办陈培根《华为价值观和成长驱动力—理性与平实》讲述内容
  3. Jack Willoughby,《Burning Up》,美国《巴伦周刊》,2000年3月
  4. 《Hear No Risk See No Risk Speak No Risk》,Fortune Magazine,2001年
  5. 《Where Mary Meeker Went Wrong She may be the greatest dealmaker around. The problem is, she's supposed to be an analyst.》,Fortune Magazine,2001年
  6. 《How Did They Value Stocks? Count the Absurd Ways; Those Lofty 'New Economy' Measures Fizzle》,NY Times
  7. Pamela McCorduck, 《Machines Who Think》
  8. 尼克,《人工智能简史》
  9. Open Philanthropy Project,《What should we learn from past AI forecasts?》
  10. Tom Alexander,《Teaching Computers the Art of Reason》
  11. Ali Rahimi's talk at NIPS(NIPS 2017 Test-of-time award presentation)
  12. Gary Marcus & Ernest Davis, 《Rebooting AI: Getting to AI We Can Trust》,2019
  13. Yann LeCun,《My take on Ali Rahimi's "Test of Time" award talk at NIPS》 ,2017
  14. Gary Marcus,《Deep Learning: A Critical Appraisal》,2018
  15. Artificial Intelligence Debate - Yann LeCun vs. Gary Marcus - Does AI Need More Innate Machinery?
  16. 《Relational inductive biases, deep learning, and graph networks》,2018
  17. 《Machine Learning: The High-Interest Credit Card of Technical Debt》
  18. LÉON BOTTOU,FACEBOOK AI RESEARCH,《Two big challenges in machine learning》,ICML 2015
  19. Gartner Hype Cycle
  20. 亿欧,《2019年人工智能投资市场研究报告》,2019
  21. 甲子光年,《科创板,一瓶AI的卸妆水?》,2019
  22. Facebook VP & Chief AI Scientist LeCun on Advancing AI
  23. We analyzed 16,625 papers to figure out where AI is headed next,MIT Technology Review
  24. ANDREW YANG WANTS TO GIVE YOU $1,000 A MONTH AS AI DEFENSE, Wall Street Journal
  25. 中信证券英博前瞻,《Salesforce收购Tableau的启示:美股软件公司进入整合期》,2019
  26. 《Neural-Symbolic Learning and Reasoning: A Survey and Interpretation》,2017
  27. 《Musk Unveils Audacious Vision For Tesla Self-Driving Tech, But Level 5 Target Looks Unlikely》,Forbes,2019
  28. 阿里技术,《“做好大数据测试,我是认真的!”》,2019
  29. 《Using Machine Learning Safely in Automotive Software: An Assessment and Adaption of Software Process Requirements in ISO 26262》,2018
编辑于 2019-08-25

文章被以下专栏收录