驳「Hadoop 快不行了」


最近几天突然有个说法火了,说 Hadoop 不再权威了,气数已尽了。好些个公众号一顿转发,引来好些人一顿感慨,又在朋友圈一顿转发。


这种文章我一般当放松心情的八卦帖看的,但这次却忍不住要驳斥几句。原因最后再讲,先一条条驳完再说。

1. 信息的来源

两篇传播最广的帖子,都是翻译的英文帖。链接我就不贴了,想知道很容易找到。

我作为一个搞技术的人,自然也是优先选择 Google 和英文的东西。但这并不代表英文的就一定对呀。咱们举个别的例子,喜欢 NBA 的同学,如果逛虎扑的话,肯定经常看到「国外媒体」、「内部来源」之类的消息,但其实不少来源就是个不知道谁运营的 Twitter 账号而已,说的都是些道听途说的东西。

国内有些自媒体,看到是英文来源,就当国外专家发言了,赶紧翻译成中文,再配个震惊体的标题,就等着成爆款了。

而看客们呢,也认来源啊,这么有名的公众号,这么大的 V,他们说的还能有错。就一边转发朋友圈,证明自己时刻关注着业内消息;一边开始焦虑,完了 Hadoop 不行了,我以后怎么混啊。

媒体不验证消息来源,读者又盲目相信知名媒体,这是资讯传播的普遍现象,技术圈也不能幸免。

说完来源,再看内容。

2. 厂商失败不代表开源软件失败

借着最近 MapR 的要裁员和关闭总部的新闻,再结合前些时候 HortonWorks 被 Cloudera 合并的消息,三驾马车倒了两架啦。哪怕合并之后 Cloudera 的股价也一路跌跌不休呀,完了完了,靠 Hadoop 吃饭的公司都不行了,Hadoop 也不行了。

厂商(Vendor)失败,不代表开源软件失败,这么浅显的道理,怎么就那么多人不懂。

是厂商靠着开源软件活,而不是开源软件靠着厂商活。

红帽(Redhat)被 IBM 收购了,也没见 Linux 走下坡路啊。

Data Artisans 被阿里收购,是有不少人表示了担心,但 Flink 的前途依然是光明的,甚至会变得更好。

厂商活不下去,主要是因为商业模式跑不起来,是自己的问题,和用的开源软件没多大关系。

甚至像 Data Artisans 被阿里 9000 万欧收购,不恰恰是正面的例子吗。

投资圈不是流行一个说法吗,一个创业公司有两种成功方式,一种是上市,另一种就是被巨头收购

而开源软件之所以能流行,是因为:第一,解决了实际问题,有用武之地;第二,公开了源代码,所有人都能看,心里踏实,所有人又都可以去贡献代码,让它不断进步。

诚然,很多厂商确实作为重要力量,对开源软件做出了很大贡献。但实际上处在核心位置的是各个软件基金会呀,Linux 有 Linux 基金会,Hadoop 等一堆大数据软件有 Apache 基金会。是这些基金会保证了开源软件能有序的发展。

并且,就算厂商真的倒闭了,为厂商工作的那些人,那些为开源项目贡献了重要代码的人,他们还得继续生活啊。厂商没了,那就去业务型的公司嘛,去 Facebook、阿里,不一样继续为开源软件做贡献。

3. 公有云一统天下?

全世界的大厂都在做公有云了,看亚马逊靠着 AWS 股价都要破万亿啦,还有 Google 和微软,也猛追不舍;再看国内,阿里云在阿里的地位多高啊,腾讯又重新发力搞腾讯云啦,还有一堆二线互联网公司,云和金融也是标配啦。

用云的公司就更多啦,不然 AWS 和阿里云的营收怎么涨那么快,还有谁谁谁好多大公司都在用。

也难怪,铺天盖地这么多新闻,很容易留下「大家以后都会用云」的印象。就是不知道,去年 AWS 的大规模故障,以及腾讯云故障直接拖死了一家创业公司,这两条新闻大家还有印象没有。

公有云没有宣传的那么稳定的,不少公司已经用血和泪的教训,告诉大家核心业务不要完全依赖一家公有云。

公有云的另一个卖点是便宜。用过的人都知道,真便宜吗,算下账,不一定吧。当然,真觉得便宜的可以继续用。

对于大数据公司而言,更重要的一点,是数据安全。那么多数据放在云厂商的服务器里,你晚上真的睡的着觉吗。哪怕不担心数据突然全部丢失了,就不怕数据被偷吗。

数据可是一家数据公司的核心资产,放在别人家里,你真的放心吗?

别听什么专属机器、多少层的安全机制这些屁话。大家都是搞技术的,机器都在人家手上,想弄点数据太简单了。还有安全漏洞,这些年光泄露密码的事就不知道多少了。当然,安全漏洞对是否公有云而言没多大区别,甚至公有云公司会配备更强的安全力量。但对安全而言,毕竟攻比防容易呀,公有云可是比个体公司更大的目标哦。

都不用说另一个打脸的点,有些公有云都提供了原生的 Hadoop,或者稍微改改然后换个名字。

我相信公有云一定会得到越来越多的应用,但从数据安全的角度考虑,从技术通用性的角度考虑,大数据公司都会比业务型公司更加保守。有这些大数据公司在,大数据和 Hadoop 的大旗就倒不了。而公有云本身和 Hadoop 的耦合程度,也决定了两者并不是直接的此消彼长的关系。

4. Hadoop 是个生态圈

真正熟悉 Hadoop 的人都知道,Hadoop 由三部分组成:

  • HDFS,分布式文件系统,用来存储数据
  • YARN,资源协调框架,用来分配计算资源
  • MapReduce,分布式计算框架,用来分布式处理数据

Spark 是用的人越来越多了,很多时候确实快,开发成本更是高出一个数量级。但快是跟谁比啊,MapReduce 啊,不是 Hadoop 啊。最常见的大数据应用场景里,Spark 处理的数据依然存储在 HDFS 上,Spark 依然跑在 YARN 集群上找 ResourceManager 协调计算资源。

至于说 Kafka 替代 Hadoop 的更是可笑,完全定位不一样的东西,谈什么替代不替代。

Kafka 作为数据交换中心,下游分出来两条线,HDFS+Spark 做批处理,Flink 做流处理,多么主流的方案。

从上面的方案也很容易看出来,大数据处理是个很庞杂的系统,没有谁能一统天下,大家各自完成自己最擅长的事情而已。

只不过,以前 Hadoop 作为这套系统的绝对核心,使得其他模块都围绕着它做了很多设计、兼容、补充,逐渐形成了一个生态圈。而现在,Hadoop 的一部分(MapReduce)慢慢退出历史舞台,就像其他模块也一直在演进一样,但生态圈一直在。

至于说 ML 和 AI 要取代 Hadoop 的,甚至说不只是 Hadoop,连大数据都要过时了的,更是牛头不对马嘴,想用热点混淆视听,不值得一辩。

一个具体的技术可能会过时,但一个生态圈只会逐渐演进,因为这个生态圈解决的实际问题是真实存在的。我们也应该随着生态圈一起进步,而不是抱残守旧,指望靠一个技术吃一辈子。


5. 关注度在下降

摆出 Google Trends 或者百度指数的图,然后非常自信的说,看,热度下降了吧,用了的越来越少了,很快就没人用了。

如果这些指数有用,那请你去搜下比特币的趋势图,再搜下相关的对比文章。同样是比特币,你会得到两种完全相反的结论。

一种会告诉你,比特币就是泡沫,你看这图和当年荷兰郁金香的图多像啊,赶紧抛掉。

另一种会告诉你,比特币要涨到 100 万刀,你看现在的波动在过去已经出现过几次了,后来很快又创了历史新高,现在不买就来不及了。

为什么不能从指数下降得出流行度降低的结论呢?很简单,中间没有逻辑支撑,跳跃太大了。

比如有没有可能是大家对技术的掌握慢慢变好了,所以不需要频繁去搜索了。我自己就是这样,刚学的时候什么都不会,离不开搜索引擎,而现在有问题就可以直接在本地查源码确认。

从指数下降这么简单的信息,得出热度下降要被抛弃了这种结论,也是典型的对数据的错误解读(当然,我这里也没有否定可能真的就是热度下降了)。这种事情屡见不鲜。

逐条驳斥到这里就差不多了,其他的零散观点就不浪费时间说了。


回到开头,我为什么要写这么一篇文章呢?又没啥技术含量,又浪费时间,驳斥别人又容易得罪人。

因为我还有些天真的想帮助别人的想法。

我想提醒大家:

不要跟风。我们不求特立独行,但也不要盲目从众。就像学到个网络流行语,就迫不及待乱讲一样,不会让人觉得你多潮多幽默。原创流行语的人才潮,当时的语境下才好笑,而你,只是个复读机(看,不好笑吧?)而已。

不要有思维惰性。我们不求任何事都抱着科学的怀疑态度,但也不要别人说什么都信,哪怕说的人有 100 万粉丝。看到一些观点,尤其是比较有冲击性的观点,先别急着一脸崇拜哇好牛逼啊,或者一脸鄙夷咦什么鬼。结合自己的知识、常识,用数据、逻辑去思考下,花不了多少时间的。

思考事情的本质。我们没有精力对什么事情都刨根问底,但重要的事情需要透过现象思考本质。还是因为思维上的惰性,哪怕确实思考了,也很容易浅尝辄止。这是人性的弱点,很难对抗。但如果这个事情对你特别重要,比如都影响到你后面的职业规划了,那就非常有必要仔细思考了。

其实都是些非常浅显的道理,浅显到我通常都不屑于说。但是大部分人都做不到。但也正因为大部分人都做不到,只要你做到了,就比大部分人都强。并且,做起来真的不难。


扫码关注公众号,坚持原创,值得关注。

编辑于 2019-09-01

文章被以下专栏收录