1024 Days

1024 Days

今天是中秋假期的最后一天,也是再平常不过的一天。

「看知乎」的爬虫没发来警告邮件,看来今天也可以不操心它了。

直到中午上了网站才发现有人留言,再仔细一看,所有人的数据都出错了。

当时眼前一黑。

赶忙连服务器、开调试、查源码、找到问题、花了半个小时解决。

当然解决得还不彻底,重新抓数据还要到晚上才能完成。



但回想刚才一团乱麻的时候,为什么我首先想到的不是「赶紧解决问题」,而是花了足足十分钟沉浸在「就这么发条公告关站吧」的想法中拔不出来呢?

从头说吧。



刚才我整理旧数据库时才发现,今天,刚刚好,是我2013年开始正式抓取知乎数据的第1024天。(有心人可以倒推一下是哪天开始的)

很神奇的数字,也是令我回头一想才惊诧「原来这么久了」的数字。

前后横跨四个年头,经历了三个春节,工作变动了好几次,情感上也翻天覆地了一番。反正区区三年不到的时间,回顾起来竟然跟沧海桑田一样。

这1024天,知乎的用户数可能翻了不止10倍,由一个仍然是稍显小众的问答网站,变成了互联网最大的几个社区之一,甚至可以说是最大的信息渠道之一了。

记得2013年,知乎一共只有400多个赞同破千的答案。

现在呢?告诉你,破万的答案都不止这个数字,甚至之前遥不可及的十万也不再是凤毛麟角。

2013年夏天我还是个飙升极快的新人,现在已经过气很久啦。



看过我爬虫源码的人会对自动寻找新人的机制有印象。第一次只抓到不到9000人,经过这么长时间滚雪球式的增加,现在已经超过12万人,而且增速越来越快。

3年左右的快照一共有8000多万人次,收集了600多万个答案,共20多G的原始数据。



回想起来不可思议的就是此前自认为是「没长性」的我,居然坚持了1024天,中间经历几次更换服务器,从国外到国内,一台变成好几台,域名换过去又换回来。这么一堆事都没搞到放弃。

要知道我之前做很多网站博客个人项目啥的可很少有坚持过半年的。

早上起来发现爬虫挂了、网站挂了、用户被封了、知乎忽然改版导致抓不到数据了……这种事没有两百次也有一百次了吧,几乎快成了心病。

随着知乎越来越大,抓取一次的时间也越来越长,一旦出错的代价也就开始大得离谱。随便一次失误就可能会让好不容易积攒起来的连续数据断掉,一想到这点就胃痛。

但无论如何还是坚持了下来,靠着一大堆日志和监测工具给我的及时提醒,在各种忙碌的工作、出差、度假、没有电脑的环境里,虽然因为几次大变动导致了数据稍有缺损,但至少没有造成彻底中断。

虽然偶尔还是有一些小灵感,小改动,但基本样式其实是保持了2014年网站上线时的样子没有动,当初设计的这套架构补丁摞补丁还算能用。

我从开发者变成了一个纯运维者。

去年开始,每当遇到问题时,「算了吧」的想法就越发强烈。

今天可能只是到了一个临界点而已。



另一方面,「看知乎」的影响力,其实远没有读者们想象的那么大,固定数量的老用户几乎占了七八成。其中还不知道有多少是搞营销的来观察最近多了哪些新晋大V可以发广告写软文。

没了这个网站,到底谁最头痛呢?大概最不头痛的是我吧。

此前我已经做了好多准备工作,比如开源了爬虫(质量不高,丢人了,但可以给大家参考参考,知乎的结构又不复杂),开放了API,还做了几次分析报告。寄希望于更多的人对知乎这个信息宝库感兴趣。

也确实有好多人做出了令人惊异的工作,比如语法分析、头像对比、图片搜索、热门答案推荐等等,其中不少是我这个缺乏理论基础的外行人做不到的。



此前我也想过在什么时候对「看知乎」的历史写点什么,不管是严肃也好轻松也好还是认真起来搞点啥也好,偏偏没想到会以这种颓废的形式写出来。让大家见笑了。

下次无论是改版还是帐号及IP有什么变动,就是「看知乎」正式关站的时候了。因为我不会再做麻烦的修改调试,最多是重新登录一次刷新cookie。

关站之后会把用户数据库导出打包下载。不管是有人愿意接手还是仅作分析,都可以随意使用。



过去的1024天是疲惫紧张的,也是有趣、活跃、努力而有回报的,我在其中也受益匪浅,藉此认识了很多人,有了好多机会,无论是个人的还是职业生涯上的。

当然我的程序员本性还在,说不定少了一些束缚,还会搞点别的有趣的东西出来。

那么,就这样吧,大家。

「人民币版的赞」
198 人赞赏
王觉-M2电脑
rundong xiao
诸葛摇扇
王越
张潮
李昭
蓝色微笑
岚风
文章被以下专栏收录
443 条评论