闲来无事写了个小玩意+看知乎历史数据下载

闲来无事写了个小玩意+看知乎历史数据下载

前天又看到有人在发各种玛丽苏文的雷人片段节选了。忽然灵光一现,正好因为最近业余时间闲下来了,研究一点 .net core。于是就写了这么个小玩意:


玛丽苏文本加密器


用法一看就明白,就是把任意文字转换成璃莹殇家族的姓名,也能转回去。


而且代码也是开源的,随便拿回去修修改改加点功能就能做一份自己的加密器了。


GitHub - marysue-encoder


那么下面是重点:我把从2013年11月开始的「看知乎」数据库导出并传到百度网盘了,下面就是地址:

洛倩·可墨妲缈萦血安·之弥燢萦筱·威·萨心基璃·血芝冰茜嫩悠曼璃·怡巧渺慕茜白莉·浅幽嫩温萦沫璃·乐血璃·月苏月依璃·浅霜之蕊玖莹·晶曼蔷苏·迷妙璃·曼颖思绯璃·冰优璃·巧城馨吉丝哀安·香塔·美多叶风泪语莹·白眉樱爱·朵·魂颜璃


共1.48G,格式为gzip压缩的mysql脚本,复制到本地或服务器后使用类似下面的命令导入:

gunzip < zhidata.sql.gz | mysql -uroot -p123456 zhihudata

记得将root、123456和zhihudata改成自己的用户名、密码和库名。

数据量较大,导入时间可能会以小时计,请耐心进行。



导入之后的数据加索引一共是7.4G,分为三个表:

  • users:用户基本信息(127,366条)
  • snapshots:按日抓取的快照信息(1,048条)
  • usersnapshots:每日快照中的用户数据(60,060,427条)

数据在「看知乎」爬虫运行的日子里从来没有中断过,但曾经因为各种原因,少数快照出现了较大规模的数据缺损,导致当次快照丢失了三分之一甚至更多的数据。但出现几率不超过1%。其余大部分快照仅有极少数丢失现象,在做数据分析如果发现一些意外的数据增长或减少,应考虑数据缺损问题。

mysql在这个数据量和索引设置下,做基本查询没有问题,但较复杂的联合查询可能会有压力。如果确实有需求,可以导出到其他数据库或者编程解决。



这是我在知乎抓取数据这么久以来留下的一点史料,有兴趣者可以尽情对此进行挖掘,希望你们能用更聪明、高效的方式,分析出比我更丰富、更详尽的事实来。



不做数据分析的也不要紧,大家一起来玩玛丽苏密码吧。

「璃莹殇爱你哟❤」
13 人赞赏
快乐的男孩
瘋子唐
LIcheao
林浩波
左勇江
一方面面
qiao
翟ckson
文章被以下专栏收录
150 条评论