知乎泛00后群体简单分析

知乎泛00后群体简单分析

0x0 解释

本文是之前的《知乎中学生群体简单分析》的回炉重造版本。

泛00后指接近于00后的知乎用户。具体查找策略请看之前的文章《找找知乎的中学生》

0x1 爬取

在soha改进了爬网规则后(加入了爬关注者),重新进行了信息收集,这回以自己为结网起点收集到4837条原始数据。

并且在网络走尽以后还从《找找知乎的中学生》评论中的部分用户开始爬网,,最后结束后还以空参数的情况运行了几次爬虫,直到只显示"Following network ended."和"Follower network ended.",确保队列里的数据都爬完了。最后得到原始数据4888条。然后进行详细的数据获取,数据获取爬行时间2017年02月07日09:30-11:32。

0x2 过滤

首先,因为程序不知道哪里有问题自动排除掉了一部分三无用户,导出数据一共4749条。

因为关键字匹配不靠谱,必然会爬出一大堆的非目标用户,因此对数据中参考数值(参考数值见下文)较大的前200名用户的个人资料进行人工筛选,余下的4000余用户不做处理,因为并不会对结果产生太大影响。

最后经过筛选,最终数据4721条。

0x3 数据综述

样本容量 4721

然后把参考数值定义为(回答数*0.6+赞*0.7+感谢*0.72+被收藏数*0.75+公共编辑数*0.36+关注者*0.8),参考数值>10k的有19人,>5k的有42人,>1k的143人。

回答数最高2348 @视觉空间 ,第二1712 @BreakTheLoop ,第三571@致远峰 。第一第三都因为高三退知乎了。

被赞同数最高28576 @陈窖窖 ,第二27147@施子怡 ,第三26556@小蒋同学 。>10k有14人,>1k有118人,>500有179人。

被感谢数最高7992@小蒋同学 ,第二5897@陈窖窖 ,第三4778@施子怡 。>1k有34人,>500有61人,>100有188人。

被收藏数最高35065@小蒋同学 ,第二15913@Luccica ,第三13542@潘歌嘭 。>10k有6人,>1k有43人,>500有77人。

关注者数最高17491@SUSAN苏 ,第二15933@施子怡 ,第三8013@陈窖窖 。>10k有2人,>1k有20人,>100有173人。

把参考数值>100定义为基本活跃用户,下文会引用这里的概念。

基本活跃用户样本容量 529

0x4 男女比例

其实在样本里面,妹子还是比汉子多。

这是真的……

0x5 话题关注

首先在全体样本里一共有71228次话题关注(一个人关注一个话题算一次话题关注)。

话题关注次数排在前面的多为文艺类型的,如电影、文学、摄影、音乐等,也有科学类的,比如心理学、自然科学等。也不乏职业发展、高中、美食等话题。

0x6 其他人的结论

以下内容应其发表者的要求匿名。

Alice根据《千赞以上99/00后答主及其高赞回答 一览》里面的一些被点名的用户里的回答分析,高赞回答基本上都是体验类的回答,专业知识性不强。

Bob提出,还有一些这个阶段的用户虽然拥有一定的人气,但是在Bob与他们的交流中还发现了一些例如过于功利、自我的性格。

Cindy说,为什么妹子在知乎会更吃香?主要还是因为妹子有爆照,以及奇怪的经历和抖机灵!尤其是长的好看简直吸粉。但是用户群也是妹子多就非常奇怪了。为什么会这样呢?Cindy表示她也不知道。

某从业网络安全的David表示,这个群体中有些人会一点就开始卖弄,卖弄装逼就算了,还都是错的。

更多还可以关注问题 为何有些00后感到和知乎上普遍的00后群体有代沟?,里面有些答主的回答也非常有意义。


0x7 花絮

Soha在人工筛选的时候发现……这有一堆写着“身高一米xx”……嗯“高一”……早知道就该在正则里排除的。后来我查找“身高一”,找到7个……全删了

还有一个“女票14岁”,被爬虫圈出来……

0x8 其他

惯例@参考数值前十五。

@小蒋同学@施子怡@陈窖窖@SUSAN苏@赵奥

@李瑶桐@Luccica@不如不遇倾城色@张旭@潘歌嘭

@安娜乜@BreakTheLoop@SunJungho@DieNasty@滚滚木桶

膜。如打扰,抱歉。


我把我在统计时使用的Excel工作簿导出为网页文件了。欢迎来这里围观:orz.lohu.info/zhihu-00-

0x9 专栏

欢迎关注我们的专栏《00后在知乎》,围观知乎00后答主的知识、经验和看法。

Soha会时不时跑出来卖萌哦w

编辑于 2017-02-11

文章被以下专栏收录