数据告诉你,知乎Live哪家强?

数据告诉你,知乎Live哪家强?

LucasXLucasX

前言

近年来,随着网民版权意识与对优质内容付费意愿的逐步兴起,2016开启了知识经济的元年。分答、得到App、知乎Live是其中最具代表性的产品。


知识经济是风口,于是大家一窝蜂地想来分一杯羹。以知乎Live为例,饱受诟病的是平台上大量低质量Live的产生,因此用户很容易被“收智商税”。


鉴于此,本文利用数据分析机器学习的方法,来为知乎Live平台用户提供作为甄别低质量Live的方法。


训练机器学习算法需要用到大量带标记的数据,数据标签即可认为是该Live的评分;利用爬虫抓取知乎Live平台上已举办的Live信息,共计4433条,数据存储至MongoDB。本文主要成果如下:

  • 利用爬取的数据训练机器学习回归模型,使其具备对待举办Live的得分自动预测
  • 利用清洗后的数据建立算法,计算知乎Live主讲人排行榜
  • 多维数据可视化

数据可视化

图1:Live领域标签
可以看到,教育、职业、互联网、金融与经济、生活方式 所占比重是最大的。
商业、法律、设计、体育 相关领域的Live数量则相对较低。


图2:Live评分分布
去除评分为0(即评分人数不足)的数据,我们得到了知乎Live的分数区间分布。
可以看到,绝大多数还是处在右侧4分以上区域,一定程度上反映了听众对主讲人的认可。


图3:Live价格分布
Live单价方面,大多数主讲人将价格定在了 ¥9.99、¥19.99、¥19.00 ,整体价格处于较低的范围,容易形成比较广泛的受众。


图4:主讲人性别比例
性别方面,男性以绝对的优势领先,男女主讲人比例约为7:3


图5:不同领域Live得分中位数
通过对不同领域的Live评分进行统计得到中位数,我们发现,
体育、医学健康类的Live质量普遍较高;而商业相关的Live评分相对较低

基于机器学习的Live得分自动预测

如果读者对机器学习这一科技领域目前最热的名词有所了解的话呢,就会知道对Live的打分可以视为一个回归问题,即对连续值的预测


简而言之呢,就是从之前所有的知乎Live历史数据中进行学习,使算法能够对它在将来“看到”有举办的Live时,自动给出对该Live的预测得分


再简单一点讲呢,就是这样的:假设你将来在犹豫某场Live要不要参加

你已知的有这些信息:

主讲人基本信息(包括粉丝数、关注数、是否有黄V/蓝V 认证?粉丝数里大V的数量、被知乎推荐收录的答案数量、专栏数量、已发表文章数量、已发起Live数量及其评分、评分人数中正常用户的数量等等);

算法会给出对该Live最终可能得分的预测值,比如算法预测出该场Live最终得分为4.12,该分数说明算法认为该Live属于高质量Live,那么你就可以参加

例子中,该真实Live的最终得分为4.2,我们的算法预测值为4.12,误差仅为0.08。


BTW,如果读者对机器学习不感兴趣,下面的这段描述可以暂且跳过吧~


我们利用pandas进行数据清洗(包括NAN值的填充处理、异常值的处理等等),归一化,提取特征。选择Ridge Regression模型,在没有进行细致的特征提取情况下,初步测试算法MAE值为0.3,效果还算看得过去,但依然还有提升空间;后期我们会逐步完善特征提取,并将最后 10-fold cross-validation 最佳结果训练得到的模型发布出来供大家甄别低质量Live。


主讲人排行榜

该部分主要介绍对已完结历史Live数据的分析,从而给出主讲人的排行榜单。考虑到知乎大V作为意见领袖的影响,以及可能的数据统计偏差。我们仅提取 评价人数>100人 作为统计样本。(数据截止2017-10-29)

图6:TOP 25优质主讲人及其Live

以上是 TOP 25的 优质主讲人。
其中, @惊奇影像 荣登榜首@数学建模老司机 荣获优质主讲人亚军@魅惑蓝心 荣获优质主讲人探花


图7:TOP 50优质主讲人及其Live
除了以上TOP 25以内的第一梯队得分在4.9分以上的优质主讲人,TOP 50以内的都是优质Live内容输出者;他们排名如图7所示。


图8:低质量Live
图8为代表性的低质量Live及其主讲人,就不一一艾特了。


完整的排行榜单可以在这里查看:

主讲人排行榜


结语

知乎Live是个很好的平台,既可以让优质内容创作者可以得到相应的回报,又可以让初入某个领域的小白少走一些弯路。不管是作为某个领域的高手还是小白,谁都有刚入门时摸不着头脑的时候,但恰恰是刚入门的小白最容易被“成功人士收智商税”。因此本文的主要目的就是希望通过算法、对所有知乎Live的历史数据进行挖掘,能够给读者在甄别低质量Live的时候提供一些有用的信息。


另:关于算法、源码、数据、图表,由于目前算法还在逐步完善中,等调试出最佳结果后,过阵子会全部开放出来~


刚发现 @路人甲 也写过一篇利用数据分析甄别Live质量的文章不交智商税,如何判断一场知乎live的质量?,大家可以去看看。


下一步

感谢知友 @张皓翔 的提醒与建议,因知乎Live平台自身已关闭对某些Live的显示,因此本文所涉及到的数据可能存在遗漏,欢迎优质主讲人提供满足Live排行榜单有力的证据,我们会在第一时间更新您的数据。


此外,任何平台都存在着不同程度的“水军”现象,因此下一步我们要做的就是采集更大量、更多维度的数据,对于Live的恶意刷分或同行恶意差评,我们的算法会集成对水军的自动识别。从而使得该榜单更加公平、公正、公开。


另:欢迎各路感兴趣的小伙伴一起加入并维护!

「真诚赞赏,手留余香」
1 人赞赏
郎瀚威
文章被以下专栏收录
20 条评论
推荐阅读