知乎中的近义词

近义词,看上去一个很简单的东西,但其实它可以反应一个社区的文(黑)化(话)。比如轮子在中文维基中的近义词是车轮,但在知乎中的近义词是vczh。又比如贵知在知乎其实是知乎的意思,而在其他地方都没有这样的情况。这里面有很多有意思的东西。为了方便大家挖掘一些奇怪的近义词,我们用知乎的一些答案训练了一个机器学习模型(Word2Vec),来把意思相近的词归在一起。比如“知乎”的近义词是:

咦。。好像混进去了一些奇怪的东西。。草地和石榴为什么要成为一个缩写呢,和知乎又有什么关系。。你们可以自己去试试哈,猛击此处:知乎 的知乎近义词@lau phunter提到,另一个萌萌的近义词是 谢邀。

看上去简单的近义词分析,其实有很多可以让知乎变得更“聪明”的应用,比如:

  • 错别字改正。一个例子是通过“知乎”的近义词,我们可以看出“知乎”和“知呼”其实是一个意思。那么下次用户在搜索里输入“知呼”的时候,搜索引擎就可以把“知乎”也加入关键字,这可以让搜索引擎聪明很多。
  • 标签推荐。我们的近义词模型已经可以认出来希拉里和川普是一对近义词(抛开政治立场,这俩都是总统候选人)。比如我们发现一个问题的答案中反复出现了一坨类似“希拉里”,“床破”,“川普”这些意义相近的词,那就可以向公共编辑者推荐“美国大选”这个标签。或者,我们不公开地给问题加标签,而是默默地在搜索数据库里面标注“这个问题很可能和美国大选相关”,这样搜索和相关问题都会智能很多。
  • 干货鉴别和答案排序:干货型答案其实有很多共同特征,比如很多表示逻辑的连词。而这些连词在模型里都是近义词(所以 的知乎近义词)。所以基于这个模型,我们也可以做一些干货鉴别的尝试。而这对于答案排序是非常关键的。目前知乎的答案排序非常依赖用户的点击反馈,这样一些新答案即使质量很高,但因为没有赞同也很难排到前面被更多人看到。如果我们有能力鉴别出干货答案的话,也可以大幅改善知乎答案排序的这一问题。
  • 更精准的搜索,更智能的时间线。基于这样的近义词分析,我们可以用其他非监督的机器学习方法自动地学出用户感兴趣的“话题”,从而提升时间线的质量。当然,干货鉴别(和我们之前做的美女鉴别)也可以大幅提升各种用户的幸福感XDDD

当然这个模型目前还有很多技术上的缺陷。目前训练用的语料库主要是从之前知乎搜索引擎里面直接抓出来的。这导致:第一,分词的方法用的是信息检索的一套分词,所以会出现一些奇怪的近义词,比如希拉里 的知乎近义词;第二,语料库规模比较小。下一步计划是用更大的数据(甚至可以包括中文维基)重新分词,再训练一个版本。预期质量会再提升不少。

你们也可以积极探索一些有(qi)趣(guai)的近义词,把结果分享在评论里。直接复制地址栏的URL贴上来就好啦~

编辑于 2016-11-04

文章被以下专栏收录