「2017 知乎 · 看山杯机器学习挑战赛」结束,谁获奖了?知乎还会做什么?

「2017 知乎 · 看山杯机器学习挑战赛」结束,谁获奖了?知乎还会做什么?

首届「知乎 · 看山杯机器学习挑战赛」在今年 5 月 15 日开放报名及数据下载,经过 3 个月的激烈角逐,已于 8 月 15 日落下帷幕。

9 月 2 日,我们将在北京知乎总部举办颁奖礼,颁奖礼现场有一个特别环节——「基于人工智能的自然语言处理」主题沙龙。沙龙邀请了创新工场人工智能工程院副院长王咏刚老师,东南大学计算机学院教授、博士生导师漆桂林教授、清华大学计算机系黄民烈副教授、知乎高级副总裁李大海等机器学习和自然语言处理领域的资深专家,和大家现场分享当前人工智能及 NLP 领域的一些进展。点击报名链接即可报名,现场参与颁奖礼。

届时颁奖礼还会在知乎 Live 进行直播,不能到现场的同学,欢迎点击链接领取优惠券免费观看直播。

获奖选手是由我们根据参赛队伍所提交的模型在验证数据集上的表现(成绩及排名链接),而最终筛选确认。为了验证结果,在获奖队伍提交其方法说明及可复现的代码和模型数据后,我们逐一评审了获奖队伍的方法及代码,并且随机抽取其中一些队伍提交的模型,使用另外一份验证数据集进行了结果的验证。通过对获奖结果的复现,我们发现,这些参赛队伍提交的模型都表现出了非常强的泛化能力,在新的评审集上,模型的表现和原有的验证集基本一致。例如:

  • init 团队提交的模型在 leader board 上获得了 0.4341 分的成绩,使用新的数据集进行验证则获得了 0.4346 分的成绩;
  • YesOfCourse 团队提交的模型较多,约有 200 多个;我们随机抽取其中的部分模型进行了验证,其 CNN 单模型在 leader board 上获得了 0.4182 的成绩,使用新的数据集进行验证,则获得了 0.4146 分的成绩;
  • NLPFaker 团队一共提交了近 40 个模型,我们复现了其中 20 个模型的 ensemble 结果,这部分模型在 leader board 上取得了 0.4254 的成绩,使用新的数据集则获得了 0.4237 分的成绩。

等等。

同时,在评审委员会评审获奖队伍所使用的方法时,也发现大家进行了各种尝试,提出了各种解决问题的方法,同时在数据预处理、模型训练、模型集成等环节都提出了新颖想法,非常有亮点。在下面的篇幅中,我们试着总结下这次比赛。


获奖团队

首先需要恭喜本次竞赛的获奖团队。本次比赛共有 7 支队伍获奖,获奖名单如下:

一等奖一名,奖金 40,000 元,获奖队伍是来自北京邮电大学的 init 团队;

二等奖两名,奖金 10,000 元,获奖队伍是:

  • 来自北京邮电大学的 Koala 团队;
  • 来自中科院计算所、Google 和百度的 YesOfCourse 团队;

三等奖四名,奖金 5,000 元,获奖队伍是:

  • 来自 Microsoft 和北京大学的 NLPFakers 团队;
  • 来自武汉大学、 伦敦大学学院( University College London)的 Gower Street & 81 Road 团队;
  • 来自北京邮电大学的 ye 团队;
  • 来自郑州铁路局、同花顺公司、电子科技大学中山学院的 Yin & Bird 团队。

除奖金奖励外,以上各支队伍的成员还会受邀参加颁奖礼和人工智能沙龙,届时他们将在领奖之余,还可和工业界及学术界的大牛们面对面交流。


获奖团队及方法总结

在评审获奖团队所使用的方法时,我们有一个有趣的发现:所有获奖的 7 支队伍,都无一例外地使用了各种结构的深度神经网络(Deep Nerual Network,DNN),而传统的文本分类方法,例如支持向量机(Support Vector Machine,SVM)或者朴素贝叶斯(Naive Bayes)等方法,则使用较少。这也许说明,在一定程度上,深度神经网络已经成为 NLP 领域的主流方法。我们对 7 支比赛队伍的方法进行了汇总如下:

  • init 团队:TextCNN + TextRNN + RCNN,共享 Embedding 进行联合学习,在模型集成方面,使用多模型、等权重的 Bagging 方法进行集成;在数据预处理方面,使用 delete 和 shuffle 进行数据增强;
  • Koala 团队:FastText + TextCNN + TextRNN,使用 boosting 的思想对神经网络进行逐层训练,各个网络之间使用加权平均的 bagging 方式;
  • YesOfCourse 团队:使用 TextCNN + LSTM/GRU + RCNN 作为基模型,并且利用 GBRank 融合多个神经网络的输出;
  • NLPFakers 团队:使用 TextCNN + RNN + RCNN 作为基模型,利用线性加权进行模型集成;在神经网络训练中使用了 attention 机制;
  • Gower Street & 81 Road 团队:使用 RNN 神经网络作为基础模型,并且将 Query-TopicTitle 的相似度与神经网络进行联合训练。最终使用 Bagging with Ensemble Selection 作为模型集成策略;
  • ye 团队:使用 TextCNN + BiGRU 作为基础模型,利用带有权重搜索的 bagging 作模型集成策略;
  • Yin&Bird 团队:利用 LSTM 和 Bayes 方法作为基础模型,并且利用 stacking 方法进行模型集成。

在对问题进行建模时,所有参赛队伍都将问题转化成了「文本多分类」或者「文本标签预测」的问题。在训练过程中,大多数团队都选用了交叉熵(Cross Entropy)作为损失函数。所有的参赛队伍都应用了集成学习的思想,利用多个模型的相互补充来提高成绩。同时选手们还针对自己对问题的理解对问题进行了非常多的优化,出现了一些很有亮点的优化方法。例如:

  • 第一名的 init 团队,在数据增强方面进行了富有创意的工作。init 团队在进行模型训练的时候,通过 delete 和 shuffle 机制来避免训练结果的过拟合,同时保证模型的差异性。init 团队在提交的评审材料中提到,仅仅通过数据增强机制,训练出来的多模型结果通过等权重的 bagging 方式得到的结果已经能够获得优于第二名结果的表现;
  • 第二名的 Koala 团队,在进行神经网络训练的时候,使用了逐层 boosting 的方法,来提升单个神经网络模型的表现;根据其描述,这个优化可以使多层神经网络的表现提升 1.5 个百分点左右;
  • 第三名的 YesOfCourse 团队将 tag precition 过程转化成了一个 Recall-Rarank 的两步问题;使用大量的神经网络模型来进行召回,并且将神经网络对标签的预测得分作为 GBRank 的特征输入,并且使用 Pairwise 的方式来对标签的排序进行优化,选择排序后的前 5 个标签作为模型的输出。从 YesOfCourse 团队提交的说明中看出,使用 Recall + Rerank 模型得到的结果,相对于 Non-Linear NN Ensemble 的结果,有千分之二以上的提升;同时,YesOfCourse 还尝试使用了多种 Loss Function 和多种 attention 机制来保证模型间的差异性。
  • 第五名的 Gower Street & R1 Road 团队,则将数据提供的 topic 的标题信息利用了起来,使用 RNN + Question-Topic Similarity 信息进行模型的联合训练。将单模型的结果从 0.415 提升到了 0.419,并且使用 20 个模型的 ensemble,最终取得了 0.432 的好成绩;


等等。限于篇幅,不在此一一列举。我们整理了所有队伍的评审材料,大家可以在文末链接中下载。


一些预告

在「如何评价 2017 知乎看山杯机器学习比赛?」中我们提到,举办比赛,是为了吸引大家对于机器学习,特别是自然语言理解(NLU)领域的兴趣。由于自然语言的复杂性和灵活性,NLU 成为现在机器学习领域的一个研究热点和难点,也是接下来的一段时间内,最有可能产生突破的领域。在过去的工作和调研中,我们发现,相比国外的 ImageNet、Gigaword 等高质量数据集,中文互联网相关的高质量数据集是相对缺乏的。这也促使我们思考,作为中文互联网最大的知识社交平台,知乎累积了非常多的高质量文本语料和其他各种各样的数据,我们能不能开放部分数据,为 AI 在国内的发展提供一些助力?所有就有了这次「知乎·看山杯机器学习挑战赛」。

当然,限于比赛的实际情况,我们对数据进行了脱敏和编码处理,希望大家都能在一个相对公平的环境下进行比赛,这也导致了一些参赛者认为数据不够直观,不像明文数据一样可以凭借先验知识发现一些 insight。在此预告一下,比赛虽已结束,但我们在开放数据上的努力并没有结束,我们接下来将发布这次赛题对应的明文数据。当然,在「发布明文」这种场景下,我们需要对数据进行更加严格的审核,可能需要一些时间,请大家耐心等待。除这份文本标签的数据集外,我们还将发布一些知乎密切相关的数据集和机器学习任务,例如内容推荐、社交网络链接预测等数据集,这些数据集会在经过严格脱敏和审核后,陆续开放给大家。届时我们将在「知识青年」和「Hacker’s Log」等专栏发布下载链接,请大家关注。

此外..

知乎正在招聘数据挖掘专家、数据挖掘工程师及数据挖掘实习生。假如您对知乎的工作机会感兴趣,欢迎通过 资深数据挖掘工程师数据挖掘实习生 这两个链接投递简历,或者直接投递简历到 jobs@zhihu.com 邮箱。

附录

前七名选手提交的获奖方法说明下载链接 密码: bm56

第一名 init、第二名 Koala、第三名 YesOfCourse、第四名 NLPFakers、第五名 GowerStreet & 81 Road、第七名 Yin&Bird 相关的代码和模型下载链接: 密码: m4v6

第六名 ye 代码及模型下载链接

编辑于 2017-08-31

文章被以下专栏收录