新手学NLP,该从哪里入手?CMU 自然语言处理公开课 及课程辅助开源项目:NLP关键概念集

新手学NLP,该从哪里入手?CMU 自然语言处理公开课 及课程辅助开源项目:NLP关键概念集

CMU 自然语言处理课程开讲啦。该课程由CMU 助理教授Graham Neubig组织,以及六位优秀青年才俊TAs(Chunting Zhou, Pengcheng Yin, Zi-Yi Dou, Aditi Chaudhary, Hiroaki Hayashi, Vidhisha Balachandran),也感谢Prof. Graham 的信任,让我担任这个课程的Co-teacher.

该课程今天开课,具体链接:phontron.com/class/nn4n

这里要分享的是和Prof. Graham 最近赶出来的一个 NN4NLP-concept 项目(该项目服务于这个课程而又不止于此),即:神经网络在自然语言处理中的概念集,那么它有什么用呢?

1. 入门NLP,我需要了解哪些重要概念?

这个项目包含了使用神经网络实现NLP中最先进模型(state-of-the-art)所需要的重要概念。

在整理这些概念的初期,我们也请教了其他一些领域专家的意见 (感谢Yoav Goldberg教授)

具体请参见:github.com/neulab/nn4nl

2. 2019年,哪些概念最火?

我们整理了ACL/NAACL/EMNLP 2019年所有录用的论文,然后通过两种方式计算了这些概念被使用的频繁度:

1)随机选取40篇,利用以上的概念集,对每个论文覆盖的概念进行人工标注

2)实现一个基于规则的分类器,对上千篇论文进行多标签处理

具体结果可以参照下图,正如今天Prof. Graham在课上所讲,NLP新手可以利用这个图对学习有更好的规划。比如,不管基于规则还是人工标注,"attention" 概念总是top1,这意味着,现在入坑NLP,attention是你必须要知道的东西。再比如:有些概念“adversarial training” 虽然相对低频,这说明它适用于某些场景,如果你喜欢做一些不是大多数人进行的研究,这个图也会给你很好的启示。


3. 对于每个概念,可以给我配套一些相应的论文么?

可以!我们提供了。对每一个概念,我们都匹配到了相关的一些论文(从2019 ACL/EMNLP/NAACL 录用的论文里。)点击概念对应的超链接即可!

比如,如果你对Graph Neural Networks感兴趣,点击:

你将会看到一个基于Graph Neural Networks 的 Paper List!

(是不是和之前的NER-Paperlist很像)

4. 如果我想要整个2019 NLP三大会(ACL/EMNLP/NAACL) 论文列表的检索系统,你们有么?

巧了,我们还有! 点这里:pfliu.com/pl-nlp2019/in

5. 这个项目,我可以贡献什么?

整个项目开源,

1) 您可以利用提供的代码对ACL/EMNLP/NAACL任何一年的任何一篇论文进行自动标注(我们也鼓励您帮我们贡献些人工标注论文,或许标注上您的论文并在github 上 pull request)

2)您也可以帮助我们完善现有的概念体系,同样可以在github 上 pull request

3)您可以利用我们提供的代码生成上述的概念排序图

编辑于 2020-01-17