2019:迈向高能NLP之路!

2019:迈向高能NLP之路!

今天是2019年的第一天,这也是我第一次在知乎记录并分享自己的【高能NLP之路】。过去的2018年,从大数据到机器学习,从推荐系统CTR预估再到IR-QA、KB-QA,兜兜转转最后来到自然语言处理,未来的每一天我都将与NLP相伴,记录自己的NLP学习之路。

下面,简单谈一下自己在对NLP的体会。

过去的2018年,对我自己影响很深的是微软亚洲研究院二十周年“预见未来”系列文章——《NLP将迎来黄金十年》,文中提到:

未来十年将是NLP发展的黄金档:
1、来自各个行业的文本大数据将会更好地采集、加工、入库。
2、来自搜索引擎、客服、商业智能、语音助手、翻译、教育、法律、金融等领域对 NLP的需求会大幅度上升,对NLP质量也提出更高要求。
3、文本数据和语音、图像数据的多模态融合成为未来机器人的刚需。这些因素都会进一步促进对NLP的投资力度,吸引更多人士加入到NLP的研发中来。因此我们需要审时度势、抓住重点、及时规划,面向更大的突破。

因此,NLP研究将会向如下几个方面倾斜:
1、将知识和常识引入目前基于数据的学习系统中。
2、低资源的NLP任务的学习方法。
3、上下文建模、多轮语义理解。
4、基于语义分析、知识和常识的可解释NLP。

而在过去的几年中,最受关注的NLP技术无疑是神经网络预训练,从最初的word2vec、glove到最近的elmo、bert,特别是google-bert的开源,燃爆整个技术圈,迁移学习也像CV一样进入到NLP领域。

趋势热点:值得关注的NLP技术

除了备受关注的神经网络预训练外,知识和常识的引入将大幅推动NLP技术的发展:

如何在自然语言理解模块中更好地使用知识和常识,已经成为目前自然语言处理领域中一个重要的研究课题。最常见的领域知识包括维基百科和知识图谱两大类,机器阅读理解是基于维基百科进行自然语言理解的一个典型任务。

在《NLP将迎来黄金十年》,通篇似乎都在强调知识和常识引入对NLP乃至整个AI的重要性。而谈到知识和常识,就不得不提到知识图谱。

2018年末,美团技术团队也发表了两篇重磅级文章 《美团餐饮娱乐知识图谱——美团大脑揭秘》和《美团大脑:知识图谱的建模方法及其应用》。文中提及:人工智能背后两大技术驱动力:深度学习知识图谱,知识图谱就是人工智能的基础。此外,更多的学者也提出:知识将比数据更重要,得知识者得天下

而我的感想是,所谓的大数据时代,数据价值不仅仅是数据本身,更重要的数据背后的知识。而这些知识的获取,不能仅仅是基于深度学习的隐式表达,而更应是基于知识工程的显示表达。

过去的2018年,我也做了一些具体的NLP任务,比如大规模文本分类、细粒度情感分析、QA场景下的文本匹配、QA场景下的机器阅读理解、医药知识图谱构建等,我将在【高能NLP之路】与大家分享。

比尔·盖茨曾说过,“语言理解是人工智能皇冠上的明珠”,NLP 是数据领域的珠峰。NLP的学习之路,一定是爬坡过坎、充满荆棘的,在未来的2019年,希望可以定期分享自己的高能NLP之路,希望大家多多关注,共同进步!

最后,祝大家新年快乐!

编辑于 2019-01-02

文章被以下专栏收录

    高能量密集的NLP技术分享!将在2019年内,会把nlp全栈技术进行分享,包含nlp理论技术(词法+句法+语义篇章)、聚焦深度学习在nlp的学术前沿、毫无保留的分享nlp实践!欢迎大家关注【高能NLP之路】!