【NLP-NER】命名实体识别详解之一

小Dream哥

命名实体识别（Named Entity Recognition，NER）是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。

命名实体识别的准确度，决定了下游任务的效果，是NLP中非常重要的一个基础问题。

作者&编辑 | 小Dream哥

1 命名实体识别是什么？

要了解NER是一回什么事，首先要先说清楚，什么是实体。要讨论实体的理论概念，可能会花上一整天的时间，我们不过多纠缠。

简单的理解，实体，可以认为是某一个概念的实例。

例如，“人名”是一种概念，或者说实体类型，那么“蔡英文”就是一种“人名”实体了。“时间”是一种实体类型，那么“中秋节”就是一种“时间”实体了。

所谓实体识别，就是将你想要获取到的实体类型，从一句话里面挑出来的过程。

小明在北京大学的燕园看了

PER ORG LOC

中国男篮的一场比赛

ORG

如上面的例子所示，句子“小明在北京大学的燕园看了中国男篮的一场比赛”，通过NER模型，将“小明 ”以PER，“北京大学”以ORG，“燕园”以LOC，“中国男篮”以ORG为类别分别挑了出来。

2 命名实体识别的数据标注方式

NER是一种序列标注问题，因此他们的数据标注方式也遵照序列标注问题的方式，主要是BIO和BIOES两种。这里直接介绍BIOES，明白了BIOES，BIO也就掌握了。

先列出来BIOES分别代表什么意思：

B，即Begin，表示开始

I，即Intermediate，表示中间

E，即End，表示结尾

S，即Single，表示单个字符

O，即Other，表示其他，用于标记无关字符

将“小明在北京大学的燕园看了中国男篮的一场比赛”这句话，进行标注，结果就是：

[B-PER，E-PER，O, B-ORG，I-ORG，I-ORG，E-ORG，O，B-LOC，E-LOC，O，O，B-ORG，I-ORG，I-ORG，E-ORG，O，O，O，O]

那么，换句话说，NER的过程，就是根据输入的句子，预测出其标注序列的过程。

3 命名实体识别的方法介绍

1）HMM和CRF等机器学习算法

HMM和CRF很适合用来做序列标注问题，早期很多的效果较好的成果，都是出自这两个模型。两种模型在序列标注问题中应用，我们在之前的文章中有介绍，感兴趣的同学可以看下如下链接的文章：

2）LSTM+CRF

目前做NER比较主流的方法就是采用LSTM作为特征抽取器，再接一个CRF层来作为输出层，后面我们用专门的文章来介绍这个模型。如下图所示：

3）CNN+CRF

CNN虽然在长序列的特征提取上有弱势，但是CNN模型可有并行能力，有运算速度快的优势。膨胀卷积的引入，使得CNN在NER任务中，能够兼顾运算速度和长序列的特征提取，后面我们用专门的文章来介绍这个模型。

4）BERT+（LSTM）+CRF

BERT中蕴含了大量的通用知识，利用预训练好的BERT模型，再用少量的标注数据进行FINETUNE是一种快速的获得效果不错的NER的方法，后面我们用专门的文章来介绍这个模型。

总结

NER是一个非常基础，但是非常重要的任务，今天先做一个整体的介绍。后续小Dream哥会相继详细的介绍上述几种常见的NER模型。在具体的模型中，大家能够更为细致的体会NER任务的真正作用和意涵。

读者们可以留言，或者加入我们的NLP群进行讨论。感兴趣的同学可以微信搜索jen104，备注"加入有三AI NLP群"。

下期预告：自然语言处理中的命名实体识别

知识星球推荐

扫描上面的二维码，就可以加入我们的星球，助你成长为一名合格的自然语言处理算法工程师。

知识星球主要有以下内容：

(1) 聊天机器人。考虑到聊天机器人是一个非常复杂的NLP应用场景，几乎涵盖了所有的NLP任务及应用。所以小Dream哥计划以聊天机器人作为切入点，通过介绍聊天机器人的原理和实践，逐步系统的更新到大部分NLP的知识，会包括语义匹配，文本分类，意图识别，语义匹配命名实体识别、对话管理以及分词等。

(2) 知识图谱。知识图谱对于NLP各项任务效果好坏的重要性，就好比基础知识对于一个学生成绩好坏的重要性。他是NLP最重要的基础设施，目前各大公司都在着力打造知识图谱，作为一个NLP工程师，必须要熟悉和了解他。

(3) NLP预训练模型。基于海量数据，进行超大规模网络的无监督预训练。具体的任务再通过少量的样本进行Fine-Tune。这样模式是目前NLP领域最火热的模式，很有可能引领NLP进入一个全新发展高度。你怎么不深入的了解？

转载文章请后台联系

侵权必究

往期精选

发布于 2019-10-25 23:00

命名实体识别

知识图谱

自然语言处理

【NLP-NER】命名实体识别详解之一

文章被以下专栏收录

有三AI学院

有三AI学院-自然语言处理