支持多语言的文本标注工具——doccano

支持多语言的文本标注工具——doccano

项目主页

chakki-works/doccanogithub.com图标

好久没写东西了,难得现在做NLP方面的工作,想着继续介绍一些NLP相关的东西。肥水不流外人田,正好最近我们组做了一个NLP标注工具,doccano。王婆卖瓜,我就来夸一夸吧。

先聊聊名字的由来。doccano的日语是【どっかの】,【どっか】是【どこか】的音变,而【どこか】的意思是“哪里”。doccano可以理解为“哪里的”,我猜着Hironsan(我们组的大神)起这个名字是想表示,“哪里都能进行标注”。这么一想果然是大神,起名字都这么讲究。怀着对自己推理的自信,我开心地向Hironsan求证了一下。

“其实就是documment anotation的缩写”,Hironsan尴尬地笑了笑。

“……”

你们这些家伙(组里的日本开发者)给项目起名字不都是用日语片假名吗!突然来个英语缩写是怎么个意思?!

注意到我尴尬的表情,Hironsan赶紧补充。”L君你说得没错,日语确实可以这么理解呢。”

嗯,您真是善解人意。

闲扯到此结束,下面好好介绍一下这个工具。

doccano——便利的NLP标注工具

作为一个NLP从业者,数据标注是重要的一环。有钱的金主自然可以花钱找人标注,不过很多小公司,学校研究室或者个人研究者并没有这样的富裕。但是自己手动标注的话又实在花时间,开发一个Web标注系统又比较麻烦。如果你也有这样的烦恼,放心吧,doccano就是你的贴心小帮手。

利用doccano可以对文本,序列进行标注。标注的结果支持情感分析,命名实体识别,文本摘要等任务。总结下来就3步,上传数据,标注,下载带有标签的数据。

这里有实际可以尝试的demo,下面进行简单介绍。

Demo介绍

命名实体识别

这是一个序列标注的demo,用于命名实体识别任务。doccano最方便的一点是支持快捷键,比如在给【Person】这个实体标注的时候,直接敲击键盘上的【P】就能进行标注。

情感分类

这个demo可以用于文本分类,主题分类。你可以给一篇文章添加不同的标签,进行multi-label预测。


机器翻译

这个demo是用于sequence to sequence任务的,比如机器翻译。因为一句话可以有多种翻译结果,故我们支持添加多种翻译结果。

doccano特性

  • 合作标注:可以进行多人合作,分配标注任务。
  • 语言独立性:你可以对任何语言的文本进行标注。在使用doccano的人群中,已知有英语,中文,日语,阿拉伯语,印度尼西亚语,etc。
  • (future)自动标注:对一个文本进行了一部分标注后,后台通过学习,能自动对文本进行标注,提高标注效率。

依赖

  • Python 3.6
  • Django 2.0.5+
  • Google Chrome(highly recommended)

至于具体的安装方法和使用方法,大家可以直接在项目主页中看到。这里就不做过多介绍了。

开发者募集

现在doccano的主力开发者只有Hironsan一个人,虽然也有爱好者提供了一些帮助,但是开发节奏还是比较慢的。所以这里也欢迎感兴趣的开发者对这个项目进行贡献。

chakki-works/doccanogithub.com图标

编辑于 2018-11-07

文章被以下专栏收录