炼丹笔记五:数据标注

炼丹笔记五:数据标注

欢迎大家关注微信公众号:baihuaML白话机器学习

在这里,我们一起分享AI的故事。

您可以在后台留言,关于机器学习、深度学习的问题,我们会选择其中的优质问题进行回答!

深度学习的训练离不开有标签的数据,而这些标签数据的获取往往需要耗费大量的人力和财力以及时间。作为AI产品落地中,重要的一环,我们在进行数据标注时需要注意哪些问题呢?

本期问题

能不能谈一谈数据标注中,需要注意的问题?

什么是数据标注?

在谈数据标注是什么之前,我们首先来了解一下什么是数据。如果把人工智能比作金字塔,最顶端的是人工智能应用(比如无人车、机器人等),而最低端则是数据服务。人工智能的最终目标使计算机能够模拟人的思维方式和行为。若想达到这个目标,则需要大量优质的训练数据使人工智能可以通过学习从而形成更好的模型,变得更加智能化。所以简单来说,数据标注就是使用自动化工具通过分类、画框、注释等等对收集来的数据进行标记以形成可供计算机识别分析的优质数据的过程。

哪些数据需要标注以及标记什么?

数据标注的对象主要分为文本、图片、音频、视频四个种类:

文本标注主要包括情感分析、知识库、关键词提取、文字翻译、搜索引擎优化等。就比如,识别一句话蕴含的情感,翻译等等;

图片标注主要包括图像分割 、物体检测 、图像语义理解、图像生成 、图片加注等服务;

音频标注主要包括对全球主要语言和语料、包括方言、特殊情景语音进行识别标注,语音识别等等;

视频标注主要包括对视频中出现的物体、文字、语音、情景等进行标注。

工程管理中,数据标注需要哪些角色?

1)一般来说,数据标注部分可以有三个角色

A)标注员:标注员负责标记数据。

B)审核员:审核员负责审核被标记数据的质量。

C)管理员:管理人员、发放任务、统计工资。

只有在数据被审核员审核通过后,这批数据才能够被算法同事利用。

数据标注的基本流程?

只要是跟“监督学习”沾边的产品/技术,比如图像识别、人脸识别、自然语言理解等等,他们都有一个必走的流程——

不断地用标注后的数据去训练模型,不断调整模型参数,得到指标数值更高的模型。

A)任务分配:假设标注员每次标记的数据为一次任务,则每次任务可由管理员分批发放记录,也可将整个流程做成“抢单式”的,由后台直接分发。

B)标记程序设计:需要考虑到如何提升效率,比如快捷键的设置、边标记及边存等等功能都有利于提高标记效率。

3)进度跟踪:程序对标注员、审核员的工作分别进行跟踪,可利用“规定截止日期”的方式淘汰怠惰的人。

4)质量跟踪:通过计算标注人员的标注正确率和被审核通过率,对人员标注质量进行跟踪,可利用“末位淘汰”制提高标注人员质量。

5)数据优化:这部分基本交由算法同事跟进,但产品可依据需求,向算法同事提出需要注意的方面;举个栗子——背景:一个识别车辆的产品对大众车某系列的识别效果非常不理想,经过跟踪发现,是因为该车系和另外一个品牌的车型十分相似。那么,为了达到某个目标(比如,将精确率提高5%),可以采用的方式包括:A)补充数据:针对大众车系的数据做补充。值得注意的是,不仅是补充正例(“XXX”应该被识别为该大众车系),还可以提供负例(“XXX”不应该被识别为该大众车系),这样可以提高差异度的识别。B)优化数据:修改大批以往的错误标注。

数据标注工具有哪些?

(工具很多,推荐使用labelMe/labelImg)

1)NLP标注工具:

Stanford CoreNLP – Natural language software

NLP标注工具BRAT

通用文本标注工具 labelme

doccano

2)图像标注工具:

LabelImg


更过工具推荐:

深度学习图像标注工具汇总 - chaibubble - CSDN博客

赤乐君:支持多语言的文本标注工具——doccano


NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing... - CSDN博客

通用文本标注工具 labelme

Stanford CoreNLP - Natural language software


数据标注的一些经验之谈

  • 标注数据时,要考虑数据的扩展性,比如:目标检测可以考虑标注四个点,而不是一个矩形框
  • 数据标注时如何处理不确定样本,可以考虑引入置信度,或者dont care
  • 数据标注规范根据实际状况需要及时更新
  • 数据需要频繁的check有没有问题,这些都是管理上的问题
  • 算法要及时验证数据是够合理,以及需要补充哪些数据


欢迎加入深度学习、机器学习技术研讨群!

745224003

欢迎关注我们的微信公众号:baihuaML,白话机器学习

关注知乎“会写代码的好厨师”


参考文献

【1】AI产品经理需要了解的数据标注工作入门: hanniman:AI产品经理需要了解的数据标注工作入门

【2】通用文本标注工具 labelme: 通用文本标注工具 labelme

【3】经验分享——关于数据标注的那些事儿: 星尘纪元:经验分享——关于数据标注的那些事儿

【4】支持多语言的文本标注工具——doccano: 赤乐君:支持多语言的文本标注工具——doccano

编辑于 2019-02-11

文章被以下专栏收录

    主要介绍机器学习中涉及到各种疑惑问题,希望能够介绍更多的干货,一方面带大家入门,另一方面让大家少踩坑