经验分享——关于数据标注的那些事儿

经验分享——关于数据标注的那些事儿

众所周知,深度学习离不开大量训练数据,训练数据离不开数据标注。

在数据标注项目执行过程中,有好多环节,看似简单,实际上会有很多坑。本文旨在分享一些常见的“坑点”经验,希望能对大家的项目有帮助

在数据标注中,我列出一些特别需要注意的问题:

1、找谁来标?

2、怎么提要求?

3、用什么工具标?

4、怎么定价?

5、怎么定时间?

6、任务甩出去就“高枕无忧”了么?

也欢迎大家随时能够补充。


1、先说找谁来标。

目前主要标注人力来源一般是:

  • 人力来源:“自己标标试试”(好像老板的口气,哈哈)
    评价:最讨厌的方式,大家尽力避免吧,太浪费时间了
  • 人力来源:雇几个实习生
    评价:比较好用,也听话,但是人多的时候,管起来特麻烦,尤其需求复杂的时候,培训更烦,简直是“按到了葫芦瓢又起”
  • 人力来源:找专业平台型服务商(有工具),比如星尘数据
    评价:性价比高,挺好用,如果运气好找到一家“自我要求高”的服务商,那是真省心
  • 人力来源:直接找标注团队(没工具,只有人)
    评价:价格便宜,但要看你的运气,还要自己开发一套标注和质管工具。碰到靠谱的,一定要抓牢,这靠谱实在是太少了。

之前有客户跟我们吐槽,找的团队很多“小作坊”式的,非常不靠谱,人员不稳定,质量也非常难以管控,所以工期延误是常有的事儿,只有一些专业的标注平台才有大规模稳定的标注团队,来确保整个标注过程的质量和工期的可控性。

专业的标注团队


2、怎么提要求

碰到好多同行,在这踩过雷。咱们自己对自己的需求特了解,但是真正做标注的人是一点都不了解啊,而且特别难理解,你想做标注的人能是那种天天研究算法的么?没有共同语言哒。所以经验之谈,一定要把要求写的特别特别特别通俗易懂和清晰,最好写好后,找你们公司前台小姑娘去读一下,如果能完全领会了,那么就到位了。否则,你就等着标好后,给你来各种各样的“怪问题”吧。

贴俩例子,感觉一下:

例子1 需求文字“矩形方框标手,需要紧贴手腕”,这个描述看起来很清楚,但实际标注时,就会碰到下面几张图的情况,标注员难于找到“何处是手腕”:

解决上面的这些问题的办法,就是挑出各种情况下的实例,将正确答案展示出来。

再看个例子,给身体轮廓打点,标注员在需求中看到的是下图这样的实例:


标注员针对上面需求的理解,给出了下图的错误标注结果:


而好用的解决办法,如下图,归纳概括了之后,标注员就非常明确了:



3、用什么工具标

从功能上说,如果你项目特别简单,例如就是拉个方框,那么工具影响不大,能满足就行。

如果你的质量要求很高,或者项目需求比较复杂,那么工具就有点重要了。

这块经验是,开源工具,能不用就不用,除非你需求特简单,而且数量很少。

平台服务商的工具,不论是前面提到的大型平台还是专业型平台,基本都可以用,毕竟人家都是专业做这个的,功能上应该都满足。这我能给的两条建议就是:

1、先试标,试标结果是最好的证明

2、要是你的需求有些特殊,需要工具二次开调整才能满足的话,找那些愿意提供此类服务的平台,这样结果才能有保证


4、怎么定价

定价这块看大家手里预算吧,如果很紧,只能压价格,找便宜的服务商,那么做好额外耗精力、工期拖延的心理准备就行,最好也和老板提前说清楚,省的背锅。

标注这个行业,贵的不一定好,但是异常便宜的一定有问题。如果你不得不选“最低价”,那么建议不要给预付款、验收好质量再付钱,并且一个项目拆成几段,一段一段做,如果看某一段不靠谱,赶紧换人。

一般来说可以通过设定基本价格+优质奖励+低质惩罚的方式来刺激你的服务商好好给你干活。


5、怎么定时间

咱们很多时候,都会面临紧急的内部时间需求,这种情况下,建议你:

1、 不要把标注周期挤压太紧,太紧对应的一定是质量下降。如果一个服务商说,拿来就能干,一天能出结果,那么你需要注意他们是否能清晰了解你的需求,别“一天出活”,但完全没用。

2、 不是对方平台越大,就处理能力越强;永远是越重视你的,才能给你调用资源越多。怎么让服务商更重视咱们?价格高点、账期短点呗,当然你手里如果有很多项目也行,这个最好用。

同时即使你项目不赶时间,也别让工期拖得太久。一般中小型项目1~2周,大量持续性项目以月为单位管理就行。

下图为标注员的标注曲线,标注员开始一个新项目后,他的速度是逐步提升起来的,开始慢,后面快;错误率是逐步下降的;平均价格是逐步降下来的。这是自然规律,差别只是前面的过渡期的长短。任务简单、标注员认真且经验丰富、管理严格、工具好用、需求文档写的简单明了等,都能让过渡期更短。



6、任务甩出去就“高枕无忧”了么?

如果你甩出一个项目,你选的服务商,悄无声息的做完了,那么你得特别注意质量了。

举个栗子,我们遇到过项目方给的腿部标注案例是这样的 :


可实际标注过程中,还有这样的腿(这还算简单的)

像这样的特殊案例,如果不经过反复的沟通确认,那标注的结果可想而知了。

再来,你以为小朋友写作业都是整整齐齐的,就像这样


可还有谁又料到有些小朋友会把做题的过程也写出来呢?


按照之前的标注样例,上图实属“特殊”情况,也许数据中很多问题是数据科学家都没想到的,如果是不负责任的团队靠自己感觉来处理各种特殊情况,那最后把这些特殊案例挑出来,可就是巨大工程了。我遇到的所有项目中,尤其在项目前期,必然伴随着频繁的沟通和细节确认,这代表你的服务商是在尽力确保标注人员透彻理解和执行你的要求,并且不断替你在监控着项目质量和工期。


以上是我们在数据标注服务过程中总结的一些经验,跟大家分享一下,数据标注这件事儿真的没有想象中那么简单,希望这篇经验贴能让你对数据标注有个更全面的了解。星尘数据(stardust.ai是提供高质量数据采集标注服务的平台,一站式帮您解决数据标注过程中的所有问题。我们支持语音、图片、文本、视频等各种类型数据的标注,应用于自动驾驶、人脸识别、智慧新零售、智慧农业、智慧医疗等行业。拥有随时调用人力的专业标注团队,千万量级的标注经验,多重审核机制保障数据质量,国际顶尖机器学习专家打造专业平台,为您度身定制最优方解决方案。

如果您在数据标注过程中也遇到一些坑,欢迎来和我们交流~~

编辑于 2019-01-05