尹兆杰
(北京工业大学,北京 100020)
随着高速铁路和城市轨道交通正在进一步的走向智能化,越来越多的人工智能算法被用于出入口自动人脸检测和安防设施。深度学习技术是人工智能的核心,深度学习模型的训练以及应用,需要大量优质的标签数据。目前使用的标注数据工作存在着人工成本耗费过多的问题。如何控制数据标注的成本,是业界一直关心的问题。提升标注效率是控制标注成本简单有效的方法,而数据标注工具则是影响数据标注效率的关键部分。
国内外存在许多商业化数据标注平台以及开源数据标注工具,例如AMT、倍赛数据、labelImg等。这些数据标注工具都存在一些问题。一方面,开源的标注工具基本只支持单人标注,对标注质量无法保证。商业化标注工具设计的多人合作的标注流程不合理,同一人长时间从事同一密集劳动,标注的效率和质量均无法保证;另一方面,面对数据源为视频时,没有利用视频的特殊性,标注效率低下。
根据上述数据标注存在的问题,以提高标注效率为目标,设计并实现一个数据标注系统。首先,完成标注系统的总体架构设计;其次,针对现有标注系统不支持多人标注或者多人标注流程不合理的问题,完成多人协作标注流程的设计;最后,根据视频的特殊性,完成推测标注流程的设计。
本标注系统采用前后端分离的B/S架构。前端采用React作为客户端,主要用于展示数据,同时向标注人员提供增、删、改、查和标注等交互功能;后端采用Flask作为服务端,负责向前端提供接口,完成部分业务逻辑,集成智能算法模型,并维护数据库中的数据;本系统采用经典的关系型数据库-MySQL,存储标注的数据集。系统架构设计如图1所示。
图1 系统架构设计Fig.1 System architecture design diagram
随着深度学习技术的发展,产生不同类型且规模复杂的模型,对数据集也产生更高的要求,数据标注人员的标注工作量显著提高。基于单人标注的数据标注系统存在着标注数据集数量过多且效率低下的问题。标注人员长时间从事重复操作,必然会在效率低下的同时出现错误,无法保证标注结果的正确性以及数据集的质量。
为解决单人标注大量数据以及单人重复操作两个问题,基于传统的解决办法,借鉴敏捷开发和结对开发的原理以及核心思想,设计了一种多人协作的标注流程。不再详细区分标注人员和审核人员,一个标注员既负责标注也负责审核。通过将所有标注人员两两分组,并将待标注数据集进行切分,将切分好的数据集分配给各组,由各组内部进行二次分配。每个组内,两人同时标注一组数据,然后在标注第二组数据前,交换审查双方上一次的标注结果。这样既能解决单人标注大量数据的问题,也能消除同一人长时间重复操作的隐患。多人协作标注流程如图2所示。
图2 多人协作数据流程Fig.2 Multi-people collaboration data flow chart
从多人协作标注的流程中可以看出,流转的数据存在状态标记,为了更好的管理数据,在本系统中,数据有待标注、待审查、冲突、已审查4种状态。关于数据在流转中的状态如图3所示。
图3 标注数据状态转移Fig.3 State transition diagramof annotated data
通过对上述多人协作标注的研究,设想通过标注数据之间的关联提高个人标注效率。
视频是一组能够给人平滑连续的视觉效果画面。当初始数据源为视频时,需要对其进行预处理,分割成一组帧序列,处理好的帧序列之间存在连续关系。在进行单人标注的时候,并没有使用这种联系,每一帧都被看成了独立的一帧,每一帧都是人工标注,标注效率并不高。
因此提出一个思路,根据待标注的帧序列之间的联系,在不同帧的标注框之间也建立起一种联系。首先,标注部分帧;其次,依据建立起的联系推测出另外部分帧的标注框;最后,人工进行校准。该思路的重点是选择进行推测的算法,正确的推测结果会显著减少人工标注量,从而提升标注效率。
基于帧序列连续的特点,提出一种推测方法。待标注的帧序列之间连续,推导出帧上面的所有待标注物都连续,进一步推导出不同帧之间的同一待标注物也连续,得出结论,不同帧的同一标注物的标注框连续。对于连续变化的事物,假定变化均匀,可以使用均值法进行推测。例如,有1、2、3三帧连续帧,只对1、3两帧进行标注A,得出1、3两帧的标注结果,分别为A1(x1min,y1min,x1max,y1max)、A3(x3min,y3min,x3max,y3max)。根据1、3两帧关于A的标注结果,计算均值x2min=(x1min+x3min)/2、y2min=(y1min+y3min)/2、x2max=(x1max+x3max)/2、y2max=(y1max+y3max)/2。得出第2帧关于A的标注结果A2=(x2min,y2min,x2max,y2max),将A2的位置标注在第2帧。上述例子如图4所示,虚线A1、A3是已标注框,绿色A2框是根据A1、A3推测计算得到。
图4 均值推测A2示意Fig.4 Schematic diagram of A2 mean value prediction
根据上面提出的猜测方法,对个人标注流程进行优化,提出推测标注法,标注一部分内容,预测标注另一部分内容。个人推测标注法的标注流程如图5所示。推测标注流程中要注意以下几点。
图5 推测标注法流程Fig.5 The process of speculative annotation method
1)为所有的图片分配图片ID,最好包含视频帧号信息,从图片ID中能够识别出哪些图片是连续的,能够观察出连续关系。
2)数据集D=[d0,d1,d2,d3,…,dn],将数据集分为两类,一类用来人工标注,表示为D1=[d0,d2,d4,…,d2n];另一类数据集根据D1的标注结果进行推测标注,推测标注数据集表示为D2=[d1,d3,d5,…,d2n-1]。
3)标注D1数据集中d1和d3两张图片中ID为person-1的标注框,标注框的值分别记为p1和p3,保存标注框的值。
4)对于ID为person-1的标注框,根据在d1、d3两张图片中的标注结果,使用均值法计算d2图片中标注框的值p2=(p1+p3)/2,将计算出的p2标注在d2上。
实验选择15组标注人员对4组数据集进行单人标注以及多人标注,验证本文所提出方法是否可以提升标注效率。
第1次标注,组织15组标注人员使用单人标注流程对4组数据集进行标注。每组标注人员中,一人进行标注,一人进行审查。一组数据先进行标注,标注完成后审查人员进行审查。
第2次标注,组织15组标注人员使用多人协作标注流程对4组数据集进行标注。每组标注人员中,两人同时进行标注,然后两人互相审查对方数据。
分别记录两种标注方式下每组标注人员标注的图片数、目标数以及时间(按照标注时间与审核时间的总和计算),表示标注任务完成的时间。数据记录如表1所示。
表1 单人标注流程的标注数据Tab.1 Annotated data of single annotation process
将上述两次标注数据进行整理,为了更加直观地观察两种标注方式的区别,将每组标注人员在两种标注模式下的数据分别以折线图和柱状图表示。
如图6、7所示,横坐标为每个标注小组标注的总框数,标注小组标注的总框数相差不大。纵坐标为标注小组完成任务的时间。在标注小组完成的总框数相差不大的情况下,多人协作完成的时间明显少于单人标注完成的时间。
图6 两种标注方式下的数据折线Fig.6 Data line chart under two annotation methods
图7 两种标注方式下的数据柱状Fig.7 Data histogram under two annotation methods
为了排除每个小组标注的总标注框数量不同的干扰,对上述实验数据进行处理,计算每组每10 min的标注框数量,如图8 所示。可以明显的看出,多人协作的效率更高。
图8 每10 min标注框数Fig.8 Annotated number of boxes per 10 minutes
实验选择30名标注人员对40张数据进行个人标注和推测标注。
第1次标注,组织30名标注人员使用单人标注流程对40张图片进行标注。
第2次标注,组织30名标注人员使用推测标注方法对40张图片进行标注,按照上述实验要求将40张图片进行分组,奇数数据分为一组,偶数数据分为一组。每名标注人员对奇数数据进行标注,然后根据标注结果对偶数数据进行推测标注,标注人员对推测标注的结果进行检查修改。
记录上述两次标注时标注人员标注的图片数、目标数以及时间,由于两次标注只是标注流程和方法不同,审核仍然使用的是一人标注一人审核的流程,审核时间相同,此处记录的时间只是单纯的标注完成的时间。推测标注流程下标注完成的时间由3部分组成,分别是标注时间、推测时间以及修改时间,如表2所示。
表2 两种标注方法的标注数据Tab.2 Annotated data of two annotation methods
将上述两次标注数据进行整理,为了更加直观的观察两种标注方式的区别,将每名标注人员在两种标注方法下的数据分别以折线图和柱状图表示。
如图9,10所示,横坐标为每个标注人员标注的总框数,标注人员标注的总框数相差不大。纵坐标为标注人员标注完成的时间。在标注人员标注的总框数相差很小的情况下,推测标注完成的时间显著少于单人标注完成的时间。
图9 总框数-时间柱状Fig.9 Total number of boxes - time histogram
图10 总框数-时间折线Fig.10 Total number of boxes - time line chart
为了排除每个标注人员总标注框的数量不同的干扰,对上述实验数据进行处理,计算每人每10 min的标注框数量,如图11所示。明显看出,推测标注时每10 min完成的标注框比单人标注更多,证明推测标注的效率更高。
图11 每人10 min标注框数折线Fig.11 Line chart of annotatedbox number per 10 minutes
从标注流程入手,研究多人协作标注流程对标注效率的影响,通过实验,证明多人协作标注可以提升标注人员的标注效率。多人协作标注流程相比一人标注、一人审核的传统多人流程提高了63%的标注效率。
研究推测标注对标注效率的影响,通过研究内容进行实验,得出结论。推测标注可以提升标注人员的标注效率。推测标注流程相比个人标注流程可以提高25%的效率。