(武汉数字工程研究所 武汉 430205)
随着深度学习的兴起,训练集标签的质量问题越来越被重视,样本训练集需要海量标签样本,仅凭个人的力量难以完成,本文将群智众包与图片标注两者相结合[1~3],通过网络上在线标注人对需要标注的图像分工标注来减轻工作量。由于群智标注是网络上的众多标注人进行标注,人的自主性导致标注质量存在波动。本文设计了一个通用的智能标注系统,适用于各类目标物的标注工作,以群智众包的形式将标注任务分派给+各个标注人,标注人仅需对智能标注后的图像进行补充优化,增加的质量监督模块用来剔除标注质量较差的结果,提高和保障了用于训练的标注数据的质量。
一个典型的群智系统包括:任务分析、任务分配、任务执行、结果筛选,并最终得出系统想要获取的结果。如图1所示,首先任务分析在本系统中具象为“标注图片”,当需要某类目标物的样本标签时,将包含此类物体的图片分配给网络上各个标注人。然后由标注人执行标注工作,同时系统采集其操作行为,随后进入筛选环节,判断该结果是否满足质量保障要求,对不满足要求的结果进行剔除。
能快速获得结果不是系统唯一目的,人具有自主性,在动态开发的互联网环境中,可能受到时间环境等多因素影响,从而导致提交的结果具有不确定性,因此设计出的群智系统不仅要满足任务需求,还需要保证系统输出结果的质量[4~5]。典型的质量保障方法一般是从三个方面进行研究[6]:1)任务设计:系统任务为标注图片,较为简单,界面设计容易。2)标注人高效管理:在本例中通过使用已知答案的黄金标准数据对标注人进行测试,考察标注人的标注态度及能力,制定分级规则,激励标注人在闲暇之余更认真完成标注任务,发挥个人价值。3)任务结果处理:结果筛选是指系统对标注人提交的结果进行预处理,筛选掉质量较差的结果,本文添加质量管理模块,有效剔除低质量结果。
图1 典型的群智标注系统的组成与流程
本文设计的标注人行为分析模型共分为4个阶段:模型定义、行为采集、行为分析、任务分配及激励。行为采集模块用于采集标注人的行为信息并保存为json文件;行为分析模块用于分析保存下来的文件,判断标注结果是否满足要求。任务分配及激励模块对标注人的行为进行刻画[7],给标注人贴上标签,有助于后续系统进行任务分配,将预处理后图片困难的分配给标注态度认真的标注人,将简单地分配给标注态度较差的标注人,合理地分配任务,建立出高效率的分配模型。
标注人的行为建模主要从五个方面诠释[8]:及时性、结果评价、标注人刻画、性能以及任务本身因素。
从图2构造的模型可看出,及时性主要判断出该标注人提交的结果是否满足时效性。结果评价通过对比各个标注人画出的标注框数量和标注框之间中心位置的偏差判断标注人结果是否可靠。标注人刻画用来刻画标注人的标注能力。性能方面通过各个方面情况综合判断标注质量是否与外因有关。最后还存在任务本身的因素,任务自身较为复杂或者任务报酬较低也可能会影响任务质量。
图2 标注人行为建模
在对标注人的行为进行采集后,形成了标注人的标注行为模型,通过将新的标注人标注行为与已存在的标注人标注行为进行横向对比以及标注人自身新标注行为与历史标注行为纵向对比,判断标注人的标注结果是否存在异常,以此为依据剔除该标注结果[9]。在标注质量方面,图片内标注个数是决定一幅图片是否标注足够正确的重要因素[10],因此标注个数应占有最大的权重。
表1 标注人行为记录表
标注人的操作记录能侧面反映标注人的态度是否认真,图片信息内标注框数量、面积、偏移量等则能反映出标注结果是否正确。
群智工作在理想情况下能够加速工作的进程,节约时间以及费用,但是在实际情况下,不少标注者由于各种原因会提交低质量的标注结果,如果不加以控制这种情况发生,会使得任务结果朝着错误方向回归[9],引起群智任务的失败。群智标注工作中可能出现的恶意行为,即在标注过程中,标注人未注意到或者故意为之,从而出现错误的标注结果。标注人参与群智众包任务,主要是被金钱、声誉等激励所吸引,暂时还没有哪一种算法能够精准给出标注结果的对错,因此可能产生不少恶意行为。但可以通过对标注行为进行分析,判断结果是否异常。
图3 恶意行为分析流程图
如图3所示,系统首先读取采集模块保存下的标注人行为信息文件,进而索引计算恶意评价BMN时需要的数据,在各类恶意行为评价中,既有串行、并行,也有串并行综合。经综合协同评价分析得出判断结果,如果满足各类恶意行为判断阈值[11],则最终将该图片标注结果进行保存。
第一类属于随机类型,产生这类恶意标注行为的主要因素是该类标注人主要是被激励所吸引,但其毫无责任心而言,这类标注人标注图片完全依赖心情,随意标注,随机程度较高,因此标注结果与其他认真进行标注的标注人标注结果存在明显偏差,对此可以使用欧几里得距离计算相似度[12],相似度值为0~1之间,设计合适的阈值,低于阈值的标注人属于离群标注行为,剔除该标注结果。
对于第一类恶意标注行为,标注人对同一幅图进行标注的结果,使用相似度算法进行检测,通过比较新标注人操作内容与原有标注人操作的相似度来推测标注人标注的质量,将相似度低于阈值的标注人标注结果视为不合格结果。
欧氏距离用来测量多维空间中个体之间的距离,距离越远说明个体差异越大,具体计算公式为
对于同一幅图片,式中Sik表示第i个标注人的第k个属性值,将其与第j个标注人的第K个属性值进行对比,得出新标注人与原标注人操作的欧式距离。
计算出欧氏距离后,使用式(2)计算相似度:
根据以往经验,计算出的相似度在0.8以上视为数据合格,反之剔除结果。
第二类恶意标注行为属于统一标注类型,使用同一类型的标注方法[11~13],如可能存在大量标注人仅点击智能识别后便提交结果,或者在点击智能标注后,每次添加标注框后的操作步骤如出一辙,产生这类恶意标注行为的主要因素是因为本系统添加了智能标注算法,标注人点击智能标注算法就能完成大部分工作,没有耐心对存在的其他可能目标物进行判断,并且由于这类标注人可能较多,因此少数服从多数原则不再适用,此时可对标注人标注时间、标注步骤进行记录,如果多幅连续图片都存在标注时间过短、标注步数过少等行为,或智能识别置信度较低的标注框未进行优化操作。则剔除该幅图标注结果。
对于第二类恶意标注行为,Kouritzin等在研究如何将数据分类为真实数据或者伪造数据时,检测了新一次投掷硬币与之前硬币投掷的序列差异,得出了一组计算公式[14~15]。该公式同样适用于本文群智系统中的标注质量检测算法,第二类恶意标注人拒绝勤奋工作,每次使用同一种方法进行标注,就如同抛掷硬币,每次都出现的是正面朝上一样,如果标注人消极工作,每次都进行的是同一种操作,通过该序列差异,可以检测出恶意标注人的存在。
标注人能进行的操作包括:进行智能识别、添加、删除标注框、放大、缩小标注框、拖动标注框。式中N集合是标注人标注图片出现的各种操作组合的集合,Js表示标注人s标注图片时操作记录的集合,Dij表示标注人对同一幅图片做的相关操作组合与其他标注人的操作组合不同的频数,fn,Js表示标注人标注图片时生成的操作组合,在其作出所有判断集合Js中出现的频数,根据相关文献中的试验经验,K值取1.6能够有效发现统一类型的恶意标注人。
在执行大型的群智任务过程时,不可避免地会遇到多类恶意行为发生,根据图3流程将若干类恶意行为综合协同分析,能够有效剔除质量较差的标注结果。
本文相关原型系统可分为硬件部分和软件部分,硬件部分包含一台服务器,一台交换机和若干终端;软件部分主要包含标注模块、采集模块和分析模块,各模块均采用JAVA语言编写。标注模块在Android上编写,智能识别算法置于服务器上,通过交换机与终端联系,标注人进行标注操作时,采集模块同步记录其各个操作,最终记录成json文件并上传到服务器保存。分析模块在IDEA上完成,用于解析json文件,获取用于公式计算的各个变量数据,并生成结果。
本次试验给定100个图片(所有图片都事先认真进行标注过,可视为黄金标准数据),试验目标物体为车辆,标注人对未标注过的图片进行标注,总共获得1000个标注结果。运行筛选程序可获得剔除个数,人工对比黄金标准数据可获得实际不合格的个数,记录的试验结果如表2所示。
表2 试验结果
如表2所示,剔除个数为运行筛选程序获得的不合格个数,实际不合格个数为对比标注人标注的结果与标注数据得出的个数,两者的比值为剔除率。由试验结果可知,当恶意标注行为发生时,更容易出现第一类恶意行为。后续由于对标注结果同时作了横向、纵向比较,当同时满足两类恶意行为时,剔除的个数会更多,剔除率甚至超过1,在群智众包背景下,标注人群体大,图片标注数量多,即使剔除率超过1,只要比例不是太高系统也能接受。
本文将群智众包思想与图像标注进行了结合,针对图片标注结果的质量控制问题,研究了标注人参与群智标注任务中可能存在的不合格标注行为,通过分析群智标注过程中的两类恶意标注行为,将欧式距离相似度计算与仿硬币序列算法结合运用于质量筛选过程,有效发现并剔除低质量标注人标注结果。但是由于检测算法需要大量标注图片进行对比,因此当一个标注人仅标注几幅图,或一幅图只有几个人标注的时候,即无法进行横向、纵向对比,系统不能很好地完成质量检测工作。
本文提出的系统模型还具有一定的通用性,不需要初始的智能识别算法也能通过群智获得足够多的标注样本,其可以检测识别多类物体。下一步可将该系统在多个行业内试验,观察系统执行质量检测的效果。