高富洪
(西南交通大学计算机与人工智能学院,成都 611756)
现实世界的个体分为人和物,人和物在各个场景下都存在错综复杂的交互关系,对人和物之间的关系进行建模,有助于我们了解人类的行为。检测便利店收银台场景下收银员和顾客在整个收银过程中的交互行为,既有助于保证收银过程的规范性和商品、资金的安全性,也对便利店的管理发展和服务质量提升起着积极的作用。顾客在收银台进行结账时,收银员会使用扫码枪对商品上的条形码进行扫描识别,会与顾客之间接递收银小票、银行卡,会操作pos 机,会拿手机、签字笔等等。基于深度学习的方式来检测收银员和顾客各自在收银台下的交互行为,无论是在科研价值还是实际应用方面,都有着积极的作用。
深度学习中的计算机视觉领域近年来发展迅猛、备受关注,而其中的人-物交互(HOI)检测也成为了近两年的研究热题。在人-物交互检测方向,two-stage 是相对传统的方法,onestage 是近期流行起来的方法,它们都有各自的优缺点,其中two-stage 主要受限于如何定位有关系的人-物对,而one-stage主要受限于如何权衡实体检测和关系分类的多任务学习。Gao等在2018 年提出的HOI 检测网络iCAN,是一种端到端的以实例为中心的注意力模型,通过获取人-物之间的上下文特征,来提升网络检测性能。Liao等在2020年提出的PPDM 网络是一种one-stage 方法,包括点检测和点匹配两个并行分支,交互点隐含地为人、物检测提供上下文和正则化信息,抑制了无意义的HOI 检测框,提高了HOI 检测的精度。因此,如何整合这两种方法的优点和抑制其缺点,成为一个核心问题。
本文中提到的CDN(cascade disentangling network)网络是一种特殊的one-stage 方法,通过级联的方式来解耦人-物对检测和关系分类,同时采用了基于Transformer的HOI检测器来实现该网络。针对便利店收银台场景,不同于传统的HOI 检测,本文对不同的收银员和顾客进行了细分类。为了提高人-物关系分类的准确性,本文在CDN 网络的特征提取模块加入了基于HRNet 模型的人体关键点信息,最终取得了更好的效果。
随着监控摄像头的技术发展与普及,人们在公共场所下的大多数行为都会被记录下来,尤其是在涉及到人们生命财产的地方。本文选取多个加油站便利店的监控记录作为原始视频数据,为了保证数据的有效性,将正对收银台的监控视频单独提取出来,因为它能完整地记录收银员和顾客的交易细节,并适用于HOI 研究;同时共选取了14 座加油站不同时段的收银台监控视频,确保了数据的多样性,也使最后的模型具有更高的通用性。由于本文是在图片级别的数据集上进行研究,所以还需要对视频数据抽帧操作,避免大量的相似图片,每间隔20帧抽取一帧作为数据集,同时对大部分无人-物交互的图片进行过滤,总共得到17295张有效图片,并选取12970 张图片作为训练集,4325张图片作为测试集。
对于处理完成的图片数据集,本文将划分收银员和顾客常见的交互行为标签,总体以HICO-DET 数据集的处理方式为依据。HICODET 是一个用于检测图像中人-物交互的数据集,它包含47776 张图片(训练集38118 张,测试集9658张),由80个对象类和117个动词类构成600 个HOI 类。不同于HICO-DET 中的person对象类,本文加入了两个不同的收银员类和一个顾客类,总共10 个对象类,5 个动词类,23个HOI类,具体类别如表1所示。
表1 便利店收银台人-物交互数据集标签
按照划分好的标签,需要对17295 张便利店收银台场景的图片进行标注,本文用Python开发完成HOI 的标注软件,以<人,物,交互动作>三元组的形式进行标注,并将标注结果以JSON 的形式保存,主要包括对象目标框的坐标和目标之间的动作关系,具体的标注界面如图1所示。
图1 便利店收银台人-物交互数据标注界面
本文主要对CDN 网络进行改进,以提升在便利店收银台场景下人-物交互检测的准确性。CDN 网络主要包括三个级联的模块,分别是特征提取模块、人-物对匹配模块、动作关系分类模块。特征提取模块包含卷积神经网络和Transformer 编码器,其中提取卷积特征的主干网络为ResNet。人-物对匹配模块包含一个人-物对解码器,输入信息为上一模块的输出向量和人-物对查询器,输出信息为人的检测框、物的检测框和类别以及是否有关系的置信度预测。动作关系分类模块包含一个动作关系解码器,输入信息为上一模块的输出信息和动作查询器,输出信息为具体的动作关系类别。为了增强人-物关系的匹配置信度的准确性,本文在特征提取模块中加入了基于HRNet的人体姿势关键点信息,并将其与视觉特征融合输入到Transformer 编码器。此外,在人-物对匹配模块加入了人的类别。改进的CDN网络结构如图2所示。
图2 改进的CDN网络结构
输入高度为、宽度为、通道数为的原始图片,利用主干网络ResNet 生成特征图,然后使用1×1 的卷积核将特征图从多维压缩到一维,位置信息编码用于区分输出的全局信息中相关的位置。为了得到更全面的特征信息,让人-物之间的动作交互更准确,本文利用HRNet提取原始图片中的人体姿势关键点,并将其与扁平特征一起作为Transformer 编码器的输入。HRNet的主干网络包含4个并行的子网络,其分辨率逐渐衰减一半,对应的通道数增加一倍,其网络结构如图3 所示。由于Transformer 编码器采用了多头注意力机制,它能从包含丰富上下文信息的特征图中汇总到全局的信息。
图3 HRNet网络结构[5]
在得到有序的视觉特征向量后,可以以此来预测、匹配人-物对。首先随机初始化一个可学习的查询器Q作为人-物对查询器,然后构造一个基于Transformer 的解码器,把人-物对查询器Q和上一模块的全局信息作为输入,因此可以得到人的检测框、人的类别、物的检测框和物的类别,并将其组成一个或多个人-物对。同时,利用具体的得分以二分类的形式来判断人-物对是否存在交互关系。因此,匹配的人-物对向量P可以表示为
式中,X为特征提取模块输出的全局信息,为特征提取模块的位置编码信息。此外,把人-物对匹配模块最后一层的输出信息用表示,并用于下一模块。
类似于人-物对匹配解码器,在动作关系模块同样构建了一个独立的动作关系解码器,它能对人-物对匹配模块输出的每个表征人-物对的向量分配一个或多个关系类别。关系解码器采用的输入向量不再是随机初始化的向量,而是人-物对匹配模块的输出向量,这样可以利用其训练得到的先验知识对表征的每一个人-物对进行关系类别解码,通过关系分类训练任务,解码得到的输出向量可以表征关系类别P,并且它同样和X、有关,可以表示为:
为了验证算法改进后的可行性与效果,本文设计了多个实验进行对比分析,变量包括是否加入基于HRNet 的人体姿势关键点、不同层数的Transformer 编码器以及不同的主干网络。本实验的软硬件环境如表2所示。
表2 实验软硬件环境
本文设置了评价指标来判断检测结果的正确性,即当目标检测结果中人和物的检测框与真实框的重叠部分超过了设置的阈值,并且检测到的人-物交互行为分类正确,则结果正确,若不满足一项,则错误。人-物交互检测任务的评价方式与多标签分类的评价方式类似,采用所有交互行为类别在整个数据集的平均精度来表示模型的检测效果,具体表示为:
式中的AP表示如下:
本文采用ResNet50 和ResNet101 两种主干网络用于提取图片特征,并且分别加入3 层Transformer编码器和6层Transformer编码器。为了研究人体姿势关键点对人-物对匹配的效果,同时加入了基于HRNet 的人体姿势关键点信息,逐一对比分析检测结果。实验结果如表3所示。
表3 对比实验结果
通过对比实验结果,可以看出增加Transformer 编码器内部的层数和更复杂的ResNet 主干网络都对人-物交互检测结果有提升,在加入基于HRNet 的人体姿势关键点后,检测结果提升更多,对应的值依次提高8.7%、9.7%、10.3%。
本文对原有的人-物交互检测方法CDN进行改进,使之满足便利店收银台场景下收银员和顾客各自的交互行为检测。在目标检测过程中,不仅检测了不同的物,对人也进行了细分类,实际的应用价值更高。为了在图像中获取更多的信息,加入了基于HRNet 的人体姿势关键点,可以让匹配的人-物对是否存在交互关系的得分更加准确。此外,本文通过多组对比实验证实了加入人体姿势关键点对检测结果的准确性有较大的提升。在实际应用方面,通过实时检测收银过程中收银员和顾客的行为,不仅节省了人力监管的成本,也为企业的智能化管理做出了贡献。