商业银行基于Group Testing技术的图像识别应用研究

2024-09-28 00:00:00吴永飞王彦博张月徐奇
银行家 2024年9期

随着大数据、人工智能、物联网等新兴技术的发展,金融领域的传统业务模式已逐步进化为智慧金融。商业银行在基于物联网和图像识别算法模型进行信贷业务风险管理的同时,对图像识别算法模型的运行效率和资源消耗也提出了更高的要求。本文创新地在图像识别模型推理测试环节,将图像数据样本逐一检测(One-by-one Testing)改进为群组检测(Group Testing),通过对测试图像数据进行合并组合,达成快速对多张图像进行一次性识别检测的目标,大大缩减了计算时间、有效提高了计算效率,并显著降低了人工智能模型的计算资源消耗、节省了计算成本,积极助力人工智能绿色低碳发展。

商业银行图像识别技术应用

图像识别(Image Recognition,IR)作为计算机视觉(Computer Vision,CV)领域的一个重要研究方向,在商业银行的众多业务领域得到了广泛应用。在移动支付中,图像识别技术可以实现人脸识别(Face Recognition,FR),将用户的面部特征与数据库中的信息进行匹配,以验证用户的身份。在信贷业务中,通过人脸识别远程辅助身份认证,优化开户及风控业务流程,提升客户体验;通过光学字符识别(Optical Character Recognition,OCR),自动鉴别客户各类凭证、证件和报表,推进金融服务提质增效。

目标检测(Object Detection,OD)是在图像识别的基础上对物体进行定位,即给出物体在图像中的位置

和尺寸大小。在金融信贷业务中,尤其是风控场景中发挥了重要作用,例如,金融票据防伪鉴别场景,基于小目标检测的票据图像文本信息提取等技术,构建深度学习目标检测模型实现视觉检测自动化;针对AI算法模型替换原照片进而伪造人脸场景,通过深度目标检测及图向量预训练模型,构建AI换脸背景相似度识别模型,实现对银行账户服务AI仿造人脸攻击的识别和防御。为更好地服务实体经济,多维度满足中小微企业的融资需求,在信贷业务领域,针对传统抵质押融资业务存在道德风险高、信息透明度低以及融资成本高等问题,金融机构通过5G物联网技术对仓储物流进行“7×24小时”连续监测,利用图像识别技术对物联网平台的信息进行智能化识别,对仓库货物进出、人员入库作业等行为进行有效监管,根据企业经营状况监控,及时预测风险并触发相应的防范措施,实现银行企业信贷业务风险管理智能化水平的提升。图像识别模型应用一般分为模型训练(Training)和推理测试(Testing)两个阶段环节,模型训练环节根据不同问题的要求选择合适的算法,并使用已经预处理好的数据进行模型训练;推理测试环节将训练好的模型部署到生产环境中,并使用新产生的业务数据进行实时或离线的推理测试。在模型训练环节,随着大规模训练数据和复杂神经网络模型结构的出现,AI模型训练需要越来越多的计算资源,变得越来越耗时耗能,提高AI模型训练效率和加快模型训练速度面临着严峻挑战。而对于模型推理测试环节,虽然资源消耗相较于模型训练有一定程度的降低,但随着大量推理测试数据的产生,仍需较高的计算资源和计算能力来确保实时或近实时服务响应,同样面临着如何有效提高资源利用效率和推理测试速度的挑战。

目前,为提高图像识别模型应用资源利用效率以及模型训练、推理测试的速度,很多研究工作从计算方法(Me th o d)、数据资料(Ma t e r i a l)和机器设备(Machine)等维度上进行了广泛而深入的探索实践。本文针对极度不平衡数据集,从模型机制(Mechanism)层面,在模型推理测试环节,提出将图像数据样本逐一检测(One-by-one Testing)改进为群组检测(Group Testing),通过将多张图像数据进行混合后,一次性识别检测出多张图像数据中的目标,从而大幅降低检测次数和时间,有效提升检测效率;由此形成图像识别算法模型提高模型训练和推理测试资源利用效率及速度的“4M”框架方法论。

目标检测技术发展

目标检测又称为目标提取,其主要任务是从给定的输入图像中提取符合条件的目标信息,并对目标所属类别和所处位置进行分析。目标检测方法从最初的人工筛选特征再分类的传统检测方法,已经发展到基于深度学习的卷积神经网络进行特征自动选择,以更自动化、智能化的方案使目标检测算法模型的精度进一步提升,速度进一步加快。目前,基于深度学习的神经网络主流目标检测算法是以YOLO(You Only Look Once)为代表的单阶段检测为主,它在2015年由Joseph Redmon和Ali Farhadi提出。随着深度学习和计算机视觉技术的发展,YOLO也有了显著的演化和改进:改进的YOLOv2和YOLOv3分别通过添加了多尺度信息和设计了更强的主干网络DarkNet53,来提高特征提取能力;YOLOv4考虑选择参数更多且学习能力更强的CSP Darknet(Cross Stage Partial Darknet)网络作为骨干网络;随后出现的YOLOv5在输入端进行了改进,它在主干网络中加入了一种Focus结构,在预测端提出并采用GIoU(Generalized Intersection over Union)Loss作为损失函数。

随着大规模训练数据和复杂神经网络模型结构的出现,为了提高图像识别算法模型资源利用效率以及模型训练、推理测试的速度,很多改进的技术方案被提出,主要聚集于计算方法(Me t h o d)、数据资料(Material)和机器设备(Machine)三个层面:

计算方法层面

通过优化模型的网络结构与参数配置,提高模型训练和推理测试的资源利用效率及速度。

网络结构优化。通过剪枝(Pr u n i ng)和量化(Quantization)等技术减少模型参数量和计算量,以及动态调整网络结构,以增强模型对复杂图像特征的学习能力。2017年,An d r ew G. Howa r d等人提出了一种轻量级卷积神经网络架构MobileNet,采用了深度可分离卷积(D e p t h w i s e S e p a r a b l e Convolution)的结构,将标准的卷积操作拆分为深度卷积和逐点卷积两个步骤,这种结构大大减少了参数量和计算量,使得模型在保持计算效率的同时,仍能保持良好的模型准确性。

参数配置。开发新的激活函数(如ReLU、Swish 等),以改善梯度消失或爆炸问题,从而加速模型训练过程。同时,设计更加贴合任务特性的损失函数,引导模型更准确地学习目标特征。

数据资料层面

数据资料作为模型训练的基础,其处理与利用方式直接影响模型性能,通过图像尺寸变更进行特征压缩、提取关键特征进行特征增强等方法,有助于提高模型训练和推理测试的资源利用效率及速度。

特征压缩。通过主成分分析(P r i n c i p a l Component Analysis,PCA)、哈希算法等技术对图像进行降维处理,改变图像尺寸以进行特征压缩,从而将更小尺寸的图像数据用于模型训练和推理测试,有助于减少模型训练和推理测试的资源使用,使运行速度得以提升。

特征提取。利用注意力机制、特征金字塔网络等方法,从图像数据中提取关键特征,从而提高特征表示的鲁棒性和有效性。

机器设备层面

通过增加硬件设备、应用高效能硬件设备等方式,提高模型训练和推理测试的资源利用效率及速度。如通过采用GPU、TPU、FP GA等专用加速硬件设备,利用其强大的并行计算能力加速模型训练和推理测试过程。同时,利用分布式计算框架将大规模模型训练任务分配到多台机器上并行执行,从而有效缩短模型训练时间。

Group Testing技术发展

1943年,Robert Dorfman提出用于疾病筛查的群组检测协议,启动了群组检测(Group Testing)研究。Dorfman群组检测协议是一种用于大规模筛查的统计方法。该方法最早应用于第二次世界大战,当时美国征召了大量士兵入伍,美军希望对士兵做血液检测,以分析士兵是否感染梅毒。由于血液检测成本昂贵,对每名士兵逐一检测效率很低且成本巨大,因此设计了Group Testing筛选方法,将士兵分为多个小组,每个小组的人员一起进行检测。从而,如果一个小组的检测结果是阴性,即该组内没有感染人员,那么这个小组的所有人员都被认为是健康的,不需要进一步的检测;而如果一个小组的检测结果是阳性,即该组内至少有一名人员感染,那么这个小组的每名人员都需要进行单独的检测以确定其个体状态。这种方法特别适用于资源有限、需要高效检测的情况。

应用该思想进行群组检测通常包括以下四个步骤(见图1):

1.分组:将全部检测对象分为多个不重叠的小组;

2.初步检测:对每个小组进行检测;

3.结果分析:如果小组检测为阴性,则该组所有检测对象都被认为是非缺陷的;如果小组检测为阳性,则进入下一步;

4.个体检测:对检测结果为阳性的小组中的每个检测对象进行单独检测,以确定哪些检测对象是有缺陷的。

在实际应用中,通过Group Testing群组检测协议并合理划分小组样本数量,当缺陷的发生率较低时将有足够多的小组被检测为阴性,这会大量减少所需的总检测数量。在2019年末开始的新冠病毒传播期间,防疫部门为精准防控避免疫情进一步扩散,开展大规模的核酸检测时,将多个人(比如10个人)的样本进行混合,放入同一个试管中,最终一起对这多个人进行检测,其背后蕴含的原理正是Group Testing思想。

基于Group Testing的目标检测技术方案

在目标检测领域,图像作为一种易于理解的数据模态,也存在便于拼接混合的特点,现代图像处理软件(如Photoshop等)提供了快速合并组合图像数据的功能,使用户能够轻松地将多张图像合并组合成一张,OpenCV等图像处理库和算法同样支持图像合并组合任务,随着图像融合技术的逐渐成熟,图像合并组合技术也在现代生活和生产中得到了广泛应用。本文提出图像的目标检测也可以像血液检测或疾病筛查一样采用群组检测方案。本文聚焦模型机制(Mechanism)层面,将推理测试环节图像数据样本的逐一检测(One-by-one Te s t ing)机制,改进为群组检测(Gr oup Testing)机制,将图像识别模型训练、推理测试资源利用效率和速度提升的“3M”框架方法论,升级为“4M”体系。

具体而言,在开展图像目标检测任务时,基于群组检测协议,通过将多组图像混合为一张图像后,利用目标检测算法模型一次性检测即可识别出多张图像中是否存在目标物品或人物,从而大幅降低检测次数和时间,有效提升检测效率。面向目标检测任务的群组检测方法尤其适用于“1”“0”类别标签极度不平衡样本集,在此类样本集上目标物品或人物出现在极少数图像数据样本中。合并组合后的图像如果没有目标物品或人物,那么该合并组合图像不需要进一步对单张图像进行逐一检测;如果合并组合后的图像有至少一个目标物品或人物,那么该合并组合图像需要进行进一步的单张图像逐一检测。

鸽巢原理又称为抽屉原理,其基本逻辑是如果有n 个物体放入m个盒子中(且n>m),那么至少有一个盒子必须放置两个或更多的物体,在解决与鸽巢原理相关的问题时,最差原则(或称为最不利原则)是一种重要的方法。最差原则的基本思想是考虑所有可能情况中最不利于某件事情发生的情况,也就是说,我们需要设想一个最坏的场景,即所有物体尽可能均匀地分布在各个盒子中,直到无法再均匀分配为止。这样,我们就能确定至少有一个盒子中必须包含多于一个的物体。

在开展基于群组检测协议的图像目标检测任务时,假设总共有n张图像,其中w张图像有目标物品或人物,可以取k张图像合并组合为一张,即合并组合后共计张图像,也就是鸽巢原理中的n个物体放入个盒子,由于合并组合数k>1,因此n> ,符合鸽巢原理。然而,基于群组检测协议的图像目标检测任务,其检测次数与图像中是否包含目标物品或人物相关,w张有目标物品或人物的单张图像(物品)放入张合并组合图像(盒子)中之后,形成以下两种情况:

若时,按照鸽巢原理,在最差原则下合并组合后的每张图像(盒子)均包含目标物品或人物的图像(物品),所有图像均需再次进行逐一检测,难以降低检测次数和时间;

若时,按照鸽巢原理最差原则,尽可能将有目标物品或人物的图像(物品)放在不同的合并组合图像(盒子)中时,最多会有w张合并组合图像其每张仅有一个目标物品或人物,剩下的()张合并组合图像是没有目标物品或人物的,则无需进行进一步的单张图像逐一检测。在鸽巢原理最差原则下依旧能够降低检测次数和检测时间。

本文的实证分析将在鸽巢原理最差原则下开展,以期验证基于群组检测协议的图像目标检测任务在广泛意义上的适用性。

商业银行群体目标检测应用实证分析

业务理解与数据理解

基于国内某全国性股份制商业银行企业信贷业务场景,该场景对客户用作贷款抵押物的生产设备通过摄像头进行监控,以确保设备未丢失、未挪动、未损坏。摄像头采集的图像由客户厂房发送至商业银行,银行端接收到图像后,需要训练并部署目标检测算法模型,从而对设备周围的环境进行检测,判断是否有人员擅自进入设备作业区域。如出现违规人员进入,则意味着设备存在被盗、挪动、人为损坏等风险,此类风险的及时识别检测,有助于商业银行第一时间采取风险管控措施,有效提升风险管理能力。在该场景中,由于设备大部分时间处于自动化生产状态,周围人员极少,因此属于“1”“0”类别标签极度不平衡样本集,应用群组检测方法能有效减少检测次数、缩短检测时间、提升检测效率、节省资源成本。

在数据算料方面,本文选取一段时间内的999张监控图像作为推理测试样本,其中包含20张有人员的“1”标签图像数据样本,“1”标签样本占比约为2%。为验证群组目标检测技术的广泛有效性,在分组阶段,根据鸽巢原理最差原则,将999张图像依次取3张进行合并组合,形成333张合并组合后的图像,

同时使有人员的单张图像样本尽可能均匀分布于合并组合后的图像中,即333张合并组合图像中有20张是有人员的。

目标检测模型群组检测

基于上述数据,本文工作主要聚焦于监控的设备画面中是否有人员出现,并给出所有图像是否有人员的识别检测标签。本文工作使用YOLOv5模型作为识别是否有人员的基础模型,在进行群组目标检测前,YOLOv5模型已训练完毕。

首先,应用已训练好的YOLOv5模型,开展999 张图像数据样本的逐一检测,得到所用时间以及根据999张图像数据样本进行逐一检测的AUC、KS、Accuracy、Recall和Precision模型评估指标。

而后,设计目标检测模型群组检测机制,应用已训练好的YOLOv5模型,开展333张合并组合图像(即999张图像数据样本进行“3混1”处理)的群组检测,并得到群组检测所用的时间以及AUC、KS、Accuracy、Recall和Precision模型评估指标。

具体步骤如下:

1.分组:将999张图像按每3张合并组合为1张新的图像;

2.初步测试:应用已训练好的YOLOv5模型对合并组合后的333张图像进行识别检测;

3.结果分析:如果当识别到合并组合后的图像是无人员的,则直接将参与合并组合的每个单张图像都判断为无人员的;如果当识别到合并组合后的图像是有人员的,则进入下一步;

4.个体测试:对识别为有人员的合并组合图像中的每个单张图像进行逐一识别检测,以确定有无人员。

实证分析结果

本文所选取的999张图像逐一检测所用时间为140 秒,在同样的服务器配置环境下,“3混1”(3张图像合并组合为1张图像)的群组检测所用时间仅需60秒,完成群组检测的总体时间仅为逐一检测的42.86%,具体结果如表1所示。

从目标检测模型的AUC、KS、Accuracy、Recall 和Precision模型评估指标上分析,在不改变Cut-off 点的情况下,“3混1”群组检测的识别检测效果在AUC、KS、Accuracy、Recall和Precision均优于(或不低于)逐一检测,具体结果如表2所示。

实证分析结果表明,在商业银行企业信贷业务场景,将设备监控采集的图像通过群组检测识别画面内是否有人员出现,相较采用逐一检测机制,在不降低(甚至所有提升)识别检测准确性的前提下,能够有效降低检测时间、提高资源效率、节省计算能耗。

结语

本文创新提出将Group Testing思想应用于计算机视觉目标检测领域,将模式识别与机器学习类任务的推理测试环节从One-by-one Testing改进为Group Testing,从模型机制(Mechanism)层面为提高图像识别模型推理测试速度和资源利用效率提供了新思路,将提升目标检测模型训练和推理测试资源利用效率及速度的“3M”框架方法论升级为“4M”体系。实证分析结果表明,群组目标检测方案在不降低(甚至有所提升)识别检测准确性的情况下,极大地缩减了检测时间。群组目标检测机制创新能够有效提升检测效率,降低计算资源消耗,促进数据中心节能降耗,对人工智能绿色低碳发展具有借鉴意义。

(龙盈智达〔北京〕科技有限公司的杨璇、吕奕霖、王杰、冯琳对本文亦有贡献)

(作者单位:华夏银行)

责任编辑:董治