计算机视觉下的果实目标检测算法综述

2022-06-23 00:35李伟强宁政通卢明亮覃鹏飞

计算机与现代化 2022年6期

李伟强,王东,宁政通,卢明亮,覃鹏飞

(1.佛山科学技术学院机电工程与自动化学院，广东佛山 528000; 2.佛山科学技术学院粤台人工智能学院，广东佛山 528000)

0 引言

目标检测是计算机视觉方向研究的重要分支，在目标跟踪、农业智能化等领域有着重要应用。其中，果实目标识别是农业智能化领域的研究热点，其识别过程需要结合使用图像处理以及机器学习等多种方法，从图像或视频中快速、精准识别出果树上的果实目标及其相关特征信息，在采摘机器人、自动化农业、治理植物病害等农业领域具有广泛的应用[1]。随着计算机计算速度的提升和深度学习的广泛运用，计算机视觉技术运用深度学习方法的果实目标识别技术开始成为该领域的主要方法[2]。

本文首先介绍果实目标识别的关键任务以及复杂环境下果实识别的难点和当前果实目标识别的发展现状[3]，然后介绍当前主流的基于深度学习果实目标检测识别算法，并通过2大类进行介绍：一类是基于分类的R-CNN系列算法；另一类是基于回归的YOLO系列算法。接着介绍果实目标检测识别模型的相关数据集，最后分析其存在的困难与挑战，并就可能的发展方向进行展望。

1 果实目标检测识别的研究背景

1.1 果实目标检测识别关键任务

基于计算机视觉的目标检测关键任务是在图像中得到目标类别与位置，需要使用图像处理以及机器学习等多种方法。自然中的目标检测往往受到检测目标大小、形状和姿态以及所处环境下光照、遮挡和抖动等影响,因此,目标检测一直是计算机视觉领域内研究难点之一。

对于果实目标检测识别，关键任务包括果实识别、定位和分割3个阶段。第1阶段是识别，判断图像中是否存在果实;第2阶段是定位，如果图像中存在果实，则从背景图像中返回目标的空间位置;第3阶段是分割，对已定位的目标进行实例分割，给出目标的特征信息，果实种类、果实大小以及颜色等。针对上述关键任务，果实目标检测经历了从图像级到像素级、从单果实目标到簇果实目标识别、从基于传统颜色模型法到基于卷积神经网络的目标检测算法的发展过程[4]。

1.2 果实目标检测识别的难点

当前，果实目标检测遇到的难点主要有如何平衡检测算法的精度和速度以及自然环境下果实图像具有很大的差异性和复杂的背景噪声。实际应用中，果实识别的准确率和速度要求在非高性能的计算机条件下误检率和检测帧数能达到实时检测，果实识别在复杂的自然环境下需要算法能准确识别果实的位置和其他特征信息。

针对上述问题，果实目标检测技术存在以下几方面的挑战:1)自然环境下，树干枯叶、果柄等背景对果实的干扰以及簇生果实生长环境复杂，叶片和果实相互遮挡等因素使得果实识别难度增大;2)果实种类繁多，不同品种果实的特征和纹理特征差异性较大，且同一品种的果实在不同生长时期的尺寸和颜色特征也不同，使得现有数据集收集的果实对象严重不足，当被检测图像中出现没有训练过的果实对象时将出现漏检等情况，影响算法检测的准确度;3)当前的采摘机器人自身硬件条件限制，对复杂的果实目标检测算法运行效率较低。

1.3 果实目标检测识别的发展现状

传统的果实目标检测识别算法是基于图像识别模型的颜色模型法。其检测过程由2个部分组成。首先通过基于尺度不变特征变换[5](Scale-invariant Feature Transform, SIFT)、方向梯度直方图[6](Histogram of Oriented Gradient, HOG)等方法对图像进行特征提取，然后使用支持向量机[7](Support Vector Machine, SVM)、自适应提升[8](Adaboost)等方法对图像中目标进行分类。Ji等人[9]通过提取图像中果实的颜色特征和形状特征，提出了基于支持向量机的苹果识别算法，在苹果采摘机器人上取得了很好的效果。Si等人[10]提出了一种基于色差和色差比的果实识别算法，通过计算像素的色差和色差比来确定果实目标，该算法很好地消除了自然环境下阴影以及土壤的影响。陶华伟等人[11]提出了基于颜色和纹理特征的果实识别算法，该算法使用颜色完全局部二值模式(Completed Local Binary Pattern, CLBP)提取图像纹理特征，利用颜色直方图提取果实图像颜色特征，结合纹理特征和颜色特征，提升了算法的识别准确率。

但是，传统的检测识别算法需要结合果实纹理和颜色特征，提取过程复杂耗时，因此存在较多不足:1)纹理特征不能很好地表述果实之间的差异性，对光照等外部条件敏感;2)特征提取过程复杂、耗时，表述能力也不足，算法实时性不高，无法满足实时采摘;3)参数选择复杂，分类器稳定性不足，自适应差;4)泛化性不强，只能针对某一种特定水果，难以推广到其他水果。

相较于传统识别方法，基于深度学习的方法是直接由图像本身特征及表达关系的自我学习，对果实特征表述能力较强，模型泛化性较高，果实识别准确度高，解决了传统方法不能满足采摘机器人实时识别的问题。同时，随着计算机的计算能力提升，更多的研究者将目光转移到深度学习上。AlexNet[12]在ImageNet大规模视觉识别挑战赛中战胜传统目标检测算法，并且速度和精度远优于传统检测算法。Girshick等人提出R-CNN算法，卷积网络的使用大幅度提高了目标检测的速度。至此，深度学习方法开始广泛运用在各类目标检测识别算法中。

2 深度学习在果实目标检测识别中的发展现状

基于深度学习的目标检测方法近年来受到越来越多研究者的关注，是计算机视觉领域研究的热点方向。果实目标检测识别是目标检测领域的一个热门领域，当前，基于深度学习的果实目标检测识别算法可分为基于分类的two stage检测方法和基于回归的one stage检测方法。

2.1 基于分类方法的果实目标检测识别算法

基于分类的two stage果实目标检测识别方法分2步进行，第1步是提取候选区域过程，第2步是对候选区域分类、定位过程。其优点是算法的准确率较高，但不足也很明显，即第1步提取候选区域花费时间较多，限制了算法的检测速度。

2.1.1 R-CNN

Girshick等人受AlexNet网络启发提出了R-CNN[13]算法。R-CNN采用区域识别的方法，算法过程如图1所示，selective search[14]方法提取输入图片2000个左右的候选区域，对候选区域进行缩放，缩放方法有各向同性缩放以及各向异性缩放，然后将缩放后的候选区域输入到CNN网络中提取特征，再将提取的特征输入SVM中判断类别，最后利用回归器修正候选框位置。

图1 R-CNN算法过程

R-CNN在VOC 2012数据集上的mAP为53.3%。针对自然环境下猕猴桃识别问题，穆龙涛等人[15]提出了改进的AlexNet网络猕猴桃目标识别方法，通过修改全连接层的节点数，解决了模型对弱光环境中枝叶遮挡所导致的识别准确率不高等问题，并且使用不同采光环境下采集的猕猴桃图像，在相同数据集下，改进的AlexNet网络识别精度比VGG16等网络识别精度高出了5.76%。

2.1.2 Fast R-CNN

Fast R-CNN[16]解决了R-CNN训练速度慢和训练空间开销大的问题。Fast R-CNN算法不再对每个候选区域卷积，而是直接对整张图片卷积，减少了大量的重复计算；用RoI(Region of Interest)池化层代替R-CNN的SPP[17](Spatial Pyramid Pooling)层，将不同尺寸的特征图池化成一个固定尺度；提出了多任务损失函数(Multi-task Loss)，将边框回归与分类放到一个网络中，用softmax代替SVM分类器，加快了训练的速度；采用SVD分解改进全连接层，减少了全连接层的计算量，加快了图像处理速度。

Fast R-CNN在VOC2012数据集上mAP比R-CNN高13%，为66%，训练速度比R-CNN快9倍，测试速度比R-CNN快213倍。针对番茄果实器官识别问题，周云成等人[18]提出了基于双卷积链Fast R-CNN方法，其思想是利用番茄器官数据集训练特征提取网络，再对Fast R-CNN初始化，然后再训练。该方法比单链Fast R-CNN方法的识别mAP提高了2.56%。

2.1.3 Faster R-CNN

Faster R-CNN[19]解决了Fast R-CNN提取候选区域(region proposal)时间花费大的问题。Faster R-CNN算法摒弃了R-CNN使用selective search算法生成候选区域的方法，提出了全新的区域生成网络(Region Proposal Network, RPN)，RPN的使用大大提升了候选区域生成速度。

如图2所示，RPN网络首先采用多尺度窗口(bbox)，然后使用Softmax对锚点框(anchors)分类，获得前景目标(foreground)以及背景(background)，最后Proposal层综合前景锚点框(foreground anchors)和边界框回归偏移量，得到已定位好的候选区域。

图2 RPN网络结构

为解决蓝莓果实识别难的问题，朱旭等人[20]提出了基于Faster R-CNN的识别方法，主要思想是通过卷积神经网络、区域候选网络、感兴趣区域池化和分类网络4个步骤来实现果实背景消除以及识别果实。该方法的平均识别准确率达到94.67%，比其他识别算法高出20%。

2.1.4 Mask R-CNN

Mask R-CNN[21]是在Faster R-CNN基础上改进而来，算法在输出候选目标时增加了一个用于预测目标掩模(object mask)的输出分支。Mask R-CNN不仅可以用于目标检测，还可以用于实例分割[22](instance segmentation)和人体关键点检测[23](person keypoint detection)。

如图3，Mask R-CNN使用RolAlign层代替Faster R-CNN算法的RolPooling层，RolAlign层没有采用RolPooling层的二次量化操作，而是使用了线性插值算法，解决了RoI与提取的特征不对准问题，还将提取的特征与输入对齐。FCN[24]是经典的语义分割算法，可对图像中的目标准确分割，FCN对每个RoI预测一个掩模，每个掩模都编码了一个输入对象的空间结构信息。

图3 Mask R-CNN算法过程

Mask R-CNN在COCO数据集上的mAP比Fast R-CNN提升了20%，为39.8%。在葡萄果实采摘方面，宁政通等人[25]提出了一种葡萄果梗识别与最优定位方法，通过改进的Mask R-CNN模型对葡萄果梗进行识别与粗分割，使用多分段区域生长算法对成功识别后的果梗进行精细分割，用于在不同天气光照条件下检测葡萄果梗，平均检测精确率达88%。

2.2 基于回归方法的果实目标检测识别算法

基于回归的one stage果实目标检测识别方法摒弃了提取候选区域阶段，直接获取目标的类别概率和位置，使得其网络结构更加简单，牺牲了部分的准确度，但算法的检测识别速度得到了提高。

2.2.1 YOLO

Redmon等人[26]于2016年提出YOLO(You Only Look Once)算法。YOLO以整张图片作为输入，直接对目标进行定位和分类，其网络结构如图4所示，它使用7×7的单元格对图片进行分割。单元格由x、y、w、h、confidence(置信度)5个值组成，其中(x，y)由归一化处理预测得到，表示单元格中心相对偏移量。

图4 YOLO算法检测过程

YOLO将输入图像分割成若干个单元格，然后分别对单元格进行预测，得到每个单元格预测分数，通过预先设置阈值过滤掉预测分数较低的单元格，最后使用非极大值抑制[27](Non-maximum suppression)得到最终预测的单元格。

YOLO在VOC 2007数据集上获得63.4%的mAP，检测速度相比于R-CNN系列算法有很大提升，可达45 f/s。在农业采摘机器人对番茄自动识别采摘问题上，刘芳等人[28]提出了一种基于YOLO的改进型多尺度算法，其思想是通过设计一种含有残差模块的Darknet-20主干网络，然后融合多尺度检测。该模型对番茄图像识别的精度达到97.13%，速度为7.719 ms/张，相较于YOLOv2等网络模型，满足了番茄果实识别检测的速度和精度要求。

2.2.2 YOLOv2及YOLO9000

为解决YOLO目标定位不准确和召回率低的缺陷，Ioffe等人[29]在YOLO基础上提出了YOLOv2和YOLO9000算法。YOLOv2改变加深加宽网络的思想，通过简化网络来提高定位准确度。YOLO9000算法是在YOLOv2基础上改进的，它的特点是可以检测超过9000类物体，算法采用检测数据集和分类数据集同时训练的方法，通过检测数据集学习目标物体位置，而分类数据集增加算法可分类的类别数量。

YOLOv2通过引入批归一化[30](Batch Normalization)操作，提升了算法模型收敛速度，将检测mAP提高了2.4%；采用高分辨率(High Resolution Classifier)图片进行预训练分类，相比于YOLO预训练模型采用224×224的图片，高分辨率分类器的加入将检测mAP提高了4%；用锚点框(anchor boxes)代替全连接层预测边界框(Bounding boxes)，提高了召回率，比YOLO的召回率提高了7%，对每个单元格预测5个方框，将检测mAP提升了5%。

YOLOv2的计算量比YOLO减少了约33%，VOC2007数据集的精度mAP达到了76.8%。针对未成熟芒果，薛月菊等人[31]在YOLOv2基础上，设计了一种新的密集连接Tiny-YOLO网络结构，实现了模型多层特征的复用和融合，使该模型可以准确识别复杂自然环境下的芒果果实，经过测试，该方法的检测速度达83 f/s，准确率为97.02%，对比Faster R-CNN模型，该方法检测性能更加优秀。

2.2.3 YOLOv3

YOLOv3[32]解决了YOLOv2复杂场景检测效果不佳的问题。YOLOv3算法使用Darknet-53网络结构，采用多尺度特征预测，目标分类方法用Logistic[33]取代了YOLOv2的Softmax方法。

Darknet-53借鉴了残差网络[34](ResNet)的残差模块(residual block)思想，残差模块的使用避免了深层网络下梯度爆炸问题，提高了目标检测精度。YOLOv3综合SSD算法和FPN[35](特征金字塔)的多尺度预测思想，提高了不同尺度目标的检测能力，尤其是小目标检测；引入Kmeans聚类[36]锚框(anchors)方法，加快了训练的收敛速度，提高了预测位置的准确度；使用Logistic预测对象类别，解决了YOLOv2无法实现单目标多标签的问题，提高了对复杂场景的检测能力，以及多类别多目标的检测能力。

YOLOv3对单张320×320图片检测只用了22 ms，并取得28.2% mAP的成绩。在苹果检测识别问题上，武星等人[37]通过改进YOLOv3算法，提出了一种轻量Light-YOLOv3方法，其主要设计了一种类似残差块串联的特征提取网络，并简化了特征图尺度，采用深度可分离卷积以及多目标顺损失函数的方法。测试表明，该模型方法的检测mAP为94.69%。

2.2.4 YOLOv4

Bochkovskiy在2020年扛起YOLO系列算法的大旗，并于同年4月推出最新YOLO，即YOLOv4。YOLOv4[38]有着容易训练和方便使用的优点，是一个高效强大的目标检测模型，并让每个研究者通过一个简单的GPU就可以训练出一个快速和精准的目标检测器。

YOLOv4在YOLOv3基础上对检测器进行优化改进，结合了近几年深度学习领域里最优秀的算法优化策略，在数据处理、激活函数、主干网络等方面都进行了不同程度的优化，使得YOLOv4实时目标检测速度和精度都达到了目前较高水平。

如图5所示，YOLOv4网络结构沿用YOLOv3网络Head部分，主网络(Backbone)采用CSPDarknet53结构，采用空间金字塔池化[31](Spatial Pyramid Pooling, SPP)层增大了网络的感受域，使用PANet中的路径聚合模块作为网络的Neck部分。除了网络结构的改进，YOLOv4还摒弃了传统的数据增强方式，采用最新的Mosaic方法和自对抗训练[39](Self-Adverdarial Training, SAT)数据增强方式，在选择超参数上使用了遗传算法选择，以及采用了CmBN(交叉小批量标准化)对一个批次内小批次之间的统计数据进行收集。

图5 YOLOv4网络结构

YOLOv4的mAP比YOLOv3提升了10%，检测速度是YOLOv3的1.12倍。张晴晖等人[40]将YOLOv4算法与逆运动降维结合，提出了一种全新的果实采摘系统，可对不同果实进行自动识别采摘。经过不同种类水果数据集的训练，该模型对果实识别的准确率达94%以上，单幅图像检测时间达12.3 ms。

2.2.5 SSD

SSD[41]是一种多框(MultiBox)预测的one-stage方法，整个检测过程只需经过一次卷积网络。算法过程是先在输入图片上进行均匀抽样，选择不同尺度的特征图，然后进行特征提取，最后通过回归和分类得到目标所在区域。

SSD算法采用卷积网络直接预测，以输入图片300×300大小为例，SSD的网络结构是以VGG16模型为基础，使用多尺度特征图进行检测，如图6所示，其思想是采用大尺度特征图检测小目标物体，小尺度特征图检测大目标物体,先验框(Prior boxes)采用不同尺度和不同长宽比，一定程度上克服了YOLO小目标检测难和定位不准确的缺点。

图6 不同尺度的特征图

SSD在VOC2007数据集上的mAP为73.2%,检测速度为59 f/s-1，比Faster R-CNN检测速度快6倍。针对柑橘果实识别问题，李善军等人[42]提出了基于改进SSD柑橘检测方法。该方法模型通过大量实验对比，挑选出较为合适的特征图，以及柑橘图像分辨率大小，最后模型识别mAP达到了87.90%，比原SSD模型高出0.34%，并且每张图片检测时间缩短为20.27 ms，大大提高了模型的检测速度。

2.3 小结

表1给出了对基于深度学习方法的算法模型性能以及优缺点做出的对比。

表1 基于深度学习方法的模型性能以及优缺点对比

在以上基于深度学习的目标检测算法基础上，一些研究者针对不同的果实目标也提出了一些新的基于深度学习的果实目标检测识别算法，如表2所示。

表2 基于深度学习的果实目标检测识别相关文献

3 数据集和评价指标

3.1 数据集

数据集是影响目标检测算法性能的重要因素，数据集也是提升算法性能的关键，从传统检测算法到如今基于深度学习的检测算法，其对数据集的规模以及质量要求也越来越高。数据集不仅是衡量算法性能的重要依据，更是推动某一领域向上发展的基本力量。随着互联网的发展，在网络上可收集的图片也越来越多，相应建立的数据集规模也越来越大。如ImageNet图片数据集，共有1400万张图像数据，包含21000种不同的目标，它是当前图像识别的最大数据集，各类目标检测算法会在该数据集测试性能。

ImageNet数据集是衡量算法优劣的基准，它的出现极大地推动了计算机视觉领域的发展。

果实目标检测公开的数据集有CropDeep[49]、VegFru、MinneApple[50]、Medjool和LFuji-air Dataset[51]等。CropDeep数据集由31类不同目标的31147张图像和超过4.9万个对象实例组成，该数据集的图像是通过温室中不同的摄像机在不同时刻下捕捉到的，它能够反映相似物体的周期性变化情况，并且具有代表性的注释，为基于深度学习在农作物分类和检测提供了一个基准。VegFru是一个关于水果和蔬菜的大型数据集，它是根据水果和蔬菜的饮食特征进行分类，目前版本涵盖了25个高级类别和292个下级类别的水果和蔬菜，图像总数达16万张，每种水果小类至少有200张图像。MinneApple是关于苹果的专门数据集，它包含了1000张果园中的苹果图像，数据集中的苹果对象实例达41万个，其中每个对象实例使用多边形遮罩标记，可以帮助研究者精确定位苹果和分割对象。A Capsicum annuum dataset是一个基于经验测量生成植物随机网格渲染的数据集，包括对多个植物部件的逐像素类和深度标签的自动生成，该数据集以辣椒为例，其中包含10500张图像，通过Blender进行渲染，使用不同场景和42个程序生成的植物模型以及随机的辣椒参数。

针对特定的果实目标检测识别问题，用于果实检测的公开数据集也不断发展，如FIDS30[52]、Fruit-360[53]、FruitVeg-81[54]等单一果实图像数据集，但是由于自然环境下复杂背景等因素影响，公开数据不能很好满足实际果实检测需求，所以大部分的果实目标检测需要研究者根据实际环境自建数据集，公开数据集一般是研究者测试算法性能的辅助数据。当前公开的果实目标检测识别数据集如表3所示。

表3 果实目标检测识别公开数据集

3.2 评价指标

不同的评价指标，其衡量的侧重点也不同，良好的算法模型在其使用的评价指标上应该有较好的表现，但是不同任务中会采用不同的评价指标。本文对以下几种果实目标检测任务中广泛使用的评价指标[55-58]进行介绍，分别是准确率(Accuracy)、精确率(Precision)、召回率(Recall)、每秒帧率(Frame Per Second, FPS)、平均正确率(Average Precision, AP)、平均精度(mean Average Precision, mAP)、区域交并比(Intersection over Union, IoU)[59]。

为了更好理解各项评价指标，需先了解4个基本概念，在假设只有正样本和负样本这2个分类目标的前提下:1)True Positives，TP，即实际为正样本且被正确识别为正样本的总数。2)True Negatives，TN，即实际为负样本且被正确识别为负样本的总数。3)False Positives，FP，即实际为负样本但被识别为正样本的总数。4)False Negatives，FN，即实际为正样本但被识别为负样本的总数。

准确率(Accuracy)指被模型正确识别出的正样本占全部样本数的比例，计算公式为：A=(TP+TN)/(TP+TN+FP+FN)，一般地，准确率越高，说明分类器分类效果越好。精确率(Precision)指模型中，真正为正样本数的与识别为正样本数的比例，精确率是衡量模型识别出的正样本是真实正样本的概率，计算公式为：P=TP/(TP+FP)。召回率(Recall)指所有的正样本样例中，被模型正确识别为正样本的比例，召回率是衡量模型能够把正样本正确识别出的能力，计算公式为：R=TP/(TP+FN)。一般来说，通过绘制P-R曲线记录模型精度与召回率，P即是精确率Precision，R即是召回率Recall，它们分别作为横、纵坐标，并且设置一个不变的阈值，若模型的精度越高，召回率越高，那么模型的性能就越优异，其P-R曲线下的面积也就越大。每秒帧率FPS，即模型一秒钟能够检测的图片数量，不同硬件条件上的FPS是不同的，所以FPS的对比应该在同一硬件上。

平均精确率(AP)是指不同召回率(R)点上的精确率(P)的平均，若AP值越大，则说明模型的性能越优秀，AP值是针对数据集中某一个物体类别而言。平均精度(mAP)即平均精度均值，是指模型检测多种物体时，每个种类物体绘制的P-R曲线计算出AP值，mAP值也就是所有物体类别的平均AP值，mAP值是针对整个数据集所有物体类别，是衡量模型在所有物体类别上的检测性能，一般来说，mAP值在0到1之间，值越大越好。区域交并比(IoU)是描述模型识别出的目标框与原图片中标注框重合程度的值，计算方法是预测值与真实值的交集比上它们的并集，即交并比，一般情况下，IoU值设定的阈值为0.5，即IoU值大于0.5就认为检测到目标物体。

4 结束语

本文阐述了果实目标检测识别的任务以及当前存在的关键难点，对时下较为火热的几种基于深度学习的检测方法进行了综述，并比较了各个算法的检测性能和优缺点，介绍了常用的数据集，希望可以给果实目标检测识别的农业技术研究者提供新的思路和想法。目前阶段，果实目标检测识别已经从传统的颜色模型法转变为基于深度学习的方法，技术也日渐成熟，本文在现有的研究基础上给出以下几个思路供研究者参考。

1)应用迁移学习。迁移学习能够在数据集规模较小的情况下训练出检测效果优异的模型，它将在大型数据集(如COCO数据集)训练后的模型权重移植到果实目标检测识别任务中，不仅降低了模型的训练学习成本，而且还避免了训练过程中出现过拟合的问题，减少了因为果实图像数据集不够大带来的模型预测效果差的结果。迁移学习的方法对需要人工标注数据集的果实目标检测任务较为适用。

2)多方式采集图像。自然环境下识别果实位置不仅受复杂背景影响，还受果实大小、成熟程度颜色不一以及角度问题等影响，所以采集图像时应获取多角度、不同生长时段的果实图像，采集后的图像利用数据增强技术扩充数据，从而提高模型检测的准确率和泛化能力。

3)夜间环境下的果实目标检测识别。现有的果实目标检测识别多是针对晴朗天气下的果实检测识别，所以训练出的检测模型对于夜间以及阴天光照不足条件的果实目标识别效果并不理想，夜间以及阴天光照条件下的果实图像采集、图像处理方法和识别算法需要进一步地研究。

4)轻量化模型。当前，基于深度学习的目标检测算法对计算机的计算资源要求很高，在实际生产中耗费的成本较高，为保持模型的高精确度，且尽量降低成本，需对深度学习方法的网络模型进行优化改进，降低网络的复杂程度，减少模型的参数量，使模型能够在硬件水平不高的平台上稳定运行。