吴冀豪 常玉祥 汪宇玲 彭思绘
(东华理工大学信息工程学院,江西南昌,330013)
传统上,水果和蔬菜的识别采用人工分类的方式,但是人工分类会受到很多限制,容易受主观因素的影响,结果会出现较大偏差。不同于其他传统人工识别技术,计算机视觉技术在果蔬识别中作为质量评估、分类、自动分级和机器人收割的一种重要技术[1-3],目前在实际应用中已取得良好的效果。
机器识别果蔬的分类是一个相对比较复杂的过程,果蔬种类繁多,形状、颜色和质地不规则,这对果蔬分类系统提出了更高的要求。果蔬的视觉数据从二值化图像扩展到高光谱图像促进了果蔬识别的发展[4-8],且果蔬识别和分类的技术通常是将视觉数据上的特征描述和机器学习算法相结合[9]。尽管已有不少学者进行了大量的相关研究,但要建立一个有效的果蔬分类系统,仍需要克服许多挑战。因此,本文详述了果蔬分类所受的制约,比较了用于分类的计算机视觉技术,最后对果蔬识别的现状进行了总结和展望。
机器识别果蔬分类受到的制约条件主要包括以下几个方面。
果蔬分类任务的一个关键步骤是选择适合所需场景的传感器用于数据采集。传感器大致分为视觉传感器和非视觉传感器两大类,目前均已广泛地应用在果蔬分类任务中。但是由于传感器功能不同,其所适用的应用场景也不同,例如,视觉传感器对照明条件和背景颜色高度敏感,则适用于夜晚或天气状况不好等场景;高光谱相机在拍摄果蔬图像时,因其对相似颜色等因素不敏感,故在检测相似颜色或背景的水果时会受限,但是可以将水果的高光谱信息与水果的其他特征相结合,以此提高果蔬的识别性能。目前,热红外分析也用于诸多领域,如植物病害检测、冷藏对果实的冷害、农作物成熟度估算和农作物产量估算[10]。不同种类的传感器都有各自的优缺点,在果蔬识别过程中,选取合适的传感器采集数据,对果蔬分类的结果起着至关重要的作用。
特征是用于与其他物体作区分的物理特征。果蔬具有多种物理特征,例如颜色、质地、形状和大小,这些都是可以用作分类的特征参数,并且果蔬具有类别间和类别内的同异性。其中,类别间的变化是主要变化,即颜色、纹理和形状的变化,而类别内的变化通常难以发现,其特征难以区分。理想的系统是能够进行类别间和类别内的分类,单个特征不能使得果蔬进行有效地分类,故将传统的单个物理特征与深度学习特征相结合,才能使相似性高、难以区分的果蔬种类能够被准确分类。
计算机视觉是用于图像分类和识别的一种重要技术,可以利用算法对果蔬进行分类,通常是基于CNN(Convolutional Neural Networks, 卷积神经网络)完成。在果蔬识别分类过程中,CNN 通过有监督和无监督相结合的训练方式来实现对果蔬特征的提取和转换,相比传统机器学习方法,其减少了人工干预的过程,拥有自主学习特征和表达能力。
果蔬识别分类的核心思想是:采用一种或多种传感器以及机器学习技术来识别与产品相关联的特征,例如形状、颜色、纹理和尺寸。实际上,果蔬的所有物理特征都被认为是有效分类的可行特征。最初的方法是采用单一的特征,即通过形状、纹理、颜色等进行分类,但是单一的特征识别存在很多局限性,例如基于颜色、纹理特征的方法容易受光照条件以及果蔬的颜色和外形的制约,而形状几何特征又易受到背景遮挡和果蔬聚类的影响,因此针对不同环境的不同果蔬,采用多特征组合算法能显著提高果蔬识别的准确率[11]。
目前有一些研究是采用各种机器学习模型来构建水果分类器,例如,SVM(Support Vector Machine, 支持向量机)、KNN(K-Nearest Neighbor,K 近邻)、Decision Tree(决策树)等。SVM 借助核函数对数据进行非线性映射,是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,适合中小型数据样本、非线性、高维的分类问题;KNN 是无限维数据的基于实例的非参数相似性度量学习,适用于样本容量较大的类域的自动分类;决策树是一种基于实例的归纳学习方法,它能从给定的无序的训练样本中,提炼出树型的分类模型,是用于多类分类的基于概率的图。目前,SVM 和KNN 已被广泛用于水果和蔬菜分类,并有文章阐述了其相关的分类效果[12-13]。例如在实际应用中,由于背景环境、光照、镜反射和识别不一致等外界因素的变化,通常会影响果蔬识别分类的准确率。
CNN 是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。CNN 具有主动学习特征的特点,同时具有很强的表达能力和泛化能力,通过利用CNN 能够提取到高级的图像特征。CNN 通过多层的卷积网络,从原始图像中逐渐地提取每一级别的图像特征,由一开始的纹理、颜色、形状等浅层特征再到浅层特征中的高级特征。可以利用CNN 来提取特征,然后使用同为无监督学习的其他算法来实现分类。这样整个检测过程就可以实现全过程无监督学习,最终完成自动化的水果识别任务。关于CNN 的整体特征提取能力已有文章阐述其显著的对象分类效果[14]。
目前,各种不同的卷积神经网络已经在农业生产中深入应用。从最初简单的CNN 模型发展到AlexNet 网络模型、VGGNet 网络模型、Resnet 网络模型、Faster R-CNN 网络模型、SSD 网络模型、YOLO 网络模型、FCN 模型、语义分割网络模型等一系列新的深度学习模型。每一种网络模型都有优缺点,例如SSD 网络的优势是识别精度较高、泛化性和鲁棒性较强,检测速度快,缺点是需要对输入的图像进行预处理,且对一些小目标的果蔬的检测精度低。
总结各种果蔬识别的方法的优缺点,具体如下:
1)传统数字图像处理技术是通过果蔬图像的形状、纹理、颜色特征进行分类,但是这种方法受限于目标特征信息的获取程度,容易受光照变化、背景遮挡、果蔬聚类等环境影响,特征获取会受到极大干扰,故该类方法不适应于复杂自然环境下的果蔬识别检测。
2)相较于传统的数字图像处理技术,基于机器学习模型的图像处理技术与分类器的目标检测算法的优势在于,果蔬识别的检测精度以及鲁棒性方面有不同程度的提高,它依赖于数据进行分类识别,具有响应速度快、分类效果好的优点,缺点是在数据训练前需要提前设定各种参数,最终的分类效果与各种参数的设定有关,在一定程度上具有随机性,并且调参过程较为复杂,对于多分类问题效果较差,通常仅适用于大棚环境下单一品种的检测识别。
3)深度学习的卷积神经网络是通过有监督和无监督相结合的训练方式来实现对图像特征的提取和转换。它的优势在于针对复杂自然环境下的水果检测时,具有较好的鲁棒性,且适用于多种类果蔬的分类;缺点是需要有足够大的训练集来对图像特征进行模型训练,且训练时间较长。
综上所述,基于深度学习的卷积神经网络更加适用于复杂自然环境下的水果检测识别,不过它需要在大型数据集上对图像进行测试,并对结果进行理论证明。本文对不同计算机视觉数据集上可用的分类算法进行了比较,如表1 所示。
表1 各类算法在不同数据集下的识别率
果蔬种类繁多,每一种都会呈现出多种特征,故要采用的分类算法会受可用数据集稀缺的限制。现有文献中进行的大多数实验会在类别方面或者数据集大小方面受到限制,目前大力发展预先训练的CNN 亦面临缺乏大量数据集的问题。
本文总结了当下机器进行果蔬分类的相关研究成果,分析了现有技术在数据采集、特征表示和分类算法等方面存在的制约。目前一些最新类型的传感器尚未应用于果蔬分类领域,主要原因之一是缺乏数据,需要扩充数据以建立新的数据集,以使各种传感器获得更有效的结果。另外,针对网络结构的研究,应该进一步继续完善网络结构,寻找轻量级、检测速度快、适用范围更广的网络结构,以实现更高的识别效果,从而进一步促进深度学习在果蔬识别方面的应用。