叶青 冯振乾 朱彦陈 杜建强
摘 要:为提高人们的中医药文化素养,克服人们对中药饮片认知依赖专家经验的问题,探索计算机视觉技术识别中药饮片的可行性,文章建立了包含60种常用中药饮片的数据库,构建一种用于中药饮片图像识别的轻量化卷积神经网络模型(ConvFormer),并与常用的图像识别算法进行了实验对比。实验结果表明,该文提出的ConvFormer模型优于常用的几种图像识别算法,模型经过微调后识别准确率可达98.4%,可为中药饮片图像识别提供可靠的技术支撑。
关键词:中药饮片;高低频提取;轻量化卷积神经网络
中图分类号:TP391.4 文献标识码:A 文章编号:2096-4706(2023)14-0001-07
Intelligent Screening of Decoction Pieces of Traditional Chinese Medicine Based on Deep Learning
YE Qing, FENG Zhenqian, ZHU Yanchen, DU Jianqiang
(College of Computer Science, Jiangxi University of Chinese Medicine, Nanchang 330004, China)
Abstract: To improve people's literacy of traditional Chinese medicine culture and overcome the problem that people's cognition of TCM decoction pieces depends on expert experience, and explore the feasibility of computer vision technology to identify TCM decoction pieces. In this paper, a database containing 60 commonly used TCM decoction pieces is established, and a lightweight convolutional neural network model (ConvFormer) is constructed for TCM decoction pieces image recognition, and experimental comparisons are conducted with commonly used image recognition algorithms. The experimental results show that the ConvFormer model proposed in this paper is superior to several commonly used image recognition algorithms. After fine-tuning, the recognition accuracy of the model can reach 98.4%, providing reliable technical support for image recognition of TCM decoction pieces.
Keywords: TCM decoction piece; high and low frequency extraction; lightweight convolutional neural network
0 引 言
中藥饮片是在传统中医药理论的指导下,根据辨证论治和临床制剂的需要,对中药材进行加工的炮制品。随着国家大力提倡发展中医药事业,人们越来越重视中医药对健康饮食保健的影响,因此对中药饮片的需求量也日益增加,市场上出现掺伪掺假、饮片炮制不合理、农药残留等现象,严重危害使用者的健康安全[1]。传统鉴别中药饮片的方法依赖于专业人员的视觉感官和长期积累的相关经验,这种鉴别方法效率低下,且容易受外界因素的干扰。人工智能图像处理技术的快速发展使得现代计算机技术与传统中医药的结合成为新的发展方向。国家药监局发布的《国家药监局关于促进中药传承创新发展的实施意见》中指出,要促进现代信息技术在中药生产中的应用[2]。国务院办公厅关于印发《“十四五”中医药发展规划》中同样指出,要加快中药材自动化智能化水平[3]。越来越多的政策推动中医药领域应用大数据、人工智能等新一代“智能”技术。因此,将深度学习人工智能技术合理运用到中药饮片的鉴定鉴别上,可在一定程度上替代人工完成中药饮片的种类智能化识别,甚至是对于同一种类不同形态的质量甄别,提高人们对中药饮片的认知,促进中医药文化的传承与发展。
根据相关文献进行统计与分析,使用计算机视觉技术对中药饮片进行鉴定尚未形成规模化效应。相较于人脸识别,对中药饮片的识别研究还比较少,但大体来说主要分为两种:1)使用传统的图像识别算法。该类算法首先进行颜色纹理形状的特征提取,然后使用机器学习分类器进行分类。2)使用深度学习算法。该类算法能够自动提取图像的高层语义特征并进行分类。传统的图像识别算法在进行特征提取时,针对某一种特征的提取效果明显,而对其他特征的提取效果较差,泛化性较弱。常见的传统中药饮片识别算法如图1所示。谢树莹[4]使用颜色直方图对饮片中的黄柏、当归等五种常见饮片的颜色特征进行提取,并使用支持向量机完成对这5种饮片的辨色识别。钱丹丹[5]使用计算机视觉技术分别对大枣饮片的颜色、大小、缺陷特征进行提取,并使用朴素贝叶斯模型完成了对饮片质量的分类。陈仕妍[6]通过综合不同颜色特征向量,实现了常见20种饮片的识别分类。随着深度学习技术的快速发展,一些研究人员尝试将VGGNet、GoogleNet等网络模型应用于饮片识别中,并取得了较好的识别精度。王健庆[7]证明了GoogleNet深度学习模型对中药饮片的识别性能优于HOG特征算法。陈雁[8]使用BMFnet-WGAN网络完成了不同复杂环境下对饮片的识别,平均识别精度为85.9%。
本文构建了江西中医药大学中药饮片资源数据库,创新性提出轻量级神经网络模型ConvFormer,使用数据增强、迁移学习微调的方法实现了98.4%的识别精度,同时对传统图像识别算法和几种常见卷积神经网络模型的识别效果进行对比,证明了本文所提网络模型的识别效果更好。
1 轻量级神经网络
轻量级神经网络脱胎于卷积神经网络,在早期的神经网络应用中,人们不太注重网络的参数量和计算量,往往会使整个网络结构过于冗余,运算速度较慢。轻量级神经网络的提出能够使整个网络结构在保持原有精度的情况下,使模型的参数量和复杂度进一步降低,并且能够部署在移动设备上进行识别应用。MobileNet网络是轻量级神经网络的主要代表之一,MobileNet轻量级网络是在VGG网络的基本结构上,使用深度可分离结构构建而成的,通过宽度因子和图像分辨率因子控制模型和输入图像的大小,相较于原始VGG网络计算量明显减少。深度可分离结构如图2所示。
卷积神经网络通过普通卷积层对前一层的特征图进行卷积,获得图像的抽象局部特征,卷积神经网络通过将特征图一层一层地卷积最终获得高级语义信息,实现物体的分类识别。卷积神经网络中第L-1层的特征图F大小为DF × DF × M,普通卷积层K的大小为DK × DK × M × N,利用普通卷积层K对特征图F进行卷积计算,获得特征图G的计算量大小为DK × DK × M × N × DF × DF。MobileNet神经网络中的深度可分离卷积由Depthwise卷积层和Pointwise卷积层组成,Depthwise卷积层的尺寸大小为DK × DK × 1 × M,Pointwise卷积层的尺寸大小为1 × 1 × M × N,因此对特征图F进行深度可分离卷积计算,获得特征图G的计算量大小为DK × DK × M × DF × DF + M × N × DF × DF。计算量减少为原来的。因此,深度可分离结构能够有效降低网络模型参数,提高运算效率。
2 材料和设备
2.1 实验材料
目前在图像识别领域尚未建立关于中药饮片的权威数据库,本文选用的60种常用中药饮片均采集于江西中医药大学岐黄国医书院。每味饮片为歧黄国医书院选用道地药材,使用传统中医药炮制技术进行炮制,在中药炮制专家的鉴定下,符合《中华人民共和国药典》中饮片质量标准规定。根据所选饮片的形状和外观纹理特征,将60种常见中药饮片分为颗粒、段、切片、块四类:
1)颗粒状。蚕砂、覆盆子、蒺藜、使君子、王不留行。
2)段状。白英、当归、党参、胆南星、荜茇、紫草、葛根、钩藤、黄柏、牛膝、太子参、檀香、制远志、土茯苓、续断。
3)切片状。白芍、白芷、白术、拔契、槟榔、川穹、丹参、大血藤、防风、佛手、黑附片、红景天、红参片、黄芪、鸡血藤、姜半夏、桔梗、木通、苎麻根。
4)块状。大腹皮、刀豆壳、茯苓、龟板、海桐皮、鸡内金、焦山楂、焦神曲、连翘、木瓜、藕节炭、三棱、射干、升麻、生地、柿子蒂、熟地、松节、栀子炭、制川乌。部分中药饮片图像如图3所示。
2.2 实验设备
本文设计的神经网络模型甄别中药饮片的硬件设备分为采集设备和电脑硬件设备。采集饮片图像信息的是华为P30手机、佳能850D型相机。电脑硬件设备为宏碁台式电脑(包含英特尔12代酷睿i9主机、Win 10操作系统)和22英寸显示器,内置4块NVIDIA Tesla k80型显卡、64 G运行内存、1 024 G固态硬盘,运行软件选用PyCharm2021。
3 实验方法
3.1 中药饮片资源数据库
通过图像采集设备采集60种常用中药饮片的图像信息,对各种饮片图像进行人工标记,共得到12 719张图像,并确保每种饮片的图像数量大于120。本文所用的中药饮片图像数据均由高分辨率
設备采集,每张图像数据的分辨率为5 290 × 3 400,
并且后期由中药饮片鉴定专家对每张图像数据进行检查,确保每种饮片标注信息准确无误,饮片细节信息能够清晰完整保留。对处理后的中药饮片图像数据进行归类,建立符合规范的中药饮片资源数据库。
3.2 图像预处理
中药饮片图像数据在采集时由于不同的光照亮度强弱问题,容易形成一些无关信息的干扰。在进行模型训练之前,先对饮片图像数据进行预处理,消除采集过程中光照亮度问题带来的干扰。由于在采集饮片时使用的是传统的RGB三通道模式,而RGB模式中R通道、G通道、B通道之间关联性较强,且每个通道都存储有亮度信息,更容易受周围环境的影响。HSI色彩空间从人类的视觉角度出发,使用色调、色饱和度、亮度来描述颜色信息,将亮度信息与其他参数信息分隔开来,因此使用HSI色彩空间可减少饮片周围亮度信息带来的影响。其中,RGB转换为HSI的过程如式(1)至式(4)所示:
(1)
(2)
(3)
I = (R + G + B)/3 (4)
其中,R、G、B分别表示RGB颜色空间中的R、
G、B三个通道值,H、S、I分别表示HSI色彩空间中的色调值、饱和度值、亮度值。通过上述公式可以将饮片图像数据转变为HSI色彩空间的图像数据,然后将变换后的图像数据作为颜色特征输入到模型中进行识别。
神经网络模型需要大量的图像数据进行训练,因此在进行饮片识别之前,需要先将图像数据进行增强,增加训练样本的数量,然后再输入到神经网络中,这样可以减少模型过拟合带来的风险,使模型的鲁棒性更强。饮片图像数据共计12 719张,在进行特征提取之前,我们先将饮片图像数据进行裁剪操作、水平翻转操作和HSI色彩空间操作,将图像数量变为原来的4倍。
3.3 模型设计
3.3.1 模型架构
本文构建的网络模型如图4所示,其中包含输入层、图像数据预处理层、Conv层、TCB层、PoolFormer层和输出分类层。其中输入层用于饮片的批量输入,在输出分类层输出批量输入饮片的种类名称。图像数据预处理层会将批量输入的饮片图像数据转换为色彩空间图像数据,经过裁剪、翻转操作,扩充原来数据集的数量。Conv层的步长为2,作用为初步提取饮片的特征,将提取的特征传入TCB层中。通过三个TCB模块,将初步提取的饮片特征逐层抽象。PoolFormer层更加偏好于全局特征,然而在前面三个TCB模块特征提取时会有一些特征信息遗失,因此PoolFormer层与Conv层之间的短连接,能够将初步提取的特征和TCB抽象的特征同时输入到PoolFormer层中,使得该层处理的特征信息更加全面。
3.3.2 特征提取
现有的卷积神经网络算法和Transformer算法对饮片的特征提取都存有不足。卷积神经网络由于受卷积核感受野的限制,在进行特征提取时偏好局部信息。Transformer偏好于长距离信息的特性使得模型的参数量比较大,识别速度比较慢。因此本文创新性地提出一种轻量级神经网络ConvFormer算法,通过将卷积神经网络和Transformer相结合,将两者的优势互补,使模型更加适用于中药饮片的识别,轻量级的结合使网络参数量更少,识别速度更快。ConvFormer算法模型在低频特征中使用TCB模块(双通道卷积模块)提取饮片的纹理形状等浅层特征,在高频特征中使用PoolFormer模块强化低频特征中提取的纹理形状特征,同时减少模型的参数量计算,提高识别速度。
所提出的低频特征提取為TCB模块,如图5(a)所示,该特征提取模块由两个特征提取模块并行组成。一个分支使用改进的SeNet模块提取通道信息,另一个分支使用大尺度卷积核提取空间信息,将两分支提取的特征进行相加运算,可以实现通道特征与空间特征的互补。改进的SeNet模块将原有的全连接层去除,使用DWConv进行特征信息交互,减少了全连接带来的数据冗余。另一分支使用大尺度卷积核提取空间特征,主要用于关注图像中哪一部分更加重要,同时空间信息的提取补充了通道关注不到的细节信息。通道特征提取与空间特征提取分开进行,实现在对饮片通道特征信息和空间特征信息进行捕获的同时减少参数量。多次堆叠执行TCB模块能够快速编码更多的特征信息。
所提出的高频特征提取为PoolFormer模块,如图5(b)所示,该模块采用Transformer中的MetaFormer框架,将原有框架中的Attention模块变为本文中的Channel Pool模块。Transformer原网络框架使用Attention模块导致整个模型计算量大,运行缓慢。Attention模块的作用是实现全局特征之间的信息通信,本文PoolFormer通过两个残差子模块分步实现高频特征对全局特征的提取抽象,第一个模块为LayerNorm+Channel Pool,主要作用是对之前提取的特征图进行通道信息之间的混合通信,第二个模块为LayerNorm+Mlp,目的是在混合通道信息之间添加线性空间信息。相较于原有的Attention模块,修改后的PoolFormer模块可以实现同样效果且参数量大大减少,运算速度加快。
3.4 模型训练
ConvFormer模型使用中药饮片资源数据库中的饮片图像数据进行识别,按照7:2:1的比例将饮片数据集划分为训练集、验证集和测试集。本文首先在最优超参数的选取上进行实验,确定最佳的初始学习率和批尺寸。根据选取的超参数,对比了两种不同的迁移学习方法与未迁移的ConvFormer网络模型性能优劣。同时,以传统的机器学习方法KNN和HOG+SVM、深度学习方法ResNet50、GoogleNet、MobileNet作为对照组进行实验,对比了每种算法的识别准确率和参数量。
4 结果与分析
4.1 选定最优超参数
本文构建的网络模型在进行训练时受初始学习率和批尺寸的影响,不同的学习率和批尺寸会以不同的步调寻找全局最优解,学习率是模型梯度下降的步长,决定了搜索全局最优解的快慢;批尺寸为模型每次进行训练时的样本数量,决定着模型寻求最优解的方向。因此,选取合适的学习率和批尺寸对实验结果有很大的影响。本文选取的学习率为0.1、0.01、0.001、0.000 1,批尺寸为4、8、16、32、64、128、256,将不同的学习率与批尺寸进行组合实验,观察实验结果的准确率变化情况,从而确定最优的组合方式。实验结果如图6所示。
从图6中可以得出,当batchsize增大时,模型的准确率先升高后降低;在每个batchsize中,准确率会随着learning rate的减小而快速找到模型的全局最优解。learningrate越大,模型准确率产生的波动越大。以learningrate=0.01为例,模型的准确率会因batchsize过小而陷入局部最优解,随着batchsize变得过大而难以收敛。综上,本文选取的最佳初始学习率为0.000 1,批尺寸为16。
4.2 不同模型识别效果对比
不同模型在中药饮片上的识别结果如表1所示。从表1中可以看出,相较于深度学习神经网络算法,传统的机器学习识别算法效果较差。在传统机器学习算法中,将特征提取和特征分类分离的HOG+SVM方法效果明显优于直接在特征空间中分类的KNN方法。在深度学习算法中,本文提出的ConvFormer算法效果最好,准确率最高可达96.6%。相较于MobileNet网络,虽然参数量有所增加,但准确率大幅提升。与GoogleNet、ResNet50网络相比,ConvFormer方法不仅准确率小幅提升,而且在参数量大小上明显减少,这表明本文提出的改进模型能够明显提升中药饮片的识别率,并且在模型大小上降低了对内存的消耗,识别速度更快,鲁棒性更佳。
本文同时对比了使用迁移学习与未使用迁移学习的ConvFormer算法,在实验中使用迁移学习有助于模型更快地收敛。在迁移学习的两种方法中,固定权重的迁移学习发生了负迁移,我们推测固定权重将先验知识固定,模型进行新的饮片图像识别时囿于原有知识,造成准确率降低的现象。在微调迁移学习中,模型的准确率相较于未迁移时明显提高,经分析可知,在模型进行测试时,将测试中学习到的新知识添加到原有的知识库中,不断地更新先验知识,使模型更加适用于该种类的鉴别。
4.3 饮片识别准确率对比
本文进一步测试了网络上各种复杂背景下中药饮片在改进模型上的识别效果。网络上获取的图片相较于本文使用的数据集图像分辨率更低,明亮度不一,图像内杂物、修饰物较多。将收集到的网络上中药饮片作为测试数据集,获得其识别率,如表2所示为网络上收集到的中药饮片识别准确率。
从表2中可以看出,在识别熟地、生地、焦神曲类饮片时,因它们的外观、颜色相似导致识别率较低;黄芪、白芍、桔梗类饮片在颜色和纹理方面具有一定的相似性,网络模型仍能够将其有效识别出来。太子参、钩藤、黄柏、檀香类段状饮片,外观差异较大,识别效果较好。综合观之,本文提出的网络模型在面对新的复杂背景时,噪声较多的饮片仍具有较好的识别率,模型泛化能力较强。
5 结 论
本文总结了传统中药饮片识别常用的方法,传统中药饮片識别将特征提取与特征分类分离,虽然可以针对不同的类型设计具体的特征提取方式,但是这种方式泛化能力较弱,常常会存在不同类型中药饮片识别准确率较低的问题。在深度学习方法中使用卷积神经网络自动提取特征并进行特征分类,这种方式对背景单一、形态差别较大、图像属性相似的中药饮片识别准确率尚佳,但也存在网络结构设计困难,较长的网络结构导致梯度弥散的现象。
本文提出的ConvFormer算法,针对中药饮片种类多、每种饮片图像数量少、饮片图像受光照亮度强弱因素影响等问题,改进了现有的卷积神经网络和Transformer方法对饮片特征提取不足的问题。该算法采用高低频特征提取的方式,更加关注提取饮片的细节特征,减少了参数量,使模型可以更加轻便、快捷地针对中药饮片进行识别。在图像预处理环节,使用HSI色彩空间代替传统的RGB颜色空间,解决了饮片图像受光照强度因素干扰的问题。
此外,对本文提出的网络模型进行最优超参数选取实验,通过不同的超参数组合实验,选取最优的网络超参数。同时采用传统识别方法、深度学习方法与提出的网络模型进行对比实验,得出了本文提出的新型网络模型识别准确率优于其他方法。通过迁移学习对比实验,验证了迁移学习微调能够提高模型在中药饮片识别上的有效性。最后,收集网络中复杂背景下的中药饮片图像进行测试,验证了本文提出的方法在面对复杂背景下的中药饮片时,仍能有效提取图像中的饮片细节特征,具有较高的识别率,模型泛化性能较强。
综上,本文提出的新型图像识别方法具有广泛的应用前景,在面对复杂背景下的中药饮片时,能够关注饮片细节信息有效地进行识别。该算法在外观、颜色相似的饮片识别中还存在不足之处,后续的研究将会更加关注外观相似中药饮片的细分类识别。
参考文献:
[1] 张静.探讨中药饮片抽检情况及市场现状 [J].食品安全导刊,2021(23):185-186.
[2] 王青云.《国家药监局关于促进中药传承创新发展的实施意见》发布 [J].中医药管理杂志,2021,29(1):129.
[3] 佚名.“十四五”中医药发展规划 [J].江苏中医药,2022,54(5):1-9.
[4] 谢树莹,周明,周金海.基于OpenCV的中药饮片“辨色”识别研究 [J].时珍国医国药,2018,29(2):510-512.
[5] 钱丹丹,周金海.基于计算机视觉的中药饮片检测与分级研究 [J].时珍国医国药,2019,30(1):203-205.
[6] 陈仕妍,卢文彪,王凤梅.基于颜色匹配模板的中药饮片图像识别 [J].中国实验方剂学杂志,2020,26(6):158-162.
[7] 王健庆,戴恺,李子柔.基于深度学习的中药饮片图像识别研究 [J].时珍国医国药,2020,31(12):2930-2933.
[8] 陈雁,邹立思.基于BMFnet-WGAN的中药饮片智能甄别 [J].中国实验方剂学杂志,2021,27(15):107-114.
作者简介:叶青(1968—),女,汉族,江西南昌人,教授,硕士,研究方向:数据挖掘、中医药信息学;冯振乾(1997—),男,汉族,河南新乡人,硕士研究生在读,研究方向:图像处理;通讯作者:朱彦陈(1980—),男,汉族,江西南昌人,副教授,硕士,研究方向:图像处理;杜建强(1968—),男,汉族,江西南昌人,教授,博士,研究方向:数据挖掘、中医药信息学。