程 莹 许亚男 侯浩楠 宁翠玲 杨成民 董学会 曹海禄 孙 群*
(1.中国农业大学 农学院/农业农村部农作物种子全程技术研究北京创新中心/ 北京市作物遗传改良重点实验室,北京 100193; 2.承德恒德本草农业科技有限公司,河北 承德067000; 3.中国医学科学院 药用植物研究所,北京 100193; 4.恒德本草(北京)农业科技有限公司,北京 100070)
种子和种苗是中药材生产的物质基础,与农作物种子相比,中药材种子的生产、加工过程还处于相对粗放的阶段,种子质量已成为限制中药材规范化种植的关键因素之一。《中华人民共和国种子法》管理范围涵盖农作物和林木的种子,但纳入其中的中药材品种数量很少。我国人工栽培的中药材有300多种,大部分药用植物尚未建立种子质量检测标准和种子生产加工规程,其中具备全程质控体系的品种很少。目前,中药材种子质量管理远落后于农作物种子,存在种源混杂、净度低、成熟度不一致、发芽率低、出苗慢且不整齐等诸多问题,种子成为中药材生产最薄弱的环节,成为制约中药材规范化生产和发展的“瓶颈”。其中,净度是判定种子质量的重要指标之一,农作物种子质量标准中种子净度≥99.0%,相关行业标准或地方标准对中药材种子净度均要求≥95.0%,中药材种子人工引种驯化时间短,野生性较强,良种繁育技术研究不够,净度远低于农作物种子的要求,且不同药材不同批次间种子净度差异极大。净度分析是对样品中净种子、其他植物种子和杂质的检测分析,一般人工借助于放大镜、风选净度仪、镊子和双倍目测镜等进行逐粒观察和分离鉴定,流程较为繁琐冗长。对于小粒中药材种子来说,杂质外形与中药材种子相似,采用传统方法进行净度分析的难度大于大粒种子,存在耗时、繁琐等问题。因此,亟需一种成本低、快速且高效的鉴定方法,以改进传统小粒中药材种子净度检测方法存在的不足,便于小粒中药材种子生产、加工规范化管理。
机器视觉技术近年来发展迅速,是一种计算机技术和图像识别处理技术相结合的多领域新型交叉技术,具有计算能力强、价格低、非破坏性和高效率等特点,该技术可获取种子图像信息,包括种子颜色、尺寸和纹理等信息,已广泛应用于种子发芽率的识别、种子质量分类、品种鉴别、纯度和净度识别等方面。机器视觉技术应用于中药材种子净度提升方面的研究尚未见报道。本研究以黄芩、桔梗、黄芪、紫苏和柴胡等5种大宗常用小粒中药材种子为试验材料,采用机器视觉技术获取净种子、其他植物种子及所含杂质的图像及物理信息,通过2种不同算法的比较,建立5种中药材种子净度快速检测模型,旨在探究应用机器视觉技术对小粒中药材种子进行快速检测,以期为实际生产中小粒中药材种子净度快速、高效检测提供参考。
Scutellaria
baicalensis
Georgi)、桔梗(Platycodon
grandiflorum
(Jacq.) A. DC.)、黄芪(Astragalus
membranaceus
(Fisch.) Bge.)、紫苏(Perilla
frutescens
(L.) Britt.)、柴胡(Bupleulum
chinense
DC.)种子,2020年从河北省安国市中药材批发市场上收集。检测仪器:Microtek MiCardWizard扫描仪(上海中晶科技有限公司),种子自动化分析系统(PhenoSeed,中国农业大学种子科学与技术研究中心与南京智农云芯大数据科技有限公司共同研发)。1
.2
.1
传统种子净度测定参照GB/T 2930.1—2017《草种子检验规程 扦样》扦取样品,测定净度。采用“四分法”分取样品,得到5 g种子样品。
净度=净种子质量/(净种子质量+ 其他植物种子质量+杂质质量)×100%
(1)
1
.2
.2
图像扫描及种子物理指标提取从每种中药材中随机选取500粒净种子,500粒其他植物种子和杂质,净种子、其他植物种子和杂质之间留有一定空隙,整齐排列,使用扫描仪进行扫描(图1),图片保存为tif无损格式,分辨率为300 dpi。使用PhenoSeed对每粒净种子、其他植物种子和杂质进行物理指标的提取,颜色指标包括R
(红色值,Red)、G
(绿色值,Green)、B
(蓝色值,Blue)、H
(色相,Hue)、S
(饱和度,Saturation)、V
(明度,Value)、L
(明度,Luminosity)、a
(从洋红色至绿色的范围)、b
(从黄色至蓝色的范围)、Gray(灰度),尺寸指标包括长度(Length)、宽度(Width)、长宽比(L
/W
Ratio)、投影面积(Area)、周长(Perimeter)、圆度(Roundness),纹理指标包括Gray、R
、G
和B
这4个分量下的对比度(Contrast)、相异性(Dissimilarity)、同质性(Homogeneity)、能量(Energy)、自相关(Correlation)、角二阶矩(ASM)、熵(Entropy),共计54个物理指标。其他种子扫描和提取方式相同。 Other seeds scanning and extracting methods are the same.图1 黄芩净种子、其他植物种子和杂质图片扫描(a)与数据提取(b)过程Fig.1 Processes of image scanning (a) and data extracting (b) of Scutellariabaicalensis Georgi purity seeds, seeds of other plants and impurities
1
.2
.3
净度计算及校正根据1.2.2中选取的500粒净种子、500粒其他植物种子及所含杂质,分别称取其总质量。计算得到每粒净种子、其他植物种子和杂质质量,此处将其他植物种子及所含杂质视作一类样本(命名为0),净种子作为另一类样本(命名为1),两者比值(单粒0类样本质量/单粒1类样本质量)得到换算系数,3次重复。
1
.2
.4
多层感知器网络(Multilayer perceptron network,MLP)多层感知器的结构类似于一套级联的感知器,将一组输入向量映射到一组输出向量,输入与输出之间可以多层加权连接,对事物和环境具有很强的自学习、自适应、联想记忆和并行处理等能力。
通过相关性分析和主成分分析可对54个物理指标进行特征指标的提取,避免冗余信息对建模效果的干扰,可提高建模速率和模型稳定性,之后对不同特征指标下建模效果进行显著性分析。这些指标作为MLP的输入层神经元,其他植物种子和杂质(0)和净种子(1)作为输出结果,最后能建立净种子、其他植物种子及所含杂质的分类模型(图2)。本研究通过IBM SPSS Statistics 21.0进行MLP建模分析。训练集∶测试集∶保持集的样本比例为2∶1∶1;训练集和测试集共600粒种子、其他植物种子及所含杂质,保持集是不参与模型训练的样本集,从剩余的400粒种子、其他植物种子及所含杂质中随机组合,将保持集样本质量净度设置成75.0%、80.0%、85.0%、90.0%、95.0%和100.0%,用于最终网络的独立评估。其中单隐藏层和输出层激活函数分别为双曲正切和Softmax。
图2 多层感知器网络结构Fig.2 Multilayer perceptron network topology
1
.2
.5
二元逻辑回归(Binary Logistic Regression, BLR)二元逻辑回归是1种以二分类变量为因变量的线性回归分析方法,本研究使用IBM SPSS Statistics 21.0软件根据54个指标和特征指标进行BLR净度预测模型的建立,模型样本集设定同1.2.4。
(2)
式中:C
为种子净度第i
种情况的概率;对于第i
种情况,X
是第j
个变量;d
是第j
个变量的系数。C
为“0”和“1”,0是指其他植物种子及所含杂质,1是指净种子,同1.2.3。通过Microsoft Excel 2016和IBM SPSS Statistics 21.0软件,进行MLP和BLR建模分析,之后运用单因素方差分析对模型准确率进行分析比较。
中药材种子采收过程中会混入碎叶片、秸秆、小土粒和其他植物种子等,净度分析表明黄芩种子混杂的主要是其他植物种子、小石块和碎叶片,桔梗种子混杂的主要是碎叶片和秸秆,黄芪种子混杂的主要是荞麦种子、秸秆和小土粒,紫苏种子混杂的主要是碎叶片、小土粒,柴胡种子中混杂的主要是其他植物种子和小土粒。
P
<0.01),其中Length、Width、Area、Perimeter、Roundness、H
与净度均呈极显著正相关,相关系数范围为0.350~0.895;L/W
Ratio、R
、G
、B
、L
、a
、b
、S
、V
、Gray与净度均呈极显著负相关,相关系数范围为-0.844~-0.082。选用尺寸和颜色指标(不含标准差)建立的MLP模型最优,训练集和测试集准确率均为100.0%。2)桔梗种子:桔梗与净度相关系数较高的指标有7个,分别是Length、Area、Perimeter、R
、G
、B
、Gray,其中Length、Area、Perimeter与净度均呈极显著正相关(P
<0.01),相关系数范围为0.515~0.762;R
、G
、B
、Gray均与净度呈极显著负相关(P
<0.01),相关系数范围为-0.851~-0.782。采用这7个特征指标建立的MLP模型,测试集准确率最高,为99.3%。3)黄芪种子:黄芪的尺寸和颜色指标(包含标准差)均与净度呈显著或极显著相关(P
<0.05),相关系数范围为-0.634~0.733,共26个指标。采用这26个指标建立的MLP模型较优,训练集和测试集准确率分别为99.9%和99.6%。4)紫苏和柴胡种子:紫苏和柴胡绝大多数指标与净度呈显著或极显著相关(P
<0.05),共50个尺寸、颜色和纹理指标,紫苏和柴胡相关系数分别分布在-0.649~0.830和-0.554~0.571。这50个指标进行MLP建模,训练集和测试集准确率最高,分别是99.6%和99.4%。根据2.2中筛选得到的特征指标,保证训练集和测试集样本数分别是400和200粒,其中净种子数量300粒,其他植物种子及所含杂质共300粒,对比在不同指标下BLR和MLP这2种模型建模效果。从表2可知,黄芩、桔梗、黄芪、紫苏和柴胡种子基于54个指标和特征指标(表1)建立的MLP模型训练集和测试集准确率>96.0%。黄芩、桔梗、黄芪和紫苏种子基于54个指标和特征指标(表1)建立的BLR模型训练集和测试集准确率≥97.0%;而柴胡基于54个指标和特征指标(表1)建立的BLR模型测试集准确率≤93.1%。综合而言,特征指标建模效果优于全部指标建模效果,同时MLP模型稳定性更优于BLR模型稳定性。
根据1.2.3换算系数的计算方式,即两者比值(单粒0类样本质量/单粒1类样本质量)得到换算系数。黄芩、桔梗、黄芪、紫苏和柴胡的换算系数分别是0.49、0.39、0.67、0.09和0.48。
质量净度=1类样本数量/(1类样本数量+ 0类样本数量×换算系数)×100%
(3)
利用公式(3)进行数量净度与质量净度的换算,将75.0%、80.0%、85.0%、90.0%、95.0%和100.0%质量净度分别带入模型中进行检验,将实际净度与预测净度做拟合曲线。对于黄芩种子而言,根据16个特征指标进行MLP建模,该模型对6个梯度种子净度预测效果均较好,回归曲线的决定系数(R
)达到0.999 9;桔梗种子根据7个关联指标进行MLP建模,对净度预测的回归曲线R
达到0.999 6;黄芪种子26个指标MLP模型对净度的拟合曲线R
达到0.991 4;对于紫苏和柴胡种子而言,根据50个关联指标建模,MLP对种子净度预测效果较好,R
分别达到0.997 1和0.999 8,见图3。R
>0.99(BLR拟合结果未展示);这2种模型算法结构不复杂,操作简单,不要求使用人员具备专业知识背景;2种算法建模和预测过程均耗时较短,MLP和BLR分别耗时20.63和22.69 s。同时,研究所使用的 PhenoSeed软件是由本实验室与南京智农云芯大数据科技有限公司共同研发,可实现尺寸、颜色和纹理等54个物理指标自动化提取,本研究中黄芩、桔梗和黄芪种子使用尺寸颜色关联指标进行建模,模型准确率≥97.5%,并未采用纹理指标参与模型的建立,这是考虑到应用可行性,目前许多加工设备主要基于尺寸颜色指标进行加工处理,比如风筛清选机和色选机等。此外,本研究首次提出以数量进行种子净度计算的概念,而非GB/T 2930.2—2017《草种子检验规程 净度分析》以净种子质量占比计算净度,模型的样本集包括训练集、测试集和保持集,均基于样本数量进行数据分析,从而建立净度快速检测模型,但这2种方式计算的净度之间存在一个换算系数,而该系数会随不同的中药材种子发生改变,并不具备普适性。基于本研究所提出的净度快速检测模型,后续将深入研发集净度、生活力和纯度等方面于一体的自动化检测系统。R
>0.99。综上,以特征指标建立MLP模型可用于小粒中药材种子的净度快速检测。表2 5种中药材种子净度检测模型的识别准确率
Table 2 Discrimination accuracy of seed clarity detection models for five Chinese medicinal plants %
指标Features中药材Chinese medicinalplantsBLR模型 BLR modelMLP模型 MLP model训练集Training set测试集Testing set训练集Training set测试集Testing set黄芩100.0100.099.999.9桔梗100.098.099.598.854个指标54 features黄芪100.097.0100.0100.0紫苏100.097.099.499.2柴胡100.090.699.597.1黄芩100.0100.0100.0100.0桔梗100.097.599.499.3特征指标Characteristicfeatures黄芪100.099.0100.0100.0紫苏100.098.099.599.6柴胡100.093.199.496.5
图3 MLP模型对5种中药材种子净度拟合效果Fig.3 Fitting effect of MLP model on seed clarity of 5 kinds of Chinese medicinal plants