近红外光谱与决策树算法联用快速鉴别苍耳掺伪

2022-12-04 01:03廖书嫣刘欣宇梅泽桐
中成药 2022年8期
关键词:苍耳正品决策树

荣 菡, 廖书嫣, 刘欣宇, 梅泽桐, 李 亮

(1.北京理工大学珠海学院材料与环境学院,广东 珠海 519088;2.北京理工大学珠海学院数理与土木工程学院,广东 珠海 519088;3.江西省宜春市食品药品检验所,江西 宜春 336000)

苍耳是菊科植物苍耳XanthiumsibiricumPatr.的干燥地上部分成熟带苞的果实,具有散风寒、通鼻窍、祛风湿等功效[1]。我国苍耳属植物主要有苍耳、蒙古苍耳、偏基苍耳、刺苍耳等。

在苍耳掺伪鉴别中,王俊等[1]提取苍耳药材以及混伪品的基因DNA,应用ITS2序列并测序,将其区分。基于性状的不同,常常以大小、性状、颜色、质感加以感官鉴别,误差较大;理化检验一般根据苍耳化学成分,采用薄层层析法、紫外光谱法、色谱法等方法[2-3]进行处理,需要使用大量有机试剂,费时繁琐,针对其中个别成分的特征响应,有时亦难评价其质量标准的整体性。

近红外光谱技术具有结构信号量丰富、测量形式多样化、操作简便、重现性好等优势,常常与化学计量学联用,对检测对象进行快速无损的定性和定量检测[4-5]。基于决策树二叉树归纳学习算法,具有能够自组织学习,快速处理高度相关的多维数据结构矩阵变量的优点,可形成分类器和预测模型,广泛用于农业工程[6]、矿业工程[7]、遥感气象[8-9]等领域。

基于近红外光谱技术与决策树算法联用,建立快速鉴别苍耳掺伪的模式识别模型,能够为实现大样本量的苍耳药材品质评价。

1 材料

试验共采集正品苍耳、蒙古苍耳、偏基苍耳、刺苍耳共194批,共450例样本,每批样本重复3次,经江西中医药大学陈天朝主任药师鉴定为正品苍耳药材、蒙古苍耳、偏基苍耳三类,样品信息见表1。其中江西、湖南产地鉴定为蒙古苍耳,与付晓梅等[10]对江西省苍耳属植物资源的调查结果一致。每批样品均取其干燥茎,粉碎成粉末,过三号筛(50目)后,装入直径约6 cm、高约4 cm的圆形无色玻璃小瓶,并使瓶中粉末厚约3 cm,25 ℃条件下密封备用。配制分别掺有蒙古苍耳、偏基苍耳、刺苍耳的伪品,掺伪含量为1%~90%。

傅里叶变换拓展近红外光谱仪及近红外光纤探头(美国赛默飞公司)。所有样本分为训练集、校准集、预测集,供建模使用。

表1 样品信息

2 方法

2.1 近红外谱图采集 样品充分混合均匀,放置于近红外光谱测试室,用光纤探测头对样品进行光谱采集。扫描条件为PbS检测器,白光光源;增益为1.0;动镜速度为0.632 9;扫描范围12 000~4 000 cm-1;扫描次数为72次,分辨率为8 cm-1;采集温度平衡在21 ℃。扣除内置参比背景,每个样品采集不同部位的6次谱图,取其平均光谱为代表光谱,见图1。正品苍耳与掺有蒙古苍耳、偏基苍耳、刺苍耳等伪品的近红外光谱形态非常相似,无法直接进行区分,需要采用化学计量学方法进行光谱处理。

图1 苍耳近红外光谱图

2.2 分类回归决策树算法 分类回归决策树是一种结构简洁的二分递归的二叉树,包括2个阶段构建决策树和剪枝[10]。首先利用训练集样本进行递归划分自变量空间建立决策树,再用验证集样本进行剪枝,以克服训练样本集数据噪声的同时,能够准确把握分类的特征信息,提高模型的精确度。CART分类树算法常用基尼系数(Gini)代表模型的不纯度[10-11]。流程见图2。

图2 CART决策树算法原理

3 结果

3.1 光谱数据预处理 光谱数据预处理能够将基线漂移及光程的变化对光谱响应所产生的影响降到最低,同时使样品粉末粒径大小和均匀度发生的漫反射影响减小。常用的数学预处理方法有一阶微分、二阶微分、Savitzky-Golay(SG)滤波平滑、Norris Derivative(ND)滤波平滑、多元散射校正(MSC)以及矢量归一化(SNV)等。采用一阶导数结合矢量归一、ND滤波平滑时,模型判别准确率最高,见表2。

表2 不同预处理方法的模型判别准确率

3.2 主成分分析 由于光谱数据繁杂,变量多,需要采用主成分分析法(PCA)对光谱数据进行压缩和降维,能够在最大程度代表样品信息。样品光谱数据经PCA处理后主成分得分,如表3所示,当提取8个主成分时,累计贡献率信度得分达99.875%,几乎可涵盖样品信息。

表3 主成分分析法处理后主成分贡献率信度得分

3.3 构建苍耳掺伪种类的定性判别模型 样品分成训练集265例样品,预测集185例样品,采用CART算法,应用python软件建模。其中建模函数包含三个主要参数,“max_depth”“min_samples_split”“min_samples_leaf”,能够影响决策树的生成和剪枝,从而直接影响模型预测结果的精确度[11-12]。

根据样本大小和掺伪体系的复杂程度,以及决策树“最大深度max_depth”“最小内部分裂节点样本数min_samples_split”“最小叶节点样本数min_samples_leaf”参数之间的相互作用,将“max_depth”范围设置为3~12,“min_samples_split”范围设置为6~12,“min_samples_leaf”设置为2、4、8,考察模型预测判别准确率,以模型的拟合程度作为评判依据,从而确定优化参数。

图3是建模时“min_samples_split”参数分别取值6、8、10、12时模型预测的拟合结果。当“min_samples_split”参数取值为6时,对模型预测准确率的影响因素最为密切,模型预测时拟合值最高。同时,当“max_depth”参数取值大于10时,模型定性判别预测的拟合值并无明显变化,因此将“max_depth”参数设置为3~12是合理的,既最大程度代表了样品信息,又避免模型过拟合。

比较“min_samples_leaf”参数分别取2、4、8时,模型训练时的拟合值分别为97.14%、83.33%、77.38%,可以发现,当“min_samples_leaf”参数取2时,模型拟合值越高。

建模时实施网格搜索和交叉验证,在合理的参数范围内,优化参数能够获得可靠的结果。建模参数“最大深度max_depth”为7,“最小内部分裂节点样本数min_samples_split”为6,“最小叶节点样本数min_samples_leaf”为2。

3.4 苍耳掺伪种类模型的模式识别 根据建模参数,提取所有样品的8个主成分,21个特征吸收峰(V)的特征矩阵信息,构建基于决策树算法,快速识别苍耳正品、蒙古苍耳、偏基苍耳、刺苍耳掺伪的定性判别模型。模型对预测集样品的判别结果见图4。

当基尼系数为0时,样本的各个特征子集在当前条件下处于较正确的分类,会以叶节点的形式作为分割结束,否则对子集进行再次的最优特征选取和分割,直到每个子集都被分配到叶节点为止,生成完整的决策树[13]。模型以二分叉的形式,通过自组织学习训练,最终将预测集样品模式识别为4类。模型对185例预测集识别准确率达95.23%,识别结果良好,其中刺苍耳和偏基苍耳全部识别准确,12例来自江西、湖南的蒙古苍耳被错判为正品,来自8例来自河北的蒙古苍耳被错判为正品。

3.5 构建苍耳掺伪量的定量预测模型 采用CART回归算法,建立蒙古苍耳、偏基苍耳、刺苍耳掺伪量的定量预测模型。模型实施包括模型训练和再预测。通过不同种类的苍耳掺伪样品,经主成分分析后,提取特征作为模型的输入向量,优化参数并训练模型,直至模型预测精度良好且稳定。大批样本的苍耳近红外光谱扫描后,相关数据直接代入已建好的预测模型中,通过机器学习,显示输出掺伪量的预测值。

建立模型执行内部交叉互验法,一般用模型的拟合相关系数和模型评分来评价模型的预测效果和精度。当最大深度max_depth参数值大于5时,模型得分不变。为避免过度学习发生,选择最大深度max_depth参数为5即可。通过比较最小内部分裂节点样本数min_samples_split为2、4、8,并考虑到决策树的生长原则和样本量训练情况,最小内部分裂节点样本数min_samples_split为4时即可满足建模需要。预测模型的拟合得分为0.975 1,预测精度良好,见图5。

图5 苍耳掺伪量定量预测模型的建立

3.6 掺伪量定量预测模型结果 通过真实值与预测值之间通过交互验证,真实值与预测值相对偏差小,拟合相关系数值为0.991 3,模型的预测能力较好,见表4。

表4 CART回归模型对预测集样品掺伪量结果

3.7 重现性 模型预测能力重现性是衡量所建模型可靠性的重要指标。以标准差为指标,对同一未知样品近红外光谱扫描8次后,模型预测得到的掺伪量分别为10.77、10.76、10.96、10.81、11.02、10.62、10.75、10.65,实际掺伪量10.87,误差为0.132,说明模型重现性好。

此外,采用ICC组内相关系数对模型进行一致性分析,用于比较模型预测结果与实际值一致性,可衡量来自不同产地的多数据样本建模的包容程度。通过SPSS软件对模型预测集数据进行ICC分析后,得到的一致性分析的结果为0.925,说明该模型的一致性程度高,可满足大样本苍耳整体品质评价。

4 讨论

4.1 光谱数据波段选择与预处理 波谱图中12 000~11 800、4 200~4 000 cm-1光谱范围为噪声干扰峰,7 500~6 500、5 500~5 000 cm-1光谱区间为水分子倍频和合频吸收峰。为排除干扰峰和水分含量差异造成的影响,将上述4个波段区间进行剔除。而波谱11 800~7 500 cm-1范围内几乎没有吸收信号,故将全谱段分成6 500~5 500、5 000~4 200 cm-1区间进行分析。采用一阶导数结合矢量归一、ND滤波平滑进行处理,能够校正样品颗粒散射引起的光谱误差,减少光谱基线漂移,提高建模灵敏度。

4.2 CART决策树算法分类 在模型预测集185例样本的自组织训练中,包含正品苍耳66例、掺伪蒙古苍耳48例、掺伪偏基苍耳35例、掺伪刺苍耳36例,发现来自河北、河南区域的苍耳正品容易识别为整体分类,来自甘肃、陕西、四川区域的苍耳正品识别为整体分类;掺伪蒙古苍耳的内蒙古、黑龙江容易识别为整体分类,而来自江西、湖南的掺伪蒙古苍耳更易聚成一类,其中有12例被归为正品苍耳类,来自河北的蒙古苍耳8例亦判为正品苍耳。来自河南区域的掺伪刺苍耳能够最早被模式识别且预测准确。来自广东、福建区域的掺伪偏基苍耳亦容易识别为整体分类,说明容易识别归为整体类的样品质量相似,可能与苍耳生长年限、产地气候、光照雨量、采收季节等因素相关。此外,江西、湖南等地的蒙古苍耳被判为正品,但不同区域的苍耳化学成分会随着地理气候相应发生动态变化,是模型识别错判的原因之一。

4.3 建模算法与验证 苍耳来源地域广泛,因产地、季节、品种等因素产生的差异较大,采用不同区域来源的大样品量数据,需要通过一致性检验验证组内相关系数,得到可靠且预测精度较高的模型。根据CART决策树算法特点,通过科学的剪枝优化,模型经过训练,能将以二叉树将三类掺伪苍耳与正品苍耳快速识别。

5 结论

采用近红外光谱结合PCA法,提取8个主成分的21个特征向量,基于决策树CART算法建立快速鉴别苍耳掺伪类别以及掺伪量预测的模式识别模型,模型可靠、训练快速、预测精度良好。基于化学计量学与机器学习算法联用,能够为苍耳品质的在线检测与评价提供一种无损环保的新方法。

猜你喜欢
苍耳正品决策树
会“说话”的苍耳
信息时代基于决策树对大学生情绪的分类
冬虫夏草鉴别和临床应用研究进展
苍耳娃娃
简述一种基于C4.5的随机决策树集成分类算法设计
苍耳先生
浸润“正品”课程文化培育学生自信人格
决策树学习的剪枝方法
决策树在施工项目管理中的应用