西京学院理学院 李建辉 章培军 任水利
由于中药材的道地性,鉴别药材的产地在药材品质鉴别中尤为重要。利用不同中药材表现出的红外光谱特征,通常可以通过数据分析和分数分类算法对光谱数据的特征性和差异性进行建模与分析,从而对中药材的产地及类别进行鉴别。本文根据中药材的红外光谱数据,利用Q 型聚类和K 近邻算法给出了中药材的类别和产地的鉴别方法,在此基础上进行了实证分析,验证了理论模型的可靠性。
中药材的鉴别和质量控制具有重要的现实意义,是保证药物疗效的关键。中药材由于其加工和炮制工艺复杂,导致其外观容易使人混淆。相同中药材在不同产地其化学成分、有机物的存在具有差异性。在近红外、中红外的照射下,不同种类和产地的中药材也会表现出不同的光谱特征。因此,可利用这特性对其进行鉴别,利用中药材的红外光谱所表现出来的特征和差异性来解决中药材的产地和类别的鉴别问题是一中较为科学的手段。学者们对相关问题进行了研究,取得一定的成果。刘有菊等(2015)以探索保山市不同产地野生白芨的种类为目的,利用黄外光谱技术对保山市不同产地野生白芨样品进行了比较和分析。为中药材市场的鉴别提供技术支撑和经验证据。刘明地等(2019)运用红外光谱技术结合主成分分析和系统聚类分析快速鉴别大叶三七的产地,为中药材产地鉴别提供了参考。丁海泉等(2020)使用近红外光谱技术研究了中药材鉴定和在线质量控制两类问题,以中成药制剂在线生产的不同环节为区分点,为近红外光谱技术在中药材鉴定和品质控制中的应用提供参考和方向。本文在前任研究的基础上,对不同中药材的吸光度以及波数进行数据分析,通过研究表现出不同光谱差异性,利用Q 型聚类分析和k 近邻算法对中药材进行分析并给出中药材的鉴别方法。本文是2021 年中国大学生数学建模竞赛E 题的再研究,也是科学研究与科学技术反哺教学重要途径。
根据中红外光谱数据可以分析不同类别中药材的特征和差异性,其中数据较大且个别样本数据缺失,可采用Q 型聚类分析,即对多个样本进行定量分类。下面给出算法步骤:
根据以上算法对中红外光谱数据进行计算和分析,可以得到不同类别中药材的特征和差异性,进而对中药材进行分类。
分析某一种中药材的中红外光谱特征,通过K 近邻算法的分类原理给出同一种中药材的不同产地的鉴别方法。具体的步骤如下:
对某一种中药材的近红外和中红外光谱进行数据分析,使用距离判别分析法,给出中药材的产地鉴定结果。以下为距离判别分析算法的步骤:
Step1. 对数据进行判别分析,可以采用距离判别法,假设x
,y
是从均值μ
,协方差为Σ
的总体A
中抽取的样本,其中样本x
与总体A
的距离和总体A
内的两点x
,y
的距离都用马氏距离来度量。进行计算,其中W
是d
阶对称方阵,w
是d
的维权向量。本节使用基于红外光谱分析的中药材类别与产地的鉴别算法,针对中药材的红外光谱数据,对其类别和产地分别进行鉴别。数据来源于2021 年中国大学生数学建模竞赛E 题中给定中药材红外光谱数据。
对样本容量为425,光谱的波数为3448 的中药材光谱数据得到中红外光谱曲线图,如图1 所示。计算相关系数导出的距离,按最长距离法聚类并绘制聚类图,如图2 所示。使用Q 聚类算法分析不同中药材的中红外光谱特征,可将样本大致分为两类,对较为集中的一类在进行细致划分,以标准化欧氏距离为准则,当标准欧氏距离的数值为0.2 时可以将数据分为A、B、C、D、E、F,共6 类,详情如图3 所示。
图1 中药材中红外光谱曲线图Fig.1 Mid-infrared spectrum curve of Chinese herbal medicines
图2 中红外光谱聚类树形图Fig.2 Mid-infrared spectrum clustering tree diagram
图3 中药材中红外光谱分类曲线图Fig.3 Classification curve of Chinese herbal medicines by mid-infrared spectroscopy
对样本容量为673,光谱的波数为3448,来自于10产地的中药材光谱数据,根据K 近邻算法分析红外光谱数据,判断药材在不同产地存在差异。针对中药材的中红外光谱的数据信息的差异性,得到不同产地的药材鉴定结果如表1 所示。
表1 某一种药材不同产地鉴别结果Tab.1 Identification results of a certain medicinal material from different origins
对样本容量为399,光谱的波数为3448,来自于16个产地的3 种不同中药材光谱数据,主要以K 近邻算法结合距离判别分析法对几种中药材的近红外光谱数据进行分析,鉴别药材的类别和产地,如表2 所示,可将药材划分成A、B、C 三类。
表2 几种药材类别及不同产地鉴别结果Tab.2 Different types of medicinal materials and identification results of different origins
而运用K 近邻分别计算这几种中药材的类别和产地,鉴别结果如表3 所示。经过测试和分析,可知两种方法计算所得的产地存在差异,判别分析计算产地的误判率为11.46%,而K 近邻算法的准确率为100%,因此以K近邻法的计算结果为准。
表3 K 近邻算法鉴别结果Tab.3 K-nearest neighbor algorithm identification results
为确保数据准确性,对算法进行灵敏度分析,如表4所示。从表4 可知,算法较为稳定。通过对不同方法的鉴定结果进行对比分析,可以依次鉴别药材的类别和产地,结果如表5 所示。
表4 不同K 值的产地鉴别结果Tab.4 Origin identification results of different K values
表5 几种药材类别及不同产地鉴别结果Tab.5 Different types of medicinal materials and identification results of different origins
中药材的红外光谱数据反应了中药材的特征,通过数据可视化判断吸收峰的峰高和峰面积的变化趋势,结合聚类分析更好的对中药材划分种类。而K 近邻算法的运用,使得模型更加可靠,准确率更高,能够有效鉴别所给出的中药材的不同产地。
引用
[1] 刘有菊,杨庆辞,王涛,等.保山市不同产地野生白芨的红外光谱对比分析[J].中国科技信息,2015(15):19-20.
[2] 刘明地,宋萍,王博.基于大叶三七红外光谱系统聚类分析的产地鉴别[J].华中师范大学学报(自然科学版),2019,53(2):222-228.
[3] 丁海泉,高洪智,刘振尧.近红外光谱分析技术在中药材鉴定和质量控制中的研究进展[J].现代农业装备,2020,41(3):11-16.