基于NIR分析和模式识别技术的葛根品种及产地判别

2018-12-07 12:18:58源栋
食品工业科技 2018年22期
关键词:粉葛模式识别葛根

, ,源栋,,, ,,*

(1.云南中烟工业有限责任公司技术中心,云南昆明 650231;2.科迈恩(北京)科技有限公司,北京 100080;3.云南烟草质量监督检测站,云南昆明 650106)

根据2015年《中国药典》[1]所收载的中药材,将葛根分为柴葛(豆科葛属植物野葛Puerarialobata(Willd.)Ohwi)和粉葛(豆科葛属植物葛的变种甘葛藤PuerariathomsoniiBenth)两个品种,二者在纤维性、葛根素、大豆苷、大豆苷元等含量差异都较大,前者味苦只能入药,后者为药食两用[2]。葛根在我国分布广泛,资源丰富,但不同产地葛根受环境、气候等因素影响,品质之间差异较大。为此,鉴别葛根的地道性及质量评价一直是热门课题。目前,对于葛根药材及相关中药制剂的质量控制主要是采用色谱及光谱技术测定其中一个或多个有效成分的含量,以含量的多少来评价其质量的优劣。近年来,色谱指纹图谱分析应用较多[3-6]。

近红外光谱(NIR)波长范围在780~2498 nm,NIR光谱属于分子光谱,主要是由分子振动的非谐振性使分子从基态向高能级跃迁时产生,分子在跃迁过程中吸收能量,从而产生了吸收光谱。相对传统的化学分析技术,大多数类型的样品均可采用NIR光谱技术直接进行测定,而不需要进行物理、化学等任何处理,尤其对于固体样品,不需要进行溶剂提取等工艺,直接进行NIR光谱分析,具有快速、简便、高效、准确且成本较低,不破坏样品,不消耗化学试剂,不污染环境优点。因此,NIR光谱分析技术受到越来越多人的青睐,在农业[7]、食品[8]、石油化工[9]、生物医学[10-12]等领域被广泛研究和应用,相对于近红外定量分析方面的发展,近红外模式识别方面的研究进展较慢。近红外光谱模式识别是基于采集到的样品的光谱数据,采用计算机数学建模的方法,对样品进行识别和分类的方法。在化学计量学分析中,用于模式识别的原始数据特征越多,所包含信息越丰富,对于分析实验结果越有利。而近红外光谱往往包含了样品的大量特征信息,因此,将近红外光谱结合模式识别方法,能更加有效地对样品进行等级分类和属性判别。目前,基于NIR光谱信息的模式识别技术已经成为研究热点[13-16],在各个行业的产品真假识别、在线分类判别、原产地鉴定、产品质量监控与分析等方面发挥了重要的作用。近红外光谱模式识别主要分为两部分,首先是特征信息提取,常见的有效方法有主成分分析(PCA)[17]、偏最小二乘(PLS)[11,18]等,其次是分类器算法,常见的有效方法有线性判别分析(LDA)、人工神经网络(ANN)[19]、支持向量机(SVM)[20-21]等。其中特征信息提取是重要的基础性环节,它是对变量(如,波长)和样品对应的数据矩阵进行特征分析和数据降维。k近邻分类(k-nearest neighbor classification,kNN)[20,22]算法根据待识样本在特征空间中k个最近邻样本中多数样本的类别来进行分类,因此具有直观、无需先验统计知识、无师学习等特点,从而成为非参数分类的一种重要方法[23]。

本文通过ChemPattern软件,采用基于多元统计分析PLS-DA及kNN建模,开展基于NIR光谱的不同种类和产地来源的葛根化学模式识别,以期为中药葛根的质量评价与质量控制提供依据。

1 材料与方法

1.1 材料与仪器

柴葛及粉葛样品 从药店以及香精香料公司购买的安徽、广西、湖北、湖南、四川、云南及重庆等12个不同产地、不同批次共120个样品作为实验样品;详细信息如表1所示。

表1 葛根药材样品Table 1 Summary of Radix puerariae samples

1.2 实验方法

1.2.1 葛根样品处理 先将葛根样品敲成小碎块,然后用旋风磨粉碎,过60目筛,装入密封袋中备用。

1.2.2 光谱数据的采集 在室内温度24~28 ℃下,相对湿度≤70%,开机预热光谱仪2 h;采集背景光谱后,把混匀的固体粉末样品放入样品杯中,使用压样器轻压平整,样品厚度≥10 mm;将装好样品的样品杯置于旋转台上,采集样品近红外漫反射光谱并保存,每个样品重新装样并连续进行3次平行采集。仪器参数为光谱扫描范围4000~10000 cm-1;分辨率:8 cm-1;扫描次数不低于64次。采集完成后,用95%乙醇2~3次洗净样品杯上的残留物,待乙醇挥发完毕后,进行下一个样品光谱的采集。

1.2.3 葛根品种及产地的多元统计分析 采集12个产地共120个葛根样品的近红外光谱数据,对光谱进行预处理并建立共有模式,对全部样品进行相似度分析、PLS判别分析及部分样品(除差别较大的安徽柴葛)的PLS分析,初步对样品种类及产地情况进行判定。

1.2.4 葛根品种及产地的模式识别 分别选择不同的样品为测试集和训练集,基于PLS-DA对葛根的种类(粉葛和柴葛)进行模式识别,另外对比PLS-DA和kNN两种方法,对葛根产地以及产地和种类同时进行识别,以样品识别率为依据,选定较为合适的模式识别方法。

1.3 数据处理

数据处理软件:ChemPattern化学计量学与化学指纹图谱系统解决方案软件2017版[科迈恩(北京)科技有限公司(Chemmind Technologies Co.,Ltd.)]。

2 结果与讨论

2.1 多元统计分析

将光谱数据导入ChemPattern软件,所有葛根样品的红外透过率叠加图谱如图1所示,可以看出,安徽柴葛的红外光谱和其他组有明显的差异,剩余各组样品间的光谱曲线差异很小,很难对葛根的分类进行区分。

图1 葛根样品的NIR透过率叠加图Fig.1 Near infrared transmission spectra of Radix Puerariae

对光谱进行校正后,设置重庆万州的10批样品为代表性样品生成共有模式,如图2所示。利用所建立的共有模式,采用欧氏距离计算相似度,结果如图3(A)所示,结果显示,除安徽柴葛外,其他组样品之间的相似度较高,仅可大致区分出安徽柴葛和其他组两个大类,但不能进行全部区分。对样品进行偏最小二乘判别分析,分析结果如图3(B)所示。由图可知,偏最小二乘判别分析显示,安徽柴葛明显区别于其他组别的样本。

图2 葛根样品模式Fig.2 Common pattern of Radix Puerariae Transmission spectra

图3 葛根样品相似度分析(A)及PLS潜变量分析(B)Fig.3 Similarity analyses(A)and PLS-DAscores plot(B)of all Radix Puerariae sample

对除安徽柴葛外的样品做PLS分析如图4(A),可以看出,绝大部分地区样本都可以很好地区分,但四川粉葛和重庆万州(图4A实线圈)出现了重叠,四川和重庆地理位置相对比较接近,可以用于解释造成该两组样本相似度高的原因。此外,粉葛和柴葛的区别,从图中的分布也可以大致体现出来(图4A、4B虚线圈为柴葛样品)。以LV1、LV2和LV3进行作图4B(实线圈)可以看出,原本重叠的四川粉葛和重庆万州也可以完全区分开。

2.2 葛根品种及产地的模式识别

2.2.1 葛根品种识别 从柴葛和粉葛每组中随机挑选1/5的样本作为测试集,以剩余的粉葛(58个)和柴葛(32个)作为训练集,进行PLS-DA模式识别,采用留一交叉验证选择潜变量数目。结果如图5所示,根据训练集留一交叉验证结果,选出潜变量个数为3,训练集交叉验证葛根种类识别率为100%。同时,利用测试集对所建PLS-DA模型进行评价,5次随机分组建模测试集葛根种类识别率平均结果为100%。以上结果表明所选的PLS-DA葛根种类识别模型准确可靠,可用于粉葛和柴葛的准确判别。

图5 粉葛和柴葛的PLS-DA预测效果图Fig.5 Performance of PLS-DA Radix Puerariae Varieties classification model

2.2.2 葛根地点的识别 根据葛根的地点分布,首先将所有样品随机分为训练集(4/5)和测试集(1/5),然后采用PLS-DA建立葛根产地识别模型。PLS-DA的潜变量数用留一交叉验证确定,结果如图6所示,可以看出潜变量数为16时,模型的识别率最大仅为84.43%,可能的原因是PLS-DA为线性模型,而红外光谱和地点信息之间可能是非线性的关系,所以导致模型的识别效果不够理想。

图6 PLS-DA建模潜变量数与模型识别率关系图Fig.6 Accuracy of classification versus number of latent variable

采用kNN进行建模,留一交叉验证进行邻近样本数目K值的选择,结果如图7所示,可以看出K值为1或2时,结果最好;K值增加到3时,模型效果有较大下降,而K越大模型越不容易过拟合,因此K值确定为2。采用非线性的方法kNN进行建模结果如图8所示,可以看出kNN模型对各地点葛根可以进行很好的识别,模型训练集和测试集识别率均为100%,表明模型对葛根地点的识别准确可靠,另外也表明葛根地点信息和红外光谱之间可能存在非线性关系。

图7 邻近样本数目与kNN葛根地点识别模型准确率关系图Fig.7 Accuracy of kNN Radix Puerariae origin recognition model versus number of nearest neighbors

图8 葛根地点的kNN模式识别效果Fig.8 Performance of kNN origin identification model for Radix Puerariae

2.2.3 葛根种类地点同时识别 由前2.2.2可知,葛根地点和红外光谱之间存在非线性关系,因此将样本分为训练集(4/5)和测试集(1/5),采用kNN进行建模。如图9所示,采用留一交叉验证选出K值为2,训练集交叉验证识别率为99.30%。利用测试集评价所建kNN模型的识别效果,结果如图10所示,可以看出此时模型对训练集和测试集的识别率均为100%,表明kNN模型可对葛根的产地和种类同时进行准确的识别。

图9 邻近样本数目与kNN葛根地点种类模型准确率关系图Fig.9 Accuracy of kNN Radix Puerariae varieties and origin recognition model versus number of nearest neighbors

图10 kNN建模对葛根地点种类模式识别结果Fig.10 Performance of kNN Radix Puerariae Varieties classification model

3 结论

基于多元统计分析,对12个产地共120个葛根样品进行相似度及PLS判别分析,结果显示,除安徽柴葛外其他组样品之间的相似度较高。结合药材外观,可以观察到安徽柴葛的纤维性强、颜色较深,其性状与其他野葛样品亦有不同,推断该样品可能为生长年限较长的野生品种。分别选择不同的样品为测试集和训练集,基于PLS-DA对葛根的两个种类粉葛和柴葛进行模式识别,识别率达100%,另外采用该方法对葛根产地的识别率为84.44%,采用非线性的kNN后识别率提升为100%,表明葛根地点信息和红外光谱间可能存在非线性关系。当采用kNN对葛根产地和品种同时进行模式识别,样品识别率达100%。本文建立了基于近红外光谱的化学计量学模式识别方法,为葛根的质量评价及控制提供了可靠的评价新方法。

猜你喜欢
粉葛模式识别葛根
药食两用话葛根
基层中医药(2021年8期)2021-11-02 06:24:58
颈椎病良方葛根汤
马塘村建成千亩粉葛种植基地
源流(2020年6期)2020-08-03 01:59:35
象州:小粉葛成就大产业
农家之友(2020年2期)2020-05-19 08:48:12
Self-Consistent Sources Extensions of Modified Differential-Difference KP Equation∗
Box-Behnken响应面法优化粉葛配方颗粒提取工艺
中成药(2017年6期)2017-06-13 07:30:35
浅谈模式识别在图像识别中的应用
电子测试(2017年23期)2017-04-04 05:06:50
第四届亚洲模式识别会议
大巴山粉葛组织培养技术
第3届亚洲模式识别会议