倪力军,王南南,张立国,栾绍嵘
(华东理工大学 化学与分子工程学院,上海 200237)
多种分子光谱快速分析黄芩中的黄芩苷含量
倪力军,王南南,张立国*,栾绍嵘
(华东理工大学 化学与分子工程学院,上海 200237)
为考察根据不同类型光谱信息进行黄芩质量快速分析的适应性,采用高效液相色谱(HPLC)法测定了73批黄芩样品中的黄芩苷含量并作为y值,以各样品的近红外、紫外-可见光谱及包含紫外、可见及近红外的多源复合光谱信息作为x值;根据各类光谱信息分别采用偏最小二乘回归(PLSR)与K最近邻样本保形映射(KNN-KSR)方法进行样品中黄芩苷的预测,根据验证集样本真实值与预测值的均方根偏差(RMSEP)、平均相对误差(MRE)与相关系数(R)评价预测精度。结果表明,采用KNN-KSR方法根据各类光谱信息预测黄芩苷时,各项指标均优于PLSR方法的结果;其中基于近红外光谱对黄芩苷的分析结果最好,紫外-可见光谱次之,基于多源复合光谱信息对黄芩苷的预测误差最大,但其MRE仍在6%以下,可满足工业分析的精度要求。由于多源复合光谱仪具有体积小、重量轻、成本低及便携等优点,通过优化仪器波长范围及建模方法,有望改进该仪器的分析精度,使之适应更多药材现场采购的快速检测及后续产品的质量分析与监控需求。
多源复合光谱仪;近红外光谱;紫外-可见光谱;黄芩苷
黄芩为唇形科多年生草本植物黄芩Scutellaria baicalen-sis Georgi的干燥根,有清热燥湿、泻火解毒、止血、安胎等功效,黄芩苷是黄芩的主要有效成分,中国药典要求其含量不低于9%[1]。黄芩苷的经典测定方法主要有紫外分光光度法[2]、高效液相色谱法(HPLC)[3]等,中药企业在生产及原料采购等过程中,需及时对每批产品、原料进行质量分析,而传统分析方法耗时较长,仪器的运行和维护成本较高,不适合工业在线检测及药材采购现场使用。以近红外光谱(NIR)技术为代表的分子光谱分析方法,无需对样品进行复杂的化学处理,具有方便、快速、绿色环保等优点[4],光谱信息结合化学计量学方法可实现对药物化学成分含量的快速检测[5]、在线检测和药物质量监控[6-7]等。紫外可见漫反射光谱法作为一种快速、无损的分析技术,在药材鉴别[8]、痕量成分分析[9-10]、固体药物质量分析[11]中得到了应用,但未见其用于中药材定量分析的报道。紫外可见光谱信号的灵敏度比近红外光谱高100倍,且其穿透性强、很多有机官能团在紫外可见光谱范围有特征吸收[11]。这些特征提示借助于化学计量学分析方法,可望根据紫外可见漫反射光谱对有紫外吸收的药物活性成分进行快速检测。
迄今为止光谱分析技术在定量分析研究中均采用单一光谱信息(如:近红外、红外或者拉曼光谱)进行各类样品中成分含量的快速分析,鲜有综合不同类型光谱信息进行样品快速分析的报道。鉴于不同类型光谱体现了样品的不同化学、物理特征,综合不同类型光谱进行样品快速质量分析,可拓展分子光谱技术的应用范围和选择。本课题组在360~1 000 nm范围内选取了分别处于紫外、可见及近红外区的7个波长,以LED灯为光源获取各波长对应的反射光强度,开发了一种基于蓝牙技术传输光谱信号的便携式多源复合光谱仪[12],其中“多源”的含义是指仪器可提供紫外、可见及近红外光区域的光学信息;“复合”的含义在于该仪器以样品本身作为参比,通过改变参比波长形成一系列参比信号,可提供包含各波长光谱信息在内且信息量大于多个单波长的复合光谱信息。该仪器每个光源对应1个接收器,无移动部件,可保障光谱信号的稳定性与一致性。且体积小、重量轻,样品测试简单便捷,将其用于中药材质量的快速检测,有助于拓展分子光谱技术在中药等领域的推广应用。
本文收集了73批黄芩样品,采用上述便携式多源复合光谱仪、近红外光谱仪、紫外光谱仪获取黄芩样品的各类光谱信息,采用中国药典规定的HPLC方法测定其黄芩苷含量,分别采用经典的偏最小二乘回归(PLSR)和本课题组提出的K最近邻样本保形映射(KNN-KSR)方法,尝试根据不同类型光谱来定量分析样品中的黄芩苷,从而为黄芩药材及饮片质量的快速分析提供可行方法。
1.1 仪器与试剂
多源复合光谱仪,本实验室自制。近红外光谱仪(ANTARISⅡ,Thermo Fisher公司),紫外分光光度计(UV2550型,日本岛津公司),高效液相色谱仪(20AD-XR型,日本岛津公司),电子分析天平(梅特勒-托利多(上海)有限公司),石英底样品杯。粉碎机(天津市泰斯特仪器有限公司),甲醇(色谱纯,Merck公司),样品筛(80目,浙江上虞市肖金五金仪器厂)。无水乙醇、无水甲醇、磷酸(分析纯,上海泰坦化学有限公司),Wahaha纯净水(杭州娃哈哈乐维食品有限公司)。对照品黄芩苷购于中国食品药品检定研究所(批号:110715-20131)。
1.2 样品及预处理
73个黄芩药材分别由康恩贝中药有限公司、吉林天药本草堂、颈复康药业集团有限公司、中国药材集团提供。称取黄芩样品约3 g,粉碎2 min后过80目筛,放入烘箱中于40 ℃下烘2 h,待冷却后放入自封袋置于干燥器皿中,待测。药材中黄芩苷的含量由本实验室按照药典(2015版第一部)[1]测定。
1.3 光谱信息采集
1.3.1 近红外光谱的采集 近红外光谱采用积分球漫反射采集系统,分辨率为8 cm-1,光谱采集范围为4 000~12 000 cm-1,以空气作为参比,对样本重复扫描32次后取平均光谱值。
1.3.2 紫外-可见光谱的采集 紫外-可见光谱采用积分球附件装备,光谱采集范围为200~900 nm,狭缝宽度为5.0 nm,以硫酸钡固体粉末作为参比,对黄芩样品进行测试。
1.3.3 多源复合光谱信号的采集 多源复合光谱仪样品槽底部为石英玻璃,将光源与样品槽隔开。样品置于样品槽中压实,将样品盖盖于样品槽上,隔绝外部光线的干扰,即可开始测定。多源复合光谱信息采用仪器自带手机APP软件APP-imSpec采集,通过蓝牙方式实现手机与仪器的通讯,imSpec将采集的光谱数据上传到服务器,用户可从服务器下载数据进行建模和处理。在对样品进行测试之前,先对仪器进行校正,1个样品的测试时间约为20 s。
1.4 光谱定量分析模型的建立与评价
1.4.2 定量算法 本文采用两种方法根据光谱信息预测样品的化学性质:①偏最小二乘回归法(PLSR),该法根据校正集样本建立样品光谱信息与化学性质间的统计回归模型,当模型能良好拟合校正集样本的性质时,用其预测验证集或预测集样本的化学性质;②以本实验室提出的KNN-KSR方法[15]预测未知样本的化学性质。该算法是基于如下假设:
①具有相似性质的样品在自变量(本研究指光谱信息)空间与因变量(本研究指黄芩中黄芩苷含量信息)空间均邻近。②如果因变量与自变量之间相关性很强,则样本在因变量空间Ynxq,自变量空间Xnxp的分布是相同的。其中n是样本数,p与q分别是自变量与因变量个数。基于该保形映射假设,待测样本在X空间和其K个最近邻样本间的关系与其在Y空间K个最近邻样本的关系相同。因此可根据待测样本在自变量X空间的K个最近邻样本间的关系来预测其因变量Y值,此方法称为KNN-KSR方法。
1.4.3 光谱定量分析模型的评价 根据模型对建模集样本的预测结果评价模型的拟合能力,根据模型对验证集的预测结果评价模型的预测能力。鉴于KNN-KSR直接对验证集或预测集样本的性质进行预测而不对建模集样本进行回归建模,故本文采用验证集样本的真实值与预测值间的平均相对误差(MRE)、均方根误差(RMSEP)和相关系数(R)来评价光谱分析结果的准确度,RMSEP与MRE越小,R越接近于1,表明样品真实值与模型值差异越小,二者相关性越好。
本文所有算法基于Matlab(2010b版)平台实现。
2.1 黄芩样本的3种光谱信息
按照“1.3”所述方法得到73个黄芩样本的近红外漫反射光谱(图1A)、固体-可见紫外光谱(图1B)及复合光谱信息(图1C)。
2.2 光谱波段的选择
建模波段的选择对于滤除无用信号、简化数据、提高运算效率和模型稳定性有重要作用。从图1A可以看出,黄芩样品的近红外光谱在10 000 cm-1后几乎处于平缓状态,无明显的特征吸收峰,提供的信息量很少,这部分光谱对有效信息可能存在一定的干扰。本文采用4 000~10 000 cm-1的波段范围进行建模预测;将图1B的紫外-可见光谱分为紫外光谱区域(200~400 nm)、可见光谱区域(400~900 nm)两个波段及紫外+可见光谱区域(200~900 nm)分别进行建模预测;复合光谱仪所提供的各信号独立性很强,本研究全部采用。
图1 黄芩样品的近红外光谱(A) 、紫外-可见光谱(B)及多源复合光谱信号(C)Fig.1 Near-infrared spectrum(A),ultraviolet-visible spectrum(B) and multi-source complex spectrum signals(C) of radix scutellariaes
2.3 校正集及验证集的选择
应用SPXY方法挑选出 3/4份具有代表性的样品(55个)作为校正集,其余 1/4份样品(18个)作为验证集。由表1可知,无论采用何种光谱信息,验证集的黄芩苷含量均在校正集含量范围内,验证集的标准差数值比校正集的标准差数值小,说明校正集的黄芩苷含量变幅稍宽,覆盖了验证集样本的浓度范围。
2.4 基于不同类型光谱信息进行黄芩苷的定量分析
随机噪声、基线漂移、样品不均匀和光散射等会影响光谱质量。适当对原始光谱进行预处理,有利于消除和减小这些因素的影响[16]。本文分别采用各类光谱信号的原始光谱以及一阶导、标准正态变换(SNV)、多元散射校正(MSC)3种预处理光谱预测黄芩样品中的黄芩苷含量。PLSR定量校正模型中的最佳潜变量个数(LV)采用留一交叉验证法确定,判据是预测残差平方和(PRESS)[4];根据目标样本光谱与校正集中K个最近邻样本的组合光谱的残差最小来确定KNN-KSR中的最邻近样品个数K,如果无论K取何值,该残差大于验证集样本T2检验的阈值,则认为KNN-KSR方法不适合预测该样本。该法先对光谱信息进行主成分分析,将其压缩为若干个主成分后再求距离。最大主成分数(PC)是由所取主成分后样本光谱的方差不小于样品精密度测试光谱的方差(SVSRS)[17]确定。
2.4.1 基于近红外光谱信息对黄芩苷的定量分析 基于黄芩样品的原始近红外光谱及一阶导数,SNV,MSC处理后的近红外光谱信息,分别采用PLSR和KNN-KSR方法对18个验证集样品中的黄芩苷进行预测分析,结果如表2所示。表中LV是指PLSR中的潜变量个数,PC是指KNN-KSR中的主成分数。
表1 校正集和验证集中黄芩苷含量的分布Table 1 Distribution of baicalin content in calibration and validation sets
表2 根据近红外光谱对验证集样品中黄芩苷的预测结果Table 2 The prediction results of baicalin in the validation set samples based on NIRs
由表2可知,无论是采用PLSR法还是KNN-KSR法,一阶导预处理光谱对黄芩苷的预测结果最好,两种方法所得验证集样品的真实值与预测值的相关系数R分别为0.856 4,0.860 2(均大于0.85),均方根偏差RMSEP分别为0.368 0,0.343 3,相对平均误差MRE均小于3%。KNN-KSR法的结果略优于PLSR。
2.4.2 基于紫外光谱信息进行黄芩苷的定量分析 将紫外光谱分为200~400 nm(紫外光区)、400~900 nm(可见光区域)以及200~900 nm全波段范围(紫外-可见光区域),基于黄芩样品的原始紫外光谱及一阶导数、SNV和MSC处理后的紫外光谱信息,分别采用PLSR和KNN-KSR方法对18个验证集样品中的黄芩苷进行预测分析,结果如表3所示。
表3 根据不同波段紫外-可见光谱信息对验证集样品中黄芩苷的预测结果Table 3 The prediction results of baicalin in the validation set samples based on different bands of UV-visible spectra
由表3可知,分别采用紫外以及可见光区域的光谱信息时,无论采用何种光谱预处理方法,KNN-KSR法对黄芩苷的预测结果普遍好于PLSR法。PLSR方法基于紫外光谱信息预测黄芩苷的结果很差。推测原因如下:从图1B黄芩样本的紫外-可见光谱图可以看出,400 nm附近黄芩样品的紫外吸收不够稳定,这些波动信号会对基于光谱信息x与含量y之间回归关系预测未知样品黄芩苷含量的PLSR方法的结果产生很大影响。而KNN-KSR方法根据K个和未知样本最接近的已知样本与未知样本在自变量空间的关系来预测未知样本的因变量,不需建立自变量与因变量之间的回归模型,黄芩样品在该区域紫外响应的波动对该方法的预测结果影响较小。
在KNN-KSR法中,根据200~400 nm紫外光谱信息预测黄芩苷的各项指标略优于根据400~900 nm可见光信息所得结果,表明紫外区信号更适合于黄芩苷含量的定量分析,这可能与黄芩苷的紫外最大吸收波长为280 nm[1]有较大关系。
当采用PLSR法根据紫外-可见全波段光谱信息进行黄芩苷预测时,只有一阶导数光谱取得了较好的结果。而表3中KNN-NSR方法无论对不同区域紫外、可见光谱进行何种预处理,对黄芩苷的预测结果均较好,该法基于200~900 nm全光谱的各项预测指标均优于分光谱区域200~400 nm以及400~900 nm。表明综合紫外、可见光谱进行黄芩苷分析可获得更理想的结果。为本实验室基于紫外、可见、近红外光谱等信息研发便携式多源复合光谱仪,以进行中药活性成分的快速分析提供了依据。
根据图2可直观看出由于200~900 nm一阶导紫外-可见光谱中一些验证集样品的预测值偏离真实值较大,导致PLSR方法所得R偏小、RMSEP偏大。而原始紫外-可见光谱中除3个点外,大多数样品的真实值和预测值比较接近,故KNN-KSR方法的R与RMSEP较PLSR理想。
2.4.3 基于多源复合光谱信息进行黄芩中黄芩苷含量的分析 对多源复合光谱信息亦分别选用不同的预处理方法,PLSR和KNN-KSR对验证集样品中黄芩苷的预测结果如表4所示。结果表明,基于多源复合光谱信息预测黄芩苷时,PLSR方法除基于一阶导数光谱信号的结果与KNN-KSR相当外,该法基于原始、SNV及MSC处理的多源光谱信号预测黄芩苷的结果均很差,说明多源复合光谱信息与黄芩苷含量之间无良好的线性关系。但KNN-KSR方法无论采用何种多源光谱信号,预测黄芩苷的R、RMSEP及MRE差别不大。当采用原始复合光谱信息,KNN-KSR预测黄芩苷的RMSEP与MRE分别为0.687 0和5.07%,较近红外光谱、紫外光谱定量分析的结果稍差。这可能与复合光谱仪所选的波长范围(360~1 000 nm)未能涵盖黄芩苷的最大紫外吸收波长280 nm,其光谱信息中对黄芩苷的特征体现较弱有关,导致依据多源复合光谱信息预测黄芩苷的误差较大。本实验室采用KNN-KSR方法,基于银杏叶的多源复合光谱信息进行其有效成分总黄酮(最大吸收波长为360 nm)的快速分析,获得了比近红外光谱分析结果略好的结果[18],从而为以上推论提供了依据。
表4 根据多源复合光谱信号对验证集样品中黄芩苷的预测结果Table 4 The prediction results of baicalin in the validation set samples based on multi-source complex spectrum signals
多种分子光谱用于黄芩中黄芩苷含量的快速检测时,近红外光谱的预测结果最佳,无论是采用PLSR回归建模的方法还是KNN-KSR方法,根据一阶导数近红外光谱所预测的黄芩苷含量的MRE均小于2.5%,相关系数R均大于0.85;紫外-可见光光谱、多源复合光谱信息所得结果次之。
无论采用何种类型光谱,KNN-KSR方法所得结果均优于PLSR。PLSR方法根据多源复合光谱信息预测黄芩苷的结果很差,这与本实验室采用PLSR方法基于多源复合光谱信息预测银杏叶黄酮含量的结果一致[18]。说明由于多源复合光谱信息中包含不同类型光谱信息及复合参比光谱信息,其光谱信号与样品中物质含量之间的关系不再遵循Lambert-beer线性规律,基于线性回归原理的PLSR难以获得理想的结果。而无需对光谱和含量信息进行回归建模预测的KNN-KSR方法可获得良好的结果,提示利用非线性方法建立多源复合光谱信息与物质含量间关系的方法可能会获得比PLSR方法更好的预测结果。
本文采用KNN-KSR方法基于近红外、紫外可见、多源复合光谱信息均可实现对黄芩苷的快速预测,该方法基于3种类型光谱信息预测黄芩苷含量的相对平均误差均在6%以下,可满足工业分析的要求。相对近红外光谱信息以及紫外-可见光谱信息来说,基于多源复合光谱信息定量分析黄芩苷含量的误差较大。进一步优化多源复合光谱仪的波长,尝试建立多源光谱信息与黄芩苷含量间的非线性模型,将有助于提高该仪器对黄芩苷的预测准确度。
[1] Chinese Pharmacopoeia Commission.Pharmacopoeia of the People's Republic of China,Part One.Beijing:Chinese Medical Science and Technology Press(国家药典委员会.中华人民共和国药典一部.北京:中国医药科技出版社),2015.
[2] Du Y F,Zhou J,Yao B H.Chem.Anal.Meterage(杜永峰,周健,姚秉华.化学分析计量),2008,17(5):43-45.[3] Yang Z J,Yang X J,Geng G Q,Li J,Deng Y.Tradit.Chin.Med.Res.(杨志军,杨秀娟,耿广琴,李晶,邓毅.中医研究),2015,28(9):72-75.
[4] Chu X L.PracticalManualofNearInfraredSpectroscopyAnalysis.Beijing:Machinery Industry Press(褚小立.近红外光谱分析技术实用手册.北京:机械工业出版社),2016.
[5] Han H F,Zhang L,Zhang Y,Li W L,Qu H B.Chin.Tradit.HerbalDrugs(韩海帆,张路,张淹,李文龙,瞿海斌.中草药),2013,44(17):2397-2403.
[6] Ni L J,Shi X H,Gao X J,Wang N.Chin.Pharm.J.(倪力军,史晓浩,高秀蛟,王宁.中国药学杂志),2004,39(8):628-630.
[7] Huang C Y,Fan H B,Liu F,Xu G R,Peng X H.J.Instum.Anal.(黄常毅,范海滨,刘飞,许赣荣,彭秀辉.分析测试学报),2014,33(1):13-20.
[8] Jin P C,Zhang J,Shen T,Wang Y Z.J.Instum.Anal.(金鹏程,张霁,沈涛,王元忠.分析测试学报),2015,34(10):1113-1118.
[9] Yan L Q.ForensicSci.Technol.(闫立强.刑事技术),2014,(5):30-32.
[10] Li L,Wang H T,Miao W B,Wang L,Jiang W,Wu T.J.Instum.Anal.(李龙,王海婷,缪文彬,王蕾,蒋伟,吴婷.分析测试学报),2016,35(3):347-350.
[11] Feng Y Y,Li H,Song H,Yao S,Xu K L,Zou H Y,Liang B.2013ChinaPharmaceuticalCongressandtheThirteenthSessionoftheChinesePharmacistsWeekProceedings(冯宇艳,李晖,宋航,姚舜,徐凯林,邹华煜,梁冰.2013中国药学大会暨第十三届中国药师周论文集),2013:1-6.
[12] Ni L J,Zhao Q,Zhang L G.China Invention Patent(倪力军,赵群,张立国.中国发明专利),CN201610214067.4.
[14] Liu W,Zhao Z,Yuan H F,Song C F,Li X Y.Spectrosc.SpectralAnal.(刘伟,赵众,袁洪福,宋春风,李效玉.光谱学与光谱分析),2014,34(4):947-951.
[15] Ni L J,Zeng X H,Zhang L G.J.EastChin.Univ.Sci.Technol.:Nat.Sci.Ed.(倪力军,曾晓虹,张立国.华东理工大学学报:自然科学版),2008,34(4):547-552.
[16] Ni L J,Zhang L G.BasicChemometricsandItsApplication.Shanghai:East China University of Science and Technology Press(倪力军,张立国.基础化学计量学及其应用.上海:华东理工大学出版社),2008:82-100.
[17] Ni L J,Zhang L G,Xie J,Luo J Q.Anal.Chim.Acta,2009,633(1):43-50.
[18] Zhang L G,Cheng J J,Ni L J,Luan S R.Spectrosc.SpectralAnal.(张立国,程佳佳,倪力军,栾绍嵘.光谱学与光谱分析),2017,37(12),in press.
Rapid Analysis of Baicalin in Radix Scutellariaes Based on Multi-molecular Spectra
NI Li-jun,WANG Nan-nan,ZHANG Li-guo*,LUAN Shao-rong
(School of Chemistry and Molecular Engineering,East China University of Science and Technology,Shanghai 200237,China)
In order to study the adaptability of using different kinds of spectral information for quick analysis of the quality of radix scutellariaes(RS),the contents of baicalin in 73 batches of RS determined by high performance liquid chromatography(HPLC) were used as dependent variables(y),the near infrared spectra(NIRs),ultraviolet-visible spectra(UV-Vis) and multi-source complex spectral(MSCs) information including UV-visible and near infrared spectra were used as independent variables(x).The partial least square regression(PLSR) and a novel method called as keeping same relationship betweenXandYspace onKnearest neighbors(KNN-KSR for short) were applied to predict the contents of baicalin in the RS samples based on above three kinds of spectral information.By comparing the root mean square error of prediction(RMSEP),the average relative error(MRE) and correlation coefficient(R) between the measured and predicted values in validation set were applied to evaluate prediction precision.Regardless of the types of spectral information,the prediction precision of KNN-KSR method was always better than the PLSR method.The analysis results of baicalin based on NIRs were the best,and those based on the UV-visible spectra were the second.Although the prediction error of baicalin contents was the biggest based on the multi-source complex spectral information,it was still lower than 6%.The error satisfied the requirement of industrial analysis.The multi-source complex spectrometer has the advantages of small volume,light weight,low cost and portability.It is expected to improve the analytical precision of the instrument by optimizing its wavelengths and modeling method,so that it could be adapt to rapid spot acquisition of more herbs,and to analyze and monitor the quality of follow-up products.
multi-source complex spectrometer;near infrared spectroscopy;ultraviolet-visible spectra;baicalin
2016-12-22;
2017-01-09
上海市科学技术委员会支撑项目(13401901100)
10.3969/j.issn.1004-4957.2017.05.005
O657.3;TQ460.72
A
1004-4957(2017)05-0607-07
*通讯作者:张立国,博士,副教授,研究方向:中药质量分析及新药研发,Tel:021-64253045,E-mail:zlgfyt@163.com