贾芸芳 闵昌敏 琚成 朱博 王鹏
300350天津,南开大学电子信息与光学工程学院(贾芸芳、琚成、朱博);300191天津市医疗器械技术审评中心(闵昌敏);300384天津市兰力科化学电子高技术有限公司(王鹏)
近红外光谱检测结合BP神经网络用于药物分类及MATLAB实现
贾芸芳 闵昌敏 琚成 朱博 王鹏
300350天津,南开大学电子信息与光学工程学院(贾芸芳、琚成、朱博);300191天津市医疗器械技术审评中心(闵昌敏);300384天津市兰力科化学电子高技术有限公司(王鹏)
目的 为实现快速、无损的药物分类以及提高药物分类准确率。方法 采用主成分分析和神经网络相结合(PCA-ANN)的模式识别,建立了药物分类模型并使用MATLAB语言开发了药物分类软件。采用近红外光谱检测技术,对5种药物、共120个批号的样本,在激发波长为1 350~1 800 nm、间隔为0.5 nm处收集近红外光检测数据。结果 本研究模型在掺入干扰药物种类数小于5种时,网络训练均方差(MSE)为5.91e-03,预测误差率(β)为2.469%。结论 利用近红外光谱检测技术结合PCA-ANN的方法可有效进行药物分类且可提高分类的准确率。
近红外光谱; 误差反向传播; 人工神经网络; 主成分分析; MATLAB
Fund program:Funding of Tianjin Science and Technology Commissioner(15JCTPJC63900)
近红外光谱(near infra-red spectrum,NIRS)分析技术是20世纪50年代发展起来的一种无创检测技术,已在农产品成分的快速、定量检测方面得到了广泛应用[1-4]。近红外光(near infrared,NIR)是指波长在780~2 526 nm之间、介于可见光区(VIS)和中红外光区(MIR)之间的电磁波。NIR波段的光子能量刚好满足了有机分子中含氢基团(如O—H、C—H、N—H等)基频跃迁、倍频跃迁、合频跃迁的能量需求;同时,有机物中含氢基团的种类、数量及不同含氢基团之间的组合方式等多项因素,直接影响NIR在有机物中的吸收峰,使得不同物质具有其独特的NIR图谱信息,因此NIRS又被称为有机物的“指纹图谱”[5-6]。随着商品化NIRS检测设备的普及,NIRS检测技术所具有的快速、安全、无损等优势使其在生物医药、农产品、石油、化工、烟草等多个领域得以广泛使用。
NIRS检测与现代数据分析处理算法相结合,是当前NIRS分析领域的研究重点[7-10]。本研究将误差反向传播(back propagation,BP)、人工神经网络(artificial neural network,ANN)算法[11]与主成分分析(principal components analysis,PCA)方法相结合,建立了用于药物分类的ANN识别模型;并采用MATLAB语言开发了用于药物分类的软件;最后,以5种药物的900个NIRS数据为例,对该程序的分类效果进行评估。实验显示,本研究的药物分类模型及MATLAB程序具有较好的实际应用价值,具有很好的用户交互性,用户可根据需要自由选择建模数据、设置网络结构、主成分书等识别参数,为NIRS检测技术与ANN、PCA数据处理方法的有机结合提供了平台。此技术不仅可用于药物分类,在水果、蔬菜、粮油等产品等级评估方面也具有潜在应用价值。
1.1 主要材料与仪器
本实验使用了5种药品,其规格、剂量及生产厂家如表1所示。实验过程中,采用无损检测方法,未对药物进行任何预处理,为便于模式识别,采用了编号的方法对5种药品进行编号,其中每种药品又分别选择了不同的批号数,如1号药品选择18个批号、2号药品选择12个批号等,共120个样本数量。
使用AXSUN近红外分析仪(美国AXSUN公司)采集药品的NIRS数据。选择光源波长的扫描范围为1 350~1 800 nm,光谱分辨率为0.5 nm;使用积分球漫反射式的NIR检测方式,每次光谱测试时,在波长范围内扫描16次,每个样本测量6次,每个样本的NIRS数据中任取3组用于建模,另外3组用于评估,时间间隔为0.5 min;实验环境为室温约25℃,相对湿度为40%。
1.2 方法
1.2.1 BP神经网络算法
人工神经网络(ANN)包括输入层、隐含层、输出层。ANN的基本单元是神经元,每个神经元表示一种特定的信号传递函数。图1为ANN结构示意图。图中:xi表示输入信号,wij表示第j个神经元所收到的第i个xi的权值,权值w越大说明xi的影响越大;Bj为阈值,f为激励函数,yi为输出信号。神经元对所有输入的加权求和进行判断,即形成该神经元的输出信号yj,判断依据表示为
式中:Bj表示第j个神经元的阈值。
图1 人工神经网络结构示意图
ANN中,输入信号xi(i=1,2,3......,N)的数量N一般等于样本的特征点个数,特征点个数的多少决定了样本输入形式的复杂程度,特征点个数增加将导致网络复杂度提高,运算量也随之增大。本研究中,特征点指的是药品光谱图像中吸收峰的位置及其强度,输出信号(yj)指的是产生药品的分类结果。
ANN具有自学习能力,主要表现在其权值可以根据误差(E)及学习速率(dj)自动调整,其中输出误差E定义为
权值调整策略表示为
式中:t为运算的次数。式(3)表明第t+1次运算所需权值是在上一次(第t次)计算权值的基础上,根据输出误差和学习速率进行调整的结果。
表1 5种药品相关信息
本研究在进行药物数据处理时,可通过改变主成分数目,隐含层神经元数(药物的编号方式)来寻求最优的网络结构。可通过使用训练的时间来评价网络的效率,训练集的网络训练的均方差(MSE)用以评价网络的误差,同时使用预测集的误差率(β)评价预测结果。MSE计算方法为
式中:M为神经元节点数。
β的计算公式为
式中:a为预测错误的样本个数,b为预测集总数。
1.2.2 主成分分析法
主成分分析(PCA)法是利用降维的思想,把多个指标转化为少数几个综合指标的多元统计分析方法。对于本研究的NIRS数据,光源波长的扫描范围为1 350~1 800 nm,光谱分辨率为0.5 nm,每个光谱数据有900个数据点。若直接以这900个数据点作为xi,则N=900,这将导致运算速度极慢甚至瘫痪。
笔者采用标准归一化和PCA相结合的方法,在不丢失主要光谱信息的前提下选择为数较少的新变量来代替原来较多的变量,解决了由于谱带的重叠而无法分析的困难。在PCA处理后的NIRS数据将被抽提出N个主成分作为ANN的网络输入。
1.2.3 MATLAB程序设计
MATLAB程序流程如图2所示,主要包括3个主要部分:训练集样本设置、ANN模型参数设置和预测集样本设置。首先,训练集样本数据为仪器自动生成的SPC文件,程序通过调用MATLAB函数uigetfile('*.spc','select spcfile','MultiSelect','on')完成数据输入,并绘制原始光谱图;第2步,对原始数据标准进行归一化处理,归一化后的数据再进行PCA处理,根据分析结果中信息利用率选择ANN分析所需主成分个数;第3步,根据激励函数、阈值等ANN模型的参数设置,建立ANN模型;最后,输入预测样本数据,调用已生成的ANN模型,生成输出结果。
2.1 原始光谱数据
本实验中共获得120个样本的NIRS数据,并将6次扫描结果的平均值作为结果存储在SPC格式文件中;采用Origin软件绘制5种药品的原始光谱并进行归一化处理(图3)。由此可见,每种药品均有各自的NIRS光谱特征,证明药物分类算法可通过PCA和ANN相结合,提取被测样本光谱数据特征峰信息以实现对药物种类的识别。
图2 MATLAB程序设计流程图
2.2 主成分分析结果
主成分分析(PCA)用于压缩原始NIRS数据,从庞大的NIRS数据中提取关键特征信息,以降低ANN分析的计算量,同时又不损失有用信息。本研究对5种药品的预测集样本NIRS数据的主成分分析结果如图4所示,其中图4A为以5种药物NIRS代表为例经PCA分析后各波长处的分数,其峰值处对应主成分所对应的波段;图4B为PCA后数据的信息利用率,可见随着主成分数自1至10的增加,PCA信息的利用率也随之逐渐增加,并在大于4时趋于饱和。PCA的信息率可保存98%以上的有用信息,因此后续实验中选择了4个主成分作为ANN的输入。
2.3 ANN神经元数的影响
ANN神经元数应大于输入的主成分数,当选择前4个主成分时,神经元数量对ANN网络误差与训练时间影响的数据结果如表1所示,结果曲线如图5所示。在其他的测试情形的对比中,可发现隐含层神经元为9个时,其网络的均方差和训练时间较长,不适合作为最终的网络结构;当隐含层神经元数大于10个时,均方差趋于平缓,稳定在较低的数值;当隐含层神经元数大于12个时,网络训练时间明显增加,不利于提高程序的效率。基于以上分析,笔者选用10个隐含层神经元,在保证均方误差较小的同时,训练时间也不会过长。
2.4 PCA-ANN药物分类结果
当主成分数N=4、神经元数M=10时,笔者对5种药品原始NIRS数据进行了分类识别,识别误差(MSE)和训练集误差率(β)如表2所示。其中,当药品种类数大于5时,表示预测集数据中掺入了干扰药物。干扰药物是指训练集中没有的药物,每种干扰药物的训练集和预测集样本数分别为25个和11个。
表1 神经元数不同时对MSE和训练时间的影响
表2 药物识别结果
根据预测数据绘制预测结果曲线如图6所示,可见当药品种类数小于11,即掺入干扰药物种类数小于6种时,β小于3%,证明网络的质量较好(MSE较低),预测准确率也较高(β较小)。由此可见,PCA与ANN结合是一种较好用于药物NIRS分类的识别方法,具有较好的容错率。说明只需提供足够训练集样本数,即能对药物进行正确分类。
近红外光谱(NIRS)是有机物的指纹图谱,人工神经网络(ANN)算法具有自学习及自适应能力,其容错能力高,且信息可并行处理,具有较高效率,很好地克服了人工分析的缺点。本研究将两者相结合,通过对药物进行NIRS分析,建立了基于主成分分析(PCA)和ANN的药物分类模型。对5种药品不同批号120个样本的NIRS数据分析结果表明,当未掺入干扰药物时,采用该模型的识别率可达到100%;同时,干扰实验也显示,当干扰药物种类数小于6时,该模型具有较小的预测误差率(β<3%)。因此,笔者认为以药物NIRS数据为基础,结合ANN算法与PCA和标准化归一化预处理,可有效进行药物的分类识别。
利益冲突 无
(图3~6见插页4-12)
[1]Porep JU,Kammerer DR,Carle R.On-line application of near infrared(NIR)spectroscopy in food production[J].Trends Food Sci Tech,2015,46(2):211-230.DOI:10.1016/j.tifs.2015.10.002.
[2]Huck CW.Advances of infrared spectroscopy in natural product research[J].Phytochem Lett,2015,11:384-393.DOI:10.1016/j. phytol.2014.10.026.
[3]Pojic′MM,Mastilovic′JS.Near infrared spectroscopy—advanced analytical tool in wheat breeding,trade,and processing[J].Food Bioprocess Tech,2013,6(2):330-352.DOI:10.1007/s11947-012-0917-3.
[4]李炎,张月学,徐香玲,等.近红外反射光谱(NIRS)分析技术及其在农业上的应用[J].黑龙江农业科学,2008(1):105-108.DOI: 10.3969/j.issn.1002-2767.2008.01.036. Li Y,Zhang YX,Xu XL,et al.Applications of near infrared reflectance spectroscopy technology in agriculture[J].Heilongjiang Agric Sci,2008(1):105-108.DOI:10.3969/j.issn.1002-2767.2008. 01.036.
[5]宋峰峰,倪雪雪,魏鸿,等.基于FTIR的药桑主成分分析[J].新疆医科大学学报,2014,37(5):565-566.DOI:10.3969/j.issn.1009-5551.2014.05.012. Song FF,Ni XX,Wei H,et al.Analysis of the principal component in Morus nigra Linn based on FTIR[J].J Xinjiang Med Univ,2014,37 (5):565-566.DOI:10.3969/j.issn.1009-5551.2014.05.012.
[6]王斌,任西杰,王燕,等.基于聚类、主成分和判别分析的海马醇提物红外指纹图谱研究[J].中国药学杂志,2013,48(4):253-258. DOI:10.11669/cpj.2013.04.003. Wang B,Ren XJ,Wang Y,et al.Infrared fingerprint analysis of Hippocampus's ethanol extracts coupled with cluster analysis, principal component analysis and discrimination analysis[J].Chin Pharm J,2013,48(4):253-258.DOI:10.11669/cpj.2013.04.003.
[7]褚小立,陆婉珍.近五年我国近红外光谱分析技术研究与应用进展[J].光谱学与光谱分析,2014,34(10):2595-2605.DOI: 10.3964/j.issn.1000-0593(2014)10-2595-11. Chu XL,Lu WZ.Research and application progress of near Inf rared spectroscopy analytical technology in China in the past five years[J]. Spectrosc Spect Anal,2014,34(10):2595-2605.DOI:10.3964/j.issn. 1000-0593(2014)10-2595-11.
[8]刘燕德,熊松盛,刘德力.近红外光谱技术在土壤成分检测中的研究进展[J].光谱学与光谱分析,2014,34(10):2639-2644.DOI: 10.3964/j.issn.1000-0593(2014)10-2639-06. Liu YD,Xiong SS,Liu DL.Applications of near infrared reflectance spectroscopy technique(NIRS)to soil attributes research[J].Spectrosc Spect Anal,2014,34(10):2639-2644.DOI:10.3964/j.issn.1000-0593(2014)10-2639-06.
[9]Bi YM,Chu GH,Wu JZ,et al.Ensemble partial least squares algorithm based on variable clustering for quantitative infrared spectrometric analysis[J].Chin J Anal Chem,2015,43(7):1086-1091.DOI:10.1016/S1872-2040(15)60842-8.
[10]Eisenstecken D,Stürz S,Robatscher P,et al.Near-infrared reflection spectroscopy and partial least squares regression to predict αfarnesene and conjugated trienol content in apples during storage[J]. PostharvestBiolTechnol,2016,117:49-56.DOI:10.1016/j.postharvbio. 2016.01.005.
[11]He Y,Li XL,Deng XF.Discrimination of varieties of tea using near infrared spectroscopy by principal component analysis and BP model[J].J Food Eng,2007,79(4):1238-1242.DOI:10.1016/j. jfoodeng.2006.04.042.
Application and MATLAB realization of drugs'classification based on the combination of NIRS detectionand BP ANN algorithm
Jia Yunfang,Min Changmin,Ju Cheng,Zhu Bo,Wang Peng
College of Electronic Information and Optical Engineering,Nankai University,Tianjin 300350,China(Jia YF,Ju C, Zhu B);Tianjin Medical Device Technical Evaluation Center,Tianjin 300191,China(Min CM);Lanlike Chemical Electronic High Technology Co.Ltd.,Tianjin 300384,China(Wang P)
Jia Yunfang,Email:jiayf@nankai.edu.cn
Objective To realize rapid and non-destructive drug classification and improve the accuracy of drug classification.Methods A model for drug classification based on the combination of principal components analysis and artificial neural network(PCA-ANN)method was introduced.The software for drugs classification was then developed with the utility of MATLAB language.The near infra-red spectrum(NIRS)detection technique was executed on five kinds of drugs(a total of 120 batch samples)and the detection data was collected within the range of 1 350-1 800 nm of excitation wavelength and 0.5 nm of wavelength interval.Results The network training mean square error(MSE)was 5.91e-03,and the prediction error(β)was 2.469%when the number of the interfering drugs number was less than 5.Conclusions The classification of drugs by NIRS combined with PCA-ANN is feasible and the classification accuracy can be increased.
Near infra-red spectrum; Error back propagation; Artificial neural network; Principal components analysis;MATLAB
贾芸芳,Email:jiayf@nankai.edu.cn
10.3760/cma.j.issn.1673-4181.2016.04.007
天津市科技特派员项目(15JCTPJC63900)
2016-05-06)