近红外光谱技术在中药质量控制应用中的化学计量学建模:综述和展望

2016-07-08 00:56周昭露李杰黄生权田淑华刘玉娇鲁亮张扬黄延盛王学重
化工进展 2016年6期
关键词:质量控制中药

周昭露,李杰,黄生权,田淑华,刘玉娇,鲁亮,张扬,黄延盛,王学重

(1华南理工大学化学与化工学院,广东 广州 510640;2无限极(中国)有限公司,广东 广州 510623;3晶格码(青岛)智能科技有限公司,山东 青岛 266109)



近红外光谱技术在中药质量控制应用中的化学计量学建模:综述和展望

周昭露1,李杰1,黄生权2,田淑华3,刘玉娇3,鲁亮2,张扬1,黄延盛2,王学重1

(1华南理工大学化学与化工学院,广东 广州 510640;2无限极(中国)有限公司,广东 广州 510623;3晶格码(青岛)智能科技有限公司,山东 青岛 266109)

摘要:近红外光谱(NIR)是制药工业领域应用最为广泛的过程分析技术(PAT),在中药产品质量的在线实时检测和控制中越来越受到重视。和化学药相比,由于中药组成的复杂性和生产加工过程的特殊性,对利用化学计量学建立NIR预测模型,提出了新的挑战。本文对NIR在中药质量控制应用中的化学计量学建模方法和技术进行了综述并对未来发展做了展望。综述涉及到NIR数据的采集、预处理、分组,特征波段自动选取,建模以及模型的验证和评价。讨论了平滑、导数、标准化算法、数据增强算法和主元分析等预处理方法对模型影响。特征波段的选取述及间隔偏最小二乘、遗传算法、无信息变量消除、随机蛙跳法、竞争自适应重加权采样和重要变量投影法等;建模方法论及线性和非线性技术包括主元回归、偏最小二乘回归、人工神经网络和支持向量机回归等。未来的NIR建模平台应该是一个在后台集成各种复杂的数学算法和实现数据的无缝共享,面向用户的前台则是友好、简单、智能的半自动界面环境。论述结合具体的实例进行。

关键词:近红外光谱技术;中药;质量控制;化学计量学

第一作者:周昭露(1991—),女,硕士研究生,从事近红外建模技术研究。E-mail cezhou.zhaolu@mail.scut.edu.cn。联系人:王学重,教授,博士生导师,研究方向为制药工程和过程控制。E-mail xuezhongwang@scut.edu.cn。 黄生权,博士,研究方向为制药工程和过程检测。E-mail 14321084@qq.com。

中药,包括以中药材为基础的营养保健品,是中华民族的瑰宝,为世界医药史的发展做出了突出的贡献。中药在国际市场上也越来越得到认可,全世界每年中药贸易额正以10%的速度递增。但是根据2007年的一组统计数据,在国际中成药市场上日本占80%份额,韩国占10%,而我国仅占5%。同时日本、韩国、东南亚以及西欧的一些草药企业还从我国低价购入原料药就地粗加工,运回国内精炼提取制剂后以高价返销进入中国市场。我国中药生产企业制药水平整体还不高。只有中药的质量和品质得到充分的保障,中药在国内市场的地位才能得到巩固,在国际市场上的份额才能增长。

气相色谱(GC)、高效液相色谱法(HPLC)[1]、X-射线衍射分析法(XRD)[2]、紫外分光光度法(UV)[3]、滴定法等在中药成分定性和定量分析中应用已经非常广泛[4]。然而,由于对样品的化学分析通常需要经过复杂的预处理,不仅消耗大量的人力和物力,还由于测量时间上的滞后不能对工艺生产过程及时调节以排除问题实现及时调控。近红外光谱技术(near infrared,NIR)对中药复杂组成的测量相对于传统的化学分析方法有明显的优势,具有快速、低消耗、无破坏性、几乎无需样品预处理等优点。NIR的应用可以是离线取样测量代替传统的化学分析方法,但更有吸引力的是在线测量探头,由于能够实时测得产品质量数据可以及时进行操作工况的调控。

过程分析技术(process analytical technology,PAT)因为在分析技术前面加了‘过程’二字,主要指用于在线测量的分析技术。因为药品和食品是特殊的产品,政府监管一向比较严,新工艺、新设备、新的测量和控制技术的应用一般要经过监管部门的批准,增加了企业的成本。因此严格的监管长期以来是造成药品生产制造技术进步缓慢的重要原因之一。为了推动技术进步,美国食品和药品管理局(Food and Drug Administration,FDA)提出了PAT计划[5-6]。PAT强调的是在药品生产过程的各个环节上(原料、生产、包装等)在线对产品质量参数和过程关键参数及时测量并调控,从原理上加深对过程的了解,找到设计空间,减少和消除产品生产的批次差异。相应的,如果企业能够证明由于采用了PAT技术对过程加深了解,FDA可相应的在监督上降低企业成本。FDA的PAT计划是根据“质量源于设计”的理念提出的,鼓励生产过程的设计、控制和质量保证的创新性、高效性。旨在确保关键产品的品质,及时对过程性能特征进行测量,获得生产过程的单个或者多个条件参数,进而对生产加工过程进行设计、分析和控制,力求保障最终产品的质量[7]。过程分析技术应用在生产过程中可以为企业降低生产成本、缩短生产周期、提高产品质量、改善生产环境等。NIR技术作为近年来最受欢迎的过程分析技术,在石油化工[8]、农业、食品工业[9]、制药工业[10]以及环境行业等广泛应用。基于PAT的药品生产技术的各个组成部分可按图1描述。首先需要利用单个PAT仪器对各个变量进行实时在线测量。因为这些测量一般为光谱或图像,需要利用化学计量学和信号处理技术对其处理。基于PAT对过程更深入的了解来自多变量刻画,获得多变量设计和操作空间,产品质量与操作条件以及原料的因果关系,多变量统计控制和闭环控制。PAT对基于过程机理的模拟强调不够,但是必须集成基于多尺度和介尺度的模拟优化。

表1是几年前某国际大制药企业对PAT实际应用情况的调查汇总。从中可以看出,目前实际用于生产的PAT技术还很有限,许多技术还有待开发。从表中还可以看出,NIR光谱技术是制药领域目前应用最为广泛的PAT技术。NIR光谱技术近年来蓬勃发展,FDA、欧洲和加拿大药物局已正式采用NIR光谱分析技术取代繁琐费时的品管分析方法。一些知名制药大公司(如美国辉瑞公司)将NIR技术用在化学药生产过程的质量控制,从根本杜绝了不合格产品出厂,保证了产品质量,为企业节省了大量人力、物力。国内在中药分析方面也取得了较快的发展,《中华人民共和国药典》2005版已将“近红外分光光度法指导原则”列入目录,应用方面包括药材质量鉴定、药材有效成分含量测定以及简单制剂的成分分析,但对于中药材-提取分离-制剂过程的在线检测研究则报道较少。

图1 基于过程分析技术的药物制造

表1 PAT在制药工业的应用

目前,近红外光谱技术在中药材的定性分析,中药成分的离线、在线定量分析领域中有大量的文献报道。NIR在中药中的应用综述性的文章也有一些报道。周文婷等[11]综述了NIR光谱技术在食品、农业、药理、中药(产地、真伪、药材和中成药中的水分、有效成分含量、中成药含量)等方面质量评价中的应用。李洋等[12]系统地阐述了在线NIR光谱技术中药生产过程分析与控制方面的应用,并以NIR光谱分析平台的搭建为例,说明NIR光谱技术的应用可行性。上文中周文婷和李洋的综述更加倾向于概述近红外在中药中的具体应用和部分近红外仪器,对化学计量学建模基本没有涉猎。CHAO 等[13]的综述也是关于NIR在中药领域的应用,内容更详细,而且涉及到了化学计量学方法,但是对化学计量学建模的综述部分还不够深入和详尽。本文注重结合化学计量学方法和具体应用阐述NIR运用到中药质量控制中的建模的重要性。并以中药混合物中某成分的定量模型的训练过程,说明各种化学计量学方法的运用和选择。

1 近红外光技术在中药产品质量中的应用

近红外光谱技术在应用于传统中药制造过程的定量和定性分析方面已经取得了很大的发展[11],定性包括区分中药的种类[14-15]、产地[16-18]、真伪[19],定量中药中的有效成分等[20-22],以及各制药工艺工段例如药物提取[23-24]、洗脱[25]、浓缩、纯化、淳沉[26]中终点参数评价。NIR还被用于产品中包括颗粒[27]、缓释制剂[28]、片剂[29]、固体分散体[30]等的刻画。综上,NIR可用在整个中药生产过程中,包括中药材原料的检验,提取过程、洗脱、浓缩、醇沉、收膏、配液等生产过程中的一个或者多个关键质量控制参数的监测,以及产品合格检验。

1.1 NIR仪器供应商

我国早期陆续进口了一些近红外分析仪,主要来自德国Bruker公司、美国Brimrose公司、美国Thermo Fisher公司、英国ABB公司等厂家,集中分布在农业、石化、烟草、食品、饲料等部门,用于原材料的品质分析和产品的质量控制。值得注意的一个问题是,西方发达国家已有的近红外光谱分析技术虽然比较成熟,并已成功应用于许多化学药的生产过程,但实践证明由于中药生产过程的特殊性和复杂性,进口的近红外仪器设备基本上为通用型配置,在我国应用到中药的复杂体系中普遍遇到困难,尤其表现在成分预测误差大。要实现NIR中药应用的技术上的突破,首先需要在NIR信号特征信息提取、建模、模型验证上取得技术的突破。

表2列举了部分国内外近红外测量仪器的供应商。国外近红外仪器的发展相对较为成熟。其中德国的Bruker、美国Thermo、英国的ABB等更是近红外仪器行业的领头羊。虽然我国在近红外光谱仪的研发起步较晚,近年来也陆续在仪器的稳定性、精密性,仪器分析系统软件,化学计量学以及仪器的售后服务等方面取得一定的成果。但是在仪器的一些关键技术方面(如信噪比、仪器间的通用性)还存在一定的差距。如今,近红外光谱仪作为最受瞩目的过程分析技术之一,其在线应用有巨大的潜力,所以需要近红外仪器硬件、软件、技术服务等多个方面共同发展。故在线分析系统的软件必须要具备光谱实时采集和化学计量学光谱分析的功能。NIR光谱的定性和定量的准确性取决于建立模型的稳定性、可靠性。所以在接下来的文章中将对NIR的建模技术及各种方法进行综述。以期为以后的NIR建模提供参考方法。

1.2 NIR吸收谱带

表2 部分国内外近红外仪器供应商[94]

美国材料与试验协会(ASTM)规定NIR光谱的波长范围为780~2526nm(12820~3959cm−1)。NIR吸收带是由-CH、-NH、-OH等官能团伸缩振动的倍频和合频吸收。NIR光谱主要反映-CH、-NH、-OH、-SH等官能团信息,几乎涵盖了所有的有机化合物和混合物。例如某中药口服液在近红外1100~2300nm区间的吸收有一下特征:1423nm附近有强吸收峰,该吸收峰是溶液中水的-OH键伸缩振动的第一倍频峰吸收峰,1935nm左右吸收峰是-OH键的合频吸收带;1100~1400nm是-CH的第二倍频和合频吸收带;2000~2300nm是-CH,-NH,-OH伸缩振动的指纹吸收峰的组合。因为水-OH的两个吸收带很强,覆盖了其他中药中有效成分在该波长范围内的特征吸收,这对NIR光谱的分析增加了难度,所以在运用化学计量学建分析模型的时候,需要对NIR光谱进行预处理,选择有用的光谱信息。

NIR光谱采集方式主要分为透射、透反射、漫反射(普通漫反射和积分球漫反射)等。根据样品的性质不同采用不同的光谱采集方式:对于均匀透明的液体,采用透射的方式;如果是颗粒、粉末类型的一般采用漫反射;浆状、黏稠状含有悬浮颗粒的液体多采用漫透射和漫透反射。在对中药定性分析时样品通常为粉末,常采用漫反射和积分球漫反射。中药有效成分提取或浓缩过程在线采集光谱常用透反射。YAN等[31]在定量刺梨木中多糖含量时将样品处理成粉末以漫反射方式采集NIR数据;刘冰等[32]在测量黄芪精口服液中黄芪多糖和黄芪甲苷的含量时,NIR光谱采集用透射方式;JIN等[33]在乙酸钠(提取自天师栗中三萜皂苷的一种盐)洗脱过程中以透射的方式采集NIR光谱。白雁等[34]对山药中多糖含量的分析,将新鲜山药干燥后粉碎过筛,以积分球漫反射方式采集NIR光谱。总之,NIR光谱的采集方式根据样品的性质而定。

1.3 化学计量学建模在NIR光谱仪使用中的重要性

回顾历史,化学计量学建模在NIR发展的历程中曾经起到了决定性的作用。在20世纪60年代以前,和中红外(mid-IR)相比,NIR并没有得到重视。主要原因是它的弱吸收和谱峰的重叠较严重,难以从谱图中抽取组分特征信息。20世纪70年代后NIR获得喜爱的原因除了近红外仪器硬件改进提高了检测灵敏度外,主要是由于基于主元素分析技术的化学计量学的发展使近红外线仪器有效地从谱图中提取组分的特征信息成为可能。许多学者通过对先进的化学计量学算法的研究,将NIR应用到了以前NIR不能应用的领域,例如结晶。因为NIR的谱图不仅受溶液浓度的影响,还受到颗粒浓度和大小的影响,因此NIR尽管是最受欢迎的PAT技术,然而在结晶过程溶液浓度的测量中多用mid-IR,NIR应用很少,因为无法区分NIR谱图的变化是由溶液浓度变化引起的还是颗粒造成的。MA等[35]结合遗传算法和支持向量机开发的化学计量学建模方法可从同一张谱图同时准确预测溶液浓度和颗粒粒度,使NIR应用于结晶的缺点变成了优点。另一个例子是校准数据的问题。一般不管NIR或mid-IR的应用均需要多组已知浓度的溶液的谱图作为校准数据建立关联模型。如果溶液中存在未知组分,例如某些反应过程中转瞬即逝的未知中间产物,由于模型建模中没有见过,因此不能预测。WANG等[36]提出的基于独立元素分析的NIR光谱分析方法就不需要校准数据,能够自动从混合物的谱图中分解出构成该混合物的各个组分的谱图并推算出各部分的浓度。再一个例子是NIR用于测量微量杂质浓度的应用。目前还缺少方便准确的能够在线测量药典规定的杂质最大浓度以下的杂质浓度的仪器。有的近红外的仪器信号在这样低的浓度下仍然对浓度的变化较灵敏,主要存在模型预测误差较大问题。据作者所知,有西方的制药公司正在研究新的化学计量学方法,如果取得突破,NIR就可以成为一款有效的在线测量过程中杂质浓度的仪器。NIR在中药生产质量检测和控制中的应用并非都很成功。主要反映在预测误差大,重复性稳定性不够好等。这可能是由于中药生产过程的特殊性和复杂性,而进口的近红外仪器设备基本上为通用型配置,在我国应用到中药的复杂体系中遇到困难。要实现NIR中药应用的技术上的突破,首先需要在NIR建模方法,特征信息提取、建模算法、模型验证上取得技术的突破。

2 建模流程和方法

NIR光谱数据不能直接反映中药的组分信息,需要把NIR光谱和可靠的化学测量结果结合起来通过建立定性和定量校正方程完成对待测组分信息的测量,即建立校准模型。NIR光谱分析的过程首先是用一定数量的校正数据(包括NIR数据和参考数据)建立一个模型;用验证数据对所建模型进行评估;模型满足要求以后可以对未知样品进行预测;在模型使用过程中必须实时对模型监测,以便对模型进行及时维护。NIR光谱分析的流程如图2所示。

图2 近红外光谱分析流程图

2.1 用于模型建立的校正数据的获取

在许多在线NIR应用于生产产品质量控制的例子中[37-38],用于建模的校正数据多来自生产:NIR光谱数据来自生产现场,而相应的参考数据来自实验室的化学分析或色谱分析。因此需要注意的一个问题是,数据变化的空间范围有多宽。因为建模主要是建立谱图数据和参考数据的关联关系。虽然不能说这种建立的数学关系模型不能反映一定的输入输出的机理关系,毕竟这种关系反映了一定的输入输出的机理,但基本上还是被认为是基于数据的经验模型。因此其适用范围能够给出可信的准确预测的空间领域一般不能超出训练数据的范围。这和化工过程中基于三传一反和相平衡的机理模型不同,机理模型一般适用范围更广。应用来自生产的数据作为建模的校正数据就存在一定的风险,即数据的变化范围不够宽。模型在实际应用中跑到可信空间之外的可能性就较大。这样就带来了3个需要考虑问题:需要关注校正数据的范围和注意如何在多维空间中刻画多维数据的范围;实际使用时如何得知模型是在可信度范围之内还是之外;什么时候需要对模型重新训练和如何重新训练以使模型能够用于新的数据。后两个问题在后面会详细探讨,这里对第一个问题再做进一步的阐述。

在实验室中,经常通过实验设计的方式取得建立模型用的校正数据。例如表3是某利用mid-IR测量结晶过程溶液浓度应用中产生校正数据的实验设计。温度的变化范围是10~80℃,浓度的变化范围是3~60g/L,因为这是实际使用中变量的变化范围(实际上实际应用中范围略小)。这里温度变化6次,浓度变化15次,意味着配置6×15=90个已知浓度的标准溶液。这听起来很多,但在数天到一个星期内就可做完。表中打“v”字符号的溶液样品,不用于建模,只是用于模型的验证。显然,如果应用中温度不变或变化不大,就不需要对温度进行修正或只做很小的修正。这种产生数据的方式对于三组分(两溶质和溶剂)无或有微小温度变化,或双组分即使有较大温度变化比较容易。如果组分比较多,遗憾的是多数中药的应用是多组分甚至不可数的组分,如何进行类似的实验设计就需要探讨,还没有直接的答案。例如能否考虑只改变所关心的组分的组成进行实验设计?

表3 配置标准溶液用于产生校准数据的实验设计

不仅组分的浓度,而且温度对NIR谱图会有影响。因此如果NIR探头处温度波动而没有温度测量就需要注意。关于这个问题也有争议,有人认为在线取的NIR光谱已经反映了温度的变化。但是组成一般是在实验室分析的,温度一般为常数。这就有可能有这样的问题:两次测量浓度是一样的,但由于两次测量NIR处温度不同,NIR光谱可能有差异。如果温度也记录了,在建模中就可以加以考虑[39]。

2.2 数据预处理

对数据包括NIR光谱和组成数据的初步分析和预处理主要是剔除异常数据,消除噪声等。由于NIR在使用过程中仪器因素、测量环境以及人为因素等可能会造成异常样本。样本异常有两种情况:一种光谱数据或参考值与真实值之间的显著异常,另一种是光谱数据或参考值与样本平均水平的差异。一般可以分为NIR光谱的异常和参考值异常。NIR光谱的异常可以直接观察光谱,也可以通过计算样本之间的距离。识别光谱异常的方法有光谱残差、马氏距离、光谱峰异常;参考值异常的判断方法主要有参考值绝对误差的F统计检验和cook检验[40]。光谱残差法是通过计算光谱残差的F值,F值超出一定范围的可能判断为光谱异常;光谱的马氏距离超过一定的阈值则判为异常样本;计算光谱中的波长点对NIR模型的贡献大小,该贡献值越大说明对模型影响越大,如果该贡献值显著大于其他波长点的值,表明该波长点对模型不利,可认为是异常点。参考值绝对误差的F检验,设定一个阈值,大于该值判为异常;参考值异常的cook检验即是考察cook距离和Leverage值的关系图判断,如果样本的cook距离值和Leverage值都超过临界值可以判断样本为异常值。

NIR光谱中不仅包含了物质吸收的信息还有仪器噪声、背景信息以及其他杂散光信息。所以,有时还需要对NIR光谱进行预处理减少系统噪声,校正基线平移和漂移现象,消除背景的干扰,分辨重叠峰,提高分辨率和灵敏度。NIR光谱预处理的方法有多种,包括平滑法(Norris平滑、Savitsky-Golay)、导数法(一阶导数法、二阶导数法)、散射效应校正(多元散射矫正MSC和标准正交变换SNV)、基线校正、小波变换、正交信号分解、数据增强算法等。平滑法减小随机误差和降低随机噪声;导数法可以消除基线平移,背景的干扰,分辨重叠峰,提高分辨率和灵敏度;散射效应校正用于消除样品差异和颗粒造成的谱带漂移现象;基线校正消除基线的偏移;小波变换对某一些特殊频率噪声、背景做滤波处理;正交信号分解用于剔除光谱数据中的坏点;数据增强算法可以改善数据的质量,得到更好的定性和定量模型。文献研究表明各种方法各有优缺点,因此在建模过程中需要对其进行选择,选择过程中最好和建模步骤结合起来。

2.3 样本的划分

虽然基于数据的关联因不需要机理模型常被认为是其优点,但也伴随着一个缺点,就是外延性常常不能保证。因此用于建模的数据常常被分成两组:训练数据和验证数据,前者用于对用数据进行训练建立模型,而没有用于建模的验证数据将对模型进行验证。考虑到数据是多维的,例如NIR光谱每组数据有数以千计的波数,如何将数据划分成训练数据和验证数据就需要认真考虑。采用聚类分析技术对数据进行初步分类是较好的方法之一。例如WANG等[41-42]在利用生产数据建立产品质量软仪表的研究中将146组数据聚类成7类,然后从各类中选取验证数据,其余用于训练数据,样本多的类选取较多的数据作验证,小的类选取较少的数据作验证。如果某个类的数据样本数远远大于其他类,还必须从中去掉一些数据(可以移除或用于验证),否则模型可能会去倾向于代表数据样本超多的类,而不能有效代表样本较少的类。样本分类还有许多其他的方法,例如,根据输出的值的变化也可以对数据分类等。

在中药NIR建模的文献中,报道的有RS (random section)法、KS(Kennard-stone)法[43]、双向算法(duplex)、SPXY法(sample set partitioning based on joint X-Y distances,SPXY)等,但需要指出的是可选的方法远不止这些。RS法是从样本中随机选取一定数量的样本作为校正集。丁海樱等[44]在中药粉末混合过程在线检测的建模过程中利用RS法对189个样品随机分成校正集和验证集。LI[45]、蔡绍松[46]和章顺楠[47]等在NIR建模分析的时候,也采用了RS法将样品划分为校正集和验证集。RS法适用于样本数量较大的情况,样本数量少时样本的划分可能分布不均,这样校正集不足以代表整个样品的性质,会影响到模型的泛化能力。KANG等[48]和WANG等[49]样本数相对较少,采用KS法选取校正集样本,KS法是通过计算所有样本光谱之间的欧氏距离,依次从中选择拥有最大最小距离的样本作为校正集,直到达到校正集样本要求数量。KS法考虑了光谱之间的距离划分样本,SPXY法则综合考虑了NIR光谱间的欧氏距离和参考值之间的欧氏距离,再依次选择具有最大最小距离的样本作为校正集,直到满足要求。ZHANG等[50]对金银花提取液分析时用SPXY法划分样本。

2.4 特征波数的选取

在早期建立NIR或mid-IR组成预测模型过程中,经常使用特征峰的峰高或峰面积等作为输入。特征峰的选取,即特征变量的选取是很有道理的,因为和输出没有关系的输入变量包含在建模中会严重影响模型的性能,模型的泛化能力也会降低。在训练数据样本数一定的情况下,太多的输入变量使数据在多维空间中更稀疏,因此负面影响模型的建立。输入变量多,对于神经网络模型来讲就意味着更多的神经元的连接的权重需要决定,对模型不利。除了需要考虑有些输入波数和输出没有关系的问题外,还需要考虑某些输入变量之间也可能是相关的或非独立的,而这也会对建模有负面影响。

减少输入的方法有数据压缩方法和特征波段选择的方法。主元分析(principal component analysis,PCA)就是经常使用的数据维数压技术,也有学者研究采用独立元素进行数据压缩[51]。但是利用PCA对数据进行压缩虽然可以消除数据的相关性并大幅减小输入数据的维数,原始NIR光谱中的和输出无关的波数信息并没有消除掉,而是仍然包含在选择的主元中。所以更好的方法是特征变量或特征波段的选择,在建立模型时不考虑那些和输出没有关系的波数。人为选择的方法比较粗糙,更好的特征波段选择的技术是自动选择。这些方法包括间隔偏最小二乘法(iPLS),组合偏最小二乘法(SiPLS)、向后偏最小二乘法(BiPLS)、遗传算法(GA)、无信息变量消除法(UVE)、退火算法、遗传算法(GA)、随机蛙跳法(random frog)、竞争自适应重加权采样(CARS)等。因为选择特征波段的根据是考察各个波段对输出的贡献,这些特征波段自动选择的算法应该和建模算法联合集成使用,换句话说选择特征波段不是和建模分开的一个步骤,而是建模的一个集成部分。

这里选择一个在NIR偏最小二乘(PLS)建立浓度预测模型时利用基因算法(GA)进行自动波数选择的例子展示建模中的自动波段选择的过程[52],其中GA是一个优化算法。该GA-PLS建模方法首先随机选择一个波数段的组合,选择多少的波数段由用户自己定义。一个波数段可以是临近的数个波数组成,例如相邻的6个波数作为一个波数段。在随机选择了一个波数段组合后,可利用所选择的波数段建立PLS浓度预测模型,并利用一个定义的适应度函数对其性能进行评价,适应度函数是一个和预测误差等有关系的一个评价模型性能优劣的函数。如法炮制,可以随机选择第二个波数段的组合,建立第二个PLS模型并用适应度函数对其进行评价。以此类推可以建立n个PLS预测模型,例如n=20,可由用户定义。这n个模型称为第一代种群(population),每个函数称为一个染色体(chromosome),每个波数段成为基因(gene)。根据GA优化算法中优胜劣汰的原则,放弃适应度函数值较低的数个函数(例如10个),适应度高的函数带入第二代。带入第二代的函数经过一系列GA优化算法中的操作例如杂交(cross over)和变异(mutation)等产生一些新的函数,由此得到第二代种群。对第二代种群的函数进行适应度函数值评价,并再次利用优胜劣汰的原则将没有淘汰的函数带入第三代。这样一直进行下去直到满足停止条件。停止条件可以是多个,例如误差再继续下去不在减小,或达到了一个比较大的代数等,满足之一即可停止。为保证结果,可以进行数次优化,查看是否得到相近的优化结果。作为示例[52],图3显示对一组谷氨酸在水溶液中的NIR数据利用GA-PLS进行波段选择和建模,共运行了5次,当然每次产生很多模型选择其中最好的,五次比较显示,所选择的特征波段相近,主要分布在1140~1192nm,1209~1237nm,1322~1385nm和1580~1791nm,属于C-H的频率范围。事实上五次运行建立的模型的性能也差不多。

2.5 建模技术

NIR或mid-IR建模最常用的是偏最小二乘(partial least squares,PLS)。其他常用的线性建模技术还包括主元回归(principal components regression,PCR)、多元线性回归法(multi linear regression,MLR)等。最具代表性的非线性建模技术是BP(back propagation)人工神经网络(ANN)。其他技术还包括支持向量机(support vector machines,SVM),有线性也有非线性的SVM建模技术。需要指出的是,对于接近线性的数据,应该采用线性模型,利用非线性的建模技术反而不如线性的方法。一个有趣的例子是被引用近200次的一篇论文[53],利用BP神经网络建立流化催化裂化的故障诊断模型。作者利用20多组数据考察了不同BP神经网络结构包括隐含层神经元个数对模型预测误差的影响。其实对于这组数据用一个简单的矩阵模型(当然是线性且没有隐含层、也没有类似于神经网络的传递函数)就可以得到对每组数据误差均为零的模拟结果。这是因为作者并没有意识到这20多组数据是完全线性的,要想利用BP神经网络模拟这组数据对每组数据得到接近零的误差,需要无穷多个传递函数的叠加。这组20多组数据是人为根据故障的逻辑关系造出的,不是工厂或模拟产生的数据。产生数据的逻辑关系本身是描述的线性关系。除了线性和非线性外,具体建模技术的选择也很重要。例如,上节提到的利用GA-PLS建模技术预测溶液浓度的例子[52],用同样方法建立预测晶体粒度(尺寸)模型时,就得不到理想的预测结果。MA和WANG[35]利用GA-SVM,用遗传算法进行波段选择用支持向量机进行建模,不仅得到了略好于GA-PLS的浓度预测模型,还得到了满意的颗粒粒度的预测模型。这充分说明建模技术的重 要性。

图3 利用遗传算法(GA) - PLS进行特征波段自动选择和建模[52]

对于一个具体的应用,选择哪种特征波段选择技术和哪种建模技术相结合才能得到理想的模型并没有明确的规则可以遵循。比较实用的方法是各种波数选择方法和各种建模技术进行匹配,辅助以有效的模型性能验证方法,最终选择最理想的模型。这听起来工作量有些大,但是只要各种工具能够集成起来,在数据管理和流动上自如,考虑到现代计算机的计算速度,这个建模策略是完全可行的。

2.6 模型评价

2.6.1 一般的评价方法

NIR模型的评价一般需要综合考虑训练数据的拟合和验证数据的预测效果。常用的评价参数有相关系数(R)公式(1)和均方根误差(root mean square error,RMSE)公式(2)。

式中,c为样本参考值,cµ1为模型预测值,c1为样本均值,m和n分别为预测集样本个数和训练集样本个数。

另外,为了有效评估模型的预测能力,需要在样本数据中选出一部分数据作为测试数据,利用测试数据的预测结果来评价模型对于未知样品的预测能力。由于不同测试数据计算出的模型预测误差有较大的差别,所以化学计量学中经常使用多次重复选择不同的测试数据来综合评价模型的预测结果,即交叉验证(cross validation,CV)法。常用的交叉验证的方法有留一交叉验证、K折交叉验证和蒙特卡洛交叉验证等。

留一交叉验证是每次留出一个样本用于测试,用其余的样本建立模型,如此重复,直到每个样本均被预测一次为止。这种方法的优点是计算结果具有良好的一致性,缺点为计算量大,尤其是在样本个数较多的时候,另外留一交叉验证的结果对模型未知样本的预测可能有较为乐观的估计。K折交叉验证法先将样本分为K组(5组或10组),然后每次去掉一组,用其余的K−1组样本建模,直到每组样本均被预测一次。这种方法有效减少了计算量,同时对模型的预测结果也有较好的估计,缺点是由于随机分组的存在,每次计算结果的一致性较差。蒙特卡洛交叉验证是利用蒙特卡洛随机取样技术,大量重复随机取样计算,其结果对模型的预测能力有较好的估计,缺点是计算量大。

2.6.2 其他需要考虑的因素

模型的建立应尽量避免过拟合。如果模型描述了噪声或随机误差,而不是输入变量和输出变量的深层关系,就称为过拟合[54]。如果建立的模型高度复杂,相对于建模数据的数量模型参数非常多就容易造成过拟合。过拟合的模型外延性差。一般情况下模型参数少,选择的特征变量少,且对建模数据拟合满意的模型不容易产生过拟合,外延性较好。

模型的预测可信度也是一个在NIR实际应用中普遍关心的问题。有的学者开发了模型的可信度区间的计算方法[55],在实际中也很有用。一般情况下,如果数据落入训练数据的多维区间内,预测误差是可以保证的。如果数据跑到训练数据包含的空间之外,预测结果就不能保证。这同时带来了另外一个问题,那就是什么时候对模型需要重新训练,以及如何重新训练(比如需要抛弃原来的数据,全部用新数据训练模型,还是把新旧数据混在一起训练?)。理想的方法是采用递归学习的方法,每当有新数据进来时,自动改进模型——对模型在考虑了新的数据后进行修正,而不需要和以前的数据一起训练。例如神经网络模型ART2采用的就是这种学习模式[56-57]。虽然递归学习方式非常诱人,但多数建模方法(PLS、神经网络、支持向量机等)并不支持这种学习的模式。

表4总结了NIR光谱技术在中药质量控制应用中建模技术的研究。在其他行业例如在食品等的应用也发展迅速。KAWANO等[71-72]运用NIR光谱技术测量了桃子和柑橘中的糖含量,而且报道了一种水果自动分类方法。何东健等[73]比较了在线式反射光测定法、不完全遮光型透过光测定法、完全遮光型透过光测定法3种NIR测量方法在线检测苹果和橘子中糖度、酸度、内部褐变,结果显示糖度和酸度的相关系数分别大于0.95和0.85,能够满足在线检测水果内部品质的要求。何勇等[74]采集苹果的NIR光谱利用PCA方法对其品种聚类分析,再结合人工神经网络技术鉴别苹果品种。利用PCA分析的载荷图选取特征波段,建立BP人工神经网络模型,分为训练和预测两组,其结果显示识别的准确率达到100%,为苹果品种的鉴定提供了一种新方法。

NIR光谱技术在食品行业中除了定性、定量的分析外还可以用于食物结构的确定,BRUUN等[75]运用NIR光谱技术在线监测麸质蛋白的结构、麸质粉增加水分含量和热处理时的相互作用的变化。光谱的预处理方法采用二阶导数法和光谱信号校正,提高分辨率。然后分别用PCA和PLS分类和建立回归模型,结果表明NIR光谱能够体现麸质蛋白结构的变化。NIR光谱还用在食品的生产过程中,比如WU等[76]就在线采集了中国米酒发酵过程的NIR光谱,检测发酵过程质量参数。采用了不同的变量选择方法、支持向量机算法提高PLS模型性能,总共建立了10种不同的校正模型。该文章表明变量选择后的波段建模优于全波段建模,对发酵过程参数乙醇含量和总酸含量的预测非线性模型优于线性模型,GA-SVM模型有最好的预测准确性。NIR光谱还广泛运用在烟草行业中,除了测定烟草中水分的含量[77],张建平等[78]用主成份回归和神经网络等方法建立NIR光谱和成分含量的数学模型对烟草中烟碱、总糖、总氮、还原糖、氯等化学成分定量分析;王东丹等[79]选取300个烟草样品建立了测量总糖、还原糖、尼古丁、总氮的数学模型,并得到良好的预测结果,4种成分含量预测模型的NIR预测值与分析值之间的平均相对误差都小于5%。NIR光谱技术在食品行业的成功发展必然决定其也能在中药行业中广泛应用。中药和食品在某种程度上是一致的,需要检测测定成分的含量,只是有些中药是多种药材的配方,其成分更加复杂,NIR在中药中的应用面临更大的挑战,但在科研工作者的不懈努力中已经取得了较大的突破。

表4 近红外光谱在中药质量控制中应用的建模

3 数据预处理和建模算法

3.1 数据预处理算法

3.1.1 平滑算法

平滑算法是一种低通滤波器,通过消除信号中的高频部分来降低信号中的噪声。常用的平滑算法主要有移动窗口平均算法和SG算法等[80]。采用移动窗口平均算法,其结果会丢失边界点信息;另外移动窗口宽度是一个需要恰当设定的重要参数。移动窗口过小不能显著减少噪声,过大又会对波谱波峰平滑太多,造成部分失真。为此Savitzky-Golay在60年代提出了SG平滑算法,至今仍在波谱预处理中广泛使用。类似于移动窗口平滑算法的思想,对应于使用简单的平均,Savitzky-Golay卷积平滑算法利用多项式来对移动窗口内的数据进行多项式最小二乘拟合,其实质是一种加权平均法,更强调中心点的作用。在使用Savitzky-Golay卷积平滑法时,应注意移动窗口宽度及多项式次数的优化选择。

3.1.2 导数算法

导数算法是将光谱吸光度数据对波长(或波数)变量进行求导运算,用来消除光谱数据中不重要的基线漂移。它是一种高通滤波器,通过消除信号中的低频部分来消除基线或漂移的。常用的光谱求导方法有直接差分法和Savitzky-Golay求导法[80]。对于离散波谱求导,直接差分法是最简单的一种方法。但直接差分法也存在一些缺点,即对于高频采样的波谱的求导结果与实际相差不大,对于低频采样波谱的求导结果误差较大。对此,可采用Savitzky-Golay卷积求导法计算。Savitzky-Golay卷积平滑法除了可以用于平滑外也可用于求取导数,在最小二乘可计算得到与平滑系数相似的导数系数之后,可通过查表得到求导权重系数。导数算法可以有效地消除波谱数据中的基线或偏移,另外,合适的求导阶数可以分辨多组分的重叠峰。与此同时,导数运算也会增大数据噪声,降低有效信号的信噪比。在实际使用时需要优化选择合适的参数。SHAO 等[81]提出了连续小波变换的方法,在噪声信号分析中得到了较好的求导结果。

3.1.3 标准化算法

标准化算法主要用于消除固体颗粒分布不均、表面散射以及光程变化对NIR漫反射光谱的影响[82]。最简单的标准化方法是每个光谱的平方和为1,即每个光谱都是单位长度。常用的标准化算法主要有多元散射校正(MSC)和标准正态变量(SNV),详细的算法在文献中有说明。在实际运用中,MSC 和SNV很多时候都产生相似的结果,一般选出较优结果的预处理方法。另外,在使用SNV算法时,如果将光谱进行lg1/R转换后,会有较好的效果。

3.1.4 主元分析

主元分析(PCA)算法通过变量间的线性组合来降低变量维数。主成分之间是相互正交的,能够有效地消除多重变量之间的共线性。由于NIR光谱相邻波长范围内的吸光度有很强的相关性,利用PCA算法可以有效降低变量空间维数。另外,PCA算法也常用于鉴别与分类。主元个数的选择有各种方法,文献[83]对各种方法进行了综述。

3.1.5 数据增强算法

由于待测物在NIR谱带区间内的绝对吸收强弱不同,在建立多元校正模型时,将光谱的相对变化值与目标函数(如待测物含量)进行关联就显得十分必要。因此,在建立NIR定量或定性模型时,采用一些数据增强算法(data enhancement)[84]来消除多余信息,增加样品间的差异,而提高模型的稳健性和预测能力。常用的算法有均值中心化(mean centering)、标准化(autoscaling)和归一化(normalization)等,其中均值中心化和标准化是最常用的两种方法,在用这两种方法对光谱数据进行处理的同时,往往对目标函数(性质或组成数据)也进行同样的变换。

3.2 变量选择算法

3.2.1 变量投影重要性

变量投影重要性(VIP)[85-86]是基于偏最小二乘回归的一种变量筛选方法,当多个自变量间具有较强相关性时,它通过相关自变量综合的主成分描述了自变量对因变量的解释能力,并根据解释能力的大小筛选自变量。VIP值代表自变量对模型拟合的重要程度,如果各自变量对y的解释作用都相同,则所有自变量的VIP值均为1。如果某自变量回归系数和VIP均较小,意味着该变量对模型的贡献很小,可以考虑剔除。对于VIP相对很大的自变量,它对y的贡献就特别重要。一般取1作为变量筛选的阀值,其他阀值也被提出[87]。

3.2.2 无信息变量消除

无信息变量消除(UVE)是CENTNER等[88]提出的一种基于PLS回归系数b建立的变量选择方法。其基本原理为在原始光谱之后加上人工白噪声信号,再根据噪声信号的重要性确定一阀值,然后将信号中低于此阀值的变量删除,其余变量保留。UVE方法考虑了样本变化对模型的影响,通过加入人工噪声用于变量的选择。近些年,通过引入蒙特卡洛技术[89],发展蒙特卡洛无信息变量消除法[90]。

3.2.3 间隔偏最小二乘法

间隔偏最小二乘(IPLS)法[91]将光谱分为均匀连续波段,然后利用不同波段组合建立偏最小二乘回归模型,并记录模型的预测误差,最后取误差最小组合的波段。IPLS的优点为选择连续的波段而非单个波长进行建模,化学解释性好。此方法的缺点在于难于确定合适的间隔宽度,为此,JIANG与KASEMSUMRAN等[92-93]提出移动窗口偏最小二乘方法(MWPLS)。MWPLS方法采用移动窗口技术,对每个波段进行建模从而选取较低预测误差的波段。

3.2.4 全局最优算法

变量选择可以看作是组合优化问题,因此可以采用优化算法进行解析。目前,全局优化算法包括遗传算法[94-95]、模拟退火算法、粒子群算法、差分进化算法等在变量选择领域得到了较为广泛的应用,这类方法的主要思路为通过一预先设定的目标函数(如预测误差)对在变量空间进行搜索,试图找到最优的变量子集。在上文3.4节中介绍了利用GA-PLS和GA-SVM成功建模的例子,这里不再重复。

3.2.5 模型集群分析变量选择算法

在数据较少的情况下,现有变量选择算法结果容易受样本和变量变化的影响。为了提高模型变量的稳定性与泛化能力,模型集群方法(MPA)被用于优化变量方法。LI等[96]提出了竞争自适应重加权釆样(competitive adaptive reweighted sampling,CARS)方法和XU等[97]提出随机青蛙(random frog)算法。模型集群分析的基本思想为利用蒙特卡洛采样技术,从原始数据中对样本或者变量进行采样,进而得到多个子数据集(sub-dataset),继对每一个子数据集建立子模型(sub-model),从而形成由多个模型构成的模型群(model population),若对这些模型进行统计分析,便可得到感兴趣的参数(如变量重要性)的经验分布。CARS变量选择方法是模仿达尔文进化理论中的“适者生存”原则,在每个迭代步骤中,通过①强制删除,与②自适应重加权采样两个步骤去掉权重较小的变量,得到相应步骤的变量子集,如此迭代,直至变量集中仅含有两个变量为止。然后利用MPA的思想,采取样本随机分组的方法,计算每个变量子集的交互检验误差(RMSECV)的分布,最后选择具有最低平均RMSECV的变量子集作为CARS方法选择的变量集。随机青蛙算法是基于大量序贯采样得到的子模型,计算出每个变量的选择频率,用于评价变量的重要性。另外,随机青蛙算法提供的是一种变量选择思路,可以与回归模型结合做定量分析的变量选择,亦可以与判别模型结合做分类分析。

3.3 建模算法

3.3.1 主元回归

主元回归(PCR)是在主元分析的基础上提出的,是线性回归的一种方法。对于光谱数据,在对光谱数据矩阵进行主元分析(PCA)之后,选定合适的主元个数,然后对主成分和因变量(组成含量)建立回归模型。PCR在NIR光谱分析中得到了广泛的应用[98]。然而,由于在主元分析未考虑因变量的影响,因此,参与建模的主成分对于目标组分有可能是干扰信息,就会降低预测的准确度。考虑到这个因素,偏最小二乘方法是一种更好的方法。

3.3.2 偏最小二乘回归

偏最小二乘回归(PLS)不仅考虑了输入变量(光谱数据)矩阵,而且也考虑了输出变量(组分浓度)矩阵。PLS算法同时压缩输入和输出矩阵,并使其相互正交。也就是说,PLS模型引入了输入变量和输出变量之间的相互关系,其参与建模的主成分消除了不相关的干扰信息。PLS算法在化学计量学[80]中被详细的描述,是目前使用最普遍的NIR和mid-IR建模技术。PLS用于中药组成的NIR光谱分析也被广泛报道,例如黄亚伟等[99]将PLS成功用于NIR光谱测定人参与西洋参的主要皂甙总量,YAN等[31]将PLS算法用于刺梨木多糖组成的测定,刘全等[100]利用PLS算法建立渗漉提取过程分析的中药有效组分NIR光谱快速测定模型。

3.3.3 人工神经网络

人工神经网络(ANN)[101]是基于生物神经元信息传递和处理方式建立的非线性计算模型,主要由神经元通过节点连接,主要包括输入层、输出层和隐藏层三部分。ANN具有自适应、自组织、高度非线性和实时学习等特点[91]。因此,在NIR光谱定量分析中也得到了广泛的应用,杨南林等[64]将ANN、PCR和PLSR等校正方法结合NIR光谱用于冬虫夏草中甘露醇含量的测定,结果表明ANN模型取得了最好的预测结果。LAI等[62]采用ANN和NIR光谱对两类延胡索样品进行了分类建模,取得了较好的预测结果。但是,ANN也存在一定的局限性,例如,在训练中如果使用不当容易产生过拟合现象,导致模型的预测能力降低等。

3.3.4 支持向量回归

支持向量回归(SVR)是支持向量机(support vector machine,SVM)算法中的一类,其基本思想是首先通过核函数将原始数据转化到高维特征空间,然后在高维空间进行线性回归。通过映射,原始空间的非线性问题转化为线性问题。SVR特别适合于样本量少、维数高的非线性问题。目前,支持向量机回归在NIR光谱模式识别和模型校正中得到了广泛的应用。LAI等[62]采用ANN和SVM分别用于NIR光谱对两类延胡索样品的分类建模应用,结果表明,SVM有更好的应用效果。瞿海斌等[63]分别利用SVM、PLS和ANN算法对中药材三七提取液NIR光谱建模,结果表明SVM有更好的回归效果。WANG等[35]结合遗传算法和支持向量机开发的NIR化学计量学建模方法可用同一张谱图同时准确预测结晶过程溶液浓度和颗粒粒度。

4 应用示例

综上所述,NIR建模是一个复杂的过程,要想得到质量好的模型需要不断的重复、验证、分析。模型质量的优劣受多种因素的影响,包括建模所用数据的质量(范围、可靠性等)以及数量、数据的预处理、特征波段选择和建模方法的选取,以及模型的验证和评价等。每一步都至关重要,例如NIR模型校正的实验室化学测量方法的准确度和精密度无疑会对模型有最直接的影响。下面结合一个中药混合物中某成分A的含量的实际应用示例来进一步论述建模过程。

NIR数据总共72组,A的参考值由实验室化学分析方法得到。NIR仪器采用透反射式探头测量数据,采样波数范围为10000~4000cm−1,图4是72组数据的NIR光谱图。

由图4可知,NIR在7500~4000cm−1范围内吸收比较明显,在7500~10000cm−1范围内较为平缓。因为混合物中其他成分吸收峰的影响A的特征吸收峰并不明显。后面经不同的变量选择方法的结果对比之后可以发现,A的有效特征吸收峰在7500~10000cm−1之间,从放大之后的光谱图中可以看到还是有明显的趋势,而不是平缓的。

图4 某中药混合物的NIR光谱图

在建模之前首先要考虑收到样品数据中是否包含有异常数据。从图4中并没有发现明显的异常光谱。进一步的分析是对NIR原始光谱图做PCA数据压缩,绘制PC1-PC2图,见图5(a)。还对原始光谱进行一阶求导预处理之后,再做PCA数据压缩,也绘制了PC1-PC2图,见图5(b)。绘制图5(a)和(b)的目的是对谱图数据在多维空间里的分布情况进行一定的了解。结合原始数据的分析没有发现异常数据,虽然部分数据在95%线以外,如图5(a)中的32、45、57、69、71。

图5 近红外光谱的主元分析

NIR光谱受多种因素的干扰,在建模以前先要进行光谱的预处理。一般预处理的步骤为去噪-基线校正数据增强。不同波数对应的NIR光谱的绝对吸收强度不同,建模一般考虑光谱的相对吸收度,所以需要在建模前对每个波数下的光谱进行增强,最常用的增强方法为标量化(AutoScale)。基线校正虽然不同的方法有不同的功能,在实际使用时还是需要对比不同方法的建模效果。理论上,数据预处理的方法的选择应该和变量选择方法、建模方法一起排列组合进行,然后选择最优的组合。为方便起见,只是将预处理方法结合PLS建模进行数据预处理方法的选择。表5给出了不同基线校正方法的结果对比,结果表明利用Detrend(offset)方法的效果最好。在此基础上对比不同去噪方法及移动窗口的大小对模型的影响(表6和表7),结果表明移动窗口大小为5的一阶求导去噪效果最好。实际上,在一阶求导也具有基线校正的功能,而且与Detrend (offset)算法的效果一致,所以最后确定的建模过程中选用的光谱预处理方法为5点一阶导数和标量化(AutoScale)算法。

对样品数据分为训练数据和验证数据时应考虑采样数据的均匀性。这里用SPXY方法将72组数据分为了训练数据(55组)和验证数据(17组),以之前确定的预处理方法预处理光谱。对比考察的变量选择方法有VIP、MCUVE、CARS、random frog、GA、iPLS、MWPLS,均结合偏最小二乘(PLS)建模,其结果见表8。需要指出的是,所有这些特征波段自动选择的方法还和BP神经网络、支持向量机等建模方法进行了建模考察,结果不如和PLS建模更好,由于篇幅所限,所以这里仅讨论PLS建模的结果。

虽然结果显示GA特征波段选择的交叉验证结果较好,可是它的测试数据的相关系数R2较小以及预测均方根误差RMSEP较大,模型的预测效果一般,主要表现在超过5%误差的数据较多。另外,CARS方法的结果也出现了同样的问题,即交叉验证的结果较好,但是对于验证数据的预测结果却不理想。通过仔细分析CARS和GA这两种方法选择出来的特征波段发现,他们在1400~1600个变量之间(也就是波数4500~4000cm−1)选择了过多的变量,而这部分光谱包含的噪声较多。这使得CARS 和GA出现了过拟合现象。

表5 不同基线校正方法对比

表6 平滑对建模的影响

表7 一阶导数对建模的影响

事实上,random frog较其他算法可以更显著地降低模型对验证数据的预测误差,其方法选择的变量如图6所示。从建模结果(图7)中可以得知该方法下的相对误差超过5%的数据点很少,表明这种变量选择方法较好。另外,由于random frog选择了更少的波段,外延应用效果应该更好,这符合一般波段选择和模型建立的规律,即选择最少的特征波段(引入噪声和无关波段的可能性减少),且误差小的模型往往具有更优秀的预测性能。

表8 分组后变量选择对模型的影响

图6 random frog变量选择方法最终选择的变量

图7 random frog 结合PLS建模结果

总之,在对A的含量NIR建模的过程中,主要考虑了数据预处理、变量选择对建模结果的影响。其中预处理方法主要包括正基线平移和漂移(Detrend、MSC、Baseline、SNV),不同移动窗口下的光滑(smoothing)和一阶求导等。变量选择方法主要包括全波段、VIP算法、MCUVE算法、CARS算法、random frog算法、遗传算法(GA)、间隔PLS算法(IPLS)以及移动窗口PLS算法(MWPLS)等。结果表明,恰当的光谱预处理方法和变量选择方法可以有效的降低模型的预测误差,提高模型的鲁棒性。另外,NIR光谱中存在的部分波段(波数4500~4000)高频噪声比较多,这使得利用全局寻优算法的遗传算法出现了过拟合问题。在选择变量前因注意删除信息量少噪声多的波段。

5 总结与展望

NIR光谱技术具有测量速度快、准确度高和仪器简单方便的特点,在食品、石油化工、生物和制药等各个领域得到了广泛的应用。NIR是目前制药领域应用最为广泛的过程分析技术(PAT),但是在其应用到中药行业时,包括中药保健品领域,有成功也有不成功的例子。中药组成复杂,和化学药相比其生产加工过程具有特殊性,对NIR的成功应用,尤其是化学计量学建模,提出了挑战。本文综述了建立高质量预测模型的方法和步骤,并结合具体事例阐述了用于建模的数据的收集、数据预处理、特征波段选择、各种建模技术以及模型的评估等。还论述了模型的过拟合的概念、模型的外延性、预测可信度空间的刻画、模型再训练等。重点强调了建立高质量模型是一个复杂的,需要在各步骤上经过许多反复的过程。尽管如此,由于现代计算机的高计算速度,只要实现数据流的有效管理、共享和工具的有效集成,随着经验的积累和技术的进步,建模将来完全可以成为一个内部系统高度智能、使用起来高度简单的傻瓜式工具。建模也应该变成一个高度成熟以及在许多步骤上高度自动化的过程,为中药制造业的现代化作出巨大贡献。本文综述的主要是建立定量预测模型的方法,例如用于预测组分组成。但是,还可利用产品的NIR光谱分析原料的产地,例如WANG等[56]根据润滑油的谱图能够正确的推断原油的来源地,其他应用比如判断原料产地或产品的真伪等。此外,也可以直接利用原始NIR谱图或经过处理的谱图直接用于开发多变量质量控制系统(MSPC,multivariate statistical process control)[102-103]。MSPC把历史记录的NIR光谱数据或NIR加其他过程测量数据转换计算成T2和SPE两个控制指标并设立统计控制上限,例如97%。如果实时测量数据超出了T2和SPE,就存在97%的可能性操作出问题了。这也是一个非常有潜力的发挥NIR在线测量方法,但文献还很少,应用也还没有得到足够重视。

参 考 文 献

[1] 王芳. 高效液相色谱在中药研究中的应用进展[J]. 现代中药研究与实践,2002,16(3):44-46.

[2] 王钢力,田金改. X-射线衍射分析法在中药分析中的应用[J]. 中国中药杂志,1999,24(7):387-389.

[3] 易昌华,贺建华. 紫外分光光度法测定中草药提取物中绿原酸的含量[J]. 兽药与饲料添加剂,2004(1):24-25.

[4] 陆德胜,刘翠英,陆英洲. 还原滴定法测定食用菌中多糖的研究[J]. 中国卫生检验杂志,1999(4):260-262.

[5] FDA. Guidance for Industry. PAT——a framework for innovative pharmaceutical development,manufacturing,and quality assurance[EB/OL].http://www.fda.gov/downloads/Drugs//Guidances /ucm070305pdf.

[6] FDA. Pharmaceutical CGMPS for the 21st century - a risk - based approach[EB/OL]. http://www.fda.gov/downloads/Drugs/Development Approval Process/Manufacturing/Questions and Answers on Current Good Manufacturing Practices cGMP for Drugs/UCM176374pdf.

[7] CHALMERS J M. Spectroscopy in process analysis[M]. US:Taylor & Francis,2000.

[8] 成忠,诸爱士,张立庆. 核分段逆回归集成线性判别分析用于质谱数据分类[J]. 分析化学,2008(12):1657-1661.

[9] 方利民,林敏. 基于独立分量和神经网络的近红外多组分分析方法[J]. 分析化学,2008,36(6):815-818.

[10] 褚小立,许育鹏,陆婉珍. 用于近红外光谱分析的化学计量学方法研究与应用进展[J]. 分析化学,2008,36(5):702-709.

[11] 周文婷,林萍,王海霞,等. 近红外光谱技术在中药领域质量评价中的应用[J]. 湖北农业科学,2014(14):3231-3236.

[12] 李洋,吴志生,潘晓宁,等.在线近红外光谱在我国中药研究和生产中应用现状与展望[J]. 光谱学与光谱分析,2014,34(10):2632-2638.

[13] CHAO Z,SU J. Application of near infrared spectroscopy to the analysis and fast quality assessment of traditional Chinese medicinal products[J]. Acta Pharmaceutica Sinica B,2014,4(3):182-192.

[14] 辛海量,胡园,张巧艳,等. 4种牡荆属植物来源生药的近红外漫反射指纹图谱聚类分析[J]. 时珍国医国药,2008,19(12):3037-3038.

[15] 吴拥军,李伟,相秉仁,等. 近红外光谱技术用于白芷类中药的鉴定研究[J]. 中药材,2001,24(1):26-28.

[16] LU J,XIANG B,LIU H,et al. Application of two-dimensional near-infrared correlation spectroscopy to the discrimination of Chinese herbal medicine of different geographic regions[J]. Spectrochimica Acta Part A:Molecular & Biomolecular Spectroscopy,2008,69(2):580–586.

[17] LI W,XING L,CAI Y,et al. Classification and quantification analysis of Radix scutellariae from different origins with near infrareddiffusereflectionspectroscopy[J].Vibrational Spectroscopy,2011,55(1):58-64.

[18] MENG Y,WANG S,CAI R,et al. Discrimination and content analysis of fritillaria using near infrared spectroscopy[J]. Journal of Analytical Methods in Chemistry,2015,2015(1):101-124.

[19] 赵龙莲,张录达,李军会,等. 小波包熵和Fisher判别在近红外光谱法鉴别中药大黄真伪中的应用[J]. 光谱学与光谱分析,2008,28(4):817-820.

[20] CHAN C O,CHU C C,CHAU F T,et al. Analysis of berberine and total alkaloid content in Cortex Phellodendri by near infrared spectroscopy (NIRS) compared with high-performance liquid chromatography coupled with ultra-visible spectrometric detection[J]. Analytica Chimica Acta,2007,592(2):121-131.

[21] ROGGO Y,CHALUS P,MAURER L,et al. A review of near infrared spectroscopy and chemometrics in pharmaceutical technologies[J]. Journal of Pharmaceutical and Biomedical Analysis,2007,44(3):683-700.

[22] VERMERRIS W,ABRIL A. Enhancing cellulose utilization for fuels and chemicals by genetic modification of plant cell wall architecture[J]. Current Opinion in Biotechnology,2015,32:104-112.

[23] WU Y,JIN Y,DING H,et al. In-line monitoring of extraction process of scutellarein from Erigeron breviscapus (vant.) Hand-Mazz based on qualitative and quantitative uses of near-infrared spectroscopy[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2011,79(5):934-939. [24] RAY A,SAYKHEDAR S,AYOUBI-CANAAN P,et al. Phanerochaete chrysosporium produces a diverse array of extracellular enzymes when grown on sorghum[J]. Applied Microbiology and Biotechnology,2012,93(5):2075-2089.

[25] YE J,DING H,LIU X,et al. Investigation of an on-line detection method combining near infrared spectroscopy with local partial least squares regression for the elution process of sodium aescinate[J]. Spectrochimica Acta Part a:Molecular & Biomolecular Spectroscopy,2013,109(4):68-78.

[26] ZENG S,TENG C,LU W,et al. Monitoring batch-to-batch reproducibility using direct analysis in real time mass spectrometry and multivariate analysis:a case study on precipitation[J]. Journal of Pharmaceutical & Biomedical Analysis,2013,76(6):87-95.

[27] MIYANO T,KANO M,TANABE H,et al. Spectral fluctuation dividing for efficient wavenumber selection:application to estimation of water and drug content in granules using near infrared spectroscopy[J]. International Journal of Pharmaceutics,2014,475(s1/s2):504-513.

[28] Howland H,HOAG S W. Analysis of curing of a sustained release coating formulation by application of NIR spectroscopy to monitor changes physical–mechanical properties[J]. International Journal of Pharmaceutics,2013,452(s1/s2):82-91.

[29] PESTIEAU A,KRIER F,THOORENS G,et al. Towards a real time release approach for manufacturing tablets using NIRspectroscopy[J]. Journal of Pharmaceutical & Biomedical Analysis,2014,98(10):60-67.

[30] MOU H,WANG X,LV T,et al. On-line dissolution determination of Baicalin in solid dispersion based on near infrared spectroscopy and circulation dissolution system[J]. Chemometrics & Intelligent Laboratory Systems,2011,105(1):38-42.

[31] YAN H,HAN B X,WU Q Y,et al. Rapid detection of Rosa laevigata polysaccharide content by near-infrared spectroscopy[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2011,79(1):179-184.

[32] 刘冰,刘振尧,朱乾华,等. 近红外光谱法同时测定黄芪精口服液中黄芪多糖和黄芪甲苷的含量[J]. 分析科学学报,2011(2):195-198.

[33] JIN Y,DING H,LIU X,et al. Investigation of an on-line detection method combining near infrared spectroscopy with local partial least squares regression for the elution process of sodium aescinate[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2013,109:68-78.

[34] 白雁,龚海燕,宋瑞丽,等. 近红外漫反射光谱法快速测定山药药材中多糖的含量[J]. 中成药,2010(1):110-112.

[35] MA C Y,WANG X Z. Simultaneous characterization of multiple properties of solid and liquid phases in crystallization processes using NIR[J]. Particuology,2011,9(6):589-597.

[36] CHEN J,WANG X Z. A new approach to near-infrared spectral data analysis using independent component analysis[J]. Journal of Chemical Information and Computer Sciences,2001,41(4):992-1001.

[37] 杨丽,李菁,刘翠红,等. AOTF 近红外光谱技术在淫羊藿浓缩过程在线检测中的应用[J]. 中国医药导报,2014,11(24):1111-1114.

[38] 许定舟,李菁,刘翠红,等. AOTF 近红外光谱技术在淫羊藿提取过程在线检测中的应用[J]. 中国当代医药,2014,21(23):4-10.

[39] CHEN Z P,MORRIS J,MARTIN E. Correction of temperature induced spectral variations by loading space standardization[J]. Analytical Chemistry,2005,77(5):1376-1384.

[40] 闵顺耕,李宁,张明祥. 近红外光谱分析中异常值的判别与定量模型优化[J]. 光谱学与光谱分析,2004,24(10):1205-1209.

[41] CHEN F Z,WANG X Z. Software sensor design using Bayesian automatic classification and back-propagation neural networks[J]. Industrial & Engineering Chemistry Research,1998,37(10):3985-3991.

[42] WANG X Z. Data mining and knowledge discovery for process monitoring and control[M]. London,New York:Springer,1999.

[43] KENNARD R W,STONE L A. Computer aided design of experiments[J]. Technometrics,1969,11(1):137-148.

[44] DING H Y,JIN Y,LIU X S,et al. On-line monitoring of traditional Chinese medicinal powder blending process by using near-infrared spectroscopy[J]. Chinese Pharmaceutical Journal,2013,48(14):1151-1156

[45] LI W L,WANG Y F,QU H B. Near infrared spectroscopy as a tool for the rapid analysis of the Honeysuckle extracts[J]. Vibrational Spectroscopy,2012,62(9):159-164.

[46] 蔡绍松,武卫红,王宁,等. 黄芪水提液浓缩过程的AOTF-近红外光谱法在线分析[J]. 中国医药工业杂志,2008,39(7):527-529.

[47] 章顺楠,杨海雷,刘占强,等. 近红外光谱法在线监测复方丹参滴丸料液中有效成分含量[J]. 药物分析杂志,2009(2):192-196.

[48] KANG Q,RU Q,LIU Y,et al. On-line monitoring the extract process of Fu-fang Shuanghua oral solution using near infrared spectroscopy and different PLS algorithms[J]. Spectrochimica Acta Part A:Molecular & Biomolecular Spectroscopy,2015,152:431-437.

[49] WANG M,ZHENG K,YANGG,et al. A robust near-infrared calibration model for the determination of chlorophyll concentration in tree leaves with a calibration transfer method[J]. Analytical Letters,2015,48(11):1707-1719.

[50] ZHANG C H,YUN Y H,FAN W,et al. Rapid analysis of polysaccharides contents in Glycyrrhiza by near infrared spectroscopy and chemometrics[J]. International Journal Of Biological Macromolecules,2015,79:983-987.

[51] LI R F,WANG X Z. Dimension reduction of process dynamic trends using independent component analysis[J]. Computers & Chemical Engineering,2002,26(3):467-473.

[52] LI R F,WANG X Z,ABEBE S B. Monitoring batch cooling crystallization using NIR:development of calibration models using genetic algorithm and PLS[J]. Particle & Particle Systems Characterization,2008,25(4):314-327.

[53] VENKAT V,CHAN K. A neural network methodology for process fault diagnosis[J]. AIChE Journal,1989,35(12):1993–2002.

[54] TETKO I V,LIVINGSTONE D J,LUIK A I. Neural network studies. 1. Comparison of overfitting and overtraining[J]. Journal of Chemical Information & Computer Sciences,1995,35(5):826-833.

[55] SHAO R,MARTIN EB,ZHANG J,et al. Confidence bounds for neural network representations[J]. Computers & Chemical Engineering,1997,21:S1173-S1178.

[56] WANG X Z,CHEN B H. Clustering of infrared spectra of lubricating base oils using adaptive resonance theory[J]. Journal of Chemical Information and Computer Sciences,1998,38(3):457-462.

[57] WANG X Z,CHEN B H,YANG S H,et al. Application of wavelets and neural networks to diagnostic system development,2,an integrated framework and its application[J]. Computers & Chemical Engineering,1999,23(7):945-954.

[58] 王远,秦民坚,等. 近红外漫反射光谱法测定麦冬的多糖含量[J].光谱学与光谱分析,2009,29(10):4.

[59] 王溪,查晓清,吴昊,等. 基于小波包变换的云芝蛋白和多糖的近红外光谱分析[J]. 时珍国医国药,2010,10:2.

[60] CHEN Y,XIE M,LI W,et al. An effective method for deproteinization of bioactive polysaccharides extracted from Lingzhi (Ganoderma atrum)[J]. Food Science and Biotechnology,2012,21 (1):191-198.

[61] SHAO Q S,ZHANG A L,Ye W W,et al. Fast determination of two atractylenolides in Rhizoma Atractylodis Macrocephalae by Fourier transform near-infrared spectroscopy with partial least squares[J]. Spectrochimica Acta Part A:Molecular & Biomolecular Spectroscopy,2014,120(120C):499-504.

[62] LAI Y,NI Y,KOKOT S. Discrimination of Rhizoma Corydalis from two sources by near-infrared spectroscopy supported by the wavelet transform and least-squares support vector machine methods[J]. Vibrational Spectroscopy,2011,56(2):154-160.

[63] 瞿海斌,刘晓宣,程翼宇. 中药材三七提取液近红外光谱的支持向量机回归校正方法[J]. 高等学校化学学报,2004,25(1):39-43.

[64] 杨南林,程翼宇,瞿海斌. 用人工神经网络——近红外光谱法测定冬虫夏草中的甘露醇[J]. 分析化学,2003,31(6):664-668.

[65] NI Y,SONG R,KOKOT S. Discrimination of Radix Isatidis and Rhizoma et Radix Baphicacanthis Cusia samples by near infrared spectroscopy with the aid of chemometrics[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2012,96:252-258.

[66] CHEN X,WU D,HE Y,et al. Nondestructive differentiation of panax species using visible and shortwave near-infrared spectroscopy[J]. Food and Bioprocess Technology,2011,4(5):753-761.

[67] CHEN Q,JIANG P,ZHAO J. Measurement of total flavone content in snow lotus (Saussurea involucrate) using near infrared spectroscopy combined with interval PLS and genetic algorithm[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2010,76(1):50-55.

[68] CHEN Y,XIE M,ZHANG H,et al. Quantification of total polysaccharides and triterpenoids in Ganoderma lucidum and Ganoderma atrum by near infrared spectroscopy and chemometrics[J]. Food Chemistry,2012,135(1):268-275.

[69] 刘爽悦,李文龙,瞿海斌,等. 基于近红外光谱的丹红注射液提取过程质量在线检测方法研究[J]. 中国中药杂志,2013,38(11):1657-1662.

[70] 陈雪英,李页瑞,陈勇,等. 近红外光谱分析技术在赤芍提取过程质量监控中的应用研究[J]. 中国中药杂志,2009,34(11):1355-1358.

[71] KAWANO S,FUJIWARA T,IWAMOTOM. Nondestructive determination of sugar content in satsuma mandarin using near infrared (NIR) transmittance[J]. Engei Gakkai Zasshi,1993,62(2):465-470.

[72] KAWANO S,WATAABE H,IWAMOTO M. Determination of sugar content in intact peaches by near infrared spectroscopy with fiber optics in interactance mode[J]. Engei Gakkai Zasshi,1992,61(2):445-451.

[73] 何东健,前川孝昭,森岛博. 水果内部品质在线近红外分光检测装置及试验[J]. 农业工程学报,2001,17(1):146-148.

[74] 何勇,李晓丽,邵咏妮. 基于主成分分析和神经网络的近红外光谱苹果品种鉴别方法研究[J]. 光谱学与光谱分析,2006,26(5):850-853.

[75] BRUUN S W,SØNDERGAARD I,JACOBSE S. Analysis of protein structures and interactions in complex food by near-infrared spectroscopy. 1. Gluten powder[J]. Journal of Agricultural & Food Chemistry,2007,55(18):7234-7243.

[76] WU Z,XU E,WANG F,et al. Rapid determination of process variables of chinese rice wine using FT-NIR spectroscopy and efficient wavelengths selection methods[J]. Food Analytical Methods,2015,8(6):1456-1467.

[77] 吴玉萍,杨宇虹,晋艳,等. 近红外光谱法快速测定烤烟漂浮育苗基质中的有机质和水分[J]. 中国烟草科学,2008,29(4):15-17.

[78] 张建平,谢雯燕. 烟草化学成分的近红外快速定量分析研究[J].烟草科技,1999(3):37-38.

[79] 王东丹,张承聪. 近红外光谱分析技术在烟草化学分析上的应用研究[J]. 云南大学学报(自然科学版),2001,23(2):135-137.

[80] 梁逸曾,吴海龙. 化学计量学[J]. 现代科学仪器,1998,(5):3-6.

[81] SHAO X,PANG C,SU Q. A novel method to calculate the approximate derivative photoacoustic spectrum using continuous wavelet transform[J]. Fresenius' Journal of Analytical Chemistry,2000,367(6):525-529.

[82] 戈培林. 化学计量学实用指南[M]. 北京:科学出版社,2012.

[83] VALLE S,LI W H,QIN S J. Selection of the number of principal components:the variance of the reconstruction error criterion with a comparison to other methods[J]. Industrial & Engineering Chemistry Research,1999,38(11):4389-4401.

[84] JEROME J,WORKMAN JR,PAUL R,et al. Review of chemometrics applied to spectroscopy:1985-95,Part I[J]. Applied Spectroscopy Reviews,1996,31(31):73-124.

[85] OUSSAMA A,ELABADI F,PLATIKANOV S,et al. Detection of olive oil adulteration using FT-IR spectroscopy and PLS with variable importance of projection (VIP) scores[J]. Journal of the American Oil Chemists' Society,2012,89(10):1807-1812.

[86] LU B,CASTILLO I,CHIANG L,et al. Industrial PLS model variable selection using moving window variable importance in projection[J]. Chemometrics and Intelligent Laboratory Systems,2014,135:90-109.

[87] TIMMERMAN H,MANNHOLD R,KROGSGAARD-LARSEN P,et al. Chemometric methods in molecular design[M]. New York:John Wiley & Sons,2008.

[88] CENTNER V,MASSART D L,DE NOORD OE,et al. Elimination of uninformative variables for multivariate calibration[J]. Analytical Chemistry,1996,68(21):3851-3858.

[89] XU Q S,LIANG Y Z. Monte Carlo cross validation[J]. Chemometrics and Intelligent Laboratory Systems,2001,56(1):1-11.

[90] CAI W,LI Y,SHAO X. A variable selection method based on uninformative variable elimination for multivariate calibration of near-infrared spectra[J]. Chemometrics and Intelligent Laboratory Systems,2008,90(2):188-194.

[91] NORGAARD L,SAUDLAND A,WAGNER J,et al. Interval partial least-squares regression (iPLS):a comparative chemometric study with an example from near-infrared spectroscopy[J]. Applied Spectroscopy,2000,54(3):413-419.

[92] JIANG J H ,BERRY R J,SIESLER H W,et al. Wavelength interval selection in multicomponent spectral analysis by moving window partial least-squares regression with applications to mid-infrared and near-infrared spectroscopic data[J]. Analytical Chemistry,2002,74 (14):3555-3565.

[93] KASEMSUMRAN S,DU Y,MURAYAMA K,et al. Near-infrared spectroscopic determination of human serum albumin,γ-globulin,and glucose in a control serum solution with searching combination moving window partial least squares[J]. Analytica Chimica Acta,2004,512(2):223-230.

[94] JONES G,WILLETT P,GLEN R C,et al. Development and validation of a genetic algorithm for flexible docking[J]. Journal of Molecular Biology,1997,267(3):727-748.

[95] HAUPT R L,HAUPT S E. Practical genetic algorithms[M]. New York:John Wiley & Sons,2004.

[96] LI H,LIANG Y,XU Q,et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J]. Analytica Chimica Acta,2009,648(1):77-84.

[97] LI H D,XU Q S,LIANG Y Z. Random frog:an efficient reversible jump Markov chain Monte Carlo-like approach for variable selection with applications to gene selection and disease classification[J].Analytica Chimica Acta,2012,740:20-26.

[98] OTSUKA M. Comparative particle size determination of phenacetin bulk powder by using Kubelka–Munk theory and principal component regression analysis based on near-infrared spectroscopy[J]. Powder Technology,2004,141(3):244-250.

[99] 黄亚伟,王加华,韩东海,等. 近红外光谱测定人参与西洋参的主要皂甙总量[J]. 分析化学,2011,39(3):377-381.

[100] 刘全,瞿海斌,程翼宇. 用于渗漉提取过程分析的中药有效组分近红外光谱快速测定法[J]. 化工学报,2003,54(11):1586-1591.

[101] 朱大奇,史慧. 人工神经网络原理及应用[M]. 北京:科学出版社,2006.

[102] KONA R,QU H,MATTES R,et al. Application of in-line near infrared spectroscopy and multivariate batch modeling for process monitoring in fluid bed granulation[J]. International Journal of Pharmaceutics,2013,452(1/2):63-72.

[103] HUANG H,QU H. In-line monitoring of alcohol precipitation by near-infrared spectroscopy in conjunction with multivariate batch modeling[J]. Analytica Chimica Acta,2011,707(1-2):47–56.

[104] 陆婉珍. 现代近红外光谱分析技术[M]. 北京:中国石化出版社,2007.

Development of chemometric modelling in the application of NIR to the quality control of Chinese herbal medicine:literature review and future perspectives

ZHOU Zhaolu1,LI Jie1,HUANG Shengquan2,TIAN Shuhua3,LIU Yujiao3,LU Liang2,ZHANG Yang1,HUANG Yansheng2,WANG Xuezhong1
(1School of Chemistry and Chemical Engineering,South China University of Technology,Guangzhou 510640,Guangdong,China;2Infinitus(China),Guangzhou 510623,Guangdong,China;3Pharmavision(Qingdao)Intelligent Technology Ltd.,Qingdao 266109,Shandong,China)

Abstract:Near infrared spectroscopy (NIR) is currently the most widely used Process Analytical Technology (PAT) in the pharmaceutical industrial. It's application in the quality control of Chinese herbal medicines has also attracted much attention in recent years. Chinese herbal medicines are often very complex in composition,and the production processes are distinctive from that for pharmaceutical chemicals. As a result,the use of NIR in the Chinese herbal medicine domain faces major challenges,in particular in chemometric model development. This paper provides a review of chemometricmethods for NIR model development with the focus on NIR application in on-line quality control in the production of Chinese herbal medicines. The topics include calibration data collection,pre-processing,selection of data for model development and validation,and wave number selection,as well as model building and performance assessment. It is emphasized that construction of models with good performance should be an iterative process integrating spectral pre-processing (e.g. smoothing,derivative method,standardized algorithm,data enhancement algorithm,and principal component analysis),wave number selection (e.g. genetic algorithm,random frog) and linear and nonlinear model construction algorithms (e.g. partial least squares,neural networks and support vector machines). A future platform is envisaged as one that shares data and integrates sophisticated algorithms in the background and presents users with friendly,easy to use,intelligent and semi-automated interfaces. Review and discussions has been made based on practical case studies.

Key words:near infrared spectroscopy;Chinese medicines;quality control;chemometric

中图分类号:TQ 460.6+3

文献标志码:A

文章编号:1000–6613(2016)06–1627–19

DOI:10.16085/j.issn.1000-6613.2016.06.004

收稿日期:2016-03-01;修改稿日期:2016-03-18。

猜你喜欢
质量控制中药
是药三分毒,滥用中药有风险
中药久煎不能代替二次煎煮
您知道吗,沉香也是一味中药
中医,不仅仅有中药
中药的“人事档案”
中药贴敷治疗足跟痛
浅谈机车总风缸的制作质量控制
浅谈在公路桥梁施工环节的质量管理及控制
浅谈石灰土基层施工及质量控制
黄土路基台背回填的质量控制