李文龙, 薛东升, 刘绍勇, 瞿海斌*
(1.浙江大学药物信息学研究所,浙江杭州310058;2.上海凯宝药业有限公司,上海201418)
痰热清注射液是由黄芩、熊胆粉、山羊角、金银花、连翘五味药材的提取物制得。具有抗病毒、抑菌、抗炎、解热、祛痰镇咳等作用,主要用于治疗肺炎、早期肺癌,急慢性支气管炎以及上呼吸道感染等疾病[1-2],在抗击非典和甲型流感方面药效显著。在痰热清注射液的制剂过程中,总混液是将5类中药材提取物全部混合后的一类重要的中间体,其质量对最终产品的品质有着决定性的影响,因此必须对其进行较为严格的质量控制。但总混液在整个生产流程中存在时间较短,而传统的分析方法耗时较长,难以满足快速判别的要求,因此,有必要发展一种能够对总混液,特别是其两个重要的特征参数:浓度和pH值进行快速判别的技术。文献[3-4]报道利用紫外光谱结合支持向量机分类方法对清开灵注射液四混体和六混体的质量进行鉴别,对解决类似问题有较好的借鉴意义。本试验尝试采用近红外光谱作为工具,采用SIMCA判别分析方法,实现了对不同浓度和pH值的总混液的快速识别,结果满意。
1.1 仪器设备及数据处理软件 Antaris MX FTNIR(Thermo Fisher公司,美国),配备手持式光纤探头采样装置,RESULT 3.0光谱采集软件。数据处理采用TQ Analyst V8.0化学计量学软件。
1.2 实验设计 从痰热清注射液生产线上取总混液300 mL,60℃下旋转蒸发,浓缩至150 mL(pH值约为7.3),置于大烧杯中,按照图1所设计的3种途径,不断加入注射用水稀释样品,同时不断加入10%的NaOH溶液调高样品的pH值,最终将样品稀释至600 mL,pH值调至约8.7。调制过程中,在溶液中插入pH计和近红外透反射探头,原位记录溶液pH值数值变化,同时采集近红外光谱。图1中共有9格,每一格代表一类样品(格内的第1个字母描述溶液浓度,第2个字母描述溶液pH值,H,M,L分别表示高,中,低),高浓度低pH值的样品分别经由1,2,3三种途径调制为低浓度、高pH值的样品。
图1 9种不同类型样品的配制方法Fig.1 The preparing method for the 9 different kinds of samples
1.3 光谱采集方法 利用Antaris MX FT-NIR光谱仪手持式光纤探头采样装置的透反射模式采集光谱,将探头插入溶液,每次稀释溶液和加入NaOH溶液后,充分搅拌溶液,测定其pH值,待pH值稳定后采集其近红外光谱,近红外光谱仪的工作参数设置为:以仪器内置背景为参比,扫描次数为64次,分辨率为8 cm-1,增益为1×,光谱扫描范围为10 000~4 000 cm-1。每组实验重复3次,共得到9种不同类型的样品共计200份,近红外光谱叠加图如图2所示。
图2 样品的近红外光谱图叠加图Fig.2 The NIR spectra of the tested samples
1.4 数据处理方法 SIMCA(Soft Independent Modeling of Class Analogy)方法是目前应用较为广泛的一类模式识别方法[5-10],这种方法实质上是主成分分析(PCA)和马氏距离的结合应用。它首先对样品的光谱数据矩阵进行PCA,目的是将数据降维,用较少的变量去解释原来资料中的大部分变异,以消除众多信息共存中相互重叠的信息部分。使用PCA压缩后的光谱数据代替原始光谱数据计算马氏距离,不仅能反映全谱数据信息,而且也能压缩参加计算马氏距离的变量数,并能保证矩阵不存在共线问题。该方法的具体实现方法可参阅文献[11]。本试验采用TQ analyst V8.0数据处理软件中的Discriminant analysis功能对所得样品光谱进行处理,这一功能先对样品光谱进行预处理和PCA,然后设定合适的马氏距离阈值,判断样品所属的类型。选择所得光谱中132份样品组成校正集,其余68份样品作为验证集。利用验证集对模型的稳定性进行外部检验,来评价模型对样品预测的性能。
2.1 光谱预处理方法 所得近红外光谱中不仅包含有效信息,还包括由于散射效应引起的光谱偏差和噪音信号,这些干扰导致直接采用原始光谱建模效果不理想,因此必须对光谱进行预处理[12]。不同的光谱预处理方法对模型预测的准确度影响较大,本文比较了多元散射校正(MSC),标准正则变换(SNV),S-G(Savitzky-Golay filter)平滑,Nd(Norris derivative filt)平滑,1stD(1阶求导),2ndD(2阶求导)等光谱预处理方法,以判别分析的准确度为判据,不同光谱预处理方法所建模型的预测准确度列于表1中,经过比较,选用SNV+S-G+1stD组合对原始光谱进行预处理,其中S-G平滑采用7点3阶平滑。
表1 不同光谱预处理方法对所得模型预测准确度的影响Table 1 The influence of different spectra pretreated methods to the predictive accuracy of the established models
2.2 模型建立 对预处理后的近红外光谱进行PCA,前两个主成分的累积方差贡献率达到93.2%,所以可以认为样本点在PC1-PC2二维平面上的投影分布可以充分表征样本在超维空间中的分布特征。所得PC1-PC2的散点图如图3所示,由图3可以看出,各类不同样品的数据点得到聚合,界限明显,可以将校正集中的9类样品进行明确分类,表明所选择的光谱预处理方法和分类方法是有效的。图3中位于椭圆内的数据点代表正常状态下的总混液(MM),浓度和pH都在正常范围内,其余类型的数据点代表其他不同状态的总混液。实验设计中3种调制途径可以在图3中得到清晰的反映。
图3 SIMCA模型对校正集样品的分类结果Fig.3 The classification result of the samples in the calibration set with SIMCA method
2.3 模型的验证 对各类样品设定合适的马氏距离阈值作为判别标准,利用所建的SIMCA判别分析模型对验证集样品进行判断,验证集的68份样品中,64份样品得到了准确分类,准确率为94.1%。未能准确分类的样品均处于相邻类型样品的交界处,难以进行明确分类。验证集中各类样品的真实个数和判别分析得到的个数如图4所示,图4中可见,模型对正常样品(MM)识别的准确率为100%。另取实际生产过程中的样品12份,采用所建模型进行判别,判断结果均为正常样品(MM),表明痰热清注射液配液生产过程中总混液的质量总体来说是较为稳定的。
图4 验证集中各类样品的真实个数和模型判别得到的个数统计图Fig.4 The actual and predicted numbers of different samples in the validation set
近红外光谱的吸收强度实质上反映的是待测物质中各种化学成分的含量,对于痰热清总混液这一特定的分析对象而言,样品的稀释倍数和溶液的pH值变化都会引起溶液中各种成分的变化,因而可在近红外光谱上得到反映。本试验提出的基于近红外光谱的痰热清注射液中间体的判别分析方法不仅可以快速判断出样品是否处于正常状态,而且可以判断不正常样品的问题所在,从而能够实现样品状态的快速判断,并通过及时调整稀释倍数和NaOH溶液的加入量,确保中间体处于正常状态,对生产起到一定的指导作用。
[1]Wu Taixiang,Yang Xunzhe,Zeng Xiaoxi,et al.Traditional Chinese medicine in the treatment of acute respiratory tract infections[J].Respir Med,2008,102(8):1093-1098.
[2]于 强.痰热清注射液临床应用近况[J].时珍国医国药,2007,18(4):990-993.
[3]朱向荣,李 娜,史新元,等.支持向量机与紫外光谱法用于鉴别清开灵注射液六混中间体[J].光谱学与光谱分析,2008,28(7):1626-1629.
[4]朱向荣,李 娜,史新元,等.最小二乘支持向量机算法与紫外光谱法用于鉴别清开灵注射液四混中间体[J].分析化学,2008,28(6):770-774.
[5]褚小立,袁洪福,陆婉珍.光谱结合主成分分析和模糊聚类方法的样品聚类与识别[J].分析化学,2000,28(4):421-427.
[6]王家俊,汪 帆,马 玲.SIMCA分类法与PLS结合近红外光谱应用于卷烟纸质量控制[J].光谱学与光谱分析,2006,26(10):1858-1862.
[7]杨 忠,江泽慧,费本华,等.SIMCA法判别分析木材生物腐朽的研究[J].光谱学与光谱分析,2007,27(4):686-690.
[8]陈 斌,邹贤勇,朱文静.PCA结合马氏距离法剔除近红外异常样品[J].江苏大学学报:自然科学版,2008,29(4):278.
[9]Woo Y,Cho C,Kim H,et al.Classification of cultivation area of ginseng by near infrared spectroscopy and ICP-AES[J].Microchem J,2002,73:299.
[10]Woo Y,Kim H,Ryon K,et al.Near-infrared(NIR)spectroscopy for the non-destructive and fast determination of geographical origin of Angelicae gigantis Radix[J].J Pharm Biomed Anal,2005,36:955.
[11]陈全胜,赵杰文,张海东,等.SIMCA模式识别方法在近红外光谱识别茶叶中的应用[J].食品科学,2006,27(4):186-189.
[12]褚小立,袁洪福,陆婉珍.近红外分析中光谱预处理及波长选择方法进展与应用[J].化学进展,2004,16(4):528-542.