孙全昌,杨 明,候华毅
光学信息与模式识别湖北省重点实验室(武汉工程大学),湖北 武汉430205
在许多中低收入国家,疟疾仍然是一个主要的公共卫生问题,全球有十亿以上人处于疟疾高风险中[1-2]。20世纪70年代,屠呦呦从青蒿中分离得到一种含有过氧基团的倍半萜内酯药物——青蒿素,并因该重大发现获得2015年诺贝尔医学奖[3]。从此之后,青蒿素在抗击疟疾特别是对于脑部疟疾和耐氯喹的疟疾中发挥了至关重要的作用[4]。
优质的青蒿素才能有效地治疗疟疾[5]。不幸的是,在很多低收入和中等收入国家的市场上出现了各种假冒伪劣青蒿素药物[6-8]。劣质青蒿素不仅导致发病率和死亡率的增长,也导致了疟疾耐药性的增加[9-11]。因此,劣质青蒿素的普遍存在对医护人员来说是一个巨大的挑战,发展一种快速鉴别和筛选青蒿素品质的分析技术对于提高抗疟药的质量有重要的作用。目前,筛选药物质量有多种分析方法,包括高效液相色谱(high performance liquid chromatography,HPLC)[12-14]、毛细管电泳法和光谱法等[15-17]。其中,HPLC被视为标准分析方法。尽管HPLC灵敏度高且可以提供样品的综合信息,但是HPLC仪器的维护和操作以及结果的分析都需要大量的人力和技术支持。此外,样品的制备和分析费时又费钱。因此,在中低收入国家/地区使用HPLC进行青蒿素的大范围质量筛查不切实际。
近红外光谱和拉曼光谱技术具有高通量、高精度、快速分析和不需要样品制备等优点[15-17],在资源匮乏的国家具有极大的优势和应用潜力[18-19]。已经证明,拉曼光谱比红外光谱在药物鉴定和劣质药物区分方面具有更大的优势。在本文中,我们通过拉曼光谱联合正交偏最小二乘法判别分析(orthogonal projections to latent structuresdiscriminant analysis,OPLS-DA)进行青蒿素鉴定和不同纯度的青蒿素样品鉴别。结果表明该方法在青蒿素鉴定方面具有较强的发展前景,对于实际应用中的青蒿素质量评估具有积极的意义。
在相同条件下研究了6种不同纯度的青蒿素样 品(A:97.87%,B:97.97%,C:98.12%,D:98.73%,E:99.29%,F:99.60%标准参考样品)。样品A到E购自上海麦克林生物化学技术有限公司,样品F购自国药生物科技有限公司。所有样品的纯度均通过HPLC分析得到(Agilent 1260,美国;色谱柱:Eclipse Plus C18色谱柱,4.6 mm×250 mm,5μm;V(流动相)∶V(甲醇-水)(75∶25);流速:1 mL/min;柱温:25℃;检测波长:205 nm)。在实验中,将每100 mg初始样品转移至定制的压片机中制成压片样品,用于拉曼实验。
青蒿素样品的拉曼光谱是通过XperRam200光谱仪(Nanobase公司,韩国)获得,该光谱仪连接Olympus BX41M-LED显微镜(50X物镜,NA=0.55)。激光器的波长为532 nm,样品表面的激光功率约为3 mW,光斑尺寸约为2μm。光谱采集波数范围为100~1 950 cm-1,采集时间为20 s。通过使用Si衬底的521 cm-1声子模式对所有光谱进行波数校正。
使用Origin 8.5(OriginLab公司,美国)进行原始拉曼光谱的基线校正,平滑和归一化。基线校正的方法采用自适应迭代惩罚最小二乘法(adaptive iteratively reweighted penalized least squares,AIR-PLS),这是一种无需任何干预和初始信息即可对拉曼光谱进行基线校正的新颖算法。利用SIMCA软件v.14.1(Umetrics公司,瑞典)进行OPLS-DA分析。正交偏最小二乘法(orthogonal projections to latent structures,OPLS)是偏最小二乘法(partial least squares,PLS)的扩展,在查找特定样本和数据集变量的相关性方面优势明显[20-21]。当变量具有高度相关性时,OPLS优于PLS。本文中由于青蒿素样品彼此之间具有高度的相关性,差异主要是纯度不同,因此我们选择OPLS-DA方法。青蒿素样品的分类直接通过OPLS-DA模型的主成分评分反映出来,其鲁棒性和可靠性通过3个参数R2X(cum),R2Y(cum)和Q2(cum)进行评估。R2X(cum)和R2Y(cum)分别表示所有提取分量所解释的x变量和y变量的平方和的积累,Q2(cum)为提取的分量预测的所有x变量和y变量的分数。使用SPSS 19.0软件进行统计分析,通过单因素方差分析(one-way anova)分类变量,概率值(P值)为双侧,且P≤0.05值被认为具有统计学意义。
图1显示了样品F(标准参考样品)的拉曼光谱图。青蒿素(C15H22O5)是一种具有独特化学结构的内过氧化物倍半萜烯内酯。青蒿素分子具有C1对称性,其结构如图1所示。它包含4个环:环戊内酯,双环三恶烷,环己烷和甲基取代基。青蒿素分子中有5个氧原子其中2个(O1和O2)在三恶烷环中形成独特的过氧桥键。研究表明,青蒿素中的过氧桥键在抗疟疾活性中起着至关重要的作用[20-22]。因此,研究与过氧桥键相关的拉曼峰对青蒿素样品的质量筛选尤为重要。
具有C1对称性的青蒿素分子的全部120个振动模式,全部为拉曼活性模式[23]。图1中的青蒿素光谱可分为3部分:第1部分200~900 cm-1显示强带;第2部分900~1 400 cm-1包含较弱的带;第3部分1 500~2 000 cm-1仅有3种明显振动模式。青蒿素的振动模式分配已经通过实验研究和理论计算完成[25-29]。然而,由于青蒿素分子结构比较复杂,过氧桥键的拉曼振动模式没有定论。实验研究表明,在724 cm-1处的振动模式与过氧桥键的振动直接相关[28-29]。然而理论计算表明,724 cm-1处振动模式只与过氧桥键间接相关,与过氧桥键直接相关的振动模式主要在800~950 cm-1范围内[25-27]。因此综合实验研究和理论计算与过氧桥键直接相关的振动模式应在700~950 cm-1的光谱范围内,因此本文在该光谱范围的拉曼光谱上进行OPLS-DA建模。在OPLS-DA建模中,共分析了120个振动模式。对于每个不同纯度的样品,测量20个随机点的拉曼光谱。图2(a)和图2(b)分别显示了二维和三维OPLS-DA得分图。该模型获得了R2X(cum)=0.952,R2Y(cum)=0.767和Q2(cum)=0.624的良好质量参数。这三个值均大于0.6,表明该模型具有良好的拟合度和较高的预测能力。另外,使用排列测试(排列数量为200)来验证和评估模型的性能,结果如图2(c)所示。原始OPLS-DA模型的R2Y(cum)和Q2(cum)值大于置换模型的所有R2Y和Q2值,这表明原始模型具有较高的预测能力。R2Y和Q2的截距分别为0.267和0.311,两者均小于0.4,表明该模型没有过度拟合。图2(d)中表示的是变量投影重要度(variable importance for the projection,VIP)。振动模式的VIP值表示此模式对样品分类的重要性。724 cm-1处的振动模式具有最大的VIP值,因此它对不同纯度的青蒿素样品的分类贡献最大。
图1 青蒿素的拉曼光谱图(内插图为青蒿素的分子结构)Fig.1 Raman scattering spectrum of artemisinin(inset is molecular structure of artemisinin)
图2 不同纯度的青蒿素样品在OPLS-DA模型下的多元统计分析结果:(a)二维分数图(椭圆表示95%置信区间),(b)三维分数图,(c)OPLS-DA模型的排列检验分析(绿点代表R2,蓝点代表Q2),(d)VIP分类图Fig.2 Multivariate statistical analysis of artemisinin samples with different purity contents by OPLS-DA model:(a)two-dimensional score plot(ellipse represents the 95%confidence interval),(b)three-dimensional score plot,(c)permutation test analysis of OPLS-DA model(green dots represent R2 and blue dots represent Q2),(d)VIPplot of classification
为了进一步证实,在724 cm-1处的振动模式对于区分不同纯度的青蒿素样品具有最大的贡献,绘出了S-line图。在S-line图中,通过协方差和相关性系数来寻找受青蒿素纯度影响最大的振动模式[30-31]。图3给出了样品A(97.87%)和F(99.60%)之间的S-line结果。从图3中可以看出,724 cm-1处的振动模式的贡献(协方差)值为50,相关值为0.72。这两个值都明显大于其他振动模式的值。因此,我们可以得出结论,在区分不同纯度的青蒿素样品时,724 cm-1处的振动模式具有最大的贡献。这表明该模式将是研究青蒿素生物活性官能团的最有代表性的模式,这与以前的结果一致,即该模式与过氧化桥直接相关。
图3 OPLS-DA模型中S-line图Fig.3 S-line plot of OPLS-DA model
OPLS-DA研究表明,在青蒿素的振动模式中,724 cm-1的模式受到青蒿素纯度的影响更加强烈。在不同纯度的样品中,724 cm-1模式的强度将有很大的不同,而其他振动模式的强度不会发生太大变化。这与图4中的强度分析结果一致。在图4中,绘制了样品A和F间的20个随机点的拉曼峰强度分布,为了便于比较,图4(a)绘制724 cm-1模式的强度分布,图4(b)绘制了881 cm-1模式的强度分布。有研究者指出881 cm-1模式可能跟青蒿素过氧桥键相关。如图4所示,样品A中724 cm-1模式的平均强度明显低于样品F,而样品A和F中881 cm-1模式的平均强度大致相同。另外,其它振动模式的强度分布行为类似于881 cm-1模式。
虽然目前还不能完全确定位于724 cm-1拉曼峰的物理根源,本研究表明该拉曼峰应与过氧桥键直接或间接相关,检测到该拉曼峰可以基本确定过氧桥键的存在。青蒿素的振动模式很多,仅运用一个特征拉曼峰很难达到准确检测的效果,因而有必要再找一个好的特征拉曼峰。青蒿素分子中另一特征基团是环戊内酯基团,找到对应内酯基团的特征拉曼峰可以更准确地检测青蒿素。理论计算和实验结果都表明位于1 734 cm-1的拉曼峰为内酯键(O11-C10=O)的振动峰[19,31]。同时该峰峰形好,周围没有其它峰的干扰,在实验上可以很好的分辨该拉曼峰。因而位于1 734 cm-1的拉曼峰可以作为拉曼光谱法检测青蒿素的另外一个好的特征振动模式。并且,基于该特征模式的优点,选择1 734 cm-1处的振动模式作为参考模式,724 cm-1处与1 734 cm-1处振动模式的相对强度分析更有助于快速筛查低纯度含量不合格的青蒿素样品。
图5显示了相对强度比I(724cm-1)/(1734cm-1)作为青蒿素纯度含量的函数。随着纯度的增加,相对强度比I(724cm-1)/(1734cm-1)也随之增加。单因素方差分析表明,6个青蒿素样品之间存在显著差异(F=7.392 7,P<0.01),证实了相对强度比I(724cm-1)/(1734cm-1)是一个区分不同纯度含量的青蒿素样品的良好指标。这一发现将有助于对青蒿素产品的质量特别是对于活性药物成分不足的不合格产品进行检测和分析。
图4 样品A和F之间的20个随机点在724 cm-1和881 cm-1模式处的拉曼强度分布比较:(a)724 cm-1模式,(b)881 cm-1模式Fig.4 Comparison of Raman intensity distribution of t 20 random spots between sample A and F:(a)724 cm-1 mode,(b)881 cm-1 mode
图5 六个不同纯度含量的青蒿素样品的相对强度比的分布Fig.5 Distribution of relative intensity ratio for six artemisinin samples with different purity contents
通过拉曼光谱联合OPLS-DA模型对不同纯度的青蒿素样品进行了实验分析。结果表明,该方法可以清楚地区分不同纯度的青蒿素样品,青蒿素拉曼光谱中与生物活性官能团相关的724 cm-1处的振动模式比其他振动模式对纯度更敏感。此外,还证明了在不同纯度的青蒿素样品中,724和1 734 cm-1处的特征振动模式相对强度比在统计学上具有统计学差异(F=7.39,P<0.01),因此可以作为快速检测低纯度青蒿素的优质指标。