张慧洁,蔡 冲,崔旭红,张雷蕾
中国计量大学生命科学学院,浙江 杭州 310018
花色素苷是一种天然的水溶性黄酮类色素,具有保护人体心血管、降血糖、护肝脏、抗癌和刺激视紫红质再生等功能[1]。桑椹因含有丰富的花色素苷而成为食品、保健品和药品的良好加工原料。花色素苷不稳定,在加工和储藏中易受光照、热、酸等影响致使颜色变淡、生物活性降低[2],给食品加工产品的品质保持造成困难,而某些产品宣称含有丰富的花色素苷以此欺骗消费者。因此建立一种快速、准确的桑椹中花色素苷含量的检测方法对于桑椹产品的品质检测、分级及开发利用具有重要意义。
目前测定花色素苷常用的方法如高效液相色谱法、分光光度法等,检测步骤复杂,耗时长且具有破坏性,难以满足样本中花色素苷快速检测的需求[3]。拉曼光谱技术以拉曼散射效应为基础,光波被散射后频率发生变化,频率位移与发生散射的分子结构有关,从而完成对不同结构分子的检测。拉曼光谱不需要样品前处理过程,样品可通过光线直接测量,方法快速、简单、可重复性强[4]。已经广泛的应用在食品中糖类、维生素、蛋白质、DNA和色素等成分的定性和定量分析中[5-6]。但目前国内外采用拉曼光谱技术对花色素苷的应用研究较少,未见有拉曼光谱技术对花色素苷含量检测的文献报道。本文以桑椹为实验材料,分析花色素苷的拉曼光谱特性,研究桑椹中的花色素苷与其拉曼光谱特性之间的相关性,并建立桑椹花色素苷的定量模型,实现花色素苷的定量检测。
实验选用“大10”品种桑椹,购买于杭州下沙超市,并用冰盒运输至实验室。挑选大小均匀的无机械损伤桑椹510个,去除果柄,用去离子水清洗干净,每取10个桑椹作为一个样本采集完光谱之后立即榨汁并过滤,共计51个样本,将制得的样本溶液暂存于4 ℃冰箱中用于花色素苷的理化检测。
标准品矢车菊素-3-O-葡萄糖苷(Cyanidin-3-O-glucoside,C3G),矢车菊素-3-O-芸香糖苷(Cyanidin-3-O-Rutinoside,C3R),天竺葵素-3-O-葡萄糖苷(Pelargonidin 3-O-glucoside,P3G)购买于Macklin试剂公司,纯度均大于95%,分别配制成2 mg·mL-1的水溶液,并模拟桑椹中的花色素苷含量按矢车菊素-3-O-葡萄糖苷,矢车菊素-3-O-芸香糖苷,天竺葵素-3-O-葡萄糖苷为45%,45%和10%的比例配制成2 mg·mL-1混合标准溶液,用于花色素苷的拉曼光谱分析及桑椹中花色素苷拉曼光谱特征峰的提取。
拉曼光谱仪为实验室自行搭建,主要包括QE-Pro光谱仪(Ocean Opticis公司)、Laser-785 nm激光器、传输光纤、拉曼检测探头和置物台五个部分; 紫外分光光度计(UV-1800,岛津)。
拉曼光谱的激发波长为系统默认785 nm,波长检测范围为200~2 870 cm-1,光谱采集时选用优化后的参数即激光功率350 mW、平均次数2次、积分时间3000 ms,采样距离3~5 mm。为减少荧光产生的干扰,在暗室环境下进行光谱采集; 每个桑椹取不同部位采集两次,每采集10个桑椹作为一个样本进行花色素苷理化测定,最后取均值作为一个样本的原始光谱。
桑椹中总花色素苷含量测定采用pH示差法[7],重复测定3次。
测定C3G,C3R及P3G三种花色素苷的拉曼光谱,如图1,C3G,C3R和P3G的拉曼光谱这与Merlin等[10]的研究结果一致。由于花青素在结构上存在相同的苯并吡啶部分,仅因苯环上的取代方式不同而有所区别; 花色素苷的可见生色团主要位于苯并吡啶部分,而不是苯环上,因此不同的花色素苷具有很大的相似性[11]。花色素苷在1 400~1 650 cm-1之间的拉曼信号可归因于苯并吡啶部分和苯环的环状拉伸振动,1 335 cm-1附近主要是由苯环取代引起的环间键拉伸,低光谱范围500~900 cm-1主要与糖基化模式有关[10]。
图1 三种花色素苷标准溶液的拉曼光谱Fig.1 Raman spectra of three anthocyanin standard solutions
桑椹中的花色素苷主要为矢车菊素-3-O-葡萄糖苷(C3G)、矢车菊素-3-O-芸香糖苷(C3R)、天竺葵素-3-O-葡萄糖苷(P3G)和天竺葵素-3-O-芸香糖苷(P3R),且矢车菊类花色素苷占总花色素苷的90%及以上[12]。本文模拟桑椹中各种花色素苷的含量,将C3G,C3R及P3G三种花色素苷按照45%,45%和10%的比例均匀混合,并测定混合标准液的拉曼光谱,如图2所示。
图2 混合标准液和桑椹原始拉曼光谱Fig.2 Original Raman spectra of mixed standard solution and mulberr
矢车菊素-3-O-葡萄糖苷、矢车菊素-3-O-芸香糖苷、天竺葵素-3-O-葡萄糖苷及混合花色素苷标准溶液在波数545,634,737,1 335和1 612 cm-1附近均存在较强的拉曼峰,分别归结于545和634 cm-1处的C—C面内弯曲[10],737 cm-1处的C—C—O面内弯曲[11],1 335和1 612 cm-1处的内环C—C拉伸[10-11]。对比桑椹的原始拉曼光谱,如图2所示,由于桑椹所含成分较多,桑椹的拉曼光谱谱峰较多,各种成分之间相互影响,某些特征峰的波数与混合花色素苷相比发生了偏移,偏移均在10 cm-1之内,其在545,634和737 cm-1处有较强的拉曼特征峰,1 341和1 612 cm-1处的峰强较弱,因此选择波数545,634和737 cm-1处的峰作为桑椹花色素苷的拉曼特征峰,通过桑椹拉曼光谱中这3处特征峰强度的高低即可定性判断桑椹中总花色素苷含量的多少。
2.2.1 数据集样本划分
由于桑椹全光谱中存在较多的荧光背景以及噪声干扰,且花色素苷的光谱信息主要在400~1 800 cm-1波段之间,所以选择该波段光谱进行分析。采用KS算法将51个样本以约4: 1的比例划分为建模集和预测集。样本集的统计信息如表1所示。
表1 桑椹样本集的统计信息Table 1 Statistics of the mulberry sample set
2.2.2 光谱预处理方法筛选
为了消除无关信息和噪声的影响,采用多元散射校正(MSC)、基线校正(airPLS)、归一化(Normalized)及其组合方法对桑椹样品原始拉曼光谱进行预处理。多元散射矫正能够有效地消除光谱散射的影响,增强与成分含量相关的光谱信息[13]; 基线校正能够消除背景噪声以及基线漂移[14]; 归一化的作用是消除数据量纲的影响,提高模型的运行速度。
结合PLSR对光谱预处理效果进行评价,各种预处理方法的预测结果如表2所示。
表2 不同预处理方法的PLSR建模效果Table 2 PLSR modeling effects of different preprocessing methods
2.2.3 基于CARS特征波长提取的定量模型
由于拉曼光谱中变量信息较多,变量之间存在较多冗余及无用信息,降低了模型的精度及速度,为了进一步提高预测集的预测精度,基于airPLS+MSC+Normalized处理后的桑椹拉曼光谱,研究了CARS特征波长提取方法的PLSR和SVR两种不同模型的建模效果。
采用CARS提取特征波长时,设定采样次数为50次,利用5折交叉验证法计算均方根误差(RMSECV),结果如图3(a)所示。从图3(a)可以看出RMSECV值随着采样次数的增加呈现出先减小后增加的趋势,当采样次数为22时,RMSECV值最小,此时得到的最优波长集包含84个特征波长,提取的特征波长在桑椹原始拉曼光谱中的分布如图3(b)所示。图中CARS提取出的特征波长主要集中在波峰及波谷附近[15],且在545,634,737,1 341和1 612 cm-1处均有分布,这与对比标准品确定的特征峰一致,由此说明CARS算法提取出的特征波长与花色素苷的含量具有高度的相关性,不仅降低了光谱的波长数量,提高模型的预测速度,而且保留了较多的有用信息。
图3 (a) RMSECV与采样次数的关系;(b) 提取的特征波长分布Fig.3 (a) Relationship between RMSECV and sampling times;(b) Extracted characteristic wavelength distribution
将CARS提取出的特征波长作为输入变量,桑椹的花色素苷含量为输出变量分别建立了PLSR 模型和SVR模型。支持向量机回归(SVR)选用RBF核函数,反复筛选模型参数,最终选择的最佳参数惩罚因子C为32.0,核系数g为0.001。两种模型的结果如表3所示。
表3 CARS筛选后PLSR及SVR模型预测结果Table 3 Predicted results of PLSR and SVR model after CARS selection
图4 (a)PLSR模型; (b)SVR模型Fig.4 (a)PLSR model; (b)SVR model