王 森, 王雪松, 张 昕, 石国新, 王 健
(1.吉林大学 生物与农业工程学院, 长春 130022; 2.吉林大学 生命科学学院, 长春 130012)
氨基酸发酵液的成分复杂, 通常是气体、 液体、 固体三态共存.传统分析方法需使用昂贵的化学试剂, 且分析过程复杂[1-2].近红外光谱分析技术以化学计量学、 基础测量及光谱衡量为基础, 多种技术相互耦合.与传统分析方法相比, 近红外光谱分析仅需对被测样品进行一次光谱采集, 即可在较短时间内完成多项性能指标检测, 具有分析重现性好、 无污染、 成本低等优点.因此, 近红外光谱分析技术在生命科学、 石油化工、 农业、 医药和轻工食品等领域应用广泛[3-6].
用近红外光谱分析技术测定氨基酸发酵过程中的参数, 主要是采集透射光谱信息, 建立发酵液中单一主产物浓度或葡萄糖含量光谱预测模型.对含量较少的副产物建立预测模型与多种产物同时检测的研究目前文献报道较少[7-9]: 郭宇飞等[10]利用近红外光谱分析技术, 采集透射光谱信息, 建立了谷氨酸棒杆菌发酵过程中异亮氨酸质量浓度的单一光谱预测模型; Liang等[11]利用近红外光谱分析技术建立了谷氨酸发酵过程中各成分的光谱模型, 达到了快速、 准确检测的目的, 由于样品为离心后发酵液, 因此未充分发挥近红外光谱分析技术的优势.本文以L-异亮氨酸发酵过程的发酵液为样品, 用偏最小二乘法研究不同光谱预处理和波段选择对液体透射采集和悬浊液反射采集下发酵液中各成分建模精度的影响, 分别建立L-异亮氨酸、L-亮氨酸、L-苏氨酸、L-谷氨酸和L-丙氨酸的两种不同采集方式光谱预测模型, 并通过比较得到最佳模型建立方法.
黄色短杆菌BrevibacteriumflavumKM011(Met-+LysL+ Ethr+α-ABr+AECr)由吉林大学氨基酸代谢工程实验室保藏.其培养基及发酵条件参见文献[12].
在L-异亮氨酸补料分批发酵过程中, 每小时取样一次, 共收集105个样品.
发酵液中氨基酸的质量浓度用2,4-二硝基氟苯柱前衍生高效液相法测定, 参见文献[12].
透射光谱扫描:在1 mm的比色杯中加入0.5 mL发酵液样品, 用Thermo AntarisⅡ型近红外扫描仪(美国赛默飞世尔公司)扫描, 分辨率为16 cm-1, 扫描次数为32, 在4 000~10 000 cm-1处扫描样品,以去离子水为扫描背景, 采集原始近红外光谱数据.
反射光谱扫描:将5 mL发酵液样品置于0号密封袋中, 温度为20 ℃, 分辨率为8.0 cm-1, 扫描32次, 在4 000~10 000 cm-1处扫描样品, 以仪器内置背景为参比, 采集原始近红外光谱.用近红外分析软件TQ Analyst 9(美国赛默飞世尔公司)分析原始光谱.
用近红外分析软件TQ Analyst 9内置的多种光谱预处理算法对原始光谱(Raw)预处理优化, 包括多元散射校正(multiplicative scatter correction, MSC)、 标准正态变量变换(vector normalization, SNV)、 一阶导数+Norris导数平滑处理(first derivative+Norris, FD+N)、 一阶导数+S-G平滑处理(first derivative+S-G, FD+SG)、 二阶导数+Norris导数平滑处理(second derivative+Norris, SD+N)和二阶导数+S-G平滑处理(second derivative+S-G, SD+SG)等, 平滑点数设为15.
图1为样品的原始透射扫描光谱.由图1可见, 发酵液透射光谱的波峰波谷重叠严重, 在4 000~5 400 cm-1处, 由于水中O—H键吸收干扰, 导致吸收饱和, 因此噪声较强, 在6 500~7 300 cm-1处, 发酵液中存在大量微小颗粒物和菌体, 使吸收光谱紊乱.样品的原始反射光谱如图2所示.由图2可见, 其波峰波谷清晰, 有利于提取光谱信息, 通过光谱预处理, 使利用近红外光谱分析技术同时检测发酵过程多种物质含量成为可能.
图1 样品的原始透射扫描光谱
图2 样品的原始反射光谱
不同分子基团对不同波长光谱的吸收差异较大, 利用黄色短杆菌生产L-异亮氨酸过程中, 主副产物中存在大量N—H,O—H和C—H等基团, 由于不同氨基酸所含基团的种类和数量不同, 因此近红外光谱可同时检测多种氨基酸.为提取每种产物完整的光谱信息, 同时降低冗余波长携带噪声的干扰, 选取有效波段:7 000~8 500 cm-1波段光谱能激发O—H和N—H基团的一级二级伸缩震动, 使C—H基团产生一级组合频及二三级倍频吸收光谱;6 000~7 000 cm-1波段为O—H的一级倍频, 由于发酵液为液体, 含有大量水分, 因此该波段光谱吸收较明显;芳香族的C—H伸缩振动和O—H组合频位于5 000~6 000 cm-1处.由于透射光谱的波峰波谷重叠严重, 部分波段携带大量干扰信息, 其光谱在5 400~6 300 cm-1和7 300~10 000 cm-1处相对清晰, 因此在这两个波段建立光谱校正模型.
反射光谱较透射光谱质量大幅度提高, 光谱曲线相对平滑, 但光谱携带信息减少.若仅根据波峰和波谷的位置选取波长范围, 则会导致光谱有效信息提取不完整, 降低模型精度.为更好发挥光谱平滑的优势, 并降低携带信息较少的问题, 采用相关性分析法, 即用SPSS软件计算不同光谱预处理下光谱吸收率与产物质量浓度间的相关关系, 根据二者间的显著性水平高低选取最佳波段.计算结果表明: 当相关系数|r|≥0.471时, 光谱吸收率与真实值在0.01水平下具有显著相关性; 当0.471>|r|≥0.368时, 波长吸收率与真实值在0.05水平下具有显著相关性.图3为7种不同光谱预处理下光谱吸收率与各产物真实值的相关系数.由图3(A)可见, 主副产物质量浓度与原始光谱吸收度在大部分波段呈负相关, 且质量浓度越大其相关性越高.为提高模型的精度, 选取|r|>0.471的波段, 即分别选取4 400~4 600 cm-1,5 300~6 500 cm-1和7 500~10 000 cm-1波段, 用于建立L-谷氨酸、L-苏氨酸、L-异亮氨酸和L-丙氨酸校正模型.由于L-亮氨酸与原始光谱吸收度的相关系数小于0.386, 因此原始光谱不能用于建立L-亮氨酸光谱预测模型.由图3(B)可见, 在4 100~5 300 cm-1和5 500~7 300 cm-1处,L-谷氨酸、L-苏氨酸、L-异亮氨酸和L-丙氨酸的|r|>0.471, 具有较好的相关关系, 其中在4 500~5 100 cm-1和6 000~6 900 cm-1波段呈正相关, 在5 300~5 500 cm-1波段相关系数波动频繁, 且|r|<0.471, 故舍弃.在4 100~4 500 cm-1,5 100~5 300 cm-1,5 500~6 000 cm-1和6 900~7 300 cm-1波段呈负相关, 为提取完整的光谱信息且不引入干扰信息, 选取4 100~5 300 cm-1和5 500~7 300 cm-1波段用于上述4种氨基酸建模分析.在7 900~8 300 cm-1和9 100~9 200 cm-1波段,L-亮氨酸的质量浓度与光谱吸光度的相关系数|r|>0.386, 表明L-亮氨酸在这两个波段具有0.05水平显著相关, 可用于建立光谱预测模型.
根据上述最佳波段的选择方法, 由图3(C)~(G)可见, 除L-亮氨酸外, 其他氨基酸在这5种光谱预处理下均具有较好的相关性.其中在FD+SG光谱预处理下, 选取4 000~5 500 cm-1和6 000~7 500 cm-1波段用于L-谷氨酸、L-苏氨酸、L-异亮氨酸和L-丙氨酸建模分析, 选取9 025~9 050 cm-1波段用于L-亮氨酸建模分析.在SD+N预处理下, 选取|r|>0.471的4 100~7 500 cm-1波段用于L-谷氨酸、L-苏氨酸、L-丙氨酸和L-异亮氨酸建模分析, 选取9 050~9 150 cm-1波段用于建立L-亮氨酸光谱预测模型.在SD+SG光谱预处理下, 选取6 000~7 000 cm-1波段用于L-谷氨酸、L-苏氨酸、L-丙氨酸和L-异亮氨酸建模分析.在MSC光谱处理下, 选取4 600~7 500 cm-1和9 000~10 000 cm-1波段用于L-谷氨酸、L-苏氨酸、L-丙氨酸和L-异亮氨酸建模分析.与SD+SG光谱预处理结果相同, 未选出适于L-亮氨酸建模所用的波段.在SNV预处理下, 选取4 600~7 500 cm-1和9 000~10 000 cm-1波段用于L-苏氨酸、L-异亮氨酸和L-谷氨酸建模分析, 分别选取4 600~7 200 cm-1和5 500~7 050 cm-1波段用于L-丙氨酸和L-亮氨酸建模分析.
图3 不同光谱预处理下光谱吸收率与各产物真实值的相关系数
选取5 400~6 300 cm-1,7 300~10 000 cm-1与(5 400~6 300)cm-1+(7 300~10 000)cm-1三个波段和7种光谱预处理方法进行组合, 用PLS交叉验证方法建立L-异亮氨酸发酵过程主副产物的透射扫描光谱校正模型.根据7种光谱预处理和对应处理下的光谱吸收率和各成分真实值的相关性, 选取最佳波长范围, 结合PLS交叉验证方法建立主副产物反射光谱校正模型.透射扫描和反射扫描下发酵液样品中各成分最优模型参数分别列于表1和表2, 其中RMSEC为预测集均方根误差.
由表1可见, 5 400~6 300 cm-1和7 300~10 000 cm-1是5种氨基酸的最佳波段,L-谷氨酸、L-苏氨酸和L-异亮氨酸的交互验证均方差(RMSECV)值分别为0.627,0.299,2.090, 校正集相关系数(Rc)均大于0.92, 相对分析误差(RPD)均大于3, 表明透射扫描模型可满足上述3种氨基酸精度检测的要求.L-丙氨酸的RMSECV值为1.021, RPD值为2.9(<3), 表明近红外光谱液体透射扫描丙氨酸模型基本达到检测要求, 但检测精度较低.L-亮氨酸的Rc值为0.649, RPD值为1.6(<2.5), 表明L-亮氨酸透射扫描光谱模型不能用于L-亮氨酸检测.
表1 透射扫描下发酵液样品中各成分模型参数
表2 反射扫描下发酵液样品中各成分模型参数
由表2可见,L-谷氨酸、L-异亮氨酸、L-苏氨酸和L-丙氨酸的悬浊液扫描光谱最优模型的Rc值均大于0.98,L-亮氨酸的Rc值大于0.96, 均高于液体透射扫描的Rc值(0.93), 且RPD值均增大, 大于5.0, 因此表明反射扫描模型可提高L-谷氨酸、L-异亮氨酸、L-苏氨酸和L-丙氨酸等4种成分的模型精度, 并可用于L-亮氨酸检测.
为防止校正模型出现过拟合现象, 利用剩余的35个发酵液样品作为外部验证材料, 分别对透射光谱和反射光谱校正模型进行验证, 进一步确保光谱预测模型的准确性和可靠性.用相关分析法得到两种光谱采集下的L-异亮氨酸、L-丙氨酸、L-谷氨酸、L-苏氨酸和L-亮氨酸质量浓度真实值和模型预测值间的相关关系, 分别如图4和图5所示, 光谱预测模型外部验证结果分别列于表3和表4.
表3 透射扫描下各成分模型外部检验结果
表4 反射扫描下各成分模型外部检验结果
由表3和表4可见, 用光谱校正模型预测35个发酵液样品的浓度, 在去除异常检测样品和异常光谱样品后, 外部检验结果和校正模型参数基本一致.采用透射扫描方式时, 发酵液中主副产物的光谱模型仅L-苏氨酸和L-异亮氨酸的RPD值大于3.0,L-谷氨酸和L-丙氨酸的RPD值为2.5~3.0, 与反射光谱的预测相关系数相差较大, 其检测精度较低;L-亮氨酸的RPD值小于2.5, 表明无预测能力.反射扫描下发酵液中主副产物的光谱模型预测集均方根误差值均小于液体透射扫描, 预测集相关系数(Rp)均大于0.98, 相对分析误差均大于3.0, 因此反射光谱优于透射光谱模型的预测能力.
图5 透射扫描下验证集中各成分真实值与预测值的散点图
由图4和图5可见, 光谱的反射采集优于透射采集方式, 这可能是由采集的光谱信息量不同所致.在发酵液中含有大量菌体和悬浊颗粒, 当用透射光谱采集方式时, 大量的近红外光被悬浊颗粒和菌体吸收或反射, 仅少量近红外光穿过, 导致接收器接收的光谱信息大量失真, 使其光谱图较杂乱, 有效光谱信息较少.在建模过程中仅选取5 400~6 300 cm-1和7 300~10 000 cm-1波段用于建模, 因而无法保证发酵液中各成分的建模需求.当用反射光谱采集方式时, 在0号密封袋中加入样品, 紧贴光源, 近红外光射入样品中, 虽有大量的近红外光被发酵液中悬浮颗粒和菌体吸收、 反射, 但反射大多为漫反射, 方向不一, 仅较少部分的光可反射到接收器, 由于接收器接收的信息大多为首先接触发酵液液体表面反射的光谱, 尽管光谱携带信息较少, 但大多为有效信息, 因此形成的光谱图较平滑, 仅需在光谱预处理过程中将信息放大, 即可满足发酵液各成分建模的信息需要.
综上所述, 本文通过对L-异亮氨酸发酵过程中的发酵液进行采集和近红外光谱扫描和分析, 确定了最佳光谱信息采集方式、 光谱预处理方法、 光谱波长范围及模型因子数, 建立了L-异亮氨酸发酵过程中主副产物最佳透射光谱和反射光谱预测模型.结果表明: 用反射优于透射采集得到发酵液中各成分的近红外光谱模型, 其L-异亮氨酸、L-丙氨酸、L-谷氨酸、L-亮氨酸和L-苏氨酸的Rc值分别为0.987,0.981,0.986,0.968,0.992;RMSECV值分别为1.760,0.462,0.430,0.259,0.199;RPD值分别为7.8,6.8,6.3,5.0,6.4; 预测值和测量值具有极显著的相关性,L-异亮氨酸、L-丙氨酸、L-谷氨酸、L-亮氨酸和L-苏氨酸的预测集相关系数分别为0.998,0.981,0.996,0.980,0.992, RMSEC值分别为1.19,0.282,0.219,0.185,0.124, 较透射光谱相应的RMSEC值大幅度减少, 即建立的预测模型具有较高的精度及较好的预测能力, 可为L-异亮氨酸及其他氨基酸发酵过程中氨基酸质量浓度的实时监控及优化发酵过程提供理论和实践依据.