王玮+江辉+刘国海+梅从立+吉奕
摘 要 提出了一种基于近红外光谱分析技术的酵母菌生长过程描述方法。利用Antaris Ⅱ型傅里叶变换近红外光谱仪获取酵母菌培养过程中,发酵物样本在10000~4000 cm1范围内的光谱数据,同时采用光电比浊法测定各样本的光密度(Optical density, OD)值; 运用竞争性自适应重加权采样(Competitive adaptive reweighted sampling, CARS)算法优选特征光谱,再利用极限学习机(Extreme learning machine, ELM)建立酵母菌生长过程4个阶段的分类模型。研究结果显示,参与CARS-ELM模型建立的波长个数为30,其10次运行在训练集和测试集中的平均识别率分别为98.68%和97.37%。研究结果表明,利用近红外光谱分析技术结合适当的化学计量学方法描述酵母菌生长过程是可行的。
关键词 酵母菌; 近红外光谱; 竞争性自适应重加权采样法; 极限学习机
1 引 言
在全球能源逐渐匮乏的大环境下,利用酵母菌发酵生物质产酒精作为能源替代品越来越引起重视。在工业生产过程中,酵母菌生长过程的测定对发酵具有重要的指导作用[1~3]。目前,酵母菌检测的方法主要有血球计数板计数法和平板菌落计数法等, 这些方法虽然检测过程直观、快速,但检测结果受操作人员因素影响较大,其稳定性和均一性难以保证[4]。
近红外光是介于紫外可见光和中红外光之间的电磁波,其光谱信息主要来自有机物中含氢基团倍频与合频的吸收,不同基团或同一基团在不同化学环境中的近红外吸收波长与强度都有明显差别,适用于有机化合物理化参数的间接测量[5~7]。在酵母菌培养过程中,基质中的有机物大分子包含了大量的含氢基团[8]。近年来,已有一些学者利用近红外光谱分析技术对微生物发酵过程中的底物、产物和生物量浓度进行检测,取得了较理想的结果[9~11]。而在利用近红外光谱分析技术对微生物生长过程动态跟踪方面的研究却鲜有报道。大量研究表明,近红外光谱信息是由很多弱的、宽的、非特征重叠谱带所构成[12], 这些光谱信息包含了很大数目的波长变量,这些波长变量有些是无信息变量和冗余变量,波长变量之间也存在着很严重的线性关系[13]。这些波长变量不仅会增大计算量,而且对光谱的有用信息进行干扰,从而降低模型的预测能力。因此,在利用近红外光谱分析技术对酵母菌生长过程进行定性分析时,光谱特征和化学计量学模型的选择与优化至关重要,直接影响最终检测结果的精度[12]。因此,本研究提出基于近红外光谱分析技术的酵母菌生长过程快速描述方法。采用竞争性自适应重加权采样(Competitive adaptive reweighted sampling, CARS)算法筛选预处理后的近红外光谱特征波长,然后利用极限学习机(Extreme learning machine, ELM)建立酵母菌生长过程4个时期的识别模型,实现了利用近红外光谱分析技术高精度检测酵母菌生长状态。
2 实验部分
2.1 酵母菌培养及数据采集
2.1.1 酵母菌的扩大培养 从上海瑞楚生物科技有限公司购买工业发酵酵母菌种1 mL,再配制麦芽汁培养基,然后将原代酵母菌菌种接种到培养基中做平行扩大培养,每次取生长状况良好的菌种作为下一次接种母菌,直到培养得到酵母菌种40 mL结束。
2.1.2 酵母菌的分装培养 酵母菌扩大培养结束后,分别在3个250 mL 容量瓶内装入125 mL 无菌麦芽汁培养基和0.5 mL 酵母菌悬液,分别将3个容量瓶标记为Ⅰ、Ⅱ和Ⅲ,放入恒温振荡培养箱中连续培养72 h,温度设置为28℃,转速为110 r/min。按以上方案共进行6批酵母菌培养实验。
2.1.3 数据采集 在酵母菌培养过程中,从接种开始每隔4 h采样一次,共有19个采样时间点(即0, 4, 8, ……72 h)。為了避免采样次数过多而引起容量瓶内发酵污染,采样时,将19个采样时间点分为三部分,即0~24 h、28~48 h和52~72 h时间内的采样分别在容量瓶Ⅰ、Ⅱ和Ⅲ中进行。这样每批实验可获得19个样本数据。共进行6批实验,可获得114个样本。
2.2 光谱采集
采用Antaris Ⅱ傅里叶变换近红外光谱仪(美国Thermo Scientific公司)的透射模式采集各样本的近红外光谱数据。光谱采集时,室内温度保持在25℃左右,湿度基本恒定。样品池采用光程5 mm标准管,扫描次数为32次,分辨率为8 cm1,扫描波数范围为10000~4000 cm1。每个样本采集3次,取其平均光谱作为该样本的原始光谱。
2.3 光电比浊法测定OD值
在样本光密度(Optical density, OD)值测定时,首先将UV-2204PC型紫外可见分光光度计的波长设置为600 nm,透光率调为100%,取光程为1 cm比色皿装入3.5 mL无菌麦芽汁培养基为对照组; 样本溶液经0.45 μm滤膜过滤后,移入比色皿测量其OD值。每个样本测量3次,再取其平均值。若样本溶液过稠,需稀释后再进行测量,使得OD值保持在0.1~0.65之间[14,15]。
2.4 数据分析方法
2.4.1 竞争性自适应重加权采样算法 为了消除光谱变量之间的冗余和共线性信息,需要对光谱数据进行变量筛选。竞争性自适应重加权采样(Competitive adaptive reweighted sampling , CARS)是模拟达尔文进化论中“适者生存”原则[16],通过蒙特卡罗采样法随机选择80%的样本,建立偏最小二乘法(Partial least square, PLS)模型,保留回归系数绝对值大的波长点,同时去除权重小的波长点,多次重复筛选后,选出交叉验证均方根误差RMSECV最小的变量子集,即为特征波长变量[17,18]。
2.4.2 极限学习机判别分析法 极限学习机算法(Extreme learning machine, ELM)是由新加坡南洋理工大学的Huang等[19]提出的一种针对单隐含层前馈神经网络的学习算法。该算法能随机产生输入层与隐含层之间的连接权值和隐含层神经元的阈值,并且在训练过程中无需调整,只需设置隐含层神经元的个数,就可以获得唯一的最优解,克服了传统神经网络训练速度慢、易陷入局部最优的问题[20],并以其学习速度快、泛化性能好等优势被广泛应用于模式分类领域。
3 结果与讨论
3.1 光谱分析
酵母菌发酵液主要是由蛋白质、碳水化合物等大分子化合物和乙醇组成[21]。其中,碳水化合物的主要吸收波段在6298.4~5650.4 cm1之间,蛋白质的主要吸收波段在6506.4~6776.6 cm1之间,乙醇的主要吸收波段在7154.6~6954.1 cm1和9997.2~9981.7 cm1之间[22]。图1A为所有酵母菌发酵液样本的原始光谱图。从图1可见,不同时间段获取的酵母菌发酵液样本的光谱吸收峰基本与文献[22]描述的大分子化合物的吸收波段范围吻合,很好地反映了酵母菌培养过程中大分子有机化合物的微量变化,这为近红外光谱分析技术用于酵母菌发酵过程定性分析提供了理论依据。
为了消除发酵液中固态颗粒及光散射等因素对采集光谱的影响,研究采用标准正态变量变换(Standard normal variate transformation, SNV)对原始光谱进行预处理,该方法可有效消除液态样品中悬浮颗粒及光程变化等外部因素对光谱采集的影响[23,24]。SNV预处理光谱图如图1B所示。
3.2 酵母菌生长曲线及样本集划分
为了直观地反映酵母菌的动态生长过程,本研究根据各采样时间点所测的样本OD值拟合出酵母菌的生长曲线。如图2所示,0~8 h为酵母菌生长的迟滞期,8~28 h为酵母菌生长的对数期,28~60 h为酵母菌生长的稳定期,60~72 h为酵母菌生长的衰亡期,很好地反映了酵母菌的4个生长阶段。
在模型校正过程中,将前4批实验获取的样本作为训练集,后两批实验获取的样本作为独立测试集,用于校正模型的验证。表1列出了酵母菌生长过程中采集的所有样本的OD值在训练集和测试集中的分布情况。
3.3 光谱变量筛选
图3呈现了应用CARS算法对预处理后的光谱进行特征波长筛选的过程。从图3A可见,随着采样次数增加,被保留的波长变量呈指数规律衰减,较好地反映了CARS算法在执行时对变量粗选和精选的过程。图3B为CARS采样过程中,交互验证均方根误差(RMSECV)随采样次数的变化情况。从图3B可见,当采样次数为28时,RMSECV值达到最小(0.1736); 此时,入选的波长变量数为30,它们在全光谱区域的分布如图4所示。对上述筛选变量的NIR吸收谱带解析为:5650.4, 5932.0, 5935.8, 5939.7, 5943.5, 6059.2, 6159.5和6298.4 cm1是位于CH基团一级倍频振动吸收的波段范围; 6506.4, 6564.2, 6583.8, 6587.6, 6595.4, 6599.2, 6618.2, 6695.6, 6699.5,6768.9, 6772.8和6776.6 cm1为胺基NH键伸缩振动的一级倍频附近; 6954.1, 6957.9, 6996.5, 7089.0, 7131.5, 7154.6 cm1和9981.7, 9985.6, 9989.5, 9997.2 cm1分别位于醇类OH基团伸缩振动的一级和二级倍频附近。分析上述筛选的30个波长变量的波数可知,这些波数光谱基本都在酵母菌发酵液中的蛋白质、碳水化合物等大分子和乙醇的光谱主要吸收波段内。因此,利用CARS算法筛选的特征波长变量能较好地反映酵母菌培养过程中基质中有机物的微量变化。
3.4 ELM判别模型建立及预测
选用经CARS算法优选后的30个特征波长变量建立ELM判别模型,完成酵母菌生长阶段的定性描述。在ELM模型建立过程中,其隐含层神经元个数K是影响其性能的重要参数。因此,在ELM模型建立过程中需对其进行优化。研究初始化K=10,并以11为间隔增加,依据模型在训练集和测试集中的预测正确率来确定最佳的隐含层神经元个数。由于ELM算法权重初始化时具有随机性,因此,针对每个K,研究均运行10次,取其中5次预测效果较好模型的记录于表2中。从表2可知,当K=43时,训练集和测试集的平均预测准确率分别达到了100%和99.47%,性能最佳。因此,最终确定为K=43。确定ELM算法关键参数后,10次运行ELM,其在训练集中的平均预测准确率为98.68%,在训练集中的平均预测正确率为97.37%,很好地对酵母菌生长的4个阶段进行有效区分。
4 结 论
本研究利用近红外光谱分析技术实现酵母菌培养过程的动态监测。利用CARS算法对預处理后的光谱进行特征波长筛选,优化ELM隐含层神经元数,最后建立酵母菌生长过程定性识别模型。结果表明,建立在由CARS筛选法30个特征波长变量基础上的最佳ELM识别模型, 10次运行在测试集中的平均识别率达到97.37%。因此,利用近红外光谱分析技术结合合适的化学计量学方法快速监测酵母菌生长过程是可行的。本研究结果为酵母菌生长过程的快速在线监测提供了技术支持。
References
1 Yu J, Xu Z, Tan T. Fuel Process. Technol., 2008, 89(11): 1056-1059
2 Sablayrolles J M. Pandey A, Rao L V, Soccol C R. Food Res. Int., 2009, 42(4): 418-424
3 Doran J B, Cripe J, Sutton M, Foster B. Appl. Biochem. Biotechnol., 2000, 84-86(1): 141-152
4 Wu Y J, Jin Y, Li Y R, Sun D, Liu X S, Chen Y. Vib. Spectrosc., 2012, 58(1): 109-118
5 TAO Lin-Li, YANG Xiu-Juan, DENG Jun-Ming, ZHANG Xi. Spectroscopy and Spectral Analysis, 2013, 33(11): 3002-3009
陶琳丽, 杨秀娟, 邓君明,张 曦. 光谱学与光谱分析, 2013, 33(11): 3002-3009
6 ZHANG Li-Juan, WU Wei, QIU Lin, LIU Ying. Modern Instrument & Medical Treatment, 2012, 18(4): 76-79
张丽娟, 吴 炜, 邱 琳, 刘 莹. 现代仪器与医疗, 2012, 18(4): 76-79
7 CHEN Huan-Wen, HU Bin, ZHANG Xie. Chinese J. Anal.Chem., 2010, 38(8): 1069-1088
陈焕文, 胡 斌, 张 燮. 分析化学, 2010, 38(8): 1069-1088
8 XU Bao-Cheng, LIU Jian-Xue, YI Jun-Peng, ZHONG Xian-Feng, CUI Guo-Ting. China Brewing, 2007, 26(3): 8-10
徐宝成, 刘建学, 易军鹏, 钟先锋, 崔国庭. 中国酿造, 2007, 26(3): 8-10
9 HUANG Chang-Yi, FAN Hai-Bin, LIU Fei, XU Gan-Rong. Journal of Instrumental Analysis, 2014, 33(5): 520-526
黄常毅, 范海滨, 刘 飞, 许赣荣. 分析测试学报, 2014, 33(5): 520-526
10 ZHANG Shu-Ming, YANG Yang,NI Yuan-Ying. Spectroscopy and Spectral Analysis, 2012, 32(11): 2997-3001
张树明, 杨 阳, 倪元颖. 光谱学与光谱分析, 2012, 32(11): 2997-3001
11 PENG Bang-Zhu, YUE Dian-Li, YUAN Ya-Hong, GAO Zhen-Peng. Spectroscopy and Spectral Analysis, 2009, 29(3): 652-655
彭帮柱, 岳田利, 袁亚宏, 高振鹏. 光谱学与光谱分析, 2009, 29(3): 652-655
12 LIU Guo-Hai, XIA Rong-Sheng, JAING Hui, MEI Cong-Li, HUANG Yong-Hong. Spectroscopy and Spectral Analysis, 2014, 34(8): 2094-2097
刘国海, 夏荣盛, 江 辉, 梅丛立, 黄永红. 光谱学与光谱分析, 2014, 34(8): 2094-2097
13 Blanco M, Coello J, Iturriaga H, Maspoch S, González Baó R. Analyst, 2000, 50(1): 75-82
14 LI Qin. Light Ind. Sci. Technolo., 2014, (8): 7-8
李 勤. 輕工科技, 2014, (8): 7-8
15 LI Li, YANG Ze-Xian, WANG Su-Xia, DU Jin-Min. Feed Res., 2015, (1): 71-73
李 丽, 杨泽贤, 王素霞, 杜进民. 饲料研究, 2015, (1): 71-73
16 Fan W, Shan Y, Li G Y, Lyu H Y, Li H D, Liang Y Z. Food Anal. Method, 2012, 5(3): 585-590
17 Xie C, Ning X, ShaoY, He Y. Spectrochim. Acta A, 2015, 149 : 971-977
18 Tang G, Huang Y, Tian K D, Song X Z, Yan H, Hu J, Xiong Y M, Min S G. Analyst, 2014, 139(19): 4894-4902
19 Huang G B, Zhu Q Y, Siew C K. Neurocomputing, 2006, 70(1-3): 489-501
20 SHI Feng, WANG Hui, YU Lei, HU Fei. MATLAB Intelligence Algorithm-30 Case Analysis. Beijing: Beihang University Press, 2011: 290-302
史 峰, 王 辉, 郁 磊, 胡 斐. MATLAB智能算法-30个案例分析. 北京: 北京航空航天大学出版社, 2011: 290-302
21 HAN Run-Ping, BAO Gai-Ling, ZHU Lu. Spectroscopy and Spectral Analysis, 2004, 24(7): 820-822
韩润平, 鲍改玲, 朱 路. 光谱学与光谱分析, 2004, 24(7): 820-822
22 LU Wan-Zhen. Modern Near Infrared Spectroscopy Analytical Technology (Second Edition). China Petrochemical Press, 2007: 30-32
陆婉珍. 现代近红外光谱分析技术 (第2版). 中国石化出版社, 2007: 30-32
23 Bi Y M, Yuan K L, Xiao W Q, Wu J Z, Shi C Y, Xia J, Chu G H, Zhang G X, Zhou G J. Anal. Chim. Acta, 2016, 909: 30-40
24 Barnes R J, Dhanoa M S, Lister S J. Appl. Spectrosc., 1989, 43(5): 772-777