齐晓丽, 吴珍珍, 张传松, 苏荣国, 石晓勇
(中国海洋大学海洋化学理论与工程技术教育部重点实验室,山东 青岛 266100)
基于支持向量机回归的3种常见有毒赤潮藻荧光识别技术❋
齐晓丽, 吴珍珍, 张传松, 苏荣国❋❋, 石晓勇
(中国海洋大学海洋化学理论与工程技术教育部重点实验室,山东 青岛 266100)
本文基于色素萃取液三维荧光光谱(EEM),利用支持向量机技术建立了3种常见有毒赤潮藻的荧光识别分析技术。选取3种有毒浮游藻在不同光照条件下进行培养,获得其色素萃取液的三维荧光光谱(EEM);利用Daubechies7(db7)小波对浮游藻色素萃取液EEM进行分解,并利用Bayesian判别分析选择最佳识别特征光谱;利用支持向量机回归建立有毒赤潮藻的荧光识别分析技术。该技术对单种藻的识别正确率为100%,对于88个测试集混合样品,当赤潮藻相对含量为10%、20%、30%、40%、60%、80%和90%时,海洋卡盾藻的识别正确率分别为66.7%、66.7%、100.0%、100.0%、100.0%、100.0%和100.0%,东海原甲藻的识别正确率分别为50%、100%、100%、100%、100%、100%和100%,球形棕囊藻的识别正确率分别为0.0%、50.0%、25.0%、60.0%、100.0%、100.0%和100.0%。可见,当3种有毒赤潮藻相对含量处于较低水平,也即处于赤潮发展期时,该技术就可对其快速进行准确的识别测定。
三维荧光光谱;有毒赤潮藻;db7小波;支持向量机回归
赤潮是指海洋生物特别是单细胞藻类在一定的环境条件下迅速增殖、积聚从而导致海水变色的一种自然现象[1]。赤潮生物对海洋生态环境、海洋生物资源以及近海养殖业等均产生了极大的负面影响,其中有毒赤潮藻的影响尤为严重。海洋中可引发赤潮的有毒赤潮藻为80种左右[2]。有毒赤潮藻的过度生长危害海洋食品安全以及社会经济发展,已成为全球共同关注的重大海洋环境问题。近年来,中国近海海域有毒赤潮藻爆发频率逐年上升[3],对有毒赤潮藻进行早期检测对于维持海洋生态系统的稳定性、保护人类的生命健康有重要的作用。目前,常用的浮游藻鉴别方法有显微镜计数法、图象识别技术、色素分析法、荧光光谱技术等[4-8]。其中,荧光光谱技术易实现现场测定、对物质具有良好的鉴别性,成为浮游藻群落组成分析方法的首选。1998年,Seppaelae等[9]基于主要辅助色素荧光峰强度,将浮游藻分为4类进行识别测定。张翠等[10-13]利用浮游藻三维荧光光谱(EEM)结合小波分析,实现了7个门类浮游藻的识别测定。P.A.staehr等[14]利用吸收光谱与偏最小二乘回归建立了有毒赤潮藻米氏凯伦藻(Kareniamikimotoi)的识别分析技术。东海原甲藻(Prorocentrumdonghaiense)、海洋卡盾藻(Chattonellamarine)以及球形棕囊藻(Phaeocystisglobosa)是我国近海常见的有毒赤潮藻。然而,针对这3种有毒赤潮藻的识别分析技术鲜有报道。
支持向量机(SVM)以结构风险化最小原则为基础,用来解决分类和回归问题的新的数据挖掘技术,在数据挖掘、预测、人脸及语音识别等方面均得到了广泛应用[15-16]。支持向量机回归是把线性的回归转为非线性,计算的复杂性取决于支持向量机的数目,不是样本空间的维数,从一定层面上避免了维数灾难的问题,且算法能够实现全局最优。张成成等[17]针对太湖梅梁湾建立的叶绿素a的支持向量机回归模型,实测值和预测值的相关性系数达到了0.941。魏国等[18]利用支持向量回归方法实现多功能传感器信号重构,同时获得三元溶液中各成分的浓度估计值,得到测试数据集氯化钠浓度和蔗糖浓度的平均绝对误差分别为0.100615和0.100369mol/kg。表明了支持向量机回归在复杂样品分析中的应用潜力。
本文基于浮游藻色素萃取液三维荧光光谱,利用小波分析及支持向量机回归建立了3种有毒赤潮藻的荧光识别分析技术,以实现有毒赤潮藻的快速、低成本测定。
1.1 藻种的选择与培养
选择3种近海常见有毒赤潮藻(见表1)进行实验室培养。设置培养温度为20℃;光照强度为6000lux和12000lux;光暗比为12h∶12h,培养周期为12d,每4d取一次样进行荧光测定,每个藻种需要平行培养2份,共获得36个单种藻样品。所有藻种均由中国海洋大学海洋污染生态化学实验室提供。
表1 实验所选用的3种有毒赤潮藻
藻种培养过程中,收集进入生长平稳期的藻种,获得色素萃取液,使用Shimadzu UV-2550紫外-可见分光光度计(日本岛津公司),测定色素萃取液的吸收光谱,将3种有毒赤潮藻分别与6种浮游藻,威氏海链藻(Thalassiosiraweissflogii)、旋转海链藻(Thalassiosiracurviseriata)、圆海链藻(Thalassiosirarotula)、简裸甲藻(Gymnodiniumsimplex)、隐藻(Rhodomonassp.CCMP1533)和洛氏角毛藻(Chaetoceroslorenzianus)按照叶绿素浓度比1∶9、1∶4、3∶7、2∶3、3∶2、7∶3、4∶1、9∶1进行两两混合,得到浮游藻色素萃取液混合样品193个。这6种浮游藻均为中国近海常见优势藻。
1.2 三维荧光光谱数据的获得
设置激发波长和发射波长范围分别为:350~700nm和600~750nm,设置步长和狭缝宽度均为5nm,设置扫描速度为80nm/s,信号积分时间为0.05s。使用1cm石英比色皿取样,使用Fluorolog3-11荧光分光光度计(JobinYvon,France)测量,得到浮游藻色素萃取液的三维荧光光谱。
1.3 色素萃取液三维荧光光谱的预处理
在分解之前首先使用三角形内插值法[19]去除三维荧光光谱中的Rayleigh散射,从而提高荧光光谱解析效率。并将去除散射后的EEM数据降维、归一化处理。
1.4 db7小波分解
db7小波是具有正交性以及支集长度和滤波器长度为2N-1的小波函数,用于浮游藻色素萃取液荧光光谱的分解,得到尺度分量和小波分量。
1.5 支持向量机回归
支持向量机是在统计学理论基础上发展出的一种新的机器学习方法,对于小样本、非线性和高维空间的模式识别准确程度较高。将支持向量机推广到非线性系统的回归估计,成为一种新的定量预测方法,称为支持向量机回归。该方法的基本思想是:将数据通过一个非线性映射,映射到高维特征空间,并在这个空间进行线性回归。SVR的回归模型为:
2.1 db7小波对赤潮藻色素萃取液荧光光谱的分解
小波分析是一个通过提取和凸显光谱或图像信号特征对目标进行自动识别的具有较强抗干扰能力的非常有效的工具。小波特征谱定义为原始荧光光谱在小波空间的投影,每个小波空间上的投影为小波特征谱的特征段。本文选择具有紧支撑、正交性的db7小波函数,将归一化后的浮游藻色素萃取液荧光光谱进行小波分解,得到不相关的系列尺度分量Ca(n)和小波分量Cd(n)。以东海原甲藻(Pr)为例,荧光光谱被逐层分解为尺度分量和小波分量(见图1),可以看出,第一层和第二层的尺度分量均受到较强的高频噪声干扰,光谱特异性较差;第三层之后的分量噪声干扰小,光谱特征明显。因此,选择第3~6层尺度分量和小波分量作为备选特征谱。
(Cd1~Cd6代表第一层到第六层小波分量;Ca1~Ca6代表第一层到第六层尺度分量。Cd1~Cd6 stands for the first to sixth wavelet vectors; Ca1~Ca6 stands for the first to sixth scale vectors.)
图1 db7小波函数对东海原甲藻色素萃取液荧光光谱分解示意图
Fig.1 The fluorescence spectrum ofPrdecomposed by db7 wavelet
2.2 浮游藻色素萃取液荧光特征谱的选择
Bayesian判别分析的基本思想是[21]:假设在抽样前对研究的对象已经有一定的认识,首先用先验分布来描述这种认识,然后根据抽取的样本对先验认识进行修正,从而得到后验分布,最后根据后验分布进行各种统计推断。本文采用Bayesian判别分析法选择最佳特征谱,将备选特征谱(3~6层尺度分量和小波分量)进行Bayesian判别分析,根据平均错误判别率选择最佳特征谱。结果如图2所示,图中横坐标表示荧光特征谱的数目,纵坐标表示浮游藻的分类,散点表示识别错误的光谱。
(Cd3~Cd6代表第三层到第六层小波分量;Ca3~Ca6代表第三层到第六层尺度分量。Cd3~Cd6 stands for the third to sixth wavelet vectors;Ca3~Ca6 stands for the third to sixth scale vectors.)
图2 Bayesian判别分析单种藻特征分量结果
Fig.2 The Bayesian discriminant analysis of single-algae species
对单种藻的判别效果,Ca3的平均错误判别率为0.0%,Ca4的平均错误判别率为8.3%,Ca5的平均错误判别率为8.3%,Ca6的平均错误判别率为25.0%,Cd3的平均错误判别率为0.2%,Cd4的平均错误判别率为8.3%,Cd5的平均错误判别率为8.3%,Cd6的平均错误判别率为33.0%。因此,选择第三层尺度分量(Ca3)的特征谱来构建浮游藻色素萃取液的荧光识别特征谱库。
2.3 建立小波分解-支持向量机回归识别分析模型
选择第一培养平行样的18个单种藻样品及不同浓度梯度的105个混合样品作为训练集,第二培养平行样的18个单种藻样品及不同浓度梯度的88个混合样品作为测试集。用支持向量机回归建立3种有毒浮游藻的识别测定模型,利用网格寻优法优化参数,得到惩罚系数C=8192;核函数系数g=0.0313。最后,根据优化参数建立支持向量机回归模型,对测试集样品进行预测分析,计算得到测试集的最大均方根误差为2.7%。
利用所建立的技术对3种有毒赤潮藻样品进行识别分析,将预测含量与实际含量进行比对,如果有毒藻种实际含量高于另一藻种,而预测含量也相应较高,即为识别正确。结果如下:单种藻样品的平均识别正确率为100%,海洋卡盾藻(Chattonellamarine)识别的含量范围为94.0%~100.0%;东海原甲藻(Prorocentrumdonghaiense)识别的含量范围为99.0%~101.0%;球形棕囊藻(Phaeocystisglobosa)识别的含量范围为89.0%~100.0%。对88个测试集混合样品,如表2所示:海洋卡盾藻(Chattonellamarine)含量在10%、20%、30%、40%、60%、80%、90%时的平均识别正确率为66.7%、66.7%、100.0%、100.0%、100.0%、100.0%、100.0%,其含量高于40%时即可被正确识别。东海原甲藻(Prorocentrumdonghaiense)在相同含量水平上的识别正确率为50%、100%、100%、100%、100%、100%、100%,其含量高于20%时全部识别正确。球形棕囊藻(Phaeocystisglobosa)在相同含量水平上的识别正确率为0.0%、50.0%、25.0%、60.0%、100.0%、100.0%、100.0%,其含量高于60%时全部识别正确。混合样品实际含量与预测含量之间的关系如图3,球形棕囊藻(Phaeocystisglobosa)实际含量与预测含量线性相关性系数R2=0.9104,海洋卡盾藻(Chattonellamarine)实际含量与预测含量线性相关性系数R2=0.8099;东海原甲藻(Prorocentrumdonghaiense)实际含量与预测含量线性相关性系数R2=0.6016,当其含量超过60%时,实际含量与预测含量之间具有较好的线性相关性。
由实验结果可知,该技术对海洋卡盾藻(Chattonellamarine)、东海原甲藻(Prorocentrumdonghaiense)的实验室混合样品识别结果较好,在这2种有毒赤潮藻含量达到30%时即可完全被正确识别;对球形棕囊藻(Phaeocystisglobosa)的混合样品,在60%含量时才能被完全正确识别。实验所用藻种在不同光照条件下培养,且3种有毒赤潮藻分别与6种其他常见优势藻进行了混合,分析表明,所用光照强度、共存藻的类别及赤潮藻生长期对赤潮藻的识别没有明显影响。
表2 88个实验室混合样品的识别分析结果
(a.球形棕囊藻(Cg)实际含量与预测含量相关性分析;b.海洋卡盾藻(Cm)实际含量与预测含量相关性分析;c.东海原甲藻(Pr)实际含量与预测含量相关性分析。a.Relationships between the predicted and measured content of Cg; b.Relationships between the predicted and measured content of Cm; c.Relationships between the predicted and measured content of Pr.)
图3 混合藻种样品实际含量与预测含量的相关性
Fig.3 Relationships between the predicted and measured results of mixtures
本文针对我国近海常见3种有毒赤潮浮游藻,基于浮游藻色素萃取液三维荧光光谱,利用Db7小波和支持向量机回归建立了荧光识别技术。该技术对单种藻的平均识别正确率达到100.0%,对于3种有毒浮游藻的混合样品,在其相对含量高于60%时,识别正确率也达到100%。球形棕囊藻(Phaeocystisglobosa)、海洋卡盾藻(Chattonellamarine)、东海原甲藻(Prorocentrumdonghaiense)预测含量与实际含量的线性相关性系数分别为0.9104、0.8099、0.6016。特别是当3种有毒赤潮藻的相对含量超过60%时,预测含量与实际含量之间具有更好的线性相关性。此技术可为3种有毒浮游藻的现场快速监测提供技术支持。
[1] 陆斗定. 全球赤潮生态学与海洋学(GEOHAB)国际合作计划[J]. 东海海洋, 2002, 20(10): 60-64. Lu D D. Global Ecology and Oceanography of Harmful AlgalBlooms(GEOHAB)international partnership[J]. Donghai Marine Science, 2002, 20(10): 60-64.
[2] 杜伟, 陆斗定. 有毒赤潮藻及其毒素的危害与检测[J]. 海洋学研究, 2008, 26(2): 89-97. Du W, Lu D D. Harmful effects and detection of toxic algae and their algal toxins [J]. Journal of Marine Sciences, 2008, 26(2): 89-97.
[3] 林凤翱, 关春江, 卢兴旺. 近年来全国赤潮监控工作的成效以及存在问题与建议[J]. 海洋环境科学, 2010, 29(1): 148-151. Lin F A, Guan C J, Lu X W. Effects of red tide events monitoring, existence questions and suggestions in coastal areas in recent years in China [J]. Marine Environmental Science, 2010, 29(1): 148-151.
[4] Pech-Pacheco J L, Alvarez-Borrego. Optical-digital system applied to the identification of five phytoplankton species [J].Marine Biology, 1998, 132(3): 357-365.
[5] Lynne Boddy, Morris C W, Wilkins M F, et al. Identification of 72 phytoplankton species by radial basis function neural network analysis of flow cytometric data [J]. Marine Ecology Progress Series, 2000, 195: 47-59.
[6] Mackey M D, Mackey D J, Higgins H W, et al. CHEMTAX-aprogram for estimating class abundances from chemcal markers:Application to HPLC measurements of phytoplankton [J]. Marine Ecology Progress Series, 1996, 144(195): 265-283.
[7] Galluzzi L, Penna A, Bertozzini E, et al. Development of a real-time PCR assay for rapid detection and quantification of Alexandriumminutum (a dinoflagellate)[J]. Applied and Environmental Microbiology, 2004, 70(2): 1199-1206.
[8] Yentsch C S, Phinney D A. Spectral fluorescence: An taxonomic tool for studying the structure of phytoplankton populations [J]. Journal of Plankton Research, 1985, 7(5): 617-632.
[9] Sepp01l01 J, Balode M. The use of spectral fluorescence methods to detect changes in the phytoplankton community[J]. Hydrobiologia, 1997, 363(1-3): 207-217(11).
[10] 张芳. 基于小波分析的东海浮游藻种类的荧光光谱识别技术研究[D]. 青岛: 中国海洋大学, 2008. Zhang F. Studies on the Identification of the Excitation-Emission Matrices of Phytoplankton in the East China Sea Based on Wavelet Analysis[D]. Qingdao: Ocean University of China, 2008.
[11] Zhang F, Su R G, Wang X L, et al. A fluorometric method for the discrimination of harmful algal bloom species developed by wavelet analysis[J]. Journal of Experimental Marine Biology and Ecology, 2009, 368: 37-43.
[12] Zhang F, SuR G, He J, et al. Identifying phytoplankton in seawater based on discrete excitation-emission fluorescence spectra 69[J]. Journal of Phycology, 2010, 46(2): 403-411.
[13] 张芳, 苏荣国, 王修林, 等. 浮游藻荧光特征提取及识别测定技术[J]. 中国激光, 2008, 35(12): 2052-2059. Zhang F, Su R G, Wang X L, et al. Fluorescence characteristics extraction and differentiation of phytoplankton[J]. Chinese J Lasers, 2008, 35(12): 2052-2059.
[14] Staehr P A, Cullen J J. Detection of Kareniamikimotoi by spectral absorption signatures[J]. Journal of Plankton Research, 2003, 25(10): 1237-1249.
[15] 张学工. 关于统计学习理论和支持向量机[J]. 自动化学报, 2000, 26(1): 32-42. Zhang X G. Introduction to statistical learning theory and support vector machines[J]. Acta Automatica Sinica, 2000, 26(1): 32-42.
[16] 方辉, 艾青. 支持向量机训练及分类算法研究[J]. 大庆师范学院学报, 2009, 29(3): 85-88. Fang H, Ai Q. Research on classification algorithm of support vector machine and it′s training[J]. Journal of Daqimg Normal University, 2009, 29(3): 85-88.
[17] 张成成, 陈求稳, 徐强, 等. 基于支持向量机的太湖梅梁湾叶绿素a浓度预测模型[J]. 环境科学学报, 2013, 33(10): 2856-2861. Zhang C C, Chen Q W, Xu Q, et al. 2013. A chlorophyll-a prediction model for Meiliang bay of Taihu based on support vector machine[J]. Act Scientiae Circumstantiae, 2013, 33(10): 2856-2861.
[18] 魏国, 刘昕, 孙金玮, 等. 基于支持向量回归的三元溶液浓度重构算法研究[J]. 电子学报, 2008, 36(4): 695-700. Wei G, Liu X, Sun J W, et al. Support vector regression based reconstruction algorithm for concentrations of ternary solution[J]. Acta Electronica Sinica, 2008, 36(4): 695-700.
[19] Zepp R G, Sheldon W M, Moran M A. Dissolved organic fluorophores in southeeastern US coastal waters: Correction method for eliminating Rayleigh and Raman scattering peaks in excition-emission matrices[J]. Marine Chemistry, 2004, 89: 15-36.
[20] 许建华, 张学工. VAPNIK V N. 统计学习理论[M]. 北京: 电子工业出版社, 2004 : 61. Xu J H, Zhang X G. VAPNIK V N. Statistical Learning Theory[M]. Beijing: Publishing House of Electronics Industry, 2004 : 61.
[21] 范金城, 梅长林. 数据分析[M]. 北京: 科学出版社, 2002. Fan J C, Mei C L. Data Analysis[M]. Beijing: Science Press, 2002.
责任编辑 徐 环
A Fluorescence Technology for Discriminating Toxic Algae by Support Sector Machine Regression
QI Xiao-Li, WU Zhen-Zhen, ZHANG Chuan-Song, SU Rong-Guo, SHI Xiao-Yong
(The Key Laboratory of Marine Chemistry Theory and Technology, Ministry of Education, College of Chemistry and Chemical Engineering, Ocean University of China, Qingdao 266100, China)
In recent years, toxic algae blooms had occurred frequently and the corresponding detecting technique for toxic algae was in urgent need. In this study, the discrimination technique for 3 toxic algae was developed by fluorescence excitation-emission matrixes(EEMs) and support vector regression (SVR). Firstly, the algae were cultured and EEMs of the algae pigment extracts were measured. Secondly, the EEMs were decomposed by db7 wavelet analysis and Bayesian discriminant analysis (BDA) was used to select the discriminating characteristic spectra from the scale vectors. Finally, the fluorescence discrimination method for 3 toxic algae were developed by SVR. When the developed method was used for single-algae samples, the average correctly discriminated ratio(CDR) was 100%. For 88 mixtures, when their relative percentage contents were 10%、20%、30%、40%、60%、70%、80% and 90%, CDRs forChattonellamarinewere 66.7%、66.7%、100.0%、100.0%、100.0%、100.0%、100.0% and 100.0%, that forProrocentrumdonghaiensewere 50.0%、100.0%、100.0%、100.0%、100.0%、100.0%、100.0% and 100.0% and that forPhaeocystisglobosawere 0.0%、50.0%、25.0%、60.0%、100.0%、100.0%、100.0% and 100.0%, respectively. The technique would be useful when low-cost and rapid method was needed for monitoring toxic algae blooms in the developing period.
fluorescence excitation-emission matrix; toxic algae; Daubechies7; support vector regression
国家自然科学基金项目(41376106);国家科技重大专项项目(2012ZX07501);山东省自然科学基金项目(ZR2013DM017)资助 Supported by Natural Science Foundation of China(41376106); National Science and Technology Major Project(2012ZX07501); Natural Science Foundation of Shandong Province(ZR2013DM017)
2015-07-02;
2015-08-27
齐晓丽(1989-),女,硕士生。E-mail:15192538791@163.com
❋❋ 通讯作者:E-mail: surongguo@ouc.edu.cn
N34
A
1672-5174(2016)12-073-08
10.16441/j.cnki.hdxb.20150242
齐晓丽, 吴珍珍, 张传松, 等. 基于支持向量机回归的3种常见有毒赤潮藻荧光识别技术[J]. 中国海洋大学学报(自然科学版), 2016, 46(12): 73-80.
QI Xiao-Li, WU Zhen-Zhen, ZHANG Chuan-Song, et al. A fluorescence technology for discriminating toxic algae by support sector machine regression[J]. Periodical of Ocean University of China, 2016, 46(12): 73-80.