梁礼明,吴 健,陈召阳,朱 莎
(江西理工大学电气工程及自动化学院,江西赣州 341000)
特征提取的改性麦糟吸附三价砷离子模型
梁礼明,吴 健,陈召阳,朱 莎
(江西理工大学电气工程及自动化学院,江西赣州 341000)
由于改性麦糟吸附三价砷离子As(Ⅲ)的过程复杂,引入特征提取的方法将能够快速发现实验中各因素对吸附率的影响,揭示改性麦糟吸附As(Ⅲ)的最适条件和最佳效果.应用线性降维方法主成分分析和非线性降维方法流形学习提取官能基团和吸附活性质之间的关系.最后,利用支持向量回归模型和偏最小二乘法模型建立构效关系模型,探寻得出最佳吸附条件为:改性剂浓度1 mg/L,改性剂溶液pH为7,改性时间为12 h,反应温度为20℃,吸附时间为2 h,改性麦糟用量为0.3 mg,吸附率能达到96.19%.
特征提取;改性麦糟;主成分分析;流形学习;支持向量机回归
随着现代工业的快速发展,含有砷离子废水的排放量急剧增加和含砷制品的广泛应用,致使环境污染严重.由于砷等重金属排放到环境中后,只能改变其形态或被转移、稀释、在生物体内积累,而不能被降解,对生态环境和人类的健康造成了严重的威胁.如何消除砷等重金属的危害是当今环境保护工作面临的突出问题,己受到国内外各界的普遍重视[1].目前传统的对重金属离子废水处理方法有离子置换、活性炭吸附、反渗透膜分离及氧化还原等,这些经验方法各具优缺点,不能兼顾实用效果和经济利益.正由于传统方法的种种局限,近年来,越来越多的学者将研究目光转向生物材料在重金属废水处理上的应用,因为它们与金属离子具有天然的亲和力,可以利用它们自身含有的官能团或通过化学反应引入特定的基团去吸附重金属离子[2-4].
麦糟是一种来源广泛、极易获得、成本低廉且富含纤维素的工业废弃生物材料[5].它为表面多孔的结构,因而对砷具有天然的吸附性能.改性是通过一系列的物理化学方法引入吸附作用强的活性基团,以提高其吸附能力.通过实验发现,经过氯化钠、甲醇、乙醇和聚丙烯酰胺(polyacrylamide,PAM)溶液改性后的麦糟,吸附多种重金属离子的性能均得到了提高,本文以PAM改性后的麦糟对三价砷离子As(III)作为研究对象.
由于改性麦糟吸附砷离子构效关系是一个结构复杂、变量众多,有着时、空、量、序变化的非线性动态系统.其吸附机理非常繁杂,维数高,至今对于其吸附重金属离子还没有清晰和完整的理论体系.由于本文所涉及的实验具有很多局限性,例如实验周期长、实验药品成本高、部分实验具有危险腐蚀性等[6],因此在改性麦糟吸附三价砷离子构效关系研究中引入特征提取,能够大大减少了实验过程中花费的人力物力,极大地节约成本,并且能够为其研究提供指导意义.
定量构效关系(quantitative structure activity relationship,QSAR)模型[7-8]主要研究的是化合物的结构和活性之间存在的关系,主要步骤包括:化合物收集、分子结构构建和优化、描述符的计算、描述符的筛选、模型的建立与评价,如图1所示.
在PAM改性条件下分别考查了改性剂PAM浓度、溶液pH、改性时间、反应温度、三价砷离子溶液pH、反应时间、改性麦糟使用剂量和三价砷离子初始浓度等因素对生物吸附剂深度净化效果的影响,揭示该生物吸附剂对As(III)吸附的最佳条件和最佳效果.
本文需要对已得的试验数据进行整理,得到改性剂的制备、吸附反应过程等8个参数的47组样本,参数和试验样本数据分别如表1、2所示.
表1 影响吸附的因素Table 1 Factors of affecting adsorption
特征提取是数据建模与数据挖掘的基本问题之一,其目的是通过计算获取数据的可测特性、解释其本质自由度并给出数据的本质低维表示,其根本任务是从数据集中监测其本质维数,并将高维数据表示为其本质低维对应的特征数据.
目前,关于麦糟中能够吸附砷离子官能基团和吸附活性质之间的关系,没有给出明确的定性.相关文献的研究中只应用简单的主成分分析特征提取法对数据处理,并对数据的结构关系进行解释,并没有从非线性的角度讨论.本文主要应用不同的特征提取方法对其关系进行讨论,并对基于此法得到的描述符建立QSAR模型做进一步探索.
2.1主成分分析特征提取
主成分分析(principal conponent analysis,PCA)是模式识别中常用的线性降维方法,它通过计算各主成分的方差贡献率来减少变量,实现降维.
表2 试验样本数据Table 2 Test sample data
续表
假设官能基团和吸附活性质之间为线性关系,用PCA计算完主分量后,得到了一组按大小排好的向量,该向量的每个元素都是协方差矩阵{λ1,λ2,…,λm}的特征值,换言之,每个特征值都是主成分,其中最大的就是第1主成分.
图2为主成分的分布,从图中可以看出,在特征数为5时,对应的曲线趋于稳定,此时的累计贡献率达到了98%以上.所以用PCA方法将原始描述符矩阵的维数约减到5维是比较合适的,此时得到的矩阵为M1,它的维数为47×5,表示有47个样本,每个样本的维数为5.
2.2流形学习的特征提取
流形学习[9]是一种针对非线性数据结构作用的一种降维方法,本节将从麦糟成分的官能基团和吸附活性质之间假设存在非线性关系讨论.
在使用流形学习算法时,需要对2个参数预先设定,邻域K和本征维数d,目前关于这2个参数的选定还没有专门的方法去确定,只能通过实验估计或其他指标来判断,大大约束了这些算法的使用.如果邻域K选择过大,则效果与PCA相似;邻域K选择过小,则破坏了数据间的结构,原数据的全局特性不能被反映出来.本征维数d的选择过大,容易引入噪声;维数d的选择过小出现数据过压缩,破坏了数据间的关系.
邻域K和本征维d的选择算法思路如下:
根据给定具有密度函数的流形分布信息来估计该数据集的本征维d,流形分布的密度为
式中:Ωn为本征维d的流形面;p(·)为密度估计函数;B(x,r)是以x为中心,r为半径的球体;Vd为d维单位球体的体积.
一般情况下,可以对式(1)进行近似简化为
式中K为x的邻域尺寸.
对简化完的表达式两边求对数有
式中η(xi,rk,xi)被定义为r与xi的相关函数,通常可近似认为一个常数.
rk,p为x的k近邻距离指数p加权均值,即rk,p=于是可以将最初的模型式(1)继续等价于
在rk,p中含有不同的加权系数p,式(4)可以获得不同情况下流形的本征维.根据数据局部结构密度分布均匀且稳定,
于是,有了可以近似表达本征维的分布
前面,当p=1时,rk,p可优化为
当p=0时,为一个可去间断点,rk,p可优化为
当p→∞时,同样的方法,可以实现本征维的估计.对于Kopt,本节使用方差来度量在K近邻下的流形分布是否合理,而最优本征维dopt为dkopt(1)或dkopt(0)的估计值.
对于得到的描述符矩阵,本节应用提出的算法进行降维处理,首先用方差作为指标的方法来选择最优邻域Kopt,在综合分析的基础上,本文选择Kopt为11.
在确定好Kopt后,根据指数加权的方法计算数据的最优本征维dopt,图3为K=11时dk(p)曲线图,本征维分布很稳定,指标能够稳定收敛,故此时对应的方差Var(dk(·))最小,综上,数据的最优本征维dopt在5~6取值,取5更优.
流形学习中ISOMAP[10]更适合在变换过程中保持数据结构的全局特性,用测地距离代替欧式距离表示更能体现样本点之间的实际距离.
算法邻域和本征维的选择根据前文中的指数加权法确定:K=11和d=5.应用ISOMAP算法后,得到的矩阵为M2.
流形学习中LLE则更适合在变换过程中保持数据结构的局部特性[11],它是基于重构误差最小化的思想,实现高维空间到低维空间的投影.同样,描述符矩阵应用LLE算法前,需要确定算法的邻域和本征维,根据指数加权法确定:K=11和d=5.应用LLE算法后得到的矩阵为M3.
要建立改进型的QSAR模型,即改性条件、描述符与指标吸附率之间的数学模型[12-13]
式中:A为改性条件;B为筛选的描述符(表示结构信息);C为吸附率.
选择使用2种广泛使用的建模工具支持向量回归机(support vector regression,SVR)和偏最小二乘法(partial least squares,PLS)对基于特征提取的描述符和改性过程条件及吸附条件进行建模,实现官能团最佳配型以及最适条件的选择和预测.
模型预测的稳定性与可靠性分别通过均方根误差(mean squared error,MSE)和平方相关系数(squared correlation coefficient,SCC)2个指标进行评价,MSE越小,SCC越大,表明所训练的模型越好.
式中:n为样本数量;ypred为样本的预测值;yobj为样本的实验值.
3.1支持向量回归机模型
对于得到的3个降低维数后的描述符矩阵M1、M2、M3结合条件矩阵应用SVR[14]构建新的构效关系模型.图4为用PCA、ISOMAP、LLE算法对描述符特征提取后改性麦糟吸附三价砷离子的SVR预测模型.表3为对应的惩罚参数C和核参数g,以及拟合评价指标MSE和SCC.
表3 PAM改性SVR模型参数Table 3 SVR model parameters of PAM modification
3.2偏最小二乘法模型
图5分别为用PCA、ISOMAP、LLE算法对描述符特征提取后的改性麦糟吸附三价砷离子的PLS预测模型[15].表4为对应的模型拟合评价指标MSE和SCC.
表4 PAM改性PLS模型参数Table 4 PLS model parameters of PAM modification
3.3模型分析
从表3~4和图4~5的结果对比可知:
1)SVR建立的改性方法吸附模型,相比PLS方法建立的模型,拟合效果更优,即非线性模型比线性模型更适合描述麦糟成分化合物的结构与表现出的活性和过程(改性和反应)条件之间的关系.
2)PLS相比SVR模型,MSE比较大,表明了模型预测的数据变化较大,具有较低的精确度;SCC也比较大,表明变量之间的相关性不高.
3)PCA方法比使用流形学习方法(ISOMAP和LLE)效果更优,说明了改性麦糟化合物描述符的数据结构可能呈现线性.而流形学习中ISOMAP比LLE效果好,说明ISOMAP从全局意义上保存了描述符间的结构从高维到低维的映射,整个过程必要的信息损失较少.
4)根据建模方法和实际实验方法得出的最佳吸附条件为:改性剂质量浓度1 mg/L,改性剂溶液pH为7,改性时间为12 h,反应温度为20℃,吸附时间为2 h,改性麦糟用量为0.3 mg,吸附率能达到96.19%.
1)基于特征提取方法对改性麦糟吸附三价砷离子的实验数据进行处理,并建立SVR回归预测模型,可以有效描述麦糟成分化合物的结构与表现出的活性.
2)对模型的验证表明,本文模型具有较好的稳定性和有效性.通过部分实验测定结果,运用模型预测出最佳实验结果,而不用重复烦琐的实验,可以解决实验周期长、实验药品成本高等问题,极大程度地减少实验成本,节约时间.
[1]NGAH W S W,TEONG L C,HANAFIAH M A K M. Adsorption of dyes and heavy metal ions by chitosan composites:a review[J].Carbohydrate Polymers,2011,83(4):1446-1456.
[2]CHEN Y N,CHAI L Y,SHU Y D.Study of arsenic(V)adsorption on bone char from aqueous solution[J].Journal of Hazardous Materials,2008,160:168-172.
[3]SANDRO D F.The discovery of placenta growth factor and its biological activity[J].Experimental&Molecular Medicine,2012,44:1-9.
[4]CHEN Y N,DING L C,NIE J X.Isotherm and thermodynamic studies of the biosorption of lead,cadmium and copper from aqueous solutions by rice bran[J]. Desalination and Water Treatment,2012,44(1/2/3): 168-173.
[5]PETRONE P M,SIMMS B,NIGSCH F.Rethinking molecular similarity:comparing compounds on the basis of biological activity[J].ACS Chem Boil,2012,7(8): 1399-1409.
[6]OTTAVIANI J I,MOMMA T Y,HEISS C,et al.The stereochemical configuration of flavanols influences the level and metabolism of flavanols in humans and their biological activity in vivo[J].Free Radical Biology& Medicine,2011,50(2):237-244.
[7]TODD M M,PAUL H,DOUGLAS M Y.Does rational selection of training and test sets improve the outcome of QSAR modeling[J].Journal of Chemical Information and Modeling,2012,52(10):2570-2578.
[8]GRAMATICA B P.External evaluation of QSAR models,in addition to cross-validation:verification of predictive capability ontotallynewchemicals[J].Molecular Informatics,2014,33(4):311-314.
[9]LUNGA D,PARASAD S,CRAWFORD M M,et al. Manifold-learning-based feature extraction for classification of hyperspectral data:a review of advances in manifold learning[J].Signal Processing Magazine,2014,31(1): 55-56.
[10]TANG B P,SONG T,LI F,et al.Fault diagnosis for a wind turbine transmission system based on manifold learning and shannon wavelet support vector machine[J]. Renewable Energy,2014,62:1-9.
[11]XU Y M,LI Y,LIN T.A novel cache size optimization scheme base on manifold learning in content centric networking[J].JournalofNetworkandComputer Applications,2014,37:273-281.
[12]LIN F Y,YEH C C,LEE M Y.The use of hybrid manifold learning and support vector machines in the prediction of business failure[J].Knowledge-Based Systems,2011,24(1):95-101.
[13]ORSENIGO C,VERCELLIS C.Kernel ridge regression for out-of-sample mapping in supervised manifold learning [J].Expert Systems with Applications,2012,39(9): 7757-7762.
[14]HUNG K C,LIN K P.Long-term business cycle forecasting through a potential intuitionistic fuzzy leastsquaressupportvectorregressionapproach[J]. Information Sciences,2013,224:37-48.
[15]HELANDER E,SILEN H,VIRTANEN T,et al.Voice conversion using dynamic kernel partial least squares regression[J].Audio,Speech,andLanguage Processing,2011,20(3):806-817.
(责任编辑 杨开英)
Model for Modified Spent Grains Adsorption As(III)Ions With Feature Extraction
LIANG Liming,WU Jian,CHEN Zhaoyang,ZHU Sha
(School of Electrical Engineering and Automation,Jiangxi University of Science and Technology,Ganzhou 341000,Jiangxi,China)
Exploring the optimum condition for modified spent grains’adsorption of As(III)is complex,this paper introduces a feature extraction method to help find the influence on adsorption rate for each factor during the experiment,to discover the optimum condition for modified spent grains to adsorb As(III).To extract the relationship between functional group and adsorption properties,both linear principal component analysis method and nonlinear manifold learning method were adopted for dimension reduction.Finally,the quantitative structure activity relationship with support vector regress and partial least squares was established to find out the optimum condition for adsorption.Results show that the modifier concentration is 1 mg/L,the PH value of solution is 7,modification time is 12 h,reaction temperature is 20℃,adsorption time is 2 h,dose of modified spent grain is 0.3 mg,and the adsorption rate can reach 96.19%.
feature extraction;modified spent grains;principal component analysis;manifold learning;support vector regress
TP 391.9;TQ 015.9
A
0254-0037(2016)09-1294-07
10.11936/bjutxb2015090045
2015-09-17
国家自然科学基金资助项目(51164014);江西省自然科学基金资助项目(20132BAB203020);江西省教育厅科学技术研究项目(GJJ13430)
梁礼明(1967—),男,教授,主要从事机器学习、模式识别方面的研究,E-mail:Lianglm67@163.com