分子电性距离矢量用于多氯代二苯并呋喃光解半衰期的QSPR研究

2010-10-23 02:05李美萍张生万胡永钢王增巧
生态毒理学报 2010年2期
关键词:电性半衰期矢量

李美萍,张生万,*,胡永钢,王增巧

1.山西大学生命科学学院,太原030006

2.山西大学化学化工学院,太原030006

分子电性距离矢量用于多氯代二苯并呋喃光解半衰期的QSPR研究

李美萍1,张生万1,*,胡永钢2,王增巧2

1.山西大学生命科学学院,太原030006

2.山西大学化学化工学院,太原030006

多氯代二苯并呋喃(PCDFs)是一种典型的持久性有机污染物(POPs),光解是其在环境中转化的主要途径.以分子电性距离矢量(Molecular Electronegativity Distance Vector,MEDV)为参数,应用多元线性回归(Multiple Linear Regression,MLR)和偏最小二乘回归(PLSR)对48种PCDFs在云杉针叶和飞灰表面的光解半衰期(t1/2)进行模拟分析,均获得由2个变量所建的定量结构-性质相关(QSPR)模型.多元线性回归结果:建模相关系数(R)分别为0.860和0.836,标准偏差(SD)分别为0.052和0.053,交互检验复相关系数(Rcv)分别为0.839和0.807,外部检验相关系数(Qext)分别为0.939和0.853;偏最小二乘回归结果:建模相关系数(R)分别为0.857和0.829,交互检验复相关系数(Rcv)分别为0.849和0.807.结果表明,MEDV能较好地表征该类分子的结构信息,所建QSPR模型具有良好的稳定性和预测能力.

多氯代二苯并呋喃(PCDFs);分子电性距离矢量(MEDV);定量结构-性质相关(QSPR);光解半衰期

1 引言(Introduction)

多氯代二苯并呋喃(polychlorinated dibenzofurans,PCDFs)与氯代二苯并-对-二噁英(PCDDs)一起合称为氯代二噁英或二噁英类.因氯原子的取代数目及位置不同,PCDFs共有135种分子结构,是一种典型的持久性有机污染物(POPs),不仅具有生殖毒性、免疫毒性和内分泌毒性,而且还具有环境持久性、生物累积性和全球范围的长距离迁移能力,因此目前PCDFs化合物已经成为全球环境问题关注的焦点.PCDFs是首批列入《斯德哥尔摩公约》的12种POPs之一,主要来源于木材、化石燃料和生活垃圾的燃烧,以及纸浆漂白、化工生产和金属冶炼等过程,目前已广泛存在于空气、水、土壤、底泥等各种环境介质中.PCDFs具有较强的稳定性,在自然条件下很难发生生物和化学降解,光降解是其在环境中转化的主要途径(张幸川等,2007;谷成刚等,2008;黄俊等,2002a;黄蕾等,2005).一些研究表明,植物表面光解过程对于有机污染物从大气到食物链的迁移有重要的影响(Barber et al.,2004).PCDFs在植物表面上的光解主要发生在植物叶面角质层中(Barber et al.,2004;Chen et al.,2001a),其中,光解半衰期(t1/2)对于考察此类污染物的环境行为并进行环境风险评价有重要的作用.由于实验测定PCDFs的光解半衰期需要特殊设备,消耗大量的时间和财力,因此发展PCDFs光解行为的定量结构-性质关系就显得尤为必要(Chen et al.,2001b;Niu et al.,2003;陈景文,1999;牛军峰等,2005;王蕾等,2007;林红卫等,2003;戴益民等,2006;安丽英等,2006;黄俊等,2002b).本研究以容易计算得到且具有明确物理-化学意义的分子电性距离矢量(MEDV)描述子为自变量,运用多元线性回归(Multiple Linear Regression,MLR)和偏最小二乘回归(PLSR)对模型中的变量进行筛选,建立了具有较强预测能力和稳定性的QSPR模型,有助于对PCDFs光解机理的研究.

2 基本原理与方法(Principles and methods)

基于分子二维拓扑结构,以各种非氢原子电负性及各原子之间的相对距离为主要分子结构特征,提出按4种原子类型划分的分子电性距离矢量,简称分子电距矢量(Molecular Electronegativity Distance Vector based on 4 atomic types,简记为MEDV-4或MEDV).文献(刘树深等,2000;王远强等,2005;仝建波和张生万,2007;孙立力和李志良,2005)已对分子电性距离矢量有比较清楚的描述,本文在此将不再赘述.

3 数据集选取及回归分析(Dataset and regression analysis)

3.1 数据采集

2,3,7 ,8-PCDF的结构如图1所示,当氯在不同的取代位时,就得到不同的PCDFs.云杉针叶表面和飞灰表面的48个PCDFs的光解半衰期(lgt1/2)值取自文献(王蕾等,2007).

图12 ,3,7,8-PCDF结构图Fig.1The generic structure of 2,3,7,8-PCDF

其10个MEDV描述子按文献介绍的方法进行计算,M14、M24、M34、M44均为零向量,剩余向量依次为:M11、M12、M13、M22、M23、M33,48个PCDFs的MEDV描述子及其光解半衰期(lgt1/2)见表1.

3.2 回归分析

3.2.1 多元线性回归

用MEDV对该类化合物进行表征时,为了观察MEDV各矢量对QSPR建模过程的影响和对模型的贡献大小,本文对PCDFs光解半衰期的参数采用多元线性回归(Multiple Linear Regression,MLR)进行建模,MLR是一种经典的建模方法,它对自变量和因变量加以线性拟合以得到最小二乘(Least Square,LS)意义下的最佳结果.首先计算出48个化合物的MEDV值,结果见表1,将所有样本的MEDV值与其光解半衰期(lgt1/2)相关联建模.在多元线性回归过程中,为了消除变量间偶然相关的影响,剔除影响模型稳定性的自变量,使回归方程始终显著,需要在多元回归分析中引入逐步回归的方法.本文采用正向逐步回归技术对模型进行逐步回归,以便进行变量筛选.需要指出的

是,在逐步回归的过程中,为了观察模型对外部样本的预测能力这一重要性能,我们通过设定适当的F临界值,使每个变量按其重要性的大小顺序逐步引入方程,观察建模相关系数(R)、标准偏差(SD)、F检验值(F)、留一法(Leave-One-Out,LOO)交互检验相关系数(Rcv)、标准偏差(SDcv)、F检验值(Fcv)随引入变量数的增加而变化的情况.逐步回归及交互检验结果如表2、表3所示.

表1 48个PCDFs的MEDV描述子及其光解半衰期(lgt1/2)Table 1MEDV and photolysis half-lives(lgt1/2)of 48 PCDFs

表2 云杉针叶表面逐步回归及交互检验结果Table 2Analysis of variables by stepwise multiple regression(SMR)on spruce needle surface

表3 飞灰表面逐步回归及交互检验结果Table 3Analysis of variables by stepwise multiple regression(SMR)on fly ash surface

从表2所得结果可看出,在逐步回归中,随变量个数m增加,建模相关系数R逐渐增加,标准偏差SD逐渐减小,表明模型对内部样本的估计能力在逐渐改善;另外,交互检验预测过程中,随m增加,Rcv先增加后减小,SDcv随变量个数m的增加先减小后增加,且当m=2时,Rcv出现最大值(0.839),SDcv有最小值(0.055),通过以上分析,可知选用2个变量建立模型最好.此时用42个化合物MEDV与其光解半衰期(lgt1/2)相关联,建立如下QSPR方程:

n=42,m=2,R=0.860,SD=0.052,F=55.173;CV建模:Rcv=0.839,SDcv=0.055,Fcv=46.318.

由表3同样可得到上述结论,且当m=2时,Rcv出现最大值(0.807),SDcv有最小值(0.056),可知选用2个变量建立方程最好.用47个化合物MEDV与其光解半衰期(lgt1/2)相关联,建立如下QSPR方程:

n=47,m=2,R=0.836,SD=0.053,F=50.876;CV建模:Rcv=0.807,SDcv=0.056,Fcv=41.038.

3.2.2 偏最小二乘回归(PLSR)

偏最小二乘回归(PLSR)模型目前在定量构效关系建模中较为流行.为保证变量单位空间尺度一致,首先采用自定标法对原始变量(6个描述子)标准化处理,随后用化学计量学软件Simca-p 10.0对所有样本建模,并以交叉检验最高值(交叉检验Y的解释方差)所对应的主成分数作为模型的复杂程度.对于云杉针叶表面提取出2个主成分,这2个主成分包含原始变量矩阵X 98.8%信息量,解释Y变量方差85.7%,交叉检验解释Y方差为84.9%;对于飞灰表面同样提取出2个主成分,这2个主成分包含原始变量矩阵X 97.2%信息量,解释Y变量方差82.9%,交叉检验解释Y方差为80.7%.可见PLS计算结果与多元线性回归结果基本吻合,说明所选模型具有良好的稳定性和预测能力.

3.3 模型验证

定量构效关系中非常重要的一个部分是对所建模型的外部预测能力和真实有效性进行验证,其中留一法(Leave-One-Out,LOO)交叉检验(Cross-Validation,CV)的复相关系数QLOO是目前较为广泛使用的一种模型验证方法,然而Tropsha等人(2003)研究结果表明:QLOO值的大小与模型预测能力并没有明显相关关系,对模型预测能力的评价只能通过外部样本集,即测试集来进行.模型外部预测能力可以用Qext(external Q)来衡量:

式(3)中,yi为测试集中样本的实验值;i为测试集样本的预测值tr为训练集样本实验的平均值.鉴于此,本文将全部样本分为两组,云杉针叶表面37个样本作训练集(training set),飞灰表面42个样本作训练集(training set),两者均选取5个相同的样本作为测试集(test set),且测试集选取方法相同,即在全部样本的每种取代物中随机选取一个样本作为测试集,选取的测试集在表1中用“*”号标出.它们的建模结果如下:

云杉针叶表面:

n=37,m=2,R=0.826,SD=0.052,F=36.458;CV建模:Rcv=0.797,SDcv=0.056,Fcv=29.544;Qext=0.939

图2 云杉针叶表面(a)和飞灰表面(b)实验值-预测值模型相关Fig.2Plot of experiment vs calculated on spruce needle surface(a)and fly ash surface(b)

飞灰表面:n=42,m=2,R=0.824,SD=0.046,F=41.255;CV建模:Rcv=0.778,SDcv=0.051,Fcv=29.947;Qext=0.853

图2a和图2b为所选模型的实验值-预测值相关,从中可看出分子电性距离矢量与PCDFs光解半衰期(lgt1/2)呈明显线性相关,具体表现为所有样本都均匀分布于过原点45°直线周围,无明显异常点;使用方程(4)和方程(5)对训练集估计值及测试集样本预测值与实验值的误差分布情况绘于及图3a和图3b.在图3a和图3b中绝大多数点的误差分布在2SD之间,且无异常点出现,进一步表明所建QSPR模型具有良好的稳定性和预测能力.

图3 云杉针叶表面(a)和飞灰表面(b)误差分布Fig.3Plot of ErrESTvs.n on spruce needle surface(a)and fly ash surface(b)

3.4 与文献模型的比较

本研究采用分子电性距离矢量(MEDV)表征多氯代二苯并呋喃的分子结构,运用多元线性回归(MLR)和偏最小二乘回归(PLSR)建立了PCDFs结构与其光解半衰期(lgt1/2)的定量结构-性质关系(QSPR)模型,同时采用内部及外部双重验证的办法对所建模型稳定性能进行分析和验证,结果表明所建模型稳定性和预测能力均很好.表4列出了本文建立的模型与一些文献模型的比较.

表4 本工作与文献的比较Table 4Comparison between the present models and some literature models

与文献(王蕾等,2007)电性拓扑态指数方法相比,用分子电性距离矢量计算所得相关系数和交互检验复相关系数略低于该文献,但MEDV计算简便,结构参数的取值完全来自分子本身的结构,且所建模型变量少,同时本文又进行了外部验证可进一步说明所建模型稳定;另外对于云杉针叶表面,虽然相比文献(牛军峰等,2005)量子化学PM3算法,本文所取样本数少,但所建模型相关系数、标准偏差和外部验证相关系数均高(表4).从预测结果也可看出介质不同PCDFs的光解速率也不同,一般随着氯原子数目的增加光解速率降低,这与文献(王蕾等,2007)所得结果一致,可见MEDV对于预测PCDFs的光解半衰期是一种快捷而有效的估测方法,同时这也为PCDFs的检测、评价等方法的建立,提供了有效的理论依据.

An L Y,Xiang Y H,Zhang Z Y,Hu W X.2006.The new advance and applications of quantitative structure-activity relationship[J].JournalofCapitalNormalUniversity(NaturalScience Edition),27(3):52-57(in Chinese)

BarberJL,ThomasGO,KerstiensG,JonesKC.2004.Current issues and uncertainties in the measurement and modelling of air-vegetation exchange and within-plant processing of POPs[J].Environmental Pollution,128(1-2):99-138

ChenJW,QuanX,PeijnenburgWJ,YangFL.2001a.Quantitativestructure-propertyrelationships(QSPRs)ondirect photolysis quantum yields of PCDDs[J].Chemosphere,43(2):235-241

Chen J W,Quan X,Yang F L,Peijnenburg W J.2001b.Quantitative structure-property relationships on photodegradation of PCDD/Fs in cuticular waxes of laurel cherry(Prunus laurocerasus)[J].Science of the Total Environment,269(1-3):163-170

Chen J W.1999.Quantitative Structure-Property Relationships andQuantitativeStructure-ActivityRelationshipsofOrganic Pollutants[M].Dalian:Dalian University of Technology Press(in Chinese)

Dai Y M,Deng X Q,Nie C M,Yang D W,Li Y C.2006.Predicting gas chromatographic retention indices of PCDFs with novel molecular descriptors[J].Journal of Nanhua University(Science and Technology),20(4):9-15(in Chinese)

Gu C X,Jiang X,Yan D Y,Bian Y R,Yu G F.2008.Study on the relationship between dioxin structures and n-octanol-water partition coefficients using density functional theory(DFT)[J].Acta Scientiae Circumstantiae,2(1):185-191(in Chinese)

Huang J,Yu G,Zhang P Y.2002a.Predicting the lgKowof PCDFs using single-phenyl-ring Cl-substitution pattern index[J].Research of Environmental Scienees,15(2):1-5(in Chinese)

Huang J,Yu G,Zhang P Y.2002b.Predicting the logKowusing moleculardistance-edgevectorcombinedwithartificialneural network(ANN)method[J].Computers and Applied Chemistry,19(1):103-107(in Chinese)

Huang L,Li X D,Lu S Y,Chen T,Yan J H,Cen K F.2005.PCDD/Fs control technologies in the municipal solid waste incineration processes[J].Power System Engineering,21(2):5-7(in Chinese)

LinHW.2003.PredictingthelgkowofPCDFsusingthe Molecular Electrongativity-Distance Vector(MEDV)[J].Jounal of Huaihua University,22(5):48-53(in Chinese)

Liu S S,Liu Y,Li Z L,Cai S X.2000.A novel molecular electronegativity-distancevector(MEDV)[J].ActaChinica Sinica,58(11):1353-1357(in Chinese)

Niu J F,Chen J W,Henkelmann B,Quan X,Yang F L,Kettrup A,Schramm K W.2003.Photodegradation of PCDD/Fs adsorbed on spruce(Picea abies(L.)Karst.)needles under sunlight irradiation[J].Chemosphere,50(9):1217-1225

Niu J F,Yu G,Han W Y.2005.Prediction of photolysis halflivesofPCDD/Fsadsorbedonspruceneedlesoptimizedby genetic algorithm[J].Environmental Science,26(2):28-33(in Chinese)

Sun L L,Li Z L.2005.Molecular electronegativity distance vector(MEDV)asappliedtostructuralcharacterizationand properties prediction of alcohols[J].Journal of Chemical Industry and Engineering(China),56(2):203-208(in Chinese)

TongJB,ZhangSW.2007.Molecularelectronegativitydistance vector for quantitative structure-retention relationship of organophosphates[J].Journal of Molecular Science,23(4):271-274(in Chinese)

Tropsha A,Gramatica P,Gombar V K.2003.The importance of being earnest:Validation is the absolute essential for successful application and interpretation of QSPR models[J].QSAR&Combinatorial Science,22(1):69-77

WangL,LiuXH,HouJ,CuiBS.2007.Predictionof photolysis half-lives of PCDFs with the electrotopological state indices[J].Acta Chimica Sinica,65(3):184-190(in Chinese)

Wang Y Q,Xiong Q,Ye N,Li Z L.2005.Molecular structure characterization and biological activity prediction for two sets of dipeptides with molecular electronegativity-distance vector(MEDVB)[J].Computers and Applied Chemistry,22(9):759-762(in Chinese)

Zhang X C,Yang G Y,Wang Z Y,Zeng X L,Wang L S.2007.Predicting lgKowof PCDD/Fs with density functional theory(DFT)[J].Acta Scientiae Circumstantiae,27(2):257-266(in Chinese)

中文参考文献

安丽英,相玉红,张卓勇,胡文祥.2006.定量构效关系的研究进展及其应用[J].首都师范大学学报,27(3):52-57

陈景文.1999.有机污染物定量结构-性质关系与定量结构-活性关系[M].大连:大连理工大学出版社

戴益民,邓小清,聂长明,杨道武,李宇春.2006.用新型分子结构参数预测多氯代二苯并呋喃的色谱保留指数[J].南华大学学报,20(4):9-15

谷成刚,蒋新,颜冬云,卞永荣,余贵芬.2008.二噁英结构与正辛醇-水分配系数相关性的密度泛函理论[J].环境科学学报,28(1):185-191

黄俊,余刚,张彭义.2002a.单苯环氯取代指数法预测二噁英类化合物PCDFs的正辛醇/水分配系数[J].环境科学研究,15(2):1-5

黄俊,余刚,张彭义.2002b.分子距边矢量结合神经网络预测二噁英类化合物PCDFs的logKow值[J].计算机与应用化学,19(1):103-107

黄蕾,李晓东,陆胜勇,陈彤,严建华,岑可法.2005.城市生活垃圾焚烧产生的二噁英的防治措施[J].电站系统工程,21(2):5-7

林红卫.2003.应用分子电性距离矢量预测二噁英类化合物PCDFs的正辛醇/水分配系数[J].怀化学院学报,22(5):48-53

刘树深,刘堰,李志良,蔡绍皙.2000.一个新的分子电性距离矢量(MEDV)[J].化学学报,58(11):1353-1357

牛军峰,余刚,韩文亚.2005.应用遗传算法建立云杉针叶表面PCDD/Fs光解半衰期的预测模型[J].环境科学,26(2):28-33

孙立力,李志良.2005.分子电性距离矢量(MEDV)用于醇的分子结构表达和物理性质预测[J].化工学报,56(2):203-208

仝建波,张生万.2007.有机磷酸酯类化合物气相色谱定量结构保留关系研究[J].分子科学学报,23(4):271-274

王蕾,刘新会,侯娟,崔保山.2007.电性拓扑态指数预测PCDFs光解半衰期[J].化学学报,65(3):184-190

王远强,熊清,叶楠,李志良.2005.分子电性距离矢量(MEDV-B)用于二肽分子结构表征与生物功能预测[J].计算机与应用化学,22(9):759-762

张幸川,杨郭英,王遵尧,曾小兰,王连生.2007.密度泛函方法预测二噁英类化合物(PCDD/Fs)的正辛醇/水分配系数[J].环境科学学报,27(2):257-266◆

Molecular Electronegativity Distance Vector (MEDV)Applied to Quantitative Structure-Property Relationship Study on Photolysis Half-Lives of PCDFs

LI Mei-ping1,ZHANG Sheng-wan1,*,HU Yong-gang2,WANG Zeng-qiao2

1.School of Life Science,Shanxi University,Taiyuan 030006
2.College of Chemistry and Chemical Engineering,Shanxi University,Taiyuan 030006

Polychlorinated dibenzofurans(PCDFs)was regarded as aclass of persistent organic pollutants,and the photolysis was its predominant mechanism in thereal environment.TheMolecularElectronegativityDistanceVector(MEDV)was used to describe the chemical structure of PCDFs,with the help of Multiple Linear Regression(MLR)and Partial Least Square Regression(PLSR),quantitative structure-propertyrelationship models of two parameters on photolysis half-lives(t1/2)of PCDFs on spruce needle and fly ash surfaces were developed.The estimation stability and generalization ability of the models were strictly analyzed by both internal and external validation.The correlation coefficient R of established models,leave-one-out(LOO)cross-validation(CV),Qextof MLR were 0.860,0.839,0.939(spruce needle surface);0.836,0.807,0.853(fly ash surfaces);the result of PLSR was the following:R and Rcvwere 0.857,0.849(spruce needle surface);0.829,0.807(fly ash surfaces).The results show that the MEDV may be characteristic the structure information of PCDFs and the QSPR models have great robustness and good predictive abilities.

polychlorinated dibenzofurans(PCDFs);Molecular Electronegativity Distance Vector(MEDV);Quantitative Structure-Property Relationship(QSPR);photolysis half-lives

3 June 2009accepted3 August 2009

1673-5897(2010)2-208-07

X131,O621.2

A

2009-06-03录用日期:2009-08-03

山西省攻关项目(No.20080311082)

李美萍(1977—),女,博士研究生,讲师;*通讯作者(Corresponding author),E-mail:zswam@sxu.edu.cn

张生万(1955—),男,山西大学教授,主要从事食品化学、应用波谱学、药物合成及化学计量学等方面的研究.

猜你喜欢
电性半衰期矢量
矢量三角形法的应用
基于语言学中文学术图书的半衰期分析研究*
民间引爆网络事件的舆情特点——以“北电性侵事件”为例
用于燃烧正电性金属的合金的方法
色谱相关系数和随钻电性参数实时评价地层流体方法
基于引用半衰期的我国五官学期刊文献老化研究
基于矢量最优估计的稳健测向方法
基于JCR®的国外临床医学学科半衰期
三角形法则在动态平衡问题中的应用
带电粒子在磁场中的多解问题