袁金涛 浦跃朴 尹立红
(东南大学教育部环境医学工程重点实验室,南京210009)
(东南大学公共卫生学院, 南京 210009)
芳香胺可以经过呼吸道、胃肠道和皮肤途径进入人体,在机体内经过一系列活化后可与人体细胞的DNA结合,从而导致人生病甚至致癌.流行病学研究表明,间苯二胺、二氨基二苯甲烷等芳香胺可诱发泌尿系统的癌症.除了突变性和致癌性之外,芳香胺还会影响肠道菌群的平衡及其他多种病症.暴露于人类的芳香胺可来源于食品接触材料、橡胶制品中的抗氧化剂、染料或由黑色尼龙餐具等[1-2],这些源头广泛存在于人类的生产生活中.因此,研究芳香胺致癌性具有重要意义.
关于芳香胺的结构和致癌活性的构效关系(quantitative structure-activity relationship, QSAR)研究已有报道.Yuta等[2]对157个芳香胺是否致癌建立了模式识别模型.Benigni等[3]用结构警报(structure alerts, SAs)方法分别研究了芳香胺在大鼠和小鼠中的致癌性.朱永平等[4]对芳香胺的致癌活性进行了Fisher判别研究.戴乾圜等[5]应用双区理论对63个芳香胺的致癌活性进行了阐释.这些研究应用不同的理论或建模方法取得了一定的成果,但笔者尚未发现用多种描述符建立线性判别模型的报道.因此,采用多种描述符建立线性判别模型具有一定的意义.
芳香胺除了具有强的致癌性外,还具有致突变性[6].目前,检测致突变性的Ames试验方法已被大量应用和报道,并且已有数量库收集Ames试验结果,如ISSCAN数据库[7],但将Ames试验和QSAR相结合的研究尚未见报道.本文以芳香胺为研究对象,采用将Ames结果作为自变量加入QSAR模型和先根据Ames结果分类后再用QSAR模型预测2种方法,对113个芳香胺的致癌性进行了研究,并将这2种方法的结果与只采用多种描述符建立的线性判别模型结果进行比较,探讨Ames试验是否对提高模型预测能力具有重要意义.
从ISSCAN数据库[7]中筛选出具有致癌和包含Ames数据的113个芳香胺(见表1).其中,不致癌的芳香胺共计22个,致癌的芳香胺共计91个.Ames结果呈阴性的有30个,Ames结果呈阳性的有83个.
表1 113个芳香胺化合物及其致癌、Ames和QSAR数据
续表1
续表1
所有的分子结构采用HyperChem软件画出,再用AMPAC程序中的PM3半经验方法进行优化.在Hartree-Fock水平上,采用Polar-Ribiere算法进行优化,直至均方根梯度达到0.001.将优化后的分子结构输入CODESSA软件,计算其组成、拓扑、几何、静电以及量化等5类描述符,以定量表征分子形状、对称性、原子间的连接、分子电荷分布及量子化学结构特征,总共计算得到609个描述符.logP值由ALOGPS 2.1软件获得[8].
SPXY(sample set partition based on jointx-ydistances)方法是对KS方法的一种扩展,计算样本之间的欧氏距离时,将因素X和因素Y都考虑在内.此处,采用SPXY方法划分数据集.
启发式回归方法是CODESSA软件中的一种描述符筛选方法[9].该方法对数据集大小没有限制要求,且计算较快,主要步骤如下:
① 预筛选.将数据不全和对所有结构数值都相同的描述符去掉,再将余下的描述符进行相关分析,将F检验值小于1.0、相关系数小于设定值、t检验值小于设定值、描述符间相关系数大于设定值的结果都删除.
② 将剩下的描述符按相关系数由大到小的顺序排列.从相关系数最大的描述符开始,每个描述符与余下的描述符两两组合,与研究性质关联,得到F检验值最大的两参数相关模型(即工作样本).
③ 将剩余的相关程度较小的描述符依次加入工作样本中.若加入后F检验值增加,说明扩展后的描述符是有效的,可用于进一步计算.
④ 若所得模型中最大描述符的个数小于设定个数,则返回第③步;否则,计算结束,保存模型,从而筛选出相关系数和F检验值最大的模型.
模型均采用线性判别分析(LDA)方法建立,其基本原理是在n维样本空间中通过如下计算将任意2个类别区分开:
Y=a1X1+a2X2+a3X3+…+amXm
(1)
式中,Y为判别值;X1,X2,…,Xm为与研究性质有关的变量;a1,a2,…,am为各变量的系数.判别模型质量可通过wilk的λ统计量、F检验值、p水平、马氏距离D2、训练集化合物数目N以及留一法交叉验证正确率ALOO等进行评价.建模和质量评价在SPSS软件中采用默认参数进行.
本文所采用的化合物数据来自ISSCAN数据库,113个化合物被SPXY方法划分为训练集和测试集,其中,训练集包含85个化合物,测试集包含28个化合物.所有描述符应用启发式方法进行初筛选,将初筛后的描述符输入SPSS软件,采用正向筛选方法选出适合的描述符,建立判别模型,由此得到包含3个描述符的模型QSAR 1(见表2).模型QSAR 1中,N=85,λ=0.805,D2=1.717,F(3,81)=6.531,p<10-3,ALOO=71.8%.模型QSAR 1对训练集和测试集的预测能力见表3.
表2 模型QSAR1中的描述符及其系数
表3 模型QSAR1和模型QSAR2的预测结果比较
为了研究Ames结果是否能提高模型的预测能力,将Ames试验结果加入模型中,得到含5个描述符的模型QSAR 2(见表4).模型QSAR 2中,N=85,λ=0.766,D2=2.170,F(5,79)=4.830,p<10-3,ALOO=76.5%.模型QSAR 2对训练集和测试集的预测能力见表3.由表可知,与模型QSAR 1相比,基于模型QSAR 2得到的训练集中不致癌芳香胺和致癌芳香胺的预测正确率分别增加7.1%和2.8%,但准确率变化不大.同时,λ,ALOO,D2等模型评价指标也略有增加.
表4 模型QSAR2中的描述符及其系数
采用Ames结果将化合物分成Ames阴性和Ames阳性2类,再对其分别建立致癌性预测模型.建模前,将30个Ames阴性化合物用SPXY方法分成训练集(21个)和测试集(9个),将83个Ames阳性化合物用SPXY方法分成训练集(58个)和测试集(25个).Ames阴性化合物预测模型QSAR 3.1和Ames阳性化合物预测模型QSAR 3.2分别见表5和表6.模型QSAR 3.1中,N=21,λ=0.504,D2=4.367,F(2,18)=12.342,p<10-2,ALOO=81.0%.模型QSAR 3.2中,N=58,λ=0.764,D2=2.509,F(3,54)=14.672,p<10-2,ALOO=75.9%.2个模型的预测结果见表7.
表5 模型QSAR3.1中的描述符及其系数
表6 模型QSAR3.2中的描述符及其系数
由表7可知,对于113个化合物,根据模型QSAR 3.1和模型QSAR 3.2预测正确的化合物共计91个,正确率为80.5%.由表3可知,模型QSAR 1和模型QSAR 2预测正确率分别为77.0%和80.5%.因此,无论是在模型中加入Ames结果,还是用Ames结果对化合物进行分类后再分别建模,都可以小幅提高预测正确率,但提高幅度不明显,不具有统计学显著性差异.
表7 模型QSAR3.1和模型QSAR3.2的预测结果对比
将本文模型与运用其他理论或建模方法得到的模型相比较,结果见表8.由表可知,本文模型的正确率较文献[4]中模型的正确率高,但较文献[2,5]中模型的正确率低,这可能与选择的描述符类型和建模方法有关.然而,本文模型采用的描述符个数最少,模型最简洁,此外,由于采用线性判别分析方法建模,该模型易于理解.
表8 不同方法模型比较结果
与致癌性试验比较,Ames试验具有简单、快速、成本低等优点.因此,将其与QSAR方法结合用于预测致癌性具有一定的可行性.本文针对芳香胺数据集,基于由CODESSA软件计算所得的描述符,得到简洁的QSAR模型,且模型质量较好.将Ames试验结果与QSAR模型相结合预测芳香胺的致癌性,可以在一定程度上提高预测准确率,但正确率的提高程度不具有统计学差异.由此认为,采用QSAR预测化合物的致癌性时,需根据研究对象综合考虑选择适当的方法进行研究,才能得到满意结果.下一步需要深入研究的是,如何将Ames试验与QSAR或其他方法结合以发挥其在化合物致癌性预测中的价值.
)
[1] 孙利,陈志锋,储晓刚.浅析食品接触材料中的芳香胺问题[J].食品与机械,2006,22(6):121-126.
Sun Li, Chen Zhifeng, Chu Xiaogang. Analysis of primary aromatic amines in food contact materials[J].Food&Machinery, 2006,22(6): 121-126. (in Chinese)
[2] Yuta K, Jurs P C. Computer-assisted structure-activity studies of chemical carcinogens. aromatic amines [J].JournalofMedicalChemistry, 1981,24(3): 241-251.
[3] Benigni R, Worth A, Netzeva T, et al. Structural motifs modulating the carcinogenic risk of aromatic amines [J].EnvironmentalandMolecularMutagenesis, 2009,50(2): 152-161.
[4] 朱永平,余应年,陈星若.芳香胺致癌活性的Fisher判别研究[J].中华预防医学杂志,1999,33(1):21-25.
Zhu Yongping, Yu Yingnian, Chen Xingruo. Fisher discriminant analysis for carcinogenic potency of aromatic amines [J].ChineseJournalofPreventiveMedicine, 1999,33(1): 21-25. (in Chinese)
[5] 戴乾圜,郑昔英,王宗一.芳胺结构致癌活性关系的双区理论定量阐释[J].中国科学:化学,1990,40(7):681-688.
Dai Quanhuan, Zheng Xinying, Wang Zongyi. Di-region theory study the structure-carcinogenicity relationship of aromatic amines[J].ScientiaSinicaChimica, 1990,40(7): 681-688. (in Chinese)
[6] Benigni R. Structure-activity relationship studies of chemical mutagens and carcinogens: mechanistic investigations and prediction approaches [J].ChemicalReviews, 2005,105(5): 1767-1800.
[7] Benigni R, Bossa C, Tcheremenskaia O, et al. The new ISSCAN database on in vivo micronucleus and its role in assessing genotoxicity testing strategies [J].Mutagenesis, 2012,27(1): 87-92.
[8] Kujawski J, Bernard M K, Janusz A, et al. Prediction of logP: ALOGPS application in medicinal chemistry education [J].JournalofChemicalEducation, 2012,89(1): 64-67.
[9] Katritzky A R, Perumal S, Petrukhin R, et al. CODESSA-based theoretical QSPR model for hydantoin HPLC-RT lipophilicities [J].JournalofChemicalInformationandComputerSciences, 2001,41(3): 569-574.