基于堆叠式自编码器的新型分子毒性预测模型

2020-02-02 06:46周威
电子技术与软件工程 2020年15期
关键词:编码器分类器毒性

周威

(辽宁大学信息学院 辽宁省沈阳市 110000)

1 引言

分子的毒性和致突变性是新药物研发失败的主要原因之一,人们在日常的生活中,因为不可避免的要接触到化学制品,所以分子毒性的评估是必不可少的。目前对于此类问题,研究人员采用了多种方法来评估该风险,包括体内、体外和计算机模拟等方法。然而传统的体内、体外方法耗费周期长,成本较高。随着机器学习的飞速发展,越来越多的算法在此类问题上得以应用,例如支持向量机、朴素贝叶斯以及人工神经网络,但是这些算法存在着自身的缺陷和局限性,因此本文提出了一种新的毒性预测模型,根据数据维度较大以及稀疏性的特点,在传统的堆叠式自编码器上进行了改进,结合了性能更好的分类器,以此来实现对分子毒性的预测。

2 相关工作

2.1 SMILES字符串和one-hot向量

SMILES 字符串是将分子表示为字符序列的一种方式,这种基于文本的格式有利于将自然语言处理工具用于化学反应预测和化学反应分类等应用。为了使SMILES 字符串能够与SAE 兼容,SMILES 字符串又被转换成one-hot 向量,序列中特定字符的存在则为1,不存在则为0。由于one-hot 向量中大部分的值都为0,所以具有稀疏性,而且SMILES 字符串转换后维度也比较大。

2.2 堆叠式自编码器(SAE)

堆叠式自动编码器(SAE)由多个层组成,每个层由单个AE 学习。在无监督特征提取中,采用贪婪式分层预训练进行逐层初始化,通过微调来训练最终的SAE 模型。具体来说,贪婪式分层方法是原始输入数据通过在第一层AE 上的训练,得到第一级的特征,然后将第一级的特征作为输入在第二层AE 训练得到下一级的特征,一直到最后一层的AE,最终可以得到信息充分、维数较低的特征提取。因此,自编码器的叠加可以实现对原始数据的特征提取,同时可以达到降维的效果得到维数较低的特征。上述过程是SAE 的与训练过程,这个过程中可以实现特征的提取,但是并不具备分类功能,因此通常在SAE 后添加一个分类器来达到预测分类的效果。在预训练完成后应用反向传播算法,利用随机梯度下降算法对整个SAE 进行微调,堆叠式自编码器(SAE)的结构图如图1所示。

表1:不同模型实验结果

图1:堆叠是自编码器的结构

图2:胶囊网络的机构

图3:SAE+CAPS 结构

2.3 胶囊网络

如图2所示,胶囊网络的基本结构包括五个部分:输入层,卷积层,主胶囊层,数字胶囊层,输出层。其中核心的部分为主胶囊层和数字胶囊层,与卷积神经网络不同的是,输入层的数据经过卷积层的处理后会进入主胶囊层和数字胶囊层,通过卷积层得到的特征在主胶囊层中会被拉平展成一维,然后按对应位置进行组合进而得到胶囊,最后通过动态路由算法得到数字胶囊层,数字胶囊层输出向量的模长可以衡量各个类别的概率,如果模值越大,则属于这个类的概率越大,从而实现分类的效果,因此可以利用胶囊网络来解决分类问题。

3 实验设计与结果

3.1 数据准备

本实验的数据包括1454 个分子,其中690 个为有毒物质,764个为无毒物质,分子均为SMILES 字符串表示,为了将SMILES 字符串转化成适合SAE 的形式,采用了一种新型的分子指纹生成算法连通子图指纹(CSFP)模型,该模型可以将SMILES 字符串转换成整数数列输出,进而转换成one-hot 向量。

3.2 毒性预测模型

本文提出了一种新型的分子毒性预测模型,采用堆叠式自编码器和胶囊网络结合的方法对分子的毒性进行预测,利用堆叠式自编码器达到降维的效果,但是由于其不具备分类功能所以需要结合分类器进行分类,所以将胶囊网络中的主胶囊层和数字胶囊层与其结合,以此来实现预测分类的的目的,SAE+CAPS 的体系结构如图3所示。

首先,将CSFP 模型转换后的数据输入到SAE 中,该实验中的SAE 设置了3 个AE 层,通过调整权重W(1)来学习原始输入的主要特征h(1)(x)。接下来,这些主要特征h(1)(x)又作为输入数据传送到下一个AE 层,从而学习到这些主要特征上的次要特征h(2)(x)。在此之后将h(2)(x)输入到第三层AE,最后得到最后的特征h(3)(x)。在胶囊网络中通过卷积层得到的特征需要进入主胶囊层和数字胶囊层来进行分类,因此在SAE 的输出后加上了这两层。在这里,我们对主胶囊层和数字胶囊层的设置进行简要概述。SAE 得到的特征进入到主胶囊层,其中主胶囊层由8x8 个神经单元组成,数字胶囊层由2x2 个神经元组成,主胶囊层和数字胶囊层之间的权重矩阵形状为8×8×2×2,采用两次动态路由迭代。

3.3 实验过程及结果

为了验证本文所出模型的有效性,因此将SAE+Caps 模型与传统的softmax 分类器和SAE+softmax 进行实验比较,这样设置实验的目的有两个,一个是通过SAE+Caps 模型与传统softmax 的对比,来体现出堆叠式自编码器的作用,从而表明对化合物的高维向量,堆叠式自编码器可以起到很好的降维效果,同时能更好的提取有效特征,并且提高了运算速度。另外一个目的,通过SAE+Caps 和SAE+softmax 的对比可以发现,分类器对于毒性预测分类的重要性,相较于softmax 分类器来说,胶囊网络拥有更高的预测能力,同时计算效率也更高。

对于不同分类方法的分类结果,我们采用精准性、召回率、准确率以及AUC 作为评价标准来进行评价,不同模型的实验结果如表1所示。

4 结束语

本文提出的新型的分子毒性预测模型,采用堆叠式自编码器(SAE)对高维的稀疏数据进行特征提取,而后使用胶囊网络作为分类器对分子分子进行预测分类。目前现有的对分子毒性进行预测分类的方法大多是简单的机器学习分类器,例如softmax 分类器,支持向量机,随机森林等,而基于堆叠式自编码的分类模型多是与softmax 分类器进行结合。本文通过与传统的softmax 分类器和SAE+softmax 分类器进行的对照实验证明,该模型相较于其他两者在预测分类效果上有着更好的表现。

猜你喜欢
编码器分类器毒性
动物之最——毒性谁最强
基于FPGA的同步机轴角编码器
BP-GA光照分类器在车道线识别中的应用
基于PRBS检测的8B/IOB编码器设计
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
JESD204B接口协议中的8B10B编码器设计
RGD肽段连接的近红外量子点对小鼠的毒性作用
PM2.5中煤烟聚集物最具毒性
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别