王佳 丁雄飞
摘要:针对甲型流感病毒的宿主偏好性问题,开展数据挖掘的应用研究。利用CART决策树算法构建了甲流病毒各个蛋白及整个毒株的宿主偏好预测模型,进一步利用关联分析挖掘影响甲流病毒宿主偏好的关键氨基酸位点,为甲流病毒跨种传播的研究提供理论支持同时对公共健康提供预警。
关键词:甲型流感病毒;数据挖掘;CART决策树;关联规则
中图分类号:Q939.4 文献标识码:A 文章编号:1007-9416(2018)06-0073-02
1 前言
流感是世界范围内受关注度比较高的传染性疾病之一, 每年导致300万到500万例严重疾病并有25万到50万例导致死亡。甲型流感病毒起源于野生水禽[1],由于物种屏障的限制,它们通常在禽鸟种群内生存和进化,无法感染其它种类的宿主。然而,经过进化中的位点突变以及基因重组的作用导致病毒发生了抗原漂移或抗原转移,使得部分病毒获得了跨越物种屏障并感染人类的能力[2]。利用数据挖掘技术研究甲型流感病毒的宿主偏好性可实现对新发流感病毒的宿主偏好作出预测,从而对人类公共健康发出预警提高防控效率。数据挖掘的各项技术已经在众多的领域取得了成功的应用[3,4]。本文将利用决策树展开对甲型流感病毒蛋白宿主偏好预测模型的研究,并通过关联规则技术挖掘影响宿主偏好性的关键位点及位点上的氨基酸。
2 基于决策树的甲流病毒宿主偏好预测模型
2.1 数据准备
针对禽类和人类这两个生物种群,收集病毒的10种蛋白氨基酸序列,由10种蛋白联合构成的序列代表该病毒毒株。实验数据来源于NCBI流感病毒数据库。在NCBI数据库中获取了198,611条禽类流感病毒蛋白质序列和282,307条人类流感病毒蛋白质序列。执行数据清洗,对于原始数据,除去有缺失值的序列。对于毒株序列,若某蛋白有缺失,则实验不考虑该条毒株序列。H5N1和H7N9是已经确定可发生宿主跳跃感染人类的两种病毒亚型,具有较高的代表性及研究价值,筛选出这两类亚型的蛋白数据作为小数据集,其余数据作为大数据集。将数据集中各蛋白及毒株序列做多序列比对,保证序列长度和位点的统一。比对完成后,将氨基酸信息转化为数值从而将病毒蛋白序列转化为向量并采用Min-Max方法对数据进行变换实现标准化。
2.2 建立决策树预测模型
将标准化后的数据导入决策树模型,来自于人类宿主的蛋白划分为正样本,来自于禽类宿主的蛋白划分为负样本。建立决策树常用算法为ID3、C4.5、CART算法,三种算法的区别是度量标准不一样,分别是信息增益、信息增益比率和Gini指数。本文采用CART算法建立决策树。
CART算法如下:1)计算训练集样本D的Gini指数,之后利用样本中每一个特征Att及Att的每一个可能取值att,根据Att与att的大小关系将样本分为两类,并计算Gini(D,Att)值;2)找出使得Gini指数Gini(D,Att)最小的最优划分特征及取值,并判断是否停止划分,否则,输出最优划分点;3)递归调用1)、2);4)生成CART决策树。
在这些树模型中,由蛋白质序列的关键位点担任决策节点对蛋白或病毒序列划分。预测模型的所有训练均使用10倍交叉验证。在10倍验证交叉中,整个数据集被分为9个训练子集和1个测试子集。训练过程将使用9个子集训练,同时保留最后1个子集进行测试,迭代10轮。最后数据集中的每个样本都将被测试一次,以防止过度拟合问题。
2.3 决策树分类模型结果分析
利用CART算法及10倍交叉验证后将得到10个准确率,即测试子集在模型上被分类正确的数量百分比,取其均值作为模型的准确率。结果表明毒株的宿主偏好性决策树预测模型在H5N1和H7N9亚型构成的小数据集上准确率达到95.17%,而在其它亚型构成的大数据集上准确率达到99.83%。而10个蛋白的平均准确率在小数据集上为90.94%,大数据集上为98.86%。
所有10种蛋白和毒株的决策树预测模型都表现出了高预测性能。这10种流感病毒蛋白分类模型的高准确率表明同种宿主的蛋白序列具有某些共性。分析大小数据集上的各蛋白及毒株准确率,发现10种蛋白及毒株在大数据集上的分类模型准确率要高于小数据集上的分类模型准确率,表明在大数据集上的分类效果要优于小数据集。这是由于实验定义的小数据集仅包含H5N1和H7N9两种亚型病毒。这两类亚型病毒原来只是在禽类中传播,发生突变后获得了感染人类的能力。结果表明了这两类亚型病毒相较于其余亚型病毒区分度较小,与这两类亚型病毒感染人类的高风险相一致。
3 关联规则挖掘
关联规则分析用于发现项目间相互关联的规则。例如,规则可以挖掘经常与其他产品同时购买的特定产品。判定规则的条件是看支持度与置信度,规则的支持度是包含该规则的事务数量占比,而置信度是规则前后件同时出现的数量与规则前件出现的数量比值。置信度和支持度超过规定阈值的规则称为强关联规则。
实验中每个蛋白质序列代表一个交易T,并且其中各位点氨基酸例如A,S,T,K,M,V属于项目集I。所有的序列构成一个D集。Y集包括2个分类标签:禽类宿主,人类宿主。关联规则是形式XY的概念,其中X I。如果既包含X也包含Y的规则在D中出现,那么该规则在D中有支持度,并且这个支持度是该规则出现的次数在D集中的比例。而置信度则是该规则在D中出现的次数与该规则前件X出现次数的比值。针对小数据集上的数据做关联规则挖掘,寻找在突变导致宿主偏好改变过程中发挥作用的具体氨基酸位点。
结果挖掘了一些影响宿主偏好性的氨基酸位点,例如规则(HA_617=S人类)的支持度为1.337%,表明有1.337%的人类毒株在HA蛋白的617号位置是丝氨酸,置信度为100%则表明了所有617号位点是丝氨酸的序列其宿主都为人类。另有一条规则(PB2_471= M & PB2_487=V禽类)的支持度为8.546%,置信度为100%,表明有近十分之一的禽類病毒PB2蛋白在471号位点是甲硫氨酸以及487号位点是缬氨酸,并且具有这样的位点特征的病毒在人类PB2蛋白中没有出现过。
4 结语
本文利用数据挖掘计算技术针对甲型流感病毒的10种蛋白以及其联合构成的毒株序列构建了决策树分类预测模型,结果表明除了已经被认定的HA蛋白和PB2蛋白外,其余蛋白质也表现出了对宿主偏好性的影响。同时,针对毒株构建的预测模型能够预测新型流感病毒,确定其宿主偏好,为甲型流感的早期防控提供预警。此外研究针对甲型流感病毒的10种蛋白及其宿主偏好挖掘关联规则,找到了一些重要的位点,分析这些特定位点上的氨基酸,发现它们在不同宿主间差异显著,这些位点将对研究甲型流感的跨种传播研究提供一些线索。
参考文献
[1]陈浦言.兽医传染病学(第五版)[M].北京:中国农业出版社,2006.
[2]徐慧琳,張文彤,赵耐青,姜庆五.影响H5N1甲型流感病毒对哺乳动物毒力变异的HA序列关键位点研究[J].复旦学报(医学版),2006,33(5):473-473.
[3]王光宏,蒋平.数据挖掘综述[J].同济大学学报(自然科学版),2004,32(2):246-252.
[4]张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(s2):216-233.
Abstract:In this study, the application of data mining in predicting the host preference of influenza A virus is investigated. The CART decision tree algorithm was used to construct the host preference prediction model of each protein of influenza A virus and the whole strain, and the key amino acid positions affecting the host preference of influenza A virus were further digged by association analysis, which can provide theoretical support for the study of cross-species transmission of influenza A virus and early warning on public health.
Key words:influenza a virus; data mining; CART decision tree; association rule