人工智能技术在生物信息学中的应用

2021-11-19 21:25:13张卫婷
电子技术与软件工程 2021年16期
关键词:膜蛋白信息学镜像

张卫婷

(咸阳职业技术学院 陕西省咸阳市 712000)

1 文本分析技术在生物信息学中的应用

1.1 蛋白质折叠识别

蛋白质的折叠识别,可以理解为在蛋白质众多序列中准确识别其三维立体结构特殊类型,该应用是作为生物信息学重点研究方向存在。在蛋白质的一级序列中,常使用字母对标准氨基酸进行表示,而其序列信息在借助文本文件储存在相关数据库中。世界范围内最大蛋白质序列数据库当属美国国立生物技术信息中心(NationalCenter for Biotechnology Information)的NR (Non-Redundant Protein Sequence Database)数据库。NR 数据库与常见的MySQL数据库有所不同,其应用fasta 格式的文本文件,格式虽然简单,但是内容却异常丰富,使用该格式完成蛋白质序列储存工作,这让许多文本分析数学算法无须额外处理,直接应用在分析蛋白质序列工作中即可[1]。

1.2 应用原理

目前蛋白质从折叠识别会覆盖蛋白质所有序列,直到构建三维空间停止,而应用方法主要是穿线法(Threading),即将目标序列作为“针”,在由蛋白质构建三维空间中进行穿梭,以科学方法对序列和结构是否具备高匹配度严格分析。匹配程度而打分分数具有正相关联系。而对于蛋白质的折叠情况进行识别,其理论应用基础为蛋白质即便序列并不是太过相似条件下,其空间结构也存在相似影响潜力,可以理解为蛋白质是拥有弱同源性[2]。在生物发展历程中,蛋白质为保证在自我复制时仍可以拥有完整功能,就需要保证结构拥有保持稳定性质,而序列则会被各类突变因素影响,呈现变化状态。可以将该特性描述成蛋白质结构比拥有相对保守序列。在这种条件影响下,可以从自然界发现序列并不相似,而结构却有相同特征蛋白质结构。而文本分析对于蛋白质折叠的识别具有重要意义。目前科研界推崇一种以文本分析为主,将机器学习作为辅助工具使用的新型方法。应用该方法时,借助文本分析提供信息检索这项服务完成相关工作。在将某蛋白质一级结构查询清楚,对于折叠蛋白质识别目标,就是将应用囊括可能性固定模板,以序列,以及结构相关性科学排序,可以将其看作由百度搜索引擎,根据用户向网站输入查询内容,会在网页中显示关联度排名。而使用该分析算法,蛋白质拥有相似度越高。理论上会拥有更有优势排名次序。所以,文本分析就是站在总体角度运行一种策略,可以理解为通过搜索引擎相关算法方式,实现蛋白质折叠类型高效检索。而向机器学习输入蛋白质特征向量,即设计参数,该研究可以用于表示蛋白质序列,以及分析结构相似性所有蛋白质指标。

1.3 文本存储

作为表述蛋白质拥有的三维空间重要工具,文本在蛋白质研究中具有重要地位。虽然其结构可借助三维图形显示,而真实对蛋白质结构完成存储工作却为文本文件,并应用PDB 格式存储到相关电脑或数据库中。而PDB 数据库对于生物大分子结构拥有超过16万数据存储量,过半数为蛋白质结构相关文件。正因为通过文本完成蛋白质结构文件存储,也让文本分析在蛋白质结构具体分析中发挥重大作用奠定良好条件,包括但不限于将信息从数据库中提取、充分对数据展开分析,以及对蛋白质结构选择性优化等[3]。

1.4 蛋白质分类

根据外表形态和应用功能,可以将生物体内所有蛋白质划分为三类,分别是纤维状蛋白、球状蛋白、膜蛋白。在蛋白质中,膜蛋白相对特殊,真实二级结构并不具备较高预测准确率。其原因可能是膜蛋白在结构为生物膜之中,导致膜蛋白在跨膜区和非跨膜区无论是实际区别,还是具体功能,都存在较大差异。所以,膜蛋白和球蛋白拥有完全不同生化特性。精准获得膜蛋白在跨膜区和非跨膜区数据信息,可以为判断膜蛋白真实生物学功能提供有效帮助。所以,面向膜蛋白二级结构,展开预测算法开发,同样为生物研究重要发展方向。

2 Docker技术在生物信息学中的应用

2.1 技术优势

Docker不仅具备信息开放性,在应用也可以有效保证安全可靠,所以在生物信息学实际应用具有重要价值。

2.1.1 跨平台支持

跨平台支持。在生物信息学研究水平不但深入,各类信息数据呈指数形式快速增长,超过270 项的开源软件都为生物信息学提供技术应用。可是,大量实用性工具却使用各种编程语言编写,例如C++、Python 等,不同语言需要各自运行环境,以及相应配置,才能完成高效使用目的。Docker 提供引用跨平台能力,并不需要特殊配置,即可在不同服务环境下提供最优质的功能与,保证成果可以在多种条件下依旧复现,也可以多次使用工具而不发生影响结果的特殊情况[4]。

2.1.2 整合服务器

针对基因组完成测序数据相关分析,其研究对象不仅需要落实大规模资源计算,例如序列比对、基因组注释,不要求过多计算,但是仍需要保持高度警惕处理的数据存储、系统维护也在研究范围内。这种不确定具体资源效果,对于许多独立科研单位难以使用当前已获得测序数据,进一步提升对基因分析难度。但是Docker 却可以将大量计算资源全部整合,并以弹性方式完成扩充,从而借助最小成本,实现最大化硬件利用。

2.1.3 高效开发

在对生物信息学产生数据信息分析时,无论是输入还输出都要面对海量数据处理规模,这导致大部分测序数据常会拥有GB 级别规模,对于省级或者国家级科研项目则会出现TB 级别,即便是最长应用参考序列,其规模也在保持在GB 级别,这导致在实际应用中会产生反复调试,并对问题反复修正,虽然是众多应用软件开发必须要经历内容,可是海量数据会在本地数据库以及远端服务器内产生多次重复性传递,消耗大量分析时间,在实际应用中也会出现数据复制时产生错误。但是Docker 却在本地服务器上衍生数十个可以容纳数据信息容器,并将所有容器中全部部署Docker 的同一镜像,从而高效完成线上模拟实践作业。而且,开源式社区也提供大量系统调试工具,也让镜像拥有改进能力,减少资源反复查找所需[5]。

2.1.4 高效利用资源

在生物信息学研究中,高通量测序技术会产生大量远超过摩尔定律上限数据量,第二代技术已经在数据产生方面已经超过第一代100 ~ 1000 倍,但是很对测序数据的分析能力却在多年中没有得到更多提升。但是Docker 却可以让启动以秒级单位计算,拥有较强运行能力,从而将研究重心集中于数据分析,其他产生时间消耗工序则被大量省略,有效降低系统负载,进而提高整体应用效率。

2.2 分析工具

通过Docker,将大量应用型工具和相关数据信息全部封装于不发生信息复制错误的单一镜像内,提供分析人员便利应用化条件,这让Docker 在生物信息学应用越加广泛,部分研究人员已经将该技术当开发首选方案。由BLASR、BWA 等构成NanoOK,其功能主要为多序列比对,并实现序列匹配,具体用途则是通过宏基因组充分比对,并以此为分析依据,展开应用更为广泛的多样本分析,重点关注多序列基因比对;而SBMLDock 则将研究对象放在数据模型上,通过模型不同构成比对,对于模型组成部分完成检测,并将可能存在理解偏差进行注释,最后相关数据信息提取等一系列作业,将生物学模型以系统化方式完成分析;而floweatchR 借助EBImage,将细胞以显微形式获取图像信息,并对其进行分析,从而对确定细胞在检测时真实位置,与检测对细胞外界刺激产生运动状态全部分析,最后获得相应细胞轨迹,对于细胞在常态、外界刺激等研究具有重要参考价值。通过大量镜像信息,借助标准化输入输出流程,完成参数控制,并让多种分析应用工具拥有同样接口,对于以往软件配置难度有效件降低,并提升应用分析效率,打破过去资源共享各种阻碍。较为典型当属SBMLDock 会提供以SBML格式对数数据书写镜像。而CWL 标准已经得到全球基因组学认可,健康联盟也对其表示支持,现在广泛应用于癌症基因组研究项目当中,实用性较强[6]。

2.3 分析流程

Docker 可以将多种技术软件,将通过串联方式组成分析流程,将其全部封装于镜像中,并让技术人员在应用时可以保持相同执行标准。而且,针对具体分析流程而制作Docker 镜像,在生物信息学研究中,也可以作为一种应用成果使用。例如将Illumina HiSeq数据平台提供测序数据作为研究对象,则可以提供专门负责数据传输,可以做到数据质量控制实践应用Docker 镜像,并在镜像中封装多种工具,例如FastQC。而以Docker 为工具,将病毒全部基因组检测顺序,并将病毒变异完整全流程高效分析,包括对病毒串联基因组,并完成质量控制,将序列和生物基因进行比对,对病毒变异情况全面检测,并将分析病毒组全部时间步骤注释。也可以针对原核生物基因组展开分析,评估基因组,并将其与其他原核生物在对比后,选择最具有参考价值基因组,用于以后实验选择。借助Docker 也可以提升生物医学在分析作业效率。借助Tophat2 工具集可以将RNA 序列完整分析,并将该流程以数据形式保存在合适存储设备中,而SAKE 则负责对基因组变异全面检测,提升分析效率,BLAST 则将检测对象调整到非编码RNA 区域。通过应用Docker 工具集,可以对生物信息学大量需要消耗计算时间,数据信息繁琐量任务简化,在复用性方面得到研究学界一致认可[7]。而借助Galaxy 数据分析平台,以SADI 前端标准,并从可视化视角对Docker 分析,可以从其镜像完成UniProt 数据库高效访问,并对信息精准查询,面对数据可以做到有效统计,对问题快速追踪。保证可以在短时间内处理应用过程,提升分析质量,应用较为便捷。

3 总结

无论是文本分析还是Docker,都在生物信息学表现良好,其应用价值也被国内各类研究高校的科研人员广泛认可,未来仍有进一步发展良好趋势。而我国目前针对生物信息学应用仍处于初级阶段,真正应用内容仍有待挖掘,希望未来包括生物在内多种科研领域,可以将人工智能技术充分发挥,推动我国科研水平稳定提升。

猜你喜欢
膜蛋白信息学镜像
鸡NRF1基因启动子区生物信息学分析
镜像
当代党员(2020年20期)2020-11-06 04:17:52
初论博物馆信息学的形成
中国博物馆(2018年2期)2018-12-05 05:28:50
镜像
小康(2018年23期)2018-08-23 06:18:52
干扰素诱导跨膜蛋白抑制小儿流感病毒作用及其机制研究
哈尔滨医药(2016年3期)2016-12-01 03:58:34
镜像
小康(2015年4期)2015-03-31 14:57:40
镜像
小康(2015年6期)2015-03-26 14:44:27
EB病毒潜伏膜蛋白1基因多态性与NK/T细胞淋巴瘤的相关性
miRNA-148a在膀胱癌组织中的表达及生物信息学分析
梅毒螺旋体四种膜蛋白克隆重组表达和ELISA法建立的应用研究