廉士珍,闫喜军,胡 博,张 蕾,薛向红(中国农业科学院特产研究所,吉林 长春 130112)
可视化技术在基因组测序中的应用研究
廉士珍,闫喜军,胡 博,张 蕾,薛向红
(中国农业科学院特产研究所,吉林 长春 130112)
摘 要:随着人类基因组计划的顺利研究以及新型测序技术的不断发展,其逐步推动了农业中对动植物基因进行测序的计划进展。通过在农业中对动植物的基因进行测序可有效显示动植物疾病病变中的基因变化情况,为相关疾病的诊治提供可靠依据。本文就计算机可视化技术在基因组信息测序中的应用进行一下综述。
关键词:计算机可视化技术;基因组;信息测序
随着对基因组信息测序的不断发展,人类掌握了大量的基因表达模式、蛋白质相互作用以及蛋白质结构等方面的数据。基因测序的信息数据不断增加,对其进行数据采集、处理、储存以及分析成为目前的主要任务[1]。计算机可视化技术在基因组信息测序中的应用极大的解决了海量数据分析的难题[2]。现就其相关应用作一下分析,以表明计算机可视化技术在基因组信息测序中的不可或缺性。
自远古时代起就有对数据进行可视化的处理,计算机的可视化技术对信息数据的处理则源于人类历史上首台数字式计算机的发明。目前计算机的可视化技术在医学、天文物理学、材料科学、人类学和考古学、海洋学、环境与生态科学、建筑设计学、地质勘探、航天工业、气候模型与预测、工业无损探伤以及生物学等多方面、多领域均具有广泛的应用[3]。
可视化技术即将数据或者符号转化成形象直观的几何图形或者图像,方便研究者进行观察研究的技术。计算机可视化技术即为利用计算机的图形学以及图像处理技术将信息数据转化成图形或者是图像在屏幕上展现出来,并进行交互处理的理论、方法以及技术[4]。随着我国科学技术的不断发展,在计算机可视化技术探索中也获取一定成效。计算机的可视化技术主要涉及到计算机的图形分析、图像处理、计算机视觉以及计算机的辅助设计等多方面、多领域的内容,是对信息数据进行综合表示、处理以及决策分析的计算机技术[5]。其基本途径一般包含三方面:第一是将需要计算处理的信息数据进行收集、组织并压缩,第二是将计算机处理后的数据进行几何元素的提取以及对其可视模型进行构建,第三是绘制相关图形并将其显现出来。
在生物科学中,一个生物体的基因组是指包含在该生物体内的全部DNA和/或RNA中的遗传信息,又称为基因体(genome)。基因组包含了基因和非编码DNA。更精确地讲,一个生物体的基因组是指一套染色体中的完整的 DNA序列。早在一九二零年,德国汉堡大学的植物学教授汉斯.温克勒(Hans Winkler)就首次使用了基因组这一名词。现代遗传学家认为,基因是 DNA(脱氧核糖核酸)分子上具有遗传效应的特定核苷酸序列的总称,基因位于染色体上,并在染色体上呈线性排列,形成具有遗传效应的DNA分子片段。通过控制人体基因的生化特性,人类将能够恢复或修复人体细胞和器官的功能,甚至改变人类的进化过程。此外利用基因,人们可以改良果蔬品种,提高农作物的品质,更多的转基因植物和动物、食品将问世。
计算机可视化技术的强大图形分析、图像处理以及数据分析能力,使其在基因组信息测序中得到成功的应用。利用计算机可视化技术可以有效的反映出生物序列的三维结构,并且能直观、准确且短时间内快速地整理出其复杂的相互关系。目前基于基因组信息测序的计算机数据可视化技术主要包括语义镜技术、信息壁技术、基因调控网络、聚焦+关联技术等。
计算机可视化技术在基因信息测序中的应用主要体现在以下几方面:第一,计算机可视化技术可以对基因组测序获得的信息数据进行比对,根据其序列相关结构分析测得其相似性;第二,计算机可视化技术可对基因组测序中获得的大规模数据信息进行分析处理,将杂乱的数据转化成清晰的数字信息;第三,计算机可视化技术可对规模庞大的基因功能表达谱进行有效分析;第四,通过计算机可视化技术可以对已经完成测序的完整基因组进行比较分析,使得人类对生物进化、遗传疾病可疑突变基因的分离以及相关基因新功能的预测取得巨大的进步;第五,计算机可视化技术下,可对数据进行深入的挖掘,可以发现并鉴定新型基因以及新单核苷酸的多态性,发现基因插入以及缺失等结构变化,为对新型基因以及新单核苷酸的多态性相关的生物功能以及疾病的研究提供了技术基础[6-7]。其中UCSC基因组浏览器可将任何类型的数据进行基因组比对,比对后将其形成图像在服务器端的网页中显现出来。基因组浏览器对基因组测序数据的展示是以染色体位置作为索引、以相关参考基因组为标准,具有可定制性以及良好交互性的模式,它可以根据用户的具体需求进行数据内容的展示以及隐藏。在各组织转录组之间存在着一定的表达差异性,往往需要通过一定的聚类手段对数据进行聚类统计,后对其进行直观结果分析。计算机可视化技术中的聚类工具,使用热图对基因组测序获得的信息数据进行集成化统计分析并直观展现出来,并利用生物数据库中的先验知识提供相关性分析、富集分析以及数据显著性计算等多种数据分析手段,通过对相关数据的排序、过滤隐藏、聚集以及可视化分析使应用者能够对数据进行可视化以及交互性观测。
基因组信息测序获得的数据信息数量庞大且复杂,数据信息具有一定的不明确性以及不完整性,而计算机可视化技术具有强大的复杂数据转化能力,其可以将大量的无规律数据转化为有规律可循的有用信息。将其应用在基因组测序获得信息数据的整理分析中,可有效发现数据之间的相互关联,明确其变化规律,对数据进行可视化探索。计算机可视化技术是基因组信息测序获得数据分析的必不可少的手段。
参考文献:
[1]王俏,王伟.基于知识图谱的国际基因组流行病学可视化分析[J].中华医学图书情报杂志,2013,22(4):2-9.
[2]伍勇,钟志农,景宁等.海量图数据可视化研究[J].计算机应用研究,2012,29(9):3216-3220.
[3]黄辉,陆利忠,闫镔等.三维可视化技术研究[J].信息工程大学学报,2010,11(2):218-222,247.
[4]张卓,宣蕾,郝树勇等.可视化技术研究与比较[J].现代电子技术,2010,33(17):133-138.
[5]宋成龙,邹辰,王文珂等.分子结构与基因序列数据综合可视化方法研究[J].计算机工程与科学,2013,35(12):26-33.
[6]Thorvaldsdóttir H,Robinson J T,Mesirov J P. Integrative Genomics Viewer (IGV): High-performance genomics data visualization and exploration. Brief Bioinform,2013,14:178–192.
[7]Hon,Jiri,Martinek,Tomas,Rajdl,Kamil et al.Triplex: an R/Bioconductor package for identification and visualization of potential intramolecular triplex patterns in DNA sequences[J].Bioinformatics,2013,29(15):1900-1901.
(责任编辑:张时玮)
中图分类号:C39
文献标识码:A
doi:10.3969/j.issn.1672-7304.2016.01.062
文章编号:1672–7304(2016)01–0133–02
作者简介:廉士珍(1976-),吉林人,助理研究员,研究方向:动物疫病防控。
Research on the application of visualization technology in genome sequencing
LIAN Shi-zhen, YAN Xi-jun, HU Bo, ZHANG Lei, XUE Xiang-hong
(Specialty Research Institute, Chinese Academy of Agricultural Sciences, Changchun Jilin 130112)
Abstract:As the study of the human genome project and the development of new sequencing technologies, and gradually promote the agriculture of animal and plant gene sequencing plan in progress. By gene sequencing of animals and plants in agriculture can effectively according to genetic changes in animal and plant disease situation, provide a reliable basis for the diagnosis and treatment of related diseases. In this paper, the application of computer visualization technology in genome sequencing is reviewed.
Key words:Computer visualization technology; genome; information sequencing