生物数据可视化研究

2021-03-02 01:18纪兆华王春云高春红于静红
关键词:云计算技术可视化

纪兆华 王春云 高春红 于静红

【摘  要】论文探讨生物大数据可视化直观展现测序数据、分子结构数据等多种生物学数据。数据可视化帮助生物大数据科学分析数据结果,如同时间或空间相关的信息等,通过计算机图形学、统计学等技术转变为更加直观生动的图或表。计算机可视化操作能够将抽象的信息进行直观的分析并表示出来,有助于更好地理解数据,增强认知数据。

【Abstract】This paper discusses the biological big data visualization and visual presentation of sequencing data, molecular structure data and other biological data. Data visualization helps biological big data analyze data results scientifically, such as information related to time or space, etc., which can be transformed into more intuitive and vivid graphs or tables through computer graphics, statistics and other technologies. Computer visualization can analyze and represent abstract information intuitively, which is helpful to better understand data and enhance cognitive data.

【关键词】云计算技术;生物大数据;可视化

【Keywords】cloud computing technology; biological big data; visualization

【中图分类号】TP311.1;Q811.4                                             【文献标志码】A                                                 【文章編号】1673-1069(2021)01-0193-02

1 引言

生物大数据中蕴含着生命起源、疾病健康和农作物培育等重要信息,对生物大数据的高效准确解读事关人类健康、粮食安全等重要问题。由于生物大数据有着类型复杂、结构异质、冗余性高和体积庞大等特点,科研人员需要借助数据可视化等方法才能理解其组成特征和内在联系,进而更加快速和有针对性地从中挖掘出相关知识信息[1]。

2 生物学进入了大数据时代

随着生物技术的不断发展,海量数据信息正在得以飞速累计,生物学跨入大数据时代,以二代高通量测序为代表的各种新型实验技术正在快速产生和累积出海量的数据集合,这些蕴藏着丰富知识信息的数据集合被称为生物大数据。近年来,世界范围内产生多个大型生物学大数据产出项目,如癌症基因组图谱计划(TCGA)、千人基因组计划等,这些数据存储在欧洲生物信息学研究所(EBI)、美国国立生物技术信息中心(NCBI)等公共数据库中,我国自主创办的生命与健康大数据中心(BIGD)也已建成并对外提供服务[2]。

3 数据可视化有利于科学地展示数据分析的结果

数据可视化将具有大量数据的数据库中的文本或者二进制数据的特征信息,如同时间或空间相关的信息等通过计算机图形学、统计学等技术转变为更加直观生动的图或表,计算机可视化操作能够将抽象的信息进行直观的分析并表示出来,有助于更好地理解数据,增强认知数据,并挖掘出大量数据中蕴含的事务之间的规律或内在信息[3]。生物学大数据可视化分析的作用主要包括三个方面:帮助科研人员快速从体积庞大、缺乏组织脉络的原始数据集中抽取出本质特征,为研究工作提供理论指引;抽取出生物学大数据中某一维度的特征,以图形化的方式进行直观展示和强调;可以有效地将生物学大数据进行解构,去除其中的冗余信息和背景噪音,得到更加具有科学意义的数据分析结果[4]。

4 基于云计算生物大数据可视化

4.1 云计算

随着生物学大数据的不断快速累积,国内外科研人员一直在寻找高效快速解决大数据问题的有效途径,其中云计算技术是被广泛认可的一种较为成熟的技术体系。云计算的常用服务模式包括“平台即服务”(PaaS)、“软件即服务”(SaaS)、“基础设施即服务”(IaaS),这些服务模式的出现都旨在使用户更加容易地获取和使用到足够的计算资源,同时免除自行维护计算机硬件的负担。常用的云计算框架则包括了Hadoop、Spark等,通过将整体运算、存储和数据传输负载均匀分配到计算机集群中的每个节点,达到了加速数据分析速度的目的,基于这些技术构建的应用程序在处理大数据时可以表现出优异的性能。

云计算技术是计算机科学中为了解决大数据问题而提出的一套技术体系,在生物学大数据分析中也被多次证明其实用性和可行性。基于云计算技术可以构建生物学大数据可视化平台,进行高效易用的大数据可视化分析,各可视化工具密切配合,共同协作完成生物学大数据可视化这一重要分析任务。

鉴于此,近年来先后出现了多个基于云计算技术的生物学大数据分析软件,在相关文献的评价测试中,这些软件也取得了较为令人满意的成绩。随着输入数据集大小的增加,这些基于云计算技术开发的生物学分析软件性能指标超过了传统软件乃至数倍。

4.2 传统数据可视化软件

常用的可视化工具通常采用一些专业工具如Tableau、DataV等,开发简单并且不用开发代码,具有较好的展示效果。传统的数据可视化方案大多是针对规模较小的数据集进行设计和实现,无法高效、直观地展现出生物学大数据所蕴含的关键信息。这些软件所存在的共有问题还包括了可定制程度低,只能在其提供的可视化样式之中选择。对于有更深层次定制化需求的用户,使用基于R语言或者Python语言的可视化工具,如BioConductor(http://www.bioconductor.org/)和BioPython(http:// biopython.org/)等[5]。

4.3 基于云计算生物大数据可视化技术

近年来先后出现了多个基于云计算技术的生物学大数据分析软件,随着输入数据集大小的增加,这些基于云计算技术开发的生物学分析软件性能指标超过了传统软件乃至数倍。采Web技术和Web前端技术相互结合实现,如常用的技术为Web技术、数据库技术和前端技术,其特点是可定制能力强。Web的生物大数据挖掘,采用了云计算存储和处理架构、分布式数据挖掘算法和大数据存储、处理服务模式,易于使用基于Web的大数据挖掘技术构建基于Web的大数据分析环境[6]。

Hadoop和Spark技术是云计算领域中常用的数据分析技术,在生物大数据可视化工具的后端分析计算任务,通过尽量均匀地将分析任务计算负载和数据传输负载分散到计算机器中的每个节点,达到提高系统整体并行加速性能指标的目的。Hadoop是开源分布式计算框架,在大数据分析和半结构化数据集方便具有良好的存储功能,其中HDFS提高了大数据文件的存取速率,MapReduce将大规模数据集切分成多个不同大小的数据分片map,执行map任务,之后将结果通过hash分区分发到reduce任务的多个节点进行存储。Spark为基于内存计算的大数据并行计算框架,可以处理实时的大数据,在性能上比MapReduce高,有较强的容错性和高可伸缩性。Spark与Hadoop结合,共享集群节点提供的资源,提高运行效率,速度快、通用性强[7]。

基于云计算技术的生物大数据可视化分析平台可视化强、效率高。虽然目前在生物学大数据可视化的相关研究领域中,云计算技术缺乏成熟应用,但是许多通用型大数据可视化软件已经流行开来,如Highcharts(https://www.highcharts.com/)、D3(https://d3js.org/)和ZoomData(https://www.zoomdata.com/)等。这些软件大多采用HTML5技术来实现,有着交互性强、界面美观、易于使用等特点,并且提供动态网页作为输出可视化结果选项,大大方便了软件工具间的整合。基于HTML5的可视化技术,相比于传统的静态可视化展现方式,基于HTML5的可视化展现方式有着高交互性、界面更加美观、易于和其他软件工具相互结合和便于传播分享等优点。D3图形可视化库来完成项目设计的可视化展示,更加适应生物大数据可视化需求。采用云计算技术可以构建运行效率高、实用性强和可扩展性好的生物学大数据可视化平台,科研人员通过该平台可以直观展现测序数据、分子结构数据、关系网络数据等多种生物学数据,为生物学和医学等领域中的可视化问题提供基础软件设施[8]。

5 结语

生物大数据在处理流程上和传统的生物数据处理流程没有大的差异,关键在于生物大数据处理要分析大量非结构化数据。生物学数据可视化贯穿科研工作的各个阶段,在实验材料选择、实验方案设计、结果分析讨论和论文发表等阶段均起到不可替代的重要作用,生物学数据可视化软件的运行效率、易用与否将直接决定了相关科研人员的工作效率。生物大数据规模大、维度高、非结构化,通过生物大数据可视化分析展现了数据实时场景及交互性能,更有利于理解数据及对相关数据时间、空间信息知识的展现。

【参考文献】

【1】周琳,孔雷,赵方庆.生物大数据可视化的现状及挑战[J].科学通报,2015,60(Z1):547-557.

【2】张广旭.基于Spark的基因數据聚类分析及可视化[D].长沙:湖南大学,2017.

【3】傅耀威,贾燕红,张军,等.大数据可视分析发展现状与趋势[J].中国基础科学,2019,21(04):53-58.

【4】杨立博.云计算技术发展分析及其应用探讨[J].网络安全技术与应用,2014(04):89+92.

【5】刘江涛,邢辉.浅析生物大数据可视化的现状及挑战[J].中国新通信,2016,18(02):152.

【6】王玉.大数据时代Hadoop和Spark技术研究[J].品牌研究,2020(04):88-90.

【7】檀照望.基于Spark的大数据处理可视化工具的设计和实现[D].北京:北京邮电大学,2017.

【8】李万锋.基于Java EE的数据可视化平台设计及主要功能实现[D].北京:中国科学院大学(中国科学院工程管理与信息技术学院),2017.

猜你喜欢
云计算技术可视化
自然资源可视化决策系统
基于Power BI的油田注水运行动态分析与可视化展示
自然资源可视化决策系统
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
科技期刊编辑出版工作中云计算技术的应用