王治学
摘要:随着社会的发展和科学技术的进步,云计算已经逐步广泛应用于各领域,在生物医学大数据的处理方面更是得到了广泛的应用。目前中国的生物学大数据处于飞速增长的阶段,生物学数据非常庞大,处理非常复杂,工作量也非常大,因此,需要数据处理非常快速的一项技术来解决这一问题。云计算的出现,对解决生物学大数据有非常重要的作用,对大数据的分配、计算等环节能够快速处理,帮助生物医学解决大数据的处理问题。该文浅谈运用云计算处理生物医学大数据的解决方法进行分析研究,希望能够对其提供可行性的建议。
关键词:云计算;生物医学;大数据;解决方法
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)36-0005-02
最近这几年,我国的生物医学取得了飞速的发展,生命科学推动着生物医学不断向前发展,使生物医学的数据非常庞大,处理起来非常困难。因此,诞生了云计算,云计算能够对大量的数据进行快速、精确的计算,因此,被广泛应用于各个大数据领域。云计算对大数据的处理,主要是通过云计算的供应商,提供对数据的存储和计算等,并提供给云计算的用户,用户可以根据供应商提供的大数据处理平台和数据处理技术,对具体的数据进行处理、利用,解决数据的存储、计算、保存等问题。云计算用于生物医学的大数据处理,利用数据处理方式对生物医学的大数据进行计算。本文从云计算对生物医学的大数据处理方面进行论述。
1 简述云计算数据处理技术
数据处理技术从计算机处理逐渐演变成云计算数据处理技术。云技术大数据处理技术,主要是指利用计算机互联网技术,对处理数据可以进行随时随地保存、利用、共享等,实现数据之间的快速转化,方便云用户对数据进行运用,实现云计算技术中对数据的共享[1]。云计算大数据处理技术体系可以根据体系的结构,分为以下几个层次:云计算大数据处理的服务管理层、云用户的访问接口层、云计算大数据处理技术的核心服务层。云技术数据处理技术的核心理念,主要是指云技术大数据处理技术的资源和各个功能服务,对与该技术的硬件基础设施,和云计算服务平台以及云计算大数据处理技术的应用程序等,都是以服务管理的方式,通过计算机互联网技术传递给云计算数据处理技术的用户,实现大数据处理的目的[2]。
2 云计算处理生物医学大数据的解决方法
随着生物医学的不断发展,生物医学研究的问题也越来越多,生物医学产生的数据也越来越庞大,要对这些复杂的数据进行处理,必须借助高效的计算技术,云计算为大数据处理发展提供了技术支持。
生物医学的发展以及目前生物医学涉及的领域较多,产生了大量的待处理数据,这些数据就成为生物医学的大数据。比如,高通量测序,这个测序程序一次的测序可以达到109的量级,如果是数据测试试验所进行测序,所得出的量级就会远远大于单一测序的量级[3]。大数据的获得方式除了实验外,还包括在公共数据库中获得的大量数据,这些数据合起来构成了生物医学上的大数据。我国目前的公共数据库包括分为两类,一是大数据的初级公共数据库,这个公共数据库中包含的都是原始的生物数据,能够了解到的原始生物数据库,比如,美国国立生物技术信息中心NCBI的GenBank、欧洲的生物信息研究所EBI、DDBJ、GEO等;二是二级公共数据库,这个公共数据库是对出具数据库中的数据进行分析处理得到的数据组成的,经过处理的数据,比如,蛋白质结构等领域的数据处理信息,对这些处理数据具有保存、利用等方面的功能。目前常见的二级公共数据库包括Ensem-bl、UCSC基因组浏览器等二级公共数据库,公共数据库还包括了数据下载积累的数据信息。
在进行大数据的处理方面,小型的计算机已经无法满足对现在大数据的处理,现在很多研究所在对大数据进行处理时,依然使用的是小型的服务器和数据计算器,这样虽然可以保留一定的数据保存空间,但是对研究数据过程中出现的数据却没有空间进行保存,导致数据存储空房间不足,很可能会出现数据丢失的现象,因此,很多的研究所选择连接外被设备,进行大数据的保存。但是这种方法不能够从根本上解决问题,还出现了大数据处理上更加严重的问题,无法对大数据处理的准确性和可靠性进行把握。为了保证大数据的可靠性和精确性,必须对大数据进行备份,一般都会保留3到5个大数据副本,这就是生物医学上的大数据冗余备份策略。比如,现在我国使用比较广泛的云计算技术平台的基础是AWS技术,AWS技术可以对大数据进行存储,并且对大数据进行及时备份,一般的本分为3份。在对生物医学大数据进行处理的过程中,一般会产生处理过程中的中间数据,因此,云计算数据处理技术,对数据处理平台的数据存储器以及云计算大数据处理技术的性能提出了更高的要求[4]。
一般的大数据处理往往采用的是数据集中处理的办法,对数据计算上的多个节点进行存储,比如,磁盘数据储存,但是数据处理器上的保存空间比较小,或者一般不能使用,本地数据存储器一般的数据储存能力比较小,但是云计算大数据处理计算的供应商,比如,亚马逊、谷歌等,能够通过虚拟化的技术,通过计算机互联网等,将大数据处理节点上的每一个数据资源,进行整合,包括数据的储存节点、计算机数据的处理节点等数据资源进行整合,转换为各种数据资源,通过方便、快捷、透明的方式,对云计算大数据处理技术的用户进行数据提供,方便用户对数据的使用。云计算大数据处理技术的对处理数据主要是通过用户对数据的需求,进行数据资源支配,比如,CPU、内存、数据操作系统、系统数据软件等,云计算大数据处理技术的用户在获取资源的同时,可以随时对数据进行利用,但是要及时付款,也就是随用随付。如果云计算大数据处理技术的用户采用的是云平台进行数据处理利用,生物医学研究组织只需要支付非常少的钱,就可以对数据资源进行利用,无须在数据存储、计算等环节上进行大数据保存的空间购买、对数据资源进行优化配置。另一方面,云计算大数据处理技术的用户,在对数据进行使用的过程中,可以随时对数据进行更改和建材,直到更改为自己需要的数据,这体现了云计算大数据处理技术的灵活性[5]。
传统的生物医学大数据处理平台,最大的问题就是数据储存空间太小,不能满足大数据储存的要求,因此,在云计算大数据处理技术的发展中,被逐步代替。云计算是现在生物医学大数据处理的主要平台,这个数据处理平台的核心观念是数据的并行运算策略。通过研究发现,云计算的性能优于其他的数据计算技术。生物医学的大数据处理主要是依据MapReduce的并行计算策略对大数据进行运算。通过高通量测序技术的读段映射技术进行处理,测序读段数据被分配到数据处理的各个节点,通过运算,最后将各节点的运算数据结果进行归并,实现大数据的处理的目标。
3 结束语
通过文章介绍,我们了解到云计算对生物医学的大数据处理有非常重要的意义。随着生物医学的发展,生物医学的数据发展变化较快,数据系统非常庞大,因此,大数据计算起来比较困难,云计算在这样的背景下,为生物医学的大数据处理提供了非常大的帮助,对生物医学的数据存储、技术、保存、利用等提供了方便。相对于传统的生物医学数据计算环境,云计算在大数据处理方面具有绝对优势,云计算能够在大数据处理的过程中,提供最科学可行的数据计算方案,分析数据信息的各个方面,为数据处理打好基础。随着云计算的不断发展,未来云计算发展会建立数据处理的多资源生物医学数据处理体系,为大数据处理提供技术支持。
参考文献:
[1] 孙磊, 胡学龙, 张晓斌, 等. 生物医学大数据处理的云计算解决方案[J]. 电子测量与仪器学报, 2014(11): 1190-1197.
[2] 王相伟, 史玉良, 张建林, 等. 基于Hadoop的用电信息大数据计算服务及应用[J]. 电网技术, 2015(11): 3128-3133.
[3] 吴昊, 彭正洪. 城市规划中的大数据应用构想[J]. 城市规划, 2015(9): 93-99.
[4] 林永青. “互联网+”的技术元素:大数据和小数据[J]. 金融博览, 2015(11): 42-43.
[5] 孟润堂, 罗艺, 宇传华, 等. 健康大数据在公共卫生领域中的应用与挑战[J]. 中国全科医学, 2015(35): 4388-4392.