大数据在生物医学信息学中的应用

2015-02-13 04:11罗志辉赵逸青
医学信息学杂志 2015年5期
关键词:信息学基因组测序

罗志辉 吴 民 赵逸青

(美国威斯康辛大学密尔沃基分校 密尔沃基 53201)



大数据在生物医学信息学中的应用

罗志辉 吴 民 赵逸青

(美国威斯康辛大学密尔沃基分校 密尔沃基 53201)

大数据在生物医学信息学研究中的作用日益重要,介绍大数据在生物信息学、临床医学信息学、影像信息学和公共卫生信息学4个领域的应用,列举并总结一些最近的工作进展,对未来大数据在生物医疗领域的发展进行展望。

大数据; 生物医学信息学;应用

1 引言

随着信息技术在医学临床和科研中的应用,临床医学、生物学、信息学发生了一次交叉融合,形成了生物医学信息学(Biomedical Informatics)。医院信息化的建设、医疗诊断手段的进步和高通量实验设备的利用,使得医学数据呈现几何级数的增长,表现出“大数据”的特征。开展大数据相关研究工作,能更好地发现新知识、提高医疗服务的效率和质量。这种研究技术的应用必将成为生物医药科学技术发展的趋势,也必将是未来生物信息研究领域的核心技术。

2 大数据概述

2.1 大数据

大数据是一种新的研究模式和应用生态系统,它改变了之前以个别案例为基础的研究方式,更多地使用大规模的数据作为研究驱动。大数据量,这是大数据的第1个特点。随着高通量检测技术的发展,现在已进入一个生物信息学数据量呈指数级增长的时代。例如,ProteomicsDB覆盖了Swiss-Prot数据库中注明已知的人类基因的92%(19 629中的18 097,具有5.17 TB的数据量[1])。在临床方面,美国医疗信息技术经济与临床健康法案(Health Information Techndogy for Econmic and chinical Health Act,HITECH)的出台并实施提高了电子病历在医院的采用率,2009-2012年增加了3倍[2],数以千百万计的患者数据以电子格式被收集并存储,而电子病历产生的大型数据集创造了利用病人数据进行医学研究的宝贵机会[3]。医疗影像(如MRI、CT扫描)同样产生了巨大的数据集,其中包含复杂结构特征和多维度的成像信息。又如可视人(Visible Human Project)计划已获得了39 GB的女性数据集[4],在公共卫生领域,大数据被证明可以用于预测健康水平[5]。数据类型和结构的多样性,这是大数据的第2个特点。例如,基因测序技术几乎在细胞领域的所有层面都形成了各类“组学”数据系统,从基因组学、蛋白质组学、代谢组学,到蛋白相互作用组学[6]层出不穷。此外,很多数据都是非结构化的[7],如电子病历记录[8]、临床实验研究结果[9-10]、医学影像[11]以及医疗传感器数据流,它既是一个挑战,也给医疗信息化发展留下了巨大的空间。大数据的第3个特点是其产生速度快。大数据的速度有两方面:产生数据的速度和处理数据的速度。新一代基因测序技术能够以相对较低的成本,每天生产数10亿DNA序列,据预计其增长速度还会显著增加[12]。在临床领域,据估计医师电子病历的采用率在美国将在2019年增加至90%[13],这意味着所收集的患者数据可在未来几年增加1倍。如今人们生活在社会化媒体的时代,当每秒数百万计的信息、照片和帖子发布,公共健康研究人员就可以利用这些大的社交媒体数据,探索不同人群的社会新交往模式[14-15]。

2.2 大数据技术

基于大数据的特点,需要强大的新技术用以提取各类有用的信息,从而得出医疗保健解决方案。现在,已经有几种技术被用于解决生物医学与健康信息学领域的大数据问题。在许多情况下是多种技术被一起使用,如人工智能(Artificial Intelligence)与并行计算平台(Hadoop和MapReduce)的联合使用,或与一些大数据挖掘(Big Data Mining)技术联合使用。并行计算是用于处理大数据的基础架构之一,该技术使得计算机集群能够同时执行并行的算法任务。最近几年,不断有新的计算模型被提出,例如MapReduce,以协助并行计算机集群的计算和运行。并行计算模型需要分布式数据管理系统。 Hadoop使用Hadoop分布式文件系统的数据存储系统,支持群集计算机同时访问数据。云计算主要用于共享使用集中的数据存储和网络计算服务或资源,从而利用规模效应使得工作效率和经济效益最大化。云计算一般分为公有云计算(Public Cloud)、私有云计算(Private Cloud)和混合云计算(Hybrid Cloud)。使用云计算免除了用户单独购买和配置硬件和系统软件平台的需求,可以使用户更加专注于应用和开发。另一方面,云计算也促进了移动应用的发展。使用云计算平台,公司和机构能够搭建被广泛访问的网络应用。因此云计算市场有着快速、灵敏、灵活的特性,并且以每年接近50%的速度增长。

3 大数据的应用

3.1 生物信息学应用

生物信息学(Bioinformatics)研究专注于分析生物系统在分子水平上的差异和变化。目前,朝着个性化药物方向发展[16],产生存储分析大量个体基因组数据的需求,因而导致数据的爆炸性增长。新基因测序技术和新的微测序技术发展大大减少了获取人类生物谱所需的时间和成本。在这个数据生产速度呈几何级数增长的时代,大数据应用在生物信息学方面的重点将是建立有效的计算基础设施和分析平台,以支持生物大数据存储和分析。Hadoop和MapReduce系统平台的大数据技术已经在生物信息学领域有了重大应用[17]。在本节中,把大数据技术和工具在基因组学中的应用分为4类,包括数据读写和检索、数据查错、数据分析和集成工具。这4类应用互有重叠。

3.1.1 数据读写和检索 在通常情况下,测序仪能够产生数以百万计的短DNA序列信息,它们需要被映射到特定的参考基因组才能进行进一步的数据研究和分析,如基因分型和表达变异分析等。CloudBurst是一个开放源代码的并行读取算法大数据模型(使用MapReduce)[18],用多个核心集群读取并映射序列数据到人类基因组数据的速度大大提高。DistMap是在Hadoop集群上进行分布式序列片段读取映射的一个工具包[19],旨在增加对不同数据格式的支持,覆盖更广泛的测序应用。目前支持的9种数据格式包括BWA、Bowtie、Bowtie2、GSNAP、SOAP、STAR、Bismark、BSMAP和TopHat。SeqWare是一个基于云计算的大规模数据存储和查询引擎,以帮助生物信息学研究人员获取大规模全基因组数据集[20]。SeqWare团队创建了一个交互界面,用以整合各种基因组浏览器和工具。DDBJ数据读取注释流水线(DDBJ Read Annotation Pipeline)是日本DNA数据库项目(DDBJ)发起的基于云计算的流水线[21],用于新一代测序数据的高通量读取分析。Hydra是利用Hadoop的分布式计算框架搭建的可扩展的蛋白质组学搜索引擎,可用于处理大规模的肽和光谱数据的软件包,该系统的重点在于搭建一个分布式计算环境,支持海量光谱数据的可扩展搜索[22]。

3.1.2 数据查错 对于识别序列数据中的错误,现在也有相应的大数据处理技术。SAMQA旨在帮助识别序列数据中的错误,以确保大规模的基因组数据符合最低标准的质量要求[23]。SMAQA最初是为癌症基因组图谱项目(The Cancer Genome Atlas)的数据而设计的,能自动识别并报告错误,它包含了数据异常性的技术测试,如格式错误、无效值、空数据读取等。对于生物实验数据,研究人员可以通过设置阈值来过滤可能是错误的数据,而这些可能的错误将被报告给专家手动评估。ART系统也提供模拟数据序列分析[24]。ART系统最初是为支持千人基因组项目的数据模拟实现而开发的,现在该系统已被广泛使用,它支持3种测序错误,包括碱基的取代、插入或缺失错误。CloudRS是基于可扩展框架的、高通量测序的数据纠错算法[25]。旨在为高通量测序的数据校正提供一种并行框架。

3.1.3 数据分析 在基因组学方面,研究人员已经开发了几个被广泛使用的大数据计算框架和工具包,例如Genome Analysis Toolkit (GATK)、CloudBurst等。这些工具通过使用诸如并行计算、云计算和MapReduce的大数据技术等方法来分析基因序列信息分析。GATK是一个基于MapReduce的编程框架,它支持大规模的DNA序列分析[26],已经应用于癌症基因图谱计划(The Cancer Genome Atlas)和千人基因组项目(1 000 Genomes Project)。ArrayExpress功能基因组学数据存储库归档是一个国际合作项目,用以整合高通量的基因组数据[27],存储库包含30 000多个实验数据和超过100万的检测数据,约80%的数据是从基因表达综合数据库(Gene Expression Omnibus Database)中提取的,而20%是直接由ArrayExpress用户递交。BlueSNP则是一个开发于统计学平台R上面的工具包,主要用于GWAS分析[28]。这一工具包侧重于统计检验,如计算p值,以寻找大型基因型-表型数据集之间的关联关系。Myrna系统是一个用于分析计算大型RNA测序数据集的基因表达差异数据云计算流水线[29]。RNA-SEQ数据是从mRNA分子得到的m个序列读取。Myrna支持多种功能,可支持RNA序列分析,包括在综合数据流水线中进行统计建模。Eoulsan分析工具包植入了分析转录表达的差异的数据分析流水线,包括测序机数据的导入,将数据映射到基因组索引、排列过滤器、转录表达的计算,表达差异检测[30]。SparkSeq是一种快速的可扩展的云计算工具,用于支持交互性的基因组数据分析[31]。SparkSeq的软件包旨在为RNA / DNA研究提供互动的查询和分析工具,因为使用Apache Spark并行计算平台,SparkSeq提供了使用机器学习方法分析数据的可能。

3.1.4 平台集成工具 使用大数据计算平台往往需要很深的分布计算和系统知识。为了减少生物信息学研究的大数据应用的障碍,一些项目专注于集成现有的大数据系统和工具,开发易用的平台为研究人员提供分析和系统集成支持。SeqPig 运算包在Hadoop分布计算平台上集成了一系列便捷工具,用于大规模的操作、分析和访问续写数据[32]。虚拟机技术也被应用到工具集成中。CloVR是一个虚拟机基因测序分析包[33],该系统同时支持在本地桌面和云系统运行,以实现高吞吐量的数据处理。生物信息学的工作流/数据流水线被集成在虚拟机中,因此CloVR降低了测序分析大型数据集的技术壁垒。CloVR包括了几个自动化数据流水线,如全基因组、宏基因组和16S rRNA基因测序分析等。同样,Cloud BioLinux 也是一个虚拟机解决方案[34],它为研究人员提供超过135个生物信息工具进行测序分析。部署Hadoop的云平台,对于没有计算机科学专业知识的科学家来说是个不小的挑战,而CloudDOE是一个软件包,旨在提供一个友好的用户界面来部署Hadoop云平台[35]。CloudDOE可将复杂的生物信息学Hadoop云计算程序配置过程封装起来,几个包被集成在一个包中,包括CloudBurst、CloudBrush和CloudRS,而操作过程由图形界面为向导。

3.2 临床医学信息学应用

临床医学信息学(Clinical Informatics)研究涉及信息技术在临床医疗领域的应用,范围包括基础医学研究、病人诊断和死亡原因研究、电子病历数据研究和各种其他临床数据等。

3.2.1 大数据电子病历存储优化 大数据技术在电子健康记录存储方面有许多应用,如用Hadoop HDFS和HBase存储电子健康记录[36]。大数据可以帮助实时监测临床数据流,为此研究人员开发了针对临床信号数据储存的大数据系统[37]。临床传感器的时间序列数据将被存储在HBase中,行变量是单一值的时间戳,列变量则是相应时间戳对应下的病人生理值,例如,使用Hadoop和HBase的数据仓库存储脑电图数据[38]。Cloudwave系统采用Hadoop的数据处理模块来存储和查询大型电生理数据(EEG)[39],该系统处理77GB的EEG信号数据集用1分钟,而传统的独立系统则需用20分钟。Cloudwave利用Hadoop的处理能力,提供了一个基于网络的实时数据的可视化和检索界面。针对实时监测数据,近年来越来越多的研究人员认为,新型NoSQL数据库比起传统数据库将有更大的发展空间。新的研究方向是要使传统的关系型、多维数据库能够和NoSQL数据库联系起来[40]。

3.2.2 大数据电子病历新型访问方式 随时间增长的庞大数据量有可能使医疗保健领域的挑战变成大数据的机会,而大数据技术的进步使人们更易操作庞大的数据量,可交互操作的电子健康记录也会成为可能[41]。为保证用户数据安全,MedCloud模型设计可在符合HIPAA的条例下访问病人数据[42]。Home-Diagnosis是一个基于云框架的病历检索系统,解决了在病人自我护理环境下现有电子病历系统处理大规模并发数据读取和分析时产生的各种问题,包括病人信息安全问题[43]。该系统主要基于Lucene检索引擎工具包,并且使用Hadoop加速系统处理时间。

健康信息的交互读取,在医疗知识共享传递方面也有很大的应用前景,如用于交互式电子健康记录[44]。研究人员提出了一个3层架构的生态系统,以改善电子健康在云社交网络方面的不足之处[45]。基于云技术的应用程序体系架构,也可以加强研究人员在多站点临床实验之间的互动[46],让人们更多地参与到云技术在交叉学科信息学中的现今使用状况和未来发展空间的讨论[47]。有人尝试建立一个私有云平台,用来处理大量的医疗服务需求[48]。在中国,有人设计了一个网上心脏疾病数据分析系统,采用了混合XML数据库和Hadoop / HBase基础架构[49]。

3.2.3 基于大数据的病历分析 医学数据分析对整个医疗行业具有很大的影响,而且这一领域也有很好的发展前景。基于MapReduce技术,对大量医疗数据分析可以在合理的时间内完成,使得大量基于医疗数据的科学研究得以开展。MapReduce能使访问10 000个真实病例数据集的整体运行时间从9小时减少到几分钟,这对该技术的大规模应用有很大的意义。PARAMO是一个预测性建模平台,它可用于分析电子健康数据,预测疾病风险和进展,在临床决策支持方面将会有重要作用[50]。该系统支持MapReduce高效处理并行任务,而医疗术语,如ICD、UMLS等也被集成到该系统中。在电子健康档案(EHRs)以及医学影像存储与传输系统(PACS)等庞大的数据库的基础上,泌尿科医生可以使用大数据分析结果作为决策支持,如预测病人膀胱切除后何时重新到医院就诊[51]。此外,大数据也可以用于确定一个75岁的前列腺病人是应该使用放疗还是切除术,以避免直接的前列腺癌风险[51]。有人基于MapReduce进行数据分析,以提高肥厚型心肌病的诊断率[52]。大数据在提高临床医疗质量和病人护理方面有着积极的意义,例如,可以探究病人病症与疾病的因果关系,发现疾病复发的潜在危险因素[53]。大数据还可以应用于男性健康问题研究[54]和肠胃病研究[55],通过搭建病人为中心的数据架构来实现个性化药物治疗[56]。大数据也可以加强药品安全[57]。研究人员还提出了使用大数据技术评估充血性心脏衰竭病人30天风险的解决方案[58]。有人认为,利用大数据可以在新生儿重症监护早期阶段发现致死性医学表征,这将是临床上的一大突破[59]。如今人们已经越来越多地把大数据分析应用到智能化的医疗决策之中[60]。

3.3 影像信息学应用

影像信息学(Image Informatics)被定义为用于产生、处理、管理、提取、呈现成像(影像)信息,在许多生物和医学应用中集成图像的研究方法。

3.3.1 医学影像数据存储和检索 医学影像数据的迅速增加需要更高效的影像检索系统,以减少存储和检索所需的时间。研究人员开发了一个基于Hadoop的大规模医学影像检索系统[61]。Hadoop分布式文件系统(HDFS)被用于存储影像特征,实验结果表明该影像检索系统的速度非常快,大幅度减少了存储和检索时间。研究人员还使用Hadoop开发了基于影像内容检索的影像系统(Content-based Image Retrieval)[62],对数据库中大量的图片进行更快的影像检索。人们使用乳腺X光影像数据库中的影像来验证开发的影像检索系统[63]。

3.3.2 大规模医学影像分析 Hadoop-GIS系统使用自主研发的实时空间查询引擎(RESQUE),并且利用MapReduce进行空间信息查询,通过Hive进行影像特征查询[64]。这个研究的主要目的是未来大规模(TB或者PB级)的病理学影像信息的储存、分析和管理。针对心脏影像,研究人员开发了大数据影像系统、集成人工智能(Artificial Intelligence)技术、大规模并行计算(Parallel Computing)平台和大数据挖掘(Big Data Mining)技术[65]。大数据挖掘技术结合下一代人工智能可以进行复杂的医学影像分析,如病人是否有心肌梗塞等,能为医生提供多个候选诊断。大数据技术使得医学影像分析在更短的时间内完成,提高了效率。研究人员探索使用计算机节点集群进行影像处理,例如,使用支持向量机(SVM)对肺纹理进行分类、基于内容的医学影像索引和三维定向小波分析、固体纹理分类参数优化[66]。

3.4 公共卫生信息学应用

大数据能加强公众卫生的3个核心功能,即健康评估、政策制定和疾病预防。

3.4.1 监控全球传染病 大数据技术在全球传染病监测方面有着巨大的应用潜力。研究人员开发了一个大数据系统,提供一个时间静态的持续风险地图[67]。未来有望将社交网络信息和流行病学相关信息,在空间地图上“实时”更新。人们收集了5.5亿条推特信息(Tweets),通过超过9 800条有地理定位的推特微博信息的分析,发现HIV有关的推特微博信息和HIV病例之间呈现显著的正相关关系[68]。这说明社交媒体如Twitter提供的在线数据对疾病预防有潜在的重要应用。

3.4.2 高效的疾病管理和预测 研究人员设计了一个使用Hadoop进行文本挖掘的疾病管理系统[69],它包括医疗数据采集模块、Hadoop文本挖掘模块、疾病规则创建模块和疾病管理和预测模块。医疗数据采集模块获取并储存的是原始的没有数据结构的医疗数据,Hadoop文本挖掘模块则是将这些原始数据转换成有一定结构的数据。疾病规则创建模块建立在条件概率群论的理论基础上,通过比较疾病规则创建模块产生的病人信息、病人健康现状、家族病史,疾病管理和预测模块能够为病人提供个性化医疗服务,并且通过病人健康现状预测未来患病的可能性。人们用大量的医疗保险数据来分析病人的主要诊断和死亡原因的独立关联,研究社会人口特征和医疗行政分布对此的影响[70],结果证明了大规模的数据分析可以被用来有效地分析医疗事件的关联。

4 结语

目前已经步入大数据时代,大数据技术正在被快速地应用到生物信息和医疗保健领域之中。因为生物信息学数据存在着数量大、分析难的特性,大数据的分析方法最早被应用于生物信息学领域,所以在此领域发展得比较成熟,已有成型的平台和工具来帮助分析生物序列数据。在其他生物医学领域,大数据的应用还有巨大的潜力未被开发。本文列举并总结了一些最近的工作进展,如存储分析病人电子病历、分析社交传媒得以监控疾病风险等。目前,在临床信息学、医学影像信息学和公共卫生信息学方面,大数据的应用还处在萌芽阶段,未来发展的前景广阔,例如麦肯锡公司在最新的产业分析报告中预测,应用大数据分析将为美国节省3 000亿到4 500亿美元的医疗费用。未来大数据在生物医疗领域的发展,将依赖于数据标准的制定、研究和技术的进步,研究机构及企业的合作,以及政府方面的强力推动。

1 Wilhelm M, Schlegl J,Hahne H, et al.Mass-spectrometry-based Draft of the Human Proteome[J]. Nature,2014, 509(7502): 582-587.

2 Blumenthal D, Tavenner M. The “Meaningful Use” Regulation for Electronic Health Records[J]. New England Journal of Medicine,2010, 363(6): 501-504.

3 Rea S. Pathak J,Savova G, et al. Building a Robust, Scalable and Standards-driven Infrastructure for Secondary Use of EHR Data: the SHARPn project[J]. Journal of Biomedical Informatics,2012, 45(4): 763-771.

4 Ackerman M J. The Visible Human Project: a resource for education[J]. Academic Medicine,1999, 74(6): 667-670.

5 Lohr S. The Age of Big Data[N]. New York Times,2012-2-11(1).

6 Joyce A R, Palsson B O. The Model Organism as a System: integrating 'omics' data sets[J]. Nat Rev Mol Cell Biol,2006, 7(3): 198-210.

7 Feldman R, Sanger J. The Text Mining Handbook: advanced approaches in analyzing unstructured data[J]. London:Cambridge University Press,2007.

8 Rosenbloom S T, Denny J C, Xu H, et al. Data from Clinical Notes: a Perspective on the ension between structure and flexible documentation[J]. Journal of the American Medical Informatics Association, 2011, 18(2): 181-186.

9 Luo Z, Duffy R,Johnson S, et al. Corpus-based Approach to Creating a Semantic Lexicon for Clinical Research Eligibility Criteria from UMLS[C]. San Francisco:AMIA Joint Summit of Translational Informatics, 2010: 26-31.

10 Weng C, Wu X, Luo Z, et al. EliXR: an approach to eligibility criteria extraction and representation[J]. Journal of the American Medical Informatics Association,2011,(18): 116-124.

11 Reiner B I. Medical Imaging Data Reconciliation, Part 3: reconciliation of historical and current radiology report data Banks[J]. Journal of the American College of Radiology, 2011, 8(11): 768-771.

12 McKenna A, Hanna M,Banks E, et al. The Genome Analysis Toolkit: a mapReduce framework for analyzing next-generation DNA sequencing data[J].Genome Research, 2010, 20(9): 1297-1303.

13 Blavin F E, Buntin M B. Forecasting the Use of Electronic Health Records: an expert opinion approach [EB/OL].[2015-06-01]. http://www.cms.gov/mmrr/Downloads/MMRR2013_003_02_A02.pdf.

14 Carneiro H A, Mylonakis E. Google trends: a web-based tool for real-time surveillance of disease outbreaks[J]. Clinical Infectious Diseases,2009, 49(10): 1557-1564.

15 Chou W Y S, Hunt Y M, Beckjord E B, et al. Social media use in the United States: implications for health communication[J]. Journal of Medical Lnternet Research,2009,11(4):e48.

16 吴民, 罗志辉,翁春华. 个性化医学探究[J]. 医学信息学杂志,2013, 34(10): 2-7.

17 Taylor R. An Overview of the Hadoop/MapReduce/HBase Framework and Its Current Applications in Bioinformatics[J]. BMC Bioinformatics,2013, 11(Suppl 12): S1.

18 Schatz M C. CloudBurst: highly sensitive read mapping with MapReduce[J].Bioinformatics, 2009, 25(11): 1363-1369.

19 Pandey R V, C Schlötterer. DistMap: a toolkit for distributed short read mapping on a Hadoop cluster[J]. PLoS ONE, 2013, 8(8): e72614.

20 D O’Connor B, B Merriman, et al. SeqWare Query Engine: storing and searching sequence data in the cloud[J]. BMC Bioinformatics,2010, 11(Suppl 12): S2.

21 Nagasaki H, T Mochizuki, et al. DDBJ Read Annotation Pipeline: a cloud computing-based pipeline for high-throughput analysis of next-generation sequencing data[J]. DNA Research,2013, 20(4): 383-390.

22 Lewis S, A Csordas, et al. Hydra: a scalable proteomic search engine which utilizes the Hadoop distributed computing framework[J]. BMC Bioinformatics, 2012, 13(1): 324.

23 Robinson T, S Killcoyne, et al. SAMQA: error classification and validation of high-throughput sequenced read data[J]. BMC Genomics, 2011, 12(1): 419.

24 Huang W, L Li, et al. ART: a next-generation sequencing read simulator[J]. Bioinformatics,2012, 28(4): 593-594.

25 Chen C-C, Y-J Chang, et al. CloudRS: an error correction algorithm of high-throughput sequencing data based on scalable framework[C]. Santa Clara, CA, US: IEEE International Conference on Big Data, 2013: 717-722.

26 McKenna A, M Hanna, et al. The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data[J]. Genome Research, 2010, 20(9): 1297-1303.

27 Brazma A, H Parkinson, et al. ArrayExpress-a public repository for microarray gene expression data at the EBI[J]. Nucleic Acids Research,2003, 31(1): 68-71.

28 Huang H, S Tata, et al. BlueSNP: R package for highly scalable genome-wide association studies using Hadoop clusters[J]. Bioinformatics, 2013, 29(1): 135-136.

29 Langmead B, K D Hansen, et al. Cloud-scale RNA-sequencing differential expression analysis with Myrna[J]. Genome Biol, 2010, 11(8): R83.

30 Jourdren L, M Bernard, et al. Eoulsan: a cloud computing-based framework facilitating high throughput sequencing analyses[J]. Bioinformatics, 2012, 28(11): 1542-1543.

31 Wiewiórka M S, A Messina, et al. SparkSeq: fast, scalable, cloud-ready tool for the interactive genomic data analysis with nucleotide precision[J]. Bioinformatics, 2014, 30(18):2652-2653.

32 Schumacher A, L Pireddu, et al. SeqPig: simple and scalable scripting for large sequencing data sets in Hadoop[J]. Bioinformatics, 2014, 30(1): 119-120.

33 Angiuoli S V, M Matalka, et al. CloVR: a virtual machine for automated and portable sequence analysis from the desktop using cloud computing[J]. BMC Bioinformatics, 2011, 12(1): 356.

34 Krampis K, T Booth, et al. Cloud BioLinux: pre-configured and on-demand bioinformatics computing for the genomics community[J]. BMC Bioinformatics, 2012, 13(1): 42.

35 Chung W-C, C-C Chen, et al. CloudDOE: a user-friendly tool for deploying hadoop clouds and analyzing high-throughput sequencing data with mapReduce[J]. PLoS ONE,2014, 9(6): e98146.

36 Jin Y, T Deyu, et al. A Distributed Storage Model for EHR Based on HBase[C].Hong Kong, China: IEEE International Conference on Information Management, Innovation Management and Industrial Engineering (ICIII), 2011:26-27.

37 Nguyen A V, R Wynden, et al. HBase, MapReduce, and Integrated Data Visualization for Processing Clinical Signal Data[C]. Standford University: AAAI Spring Symposium: Computational Physiology, 2011.

38 Dutta H, A Kamil, et al. Grid and Cloud Database Management[M]. Springer, 2011: 331-347.

39 Sahoo S S, C Jayapandian, et al. Heart Beats in the Cloud: distributed analysis of electrophysiological ‘big data’using cloud computing for epilepsy clinical research[J]. Journal of the American Medical Informatics Association, 2014, 21(2): 263-271.

40 Mazurek M. Beyond Databases, Architectures, and Structures[M]. Springer, 2014: 527-536.

41 Schultz T. Turning Healthcare Challenges into Big Data Opportunities: a use‐case review across the pharmaceutical development lifecycle[J]. Bulletin of the American Society for Information Science and Technology, 2013, 39(5): 34-40.

42 Sobhy D, Y El-Sonbaty, et al. MedCloud: healthcare cloud computing system[C]. London, UK: Proceedings of the 7th International Conference for Internet Technology and Secured Transactions, 2012:161-166.

43 Lin W, W Dou, et al. A Cloud-based Framework for Home-diagnosis Service over Big Medical Data[J]. Journal of Systems and Software, 2014,(102):192-206.

44 Bahga A, V K Madisetti. A Cloud-based Approach for Interoperable Electronic Health Records (EHRs) [J]. IEEE Journal of Biomedical and Health Informatics, 2013 17(5): 894-906.

45 Deb B, S N Srirama. Social Networks for eHealth Solutions on Cloud[J]. Frontiers in Genetics, 2013, (4):171.

46 Sharp J. An Application Architecture to Facilitate Multi-site Clinical Trial Collaboration in the Cloud[C].New York, US: Proceedings of the 2nd International Workshop on Software Engineering for Cloud Computing, ACM, 2011: 64-68.

47 Chen J, F Qian, et al. Translational Biomedical Informatics in the Cloud: present and Future[EB/OL].[2015-06-01]. http://dx.doi.org/10.1155/2013/658925.

48 He C, X Fan, et al. Toward Ubiquitous Healthcare Services with a Novel Efficient Cloud Platform[J]. IEEE Transactions on Biomedical Engineering, 2013, 60(1): 230-234.

49 Wang Y, L Wang, et al. Frontier and Future Development of Information Technology in Medicine and Education[M]. Springer, 2014: 1575-1583.

50 Ng K, A Ghoting, et al. PARAMO: a parallel predictive modeling platform for healthcare analytic research using electronic health records[J]. Journal of Biomedical Informatics, 2014, (48): 160-170.

51 Ghani K R, K Zheng, et al. Harnessing Big Data for Health Care and Research: are urologists ready?[J]. European Urology, 2014,(66):975-977.

52 Deligiannis P, H-W Loidl, et al. Improving the Diagnosis of Mild Hypertrophic Cardiomyopathy with Mapreduce[C].New York, US: Proceedings of Third International Workshop on MapReduce and Its Applications Date, 2012:41-48.

53 Wang W, E Krishnan. Big Data and Clinicians: a review on the state of the science[J]. JMIR Medical Informatics, 2014, 2(1): e1.

54 Porche D J. Men's Health Big Data[J]. American Journal of Men's Health,2014, 8(3): 189.

55 Genta R M, A Sonnenberg. Big Data in Gastroenterology Research[J]. Nat Rev Gastroenterol Hepatol,2014, 11(6): 386-390.

56 Chawla N V, D A Davis. Bringing Big Data to Personalized Healthcare: a patient-centered framework[J]. Journal of General Internal Medicine,2013, 28(3): 660-665.

57 Abbott R. Big Data and Pharmacovigilance: using health information exchanges to revolutionize drug safety[J]. Iowa L Rev, 2013, (99): 225.

58 Zolfaghar K, N Meadem, et al. Big Data Solutions for Predicting Risk-of-readmission for Congestive Heart Failure Patients[C]. Santa Clara, CA, USA: Proc IEEE International Conference on Big Data, 2013:64-71.

59 McGregor C. Big Data in Neonatal Intensive Care[J]. Computer,2013, 46(6): 54-59.

60 Raghupathi W, V Raghupathi. Big Data Analytics in Healthcare: promise and potential[J]. Health Information Science and Systems,2014, 2(1): 3.

61 Yao Q-A, H Zheng, et al. Massive Medical Images Retrieval System Based on Hadoop[J]. Journal of Multimedia, 2014, 9(2): 216-222.

62 Grace R K, R Manimegalai, et al. Medical Image Retrieval System in Grid Using Hadoop Framework[C]. Las Vegas, Nevada, USA:International Conference on Computational Science and Computational Intelligence(CSCI), 2014: 144-148.

63 Jai-Andaloussi S, A Elabdouli, et al. Medical Content Based Image Retrieval by Using the Hadoop Framework[C]. Finland: 20th International Conference on Telecommunications (ICT), 2013:1-5.

64 Wang F, R Lee, et al. Hadoop-gis: a high performance query system for analytical medical imaging with mapreduce[D]. Altlanta,USA: Emory University,2011.

65 Dilsizian S E, E L Siegel. Artificial Intelligence in Medicine and Cardiac Imaging: harnessing big data and advanced computing to provide personalized medical diagnosis and treatment[J]. Current Cardiology Reports,2014, 16(1): 1-8.

66 Markonis D, R Schaer, et al. Using MapReduce for Large-Scale Medical Image Analysis[C]. La Jolla, CA, USA:IEEE Second International Conference on Healthcare Informatics, Imaging and Systems Biology, 2012:1.

67 Hay S I, D B George, et al. Big Data Opportunities for Global Infectious Disease Surveillance[J]. PLoS Medicine, 2103, 10(4): e1001413.

68 Young S D, C Rivers, et al. Methods of Using Real-time Social Media Technologies for Detection and Remote Monitoring of HIV Outcomes[J]. Preventive Medicine,2014, (63): 112-115.

69 Lee B, E Jeong. A Design of a Patient-customized Healthcare System based on the Hadoop with Text Mining (PHSHT) for an Efficient Disease Management and Prediction[J]. International Journal of Software Engineering & Its Applications,2014, 8(8):131-150.

70 Lamarche-Vadel A, G Pavillon, et al. Automated Comparison of Last Hospital Main Diagnosis and Underlying Cause of Death ICD10 Codes, France, 2008-2009[J]. BMC Medical Informatics and Decision Making,2014, 14(1): 44.

Big Data Application in Biomedical Informatics

LUOZhi-hui,WUMin,ZHAOYi-qing,

UniversityofWisconsin-Milwaukee,Milwaukee53201,USA

Big data is becoming increasingly important for biomedical informatics research. The paper introduces big data applications in four areas: bioinformatics, clinical informatics, image informatics, and public health informatics,summarizes latest progress and prospects the future development.

Big data; Biomedical informatics; Application

2015-04-01

罗志辉,博士,助理教授,发表论文多篇。

R-058

A 〔DOI〕10.3969/j.issn.1673-6036.2015.05.001

猜你喜欢
信息学基因组测序
牛参考基因组中发现被忽视基因
鸡NRF1基因启动子区生物信息学分析
外显子组测序助力产前诊断胎儿骨骼发育不良
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
中草药DNA条形码高通量基因测序一体机验收会在京召开
基因测序技术研究进展
初论博物馆信息学的形成
外显子组测序助力产前诊断胎儿骨骼发育不良
紫花白及基因组DNA提取方法的比较